Uddrag tekst fra PDF og billedfiler
Har du et PDF-dokument, som du gerne vil udtrække al teksten ud af? Hvad med billedfiler af et scannet dokument, som du vil konvertere til redigerbar tekst? Dette er nogle af de mest almindelige problemer, jeg har set på arbejdspladsen, når jeg arbejder med filer.
I denne artikel vil jeg snakke om flere forskellige måder, du kan gøre ved at prøve at udtrække tekst fra en PDF eller fra et billede. Dine udvindingsresultater varierer afhængigt af typen og kvaliteten af teksten i PDF eller billede. Dine resultater varierer også afhængigt af det værktøj, du bruger, så det er bedst at afprøve så mange af mulighederne herunder som muligt for at få de bedste resultater..
Uddrag tekst fra billede eller PDF
Den enkleste og hurtigste måde at starte er at prøve en online PDF tekst udtræk service. Disse er normalt gratis og kan give dig præcis det, du leder efter, uden at skulle installere noget på din computer. Her er to, jeg har brugt med meget gode til gode resultater:
ExtractPDF
ExtractPDF er et gratis værktøj til at gribe billeder, tekst og skrifttyper ud af en PDF-fil. Den eneste begrænsning er, at den maksimale størrelse for PDF-filen er 10 MB. Det er lidt lille; så hvis du har en større fil, prøv nogle af de andre metoder nedenfor. Vælg din fil, og klik derefter på Send fil knap. Resultaterne er normalt meget hurtige, og du bør se et eksempel på teksten, når du klikker på fanen Tekst.
Det er også en god ekstra fordel at det også uddrages billeder ud af PDF-filen, bare hvis du har brug for dem! Alt i alt fungerer onlineværktøjet godt, men jeg har kørt ind i et par PDF-dokumenter, der giver mig sjov output. Teksten udvindes bare fint, men af en eller anden grund vil det have en linie pause efter hvert ord! Ikke et stort problem for en kort PDF-fil, men bestemt et problem for filer med masser af tekst. Hvis det sker med dig, så prøv det næste værktøj.
Online OCR
Online OCR plejer normalt at arbejde for de dokumenter, der ikke konverterede ordentligt med ExtractPDF, så det er en god ide at prøve begge tjenester for at se, hvilke der giver dig bedre output. Online OCR har også nogle pænere funktioner, som kan vise sig praktisk for alle med en stor PDF-fil, der kun skal konvertere tekst på et par sider i stedet for hele dokumentet.
Den første ting du vil gøre er at gå videre og oprette en gratis konto. Det er lidt irriterende, men hvis du ikke opretter den gratis konto, vil den kun delvis konvertere din PDF i stedet for hele dokumentet. Også i stedet for kun at kunne uploade kun et 5 MB dokument, kan du uploade op til 100 MB pr. Fil med en konto.
Først skal du vælge et sprog og derefter vælge den type outputformater, du vil have til den konverterede fil. Du har et par muligheder, og du kan vælge mere end en, hvis du vil. Under Flerdokument, du kan vælge Sidetal og vælg derefter kun de sider, du vil konvertere. Derefter vælger du filen og klikker på Konvertere!
Efter konvertering vil du blive bragt til afsnittet Dokumenter (hvis du er logget ind), hvor du kan se, hvor mange ledige gratis sider du har tilbage, og links til at downloade dine konverterede filer. Det lader til, at du kun har 25 sider gratis om dagen, så hvis du har brug for mere end det, skal du enten vente lidt eller købe flere sider.
Online OCR gjorde et fremragende arbejde med at konvertere mine PDF-filer, fordi det var i stand til at opretholde den faktiske layout af teksten. I min test tog jeg et Word-dokument, der brugte kugler, forskellige skrifttypestørrelser osv. Og konverterede det til en PDF. Så brugte jeg Online OCR til at konvertere det tilbage til Word-format, og det var omkring 95% det samme som originalen. Det er ret imponerende for mig.
Plus, hvis du søger at konvertere et billede til tekst, så kan Online OCR gøre det lige så nemt som at udvinde tekst fra PDF-filer.
Gratis online OCR
Siden talte om billede til tekst OCR, lad mig nævne en anden god hjemmeside, der fungerer rigtig godt på billeder. Gratis online OCR var meget god og meget nøjagtig, når du ekstraherede tekst fra mine testbilleder. Jeg tog et par billeder fra min iPhone på sider fra bøger, brochurer osv., Og jeg var overrasket over, hvor godt det var i stand til at konvertere teksten.
Vælg din fil, og klik derefter på knappen Upload. På den næste skærm er der et par muligheder og et eksempel på billedet. Du kan beskære det, hvis du ikke vil OCR hele grebet. Klik derefter på OCR-knappen, og din konverterede tekst vises under billedeksemplet. Det har heller ikke nogen begrænsninger, hvilket er rigtig flot.
Ud over onlinetjenesterne er der to freeware-PDF-konverterere, jeg vil nævne, hvis du har brug for software, der kører lokalt på din computer for at udføre konverteringerne. Med onlinetjenester har du altid brug for en internetforbindelse, og det er muligvis ikke muligt for alle. Jeg bemærkede dog, at kvaliteten af konverteringerne fra freeware-programmerne var signifikant værre end de af hjemmesiderne.
A-PDF Text Extractor
A-PDF Text Extractor er freeware, der gør et ret godt stykke arbejde med at udvinde tekst fra PDF-filer. Når du har downloadet det og installeret det, skal du klikke på knappen Åbn for at vælge din PDF-fil. Klik derefter på Uddrag tekst for at starte processen.
Det vil bede dig om et sted at gemme tekstuddatafilen, og så begynder den at udvinde. Du kan også klikke på Mulighed knappen, som giver dig mulighed for kun at vælge bestemte sider til ekstraktion og udtrækstype. Den anden mulighed er interessant, fordi den ekstraherer teksten i forskellige layouter, og det er værd at prøve alle tre for at se hvilke der giver dig den bedste output.
PDF2Text Pilot
PDF2Text Pilot gør et godt stykke arbejde med uddragning af tekst. Det har ingen valgmuligheder; Du tilføjer blot filer eller mapper, konverter og håber på det bedste. Det fungerede godt på nogle PDF-filer, men for de fleste af dem var der mange problemer.
Klik blot på Tilføj filer og klik derefter på Konvertere. Når konverteringen er færdig, skal du klikke på Gennemse for at åbne filen. Din kilometertal vil variere ved hjælp af dette program, så forvent ikke meget.
Det er også værd at nævne, at hvis du er i et corporate miljø eller kan få hænderne på en kopi af Adobe Acrobat fra arbejde, så kan du virkelig få meget bedre resultater. Acrobat er naturligvis ikke gratis, men det har muligheder for at konvertere PDF til Word, Excel og HTML-format. Det gør også det bedste arbejde med at opretholde strukturen i det originale dokument og konvertere kompliceret tekst.