Sådan konverteres en PDF-fil til redigerbar tekst ved hjælp af kommandolinjen i Linux
Der er forskellige grunde til, at du måske vil konvertere en PDF-fil til redigerbar tekst. Måske skal du revidere et gammelt dokument, og alt du har, er PDF-versionen af det. Konvertering af PDF-filer i Windows er let, men hvad hvis du bruger Linux?
Ingen problemer. Vi viser dig, hvordan du nemt konverterer PDF-filer til redigerbar tekst ved hjælp af et kommandolinjeværktøj kaldet pdftotext, der er en del af pakken "poppler-utils". Dette værktøj er muligvis allerede installeret. For at kontrollere, om pdftotext er installeret på dit system, skal du trykke på "Ctrl + Alt + T" for at åbne et terminalvindue. Indtast følgende kommando ved prompten og tryk på "Enter".
dpkg-s poppler-utils
BEMÆRK: Når vi siger at skrive noget i denne artikel, og der er citater omkring teksten, skriv IKKE citaterne, medmindre vi angiver andet.
Hvis pdftotext ikke er installeret, skriv følgende kommando ved prompten og tryk på "Enter".
sudo apt-get install poppler-utils
Indtast din adgangskode, når du bliver bedt om det, og tryk på "Enter".
Der findes flere værktøjer i Poppler-Utils-pakken til at konvertere PDF til forskellige formater, manipulere PDF-filer og udvinde oplysninger fra filer.
Følgende er den grundlæggende kommando til konvertering af en PDF-fil til en redigerbar tekstfil. Tryk på "Ctrl + Alt + T" for at åbne et Terminal vindue, skriv kommandoen ved prompten og tryk "Enter".
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Skift stien til hver fil for at svare til placeringen og navnet på din oprindelige PDF-fil, og hvor du vil gemme den resulterende tekstfil. Du kan også ændre filnavnet til at svare til navne på dine filer.
Tekstfilen oprettes og kan åbnes, ligesom du vil åbne en anden tekstfil i Linux.
Den konverterede tekst kan have linjeskift på steder, du ikke vil have. Linjeskift indsættes efter hver tekstlinie i PDF-filen.
Du kan bevare layoutet på dit dokument (overskrifter, footers, personsøgning osv.) Fra den oprindelige PDF-fil i den konverterede tekstfil ved hjælp af "-layout" -flagget.
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Hvis du kun vil konvertere en række sider i en PDF-fil, skal du bruge "-f" og "-l" (en lille "L") flag for at angive de første og sidste sider i det interval, du vil konvertere.
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
For at konvertere en PDF-fil, der er beskyttet og krypteret med en ejeradgangskode, skal du bruge "-opw" -flagget (det første tegn i flag er et lille bogstav "O", ikke et nul).
pdftotext -opw 'password' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Skift "password" til den, der bruges til at beskytte den oprindelige PDF-fil, der konverteres. Sørg for, at der er enkelte citater, ikke dobbelt, omkring "adgangskode".
Hvis PDF-filen er beskyttet og krypteret med en brugeradgangskode, skal du bruge "-upw" -flagget i stedet for "-opw" -flagget. Resten af kommandoen er den samme.
Du kan også angive typen af end-of-line-tegn, der anvendes til den konverterede tekst. Dette er især nyttigt, hvis du planlægger at få adgang til filen på et andet operativsystem som Windows eller Mac. For at gøre dette skal du bruge "-eol" -flagget (det midterste tegn i flagret er et lille bogstav "O", ikke en nul) efterfulgt af et mellemrum og typen af enden af linjestykket, du vil bruge (" unix "," dos "eller" mac ").
BEMÆRK: Hvis du ikke angiver et filnavn for tekstfilen, bruger pdftotext automatisk basen af PDF-filnavnet og tilføjer ".txt" -udvidelsen. For eksempel konverteres "file.pdf" til "file.txt". Hvis tekstfilen er angivet som "-", sendes den konverterede tekst til stdout, hvilket betyder at teksten vises i Terminal-vinduet og ikke gemmes i en fil.
For at lukke Terminal vinduet, klik på "X" knappen i øverste venstre hjørne.
For mere information om kommandoen pdftotext, skriv "man side pdftotext" ved prompten i et Terminal vindue.