Hvordan kan jeg kopiere tekst fra en PDF, mens formatering bevares?

PDF, det allestedsnærværende dokumentformat, er fantastisk til deling af dokumenter, samtidig med at skrifttyper, billeder og det generelle layout på tværs af platforme bevares. Er der dog en nem måde at bevare den meget formatering, når man kopierer og indsætter tekst ud af dokumentet?

Dagens Spørgsmål & Svar session kommer til os med venlig hilsen af SuperUser-en underafdeling af Stack Exchange, en community-driven gruppe af Q & A-websteder.

Spørgsmålet

SuperUser-læser Colen søger efter en måde at udtrække tekst fra PDF-filer samtidig med at formateringen bevares:

Når jeg kopierer tekst ud af en PDF-fil og til en teksteditor, kommer den til at mangle på en række måder. Formatering som fed og kursiv tabt; bløde linjeskift inden for et stykke tekst konverteres til hurtige linjeskift; bindestreger til at bryde et ord over to linjer bevares, selv når de ikke burde være; og enkelt og dobbelt citater erstattes med? skilte.

Ideelt set vil jeg gerne kunne kopiere tekst fra en PDF, og formateringen er konverteret til HTML-koder, "smarte citater" konverteret til "og", og linjeskiftene udføres korrekt. Er der nogen måde at gøre dette på?

Er der en hurtig og nem måde for Colen (og resten af os) at få fat i tekst uden at ofre formateringen?

Svaret

SuperUser bidragyder Frabjous tilbyder en løsning kombineret med en stor dosis forsigtighed:

For det første skal du forstå, hvad en PDF er. PDF-filer er designet til at efterligne en udskrevet side, og de er kun udformet som et outputformat, ikke et inputformat. en PDF er dybest set et kort med den nøjagtige placering af tegn (individuelle bogstaver eller tegnsætning osv.) eller billeder. I de fleste tilfælde gemmer en PDF ikke engang oplysninger om, hvor ét ord slutter, og en anden begynder, meget mindre ting som bløde pauser vs. hårde pauser for afslutning af afsnit.

(Nogle få nyere PDF-filer gemmer nogle oplysninger om disse ting, men det er en ny teknologi, og du har det heldigt at finde PDF-filer sådan. Selvom du gjorde det, kan din PDF-viewer måske ikke vide det.)

Alligevel er det op til din software at gennemføre en slags "kunstig intelligens" for kun at udtrække fra placeringen af individuelle tegn, hvad er et ord, hvad er et afsnit osv. Forskellige software vil gøre dette bedre end andre, og det vil også afhænge af, hvordan PDF'en blev lavet. Under alle omstændigheder bør du aldrig forvente perfekte resultater. At have output-PDF er ikke det samme som at have kildedokumentet. Langt bedre at forsøge at opnå det, hvis du kan.

Standard løsningen på dit problem er at bruge Adobe Acrobat Professional (den dyre, ikke den frie læser) til at konvertere PDF til HTML. Selv det vil ikke få perfekte resultater.

Der er gratis software, der kan bruges til at udtrække tekst fra PDF-filer med noget af formateringen intakt, men igen forvent ikke perfekte resultater. Se f.eks. Kaliber (som kan konvertere til RTF format), pdftohtml / pdfreflow eller AbiWord tekstbehandlingsprogrammet (med alle import / eksport plugins aktiveret). Der er også et PDF-import plugin til OpenOffice.

Men vær venlig at forvente ikke perfektion med nogen af disse resultater. Du går mod kornet her. PDF er bare ikke et redigerbart inputformat.

Hvis du har problemer med at bestemme hvilket værktøj der skal begynde med, er Caliber et veritabelt dokument Swiss Army knife. Du kan også bruge den til at konvertere PDF-filer til brug på din ebook-læser og organisere dit e-bog / dokumentbibliotek.

Har du noget at tilføje til forklaringen? Lyde af i kommentarerne. Vil du læse flere svar fra andre tech-savvy Stack Exchange brugere? Tjek den fulde diskussionstråd her.