Tesseract.js Bringer Image OCR-oversættelse til browsere

OCR-oversættelse er stadig ikke perfekt, men det har forbedret sig dramatisk i løbet af de sidste par år. På vej er Tesseract oversættelsesmotor øjeblikket åbnes i C++.

Selvom dette er et utroligt bibliotek, er det dog begrænset til software. Heldigvis lavede nogen en havn af Tesseract til JavaScript, som hedder Tesseract.js. Det understøtter op til 60 sprog og selv om det helt sikkert ikke er perfekt, det gør jobbet godt.

Installation og opsætning er en brise, hvor du kan målrette ethvert billedelement på siden og kør den Tesseract.recognize () fungere. Dette kan tage enhver form for billede, og det bliver automatisk komprimere og oversætte lige i browseren.

Du kan blive meget mere kompliceret, men skønheden er hvordan du kan køre OCR med en enkelt kodekode.

Tjek Tesseract.js destinationsside, hvis du vil se en live demo. Dette virker lige i browseren, hvor du kan Træk og slip et scannet billede af tekst for at få en automatisk OCR-oversættelse.

Du kan også downloade dette eksempel lokalt via GitHub-siden, eller du kan opbygge din egen app ved at inkludere Tesseract.js-scriptet lige fra en CDN.

Det enkleste kodeeksempel ser ud som følgende, hvor MyImage er en direkte henvisning til et HTML-billedelement:

 Tesseract.recognize (myImage) .then (funktion (resultat) console.log (resultat));

Uanset hvordan dette bibliotek er så nyttigt at komme i gang med OCR på internettet. Det er langt fra perfekt, men det er også det bedste ressource til webudviklere, der ønsker dynamisk in-side OCR-funktionalitet.

For at lære mere, besøg siden Tesseract.js GitHub, hvor du kan tjekke en live demo og gennemse online dokumentationen.