Tesseract-OCR naudojimas

Dėmesio, šis puslapis jau kiek senstelėjęs. Yra pasirodžiusi Tesseract-OCR 3 versija, kurioje lietuvių kalbos atpažinimas yra iš kart prieinamas, be mano priedų.

Tesseract galima naudoti be grafinės sąsajos, kaip paprastą komandų eilutės priemonę, ir su grafine sąsaja. Grafinių sąsajų esama tiek Windows, tiek ir Linux operacijų sistemoms. Visų pirma įsitikinkite, kad turite įsidiegę 2.03 programos versiją ir jos priedus, įgalinančius atpažinti lietuviškus rašmenis.

Naudojimas su grafine sąsaja

Windows atveju reikia naudoti FreeOCR programą.
Linux atveju galima naudoti XSane skenavimo programą kartu su xsane2tess adapteriu. Kaip Konfigūruoti XSane, paaiškinta šios diskusijų gijos paskutiniame įraše.

Naudojimas komandų eilutėje

Šios instrukcijos turėtų tikti visoms operacijų sistemoms. Pagrindinė tesseract-OCR sintaksė gan paprasta:


  $ tesseract paveikslelis.tif tekstas -l lit

kur:

paveikslelis.tif – tiff formato (tačiau – būtinai *.tif praplėtimo) paveikslėlis su tekstu, nuskenuotu ~ 300 dpi kokybe. Beje, paveikslėlis turėtų būti nesuspaustas, pilkų atspalvių ir pakoreguotu slenksčiu tokiu būdu, kad paveikslėlis būtų maksimalaus kontrasto / be pilkų atspalvių.
tekstas – nuskaityto failo pavadinimas be praplėtimo (praplėtimas *.txt bus suteiktas automatiškai).
-l lit – kalbos nuoroda (gali būti -l eng anglų kalbai ir panašiai). Jei šio parametro neužpildysite, programa bandys nuskaityti paveikslėlį „angliškai“.

Komentarai

Parašykite komentarą Atšaukti atsakymą

This site uses Akismet to reduce spam. Learn how your comment data is processed.