Tesseract-OCR naudojimas

Facebooktwittergoogle_pluspinterestlinkedintumblrmail

Dėmesio, šis puslapis jau kiek senstelėjęs. Yra pasirodžiusi Tesseract-OCR 3 versija, kurioje lietuvių kalbos atpažinimas yra iš kart prieinamas, be mano priedų.

Tesseract galima naudoti be grafinės sąsajos, kaip paprastą komandų eilutės priemonę, ir su grafine sąsaja. Grafinių sąsajų esama tiek Windows, tiek ir Linux operacijų sistemoms. Visų pirma įsitikinkite, kad turite įsidiegę 2.03 programos versiją ir jos priedus, įgalinančius atpažinti lietuviškus rašmenis.

Naudojimas su grafine sąsaja

Naudojimas komandų eilutėje

Šios instrukcijos turėtų tikti visoms operacijų sistemoms. Pagrindinė tesseract-OCR sintaksė gan paprasta:

  $ tesseract paveikslelis.tif tekstas -l lit

kur:

  • paveikslelis.tif – tiff formato (tačiau – būtinai *.tif praplėtimo) paveikslėlis su tekstu, nuskenuotu ~ 300 dpi kokybe. Beje, paveikslėlis turėtų būti nesuspaustas, pilkų atspalvių ir pakoreguotu slenksčiu tokiu būdu, kad paveikslėlis būtų maksimalaus kontrasto / be pilkų atspalvių.

  • tekstas – nuskaityto failo pavadinimas be praplėtimo (praplėtimas *.txt bus suteiktas automatiškai).

  • -l lit – kalbos nuoroda (gali būti -l eng anglų kalbai ir panašiai). Jei šio parametro neužpildysite, programa bandys nuskaityti paveikslėlį „angliškai“.

Facebooktwittergoogle_pluspinterestlinkedintumblrmail