Tesseract-OCR apmokymas

Dėmesio, šis puslapis jau kiek senstelėjęs. Yra pasirodžiusi Tesseract-OCR 3 versija, kurioje lietuvių kalbos atpažinimas yra iš kart prieinamas, be mano priedų. Tiesa, Google niekaip neduoda man prieigos prie 3 versijos lietuvių kalbos apmokymo priemonių, tiesiog negaunu iš jų atsakymo…

Programą reikia papildomai apmokyti, nes šiuo metu ji apmokyta pažinti tik kelis šriftus (Arial, Times New Roman, Verdana, Courier New, DejaVu, Palemonas,Vytis), ir tai – gan paviršutiniškai. Jei skenuodami tekstą aptiksite, kad programa blogai susidoroja su užduotimi, galite padėti man ją papildomai apmokyti.

Apmokymo procesas

išrinkite geros skenavimo kokybės puslapį ar jo dalį iš to teksto, kurį skenuoja blogai; jei žinote, koks tai šriftas, parenkite vieną puslapį su tuo šriftu, šiek tiek padidinę tarpus tarp raidžių;
sukurkite pagal čia pateiktas instrukcijas *.tif ir *.box failus,
pataisykite iki geros būsenos *.box failą ir
atsiųskite *.box ir *.tif failų porą man.

Aš jais papildomai apmokysiu Tesseract-OCR.

Apmokymui naudoti failai

Šie failai buvo naudoti atitinkamoms tesseract-ocr-lit paketo versijoms „gaminti“:

boxtiff-2.03-0.3-lit.tar.gz
boxtiff-2.03-0.2.3-lit.tar.gz
boxtiff-2.03-0.1-lit.tar.gz – šiuose failuose yra nemažai klaidų…

Komentarai

Parašykite komentarą Atšaukti atsakymą

This site uses Akismet to reduce spam. Learn how your comment data is processed.