Dėmesio, šis puslapis jau kiek senstelėjęs. Yra pasirodžiusi Tesseract-OCR 3 versija, kurioje lietuvių kalbos atpažinimas yra iš kart prieinamas, be mano priedų. Tiesa, Google niekaip neduoda man prieigos prie 3 versijos lietuvių kalbos apmokymo priemonių, tiesiog negaunu iš jų atsakymo…
Programą reikia papildomai apmokyti, nes šiuo metu ji apmokyta pažinti tik kelis šriftus (Arial, Times New Roman, Verdana, Courier New, DejaVu, Palemonas,Vytis), ir tai – gan paviršutiniškai. Jei skenuodami tekstą aptiksite, kad programa blogai susidoroja su užduotimi, galite padėti man ją papildomai apmokyti.
Apmokymo procesas
-
išrinkite geros skenavimo kokybės puslapį ar jo dalį iš to teksto, kurį skenuoja blogai; jei žinote, koks tai šriftas, parenkite vieną puslapį su tuo šriftu, šiek tiek padidinę tarpus tarp raidžių;
-
sukurkite pagal čia pateiktas instrukcijas *.tif ir *.box failus,
-
pataisykite iki geros būsenos *.box failą ir
-
atsiųskite *.box ir *.tif failų porą man.
Aš jais papildomai apmokysiu Tesseract-OCR.
Apmokymui naudoti failai
Šie failai buvo naudoti atitinkamoms tesseract-ocr-lit paketo versijoms „gaminti“:
-
boxtiff-2.03-0.1-lit.tar.gz – šiuose failuose yra nemažai klaidų…
Parašykite komentarą