Tesseract-OCR apmokymas

Programą reikia papildomai apmokyti, nes šiuo metu ji apmokyta pažinti tik kelis šriftus (Arial, Times New Roman, Verdana, Courier New, DejaVu, Palemonas,Vytis), ir tai – gan paviršutiniškai. Jei skenuodami tekstą aptiksite, kad programa blogai susidoroja su užduotimi, galite padėti man ją papildomai apmokyti.

Apmokymo procesas

  • išrinkite geros skenavimo kokybės puslapį ar jo dalį iš to teksto, kurį skenuoja blogai; jei žinote, koks tai šriftas, parenkite vieną puslapį su tuo šriftu, šiek tiek padidinę tarpus tarp raidžių;

  • sukurkite pagal čia pateiktas instrukcijas *.tif ir *.box failus,

  • pataisykite iki geros būsenos *.box failą ir

  • atsiųskite *.box ir *.tif failų porą man.

Aš jais papildomai apmokysiu Tesseract-OCR.

Apmokymui naudoti failai

Šie failai buvo naudoti atitinkamoms tesseract-ocr-lit paketo versijoms „gaminti“:

  1. Dar nėra komentarų.
(nebus skelbiama)