Pritaikom „tesseract-ocr“ lietuviškiems tekstams

Facebooktwitterpinterestlinkedintumblrmail

Atnaujinimas (2008-08-11): yra nauja paketo versija, žr. pagrindinį tesserace-ocr-lit puslapį štai čia.

=======

Susidomėjau teksto nuskaitymo priemonėmis Linux aplinkoj po to, kai prireikė keletą puslapių nuskaityt. Po nesėkmingo bandymo įdiegti abby fine reader programą per wine teko pasižiūrėt, kokios gi programos tam skirtos Linux terpėje. Deja, ne kaži kas – geriausiai veikia komandinės eilutės programa tesseract-ocr, bet ji dar nėra pritaikyta lietuviškiems tekstams.

Tačiau ją galima išmokyti pažinti lietuviškus tekstus. Taigi, šiek tiek ties tuo pasėdėjau, ir pristatau visiems rezultatus: Debian programos paketą, kurį reikia įdiegti kartu su tesseract-ocr (pageidautina – ir tesseract-ocr-eng) paketu (čia nuorodos į naujausią versiją K/Ubuntu linux sistemai), bei paprastame archyve supakuotus lietuvių kalbos failus. Tuo pačiu prašau padėti man patobulinti lietuviško teksto atpažinimą – apie tai skaitykite žemiau.

Jei naudosite Debian paketą, tiesiog jį įdiekite, siūlau, kartu su naujausiais tesseract paketais, skirtais ateinančiai (8.10) versijai, kurie puikiai veikia ir su šiuo metu platinama K/Ubuntu versija Hardy (8.04). Jei naudosite .tar.gz archyvą, išpakuotus jame esančius lit. failus perrašykite į tessdata/ aplanką savo linux ar Windows failų sistemoje (K/Ubuntu ir Debian atveju tai yra /usr/share/tesseract-ocr/tessdata aplankas).

Beje, šie failai pritaiko lietuvių kalbos rašmenims nuskaityti ir FreeOCR programą, veikiančią tesseract-ocr pagrindu ir skirtą Windows OS. Jei kam pavyks šią programą įdiegti į Linux per Wine – duokit žinot! Ji veikia ant .NET platformos, kurios būtent ir nepavyksta įdiegti per Wine…

Kaip galite prisidėti:

Programą reikia papildomai apmokyti, nes šiuo metu ji apmokyta pažinti tik kelis šriftus (Arial, Times New Roman, Verdana), ir tai – gan paviršutiniškai. Jei skenuodami tekstą (kaip tai daryti geriausias instrukcijas pateikia šis linux-journal straipsnis) aptiksite, kad programa blogai susidoroja su užduotimi:

  • išrinkite geros skenavimo kokybės puslapį ar jo dalį iš to teksto, kurį skenuoja blogai,

  • sukurkite pagal čia pateiktas instrukcijas *.tif ir *.box failus,

  • pataisykite iki geros būsenos *.box failą ir

  • atsiųskite juos man.

Aš jais papildomai apmokysiu tesseract-ocr ir gal būt ateityje ji tekstą su lietuviškais simboliais skaitys geriau.

Savo naudotus *.tif ir *.box failus taip pat pateikiu, nors vargu ar jie yra geri pavyzdžiai:

Sėkmės!

Facebooktwitterpinterestlinkedintumblrmail