Pritaikom „tesseract-ocr“ lietuviškiems tekstams

Atnaujinimas (2008-08-11): yra nauja paketo versija, žr. pagrindinį tesserace-ocr-lit puslapį štai čia.

=======

Susidomėjau teksto nuskaitymo priemonėmis Linux aplinkoj po to, kai prireikė keletą puslapių nuskaityt. Po nesėkmingo bandymo įdiegti abby fine reader programą per wine teko pasižiūrėt, kokios gi programos tam skirtos Linux terpėje. Deja, ne kaži kas – geriausiai veikia komandinės eilutės programa tesseract-ocr, bet ji dar nėra pritaikyta lietuviškiems tekstams.

Tačiau ją galima išmokyti pažinti lietuviškus tekstus. Taigi, šiek tiek ties tuo pasėdėjau, ir pristatau visiems rezultatus: Debian programos paketą, kurį reikia įdiegti kartu su tesseract-ocr (pageidautina – ir tesseract-ocr-eng) paketu (čia nuorodos į naujausią versiją K/Ubuntu linux sistemai), bei paprastame archyve supakuotus lietuvių kalbos failus. Tuo pačiu prašau padėti man patobulinti lietuviško teksto atpažinimą – apie tai skaitykite žemiau.

Jei naudosite Debian paketą, tiesiog jį įdiekite, siūlau, kartu su naujausiais tesseract paketais, skirtais ateinančiai (8.10) versijai, kurie puikiai veikia ir su šiuo metu platinama K/Ubuntu versija Hardy (8.04). Jei naudosite .tar.gz archyvą, išpakuotus jame esančius lit. failus perrašykite į tessdata/ aplanką savo linux ar Windows failų sistemoje (K/Ubuntu ir Debian atveju tai yra /usr/share/tesseract-ocr/tessdata aplankas).

Beje, šie failai pritaiko lietuvių kalbos rašmenims nuskaityti ir FreeOCR programą, veikiančią tesseract-ocr pagrindu ir skirtą Windows OS. Jei kam pavyks šią programą įdiegti į Linux per Wine – duokit žinot! Ji veikia ant .NET platformos, kurios būtent ir nepavyksta įdiegti per Wine…

Kaip galite prisidėti:

Programą reikia papildomai apmokyti, nes šiuo metu ji apmokyta pažinti tik kelis šriftus (Arial, Times New Roman, Verdana), ir tai – gan paviršutiniškai. Jei skenuodami tekstą (kaip tai daryti geriausias instrukcijas pateikia šis linux-journal straipsnis) aptiksite, kad programa blogai susidoroja su užduotimi:

  • išrinkite geros skenavimo kokybės puslapį ar jo dalį iš to teksto, kurį skenuoja blogai,

  • sukurkite pagal čia pateiktas instrukcijas .tif ir .box failus,

  • pataisykite iki geros būsenos *.box failą ir

  • atsiųskite juos man.

Aš jais papildomai apmokysiu tesseract-ocr ir gal būt ateityje ji tekstą su lietuviškais simboliais skaitys geriau.

Savo naudotus .tif ir .box failus taip pat pateikiu, nors vargu ar jie yra geri pavyzdžiai:

Sėkmės!


Paskelbta

sukūrė

Komentarai

Atsakymai į “Pritaikom „tesseract-ocr“ lietuviškiems tekstams”: 3

  1. Mantas avataras

    Ačiū tau, Donatai, už gerą ir naudingą darbą 🙂
    Kaip manai, ar verta jau įdėti tesseract-ocr-lit deb paketą į oficialią Baltix GNU/Linux operacinės sistemos programų saugyklą bei į Baltix GNU/Linux OS CD?
    Beje, kokią user-friendly OCR programą galima būtų naudoti Baltix’e (GNOME aplinkoje) su šiuo OCR varikliu?
    Gal reikia užregistruoti bug’ą Launchpad.net Baltix projekte?

  2. Donatas G. avataras

    Mantai, manau su paketo įdėjimu į Baltix dar reiktų luktelėti, nedrąsu man dėl jo kokybės. Gal atsiras dar kas nors, kas patobulins mano padarytą paketą. Žinau vieną internautą, kuris jau anksčiau yra padaręs tai, ką aš dabar padariau, bandau su juo susisiekti – gal jis pasidalins savo darbu ir tesseract lietuviškų simbolių bus dar geriau apmokyta.

    O jei ir negausiu pagalbos, būtų gerai sulaukti bent jau atsiliepimų apie tai, kaip žmonėms sekėsi naudoti naują lietuviško teksto atpažinimo dalį.

  3. Rytis avataras
    Rytis

    Sveikas, Donatai,
    Prisipažinsiu, kad esu neLinux’istas, naudoju MS Win, tai ir nežinau, kaip žiūri į tokius vartotojus, ir kaip tau bus iš vis aktualu kažką tobulinti, kad veiktų ir ant Win 😉
    Susidomėjau tavo darbu lietuvinant tesseract-ocr. Skaičiau ir pagrindinį tavo šiam produktui skirtą puslapį, bet komentuoju čia (ten, beje, teks pataisyti FreeOCR nuorodą, nes programa atsidūrė pas naujus savininkus, bet ten kol kas nebėra parsisiųsti nei senosios, nei jų naujai kuriamos naujosios GUI versijos… :))) )
    O susidomėjau todėl, kad naudoju keletą grupės software995 programų, taip pat ir onmiconvert, kuri turi OCR galimybę per tesseract-ocr. Tik ši, kaip pats žinai, oficialiai neturi LT atpažinimo 🙂
    Onmiconvert irgi naudoja nepilną tesseract-ocr ir dar neišku, kokios versijos. Taigi, bandau dabar pakišti tam Onmiconvert naujausią tesseract-ocr ir tavo LT atpažinimą. Jei pavyks, gal netgi galėčiau kažkiek prisidėti prie tavo LT for tesseract-ocr projekto, jei tai tau dar tebeįdomu. Gali rašyt man tiesiai į gmail 🙂

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *

Brukalų kiekiui sumažinti šis tinklalapis naudoja Akismet. Sužinokite, kaip apdorojami Jūsų komentarų duomenys.