Tesseract-OCR

Tesseract-OCR yra Linux, Mac0SX ir Windows platformoms skirta optinio teksto atpažinimo programa. Tai visų pirma – komandų eilutės programa, tačiau esama ir grafinių šios programos valdymo priemonių, kurios išvardintos žemiau.

Programa platinama pagal Apache Licence v2.0. Ją 1984-1994 m. sukūrė Hewlet Packard, o 2005 m. programa buvo išplatinta kartu su atviru šaltinio kodu. Šiuo metu jos tobulinimą prižiūri Google. Programos oficiali svetainė – //code.google.com/p/tesseract-ocr/.

Šiame puslapyje pateikiami mano sukurti priedai šiai programai, padedantys nuskaityti lietuviškus rašmenis. Šio teksto rašymo metu Tesseract-OCR oficialiai palaiko ispanų, olandų, prancūzų, anglų, vokiečių ir portugalų kalbas. Lietuvių kalba palaikoma neoficialiai mano sukurtų priedų pagalba.

Dėmesio, šie priedai neveikia su žemesnėmis nei 2.03 Tesseract-OCR versijomis, o taip pat – su Tesseract-OCR 3.0 ir aukštesnėmis versijomis. Tesseract-OCR 3 turi integruotą lietuvių kalbos palaikymą.

Atsisiuntimui

2010-06-01. Versija 0.4:

K/Ubuntu Linux:
tesseract-ocr-lit_2.04-0.4-unofficial0_all.deb – http://files.akl.lt/users/dgvirtual/ubuntu-lucid/tesseract-ocr-lit_2.04-0.4-unofficial0_all.deb (beje, nežinau, ar ji geresnė už 0.3 versiją – gal kas nors galėtumėte padaryti keletą testų ir pranešti rezultatus?)

2008-08-26. Versija 0.3:

K/Ubuntu Linux:
tesseract-ocr-lit_2.03-0.3-unofficial0_all.deb – http://files.akl.lt/users/dgvirtual/ubuntu-hardy/tesseract-ocr-lit_2.03-0.3-unofficial0_all.deb
Windows, Linux, MacOSX:
tesseract-ocr-lit_2.03_0.3-unofficial0.zip – http://files.akl.lt/users/dgvirtual/tesseract-ocr-lit_2.03_0.3-unofficial0.zip

2008-08-11. Versija 0.2.3:

K/Ubuntu Linux:
tesseract-ocr-lit_2.03-0.2.3-unofficial0_all.deb – http://files.akl.lt/users/dgvirtual/ubuntu-hardy/tesseract-ocr-lit_2.03-0.2.3-unofficial0_all.deb
Windows, Linux, MacOSX:
tesseract-ocr-lit_2.03_0.2.3-unofficial0.zip http://files.akl.lt/users/dgvirtual/tesseract-ocr-lit_2.03_0.2.3-unofficial0.zip

2008-07-22. Pirmoji programos sulietuvinimo priedų versija 0.1:

K/Ubuntu Linux:
tesseract-ocr-lit_2.03-0.1-unofficial0_all.deb – http://files.akl.lt/users/dgvirtual/ubuntu-hardy/tesseract-ocr-lit_2.03-0.1-unofficial0_all.deb
Windows, Linux, MacOSX:
tesseract-ocr-lit_2.03_0.1-unofficial0.tar.gz – http://files.akl.lt/users/dgvirtual/tesseract-ocr-lit_2.03_0.1-unofficial0.tar.gz

Tesseract-OCR atsisiuntimas:

Visas atsisiuntimui skirtas failų sąrašas.
K/Ubuntu Linux 2.03 versijos paketus galite atsisiųsti iš čia:
tesseract-ocr_2.03
tesseract-ocr-eng_2.00 (šio paketo taip pat reikia, net jei nesiruošiate dirbti su angliškais tekstais).
K/Ubuntu Linux Lucid versijai sukompiliuotas Tesseract-OCR 3 alpha kokybės paketas: tesseract-ocr3_3-alpha20100610_i386.deb.

Grafinės sąsajos

Windows: FreeOCR, VietOCR, Lime-OCR, OCRGUI.

Linux: KDE Dolphin kontekstinis meniu OCR using Tesseract, XSane programa kartu su xsane2tess, VietOCR; VietOCR ubuntu paketas – čia, tesseract-gui, Gimagereader, OCRfeeder, OCRGUI.

Mac OSX: VietOCR, TesseractGUI, OCRGUI.

Naujienos

2010-10-31. Jau prieš porą mėnesių pasirodė Tesseract-OCR 3.0 versija. Kūrėjai integravo joje ir lietuvių kalbos palaikymą.

2010-06-11. Pamažu rengiama trečioji Tesseract-OCR versija, kuri jau turi puslapio išdėstymo analizės palaikymą, taigi, Tesseract-OCR sugebės suprasti, kad du teksto stulpelius reikia interpretuoti po vieną, o ne imti iš kiekvieno stulpelio po eilutę. Labai sveikintinas pakeitimas. K/Ubuntu vartotojai gali pamėtinti įsidiegti šį paketą: tesseract-ocr3_3-alpha20100610_i386.deb. Jis beje nekonfliktuoja su pagrindiniu tesseract-ocr 2.04 versijos paketu, juos galima naudoti pakaitomis. Tik vykdomojo failo pavadinimas keičiasi, todėl komanda

tesseract3 paveikslelis.tif tekstofailovardas -l lit

nuskaitys tekstą nuo lietuviško teksto atvaizdo.

2010-03-09. Linux aplinkoje veikia ir tesseract-gui – Python programavimo kalba parašyta grafinė sąsaja Tesseract-OCR programai, kuri, be kita ko, leidžia derinti paveikslėlių savybes geresnei nuskaitymo kokybei pasiekti.

2008-08-26. Išleista nauja Tesseract-OCR programos papildymo lietuviškų ženklų nuskaitymo moduliu versija 0.3. Šioje versijoje: (1) tušti žodyno failai pakeičiami iš VDU Kompiuterinės lingvistikos centro tekstyno dažniausių žodžių failais; (2) programa papildomai apmokyta, įskaitant ir šriftų Vytis ir Palemonas atpažinimo; (3) ištaisyta klaida, anksčiau leidusi interpretuoti specifines lietuviškas raides kaip ne alfanumerinius ženklus – tai gerokai pagerino atpažinimo kokybę.

2008-08-11. Išleista nauja Tesseract-OCR programos papildymo lietuviškų ženklų nuskaitymo moduliu versija 0.2.3. Šioje versijoje pateikiami tušti žodyno failai.

2008-07-22. Išleista pirmoji Tesseract-OCR programos papildymo lietuviškų ženklų nuskaitymo moduliu versija. Žr. dienoraščio įrašą.

Susiję puslapiai:

Komentarai

6 responses to “Tesseract-OCR”

Tomas

2009-06-03

viskas labai puiku tik siek tiek painu paprastam vartotojui tarkim as isidiegiau Softi ScanWiz V2 scenavimo programa kuria radau nuorodoje FreeOCR bet kaip ja ismokyti atpazinti lietuviska teksta paaiskinimo nera o parsisiuntes si faila ir ispletes http://files.akl.lt/users/dgvirtual/tesseract-ocr-lit_2.03_0.3-unofficial0.zip ji atidarau taciau kaip ji instaliuoti nerandu gal galima butu gauti paaiskinima ka tiksliai turiu padaryti kad viskas veiktu Windows XP

Reply
Donatas G.

2009-06-03

Lietuviško teksto atpažinimo priedų diegimas labai paprastas: tereikia tarp įdiegtos programos failų surasti, kur yra eng.DangAmbigs ir kiti anglų kalbos failai (prasideda priešdėliu eng.*), ir lietuviškus failus sumesti greta jų.

Pvz., aš turiu Windows XP įsidiegęs FreeOCR programą, kurios sudėtinė dalis yra Tesseract-OCR. Tarp jos įdiegimo failų yra tokia direktorija:
c:\Program Files\FreeOCR24\tesseract\tessdata, kurioje yra ir anglų, ir lietuvių kalbos failai:

$ ls

eng.DangAmbigs eng.inttemp eng.pffmtable eng.user-words lit.DangAmbigs lit.inttemp lit.pffmtable lit.user-words
eng.freq-dawg eng.normproto eng.unicharset eng.word-dawg lit.freq-dawg lit.normproto lit.unicharset lit.word-dawg

Reply
Audrius

2009-06-26

na jei su skeneriu, tai daug maž aišku, bet aš jau turiu nuskenuotus tekstą pdf formatu. Klausimas kaip šį tekstą konvertuoti į doc (docx) formatą. šiaip kaip ir aišku, kad converterį iš pdf i doc, bet kokią atpažinimo programą naudoti, kad suprastu lietuviškus rašmenis.

Reply
Donatas G.

2009-06-27

klausimas, kokios kokybės tekstas buvo skenuojamas. Jei kokybė buvo bent 200 dpi, gali bandyti: konvertuoti pdf failą į tiff (turbūt su Gimp, jei ant Windows – spėju kad windows naudoji, jei jau reikia docx formato), o tada tą tiff failą nuskaityti su freeOCR arba VietOCR.

Dar gali tekti su Gimp naikinti pilkumo atspalvius, nes tesseract, kuris stovi už freeOCR ir VietOCR, mėgsta tik švarius nuskenuotus tekstus ir raiškias raides.

Apie kitas priemones nelabai ką galiu papasakoti.

Reply
Vilimas

2010-09-17

Tai kad PDF faila palaiko freeOCR programa, tai nereikia i nieka konvertuoti atskirai. Nebent nekokybiskas puslapis ir reikia pasalinti pries tai kiek imanoma visus pilkus atspalvius fone ir triuksmus.
Nesulaukiu, kada pasirodys trecioji Tesseract-OCR versija?
Taip pat nezinau, ka daryti su dvikalbiais tekstais? Pvz. vokiska-lietuviska rodykle. Konvertuojant su vokisku moduliu neatpazistamos liet. raides (savaime suprantama), o tuo tarpu lietuvisku moduliu – truksta umlautu äöü ir ß raides. Ar galima galbut butu ideti sias 4 raides papildomai i lietuviska moduli?

Reply
Rimas

2010-09-26

Pasikeitė „FreeOCR“ adresas. Dabar jis yra http://www.paperfile.net/.

Reply

Parašykite komentarą Atšaukti atsakymą

This site uses Akismet to reduce spam. Learn how your comment data is processed.