Tesseract-OCR yra Linux, Mac0SX ir Windows platformoms skirta optinio teksto atpažinimo programa. Tai visų pirma – komandų eilutės programa, tačiau esama ir grafinių šios programos valdymo priemonių, kurios išvardintos žemiau.
Programa platinama pagal Apache Licence v2.0. Ją 1984-1994 m. sukūrė Hewlet Packard, o 2005 m. programa buvo išplatinta kartu su atviru šaltinio kodu. Šiuo metu jos tobulinimą prižiūri Google. Programos oficiali svetainė – //code.google.com/p/tesseract-ocr/.
Šiame puslapyje pateikiami mano sukurti priedai šiai programai, padedantys nuskaityti lietuviškus rašmenis. Šio teksto rašymo metu Tesseract-OCR oficialiai palaiko ispanų, olandų, prancūzų, anglų, vokiečių ir portugalų kalbas. Lietuvių kalba palaikoma neoficialiai mano sukurtų priedų pagalba.
Dėmesio, šie priedai neveikia su žemesnėmis nei 2.03 Tesseract-OCR versijomis, o taip pat – su Tesseract-OCR 3.0 ir aukštesnėmis versijomis. Tesseract-OCR 3 turi integruotą lietuvių kalbos palaikymą.
Atsisiuntimui
2010-06-01. Versija 0.4:
- K/Ubuntu Linux:
tesseract-ocr-lit_2.04-0.4-unofficial0_all.deb – http://files.akl.lt/users/dgvirtual/ubuntu-lucid/tesseract-ocr-lit_2.04-0.4-unofficial0_all.deb (beje, nežinau, ar ji geresnė už 0.3 versiją – gal kas nors galėtumėte padaryti keletą testų ir pranešti rezultatus?)
2008-08-26. Versija 0.3:
-
K/Ubuntu Linux:
tesseract-ocr-lit_2.03-0.3-unofficial0_all.deb – http://files.akl.lt/users/dgvirtual/ubuntu-hardy/tesseract-ocr-lit_2.03-0.3-unofficial0_all.deb -
Windows, Linux, MacOSX:
tesseract-ocr-lit_2.03_0.3-unofficial0.zip – http://files.akl.lt/users/dgvirtual/tesseract-ocr-lit_2.03_0.3-unofficial0.zip
2008-08-11. Versija 0.2.3:
-
K/Ubuntu Linux:
tesseract-ocr-lit_2.03-0.2.3-unofficial0_all.deb – http://files.akl.lt/users/dgvirtual/ubuntu-hardy/tesseract-ocr-lit_2.03-0.2.3-unofficial0_all.deb -
Windows, Linux, MacOSX:
tesseract-ocr-lit_2.03_0.2.3-unofficial0.zip http://files.akl.lt/users/dgvirtual/tesseract-ocr-lit_2.03_0.2.3-unofficial0.zip
2008-07-22. Pirmoji programos sulietuvinimo priedų versija 0.1:
-
K/Ubuntu Linux:
tesseract-ocr-lit_2.03-0.1-unofficial0_all.deb – http://files.akl.lt/users/dgvirtual/ubuntu-hardy/tesseract-ocr-lit_2.03-0.1-unofficial0_all.deb -
Windows, Linux, MacOSX:
tesseract-ocr-lit_2.03_0.1-unofficial0.tar.gz – http://files.akl.lt/users/dgvirtual/tesseract-ocr-lit_2.03_0.1-unofficial0.tar.gz
Tesseract-OCR atsisiuntimas:
-
K/Ubuntu Linux 2.03 versijos paketus galite atsisiųsti iš čia:
tesseract-ocr_2.03
tesseract-ocr-eng_2.00 (šio paketo taip pat reikia, net jei nesiruošiate dirbti su angliškais tekstais). -
K/Ubuntu Linux Lucid versijai sukompiliuotas Tesseract-OCR 3 alpha kokybės paketas: tesseract-ocr3_3-alpha20100610_i386.deb.
Grafinės sąsajos
Windows: FreeOCR, VietOCR, Lime-OCR, OCRGUI.
Linux: KDE Dolphin kontekstinis meniu OCR using Tesseract, XSane programa kartu su xsane2tess, VietOCR; VietOCR ubuntu paketas – čia, tesseract-gui, Gimagereader, OCRfeeder, OCRGUI.
Mac OSX: VietOCR, TesseractGUI, OCRGUI.
Naujienos
2010-10-31. Jau prieš porą mėnesių pasirodė Tesseract-OCR 3.0 versija. Kūrėjai integravo joje ir lietuvių kalbos palaikymą.
2010-06-11. Pamažu rengiama trečioji Tesseract-OCR versija, kuri jau turi puslapio išdėstymo analizės palaikymą, taigi, Tesseract-OCR sugebės suprasti, kad du teksto stulpelius reikia interpretuoti po vieną, o ne imti iš kiekvieno stulpelio po eilutę. Labai sveikintinas pakeitimas. K/Ubuntu vartotojai gali pamėtinti įsidiegti šį paketą: tesseract-ocr3_3-alpha20100610_i386.deb. Jis beje nekonfliktuoja su pagrindiniu tesseract-ocr 2.04 versijos paketu, juos galima naudoti pakaitomis. Tik vykdomojo failo pavadinimas keičiasi, todėl komanda
nuskaitys tekstą nuo lietuviško teksto atvaizdo.
2010-03-09. Linux aplinkoje veikia ir tesseract-gui – Python programavimo kalba parašyta grafinė sąsaja Tesseract-OCR programai, kuri, be kita ko, leidžia derinti paveikslėlių savybes geresnei nuskaitymo kokybei pasiekti.
2008-08-26. Išleista nauja Tesseract-OCR programos papildymo lietuviškų ženklų nuskaitymo moduliu versija 0.3. Šioje versijoje: (1) tušti žodyno failai pakeičiami iš VDU Kompiuterinės lingvistikos centro tekstyno dažniausių žodžių failais; (2) programa papildomai apmokyta, įskaitant ir šriftų Vytis ir Palemonas atpažinimo; (3) ištaisyta klaida, anksčiau leidusi interpretuoti specifines lietuviškas raides kaip ne alfanumerinius ženklus – tai gerokai pagerino atpažinimo kokybę.
2008-08-11. Išleista nauja Tesseract-OCR programos papildymo lietuviškų ženklų nuskaitymo moduliu versija 0.2.3. Šioje versijoje pateikiami tušti žodyno failai.
2008-07-22. Išleista pirmoji Tesseract-OCR programos papildymo lietuviškų ženklų nuskaitymo moduliu versija. Žr. dienoraščio įrašą.
Parašykite komentarą