Tesseract-OCR

Facebooktwittergoogle_pluspinterestlinkedintumblrmail

Tesseract-OCR yra Linux, Mac0SX ir Windows platformoms skirta optinio teksto atpažinimo programa. Tai visų pirma – komandų eilutės programa, tačiau esama ir grafinių šios programos valdymo priemonių, kurios išvardintos žemiau.

Programa platinama pagal Apache Licence v2.0. Ją 1984-1994 m. sukūrė Hewlet Packard, o 2005 m. programa buvo išplatinta kartu su atviru šaltinio kodu. Šiuo metu jos tobulinimą prižiūri Google. Programos oficiali svetainė – //code.google.com/p/tesseract-ocr/.

Šiame puslapyje pateikiami mano sukurti priedai šiai programai, padedantys nuskaityti lietuviškus rašmenis. Šio teksto rašymo metu Tesseract-OCR oficialiai palaiko ispanų, olandų, prancūzų, anglų, vokiečių ir portugalų kalbas. Lietuvių kalba palaikoma neoficialiai mano sukurtų priedų pagalba.

Dėmesio, šie priedai neveikia su žemesnėmis nei 2.03 Tesseract-OCR versijomis, o taip pat – su Tesseract-OCR 3.0 ir aukštesnėmis versijomis. Tesseract-OCR 3 turi integruotą lietuvių kalbos palaikymą.

Atsisiuntimui

2010-06-01. Versija 0.4:

  • K/Ubuntu Linux:
    tesseract-ocr-lit_2.04-0.4-unofficial0_all.deb – http://files.akl.lt/users/dgvirtual/ubuntu-lucid/tesseract-ocr-lit_2.04-0.4-unofficial0_all.deb (beje, nežinau, ar ji geresnė už 0.3 versiją – gal kas nors galėtumėte padaryti keletą testų ir pranešti rezultatus?)

2008-08-26. Versija 0.3:

  • K/Ubuntu Linux:
    tesseract-ocr-lit_2.03-0.3-unofficial0_all.deb – http://files.akl.lt/users/dgvirtual/ubuntu-hardy/tesseract-ocr-lit_2.03-0.3-unofficial0_all.deb

  • Windows, Linux, MacOSX:
    tesseract-ocr-lit_2.03_0.3-unofficial0.zip – http://files.akl.lt/users/dgvirtual/tesseract-ocr-lit_2.03_0.3-unofficial0.zip

2008-08-11. Versija 0.2.3:

  • K/Ubuntu Linux:
    tesseract-ocr-lit_2.03-0.2.3-unofficial0_all.deb – http://files.akl.lt/users/dgvirtual/ubuntu-hardy/tesseract-ocr-lit_2.03-0.2.3-unofficial0_all.deb

  • Windows, Linux, MacOSX:
    tesseract-ocr-lit_2.03_0.2.3-unofficial0.zip http://files.akl.lt/users/dgvirtual/tesseract-ocr-lit_2.03_0.2.3-unofficial0.zip

2008-07-22. Pirmoji programos sulietuvinimo priedų versija 0.1:

  • K/Ubuntu Linux:
    tesseract-ocr-lit_2.03-0.1-unofficial0_all.deb – http://files.akl.lt/users/dgvirtual/ubuntu-hardy/tesseract-ocr-lit_2.03-0.1-unofficial0_all.deb

  • Windows, Linux, MacOSX:
    tesseract-ocr-lit_2.03_0.1-unofficial0.tar.gz – http://files.akl.lt/users/dgvirtual/tesseract-ocr-lit_2.03_0.1-unofficial0.tar.gz

Tesseract-OCR atsisiuntimas:

Grafinės sąsajos

Windows: FreeOCR, VietOCR, Lime-OCR, OCRGUI.

Linux: KDE Dolphin kontekstinis meniu OCR using Tesseract, XSane programa kartu su xsane2tess, VietOCR; VietOCR ubuntu paketas – čia, tesseract-gui, Gimagereader, OCRfeeder, OCRGUI.

Mac OSX: VietOCR, TesseractGUI, OCRGUI.

Naujienos

2010-10-31. Jau prieš porą mėnesių pasirodė Tesseract-OCR 3.0 versija. Kūrėjai integravo joje ir lietuvių kalbos palaikymą.

2010-06-11. Pamažu rengiama trečioji Tesseract-OCR versija, kuri jau turi puslapio išdėstymo analizės palaikymą, taigi, Tesseract-OCR sugebės suprasti, kad du teksto stulpelius reikia interpretuoti po vieną, o ne imti iš kiekvieno stulpelio po eilutę. Labai sveikintinas pakeitimas. K/Ubuntu vartotojai gali pamėtinti įsidiegti šį paketą: tesseract-ocr3_3-alpha20100610_i386.deb. Jis beje nekonfliktuoja su pagrindiniu tesseract-ocr 2.04 versijos paketu, juos galima naudoti pakaitomis. Tik vykdomojo failo pavadinimas keičiasi, todėl komanda tesseract3 paveikslelis.tif tekstofailovardas -l lit nuskaitys tekstą nuo lietuviško teksto atvaizdo.

2010-03-09. Linux aplinkoje veikia ir tesseract-gui – Python programavimo kalba parašyta grafinė sąsaja Tesseract-OCR programai, kuri, be kita ko, leidžia derinti paveikslėlių savybes geresnei nuskaitymo kokybei pasiekti.

2008-08-26. Išleista nauja Tesseract-OCR programos papildymo lietuviškų ženklų nuskaitymo moduliu versija 0.3. Šioje versijoje: (1) tušti žodyno failai pakeičiami iš VDU Kompiuterinės lingvistikos centro tekstyno dažniausių žodžių failais; (2) programa papildomai apmokyta, įskaitant ir šriftų Vytis ir Palemonas atpažinimo; (3) ištaisyta klaida, anksčiau leidusi interpretuoti specifines lietuviškas raides kaip ne alfanumerinius ženklus – tai gerokai pagerino atpažinimo kokybę.

2008-08-11. Išleista nauja Tesseract-OCR programos papildymo lietuviškų ženklų nuskaitymo moduliu versija 0.2.3. Šioje versijoje pateikiami tušti žodyno failai.

2008-07-22. Išleista pirmoji Tesseract-OCR programos papildymo lietuviškų ženklų nuskaitymo moduliu versija. Žr. dienoraščio įrašą.

Susiję puslapiai:

Facebooktwittergoogle_pluspinterestlinkedintumblrmail