Žymų Archyvai: ocr

Kaip efektyviai rengti nuasmenintas skaitmenines (ar popierines) dokumentų kopijas

Dar vasaros viduryje vienos valstybinės įstaigos užprašiau 12-os dokumentų kopijų. Įstaiga ilgai išsisukinėjo: laiku nepateikė atsakymo, apskųsta Vyriausiajai administracinių ginčų komisijai piktinosi, kad aš, esą, „piktybiškai“ trukdau jos darbą ir pan. Kai galiausiai atsakymą man pateikė, dokumentų kopijas pateikti atsisakė nes:

… Tenkinant Jūsų prašymą reikėtų kelti archyvines bylas, rasti dokumentus, juos kopijuoti, peržiūrėti ar juose nėra duomenų, kuriuos saugo Duomenų apsaugos įstatymas ir jeigu tokie yra juos slėpti, tvirtinti kopijas ir jas skenuoti sukuriant elektronines kopijas pdf formatu. Tokios informacijos rinkmenos sukūrimas susijęs su neproporcingai didelėmis daro ir laiko sąnaudomis.

Įstaiga skundžiasi visai nepagrįstai. Didelę tos įstaigos darbo dalį sudaro būtent darbas su archyvine medžiaga, įstaiga taip pat kuria elektronines dokumentų kopijas ir talpina jas svetainėje kgbveikla.lt. Dokumentų kopijas jie nuasmenina, ir tikrai – ne rankiniu būdu, kaip rašo man atsisakyme teikti dokumentus. KGBveikla.lt pateikiami dokumentai yra akivaizdžiai apdorojami elektroniniu būdu, gražiai su grafinio redagavimo programa iškerpant (ar uždengiant) dokumentų dalis, kurių neturi būti viešai skelbiamame dokumente, taip pat – pridedant vandenženklį (žr. pavyzdį čia).

Kam jau kam, o šiai įstaigai tikrai nereikia patarimo, kaip nuasmeninti skenuotus dokumentus.

Tačiau daugeliui valstybės įstaigų toks patarimas turbūt praverstų. Valstybės tarnautojai ir kiti viešojo sektoriaus darbuotojai dažnai susiduria su efektyvaus dokumentų nuasmenininimo (dokumente paminėtų privačių asmenų asmens duomenų šalinimo) problema. Toliau skaityti Kaip efektyviai rengti nuasmenintas skaitmenines (ar popierines) dokumentų kopijas

Pritaikom „tesseract-ocr“ lietuviškiems tekstams

Atnaujinimas (2008-08-11): yra nauja paketo versija, žr. pagrindinį tesserace-ocr-lit puslapį štai čia.

=======

Susidomėjau teksto nuskaitymo priemonėmis Linux aplinkoj po to, kai prireikė keletą puslapių nuskaityt. Po nesėkmingo bandymo įdiegti abby fine reader programą per wine teko pasižiūrėt, kokios gi programos tam skirtos Linux terpėje. Deja, ne kaži kas – geriausiai veikia komandinės eilutės programa tesseract-ocr, bet ji dar nėra pritaikyta lietuviškiems tekstams.

Tačiau ją galima išmokyti pažinti lietuviškus tekstus. Taigi, šiek tiek ties tuo pasėdėjau, ir pristatau visiems rezultatus: Debian programos paketą, kurį reikia įdiegti kartu su tesseract-ocr (pageidautina – ir tesseract-ocr-eng) paketu (čia nuorodos į naujausią versiją K/Ubuntu linux sistemai), bei paprastame archyve supakuotus lietuvių kalbos failus. Tuo pačiu prašau padėti man patobulinti lietuviško teksto atpažinimą – apie tai skaitykite žemiau. Toliau skaityti Pritaikom „tesseract-ocr“ lietuviškiems tekstams