OCR (Optical Character Recognition)
metoda optického rozpoznávání znaků
-1-
Úvod OCR neboli optické rozpoznávání znaků (z anglického Optical Character Recognition) je metoda, která pomocí scanneru umožňuje digitalizaci tištěných textů, s nimiž pak lze pracovat jako s normálním počítačovým textem. Počítačový program převádí obraz buď automaticky nebo se musí naučit rozpoznávat znaky. Převedený text je téměř vždy v závislosti na kvalitě předlohy třeba podrobit důkladné korektuře, protože OCR program nerozezná všechna písmena správně. OCR - zpracování textu z tištěné do elektronické podoby je použitelné pro všechny tištěné výstupy z laserových, inkoustových, termosublimačních a jehličkových tiskáren a samozřejmě pro předlohy vytištěné knihtiskem. U nevhodných předloh např. slabě vytištěných jehličkových tiskáren nebo dohromady slitých písmen se z časového hlediska vyplatí spíše přepis textu. Využívaní techniky pro nahrazení lidských činností, jako je například čtení, není již dávným snem. Za posledních několik desetiletí, využívání techniky pro čtení, postoupilo od snů k realitě. Optické rozpoznávání znaků se stává nejúspěšnější aplikací a technologií na poli rozpoznávání
a
umělé
inteligence.
Ačkoli
existuje
mnoho
komerčních
systémů
vykonávajících OCR a technika dělá stále pokroky, nedokáže kompletně zastoupit člověka při čtení.
Historie V době technologické revoluce kolem roku 1950, kdy se ve vývoji elektronického zpracovávání postupovalo vysokou rychlostí bylo rozpoznávání zajímavou oblastí. Ve stejný čas se technologie pro systémy čtení staly dostatečně zralé pro aplikace, a v polovině padesátých let minulého (20.) století se OCR systémy staly komerčně dostupné, což bylo velmi důležité pro urychlení rozvoje. První opravdové OCR systémy si nainstaloval Reader’s Digest v roce 1954. Toto zařízení bylo užíváno pro převod ručně psaných obchodních reportů na děrné štítky, aby bylo možné tento výstup využít pro další využití v počítači.
První generace OCR: Komerční systémy vyskytující se v letech od 1960 do 1965 jsou nazývány první generací OCR. Tato generace OCR systémů se dá všeobecně charakterizovat využitím pro jednoduché zpracovávání znaků. Znaky byly speciálně vyvinuty pro tyto systémy, z důvodu
-2-
vyšší jistoty rozpoznání. Tyto znaky vypadaly velmi uměle. Začali se také objevovat systémy s více fontovou zásobou (znalostí), které byly již schopny rozpoznávat (číst) znaky napsané různými fonty. Počet fontů byl limitován typem aplikované rozpoznávací metody a rozpoznávacím vzorem, který porovnával obraz znaku s obrazem znaku z knihovny prototypů.
Druhá generace OCR Čtecí systémy druhé generace se začínaly objevovat v polovině 60. let a počátku 70. let. Tyto systémy byly schopny rozpoznat běžně strojově vytisknuté texty a již měly rozpoznávací schopnosti pro ručně psaný text. Když ručně napsané znaky byly pozorně a s ohledem na možné rozpoznávání napsány, tak byly znaky převedeny na čísla a pár znaků na symboy. První slavný systém tohoto druhu je IMB 1287, který byl představen na World Fair in New York in 1965. Také v tomto čase Toshiba vyvinula první automatický třídič dopisů podle poštovních čísel a také firma Hitashi vyrobila systém o vysokém výkonu a nízké ceně. V roce 1966 po studiu OCR požadavků a potřeb byl dokončen Americký standart “OCR character set“ OCR-A. Tento font byl velmi dobře navržen pro optické rozpoznávání, a přesto zůstal stále čitelný pro lidi. Evropský font byl také vytvořen a označen jako OCR-B, který byl mnohem čitelnější pro lidi než Americký standart OCR-A. Postupem času se vyráběly systémy schopné rozpoznávat oba standarty.
Třetí generace OCR. OCR systémy třetí generace jsou z poloviny sedmdesátých let 20. století. Dovedou rozpoznávat dokumenty nižší kvality a ručně psané texty. Rozpoznávání předloh nižší kvality při současném vysokém výkonu bylo dosaženým cílem, který dramaticky pomohl přispět rozvoji hardwarové technologie. Ačkoli mnohem znalejší systémy byly již na světě, jednoúčelové OCR systémy stále byly velmi úspěšné ve své práci.
OCR dneška Ačkoliv OCR systémy se staly komerčně dostupné již v 50. letech, přesto bylo celosvětově do roku 1986 prodáno pouze pár tisíc systémů. Hlavním důvodem byla dozajista jejich vysoká cena. Dnes se prodá pár tisíc systémů týdně a cena mnoha fontových OCR se stále rapidně každý rok snižuje.
-3-
Automatická Identifikace OCR pojednává o optickém rozpoznávacím procesu. Jak ručně psané tak i tisknuté znaky mohou být rozpoznány, ale výkon přímo závisí na kvalitě vstupu. Druhy znakového rozpoznávání: • On-line • Off-line •
•
Samostatné znaky •
ručně napsáno
•
vstup z tiskárny
•
rozpoznávání
•
porovnávání
Ručně psané texty
Čím je kvalitnější vstup znaků, tím výkonnější bude OCR systém. Pokud na vstup přijde psaný text, tak OCR systémy jsou stále vzdáleny od lidské dokonalosti ve čtení. Počítače “čtou” velmi rychle a technické prostředky se stále zdokonalují, a proto se technologie stále přibližuje ideálu lidského čtení.
Metody OCR Principem v automatickém modelu rozpoznávání je v první řadě naučit systém základním případům, které mohou nastat a jak vypadají. V OCR jsou základními typy myšleny znaky a některé speciální symboly jako je čárka, otazník ... . Učení systému se provádí dodáním příkladů znaků ve všech rozdílných typech (třídách). Podle těchto příkladů si systém vyrobí prototypy nebo popis každé třídy každého znaku. Pří rozpoznávání se každý neznámý znak porovnává s dříve opatřeným popisem a je stanovena třída, která koresponduje s tímto znakem. Ve většině komerčních systémů znakového rozpoznávání byl tréninkový proces předem uskutečněn.
-4-
Části OCR systémů Typické OCR systémy se skládají z několika komponent. A to z komponent optického skenování (digitalizace), lokace + odstranění členitosti a defragmentace znaků, preprocessing (eliminace šumu), extrakce vzhledu a rozpoznáváni. Identita každého znaku je nalezena porovnáním extrahovaným znaků s popisem každého symbolu získaného v učící fázi.
Nakonec jsou získané informace využity pro
rekonstrukci slov a čísel do originálního textu.
Jak funguje Nejdříve si objasněme co je to obraz. Obraz je tvořen určitým, konečným počtem bodů, zvaných pixely. Každý pixel sám o sobě nese informaci o své barvě. Tato informace je reprezentována číselnou hodnotou dané barvy v barevné tabulce, např. 8bitová data mají hodnoty 0 – 255 (28). Jednotlivé pixely jsou v obrázku uspořádány do dvourozměrné mřížky (matice) zvané bitmapa (rastr). Každá pixel má v této mřížce své souřadnice.
Předzpracování Binární obraz Přemění obraz na dvoubitová data, tedy pouze bílá a černá (0 a 1). Toto se děje procesem takzvaného prahování, neboli je určeno, které hodnoty pixelů budou černé a které se převedou na bílé. Tato část je velmi důležitá pro následnou extrakci pomocí příznaků. Dále si musíme naskenovaný obraz vyčistit od nežádoucích efektů jako je třeba šum vzniklý při skenování, nebo rozpadlá písmenka vzniklá nekvalitní předlohou. Šumy a rozpadlá písmenka lze s poměrně velkou úspěšností odstranit pomocí filtrů jako je například VYHLAZENÍ. Vyhlazení rozdělme na dvě části a to: vyplňování a
-5-
zužování. Vyplňování nám zacelí malé dírky v písmenech, tak aby písmeno bylo tvořeno souvislou plochou barvy. Zúžení pak ztenčí rozpoznávaný znak. Další proces, který připravuje písmo ke čtení pomocí počítače, je proces „normalizace znaků“, kdy po normalizaci je znak v jednotkové velikosti, sklonu a rotaci.
Lokalizace a segmentace Následně počítač zkoumá rozložení textu na stránce. Je potřeba rozlišit grafiku od textu. Potom se určí pomocí histogramu kde jsou jednotlivé řádky v dokumentu. Následuje izolace jednotlivých znaků v řádcích. Znaky se lokalizují pomocí sledování spojitých komponent, neboli spojitých tmavých oblastí.
Klasifikace vzorů Extrakce příznaků Tato část je nejproblematičtější částí z celého OCR. Jejím úkolem je získání základních charakteristik každého znaku. Většina metod se snaží popsat znak přímo ze skenovaného obrázku, jiné zase získávají specifické rysy, které jednotlivé znaky charakterizují. Prvně jmenovaná metoda popsání znaku přímo ze skenovaného obrázku je založená na rozložení bodů v mřížce. Tato metoda má dva zástupce a jsou jimi: rozdělení do pásem a průsečíky
Rozdělení do pásem Políčko s lokalizovaným znakem je rozděleno na několik oblastí a zkoumá se histogram tmavých míst v jednotlivých oblastech znaku, jak je vidět na obrázku. Histogramy se pak porovnávají s rysy jednotlivých znaků, které vzejdou z tzv. trénovacích dat.
Průsečíky Tato metoda je založena na počtu průsečíků předem zvolených vektorů v políčku se znakem. Názorně je to vidět na obrázku. Metoda rozpoznávající na základě specifických rysů je nazývána strukturální analýzou, kdy jsou jednotlivé znaky popisovány geometrickou a topologickou strukturou znaků. Tato metoda je však ještě předmětem aktivního výzkumu. V Praze 10.05.2008 Petr Vymetálek Jan Viktora
-6-