Óbudai Egyetem Neumann János Informatikai Kar Informatikai Automatizált Rendszerek Szakirány
Intelligent Word Recognition Kézzel írott szöveg felismerése Irodalomkutatás Nagy Levente E0DH6T 2010.11.08.
Kulcsszavak: kézírás felismerés, offline felismerés, folyóírás, rejtett Markov-modell, mesterséges neuronhálózatok, nyelvi statisztikák, ICDAR 2009
Intelligent Word Recognition
Tartalomjegyzék Bevezetés............................................................................................................................................ 3 1
A projekt célja ............................................................................................................................. 4
2
Hasonló rendszerek ..................................................................................................................... 4
3
Megoldási módszerek .................................................................................................................. 5
4
3.1
Rejtett Markov Modellek (Hidden Markov Models, HMMs) ............................................. 5
3.2
Hibrid módszerek ................................................................................................................ 6
3.3
Visszacsatolt mesterséges neuronhálózatok (Recurrent Neural Networks, RNNs) ............ 6
Rendszerek összehasonlítása ....................................................................................................... 7 4.1
5
ICDAR 2009 (International Conference On Document Analysis and Recognition 2009).. 7
A felismerés lépései..................................................................................................................... 8 5.1
Sorok kinyerése ................................................................................................................... 8
5.2
Normalizálás ........................................................................................................................ 8
5.2.1
Sorok elforgatása ......................................................................................................... 8
5.2.2
Írás dőltségének megszüntetése ................................................................................... 8
5.2.3
Az írás régióinak normalizálása .................................................................................. 9
5.2.4
A betűk szélességének normalizálása .......................................................................... 9
5.3
Jellemzők kinyerése............................................................................................................. 9
5.4
Jellemzők feldolgozása ........................................................................................................ 9
5.5
Címkézés ............................................................................................................................. 9
5.6
Nyelvi- modellek, statisztikák és szótárak használata ......................................................... 9
5.6.1
Szótárak ....................................................................................................................... 9
5.6.2
Nyelvi modellek .......................................................................................................... 9
6
Összefoglalás ............................................................................................................................. 10
7
Irodalomjegyzék ........................................................................................................................ 11
8
Mellékletek ................................................................................................................................ 12 8.1
A HMM és RNN módszerek egy konkrét összevetése...................................................... 12
8.1.1 8.1.2
Az első tesztminta: .................................................................................................... 12 A második tesztminta .................................................................................................... 14
2
Intelligent Word Recognition
Bevezetés Még manapság is gyakran találkozik az ember olyan feladatokkal, amik egyszerűek, egysíkúak, unalmasak, időigényesek és gépek által mégsem automatizálhatóak. Ilyen például az adatrögzítés, kézzel írott dokumentumok, jegyzetek, piszkozatok begépelése, kérdőívek feldolgozása, tesztek, dolgozatok, vélemények kiértékelése. A kézzel írott szövegek felismerése lehetővé tenné azok indexelését, kereshetővé tételét. Ehhez például nem is szükséges a teljes szöveg összes szavának a sikeres felismerése, elég csak a nagy valószínűséggel felismert szavakat vizsgálni, és azokból a kulcsfontosságú szavakat meghatározni szövegbányászat segítségével [1], ami alapján a dokumentum témája besorolható, ezáltal kategorizálható. A keresés így nem automatizálódik teljesen, de csökkenti az emberi kereséshez szükséges időt, szűkíti a keresési teret. Ez hasznos lehet például levéltárakban lévő kézzel írott levelek, vagy az írógépek elterjedése előtt keletkezett dokumentumok esetében. A teljes mértékben felismert szöveget pedig (a keresésen túl) a gép már képes lenne felolvasni (például vakoknak) és ha szükséges, akkor a felolvasás előtt egy gépi fordítást is el tudna végezni, vagy bármi mást, amit a karakteres digitális szöveggel eddig is lehetett (átjavítás, kibővítés, statisztikák készítése, stb.).
3
Intelligent Word Recognition
1 A projekt célja A projekt célja egy olyan rendszer megépítése, ami kézzel írott, meghatározott nyelvű szövegben (elsősorban angol) képes megtalálni és felismerni a szavakat, ezáltal a felismert szavakat a program képes előállítani a szavakban szereplő betűk alapján. A program feladata tehát az lenne, hogy egy valamilyen módon digitalizált képet (szkennelés, fényképezés), szerkeszthető, kereshető, számítógép által feldolgozható állapotba hozzon. A dokumentum rögzítésének módja lényegtelen, a program egy képfájlból készítené el a felismert szöveget.
2 Hasonló rendszerek Körülbelül tíz évvel ezelőttre tehető, amikor létrejöttek az első folyóírással írt szavak felismerését megcélzó rendszerek. Ezek a rendszerek tipikusan egy behatárolt felhasználási területre összpontosítottak, ilyen területek például a kézzel írott postai címek felismerése, csekkeken lévő összeg beolvasása. Az ilyen problémák esetében a felismerendő szavak egy kis szótárban elférnek, amiben tipikusan városnevek, utcanevek szerepelnek, számok esetén pedig csak tíz különböző megoldás lehet. Ezek a kritériumok, valamint az, hogy a megnevezett szövegek adott sorrendben, adott helyen jelenhetnek meg, nagymértékben leegyszerűsítik a problémát. A formanyomtatványok kézzel történő kitöltése is hasonló eset. A számjegyek felismerése esetében például létezik már olyan rendszer, ami a mintáknak csak 0,35%-át ismeri fel tévesen [2]. Ez a rendszer egy sokrétegű (hat) sok neuronból álló (rétegenként pár ezer) feedforward neuronhálózat, ami tanuláskor a backpropagation algoritmust használja. A tanulási sebesség gyorsítása érdekében grafikus kártyákon futtatják az algoritmust. A levelek kézzel írott szöveggel való címzése (vagy egyáltalán a levelek küldése) egyre inkább háttérbe szorul az e-mail és a nyomtatott címzés miatt. Az internetes banki megbízások és hitelkártyák használata szintén egyre inkább kiszorítja a csekkek használatát. Mindezek ellenére még ma is sokat használják mindkét régebbi megoldást. A szövegkörnyezet független, általános, és felhasználó független kézírásfelismerés azonban sokkal összetettebb probléma. A szövegről itt csak annyit tudunk, hogy egy megadott nyelven írták [3]. Az íráskép rengeteg stílusú lehet, a szavak nem előre megadott pozícióban fordulnak elő. A különválasztott karakterek valamilyen osztályozó algoritmussal felismertethetők, de az egybe írt, 1. ábra: a szövegfelismerés fejlődése forrás: [4]
4
Intelligent Word Recognition
összekötött betűk felismerése már nem egy mintafelismerésen alapuló probléma, sokkal inkább egy szekvencia-felismerésen alapuló. Vissza lehetne vezetni a problémát különálló karakterek felismerésére úgy, hogy szegmentáljuk a szavakat karakterekké, és a karaktereket ismertetjük fel. Ahhoz azonban, hogy könnyen szegmentálni tudjunk karakterekké, ahhoz fel kell ismerni az egész szót. Ez egy körkörös függés amit Sayre paradoxonának szoktak nevezni [5]. A megoldás az, hogy egyszerre próbálunk meg szegmentálni és felismerni.
3 Megoldási módszerek 3.1 Rejtett Markov Modellek (Hidden Markov Models, HMMs) A HMM-ek statisztikán és valószínűségszámításon alapuló modellek. A Markov-lánc tulajdonságait használja fel. Szekvencia mintázatokat képesek leírni. A szekvenciák állapotokból állnak. A HMM-ek betanítása során, statisztikai módszerekkel megállapítható, milyen valószínűséggel követ egy állapot egy másik állapotot a szekvencián belül. Ezeket állapotátmeneteknek hívjuk. Továbbá egy állapotátmenet valószínűségét az is meghatározza, hogy az állapotot leíró megfigyelések milyen valószínűséggel következnek be, amikor az adott állapot áll fenn. A HMM esetében az állapotok nem ismertek, ezeket próbáljuk meg valószínűsíteni az előző állapot (ami szintén valószínűsített, kivéve a legelső állapotot), és a megfigyelések függvényében. A betanítás során épülnek fel a modellek, amik tartalmazzák a valószínűségi kapcsolatot az állapot és következő állapot, valamint az állapot és az állapot ideje alatt megfigyelt jellemzők között. A betanítás során a BaumWelch-algoritmust alkalmazzák a megfigyelések súlyozásához, és az állapot váltások valószínűségének kiszámításához, vagyis a HMM paraméterezését kapjuk meg vele. A gyakorlatban az állapotok a címkék (pl.: beszédfelismeréskor egy fonéma, kézírásfelismeréskor egy karakter, bioinformatikában nukleotid bázisok, aminosavak (amiknek a szekvenciája fehérjéket épít fel). A megfigyelések pedig a jellemzők (jellemvektor). Ezek beszédfelismeréskor lehetnek például: amplitúdó, frekvencia stb., kézírásfelismeréskor pedig a pixelek elhelyezkedése, eloszlása, stb. A tanítás alatt modellek jönnek létre (HMM-ek) minden állapothoz. Felismeréskor ezeket a modelleket próbálja rá a mintára a rendszer, amelyik a legjobban illeszkedik a szekvenciára, az lesz az új állapot. Az illeszkedés mértéke valamilyen valószínűség lesz, ezt a Viterbi-algoritmus felhasználásával kapjuk meg. A HMM-ek nagyon népszerűek a beszédfelismerés esetében, ugyanis a beszéd tekinthető egy szekvenciának, aminek állapotai nem véletlenszerűen váltják egymást, hanem felfedezhető az állapotok közt valamilyen statisztikai korreláció. A beszédben a fonémák egymásutánisága valamilyen rendszert alkot, ez nyelvenként változó. A kézírás felismerés esetében is hasonló a helyzet, csak ott a karakterek egymásutánisága alkot rendszert. A legegyszerűbb HMM-ek nem használatosak, mivel azok esetében egy állapot csak az előző állapottól függ. A gyakorlatban a Maximum Entrópia Markov-modellt (MEMM) és a feltételes valószínűségi mezőket (conditional random fields, CRF) alkalmazzák, mivel ezek nem csak egy kis lokális részt vesznek figyelembe a valószínűségek kiszámításánál.
5
Intelligent Word Recognition
3.2 Hibrid módszerek A hibrid módszerek több, különböző paraméterekkel felépített HMM-et használnak, és a végső eredményt a különböző rendszerek eredményeiből számítják ki, valamilyen „szavazással”. Például ha megkapjuk az összes rendszer eredményét egy felismerendő szóra, ahol az eredmények a legesélyesebb tíz megoldást tartalmazzák, akkor ezekből a rendezett listákból kiválasztjuk a legvalószínűbb megoldást. A rendszerek nem csak HMM-ek lehetnek, hanem neuronhálózatok is, illetve egy konkrét rendszer egyes különböző alrendszerei lehetnek NN-ek és HMM-ek is keverve.
3.3 Visszacsatolt mesterséges neuronhálózatok (Recurrent Artificial Neural Networks, RNNs) A hagyományos, legegyszerűbb neuronhálózatok alkalmazása célszerű minták felismerése, osztályozása esetén. Szekvenciák osztályozására (címkézésére) viszont nem alkalmasak, mivel a szekvencia szegmensei összefüggésben állnak egymással, és ezt már nem képes figyelembe venni egy feedforward NN, nincs emlékezete. Ez különálló karaktereknél nem is okoz problémát. A visszacsatolt NN-ek (RNN) viszont rendelkeznek rövidtávú memóriával, amit számításba tudnak venni az adott időpillanatban beérkező inputok kiértékelésénél. Ez a kézírás felismerés esetében rendkívül fontos, mivel sokszor csak a kérdéses karakter környezetében lévő karakterek ismeretében tudunk következtetni a kérdéses karakterre. A jellemvektor tulajdonságainak (az RNN inputja) időbeli változásának nagysága is fontos információ, és a tulajdonságok súlyozásával a lényeges információk akkor is megmaradnak, ha zajos az input. Kifejezetten erre a problémára lett kifejlesztve a Long Short-Term Memory topológiájú RNN (LSTM RNN), ami ezt a rövidtávú emlékezetet kiterjeszti ki, így nagyobb időintervallumot képes átfogni. A kézírás felismerés esetében hasznos, ha nem csak az aktuális vizsgált pozíció előtti jellemzőket ismerjük az adott időpillanatban, hanem az utána lévőeket is. A kétirányú RNN-ek (Bidirectional
2. ábra: A kézírás felismerés lépései RNN rendszer esetében forrás: [6]
6
Intelligent Word Recognition
RNN, BRNN), két külön rejtett réteggel rendelkeznek, az egyik balról jobbra dolgozza fel az inputokat, a másik jobbról balra, és ezek kimenetei közös kimeneti rétegre vannak kapcsolva. Az RNN output rétegének egy olyan rétegnek kell lennie, ami a szegmentálatlan (a karakterek össze vannak kötve egymással), független lokális osztályozásokat (mivel minden időpillanat egy külön osztályozás) képes címkézni. A Connectionist Temporal Classification (CTC) egy pont e célból kifejlesztett output réteg, ami szegmentálatlan adatokon is képes a szekvenciák címkéinek valószínűségét meghatározni. Ezen módszerek kombinációjaként jön létre a BLSTM RNN, ami – mint majd az összehasonlításból kiderül – jobb felismerési arányokat ér el mint bármilyen HMM-en alapuló (vagy hibrid) rendszer.
4 Rendszerek összehasonlítása 4.1 ICDAR 2009 (International Conference On Document Analysis and Recognition 2009) Az ICDAR egy verseny, ahol a nevezők versenyeztethetik egymással a rendszereiket. Az összes rendszer ugyanazon adatbázisból vett kézzel írott szavakat kellett hogy felismerjen. Továbbá a betanítás is közös adatbázisból történt (kivéve a ParisTech(1) nevű rendszert, ami saját adatbázison tanult). Az ICDAR 2009 esetében francia volt a szöveg, de a rendszereket összevetették úgy is, hogy a csak francia nyelvben szereplő karaktereket lecserélték angol karakterekre. A versenyre 10 rendszer nevezett be, mindegyik HMM vagy hibrid alapú megoldással működött, kivéve egyet, amelyik a legjobban teljesített, ami BLSTM RNN alapú rendszer volt. Három alfeladat volt, mindegyikben első lett. A táblázatok a [7]-ban találhatóak meg. WR1: Az első feladatban a kézzel írott szavakról el kellett eldönteni, hogy az adott 100 lehetséges megoldás közül melyik a jó megoldás. WR2: A rendszerek által használt szótár közös volt, és a szótárban csak azok a szavak szerepeltek, amik a felismerendő szavak voltak (1612 szó). WR3: Ugyanaz, mint a WR2, csak nagyobb szótárral (5334 szó). A táblázatokban a top10 azt jelenti, hogy a
7
Intelligent Word Recognition
4. ábra: a szöveg dőltségének megszünetése függőleges hisztogram segítségével forrás: [8]
helyes megoldás benne volt e a rendszer által adott 10 legvalószínűbb megoldása közt. A top1 pedig azt jelenti, hogy a legvalószínűbb megoldás volt a helyes megoldás. A megvalósítandó projekt szempontjából a WR3-as feladat normalized GT (normalized Ground Truth, a francia nyelvre specifikus karakterek az angol abc karaktereivé lettek transzformálva a könnyebb felismerés érdekében) top1-es oszlopa a legérdekesebb, mivel ez tükrözi legjobban a körülményeket amiben a rendszernek helyt kellene állnia.
5 A felismerés lépései 5.1 Sorok kinyerése A dokumentumot el kell forgatni ha szükséges, ezután a kézírást tartalmazó részeket kell meghagyni. A forgatást fokonként végezzük el, és annál a szögnél ahol a binarizált dokumentum vízszintes hisztogramja a legmélyebb völgyeket mutatja, az lesz a megfelelő elforgatási szög. [9] Ha pont fejjel lefelé sikerült ezáltal elforgatni a dokumentumot, az a rossz felismerési arányból szembetűnő lesz. Illetve hisztogram alapú ellenőrzéssel is meg tudjuk vizsgálni, mivel az írott betűk a talpukhoz közel sűrűbbek, a tetejüknél ritkábbak. Az alapvonal alá lógó betűrészek még ritkábbak, mint a magas betűk felső részei. Ha egy vonás átlóg a sorok között, akkor abba a sorba lesz besorolva, ahova a súlypontja esik. [6]
5.2 Normalizálás A normalizálás azért fontos, mert így az azonos, de kissé eldeformálva leírt karakterek valamilyen szinten azonos alakba hozhatóak. Ha egy karakter ferdén van leírva, vagy méretbeli különbségek vannak, nem vethetőek össze egymással, de normalizálás után már igen, és kinyerhetjük belőlük a jellemzőiket. 5.2.1 Sorok elforgatása Meg kell találni azt az egyenest, valamilyen regressziós eljárással, ami a betűk talpára a legjobban illeszkedik. Amint ez megvan, már könnyű kiszámolni a ferdeség fokát, és elforgatni a sort a megfelelő szöggel. 5.2.2 Írás dőltségének megszüntetése Ennél a lépésnél függőleges hisztogramot készítünk a sorról. Elforgatjuk fokonként, és annál a szögnél ahol a függőleges hisztogram a legmagasabb csúcsokat adja, az lesz a szög amit nyíró algoritmus a nyíró-mátrixban felhasznál. Ez lényegében az y koordináta és a szög függvényében tolja el az egész sort valamelyik irányba (kézírás esetében általában balra). Lásd: 4. ábra.
8
Intelligent Word Recognition
5.2.3 Az írás régióinak normalizálása A sort vízszintesen fel kell osztani négy részre. A négy rész: felső alapvonal felett, középvonal és felső alapvonal között, középvonal alsó alapvonal között, alsó alapvonal alatt. Amint ezek a részek meghatározásra kerültek, normalizálni kell őket egy előre meghatározott méretre. A felső alapvonal és az alsó alapvonal között az alacsony betűk vannak (pl.: a, o, u, stb.). A közép vonal e két alapvonal közt helyezkedik el. 5.2.4 A betűk szélességének normalizálása Meg kell vizsgálni, hogy a középvonal mentén mennyi előtér- és háttérpixel váltás van. Ez egy jó becslést ad arra, hogy mennyi betű van az adott sorban. Ez alapján már tudjuk normalizálni a betűket szélesség szerint is.
5.3 Jellemzők kinyerése A normalizált képen vízszintesen végigmegyünk egy egy pixel széles ablakkal. Ez lesz az időegység ami a jellemvektort tartalmazza. A jellemvektor kilenc dimenziós, a következő jellemzőket tárolja: • • • • • • •
a számtani közepe a pixelek szürkeárnyalatos intenzitásainak, a pixelek súlypontja, a pixelek másodrendű súlypontja, a legfelső és legalsó pixelek helye, ezen helyek változásának mértéke a környező ablakokhoz képest, az előtér és háttér váltások száma a legfelső és legalsó pixelek között, az előtér pixelek eloszlása a legfelső és legalsó pixelek között.
5.4 Jellemzők feldolgozása Az elkészített jellemvektorokat átadjuk inputként a kiválasztott osztályozónak (HMM vagy RNN).
5.5 Címkézés Az osztályozó outputja alapján egy címkéző eljárással felcímkézzük a szekvenciát. A gyakorlatban itt a fonémák, karakterek, nukleotid bázisok helyét kapjuk meg a szekvenciában.
5.6 Nyelvi- modellek, statisztikák és szótárak használata 5.6.1 Szótárak Miután megvannak a valószínűsített karakterek, egybefűzzük őket, és megvizsgáljuk értelmes szó állt e elő. Ezt szótárak segítségével tehetjük meg. RNN rendszerek esetében minél nagyobb a szótár mérete, annál pontosabb a felismerés, HMM rendszerek esetében viszont egy bizonyos méret után romlik. [6] 5.6.2 Nyelvi modellek A szavak közti összefüggéseket is érdemes figyelni. Bizonyos szófordulatok gyakoribbak Az megelőző egy-két-három szóból valamilyen valószínűséggel „megjósolható”, hogy milyen szó fog következni, ami hasonlít a következő, már felismert szóra. Ezeket „n-grams”-nak hívják. Háromnál nagyobb szóösszetételeket nem érdemes keresni, nem javítják a felismerést. Az „n” jelöli, hogy hány
9
Intelligent Word Recognition
szó hosszúak a figyelt szóösszetételek. Két szó esetében „bigrams”-nak hívják (vagy „digrams”), három esetén „trigrams” a neve. [3]
6 Összefoglalás A normalizálás és a jellemvektor elkészítése minkét megközelítés esetében azonos, ezért érdemes előbb ezeket a munkafázisokat teljes részleteikben megismerni, hiszen ezek nélkül sem a HMM-eket sem az NN-eket nem lehet betanítani. Ugyan a HMM-ek és az azokat alkalmazó kézírás felismerők rengeteget fejlődtek az elmúlt 10 évben, az új RNN megközelítésű módszer minden tekintetben egyértelműen maga mögé utasította azokat. Emiatt az NN-ek működésének alapos megismerése, implementálása lesz a rákövetkező feladat. Kezdetben a legegyszerűbb topológiájúak implementálása, tesztelése lenne a cél, különálló karakterekre, először nyomtatott, majd egyre szabálytalanabb, majd kézzel írott karakterekre. Ha sikerült eredményeket elérni az egyszerűbb NN-ekkel, tovább lehet lépni a bonyolultabb felépítésű RNN-ekre. Mindezek után kerülhet csak sor a szótárak és nyelvi modellek alkalmazására, ha sor kerül rájuk egyáltalán, mert már a normalizálás fázis is rengeteg buktatót rejthet magában, és jelentős időráfordítást igényelhet.
10
Intelligent Word Recognition
7 Irodalomjegyzék [1] D. Tikk, R. Farkas, T. Kardkovács Zsolt, L. Kovács, T. Répási, Gy. Szarvas, S. Szaszkó és M. Vázsonyi, „Szövegbányászat”, Typotex, 2006, pp. 97-98 [2] http://yann.lecun.com/exdb/mnist/ Utolsó látogatás: 2010.11.08. [3] A. Vinciarelli, S. Bengio és H. Bunke, „Offline Recognition of Unconstrained Handwritten Texts Using HMMs and Statistical Language Models”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 26, no. 6, 2004, pp. 709-720 Utolsó látogatás: 2010.11.08. [4] http://www.parascript.com/company2/tech_overview.cfm [5] K. M. Sayre, „Machine Recognition of Handwritten Words: A Project Report”, Pattern Recognition, vol. 5, no. 3, 1973, pp. 213-228 [6] A. Graves, M. Liwiczki, S. Fernández, R. Bertolami, H. Bunke és J. Schmidhuber, „A Novel Connectionist System for Unconstrained Handwriting Recognition”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 31, no. 5, 2009, pp. 855-868 [7] 10th International Conference on Document Analysis and Recognition, 2009, pp. 1398-1402 [8] M. Pastor, A. Toselli és E. Vidal, „Projection Profile Based Algorithm for Slant Removal”, Image analysis and recognition: internaional conference, ICIAR 2004, part 2, 2004, pp. 183-190 [9] E. Kavallieratou, N. Fakotakis és G. Kokkinakis, „Skew angle estimation for printed and handwritten documents using the Wigner-Ville distribution”, Image and Vision Computing 20, 2002, pp. 813-824 Utolsó látogatás: 2010.11.08. [10] http://www.iam.unibe.ch/fki/recognizer/welcome
11
Intelligent Word Recognition
8 Mellékletek 8.1 A HMM és RNN módszerek egy konkrét összevetése Az ötödik fejezetben részletezett lépéseket megvalósító rendszert mindenki kipróbálhatja. Létrehoztak egy web-alapú alapú interfészt, ahol fel lehet tölteni saját kézzel írott sorokat, és a kiválasztott rendszer megpróbálja azt felismerni. felismerni. A normalizálás és jellemvektor kiszámítás fázisok mindkét rendszer esetében azonosak, a jellemvektor feldolgozását viszont egy HMM és egy RNN alapú rendszerrel is elvégezhetjük. [10]]
8.1.1 Az első tesztminta:
A sor ferdeségének javítása után:
A szöveg dőlésének sének javítása után:
Az írás régióinak normalizálása után:
A betűkk szélességének normalizálása után:
A végső, normalizált kép:
12
Intelligent Word Recognition
A jellemvektorok kinyerése:
Felismerés eredménye HMM-el: el: That's He'll evolution I've ever Isn't it . Felismerés eredménye RNN-el: This is a editing recognition bat
13
Intelligent Word Recognition
8.1.2 A második tesztminta Itt megpróbáltam szebben írni:
A sor ferdeségének javítása után:
A szöveg dőlésének lésének javítása után:
Az írás régióinak normalizálása után:
A betűk szélességének normalizálása után:
A végső, normalizált kép:
14
Intelligent Word Recognition
A jellemvektorok kinyerése:
Felismerés eredménye HMM-el: They're I'd ' tend writing recognition Ted . Felismerés eredménye RNN-el: This is a hand riding recognition test .
15