Képelemzési módszerek vizuális kódok felismerésére PhD disszertáció tézisei
Bodnár Péter Témavezet®: Nyúl László, Ph.D.
Informatikai Doktori Iskola Képfeldolgozás és Számítógépes Graka Tanszék Természettudományi és Informatikai Kar Szegedi Tudományegyetem
Szeged, 2015.
1. Bevezetés A mindennapi életben elterjedt a számítógéppel olvasható vizuális kódok használata, nem csak ipari felhasználási területen, de magáncélú alkalmazásokban is [15]. Ezen kódok használatának el®nye szemben például az RFID technológiával [13], hogy gyártásuk kevésbé költséges, egyszer¶ eszközökkel megoldható, és szélesebb körben felhasználhatóak. Megbízható azonosítási módszert jelentenek postaszolgálatokon, áruházi PoS terminálokon és raktárkészletek nyilvántartásához is.
A technológia
elterjedéséhez nagyban hozzájárult még az asztali nyomtatók és az áruházi automatikus checkout rendszerek elterjedése [26]. Egy vizuális kódban tárolt adat visszanyerése két lépésben történik, ezek a kód megtalálása és a kódolt adat visszaalakítása. Az els® lépésben fel kell ismernünk a szenzor terében a kódobjektum jelenlétét, annak pozícióját és orientációját. Gyakran transzformációkat is kell alkalmazni a további feldolgozás könnyítése érdekében. Ilyen transzformációk például a zajredukció, élkiemelés, normalizáció, különféle pont-operációk és torzulási korrekciók. A feldolgozás után a kódnak címkézett képrészlet továbbkerül a detektorhoz, amely aztán visszanyeri a képi információból a szöveges információt. Ez a lépés manuális volt a vonalkódok használatának kezdeti szakaszában. Egy terminált vagy egy hordozható vonalkód-olvasót kellett kézzel pozícionálni a kódot visel® termékhez vagy objektumhoz annak érdekében, hogy azonosítani tudjuk. Jelenleg az okostelefonok vonalkód-olvasó alkalmazásai hasonló fejlettségi szinten m¶ködnek. Amennyiben az els® lépés megfelel®en kidolgozott, a hordozott adat visszaolvasása már megoldott problémának tekinthet®.
A visszaolvasást tovább segítik a
karakterek közötti maximális Hamming-távolságok, továbbá a legtöbb kódszabvány tartalmaz redundáns információt is hibajavítási célzattal. A lokalizációs lépés több nehézséggel rendelkezik, amit a kódok, kamerák és végfelhasználói követelmények sokfélesége okoz. Az elmúlt néhány évben a képalkotó eljárások és a számítógépes hardver nagy mértékben fejl®dött, lehet®vé téve a vizuális kódok automatikus felismerését biztosító képelemzési algoritmusok használatát, ez viszont a korábbi manuális és egyszer¶ lokalizációs problémát magasabb nehézségi szintre emelte [35]. Igény támadt a vizuális kódok automatikus megkeresésére emberi felügyelet nélkül, pusztán a szenzor adataira alapozva. Minden alkalmazásnak eltér® jellemz®i vannak, például a megtalálni kívánt vizuális kód típusát, távolságának és elhelyezkedésének korlátait illet®en. A sikeres lokalizálási folyamat után a dekódolási lépés következik, ami a kódolt adat visszanyerését jelenti algoritmusok által.
Amíg a lokalizálási probléma nehezebbé
vált az automatizmus követelménye miatt, a dekódolás megbízhatósága nagyban n®tt a szenzorok pontossága és a számítási kapacitás növekedésének köszönhet®en. A hatékony megoldásokra folyamatos az igény, mivel az alkalmazások különböz® problémákat fogalmaznak meg. Számos lokalizálási algoritmus létezik már, ezeket
1
jellemezhetjük pontosságukkal, sebességükkel és a technikával, amit használnak a megoldáshoz. Ezek az algoritmusok hatékonyan ellátják a konkrét végfelhasználói alkalmazások feladatát, mégsem szolgálnak univerzális lokalizálási módszerrel, ami indokolja a további kutatást a témában.
A disszertáció els®dleges célja megvizs-
gálni létez® algoritmusok hatékonyságát és új módszereket kidolgozni a lokalizálási feladatra.
Tárgyalja továbbá az egyre népszer¶bb, gépi tanuláson alapuló mód-
szerek felhasználhatóságát [3, 31], melyek bonyolultságukat tekintve túlmutatnak a kézi vonalkód-olvasók technikáin, és betekintést ad a fuzzy következtetési rendszerek felhasználására a feladathoz. A vizuális kódok lokalizációját végz® algoritmusokkal szemben két f® elvárást támasztunk, ezek a megfelel® sebesség és hatékonyság.
Az ipari alkalmazásokban
a hatékonyság kiemelten fontos, mivel a nem lokalizált kódok a prot csökkenését vonhatják maguk után, a magáncélú okostelefon-alkalmazások esetében viszont megengedhet® néhány kihagyott kód, vagy a képalkotó eszköz újrapozícionálásának szükségessége. A feldolgozási sebesség másodlagos elvárás a legtöbb helyzetben.
2. A disszertáció eredményei 2.1. Globális információn alapuló egyszer¶ algoritmusok Ebben a fejezetben globális módszereket ismertetek és adok hozzájuk fejlesztési lehet®ségeket. Ezeknek az algoritmusoknak a m¶ködése közben végig elérhet® a teljes szenzoros információ, és a leállásig rendelkezésükre áll. A legels® algoritmikus ötlet a vonalszkennerek m¶ködését imitáló képelemzés volt, mely a számítógépes látás korai korszakában keletkezett, amikor még a matematikai morfológia m¶veletei túlságosan költségesek voltak [30]. A számítási kapacitás fejl®dése ellenére fennmaradt az igény ezen algoritmusok használatára és fejlesztésére, mivel a szerényebb képesség¶ beágyazott rendszerek térhódítása új alkalmazási területet nyitott meg. Ezen algoritmusok sajátossága még, hogy könnyebben megérthet®k és paraméterezhet®k, mint a gépi tanuláson alapuló módszerek. A vonalszkennelésen alapuló algoritmusok [16, 32, 33] az alábbi egyszer¶ ötleten alapulnak. A vonalak mentén olvasott intenzitás-értékek egy egydimenziós prolt alkotnak (1(b) és (c) ábra).
A detektálást végz® algoritmusok [1, 23, 33] ezeken a
prolokon dolgozva nyerik vissza az ideális bináris függvényt, mely a kódolt adatot reprezentálja. Ennek lépései a lokális extremitások megtalálása, illetve az intenzitásprol adaptív küszöbölése bináris értékek származtatására. A vonalszkennelésen alapuló algoritmusok gyorsak, de alacsony toleranciával rendelkeznek a zajra és a simításra.
A disszertációban megvizsgáltam az algoritmus
képességeit és fejlesztési lehet®séget adtam rá.
Három illetve négy irányt javasol-
tam vonalszkennelésre, és a s¶r¶ségképek helyett a vonalszegmensek csoportosítását
2
1.20
1.20
0.80
0.80
0.40
0.40
0.00
0.00 0
1. ábra.
50
100
150
200
250
0
A vonalszkennelésen alapuló algoritmus.
50
100
150
200
250
A képet vonalak mentén olvas-
suk (balra), és megkeressük a gyakori intenzitás-változással rendelkez® szakaszokat. Ezen szakaszok végpontjai a vonalkód-objektum konvex burkának is kontúrpontjai.
2. ábra.
Vonalszkennelésen alapuló algoritmus, valós példa.
Eredeti kép (balra)
és jellemz®kép (jobbra), vonalszegmensekkel, felhasznált végpontokkal, kiszámolt középponttal, 0 fokos szkenneléssel (zöld, kitöltött kör), illetve a 60 fokos szkennelés eredményeként kapott, meglév® középponthoz közelségi kritérium miatt eldobott középponttal (piros, üres kör).
vezettem be távolság-kritérium alapján (2. ábra). A morfológián alapuló algoritmusok is ebbe a családba tartoznak, és jellegzetességük, hogy az erózió és dilatáció m¶veleteire építkeznek [22, 24, 28]. Ez a csoport nagyobb számításigény¶, de nagyobb robusztussággal is bír. A disszertációban javasoltam egy morfológián alapuló algoritmust, mely morfológiai gradienst, nyitást és kontúrkeresést használ [9]. A lépéseket a 3 .ábra összegzi. Létrehoztam továbbá egy kizárólag Hough-transzformáción [2, 25] alapuló algoritmust, mely vonalszegmenseket detektál Canny eljárásával együttm¶ködve.
Ez
önmagában is használható lokalizálásra, illetve el®sz¶r®ként hatékonyabbá tehet®k vele más algoritmusok.
2.2. Mozaikfelbontáson alapuló algoritmusok A legtöbb alkalmazásnak korlátozottak az er®forrásai, mint például a memória menynyisége és a számítási kapacitás. Nem minden hardver-konguráció engedi meg a
3
(a)
(b)
(c)
(d)
(e)
3. ábra. A MINMAX algoritmus lépései. Eredeti kép (a), morfológiai gradiens (b), bináris küszöbölés (c), nyitás (d), megtalált kontúr az eredeti képre vetítve (e).
teljes kép memóriában tartását.
Ezekben az esetekben a rendelkezésre álló infor-
mációból lokális méréseket kell végeznünk, és minél kevesebb információt tárolni egyidej¶leg. A képek felosztása egybevágó cellákra, a mozaikfelbontás a mintafelismerésben elterjedt ötlet, ami a lokalizációs feladatra is használható. Mivel a legtöbb kódtípus - ahogy a textúrák is általában - felismerhet® csupán egy részletének elemzésével. Ez lehet®vé teszi a cellák vizsgálatát és azokhoz mér®szám hozzárendelését. Ezek a cellák együtt megfelel® méret¶ és konvexitású foltokat alkothatnak, melyek vizuális kód jelenlétére utalnak. A fejezetben bemutatom a mozaikfelbontás alapuló, lokális cella-információból döntéseket hozó algoritmusokat [6, 9, 21]. Ez az algoritmuscsalád, néhány kivételt®l eltekintve [11], a cellákat külön vizsgálva ad mér®számot az adott cella tartalmát illet®en. Fontos megjegyezni, hogy ezek az algoritmusok ugyanazon elven minden cellának értéket adnak, a választott jellemz® viszont különbözik.
A magasabb szint¶
kiértékelés jellemz®t®l függetlenül hasonlóan történik, a jellemz®-mátrixban - mely a blokkmérettel leskálázott jellemz®képnek is tekinthet® - a szabott feltételeknek megfelel® összefügg® komponenseket keresünk. A kompakt területek fogják alkotni a számunkra fontos helyeket, mivel a vizuális kódok hasonló statisztikai mér®számokat produkálnak a szomszédosan elfoglalt képtérbeli cellákban. Az er®sen elnyúlt, vagy konkáv régiók valószín¶síthet®en nem tartalmaznak kódrészletet, ezért a kompaktság jó osztályozási alap. A klasszikus vonalszkenneléses módszer lecserélése az els® újításom ebben a szekcióban [11]. A körvonal menti olvasáson alapuló algoritmusom a következ® lépésekb®l áll. Kezdetben a képet binárissá küszöböljük, majd a várható kódméretet gyelembe véve, cellákra osztjuk azt, fél cellányi eltolással. Minden cellát el®ször külön kiértékelünk. A kiértékelés alapja a cellán belül intenzitásprol készítése körvonal menti minta alapján.
Ezen az egydimenziós prolon a zéró-átmenetek különböz®
gyakorisággal és mintákban fognak el®fordulni.
A következ® lépésben a kör men-
tén olvasott mintát négy egyenl® régióra bontom, melyek a zéró-átmenetek alapján
4
w S1 S2
c
c
w
4. ábra.
Vad (w ) és
Zónák és szimmetriák a körvonal menti intenzitásprolon.
csendes (c) zónák, szimmetriák pixelek (S1 ) és kvadránsok (S2 ) között.
kerülnek deniálásra. A sok, illetve kevés átmenettel rendelkez® zónákat a kés®bbiekben vad és csendes zónaként hivatkozom. Az 1D vonalkódok esetén a vad és csendes zónák felváltva fordulnak el®, tehát egymással szemben helyezkednek el a kör mentén.
A zónák felosztását a 4. ábra szemlélteti.
A zónák megtalálása
után szimmetriákat is keresek a zónák között zóna- illetve pixelszinten, gyelembe veszem továbbá a szomszédok orientációs információját, mely a zónák elhelyezkedéséb®l adódik. A futamhossz-mérés nevet visel® algoritmus szintén egy módosított, mozaikfelbontással dolgozó módszer. Alkalmasan megválasztott cellaméret után minden cellát megvizsgálok két, egymásra mer®leges vonal mentén. Ebb®l a párból még egyet használok, 45 fokkal elforgatva, tehát a két vonalpár
0◦
és
90◦ ,
illetve
45◦
and
135◦
(5. ábra). A jellemz® ezekb®l nyerhet® ki, a párokon belül a vonalak mentén mért intenzitás-változások különbségeként. Például, egy közel vízszintesen álló vonalkódban sok intenzitás-változás mérhet® a vízszintes szkennel® vonal mentén, és kevés mérhet® függ®legesen (5. ábra). A 45 fokban elforgatott párra azért van szükség, hogy különböz® orientációjú kódokat is felismerjünk. A végs® mér®számot a két különbség maximuma adja. Ez 1, ha a képen párhuzamos sávok fellelhet®k a cellában, és 0, ha homogén terület, vagy uniform zaj. A mozaikfelbontáshoz használt egyik legegyszer¶bb jellemz®n alapul a lokális komponens-keresés [9]. A cellát egyszer¶en felosztja sötét és világos szegmensekre, és megszámolja ®ket. A vonalkódot tartalmazó cellában meghatározható darabszámú, elnyúlt komponens lesz. Egy új algoritmust is javasoltam a lokalizációs feladathoz, mely kizárólag távolságtranszformáción alapul [14]. Önmagában is használható, de teljesítménye limitált. Ajánlott inkább köztes lépésként használni szosztikáltabb algoritmusok tervezése-
5
5. ábra.
Két pár vonal halad végig a képrészleten.
Az egyik páron belül szig-
nikánsan több eltérés lesz a szkennel® vonalak által mért intenzitás-különbségek számában, ez adja a pozitív választ.
A példában a vonalkód-részletet az els® pár
ismeri fel.
6. ábra. Aztec kód, 25 % uniform zajjal és
σ=2
paraméter¶ Gauss simítással ter-
helve. A képrészlet hisztogramja 256 intenzitással (jobb fels® ábra) és 8 intenzitással (jobb alsó ábra).
kor. Bevezettem továbbá egy algoritmust, mely a cellahisztogramokon alapul.
Az
ideális, vizuális kódot tartalmazó cellában kizárólag fekete és fehér intenzitások gyelhet®k meg, közel 1:1 arányban.
A kód-objektum variabilitása és a képalkotó
berendezések pontatlanságai miatt a mérhet® hisztogram el fog térni az ideális esett®l (6. ábra). Ahhoz, hogy ezt számításba vegyük, az alábbi modellt javasoltam a várható hisztogramok modellezésére:
2 (1−x)2 − − x 2 2 UC,σ (x) = C + (1 − C) e (ε+σ) + e (ε+σ) , ahol C és
σ
(1)
a zaj és simítottság mértékének megfelel®en beállított paraméterek.
Különböz® értékek eltér® eloszlásokhoz vezetnek (7. ábra). A sebesség ezeknél a módszereknél is fontos szempont. Ezen algoritmusok egyszer¶, gyorsan számolható jellemz®ket használnak, és a lokális méréseknek köszönhet®en könnyen párhuzamosíthatóak. Az egyszer¶ jellemz®kön alapuló detektorok sokféleképp aggregálhatók, például többségi szavazással, vagy a detektorok maximumát tekintve. Használható még a súlyozott szavazás [5] is, mely lehet®séget ad a jellemz®k fontosságának kiválasz-
6
1.0
0.8
0.6
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
C (várható simítás) közepes C = 0.1, σ = 0.15 (szennyezett környezet példája), kék szagganagyobb C kisebb várható zajjal C = 0.3, σ = 0.01 (gyenge min®ség¶
7. ábra. Várható eloszlások. Piros folytonos vonal: kis mennyiség¶ zajjal tott vonal:
telefonos felvétel példája).
tására. A többségi szavazás akkor hatékony, ha a jellemz®k önmagukban alacsony osztályozó er®vel bírnak, de magas recall értékkel.
A maximum elv¶ szavazás a
recall maximalizálására jó, amikor ez a pontosságnál fontosabb szempont, például ipari alkalmazások esetén.
2.3. Neurális hálók használata a lokalizálási feladatra Mind az 1D és 2D vizuális kódok nagy variabilitással rendelkeznek az elemek elhelyezkedését tekintve. Nehéz lenne manuálisan felsorolni minden kongurációt, mely el®fordul a kód-objektumban, vagy olyan modellt alkotni, amely pozitív választ ad minden jellegzetes, és minden ritkábban el®forduló kongurációra is. A neurális hálók használata ebben a feladatban segít, automatizálva a tanulást, és szükségtelenné téve a minták manuális felsorolását. Az elmúlt néhány évben megnövekedett az érdekl®dés a neurális hálók használata iránt, f®leg a mély hálók tanítása terjedt el különféle feladatokra.
A mély
neurális hálók (DNN), szemben a hagyományos hálókkal (ANN) több rejtett réteget tartalmaznak. Az ilyen hálók megfelel® tanításához viszont oda kell gyelnünk arra, hogy a rejtett rétegek növelésével a hagyományos back-propagation algoritmus nehézségekbe ütközik. Ilyenek például a vanishing gradient és az explaining away hatások [17]. Az eddig bemutatott módszerekhez hasonlóan, a neurális hálók bemeneti vektorait is blokkszinten nyerjük ki.
A háló által kiszámolt jellemz® adja meg a QR
kód jelenlétének valószín¶ségét az adott cellában. Ebb®l jellemz®mátrixot (jellemz®képet) építünk (8. ábra), melyben a fentiekhez hasonlóan összefügg® területeket
7
(a) valós példa
8. ábra.
(b) jellemz®kép
Okostelefonnal fényképezett kép és hozzá tartozó jellemz®kép a neurális
háló kimenete alapján.
keresünk. A komponensek sz¶rése után visszaadjuk a befoglaló téglalapokat. Az egyik negnépszer¶bb állókép-szabvány a JPEG [34], mely hatékony tárolást és továbbítást tesz lehet®vé. A legtöbb kamera képes közvetlenül ebben a formátumban rögzíteni, néhány berendezés JPEG adatfolyam továbbítására is képes. Ez indokolta a formátum használatát a kutatáshoz. A neurális hálózatok képesek a frekvenciatérben tanulni, a JPEG ennek egy részhalmazaként fogható fel, rögzített, 8×8 pixeles blokkmérettel. Ezt a megközelítést használva közvetlenül az együttható-vektorokon végezhetünk tanítást, így elkerüljük a JPEG dekompresszió legköltségesebb lépését, az inverz DCT-t. A disszertációban bevezettem a DCT vektorokon tanított, mély egyenirányított hálók használatát, mely hatékonyan végzi a cellák osztályozását a lokalizálási feladathoz.
2.4. Gyenge osztályozók kaszkádja Boosting technikával Belussi és tsa. [3] kísérletezett Haar-waveleteken alapuló jellemz®k használatával gyenge osztályozók sokaságának tanítására. Megvizsgálta az osztályozók képességeit és optimális paramétereket javasolt.
Az általa tanított osztályozó a QR kódok
sarkaiban fellelhet® lokátor mintákon tanultak.
A kutatásaik szerint az optimális
osztályozó csak a Haar-wavelet család alaphalmazát használja, elforgatott entitások nélkül, a gyenge osztályozók kaszkád topológiába szervez®dnek maximálisan 1 osztással, osztályozónként legalább 0.5 FPR-rel és 4000 db 16×16 mintával vannak tanítva. A Haar-jellemz®k helyett használhatunk LBP (Local Binary Patterns), és HOG jellemz®ket (Histograms of Oriented Gradients).
A mozaikfelbontás és a blokkok
körvonal menti olvasása, mely az el®z® részben ismertetésre került, analóg az LBP koncepciójával [29], annyi különbséggel, hogy az a középpontot nem használja fel a jellemz® kinyeréséhez. A lokátor minták helyett javasoltam és megvizsgáltam olyan osztályozók használatát, melyek az egész kód-objektumon végzik a tanulást. Amellett, hogy a QR
8
(a)
(b)
9. ábra. Nyomtatott QR kód asztalterít®re helyezve (a) és hozzá tartozó FIS jellemz®kép (b) (Matlab JET paletta).
kódok nagy változatossággal rendelkeznek az adatrégiókban, tartalmaznak adats¶r¶ségi mintát, és egy kisebb, negyedik lokátor mintát, melyet Belussi munkája nem használ ki. Feleslegessé válik továbbá a megtalált lokátorminták hármasokba rendezése, mely számításigényes m¶velet. Az egész kódon tanult osztályozók nem igényelnek utófeldolgozást a duplikátumok kisz¶résén kívül. Az LBP és a HOG jellemz®s osztályozók egyaránt taníthatók lokátor mintára és egész kódra [11]. Továbbá az LBP a Haar-jellemz®knél jobb teljesítmény érhet® el, mivel nem korlátozódik egy kötött jellemz®halmazra. A HOG jellemz®k szintén hatékonyak QR kódok felismerésére, mivel a kódok vizuális struktúrája kell®en kötött ahhoz, hogy a cellákon belül jellegzetes gradiens-irányokat produkáljon.
2.5. Fuzzy következtetési rendszerek A textúrák felismerésének egyszer¶ megközelítése a sztochasztikus jellemz®k használata [19]. Wang [20] bevezette a textúra-spektrumot, mely kiválóan alkalmas textúrák szegmentálására, illetve a
Texture Unit
fogalmával jellemezni tudjuk a cellán
belüli lokális intenzitás-viszonyokat. Lee és tsa. [27] kiterjesztette ezt az elképzelést a Fuzzy elméletben,
Fuzzy Uncertainty Texture Spectrum
fogalmat hozott létre, ez-
zel megalapozta a textúrák Fuzzy felismerését és jellemzését. Mivel a vizuális kódok textúrákra jellemz® tulajdonságokkal is bírnak, a textúrák felismerésében alkalmas módszerek adaptációival felismerhet®k.
A
Fuzzy Texture Spectrum
bonyolult szá-
molása helyett egyszer¶ jellemz®kön alapuló fuzzy következtetési rendszerek (Fuzzy Inference System, FIS) bevezetését javasoltam a feladatra, megalkottam a szabálybázisát és kiértékeltem a lokalizálási hatékonyságát.
Ezek a rendszerek könnyen
implementálhatók és a jellemz®k függvényében gyors, on-line m¶ködésre is képesek. A szakirodalomban már megtalálható egy kett®s küszöbölésen és Fuzzy lépéseken alapuló QR kód detektáló algoritmus [36]. Az általam javasolt FIS rugalmas a vizsgált jellemz®k tekintetében, és adaptálható a tézisben ismertetett összes kétdimenziós vizuális kódhoz [8].
9
A javasolt algoritmus hatékony mind számítási sebesség és memóriaszükséglet tekintetében, és a legtöbb ismertetett jellemz® kiszámolható a cellákra osztott kép egy cellájában található pixelek alkalmasan választott részhalmazából is. A bemeneti adatok mennyisége nomhangolhatóvá teszi a módszert a sebesség vagy a pontosság elvét el®nyben részesítve a másikkal szemben. Ezek a sajátosságok teszik a fuzzy következtetési rendszereket preferált választássá egyéb on-line algoritmusokkal szemben. A javasolt FIS három bemeneti és egy kimeneti változót tartalmaz. A tagsági függvények paramétereit a végfelhasználói alkalmazáshoz mérten kell beállítanunk, ezt néhány várható input-kép statisztikájának elkészítésével tehetjük meg legegyszer¶bben. A szükséges jellemz®ket egyszer¶ jellemz®halmazból vesszük, a koncepció a kaszkádolt gyenge osztályozókkal analóg. Ezek a jellemz®k emberi szemmel meggyelhet®k, és az alábbi kijelentésben foglalhatók össze: egy QR kód f®leg sötét és világos pixelekb®l áll, nagyjából egyforma arányban, közepes vagy jó kontraszttal és alacsony telítettséggel rendelkezik. Ugyanez igaz marad, ha a kódnak csak egy részletét gyeljük meg, ami indokolja a mozaikfelbontást. A jellemz®halmaz igény szerint b®víthet®.
Azon esetekben, amikor a fent is-
mertetett jellemz®k nem nyújtanak kell® osztályozó er®t, bonyolultabb jellemz®k bevonása szükséges. Az általam javasolt új jellemz® a futamhossz-mérésen alapuló új tagsági függvény.
3. A tézispontok összefoglalása 1. Bevezettem 3 új, globális információt használó algoritmust a vizuális kódok lokalizációjára képeken.
Ezek rendre a klasszikus vonalszkennelésen, Hough
transzformáción, valamint matematikai morfológiai operátorok használatán alapulnak.
Az utóbbi két algoritmus képes felülmúlni a szakirodalom algo-
ritmusait pontosság és találati arány tekintetében, míg a vonalszkennelésen alapuló algoritmus gyors és szintén elfogadható pontossággal rendelkezik. 2. Új algoritmusokat javasoltam a vizuális kódok helyének meghatározására a kép mozaikfelbontásának ötletét felhasználva. Ezeket az algoritmusokat alacsony számítási és tárigény jellemzi, valamint könnyen párhuzamosíthatók. 2.1. Javasoltam a cellahisztogram, a távolságtérkép és a módosított vonalszkennelés megközelítését helyi jellemz®-kinyerésre.
Megmutattam to-
vábbá, hogy az egyszer¶ jellemz®k kombinációja képes felülmúlni pontosságban vagy találati arányban az eddig ismert algoritmusokat, attól függ®en, hogy milyen típusú aggregációt és jellemz®ket választunk. 2.2. Implementáltam egy forgás-invariáns jellemz®t, mely a klasszikus vonalszkennelésb®l származik. Az új jellemz® egy kör mentén kinyert lokális
10
intenzitásprolokra épül, továbbá kihasználja a szimmetriákat és a szomszédos cellainformációkat.
3. Bevezettem és elemeztem a neurális hálókat a vizuális kódók lokalizációjára.
3.1. Vizsgálataim igazolták, hogy a mély egyenirányított hálók hatékonynak bizonyultak vizuális kódok lokalizációjára, képtérben és frekvenciatérben egyaránt, bináris képeken is. 3.2. Megmutattam továbbá, hogy a mély egyenirányított hálók közvetlenül JPEG DCT vektorokon is taníthatók, ami szükségtelenné teszi a JPEG dekódolás legköltségesebb m¶veletét, az inverz DCT-t.
4. Kiértékeltem a kaszkádolt, gyenge jellemz®kön alapuló osztályozók használhatóságát a vonalkód lokalizációs feladatra, és fejlesztéseket javasoltam.
4.1. Két új jellemz®t javasoltam az osztályozók tanításához, az LBP (Local Binary Patterns) és HOG (Histograms of Oriented Gradients) jellemz®ket. Ezek bizonyítottan nagyobb pontosságot biztosítanak a szakirodalom tárgyalt, Haar-waveleteken alapuló jellemz®khöz képest. 4.2. Javasoltam a teljes kódobjektumon végzett tanítást a kizárólag lokátormintákon végzett tanítással szemben, ami nagyban egyszer¶síti az utófeldolgozási lépést.
5. Bevezettem a Fuzzy következtetési rendszerek használatát a vonalkód lokalizációs feladatra, ami gyors végrehajtást és rugalmas modellalkotást tesz lehet®vé.
1. táblázat. A publikációk és a tézispontok kapcsolata
Publikáció [9]
Tézispont 1
2.1
•
• • •
[5] [6] [11] [10] [18] [4]
•
•
2.2
3.1
3.2
4
5
Típus konferencia konferencia konferencia
• •
konferencia folyóirat
• •
konferencia
•
konferencia
•
[7]
konferencia
•
[8]
•
[12]
11
konferencia folyóirat
Hivatkozások [1] Robert Adelmann. Toolkit for bar code recognition and resolving on camera. In
Phones Jump Starting the Internet of Things. In: Informatik 2006 workshop on Mobile and Embedded Interactive Systems, 2006. [2] D.H. Ballard.
Generalizing the hough transform to detect arbitrary shapes.
Pattern Recognition,
13(2):111122, 1981.
[3] Luiz F. F. Belussi and Nina S. T. Hirata. Fast QR code detection in arbitra-
Graphics, Patterns and Images (Sibgrapi), 2011 24th SIBGRAPI Conference on, pages 281288, 2011.
rily acquired images. In
[4] Péter Bodnár, Tamás Grósz, László Tóth, and László G Nyúl.
Localization
International Workshop on Articial Neural Networks and Intelligent Information Processing: Proceedings of ANNIIP, pages 3744, 2014. of visual codes in the dct domain using deep rectier neural networks.
[5] Péter Bodnár and László G Nyúl. Improving barcode detection with combination of simple detectors. In
Technology (SITIS 2012),
The 8th International Conference on Signal Image
pages 300306, 2012.
[6] Péter Bodnár and László G Nyúl. Barcode detection with uniform partitioning and distance transformation.
Graphics and Imaging,
IASTED International Conference on Computer
pages 4853, 2013.
[7] Péter Bodnár and László G Nyúl. QR code localization using boosted cascade of weak classiers. In
Image Analysis and Recognition, pages 338345. Springer
International Publishing, 2014. [8] Péter Bodnár and László G Nyúl. Localization of visual codes using fuzzy infe-
VISAPP 2015 Proceedings of the 10th International Conference on Computer Vision Theory and Applications, pages 345352. SciTePress,
rence system. In
2015. [9] Péter Bodnár and László G. Nyúl. Barcode detection with morphological ope-
Signal Processing, Pattern Recognition, and Applications, Proceedings of the Ninth IASTED International Conference on, pages rations and clustering. In
5157, 2012. [10] Péter Bodnár and László G. Nyúl.
Barcode detection using local analysis,
mathematical morphology, and clustering. [11] Péter Bodnár and László G. Nyúl.
Acta Cybernetica,
21:2135, 2013.
A novel method for barcode localization
Image Analysis and Recognition, volume 7950 of Lecture Notes in Computer Science, pages 189196. Springer Berlin Heidelberg, 2013.
in image domain. In
12
[12] Péter Bodnár and László G. Nyúl. Improved QR code localization using boosted cascade of weak classiers.
Acta Cybernetica,
22:2133, 2015.
[13] Richard L. Dunlap and William A. Slat. Application of radio frequency identication, April 24 2012. US Patent 8,164,457. [14] Pedro F. Felzenszwalb and Daniel P. Huttenlocher.
Distance transforms of
sampled functions. Technical report, Cornell Computing and Information Science, 2004. [15] Orazio Gallo and Roberto Manduchi. Image-based barcode reader, January 27 2011. WO Patent App. PCT/US2010/002,023. [16] Orazio Gallo and Roberto Manduchi. Reading 1D barcodes with mobile phones using deformable templates.
IEEE Trans. Pattern Anal. Mach. Intell.,
33(9):18341843, 2011. [17] Xavier Glorot, Antoine Bordes, and Yoshua Bengio. Deep sparse rectier networks. In
Proc. AISTATS,
pages 315323, 2011.
[18] Tamás Grósz, Péter Bodnár, László Tóth, and László G Nyúl. QR code locali-
Machine Learning for Signal Processing (MLSP), 2014 IEEE International Workshop on, pages 16. IEEE, 2014. zation using deep neural networks. In
[19] Robert M Haralick. Statistical and structural approaches to texture.
dings of the IEEE,
67(5):786804, 1979.
[20] Dong-Chen He and Li Wang.
Pattern Recognition, [21] Pavel imurda.
Procee-
Texture features based on texture spectrum.
24(5):391399, 1991.
Barcode localization in image.
Technologies Bulletin of the ACM Slovakia, [22] Xiaojun Qi James Juett.
In
Information Sciences and
volume 3, pages 5556, 2011.
Barcode localization using bottom-hat lter.
Research Experience for Undergraduates,
NSF
2005.
[23] Eugene Joseph and Theo Pavlidis. Bar code waveform recognition using peak locations.
Pattern Analysis and Machine Intelligence, IEEE Transactions on,
16(6):630640, 1994. [24] Melinda Katona and László G. Nyúl. A novel method for accurate and ecient barcode detection with morphological operations.
In
Conference on Signal Image Technology (SITIS 2012),
The 8th International pages 307314, 2012.
[25] Nahum Kiryati, Yuval Eldar, and Alfred M. Bruckstein. A probabilistic hough transform.
Pattern Recognition,
24(4):303316, 1991.
13
[26] Chuck Kurtz, Gary E. Desjardins, and Stephen J. Sanchez. Self checkout system with automated transportation conveyor, April 17 2007. US Patent 7,204,346. [27] Yih-Gong Lee, Jia-Hong Lee, and Yuang-Cheh Hsueh. on using fuzzy uncertainty texture spectrum.
Texture classicati-
Neurocomputing,
20(1):115122,
1998. [28] Daw-Tung Lin, Min-Chueh Lin, and Kai-Yung Huang.
Real-time automatic
recognition of omnidirectional multiple barcodes and dsp implementation.
chine Vision and Applications,
Ma-
22:409419, 2011.
[29] T. Ojala, M. Pietikainen, and D. Harwood. Performance evaluation of texture measures with classication based on kullback discrimination of distributions.
Pattern Recognition, 1994. Vol. 1 - Conference A: Computer Vision and Image Processing., Proceedings of the 12th IAPR International Conference on, In
volume 1, pages 582585 vol.1, Oct 1994. [30] Jean Serra.
Image analysis and mathematical morphology.
Academic Press,
Inc., 1983. [31] István Szentandrási, Adam Herout, and Markéta Dubská. Fast detection and recognition of QR codes in high-resolution images. In
Spring Conference on Computer Graphics,
Proceedings of the 28th
SCCG '12, pages 129136, New
York, NY, USA, 2013. ACM. [32] Ender Tekin and James M. Coughlan.
A mobile phone application enabling
Proceedings of the 12th international conference on Computers helping people with special needs, visually impaired users to nd and read product barcodes. In
pages 290295, Berlin, Heidelberg, 2010. Springer-Verlag. [33] Timothy R. Tuinstra. Reading barcodes from digital imagery. Technical report, Cedarville University, 2006. [34] Gregory K. Wallace. The JPEG still picture compression standard.
Electronics, IEEE Transactions on,
Consumer
38(1):xviiixxxiv, Feb 1992.
[35] Chunhui Zhang, Jian Wang, Shi Han, Mo Yi, and Zhengyou Zhang. Automatic real-time barcode localization in complex scenes. In
Conference on Image Processing,
Proceedings of International
pages 497500, 2006.
[36] Bin Zhou, Shumei Lan, Kai Sun, Jie Cao, Huajun Yu, and Yongliang Chen. Double thresholds with a membership function applied to qr image recogni-
The Fuzzy Systems, Knowledge Discovery, and Natural Computation Symposium, pages 5963, 2013. tion. In
14
Társszerzői nyilatkozat Kijelentem, hogy ismerem Bodnár Péter PhD fokozatra pályázó Image analysis methods for localization of visual codes című disszertációját. Az alábbi cikkben közösen publikált és a disszertációban is szereplő eredményekről az alábbi nyilatkozatot teszem. A következő eredményekben a pályázó hozzájárulása volt a meghatározó: 1. Péter Bodnár, Tamás Grósz, László Tóth, and László G Nyúl. Localization of visual codes in the DCT domain using deep rectifier neural networks. In Madani K., editor, International Workshop on Artificial Neural Networks and Intelligent Information Processing, Lecture Notes in Computer Science, pp. 37–44, 2014
A pályázó javasolta neurális hálók tanítását a frekvenciatérben.
2. Tamás Grósz, Péter Bodnár, László Tóth, and László G Nyúl. QR code localization using deep neural networks. In Moreau Eric Larsen Jan Mboup Mamadou, Adali Tülay, editor, International Workshop on Machine Learning for Signal Processing, Lecture Notes in Computer, 6 p. Science, 2014
A pályázó jellemzőket javasolt neurális hálók tanításához mind a képtérből, mind a frekvenciatérből. A neurális hálóhoz bemeneti típusokra és blokkméretre adott javaslatot. Javasolta a részben fedett blokkok tanítását.
Ezeket az eredményeket nem használtam fel és a jövőben sem használom fel tudományos fokozat megszerzéséhez. Szeged, 2015. december 15.
Grósz Tamás
Társszerzői nyilatkozat Kijelentem, hogy ismerem Bodnár Péter PhD fokozatra pályázó Image analysis methods for localization of visual codes című disszertációját. Az alábbi cikkben közösen publikált és a disszertációban is szereplő eredményekről az alábbi nyilatkozatot teszem. A következő eredményekben a pályázó hozzájárulása volt a meghatározó: 3. Péter Bodnár, Tamás Grósz, László Tóth, and László G Nyúl. Localization of visual codes in the DCT domain using deep rectifier neural networks. In Madani K., editor, International Workshop on Artificial Neural Networks and Intelligent Information Processing, Lecture Notes in Computer Science, pp. 37–44, 2014
A pályázó javasolta neurális hálók tanítását a frekvenciatérben.
4. Tamás Grósz, Péter Bodnár, László Tóth, and László G Nyúl. QR code localization using deep neural networks. In Moreau Eric Larsen Jan Mboup Mamadou, Adali Tülay, editor, International Workshop on Machine Learning for Signal Processing, Lecture Notes in Computer, 6 p. Science, 2014
A pályázó jellemzőket javasolt neurális hálók tanításához mind a képtérből, mind a frekvenciatérből. A neurális hálóhoz bemeneti típusokra és blokkméretre adott javaslatot. Javasolta a részben fedett blokkok tanítását.
Ezeket az eredményeket nem használtam fel és a jövőben sem használom fel tudományos fokozat megszerzéséhez. Szeged, 2015. december 15.