E¨otv¨os Lor´and Tudom´anyegyetem Informatikai Kar Programoz´aselm´elet ´es Szoftvertechnol´ogiai Tansz´ek
Arck¨ ovet´ es ´ es arckifejez´ es becsl´ es Diplomamunka
T´emavezet˝o:
K´esz´ıtette:
dr. habil L˝orincz Andr´as
Seb˝ok Judit
tudom´anyos f˝omunkat´ars
SEJIAAT.ELTE Programtervez˝o matematikus szak Kezd´es ´eve: 2002
Budapest, 2012.
T´emabejelent˝o lap helye
1
Tartalomjegyz´ ek 1. Bevezet´ es 1.1. A dolgozat fel´ep´ıt´ese . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. A felhaszn´alt m´odszerek r¨ovid ´attekint´ese . . . . . . . . . . . . . . . .
3 5 5
2. Arck¨ ovet˝ o m´ odszerek r¨ ovid ´ attekint´ ese 2.1. Arck¨ovet´esi elj´ar´asok . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 7
3. Arcfelismer´ es 3.1. CLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Felhaszn´alt adatb´azisok . . . . . . . . . . . . . . . . . . . 3.1.1.1. A BU-4DFE adatb´azis k´epeinek k´ezi annot´al´asa 3.1.2. Lok´alis szak´ert˝ok - Oszt´alyoz´ok, Val´osz´ın˝ us´egbecsl´es . . . . 3.1.3. Megszor´ıt´as - PDM . . . . . . . . . . . . . . . . . . . . . . 3.1.4. A CLM matematik´aja . . . . . . . . . . . . . . . . . . . . 3.1.5. A CLM fut´asa . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. K´epek el˝ofeldolgoz´as´anak hat´asa . . . . . . . . . . . . . . . . . . . 3.2.1. Laplace sz˝ ur˝o . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Lok´alis bin´aris minta . . . . . . . . . . . . . . . . . . . . . 3.3. Szem´elyre szabott modell . . . . . . . . . . . . . . . . . . . . . . . 3.4. Eredm´enyek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
9 9 11 14 15 19 20 24 26 26 27 28 29
´ 4. Erzelembecsl´ es 32 ´ 4.1. Erzelemfelismer˝ o SVM . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.1.1. Az SVM matematik´aja . . . . . . . . . . . . . . . . . . . . . . 33 4.1.2. Eredm´enyek . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 ¨ 5. Osszegz´ es
37
R¨ ovid´ıt´ esek
38
1. fejezet Bevezet´ es A dolgozat t´em´aja az arck¨ovet´es ´es arckifejez´es becsl´es sz´am´ıt´og´epes szoftverrel. A tov´abbiakban bemutat´asra ker¨ ulnek a kiv´alasztott m´odszerek, az ezek m˝ uk¨od´es´ehez sz¨ uks´eges adatb´azisok illetve az a folyamat amelynek c´elja az arck¨ovet˝o rendszer hangol´asa volt. A megoldand´o probl´ema: egy arcot a´br´azol´o k´epen vagy vide´on az arc bizonyos pontjainak k¨ovet´ese, a megtal´alt pontok elemz´ese. Az arck¨ovet´es sor´an el˝ore meghat´arozott kulcsfontoss´ag´ u pontok hely´et szeretn´enk automatikusan sz´am´ıt´og´eppel megkeresni egy k´epen, illetve vide´ok eset´en ezeket a pontokat k´epkock´ar´ol k´epkock´ara k¨ovetni akarjuk, felhaszn´alva az el˝oz˝o k´epkock´an t¨ort´en˝o k¨ovet´es inform´aci´oit. A feladat neh´ezs´ege nem csak az emberi arcok k¨ ul¨onbs´egeiben rejlik, sz´amolnunk kell azzal is hogy a k¨ ul¨onb¨oz˝o webkamer´akkal felvett vide´okon m´as-m´as f´enyviszony lesz l´athat´o, a kamera el˝ott u ¨l˝o elemzend˝o alany elfordulhat vagy ´eppen el is mehet a kamera el˝ol. A felhaszn´alt m´odszernek ´eppen ez´ert robusztusnak kell lennie a k¨ ul¨onb¨oz˝o megvil´ag´ıt´asokra, az arc elfordul´as´ara ´es fel kell k´esz´ıteni arra az esetre is ha nincsen arc a k´epen. Ez a feladat az´ert ´erdekes, mert egy arck¨ovet˝o ´es ´erzelembecsl˝o szoftver nagyban megk¨onny´ıti a k´epek ´es vide´ok annot´al´as´anak folyamat´at. E mellett oktat´asi felhaszn´al´asai is hasznosak lehetnek. Gondolunk itt arra, hogy p´eld´aul gyerekekr˝ol az ´or´an felvett vide´ok alapj´an az oktat´ok t¨obbletinform´aci´ohoz juthatnak, m´ıg a sz´am´ıt´og´epes oktat´o szoftverek fut´as k¨ozben, a g´ep el˝ott u ¨l˝o gyermek hangulat´at´ol, figyelm´et˝ol f¨ ugg˝oen v´altoztathatj´ak a feladatok neh´ezs´eg´et vagy t´ıpus´at. M´asik p´elda: egy sz´am´ıt´og´epteremben zajl´o vizsga eset´en ak´ar csal´as detekt´al´asra is felhaszn´alhat´o egy ilyen szoftverrendszer. Ezek mellett a sz´orakoztat´oiparban is igen sz´eles k¨or˝ u felhaszn´al´asi lehet˝os´egei rejlenek. A feladat megold´as´ara k¨ ul¨onb¨oz˝o elj´ar´asok is megtal´alhat´oak, melyek egy r´esze csup´an a k´ep textr´ ur´aj´anak inform´aci´oi alapj´an keresi az arc pontjait, egy m´asik r´esze viszont az arc pontjainak egym´ashoz viszony´ıtott lehets´eges elhelyezked´es´et is sz´amba veszi, teh´at azt is megtanulja hogyan n´ezhet ki egy arc,
a pontjai egym´ashoz k´epest hol helyezkedhetnek el. Lehet˝os´eg van arra hogy m´ar elk´esz¨ ult arck¨ovet˝o szoftvert felhaszn´alva k¨ovess¨ uk az arcot vide´okon, de ebben az esetben nem a´ll m´odunkban kicser´elni vagy m´odos´ıtani a szoftver ´altal haszn´alt m´odszereket, algoritmusokat. Ez nagyban korl´atozza a hangol´asi lehet˝os´egeket. F˝ok´ent abban az esetben ha a v´alasztott felhaszn´al´asi ter¨ ulet olyan c´elszem´elyeket felt´etelez a vide´okon, akik valamilyen szempontb´ol speci´alis hangol´ast ig´enyelnek a k´esz szoftver ´altal legjobban k¨ovetett c´elcsoporthoz k´epest. A fellelhet˝o szoftverek p´eld´aul szinte kiz´ar´olag feln˝ott emberek k´epein tanultak, ´ıgy gyerekek eset´en lesznek olyan k¨ovet´esi probl´em´ak amelyeket ki kell k¨ usz¨ob¨olni. Ezen okn´al fogva ink´abb a kiv´alasztott algoritmusok implement´al´as´ara esett a d¨ont´es, megl´ev˝o program alkalmaz´asa helyett. A feladat megold´as´ara v´alaszott m´odszer¨ unk a Megszor´ıtott lok´alis modell (CLM, l´asd: [1]), melynek el˝onyeir˝ol, m˝ uk¨od´es´er˝ol ´es hangol´as´ar´ol a k´es˝obbi fejezetekben r´eszletesen sz´o lesz. Ez a m´odszer rugalmasan v´altoztathat´o r´eszekb˝ol ´ep¨ ul fel, ami k¨onnyebb´e teszi a pontos´ıt´as´at ´es robusztuss´ag szempontj´ab´ol pedig megfelel az elv´ar´asainknak. A haszn´alat´aval mind k´epeken mind vide´okon megkereshetj¨ uk az arc sz´amunkra ´erdekes pontjait, vide´ok eset´en az el˝oz˝o k´epkocka k¨ovet´esi inform´aci´oit is tov´abb viszi a k¨ovetkez˝o kocka k¨ovet´es´ehez. Amennyiben az arck¨ovet´esre rendelkez´es¨ unkre ´all a megfelel˝o szoftver, kezdet´et veheti az elemz´es, ezen bel¨ ul is az els˝odleges c´elunk az arckifejez´es becsl´es. K¨ ul¨onb¨oz˝o megk¨ozel´ıt´esei vannak az ´erzelmek becsl´es´enek. Fel lehet haszn´alni a megtal´alt pontok k¨or¨ ul kiv´agott r´eszek text´ ura inform´aci´oit, a pontok elhelyezked´es´enek inform´aci´oit, vagy ak´ar a kett˝ot egy¨ utt. E mellett a becsl´es t¨ort´enhet a hat alap´erzelem (d¨ uh, undor, f´elelem, o¨r¨om, b´anat, meglep˝od´es) alapj´an vagy pedig a Facial Action Coding System (FACS, l´asd: [2]) Action Unit (AU) k´odjai alapj´an. Az alap´erzelmek haszn´alata eset´en egyszer˝ ubb ´es kev´esb´e k¨olts´eges adatb´azist l´etrehozni, viszont az emberi arc j´oval t¨obb ´erzelmet k´epes mutatni, illetve el˝ofordulhatnak kevert ´erzelmek is. A FACS haszn´alata l´atszik a jobb u ´tnak, ez viszont hozz´a´ert˝o szakemberek ´altal el˝oa´ll´ıtott adatb´azisok l´etrehoz´as´at ig´enyli, ami igen k¨olts´eges lehet. A c´el teh´at egy olyan szoftverrendszer l´etrehoz´asa megl´ev˝o m´odszerek felhaszn´al´as´aval ´es hangol´as´aval, amelynek seg´ıts´eg´evel a sz´am´ıt´og´ep webkamer´aja el´e le¨ ul˝o emberek ´erzelmeir˝ol, arckifejez´es´er˝ol, fejtart´as´ar´ol inform´aci´ot nyerhet¨ unk ´es ak´ar azonnal reag´alhatunk r´a. Felhaszn´al´as´at tekintve a szoftver els˝osorban oktat´asi seg´edeszk¨ozk´ent ker¨ ult hangol´asra. C´eljaink k¨oz¨ott szerepel az a´ltal´anos iskol´as koroszt´aly felm´er˝o tesztjei sor´an felvett vide´ok elemz´ese, melynek seg´ıts´eg´evel a gyerekek teljes´ıtm´eny´er˝ol t¨obb inform´aci´ot tudhatunk meg, mint puszt´an azt hogy a helyes megold´ara kattintottak-e vagy sem. Ez persze nehez´ıti a feladatot is, 4
´ ´ITESE ´ 1.1. A DOLGOZAT FELEP
mivel kisebb koroszt´alyr´ol van sz´o, ´ıgy fel kell k´esz¨ ulni azokra az esetekre is amikor a gyerek el- vagy h´atrafordul, teljesen kimegy a k´epb˝ol vagy ´eppen a sz´aj´aba veszi a kez´et. Ezek mind olyan esetek amire a szoftvert fel kell k´esz´ıteni ´es a felmer¨ ul˝o probl´em´akat valamilyen m´odon kezelnie kell tudni.
1.1.
A dolgozat fel´ ep´ıt´ ese
A k¨ovetkez˝okben el˝osz¨or sz´o lesz a rendelkez´esre ´all´o arck¨ovet˝o ´es ´erzelembecsl˝o m´odszerekr˝ol. Ezek ut´an az arckifejez´es becsl´es´ere v´alasztott CLM bemutat´asa k¨ovetkezik. Ezzel kapcsolatban kit´erek a felhaszn´alt adatb´azisokra ´es tulajdons´agaikra, a m´odszer matematikai h´atter´ere illetve a fel´ep´ıt´es´ere. Sz´o lesz a CLM k´et f˝o r´esz´enek a szerep´er˝ol, a text´ ura alap´ u oszt´alyoz´ok k¨oz¨ ul a kipr´ob´altakr´ol, az el´ert eredm´enyekr˝ol ´es a tov´abbi jav´ıt´as, pontos´ıt´as rem´eny´eben v´alasztott u ´j ir´anyokr´ol. Az arckifejez´es becsl´es ut´an az ´erzelembecsl´es t´argyal´asa k¨ovetkezik, amelyet az e t´eren el´ert eredm´enyek ismertet´ese k¨ovet.
1.2.
A felhaszn´ alt m´ odszerek r¨ ovid ´ attekint´ ese
Ebben a r´eszben egy r¨ovid felsorol´as, majd p´ar szavas le´ır´as k¨ovetkezik azokr´ol a technik´akr´ol, algoritmusokr´ol amelyek a dolgozatban prezent´alt eredm´enyek l´etrehoz´as´aban fontos szerepet kaptak: CLM, Pont disztrib´ uci´os modell (PDM, l´asd: [3]), Logisztikus regresszi´o (l´asd: [4]), Szupport vektor regresszi´o RBF kernellel (RBFSVR, l´asd: [5]), T¨obbr´eteg˝ u perceptron (MLP, l´asd: [6]), Viola-Jones arckeres˝ o algoritmus (VJ, l´asd: [7]), Szupport vektor g´ep (SVM, l´asd: [5]), Szupport vektor regresszi´o (SVR, l´asd: [5]). Ezeket a k¨ovetkez˝o ter¨ uleteken haszn´altuk fel a szoftverrendszerben:
CLM Az arck¨ovet´esre v´alasztott m´odszer, robusztus a megvil´ag´ıt´as v´altoz´asa ´es az arc elfordul´asa eset´en, ak´ar online k¨ovet´eshez is haszn´alhat´o. PDM A CLM egyik f˝o r´esz´et alkotja. A PDM olyan modell amely egy a´tlagos alakzatot ´es az ett˝ol val´o lehets´eges elt´er´eseket reprezent´alja. A m˝ uk¨od´es´ehez sz¨ uks´eges egy tan´ıt´oadatb´azis, melynek felhaszn´al´as´aval megtanulja az alakzat pontjainak elhelyezked´esi szab´alyait. A mi eset¨ unkben az arcon kijel¨olt pontok egym´ashoz k´epest sz´oba j¨ohet˝o elhelyezked´esi lehet˝os´egeit.
5
´ ´ ¨ ´ ´ 1.2. A FELHASZNALT MODSZEREK ROVID ATTEKINT ESE
Logisztikus regresszi´ o A CLM f˝o r´eszei k¨oz¨ ul a text´ ura alap´ u inform´aci´ok felhaszn´al´asa kapcs´an oszt´alyoz´ok´ent alkalmazzunk. A CLM illeszt´es sor´an a k´ep egyes pontjair´ol el akarjuk d¨onteni hogy mekkora val´osz´ın˝ us´eggel felelnek meg az ´altalunk ´eppen keresett pontnak. Ezeket a val´osz´ın˝ us´egeket felhaszn´alva keress¨ uk a pontok optim´alis elhelyezked´es´et. RBFSVR Az el˝oz˝oh¨oz hasonl´oan a CLM text´ ura alap´ u inform´aci´okat feldolgoz´o r´esz´en haszn´aljuk, szint´en oszt´alyoz´ok´ent. El˝onye az hogy gyorsan tanul ´es viszonylag kev´es k´epen, viszont h´atr´anya hogy illeszt´eskor meglehet˝osen lass´ u a haszn´alata. MLP Az MLP-t is oszt´alyoz´ok´ent haszn´aljuk a CLM text´ ura alap´ u inform´aci´okat feldolgoz´o r´esz´en. Az RBFSVR-el ellent´etben gyors a fut´asa illeszt´eskor ´ıgy ak´ar online keres´eshez is haszn´alhat´o, nem csup´an offline elemz´eshez. Viszont a betan´ıt´asa l´enyegesen t¨obb id˝ot vesz ig´enybe mint az RBFSVR eset´en. VJ A CLM m˝ uk¨od´es´ehez sz¨ uks´eg van kezd˝opontok meghat´aroz´as´ara. Az arc poz´ıci´oj´at a k´epen a VJ arckeres˝o algoritmussal hat´arozzuk meg. A kezd˝opontokat a VJ a´ltal kijel¨olt ter¨ ulet seg´ıts´eg´evel sz´amoljuk ki. SVM, SVR Az ´erzelemfelismer˝o alkalmaz´as k¨ozponti elemei. A felismer˝o egy a CLM-el illesztett, ´erzelmekkel vagy AU k´odokkal annot´alt adatb´azison tan´ıtott SVM vagy SVR. A tan´ıt´ast k¨ovet˝oen az u ´j k´epeken val´o ´erzelemfelismer´es el˝ofelt´etele a tan´ıt´asn´al haszn´alt CLM modell a´ltal adott pontok ismerete. ´Igy teh´at az ´erzelemfelismer´es tan´ıt´as ´es illeszt´es f´azis´ahoz is sz¨ uks´eges a CLM futtat´asa, tov´abb´a u ´j CLM modell eset´en az ´erzelemfelismer˝ot is u ´jra kell tan´ıtani.
6
2. fejezet Arck¨ ovet˝ o m´ odszerek r¨ ovid ´ attekint´ ese 2.1.
Arck¨ ovet´ esi elj´ ar´ asok
Az arck¨ovet´eshez haszn´alhat´o m´odszerek k¨oz¨ ul az els˝o amit megeml´ıten´ek az Active Appearance Model (AAM, l´asd: [8]), ami egy modell-alap´ u m´odszer k´epeken val´o t´argyak, alakzatok felismer´es´ere. Az AAM egy mintailleszt´essel dolgoz´o iterat´ıv keres˝o elj´ar´as. A legfontosabb tulajdons´aga hogy felhaszn´alja egyr´eszt a k´ep text´ ur´aj´ab´ol kinyerhet˝o inform´aci´okat, m´asr´eszt pedig a keresett alakzat pontjainak elhelyezked´es´ere vonatkoz´o inform´aci´okat. ´Igy a modell sablonokat ´es hozz´ajuk kapcsol´od´o param´etereket egy¨ utt tanul meg. A param´eterekkel fejezhet˝o ki, hogy a modell mennyire ´es hogyan deform´alhatja a sablon elemeit, p´eld´aul egy arc eset´en azt hogy az emberek maxim´alisan mekkor´ara nyithatj´ak ki a sz´ajukat. A k´epeken a keres´es iterat´ıv m´odon t¨ort´enik a sablonok felhaszn´al´as´aval. A modell sablonjaib´ol egy becs¨ ult ´abr´at ´all´ıt el˝o az aktu´alis param´etereket felhaszn´alva, majd az ´ıgy kapott k¨ozel´ıt˝o-´abr´at az eredeti k´eppel ¨osszevetve hangolja a param´etereket, m´ıg a becs¨ ult a´bra k´ept˝ol val´o elt´er´ese minim´alis nem lesz. A CLM nagyon hasonl´o elj´ar´as. A f˝o k¨ ul¨onbs´eg a text´ ura inform´aci´ok felhaszn´al´as´an´al jelentkezik, ugyanis a CLM-ben az egyes pontok k¨or¨ uli k´epr´eszletekre k¨ ul¨on sablon-modelleket tan´ıtunk ´es az u ´j k´epre t¨ort´en˝o illeszt´esn´el is k¨ ul¨on vizsg´aljuk ˝oket, majd a markerpontok elhelyezked´es´et is figyelembe v´eve optimaliz´alunk a sablonok ´altal visszaadott val´osz´ın˝ us´egi-t´erk´epek (response map, l´asd: 3.10 a´bra) alapj´an. Egy eddig m´eg az algoritmus a´ltal nem l´atott k´epen iterat´ıv keres´es t¨ort´enik, melynek sor´an a param´eterek aktu´alis becsl´eseit ´es a modell a´ltal tanultakat felhaszn´alva gener´alunk egy sablont minden ponthoz ´es ezeket az eredeti k´eppel o¨sszevetve statisztikai m´odszerekkel jav´ıtjuk az aktu´alis
¨ ´ ELJAR ´ ASOK ´ 2.1. ARCKOVET ESI
param´etereket eg´eszen addig, m´ıg egy optim´alis elrendez´est nem kapunk. A CLM-hez nagyon hasonl´o elj´ar´as a Shape Optimised Search (SOS, l´asd: [9]). Ez a modell a val´osz´ın˝ us´egi-t´erk´epeket csak egyszer sz´amolja ki ´ıgy nem iterat´ıv m´odon t¨ort´enik a keres´es, hanem egy optimaliz´aci´os feladat megold´as´aval. A Template Selection Tracker (TST, l´asd: [10]) m´odszer szint´en a CLM-hez hasonl´o keres´est haszn´al, de a text´ ura alap´ u inform´aci´o kinyer´esekor az egyes pontokra illesztend˝o sablont a tan´ıt´oadatb´azis k´epeivel o¨sszevetve v´alasztja ki. Kiz´ar´olag a markerpontok elhelyezked´ese alapj´an optimaliz´alja a param´etereit az Active Shape Model (ASM, l´asd: [3]) m´odszer, melyben a val´osz´ın˝ us´egi-t´erk´epek csak egyszer ker¨ ulnek kisz´am´ıt´asra.
8
3. fejezet Arcfelismer´ es A k´epeken ´es vide´okon val´o ´erzelemfelismer´eshez vezet˝o u ´ton az els˝o l´ep´es az arcfelismer´es illetve az arc egyes jellegzetes pontjainak automatikus megkeres´ese ´es vide´ok eset´en ezen pontok k¨ovet´ese k´epkock´ar´ol k´epkock´ara. Ahogy arr´ol a kor´abbi fejezetekben sz´o volt, erre a c´elra a CLM-et v´alasztottuk ki. Ez a m´odszer robusztus ´es gyors, az alapj´at k´epez˝o algoritmusok adottak, ugyanakkor a tan´ıt´ast ´es illeszt´est v´egz˝o konkr´et elj´ar´asok egyszer˝ uen cser´elhet˝oek. A megoldand´o probl´ema teh´at az hogy a text´ ura inform´aci´ok birtok´aban egy k´epr˝ol el tudjuk d¨onteni hogy van-e rajta arc ´es ha igen akkor hol tal´alhat´oak a sz´amunkra ´erdekes pontjai. A megold´asra v´alasztott CLM el˝onyei a gyorsas´ag ´es robusztuss´ag, a h´atr´anya viszont az hogy a haszn´alat´ahoz sz¨ uks´eg van egy manu´alisan markerezett adatb´azisra, amelynek seg´ıts´eg´evel tan´ıtani tudjuk. Az ´erzelemfelismer´eshez elengedhetetetlen egy min´el pontosabb k¨ovet´esre k´epes CLM modell. Ez´ert a k¨ovetkez˝okben sz´o lesz a CLM m˝ uk¨od´es´er˝ol, a matematikai h´atter´er˝ol, ´es arr´ol is hogy milyen elj´ar´asokkal illetve v´altoztat´asokkal siker¨ ult jav´ıtani a pontoss´ag´an.
3.1.
CLM
A CLM egy olyan elj´ar´as amelynek seg´ıts´eg´evel egy az algoritmus a´ltal m´eg nem l´atott k´epen automatikusan kereshetj¨ uk meg egy sz´amunkra ´erdekes alakzat jellegzetes pontjait. A mi eset¨ unkben ezt az arc bizonyos el˝ore meghat´arozott, az ´erzelemfelismer´es szempontj´ab´ol ´erdekes pontjainak megkeres´es´ere haszn´aljuk (l´asd: 3.1 a´bra). Haszn´alat´ahoz az els˝o l´ep´es egy modell betan´ıt´asa, melyhez sz¨ uks´eg¨ unk van tan´ıt´oadatb´azisra. A tan´ıt´oadatb´azis olyan k´epekb˝ol ´all amelyekhez a markerpontok hely´enek koordin´at´ai el˝ore adottak. Ezek seg´ıts´eg´evel tan´ıthat´oak az u ´gynevezett lok´alis szak´ert˝ok, amelyek feladata az egyes pontok k¨ornyezet´enek text´ ur´aj´ara r´atanulni, azokat felismerni. Ezek a szak´ert˝ok az adatb´azis k´epeib˝ol kiv´agott pozit´ıv ´es negat´ıv p´eld´akon tan´ıtott oszt´alyoz´ok. K´epfeldolgoz´asi technik´ak haszn´alat´aval el˝o lehet seg´ıteni a text´ ura alap´ u oszt´alyoz´ok sikeresebb m˝ uk¨od´es´et,
3.1. CLM
p´eld´aul ´elkiemel˝o elj´ar´asokkal. A text´ ura inform´aci´ok mellett a modell megtanulja a pontok elhelyezked´eseinek lehets´eges el˝ofordul´asait, ´ıgy az illesztett pontok egym´ashoz viszony´ıtott helyzet´ere megszor´ıt´asokat ad. A m´odszer teh´at egyszerre haszn´alja fel a markerpontok elhelyezked´es´eb˝ol ´es a pontok k¨ornyezet´eben tal´alhat´o pixelekb˝ol kinyert inform´aci´okat. A betan´ıt´ast k¨ovet˝oen az illeszt´es sor´an meghat´arozzuk hogy az eddig m´eg nem l´atott k´ep egy adott k´epr´eszlet´enek mely pontja mekkora val´osz´ın˝ us´eggel felel meg az ´altalunk keresett pontnak (pl. jobb szemsarok), majd az o¨sszes lok´alis szak´ert˝o v´alasza alapj´an elhelyezz¨ uk a pontokat a k´epen. K¨ozben arra is figyelnie kell a modellnek hogy a markerpontok elhelyezked´ese ne adjon olyan eredm´enyt amely nem felel meg a keresett alakzat elhelyezked´esi szab´alyainak (a mi eset¨ unkben ez azt jelenti hogy az illesztett pontok elhelyezked´es´et n´ezve arc maradjon). Az eg´esz m´odszer egyik legfontosabb r´esze az adatb´azis amelyen tan´ıtunk. A gyakorlati haszn´alat sor´an felmer¨ ul˝o probl´em´ak megold´asa ´erdek´eben u ´jabb ´es u ´jabb adatb´azisok bevon´as´ara volt sz¨ uks´eg a CLM pontos´ıt´asa illetve hangol´asa ´erdek´eben. Olyan esetben p´eld´aul amikor a webkamera a´ltal r¨ogz´ıtett k´ep t´ ul s¨ot´et, k´et ir´anyban lehet elindulni a jav´ıt´as tekintet´eben. Az egyik megk¨ozel´ıt´esben k´epfeldolgoz´asi m´odszerekkel megpr´ob´alhatjuk a k´ep min˝os´eg´et jav´ıtani. A m´asik ir´any a CLM hangol´asa. Ebben az esetben az oszt´alyoz´oinkat kell felk´esz´ıteni a nagyon s¨ot´et k´epekre is. Hasonl´o a helyzet akkor, amikor a tan´ıt´oadatb´azisunk nem tartalmaz szem¨ uveges emberekr˝ol k´esz¨ ult k´epeket, de a CLM-et ilyen k´epeken is haszn´alni szeretn´enk. Ilyen esetben is az oszt´alyoz´okat kell felk´esz´ıteni az u ´j esetekre.
3.1. ´abra. Markerpontok az arcon 10
3.1. CLM
3.2. ´abra. K´epek a CK+ adatb´azisb´ol
3.1.1.
Felhaszn´ alt adatb´ azisok
A Cohn-Kanade+ adatb´ azis A Cohn-Kanade Extended Facial Expression adatb´azis (CK+, l´asd: [11]) k´epsorozatai az emberi arc ´erzelmeinek folyamat´at a´br´azolj´ak a semlegesb˝ol kiindulva. A k´epek 68 markerponttal annot´altak, ´ıgy haszn´alhat´oak CLM modellek tan´ıt´as´ara ´es tesztel´es´ere is. P´elda k´epek a markerpontok megjel¨olt helyeivel a 3.2 a´br´an l´athat´ok. Az adatb´azis nagys´agrendileg 10 000 szemben´ez˝o arcot ´abr´azol´o k´epet tartalmaz. Az adatb´azis h´atr´anyai: • a markerpontoknak csup´an a 2D inform´aci´oi adottak, ´ıgy p´eld´aul az arc elfordul´asa nem k¨ovethet˝o j´ol a betan´ıtott modellekkel • az adatb´azis k´epei f´enyk´epfelv´etelek, ´ıgy a megvil´ag´ıt´asi be´all´ıt´asok nem v´altoztathat´oak A markerpontok mellett ´erzelmekkel ´es AU k´odokkal is annot´alt az adatb´azis, ´ıgy ´erzelembetan´ıt´asra, illetve tesztel´esre is alkalmas. BU-4DFE A BU-4DFE adatb´azis (BU-4DFE, l´asd: [12]) nagyfelbont´as´ u k´epeket ´es a hozz´ajuk tartoz´o arc 3D ponth´al´oit tartalmazza. Ezek seg´ıts´eg´evel az adatb´azisb´ol tetsz˝oleges megvil´ag´ıt´as´ u (l´asd: 3.3 a´bra) ´es elfordul´asi sz¨og˝ u (l´asd: 3.4 ´abra) arcok k´epeit gener´alhatjuk le. A BU-4DFE minden lef´enyk´epezett alany eset´en tartalmaz egy-egy k´epsorozatot a hat alap´erzelem mindegyik´ehez. P´eldak´epek a 3.5, 3.6 ´es 3.7 ´abr´akon l´athat´oak. Az adatb´azishoz a k´esz´ıt˝oi a k¨ozelm´ ultban kiadtak egy markerez´est, ez azonban kor´abban nem ´allt rendelkez´esre, ´ıgy az itt ismertetett eredm´enyekhez l´etre kellett hozni egy saj´at markerez´est is. A k´ezi annot´al´as sor´an fontos szempont volt a markerpontok min´el pontosabb poz´ıci´oba val´o elhelyez´ese mellett az is, hogy a l´etrehozott markerezett adatb´azis a CK+ adatb´azissal egy¨ utt is haszn´alhat´o maradjon. Azonban a CK+ 68 markerpontj´aval ellent´etben 11
3.1. CLM
3.3. ´abra. A BU-4DFE adatb´azisb´ol gener´alt k´epek m´as-m´as megvil´ag´ıt´assal
3.4. ´abra. A BU-4DFE adatb´azisb´ol gener´alt szembe n´ez˝o ´es elforgatott arc csak 52 ponttal annot´altuk az adatb´azist, kihagyva az arc´el legt¨obb pontj´at. Ennek az oka az, hogy az el˝ozetes futtat´asok alapj´an meg´allap´ıt´asra ker¨ ult hogy az arc´el pontjainak illeszt´esi pontoss´aga nagyban f¨ ugg a k´ep h´atter´et˝ol. ´Igy a t´ uls´agosan v´altoz´o lehet˝os´egek miatt nem igaz´an lehet felk´esz´ıteni az arc´elhez tartoz´o oszt´alyoz´okat minden lehets´eges esetre. A CLM-hez a tan´ıt´ok´epek gener´al´as´at a Visualization Toolkit (VTK, l´asd: [13]) eszk¨ozt´ar ny´ ujtotta renderel´esi elj´ar´asokat felhaszn´alva k´esz´ıtettem el. Ezzel az eszk¨ozzel a markerezett k´epek ´es a hozz´ajuk tartoz´o 3D h´al´ok megad´as´aval tetsz˝oleges elfordul´asi sz¨og˝ u, illetve megvil´ag´ıt´as´ u k´ep l´etrehoz´asa lehets´eges. A CLM tan´ıt´oadatb´azis´at alkot´o k´epek jelenleg szembefordul´o arcokat ´abr´azolnak, minden bemenetk´ent megadott k´ephez 21 k¨ ul¨onb¨oz˝o megvil´ag´ıt´as´ u kimeneti k´ep tartozik. ´Igy nagys´agrendileg 35000 k´ep a´ll rendelkez´esre CLM betan´ıt´ashoz a BU-4DFE adatb´azisb´ol. Sz¨ uks´eg eset´en tov´abbi k´epek l´etrehoz´asa is lehets´eges. Multi-PIE A Carnegie Mellon egyetem a´ltal k´esz´ıtett Multi-Pie adatb´azis (Multi-Pie, l´asd: [14]) az emberi arcr´ol t¨obb kamer´aval felvett, k¨ ul¨onb¨oz˝o sz¨ogekb˝ol, k¨ ul¨onb¨oz˝o megvil´ag´ıt´asi viszonyok mellett k´esz¨ ult felv´eteleket tartalmaz. A k´epeken mind semleges, mind ´erzelmeket t¨ ukr¨oz˝o arcok megtal´alhat´oak. Az adatb´azishoz markerez´es nem a´ll rendelkez´esre, ´ıgy kiz´ar´olag a lok´alis szak´ert˝ok tan´ıt´as´ara haszn´altam fel. A markerpontok hely´enek koordin´at´aira ´ıgy is sz¨ uks´eg van, 12
3.1. CLM
D¨ uh
Undor
F´elelem
3.5. ´abra. K´epek a BU-4DFE adatb´azisb´ol, alap´erzelmek
¨ om Or¨
B´ anat
Meglep˝ od´es
3.6. ´abra. K´epek a BU-4DFE adatb´azisb´ol, alap´erzelmek
3.7. ´abra. K´epek a BU-4DFE adatb´azisb´ol, semleges arckifejez´es
13
3.1. CLM
hogy tudjuk honnan kell pozit´ıv ´es negat´ıv p´eld´akat kiv´agni a k´epr˝ol. Ez´ert az adatb´azis k´epeit egy a BU-4DFE adatb´azison tan´ıtott modellel kellett bemarkerezni, ´es a kapott annot´aci´ok k¨oz¨ ul a pontosan illesztetteket k´ezileg kiv´alogatva, fel tudtam haszn´alni u ´jabb modellek betan´ıt´as´ara. Ezzel a kor´abbin´al stabilabb modellt kaptam v´altoz´o f´enyviszonyokkal felvett k´epek illeszt´es´ere. A javul´ast l´atva az adatb´azisban fellelhet˝o megvil´ag´ıt´asi be´all´ıt´asokhoz hasonl´oan megvil´ag´ıtott k´epeket gener´altam a BU-4DFE adatb´azisb´ol is, ezzel n¨ovelve a tan´ıt´oadatb´azis v´altozatoss´ag´at. Az eddigi eredm´enyek alapj´an a Multi-Pie ´es a BU-4DFE adatb´azisok egy¨ uttes haszn´alat´aval siker¨ ult a legpontosabb CLM modellt betan´ıtani. A tan´ıt´oadatb´azisok birtok´aban a CLM tan´ıt´asa k´et o¨n´all´oan tan´ıthat´o r´eszre bonthat´o. Az egyik a text´ ura alap´ u predikci´os modellek betan´ıt´asa, m´ıg a m´asik a pontok elhelyezked´esi szab´alyait reprezent´al´o modell tan´ıt´asa. Ez a k´et r´esz egym´ast´ol f¨ uggetlen¨ ul is v´altoztathat´o az algoritmusban, ´ıgy k¨ ul¨on t´argyaljuk o˝ket. 3.1.1.1.
A BU-4DFE adatb´ azis k´ epeinek k´ ezi annot´ al´ asa
A BU-4DFE felhaszn´al´as´aval lehet˝os´eg¨ unk ny´ılik a 3D CLM haszn´alat´ara. Az adatb´azis k´epeit viszont k´ezileg annot´alnunk kell ahhoz hogy a 3D h´al´o megfelel˝o pontjainak koordin´at´ait ki tudjuk nyerni. Ennek az annot´al´asnak a folyamat´at ´ırja le ez a r´esz. Mivel az adatb´azis meglehet˝osen sok k´epet tartalmaz, az er˝oforr´asaink pedig v´egesek, ´ıgy csup´an az adatb´azis egy el˝ore kiv´alogatott r´eszhalmaz´anak a k´ezi markerez´ese t¨ort´ent meg. Els˝o l´ep´esben a nagyj´ab´ol 100 emberhez tartoz´o 6 alap´erzelem mindegyik´ehez lef´enyk´epezett k´epsorozatokb´ol kiv´alogattunk emberenk´ent 19 k´epet. Egy semleges ´es ´erzelmenk´ent h´arom k´ep ker¨ ult fel a list´ara. Az ´ıgy kiv´alogatott k´epeket egy n´egy f˝os csoport a´llt neki felmarkerezni. Az egyik CK+ adatb´azison betan´ıtott modellel automatikusan v´egigannot´altuk a k´epeket, ez adta a kiindul´o pontokat, ´ıgy a markerez˝oknek csup´an a hely´ere kellett h´ uznia a nem megfelel˝o poz´ıci´oban l´ev˝o markereket. A 3.8 ´abr´an l´athat´o hogyan n´ez ki a k´ep markerez´es k¨ozben. A l´etrehozott adatb´azis pontjainak konzisztens lement´esi sorrendje igen nagy jelent˝os´eg˝ u a haszn´alat szempontj´ab´ol, ´ıgy a pontok k¨ ul¨onb¨oz˝o sz´ıneket ´es a´rnyalatokat kaptak, ezzel seg´ıtve hogy a markerez˝ok ne keverj´ek o¨ssze o˝ket. Mivel nem egy ember annot´alta v´egig az ¨osszes k´epet, sz¨ uks´eges volt meg´allap´ıtani szab´alyokat a pontok elhelyezked´es´ere vonatkoz´oan. E mellett az elk´esz¨ ult markerez´eseket le is kellett ellen˝oriznie egy embernek, ´ıgy biztos´ıtva az egys´egess´eget ´es a min´el nagyobb pontoss´agot. Az ellen˝orz´es sor´an a nem megfelel˝oen annot´alt k´epeket visszak¨ uldtem a markerez˝oknek jav´ıt´asra, m´ıg el´eg pontos nem lett az eredm´eny. A markerez´es a´ltalunk lefektetett szab´alyai: 14
3.1. CLM
• A markerpontok elhelyez´ese legyen egy¨ utt haszn´alhat´o a CK+ adatb´azis pontjaival. • A CK+ pontjaib´ol az arc´ellel nem foglalkozunk, csup´an 3 pontot hagyunk meg az ´allon. • A szem¨old¨ok pontjait a szem¨old¨ok fels˝o vonal´an helyezz¨ uk el. A k´et sz´els˝o pont hely´et meghat´arozzuk, ´es ezek ut´an a marad´ek h´arom pontot a k´et sarokpont k¨oz¨ott egyenletesen helyezz¨ uk el a szem¨old¨ok ´ıv´en. • A szem pontait a sarokpontok elhelyez´ese ut´an szint´en egyenletes t´avols´agra helyezz¨ uk el a sarokpontokt´ol, k¨ ul¨on az als´o ´es a fels˝o szempilla-´ıveken. • Az orr f¨ ugg˝oleges pontjaib´ol a legals´o arra a pontra ker¨ ul ahol az orr legink´abb ki´all az arcb´ol, m´ıg a fels˝o helye a legm´elyebb r´eszen lesz. Ezeket nem egyszer˝ u 2D szembe n´ez˝o k´epen l´atni, ez´ert a fels˝o pont t¨obbnyire a szem¨old¨ok ´es szem bels˝o sz´els˝o pontjai k¨oz´e ker¨ ult a magass´agot tekintve, a sz´eless´egi poz´ıci´oja pedig az orr k¨ozep´ere kell hogy essen. A marad´ek k´et pont az el˝obbi k´et pont k¨oz¨ott egyenletes t´avols´agot tartva helyezhet˝o el. • Az orr v´ızszintes pontjaib´ol a k´et sz´els˝o az orrlyuk k¨ uls˝o sz´ele al´a ker¨ ul, a k¨oz´eps˝o az orr k¨ozepe al´a, a marad´ek pontok pedig az el˝obb elhelyezettek k¨oz´e olyan m´odon helyezend˝o el, hogy a k´et szomsz´edos pontt´ol egyenl˝o t´avols´agra legyen. • A sz´aj pontjain´al a sarokpontokat a megfelel˝o poz´ıci´oba mozgatva n´egy ´ıv pontjait kell egyenletes t´avols´agokkal elhelyezni: az als´o ´es fels˝o k¨ uls˝o ´ıveken 5, a fels˝o ´es als´o bels˝o ´ıveken 3 pontot. A bels˝o ´ıvekn´el nehez´ıti az elhelyez´est, hogy itt is 5 pontnak megfelel˝o t´avols´agokat kell tekinteni, de a k´et sz´els˝o pont nincsen jelen. • Az ´all pontjainak v´ızszintes ir´any´ u elhelyezked´es´et tekintve egy k¨oz´epre ker¨ ul, a m´asik kett˝o a szemek bels˝o sarkai al´a. F¨ ugg˝oleges poz´ıci´ojukat pedig u ´gy hat´arozzuk meg, hogy az a´llnak azon a r´esz´en helyezkedjenek el amely az arcb´ol legink´abb ki´all´o r´esz. Ez az orr pontjainak elhelyez´es´ehez hasonl´oan nem egyszer˝ u feladat, de a BU-4DFE k´epein fellelhet˝o megvil´ag´ıt´asi be´all´ıt´asok miatt ez a k´epeken az a´llnak arra a r´esz´ere esik, ahol az ´arny´ek kezd˝odik.
3.1.2.
Lok´ alis szak´ ert˝ ok - Oszt´ alyoz´ ok, Val´ osz´ın˝ us´ egbecsl´ es
A lok´alis szak´ert˝ok tan´ıt´asa a tan´ıt´ok´epekb˝ol kiv´agott k´epr´eszleteken (l´asd: 3.9 a´bra) t¨ort´enik, k¨ ul¨on minden egyes pontra. A c´el olyan oszt´alyoz´o betan´ıt´asa amely 15
3.1. CLM
3.8. ´abra. BU markerez´es egy k´epr´eszletet l´atva k´epes megbecs¨ ulni mekkor a val´osz´ın˝ us´ege, hogy a l´atott k´epr´eszleten az a pont van, amit keres¨ unk. A helyesen m˝ uk¨od˝o oszt´alyoz´ot´ol azt v´arjuk, hogy ha olyan k´epr´eszletet kap amin rajta van az a´ltala tanult pont, p´eld´aul egy sz´ajsarok, akkor abban a pontban legyen a legnagyobb a becs¨ ult val´osz´ın˝ us´eg, m´ıg a pontt´ol t´avolodva egyre cs¨okkenjen. Ez a gyakorlatban igen ritk´an teljes¨ ul. Az emberi arc r´eszletei t´ uls´agosan v´altoz´oak lehetnek. Mi emberek p´eld´aul meg tudjuk a´llap´ıtani egy emberr˝ol hogy hol van a szeme, akkor is ha egy vastagkeretes szem¨ uveget visel, de az oszt´alyoz´o ebben az esetben ¨osszezavarodik. K¨ ul¨on tan´ıtanunk kell ilyen esetekre. Ami r¨ogt¨on el˝ohozza azt a probl´em´at, hogy az oszt´alyoz´okat t´ ul lehet tan´ıtani, ami azt jelenti hogy t´ ul sok k´epet t´eve a tan´ıt´oadatb´azisba, a kapott modell becsl´ese hib´as lehet. Az hogy mennyi a t´ ul sok, oszt´alyoz´onk´ent v´altozhat, amit tesztelni kell. A CLM hangol´asa sor´an k¨ ul¨onb¨oz˝o predikci´os modelleket is kipr´ob´altam. Az els˝o k´ıs´erletek sor´an a CK+ adatb´azisb´ol ker¨ ultek ki a tan´ıt´ok´epek. Ezeknek a legnagyobb probl´em´aja a lok´alis szak´ert˝ok szemsz¨og´eb˝ol n´ezve az, hogy a megvil´ag´ıt´as nem v´altoztathat´o. E n´elk¨ ul pedig neh´ez pontos modellt tan´ıtani bel˝ole. A k¨ovetkez˝o adatb´azis amelyet haszn´altam a BU-4DFE seg´ıts´eg´evel gener´alt k´epeket tartalmazta. Eleinte ezek sem voltak el´eg j´ol haszn´alhat´oak a k¨ ul¨onb¨oz˝o megvil´ag´ıt´asok eset´en, ez´ert volt sz¨ uks´eg a VTK haszn´alat´ara. Annak a tesztel´es´ere hogy a lok´alis szak´ert˝ok jav´ıthat´oak-e v´altozatosabb megvil´ag´ıt´assal rendelkez˝o k´epeken val´o tan´ıt´as eset´en, a Multi-Pie adatb´azist haszn´altam. A CLM-el annot´al´asra ker¨ ult n´eh´any mapp´ab´ol kb 2000 k´epet (amelyeken el´eg j´ol illesztett a modell) k´ezileg kiv´alogatva u ´jabb tan´ıt´asra ker¨ ult sor, amely a f´eny v´altoz´asa eset´en sokkal pontosabban k¨ovette az orr vonal´at mint a kor´abbi BU-4DFE-n tan´ıtott modell. Ennek eredm´enyek´ent a BU-4DFE ´es Multi-Pie k´epeinek k¨oz¨os haszn´alat´aval tan´ıtott modellekkel dolgoztam tov´abb.
16
3.1. CLM
A pontosabb szak´ert˝ok betan´ıt´as´anak ´erdek´eben t¨obbf´ele predikci´os m´odszer ker¨ ult kipr´ob´al´asra, melyek k¨oz¨ ul a h´arom leg´ıg´eretesebb a k¨ovetkez˝okben bemutat´asra ker¨ ul. Logisztikus Regresszi´ o Az els˝o predikci´os modell amit a lok´alis szak´ert˝ok tan´ıt´as´ara felhaszn´altam ´es amivel az eredm´enyeket teszteltem, egy logisztikus regresszi´os (l´asd: [4]) modell. Tan´ıt´as: A tan´ıt´ashoz a tan´ıt´ok´epekb˝ol kiv´agott pozit´ıv ´es negat´ıv p´eld´akat haszn´alja fel. P´eld´aul a 3.9 a´br´an l´athat´oak ilyen k´epr´eszletek amelyeket a sz´ajsarok tan´ıt´as´an´al gener´al az algoritmus. A pozit´ıv p´eld´akon a keresett pont a kiv´agott r´eszlet k¨oz´eppontj´aban tal´alhat´o, m´ıg a negat´ıv p´eld´akon ett˝ol elt´er˝o poz´ıci´on lesz. A tan´ıt´asn´al k¨ ul¨on tesztel´est ig´enyelt annak a be´all´ıt´asa, hogy a pozit´ıv p´eld´akhoz amelyb˝ol minden ponthoz k´epenk´ent csup´an egy ´all rendelkez´esre, mekkora ar´anyban gener´aljunk negat´ıv p´eld´akat. A legutols´o v´altozatban a negat´ıv mint´ak sz´ama t´ızszerese volt a pozit´ıv mint´ak sz´am´anak. A kapott modell hat´ekonys´ag´an ronthatnak az olyan esetek amikor a v´eletlenszer˝ uen gener´alt negat´ıv minta nagyon hasonl´o a pozit´ıv mint´akhoz. Ilyen eset p´eld´aul az, amikor a v´eletlenszer˝ uen megv´alaszott k´epr´eszlet a t´enyleges ponthoz t´ ul k¨ozeli k´epr´eszletb˝ol lett kiv´agva. Szint´en ilyen helyzetet eredm´enyez az az eset amikor a pontt´ol messzebb v´agunk ki negat´ıv p´eld´at ´es m´egis hasonl´o k´epr´eszletet kapunk. P´eld´aul a szem¨old¨ok¨on l´ev˝o pontok eset´en a 3.11 a´br´an l´athat´o k´et n´egyzetbe es˝o r´eszletek. Ennek a probl´em´anak a kik¨ usz¨ob¨ol´es´ere egy lehet˝os´eg a negat´ıv p´elda gener´al´o algoritmusban egy megszor´ıt´as bevezet´ese. Az el˝obbi p´eld´aban ha megszor´ıtjuk a szem¨old¨ok pont negat´ıv mint´ainak gener´al´as´at egy adott ter¨ uleten bel¨ ulre (l´asd: 3.12 a´bra), a kapott oszt´alyoz´oink pontosabbak lesznek. Azt is meg kell vizsg´alnunk, hogy a mintak´epeinket mekkora m´eret˝ ure kell ´atsk´al´azni ahhoz, hogy az oszt´alyoz´o hat´ekonyan tan´ıthat´o legyen. Kisfelbont´as´ u k´epen m´ar nem l´atszanak j´ol a tanuland´o jellegzetess´egek, t´ ul nagy felbont´as eset´en pedig olyan r´eszletek is benne maradhatnak a kiv´agott p´eldak´epekben amiknek nincsen jelent˝os´ege, ´ıgy nem szeretn´enk a tan´ıt´asba bevonni. Ilyenek p´eld´aul a szepl˝ok vagy anyajegyek az arcon, melyek megfelel˝oen kicsire a´tsk´al´azott k´epen m´ar nem l´athat´oak. uk minden pontra, Illeszt´es: Az illeszt´es sor´an a k´ep egy adott r´esz´en megn´ezz¨ hogy a modell¨ unk szerint mekkora val´osz´ın˝ us´eggel felel meg a keresett pontnak. A 3.10 a´br´an l´athat´o hogy illeszt´eskor a kezd˝opont k¨ornyezet´eben milyen val´osz´ın˝ us´egeket becs¨ ult a modell. Min´el vil´agosabb az a´br´an egy pont ann´al val´osz´ın˝ ubbnek tartja a modell hogy sz´ajsarok pontot tal´alt. Ezeket a val´osz´ın˝ us´egi-t´erk´epeket haszn´aljuk fel annak eld˝ont´es´ere hova ker¨ uljenek 17
3.1. CLM
3.9. ´abra. Pozit´ıv ´es negat´ıv p´eld´ak lok´alis szak´ert˝o tan´ıt´as´ahoz
Eredeti k´ep
Sz´ ajsarok szak´ert˝ o
3.10. ´abra. Lok´alis szak´ert˝o szerint becs¨ult val´osz´ın˝us´egek a pontok. Minden tan´ıtott ponthoz tartozni fog egy ilyen t´erk´ep. K¨ ul¨on hangol´ast ig´enyel annak a be´all´ıt´asa hogy mekkor´ak legyenek a kiv´agott pozit´ıv ´es negat´ıv mint´ak, illetve mekkora legyen az a ter¨ ulet a k´epen amelyen keress¨ uk az adott pontot. RBFSVR A k¨ovetkez˝o felhaszn´alt modell a szak´ert˝ok tan´ıt´as´ara a LIBSVM (l´asd: [5]) csomagban tal´alhat´o egyik regresszi´os elj´ar´as, amely az u ´gynevezett RBF (Radi´alis b´azisf¨ uggyv´eny) kernelt haszn´alja. Ezzel tan´ıtva jobb eredm´enyeket siker¨ ult el´erni a CLM illeszt´esekn´el. A modell h´atr´anya viszont az hogy fenn´all a t´ ultanul´as vesz´elye, illetve a futtat´asok sor´an az is kider¨ ult, hogy igen lass´ u az illeszt´eskor, ´ıgy online haszn´alatra nem alkalmas. Ez igen komoly h´atr´anyt
3.11. ´abra. A kijel¨olt pont eset´en t´uls´agosan hasonl´o pozit´ıv ´es negat´ıv tan´ıt´o p´elda
18
3.1. CLM
3.12. ´abra. P´elda megszor´ıt´asra negat´ıv minta gener´al´asn´al jelent. MLP A MLP az RBFSVR modellel ellent´etben gyorsan fut illeszt´eskor, tov´abb´a el´erhet˝o vele ugyanaz az illeszt´esi pontoss´ag. H´atr´anya viszont a hossz´ u tanul´asi id˝o. A fenti modelleket egy¨ utt is fel lehet haszn´alni. Megtehetj¨ uk hogy bizonyos pontokat az egyik, m´ıg m´as pontokat egy m´asik oszt´alyoz´o elj´ar´assal tan´ıtunk. A legut´obbi tesztek sor´an az MLP-vel dolgoz´o modell gyeng´ebben teljes´ıtett a sz´ajpontokra, mint egy kor´abbi Logisztikus regresszi´os modell, ez´ert a kett˝o kombin´aci´oj´at is kipr´ob´altam, ahol a sz´ajpontokat a Logisztikus regresszi´os modell, m´ıg a t¨obbi pontot az MLP haszn´alat´aval pr´ob´alta megtal´alni a modell. Ezzel siker¨ ult jav´ıtani a CLM pontoss´ag´an.
3.1.3.
Megszor´ıt´ as - PDM
A tan´ıt´oadatb´azis markerpontjai alapj´an olyan param´eteres modell l´etrehoz´asa a c´el, amely u ´j elemek illeszt´es´ere haszn´alhat´o. A feltev´es az hogy a transzform´aci´okt´ol (sk´ala, forgat´as, eltol´as) eltekintve egy line´aris alt´errel j´ol k¨ozel´ıthet˝oek az u ´j alakzatok, a mi eset¨ unkben az arcok. Ez´ert a modell tan´ıt´as´an´al felhaszn´aljuk a f˝okomponens anal´ızist (PCA), melynek seg´ıts´eg´evel az ´atlagarc, ´es az ett˝ol val´o elt´er´esi lehet˝os´egek kisz´amolhat´oak. Az ezt felhaszn´al´o ´es reprezent´al´o modell a PDM. A tan´ıt´as´ahoz a tan´ıt´oadatb´azis arcaihoz tartoz´o markerpontokra van sz¨ uks´eg¨ unk, ezeknek is egy olyan v´altozat´ara amelyben m´ar a sk´ala, forgat´as ´es eltol´as nem szerepel. Teh´at a tan´ıt´op´eld´akat norm´alni kell a PDM tan´ıt´as el˝ott. A CK+ adatb´azison tan´ıtott els˝o modellek 2D PDM modellek voltak. Itt csup´an a 2D koordin´at´ai adottak a pontoknak, ´ıgy a forgat´as csak egy ir´any ment´en lehets´eges. Err˝ol a modellr˝ol hamar lehetett l´atni hogy az arc elfordul´as´ara nem el´eg robusztus, ´ıgy ´at kell t´erni 3D PDM-re. A probl´ema az hogy ha az arc elfordul, a lok´alis szak´ert˝o azt ´erz´ekeli hogy az egyik szemn´el a sarokpontok t´avolabb vannak mint a m´asikn´al, ´es a mintap´eld´akb´ol megtanulta hogy ez nem lehets´eges, ez´ert 19
3.1. CLM
vagy az eg´esz alakzatot picit kisebbre vagy nagyobbra ´atsk´al´azza Azaz ink´abb a lok´alis szak´ert˝ok v´elem´eny´et hagyja figyelmen k´ıv¨ ul, mint a pontokra tanult megk¨ot´eseket. ´Igy az illeszt´es hib´as lesz. Ennek megold´asa ´erdek´eben k´esz¨ ult el a BU-4DFE markerez´ese, amelyb˝ol m´ar 3D PDM tan´ıthat´o. A fejelfordul´as k¨ovet´es´ere ´ıgy sokkal pontosabb modellek tan´ıthat´oak. M´ıg a 2D modelleket k¨or¨ ulbel¨ ul ±5 fokos elfordul´asig tal´altam pontosnak, a 3D modellek ±15 fokos elfordul´asig pontosak. Enn´el nagyobb sz¨ogekre m´ar a lok´alis szak´ert˝oket is k¨ ul¨on fel kell k´esz´ıteni, illetve sz´amolni kell a h´att´er okozta probl´em´akkal. Az illeszt´esn´el a PDM modell a felel˝os annak eld¨ont´es´e´ert hogy a markerpontokat hogyan lehet elhelyezni a val´osz´ın˝ us´egbecsl´esek alapj´an. Megszor´ıt´ast kell adnia, amely biztos´ıtja hogy nem kapunk a keresett˝ol elt´er˝o alakzatokat eredm´eny¨ ul.
3.1.4.
A CLM matematik´ aja
Ebben a r´eszben a CLM-et kicsit r´eszletesebben matematikai k´epleteken kereszt¨ ul mutatom be, kezdve a PDM modellel. A c´el alakzatok param´eteres modellez´ese ´es illeszt´ese. Tegy¨ uk fel hogy a tan´ıtani k´ıv´ant alakzat M darab markerpontot tartalmaz: x = [x1 ; x2 ; . . . ; xM ]
(3.1)
´ ilyen alakzatb´ol nem csup´an egy ´all rendelkez´es¨ Es unkre: x(t)(t = 1, . . . , T) A feladat a fenti mintahalmazt modellezni ´es u ´j x alakzatra illeszteni. P´elda egy ilyen alakzatra a 3.1 ´abr´an l´athat´o arcpontok ¨osszess´ege. Itt az alakzat 49 pontot tartalmaz, amelyek mindegyike k´et koordin´at´ab´ol a´ll. A feltev´es¨ unk az, hogy ezek az xt -k transzform´aci´okt´ol (sk´ala, forgat´as, eltol´as) eltekintve j´ol k¨ozel´ıthet˝oek egy line´aris alt´errel. Ez´ert a modellez´esre v´alasztott m´odszer egyik kulcseleme a F˝okomponens Anal´ızis (PCA). A feladat teh´at: adottak a mintapontok, x(t) ∈ RD , t = 1, . . . , T keress¨ uk azt a d-dimenzi´os alteret, amire f (A) = E ||x − projA (x)2 || minim´alis, ahol A ∈ RD×d A megold´as: cov(x) d darab domin´ans saj´atvektora.
20
(3.2)
3.1. CLM
A mintahalmazhoz meghat´arozhat´ok a k¨ovetkez˝ok: • PCA t¨om¨or´ıt´esi dimenzi´o: d • a´tlagos alakzat: x ¯ = [¯ x1 ; x ¯2 ; . . . x ¯M ] • cov(x) d darab domin´ans saj´atvektora ´es saj´at´ert´ekei: d×d
Λ = diag(λ1 ; . . . ; λd ) ∈ R
,Φ =
Φ1 .. . ΦM
(3.3)
A 2D PDM modellel a k¨ovetkez˝ok´eppen ´ırhat´oak le egy alakzat pontjai: xi = xi (s, α, t, q) = sR(¯ xi + Φi q) + t, (i = 1, . . . , M)
(3.4)
ahol • s: sk´ala • R: elforgat´as, 2D esetben α (3D esetben α, β, γ) sz¨ogekt˝ol f¨ ugg • t: eltol´as • q: non-rigid egy¨ utthat´o A modell param´etereit p-vel jel¨olve: xi = xi (p) ´es p = [s; α; t; q], tov´abb´a P(p) ∝ N(q; 0, Λ)
(3.5)
A 3D PDM modell is a (3.4) egyenlettel ´ırhat´o le, a k¨ ul¨onbs´eg a forgat´asi m´atrixban lesz. Ebben az esetben ugyanis h´arom ir´anyba forgathatunk, ´es a k´epen l´athat´o v´egeredm´enyt vissza kell vet´ıteni 2D-be, ´ıgy R = PR(α)R(β)R(γ), ahol: " P=
1 0
cos(β) R2 (β) = 0 −sin(β)
cos(α) 0 , R1 (α) = sin(α) 0 0 #
0 1
0 1 0
sin(β) 1 0 , R3 (γ) = 0 0 cos(β)
−sin(α) cos(α) 0
0 cos(γ) sin(γ)
0 0 1
0 −sin(γ) cos(γ)
Ebben az esetben a modell param´eterei p = [s; α; β; γ; t; q]. A fentiekben fel´ırt PDM modell k´eszen a´ll a haszn´alatra, a CLM illeszt´es sor´an 21
3.1. CLM
tov´abbi k´erd´es, hogy mi a markerpontok optim´alis elrendez´ese: J(p) = P(p)
M Y
P(li = 1|xi (p), I)
(3.6)
i=1
ahol li ∈ {−1, 1} val´osz´ın˝ us´egi v´altoz´o, mely azt mondja meg hogy az i. marker a hely´en van-e. Ennek a kisz´am´ıt´as´ahoz a PDM modell param´eterein k´ıv¨ ul sz¨ uks´eg¨ unk lesz egy val´osz´ın˝ us´egbecsl˝o elj´ar´asra is. Itt most csak a Logisztikus regresszi´ o haszn´alat´at mutatom be. Ezt a m´odszert haszn´alva a (3.6) egyenlet val´osz´ın˝ us´egeit a k¨ovetkez˝ok´eppen kapjuk: P(li = 1|yi , I) =
1 exp(wiT N(I(yi ))
1+
+ bi )
(3.7)
ahol • I(yi ): az i. pont k¨or¨ uli k´epr´eszlet • N(I(yi )): normaliz´alt k´epr´eszlet • wi , bi : a tan´ıt´op´eld´ak alapj´an tanuland´o s´ ulyok A (3.4) k´eplet alapj´an sz´amolt xi csup´an k¨ozel´ıt´ese a val´odi pontnak, mivel a saj´atvektorokb´ol csak az els˝o d domin´ansat hagytuk meg. yi = xi + i , i ∼ N(0, ρI) itt
2M X 1 ρ= λi 2M − d i=d+1
Jel¨olje a markerpontjel¨oltek halmaz´at Ψi (i = 1, . . . , M), ´es tekints¨ unk az yi -re mint rejtett v´altoz´ora, ekkor: P(li = 1|xi , I) =
X
P(li = 1|yi , I)P(yi |xi )
yi∈Ψi
ahol • P(li = 1|yi , I): az i. oszt´alyoz´o v´alasza az yi pontban • Ψi : az i. val´osz´ın˝ us´egi t´erk´ep pixelpoz´ıci´oi • P(yi |xi ) = N(yi ; xi , ρI) Ezt behelyettes´ıtve a (3.6) egyenletbe a k¨ovetkez˝ot kapjuk: J(p) = P(p)
M Y
P(li = 1|xi (p), I) = P(p)
i=1
M X Y i=1 yi∈Ψi
22
πyi N(yi ; xi , ρI)
(3.8)
3.1. CLM
ahol πyi = P(li = 1|yi , I). Az algoritmus m˝ uk¨od´ese a k¨ovetkez˝ok´eppen t¨ort´enik: • Vesz¨ unk egy kezdeti p param´etert. • Kisz´amoljuk hozz´a a legjobb y rejtett v´altoz´ot. • A kapott y-hoz kisz´amoljuk a hozz´a tartoz´o p param´etert. • Ezeket a l´ep´eseket iter´aljuk. Egy m´asik lehets´eges u ´t a m˝ uk¨od´esre, ha egy konkr´et y meghat´aroz´asa helyett az o¨sszes sz´oba j¨ohet˝o yi poz´ıci´o j´os´ag´at hat´arozzuk meg ´es vessz¨ uk ezeknek az yi val´osz´ın˝ us´eg´evel s´ ulyozott a´tlag´at: "
(
Q(p|p(t) ) = Eq(y) −ln P(p)
)#
M Y
P(li = 1, yi |xi (p), I)
(3.9)
i=1
ahol q(y) =
M Y
P(yi |li = 1, xi (p(t) ), I)
(3.10)
i=1
(t)
Q(p|p ) ∝
||q||2Λ−1
M X X wyi + ||xi − yi ||2 ρ i=1 y ∈Ψ i
ahol
(3.11)
i
πyi N(yi ; xi , ρI) zi ∈Ψi πzi N(zi ; xi , ρI)
wyi = P(yi |li = 1, xi , I) = P
(3.12)
Minimaliz´aljuk ezt a c´elf¨ uggv´enyt: Q(p|p(t) ) → min
(3.13)
−1 ˜ −1 + JT J ˜ −1 p − JT v ∆p = − ρΛ ρΛ
(3.14)
p
Az eredm´eny:
ahol ˜ : a PDM saj´at´ert´ekek diagon´alis m´atrixa 0-val kieg´esz´ıtve • Λ • v = [v1 ; v2 ; . . . ; vM ]
vi =
X yi ∈Ψi
π N(xi ; yi , ρI) P yi yi zi ∈Ψi πzi N(xi ; zi , ρI)
23
! − xi
(3.15)
3.1. CLM
Ha a p-r˝ol nincs a-priori tud´asunk, akkor optimaliz´aland´o a J(p) =
M X Y
πyi N(xi ; yi , ρI)
(3.16)
i=1 yi∈Ψi
Ebben az esetben a p param´eter pontos´ıt´asa az iter´aci´o sor´an a k¨ovetkez˝ok´eppen alakul: ∆p = (JT J)−1 JT v (3.17)
3.1.5.
A CLM fut´ asa
A CLM m˝ uk¨od´es´et ´es f´azisait tekintj¨ uk a´t ebben az alfejezetben. Az egyes r´eszek m˝ uk¨od´ese a fenti alfejezetekben ker¨ ult t´argyal´asra, itt csup´an egy a´tfog´o k´ep kialak´ıt´asa a c´el a teljes folyamatr´ol, amely a CLM-el val´o arck¨ovet´eshez sz¨ uks´eges. Tan´ıt´ as. Els˝o l´ep´es beszerezni vagy l´etrehozni a megfelel˝oen markerezett k´epekb˝ol ´all´o adatb´azist. Ennek felhaszn´al´as´aval tan´ıtunk minden pontra k¨ ul¨on egy-egy lok´alis szak´ert˝ot, illetve az arcok ter´ehez egy PDM modellt. Sz¨ uks´eg lesz egy modellre amely a kiindul´o pontok meghat´aroz´as´a´ert felel˝os. Ezt az tan´ıt´oadatb´azis k´epein futtatott VJ algoritmus eredm´eny´et (l´asd: 3.13 a´bra) felhaszn´alva tan´ıtjuk. ´Igy a CLM modell¨ unkben t´arolunk inform´aci´ot arra n´ezve is, hogy ha az arcot befoglal´o t´eglalapot ismerj¨ uk, akkor hogyan n´ez ki az a´tlagarc a k´epen. M´eg egy fontos dologra oda kell figyeln¨ unk: az oszt´alyoz´okn´al haszn´alt tan´ıt´ok´epek m´erete ´es a kiv´agott mint´ak m´erete k¨oz¨otti ar´anyra. Ez az inform´aci´o az´ert lesz sz¨ uks´eges, hogy az illeszt´es sor´an az illesztend˝o k´epb˝ol kiv´agott r´eszlet nagyj´ab´ol akkora ter¨ uletet kell hogy tartalmazzon a k´epb˝ol, mint amire tan´ıtottunk, k¨ ul¨onben az oszt´alyoz´ok haszn´alhatatlanok lesznek. Illeszt´ es. Az illeszt´es els˝o l´ep´es´eben a VJ algoritmusb´ol ´es a modell¨ unkben elmentett a´tlagarcb´ol megkapjuk a kiindul´asi alakzat markerpontjainak a hely´et a bej¨ov˝o u ´j k´epre (l´asd: 3.14). Az ´ıgy kapott pontokb´ol meghat´arozzuk a kiindul´o p param´etereket, majd iterat´ıv m´odon az ´eppen aktu´alis p param´eterekb˝ol kisz´amolt markerpont poz´ıci´ok k¨or¨ ul a lok´alis szak´ert˝ok val´osz´ın˝ us´egbecsl´esei alapj´an keres¨ unk jobb poz´ıci´ot a pontoknak. Az iter´aci´ok sz´ama ´es a ter¨ ulet nagys´aga amelyen bel¨ ul keres¨ unk, v´altoztathat´o param´eterek.
24
3.1. CLM
Eredeti k´ep
VJ ´ altal tal´ alt arc
3.13. ´abra. Viola-Jones futtat´as eredm´enye
Kezd˝ opontok
CLM fut´ as v´egeredm´enye
3.14. ´abra. A CLM kiidul´asi pontjai a Viola-Jones eredm´eny´eb˝ol
25
´ ˝ ´ ANAK ´ ´ 3.2. KEPEK ELOFELDOLGOZ AS HATASA
3.2.
K´ epek el˝ ofeldolgoz´ as´ anak hat´ asa
A CLM tan´ıt´as´an´al el´eg pontos lok´alis szak´ert˝ok tan´ıt´asa igen neh´ez feladat. Amit mi emberek k¨onnyen felismer¨ unk, az az oszt´alyoz´oknak t¨obbnyire neh´ezs´egeket okoz, ´es nem egy´ertelm˝ u hogyan tudjuk felk´esz´ıteni ˝oket a lehet˝o legt¨obb esetre. Annak ´erdek´eben hogy a modellek pontosabbak legyenek, k¨ ul¨onb¨oz˝o k´epfeldolgoz´asi elj´ar´asokat kipr´ob´alva ker¨ ultek tan´ıt´asra a lok´alis szak´er˝ok. A c´el minden esetben az volt, hogy a k´epeket olyan m´odos´ıt´asoknak vess¨ uk al´a, amely a l´enyegtelen inform´aci´okat sz˝ uri, ´es a sz´amunkra ´erdekeseket feler˝os´ıti, ´ıgy megk¨onny´ıtve az oszt´alyoz´ok tan´ıt´as´at. Fontos odafigyelni arra, hogy az egyes m´odszerek v´egeredm´eny´et befoj´asolja-e az hogy a k´ep mekkora r´esz´ere alkalmazzuk. Abban az esetben ha ez v´altoztat a kimeneten, akkor figyeln¨ unk kell r´a, hogy a tan´ıt´omint´ak nagyr´eszt homog´en h´att´errel rendelkeznek, m´ıg a webkamer´aval felvett k´epek t¨obbs´eg´ere ez nem teljes¨ ul. Ilyenkor ´erdemes a VJ a´ltal kijel¨olt k´epr´eszletre alkalmazni a sz˝ ur˝ot. A lok´alis szak´ert˝ok tan´ıt´as´an´al azt is meg kell gondolni, hogy a teljes k´epre alkalmazott sz˝ ur˝o elj´ar´as eredm´enyek´ent kapott k´epb˝ol v´agjuk-e ki a tan´ıt´omint´akat, vagy az eredeti k´epb˝ol kiv´agott r´eszekre alkalmazzuk a sz˝ ur˝oket. Az itt ismertetett k´et elj´ar´as az´ert ker¨ ult kiv´alaszt´asra, mert a pontjaink nagyr´esze az arcon valamely ´el ment´en helyezkedik el, ´es ezek a rossz felv´etel˝ u k´epeken elmos´odottak, az oszt´alyoz´o sz´am´ara nem felt´etlen¨ ul j´o tan´ıt´op´eld´ak, ez´ert ´elkiemel˝o elj´ar´asok haszn´alata t˝ unik k´ezenfekv˝o megold´asnak. E mellett a sz˝ ur˝ok haszn´alat´aval megpr´ob´alhatjuk enyh´ıteni az elt´er˝o megvil´ag´ıt´asi viszonyok okozta illeszt´esi hib´akat.
3.2.1.
Laplace sz˝ ur˝ o
´ ekeny a gyors A Laplace sz˝ ur˝o ´eldetekt´al´asra haszn´alhat´o fel¨ ul´atereszt˝o sz˝ ur˝o. Erz´ intenzit´asv´alt´asokra, ´ıgy a k´epekr˝ol a lass´ u ´atmeneteket elt˝ unteti ´es a kont´ urokat, v´ekony vonalakat, pontokat kiemeli. A CLM lok´alis szak´ert˝oinek tan´ıt´as´an´al ´es ezek a´ltal becs¨ ult val´osz´ın˝ us´egek kisz´am´ıt´as´an´al kipr´ob´alt sz˝ ur˝o. A Logisztikus regresszi´os lok´alis szak´ert˝okkel ker¨ ult tesztel´esre. A tan´ıt´asn´al a kiv´agott k´epr´eszletek, majd az illeszt´eskor az elemzend˝o k´ep ker¨ ultek sz˝ ur´esre. A haszn´alt maszk: −1 filter = −1 −1
−1 8 −1
−1 −1 −1
A c´el az volt hogy az arc ´eleit, a jellegzetes von´asait kiemelj¨ uk, a kev´esb´e j´ol l´athat´o von´asokat (p´eld´aul picit elmos´odott sz´aj vonala) feler˝os´ıts¨ uk. Az eredm´enyek
26
´ ˝ ´ ANAK ´ ´ 3.2. KEPEK ELOFELDOLGOZ AS HATASA
Eredeti k´ep
Sz˝ ur˝ on a ´tesett k´ep
3.15. ´abra. Laplace sz˝ur˝o haszn´alata
Eredeti k´ep
Sz˝ ur˝ on a ´tesett k´ep
3.16. ´abra. LBP haszn´alata azonban nem ´ert´ek el a v´arakoz´asainkat. A modelleket jav´ıtani nem siker¨ ult, s˝ot a kapott modell pontoss´aga jelent˝osen romlott. A 3.15 ´abr´an l´athat´o egy p´elda a Laplace sz˝ ur˝o eredm´enyek´ent kapott k´epr˝ol, illetve a 3.18a a´br´an l´athat´o a CLM tesztek eredm´enyeib˝ol, hogy mennyivel romlott a modell a sz˝ ur˝o haszn´alata eset´en.
3.2.2.
Lok´ alis bin´ aris minta
A Lok´alis bin´ari minta (LBP) egy k´ep pixeleit c´ımk´ezi fel att´ol f¨ ugg˝oen milyen a szomsz´edos pixelek intenzit´asa az adott pixelhez viszony´ıtva. Ebb˝ol hozza l´etre az algortimus a bin´aris sz´amokb´ol ´all´o u ´gynevezett LBP k´odokat, melyeket felhaszn´alva, a k´ep egy adott r´esz´en hisztogramok haszn´alat´aval tudjuk a text´ ur´at elemezni, le´ırni. A m´odszer h´atr´anya hogy kis ter¨ uleten t¨ort´en˝o szomsz´eds´agi vizsg´alat eset´en a nagyobb m´eret˝ u jellemz˝ok vizsg´alata nem lehets´eges, viszont a szomsz´eds´agi vizsg´alat ter¨ ulet´enek n¨ovel´es´evel jelent˝osen n˝o a sz´amol´asig´eny. A 3.16 ´abr´an l´athat´o egy p´eldak´ep melyre alkalmazva van a sz˝ ur˝o. Az ´abra alapj´an nem meglep˝o hogy ezt az el˝ofeldolgoz´asi m´odszert alkalmaz´o Logisztikus regresszi´os modell adta a legrosszabb illeszt´esi eredm´enyeket. 27
´ 3.3. SZEMELYRE SZABOTT MODELL
3.17. ´abra. P´elda rosszul illesztett nagyra nyitott sz´ajra, BU-4DFE adatb´azis
3.3.
Szem´ elyre szabott modell
A kor´abbi fejezetekben ismertetett PDM modell az arcok ter´eben dolgozik. A mintahalmazb´ol sz´amolt a´tlagarcot t´arolja ´es az ett˝ol val´o elt´er´esi lehet˝os´egeket. Ezzel a m´odszerrel az egyik probl´ema hogy az ´atlagarct´ol nagyon elt´er˝o arcform´akat nem illeszti el´eg pontosan a modell. P´elda erre ha mondjuk a tan´ıt´oadatb´azis k´epein nagyr´eszt a´tlagos sz´ajsz´eless´eg˝ u emberek k´epei l´athat´oak, akkor egy a´tlagosn´al j´oval sz´elesebb sz´ajjal rendelkez˝o ember eset´en a modell nem j´ol illeszti a sz´aj sarkait, mivel ilyen sz´eless´eget nem enged meg a modell¨ unk az ´atlagt´ol val´o elt´er´esre. Egy m´asik probl´ema az a´tlagarchoz k´epest sz´els˝os´eges v´altoz´asok kezel´ese. P´eld´aul abban az esetben ha a sz´aj nyit´as´anak a m´ert´eke nem t´ ul nagy a tan´ıt´omint´akn´al, akkor a nagyon nyitott sz´aj´ u arcokon megint csak nem lesz j´o az illeszt´es, mert a modell ekkora sz´ajnyit´asra (l´asd: 3.17 a´bra) nincsen felk´esz¨ ulve. Erre egy lehets´eges jav´ıt´asi ir´any lehet, az ha az arcok tere helyett az ´erzelmek ter´eben dolgozn´ank. Azaz minden ember eset´en a saj´at a´tlagos arckifejez´es´et venn´ek az a´tlagarc helyett ´es az ett˝ol val´o elt´er´est tan´ıtan´ank az ´erzelmek ter´eben. Ez azt jelenti hogy a PDM modell az illeszteni k´ıv´ant szem´ely saj´at ´atlagarc´ab´ol indulna ´es ehhez k´epesti v´altoz´asokat enged¨ unk meg olyan m´odon hogy a tan´ıt´omint´ak minegyik´eb˝ol kivonjuk a hozz´a tartoz´o szem´ely a´tlagarc´at, ´ıgy arra tan´ıtjuk meg a modellt, hogy az ´erzelmek milyen v´altoz´asokat id´ezhetnek el˝o az arcon. Az ´ıgy kapott modelleket nevezz¨ uk szem´elyre szabott modelleknek (Personal Mean Shape, PMS). El˝ozetes tesztek azt t´amasztj´ak al´a, hogy ezzel a m´odszerrel dolgozva jobb eredm´enyeket ´erhet¨ unk el. Van viszont egy komoly h´atr´anya: tudnunk kell az illeszteni k´ıv´ant szem´ely ´atlagarc´at. Ez pedig kezdetben nem a´ll rendelkez´es¨ unkre. Erre a probl´em´ara a jelen dolgozat elk´esz¨ ult´eig nem k´esz¨ ult el hat´ekony megold´asi m´odszer. A legels˝o futtat´asok tesztel´esi eredm´enyeit a 3.18b a´bra szeml´elteti.
28
´ 3.4. EREDMENYEK
3.4.
Eredm´ enyek
A CLM tan´ıt´oadatb´azisair´ol a kor´abbi fejezetekben sok sz´o esett, most pedig a teszt adatb´azisokr´ol lesz sz´o. A tesztel´est k´et f´ele megk¨ozel´ıt´esb˝ol n´ezz¨ uk. A kutat´asi c´el´ u tesztel´es eset´en, a tan´ıt´oadatb´azishoz hasonl´oan, annot´alt adatb´azisra van sz¨ uks´eg¨ unk, ´ıgy a v´egeredm´eny automatikusan ki´ert´ekelhet˝o. A CLM tesztel´es t¨obbnyire a CK+ adatb´azison zajlik, mivel ezt nem haszn´aljuk a tan´ıt´asn´al. A tan´ıt´oadatb´azison is lehetne tesztelni, de ez megt´eveszt˝o eredm´enyeket ad, t¨obbnyire 90% vagy jobb az illeszt´es pontoss´aga. A mintaadatokon val´o tesztel´es eredm´enye akkor lehet ´erdekes, ha nem j´o ar´anyt ad, ugyanis ha a modell m´ar azokon a k´epeken sem m˝ uk¨odik amelyeken tanult, akkor biztos hogy probl´ema van vele. A m´asik tesztel´esi ir´any a felhaszn´al´oi tesztel´es, melynek sor´an nem ´all rendelkez´esre annot´alt tesztel´esre alkalmas adatb´azis. Ilyen p´eld´aul az az eset amikor a webkamer´aval felvett vide´okon futtatunk CLM-et, ´es a v´egeredm´enyt nem automatikusan ´ert´ekelj¨ uk ki, hanem megn´ezz¨ uk milyen lett az illeszt´es. Ennek az az el˝onye, hogy val´os esetekben el˝ofordul´o illeszt´esi hib´akat ´eszre lehet venni, ´es ´ıgy megvan a lehet˝os´eg a jav´ıt´asra. Az annot´alt adatb´azisok h´atterei kev´esb´e v´altozatosak, az elfordul´asi sz¨ogek, okkl´ uzi´o, megvil´ag´ıt´as t¨obbnyire nem jelentkezik annyira sz´els˝os´egesen, hogy komoly illeszt´esi gondokat okozzon. Ez´ert ´erdemes egy-k´et v´eletlenszer˝ uen v´alasztott vide´ora is megn´ezni mit tud a modell¨ unk, miel˝ott a haszn´alhat´os´ag´ar´ol d¨ont´est hozunk kiz´ar´olag a tesztek eredm´enyei alapj´an. Az automatikus tesztel´esn´el az annot´alt CK+ k´epein futtattam a betanult CLM modelleket, az eredm´eny¨ ul kapott pontoknak ´es az adatb´azisban szerepl˝o pontoknak az elt´er´es´et hat´aroztam meg az Root-Mean-Square hiba (RMS) kisz´am´ıt´as´aval. Az RMS a pontoss´ag m´er´es´ere haszn´alhat´o hibam´ert´ek. Az alakzatok (3.1) egyenletben l´athat´o form´aban fel´ırt vektorai k¨oz¨otti t´avols´agokat hat´arozzuk meg. Az RMS a k¨ovetkez˝o k´eplettel sz´amol: adottak az ¨osszehasonl´ıtand´o vektorok
x1 y1 x2 y , y = .2 x= . . . . . xn yn ekkor az RMS hiba:
r Pn
i=1 (xi , yi )
RMS(x, y) =
2
n Ezt a hibam´ert´eket ´es a CK+ adatb´azist felhaszn´alva k´esz¨ ult a 3.18a ´abra, amely a k¨ ul¨onb¨oz˝o betan´ıtott modelleket hasonl´ıtja o¨ssze. A v´ızszintes tengelyen az RMS hiba nagys´aga szerepel, a f¨ ugg˝olegesen pedig az, hogy az illesztett k´epek h´any sz´azal´eka eset´en volt enn´el kisebb a hiba. P´eld´aul a 10-es hibahat´ar eset´en: az MLP-t
29
´ 3.4. EREDMENYEK
haszn´al´o modellel a k´epek 95%-´at enn´el jobban siker¨ ult illeszteni, m´ıg az LBP-t haszn´al´o Logisztikus Regresszi´os modellel csup´an 50%-os a j´o illeszt´esek ar´anya. Teljesen hasonl´o m´odon k´esz¨ ult a 3.18b a´bra, amelyen az MLP-t haszn´al´o k´et modell illeszt´esi pontoss´ag´anak eredm´enye szerepel. Az els˝o esetben az ´atlagarcra tanul´o PDM modellt haszn´altam, m´ıg a m´asodikban a szem´elyre szabott PDM modell ker¨ ult a CLM modellbe. Ezen a grafikonon l´athat´o, hogy a szem´elyre szabott modellek kutat´asi ir´anya ´ıg´eretes u ´tnak t˝ unik.
30
´ 3.4. EREDMENYEK
K¨ ul¨ onb¨ oz˝ o oszt´ alyoz´ okat haszn´ al´ o modellek
Szem´elyre szabott ´es hagyom´ anyos MLP modellek
3.18. ´abra. CLM modellek ¨osszehasonl´ıt´asa
31
4. fejezet ´ Erzelembecsl´ es Az ´erzelembecsl´es azon elj´ar´asok egyike, amely a vide´ok automatikus annot´al´asa eset´en sok u ´j inform´aci´oval szolg´alhat. A c´elunk egy olyan modell l´etrehoz´asa, melynek seg´ıts´eg´evel az ´erzelmek sz´am´ıt´og´epes szoftverrel megbecs¨ ulhet˝oek. Szeretn´enk tov´abb´a, hogy ez a becsl´es a fej elfordul´asi sz¨og´et˝ol, a k´epen l´athat´o szem´elyt˝ol ´es a megvil´ag´ıt´ast´ol f¨ uggetlen¨ ul min´el t¨obb esetben m˝ uk¨odj¨on. Amennyiben siker¨ ul az ´erzelemfelismer˝ot szem´ely-f¨ uggetlenn´e tenni, sz´eles k¨orben alkalmazhat´o annot´al´o elj´ar´ast kaphatunk. Az ´erzelemfelismer˝o m´odszerek egyes megk¨ozel´ıt´esei kiz´ar´olag text´ ura alap´ u feldolgoz´ast haszn´alnak, amelynek h´atr´anya hogy nagyban f¨ ugg a k´epen szerepl˝o megvil´ag´ıt´ast´ol, a rajta szerepl˝o arc saj´atoss´agait´ol vagy ak´ar a h´att´ert˝ol. Az itt ismertetett eredm´enyek h´atter´eben a CLM a´ll, melynek seg´ıts´eg´evel a markerpontok elhelyezked´es´et felhaszn´alhatjuk az ´erzelmek becsl´es´ere. Egy egyszer˝ u vonalakb´ol ´all´o sematikus rajzon is fel tudjuk ismerni az ´erzelmeket, ´ıgy k´ezenfekv˝onek t˝ unik az ¨otlet, hogy a text´ ura alap´ u felismer´es mellett vagy helyett a markerpontok elhelyezked´es´eb˝ol pr´ob´aljunk inform´aci´okat kinyerni az arcr´ol. A markerpontok haszn´alat´anak el˝onye, hogy ´ıgy az ´erzelemfelismer˝o a f´enyer˝oss´eg v´altoz´asra, illetve az arc elfordul´as´ara nem lesz ´erz´ekeny. Ehhez persze sz¨ uks´eges egy min´el pontosabb, min´el t¨obb esetben helyesen illeszt˝o CLM modell. Sz¨ uks´eg¨ unk van tov´abb´a tan´ıt´oadatb´azisra, amely ´erzelmekkel annot´alt. K´et megk¨ozel´ıt´esi szempontunk van az ´erzelemfelismer´esre, ´es ´ıgy k´et f´ele annot´aci´o j¨ohet sz´oba. Az egyik eset, ha a hat alap´erzelemre (d¨ uh, undor, f´elelem, o¨r¨om, b´anat, meglep˝od´es) szeretn´enk tan´ıtani. Ennek el˝onye, hogy ilyen adatb´azis el˝o´all´ıt´asa nem t´ ul bonyolult, viszont h´atr´anya, hogy l´enyegesen t¨obb ´erzelmet mutathat egy arc mint csup´an ez a hat, r´aad´asul kult´ ur´at´ol is f¨ ugghet kin´el melyik ´ ´erzelmet milyen arcmozg´as jelen´ıt meg. Eppen ez´ert jobbnak t˝ unik a m´asik eset amikor az AU k´odokat akarjuk becs¨ ulni. A FACS az emberi arc minden izm´ahoz rendel egy sz´amot ´es az izmok o¨sszeh´ uz´od´as´at egy 5 fokozat´ u sk´al´an oszt´alyozza (A,B,C,D,E). Az ezzel val´o annot´al´as azonban nem trivi´alis, szakemberek a´ltal k´esz´ıtett adatb´azisra van sz¨ uks´eg a tan´ıt´oadatb´azisban val´o felhaszn´al´as´ahoz. Egy
´ ˝ SVM 4.1. ERZELEMFELISMER O
ilyen adatb´azis el˝oa´ll´ıt´asa igen k¨olts´eges. A jelen munka elk´esz´ıt´es´ehez rendelkez´es¨ unkre ´all´o adatb´azisok k¨oz¨ ul AU k´odos annot´al´as a CK+ adatb´azishoz tartozik. Az alap´erzelmekre val´o tan´ıt´ashoz mind a CK+, mind a BU-4DFE felhaszn´alhat´o. Az ´erzelembecsl˝o m´odszer¨ unk el˝ofelt´etele a k´epek CLM-el val´o annot´al´asa. A 3D PDM-et haszn´al´o modellek eredm´enyeit haszn´aljuk fel. Az illesztett k´epekhez kisz´amolt pontokb´ol a rigid transzform´aci´okat elt´avol´ıtjuk, majd a pontokat visszavet´ıtj¨ uk a 2D t´erbe, ´es az ´ıgy kapott pontokra tan´ıtjuk az ´erzelembecsl˝ot.A tan´ıt´as alatt egy SVM vagy SVR oszt´alyoz´o tan´ıt´as´at ´ertj¨ uk. Az egyes elemekhez a c´ımke k´et f´ele ´ert´eket vehet fel a szerint hogy az adott ´erzelem vagy AU k´od jelen van-e a k´epen vagy sem. A BU-4DFE adatb´azis seg´ıts´eg´evel el˝o´all´ıthat´ok olyan tesztel´esre alkalmas vide´ok amelyeken az ´erzelmeket a´br´azol´o arcok elfordulnak vagy a megvil´ag´ıt´as v´altozik.
4.1.
´ Erzelemfelismer˝ o SVM
Az SVM egy k´ezenfekv˝o v´alaszt´as k´et- ´es t¨obboszt´alyos oszt´alyoz´o betan´ıt´as´ahoz. K´et oszt´aly eset´en az SVM olyan hipers´ıkot keres, amely maximaliz´alja a marg´o ´es a k´et oszt´aly magr´ohoz legk¨ozelebb es˝o elemeinek a t´avols´ag´at. Ezeket az elemeket, melyek a marg´ohoz a legk¨ozelebb vannak szupport vektoroknak nevezz¨ uk. A c´el a marg´ot´ol val´o t´avols´ag maximaliz´al´asa, ´ıgy az optim´alis hipers´ık egyforma t´avols´agra tal´alhat´o a szupport vektorokt´ol. Minden itt prezent´alt eredm´eny line´aris SVM haszn´alat´aval k´esz¨ ult.
4.1.1.
Az SVM matematik´ aja
Adottak a minta ´es c´ımke p´arok, az egyik oszt´aly minden eleme 1, a m´asik´e pedig −1 c´ımk´et kap: (xk , yk ), xk ∈ Rm , yk ∈ {−1, 1}, k = 1, . . . , K A megoldand´o feladat: K X 1 T min w w + C ξk w,b,ξ 2 k=1
(4.1)
yk (wT φ(xk ) + b) ≥ 1 − ξk , ξk ≥ 0
(4.2)
φ = [φ1 ; . . . ; φJ ], φ : Rm → RJ
(4.3)
ahol
33
´ ˝ SVM 4.1. ERZELEMFELISMER O
T¨obb oszt´aly eset´en a fentiekben bemutatott d¨ont´esi fel¨ ulet kisz´am´ıt´asa megt¨ort´enik b´armely k´et oszt´alyra, az illeszt´es sor´an pedig egy szavaz´as-alap´ u eld¨ont˝o algoritmussal kapjuk meg a v´egeredm´enyt. A m´odszer haszn´alata igen egyszer˝ u, a LIBSVM k¨onyvt´arban hozz´af´erhet˝oek a megfelel˝o k´odok. Az ´erzelemfelismer˝o hat´ekonys´aga ´ıgy nagyr´eszt a CLM pontoss´ag´at´ol ´es az adatb´azisban el´erhet˝o pozit´ıv ´es negat´ıv tan´ıt´omint´ak ar´any´at´ol f¨ ugg.
4.1.2.
Eredm´ enyek
A tesztel´es sor´an az annot´alt adatb´azison futtatjuk az ´erzelemfelsimer˝ot, majd ´erdemes elemezni a true-pozit´ıv, false-pozit´ıv, true-negat´ıv ´es false-negat´ıv k´epek sz´am´at, ar´anyait. M´asik lehets´eges elemz´esi ir´any, ha az ´erzelemfelsimer˝ot csup´an egy ´erzelemre vagy AU k´odra futtajuk, ´es azt vizsg´aljuk a k´epek h´any sz´azal´ek´an tal´alta el a helyes v´alaszt a felismer˝o. Egy ilyen vizsg´alat eredm´enye l´athat´o a 4.1 ´abr´an. Itt a k¨ ul¨onb¨oz˝o AU k´odok felismer´es´et az arc elfordul´asi sz¨og´enek f¨ uggv´eny´eben vizsg´altuk. L´athat´o, hogy p´eld´aul az AU12 k´od teljes´ıtm´enye 80% feletti, m´ıg az AU4 teljes´ıtm´enye 50% al´a is lemegy. A 4.2 a´br´an l´athat´o eredm´enyek az ´erzelemfelismer˝o m˝ uk¨od´esi pontoss´ag´at mutatj´ak. Az els˝o diagram azt mutatja hogy a CK+ adatb´azison hogyan teljes´ıt az ´erzelemfelismer˝o az u ´gynevezett AU0 normaliz´aci´ot felhaszn´alva. Az AU0 normaliz´aci´o l´enyege hogy a vide´o vagy k´epsorozat k´epeinek markerpontjaib´ol kivonjuk az els˝o k´ep markerpontjait, ´es az ´ıgy kapott elt´er´esekre tan´ıtjuk az oszt´alyoz´ot. Ez a m´odszer felt´etelezi, hogy az els˝o k´ep semleges arckifejez´es˝ u arcot tartalmaz. A haszn´alata az´ert jelent n´emi probl´em´at, mert egy darab egyed¨ ul´all´o k´epre nem alkalmazhat´o, r´aad´asul szem´ely f¨ ugg˝o a m˝ uk¨od´ese. Az ´abra a´tl´oj´aban szerepl˝o has´abok jelentik azokat az eseteket amikor az ´erzelemfelismer˝o helyes v´alaszt adott, m´ıg az ¨osszes t¨obbi has´ab a hib´as becsl´eseket tartalmazza. A f¨ ugg˝oleges tengelyen az adott kateg´ori´aba es˝o k´epek sz´azal´ekos ar´anya l´athat´o. A 4.2 a´bra k¨oz´eps˝o diagramja szint´en a CK+ adatb´azison tan´ıtott ´es tesztelt elj´ar´as, de itt nem az els˝o semleges arct´ol vett elt´er´essel sz´amolunk, hanem a k´epen l´athat´o archoz tartoz´o a´tlagarct´ol val´o elt´er´essel. Ez a k´et diagram a CK+ adatb´azison tanult ´es azon is lett tesztelve az u ´gynevezett leave-one-out m´odszerrel, ami annyit tesz, hogy sorban az adatb´azis k´epeib˝ol mindig egyet kihagyva a t¨obbin tan´ıtjuk a modellt ´es ezen az egyen tesztel¨ unk. Az utols´o diagramon viszont a CK+ adatb´azison tan´ıtott modellt a BU-4DFE adatb´azison tesztelt¨ uk. Az ´erzelembecsl˝o elj´ar´as webkamer´as felv´eteleken val´o tesztjei k¨ozel sem adtak ennyire j´o eredm´enyeket. Ott ugyanis a CLM illeszt´esek pontatlans´agait el˝osz¨or automatikusan tudni kellene sz˝ urni ahhoz hogy a hib´ai ne befoj´asolj´ak nagyban az ´erzelembecsl˝ot. Az ´erzelmek tan´ıt´as´ara
34
´ ˝ SVM 4.1. ERZELEMFELISMER O
4.1. ´abra. AU becsl´esek eredm´enye az elfordul´asi sz¨og f¨uggv´eny´eben haszn´alt adatb´azisok k¨or´enek b˝ov´ıt´ese is sz¨ uks´eges lenne, amit egy pontos CLM modellel ak´ar automatikusan is lehetne annot´alni. Ezzel kapcsolatos tov´abbi eredm´enyeink a [15] cikkben tal´alhat´oak.
35
´ ˝ SVM 4.1. ERZELEMFELISMER O
CK+ adatb´ azison AUO normaliz´ aci´ o
CK+ adatb´ azison szem´elyre szabott modell
CK+-on tan´ıtott BU-4DFE-n tesztelt ´ 4.2. ´abra. Erzelembecsl´ es teszteredm´enyek
36
5. fejezet ¨ Osszegz´ es Az arck¨ovet´es ´es ´erzelembecsl´es ma a kutat´asok k¨oz´eppontj´aban ´all. Vide´ok ´es k´epek automatikus annot´al´asa igen sokf´ele felhaszn´al´asi ter¨ uleten alkalmazhat´o. Az egyike ezeknek az oktat´as, a pedag´ogusok munk´aj´anak k¨onny´ıt´ese, seg´ıt´ese illetve a gyerekek sz´am´ıt´og´epes tanul´asi szoftvereinek ´erdekesebb´e t´etele. Az ark¨ovet´esre alkalmas CLM modell k¨onnyen v´altoztathat´o r´eszekb˝ol ´ep¨ ul fel, ezeket hangolva a modell pontoss´aga n¨ovelhet˝o. E mellett a m˝ uk¨od´es´ehez sz¨ uks´eges adatb´azis gyarap´ıthat´o egyr´eszt manu´alisan markerezett adatb´azisok l´etrehoz´as´aval, m´asr´eszt iterat´ıv m´odon a CLM illeszt´es eredm´enyek´ent kapott k´epek k¨oz¨ ul a megfelel˝oen annot´altak hozz´av´etel´evel a tan´ıt´oadatb´azishoz. A CLM robusztus elj´ar´as, a megvil´ag´ıt´ast´ol, fejelfordul´ast´ol f¨ uggetlen¨ ul igen j´o k¨ovet´esre k´epes. Megfelel˝o hangol´assal val´osz´ın˝ uleg az okkl´ uzi´o probl´em´aja is kik¨ usz¨ob¨olhet˝o vagy legal´abbis minimaliz´alhat´o. A modellek jav´ıt´as´ara a szem´elyre szabott PDM modellek haszn´alata ´ıg´eretes u ´tnak t˝ unik. Az ´erzelemfelismer´eshez sz¨ uks´eges egy min´el pontosabb CLM modell. Nagyon fontos szerepet kap tov´abb´a az adatb´azis, amelyen tan´ıtunk, illetve az hogy mit is akarunk pontosan felismerni: alap´erzelmeket, vagy AU k´odokat. Amennyiben a CLM megfelel˝oen m˝ uk¨odik, a fejelfordul´as nem rontja nagyban az ´erzelembecsl˝o eredm´eny´et. A kor´abbi fejezetekben bemutatott m´odszerek a gyakorlatban m´ar haszn´alhat´oak, a felmer¨ ul˝o hib´ak ´es visszajelz´esek alapj´an jav´ıthat´oak. A hangol´asuk hosszas tesztek futtat´as´at csak´ ugy ig´enyli, mint a webkamer´akkal felvett vide´okon az eredm´enyek a´tn´ez´es´et illetve a megfelel˝o adatb´azisok kiv´alaszt´as´at. A c´elunk egy olyan szoftverrendszer l´etrehoz´asa volt, amely robusztus ´es online illeszt´esre haszn´alhat´o, ezt siker¨ ult is el´erni. A tov´abbi teend˝ok a rendszer hangol´asa, hogy min´el t¨obb felhaszn´al´asi ter¨ uleten alkalmazhat´o legyen.
R¨ ovid´ıt´ esek AAM Active Appearance Model. ASM Active Shape Model. AU Action Unit. BU-4DFE BU-4DFE adatb´azis. CK+ Cohn-Kanade Extended Facial Expression Database. CLM Constrained Local Model. FACS Facial Action Coding System. LBP Local Binary Pattern. LIBSVM Library for Support Vector Machines. MLP Multilayer perceptron. Multi-Pie Multi-Pie adatb´azis. PCA Principal Component Analysis. PDM Point Distribution Model. RBFSVR RBF Kernel, Support Vector Regression. RMS Root Mean Square Error. SOS Shape Optimised Search. SVM Support Vector Machine. SVR Support Vector Regression. TST Template Selection Tracker.
R¨ovid´ıt´esek
VJ Viola-Jones arckeres˝o algoritmus. VTK Visualization Toolkit, Kitware.
39
Irodalomjegyz´ ek [1] Cristinacce, D., Cootes, T.F.: Feature detection and tracking with constrained local models. Proc. British Machine Vision Conference Vol 3 (2006) 919–928 [2] Ekman, P.: What the face reveals: Basic and applied studies of spontaneous expression using the Facial Action Coding System (FACS). (2005) [3] Cootes, T.F., Taylor, C.J.: Active shape models - ’smart snakes’. Proc. British Machine Vision Conference 1992 (1992) 266–275 [4] Li, J.: Data Mining Course - Lecture 6. (accessed in 2012) STAT557/IST557, http://sites.stat.psu.edu/~jiali/course/stat557/material.html. [5] Chang, C.C., Lin, C.J.: LIBSVM: A library for support vector machines. ACM Transactions on Intelligent Systems and Technology 2 (2011) 27:1–27:27 Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm. [6] Haykin, S.: Neural Networks: A Comprehensive Foundation. 2. edn. Prentice Hall (1998) ISBN 0132733501. [7] Viola, P., Jones, M.J.: Robust real-time face detection. Int. J. Comput. Vision 57 (2004) 137–154 ISSN 0920-5691, http://dx.doi.org/10.1023/B: VISI.0000013087.49260.fb. [8] Cootes, T.F., Edwards, G.J., Taylor, C.J.: Active appearance models. Proc. European Conference on Computer Vision 1998 Vol 2 (1998) 484–498 [9] Cristinacce, D., Cootes, T.F.: A comparison of shape constrained facial feature detectors. In: In 6 th International Conference on Automatic Face and Gesture Recognition 2004, Seoul, Korea. (2004) 375–380 [10] Cristinacce, D., Cootes, T.: Facial feature detection and tracking with automatic template selection. In: 7th International Conference on Automatic Face and Gesture Recognition 2006, Southampton, UK. (2006) 429–434 [11] CMU: Cohn-Kanade AU-Coded Facial Expression Database. (accessed in 2012) http://www.pitt.edu/~jeffcohn/CKandCK+.htm.
´ IRODALOMJEGYZEK
[12] Binghamton-University: BU-4DFE 3D Dynamic Facial Expression Database. (accessed in 2012) http://www.cs.binghamton.edu/~lijun/Research/3DFE/ 3DFE_Analysis.html. [13] Kitware: The Visualization Toolkit. (accessed in 2012) http://www.multipie. org/. [14] CMU: The CMU Multi-PIE Face Database. (accessed in 2012) http://www. multipie.org/. [15] Jeni, L., L˝orincz, A., Nagy, T., Palotai, Z., Seb˝ok, J., Szab´o, Z., Tak´acs, D.: 3D shape estimation in video sequences provides high precision evaluation of facial expressions. Image and Vision Computing (2012) (in press).
41