Eötvös Loránd Tudományegyetem Informatikai Kar
Komponensek keresése a megerősítéses tanulásban
Doktori értekezés
Takács Bálint
témavezető: Dr. habil. Lőrincz András tudományos főmunkatárs ELTE Információs Rendszerek Tanszék Informatikai Doktori Iskola Dr. Demetrovics János Információs Rendszerek alprogram Dr. Benczúr András Budapest, 2006.
Kivonat A megerősítéses tanulás szekvenciális döntési problémák megoldásával foglalkozik sztochasztikus környezetben. Dolgozatomban azt tanulmányozom, hogyan lehet elkerülni az ilyen módon irányított autonóm rendszerek (ágensek) állapotreprezentációjának kombinatorikus robbanását. Három lehetséges megközelítést veszek szemügyre: (1) a probléma valószínűségi struktúrájának egyszerűsítése úgy, hogy a közel-determinisztikus komponenseket leválasztjuk az állapottérben, (2) új mérőszámok bevezetésével a feladatokat időbeli megbízhatóság alapján széttördeljük, (3) valószínűségi értelemben független komponensek keresésével az állapottér reprezentációját az optimalizálandó költségfüggvényhez igazítjuk. A dolgozat lezárásaként numerikus szimulációkkal megvizsgálom a kutatócsoportunkban kidolgozott, független komponenseket és megerősítéses tanulást alkalmazó hippokampális modellt a biológiai kísérletekkel mutatott egyezés szempontjából.
Köszönetnyilvánítás Ph.D. tanulmányaimat az Eötvös Loránd Tudományegyetem Információs Rendszerek Tanszékén végeztem Dr. Lőrincz András irányításával. Köszönöm neki a sok-sok tanácsot, átadott tapasztalatot, amivel mind szakmai, mind emberi téren történő fejlődésemet segítette. Hálás vagyok munkatársaimnak: Szita Istvánnak, Dr. Szirtes Gábornak, Póczos Barnabásnak, Dr. Szatmáry Botondnak, Hévízi Györgynek és Szabó Zoltánnak, hogy közös munkáink során tudásuk legjavát nyújtva támogatták előrehaladásomat. Köszönöm nekik és a kutatócsoport többi tagjának is, hogy ilyen kellemes és családias légkörben dolgozhattam. Szeretném megköszönni a Pázmány-Eötvös Alapítványnak, a Neumann János Számítógép-tudományi Társaságnak, a Segítő Kommunikáció-módszertani Központnak, valamint az Eötvös Loránd Tudományegyetem Informatikai Karának a Ph.D. tanulmányaimhoz nyújtott anyagi támogatást. Köszönöm a szeretetet és a támogatást, amit szüleimtől és menyasszonyomtól, Beától kaptam.
Budapest, 2006. május 30. Takács Bálint
2
Tartalomjegyzék Tartalomjegyzék
1
Bevezetés
3
1. Motiváció 1.1. Optimális döntéshozatal sztochasztikus környezetben 1.1.1. Markov döntési problémák . . . . . . . . . . . 1.1.2. Megerősítéses tanulás . . . . . . . . . . . . . . 1.1.3. Tervezés . . . . . . . . . . . . . . . . . . . . . 1.2. A megerősítéses tanulás néhány problémája . . . . . 1.2.1. Komplexitás . . . . . . . . . . . . . . . . . . . 1.2.2. Az állapottér megváltozása . . . . . . . . . . . 1.2.3. Költségalapú reprezentáció . . . . . . . . . . . 2. Determinisztikus komponensek 2.1. ǫ-Markov döntési folyamatok . . . . . . . . . . . . 2.1.1. Általánosított Markov döntési folyamatok 2.1.2. Változó környezetek . . . . . . . . . . . . 2.1.3. Általánosított ǫ-MDF-k . . . . . . . . . . 2.1.4. Az értékiteráció aszimptotikus korlátja . . 2.1.5. Q-learning általánosított ǫ-MDF-kben . . . 2.1.6. Eseménytanulás . . . . . . . . . . . . . . . 2.1.7. Eseménytanulás SDS kontrollerrel . . . . . 2.2. Térben tervezhető komponensek . . . . . . . . . . 2.2.1. Tervezhető megerősítéses tanulás . . . . . 2.2.2. Szimulációk . . . . . . . . . . . . . . . . . 2.2.3. „Visszavonuló” tervezés . . . . . . . . . . . 2.2.4. Szimulációk . . . . . . . . . . . . . . . . . 2.2.5. Összehasonlítás más módszerekkel . . . . . 1
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . .
6 6 7 9 11 13 13 16 17
. . . . . . . . . . . . . .
19 19 20 21 22 23 24 26 29 35 38 47 49 54 55
TARTALOMJEGYZÉK 3. Megbízható komponensek 3.1. Az epizódok hossza és a hossz szórása . . . . 3.1.1. A célállapot elérésének valószínűsége 3.1.2. A pontosan T lépés alatt bekövetkező 3.1.3. Az epizód átlagos hossza . . . . . . . 3.1.4. Az epizód hosszának varianciája . . . 3.2. Szimulációk . . . . . . . . . . . . . . . . . . 3.3. Összehasonlítás más módszerekkel . . . . . .
. . . . . . siker . . . . . . . . . . . .
4. Független komponensek 4.1. Független komponens analízis . . . . . . . . . . 4.1.1. FKA a megerősítéses tanulásban . . . . . 4.2. Független folyamatok keresése . . . . . . . . . . 4.2.1. Temporális független komponens analízis 4.2.2. Független altér analízis . . . . . . . . . . 4.3. Költségkomponens-analízis . . . . . . . . . . . .
. . . . . .
. . . . . . . . esélye . . . . . . . . . . . . . . . . . . . . . .
. . . . . .
5. Biológiai vonatkozások 5.1. A hippokampusz és az entorhinális kortex biológiája . 5.1.1. Felépítés . . . . . . . . . . . . . . . . . . . . . 5.1.2. Neurofiziológia és tüzelési térképek . . . . . . 5.1.3. Feltételezett szerepek . . . . . . . . . . . . . . 5.2. A hippokampális formáció rekonstrukciós modellje . . 5.2.1. A modell rövid leírása . . . . . . . . . . . . . 5.3. Tüzelési térképek a modell szimulációiban . . . . . . 5.3.1. Hippokampusz . . . . . . . . . . . . . . . . . 5.3.2. Entorhinális kortex felszíni rétegei . . . . . . . 5.3.3. Entorhinális kortex mély rétegei . . . . . . . . 5.4. Neurális megerősítéses tanulás alkalmazása kontrollra
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
61 62 63 64 64 65 66 67
. . . . . .
72 73 78 80 81 82 85
. . . . . . . . . . .
88 89 89 92 97 102 103 109 109 114 122 124
Irodalomjegyzék
128
Összefoglaló
144
Summary
146
2
Bevezetés Doktori munkám során azt tanulmányoztam, hogyan lehet elkerülni az autonóm irányítású rendszerek (ágensek) állapotreprezentációjának kombinatorikus robbanását. A probléma nagyon röviden a következőképp fogalmazható meg. Egy autonóm rendszer döntéseihez a környezete által közvetített információkat használja fel. Ezeket az információkat a rendszeren belül általában egy sokdimenziós térben reprezentáljuk. Ezt a teret a dolgozatban reprezentációs térnek1 fogom nevezni. Többféle oka van annak, hogy ilyen reprezentációkat keresünk. Egy roppant gyakorlati indok az, hogy a többdimenziós vektorterek elmélete alaposan kidolgozott, sok eljárásban alkalmazzák, így a reprezentáció többféle algoritmus, döntéshozatali rendszer bemenetét képezheti. Mélyebb indok, hogy az információk várakozásaink szerint a valódi világban végbemenő folyamatokat tükrözik, tehát azok az alapvetően lokális fizikának engedelmeskedő természetüknél fogva reprezentálhatók külön-külön. Ezeket a valódi világban előforduló objektumokat igyekszünk a reprezentációs tér dimenzióban elkülöníteni, tehát ilyenkor „alulról felfelé” haladva alakítjuk ki feldolgozó rendszerünket. Sok előnye van, ha reprezentációnk alkalmazkodik a valódi világban végbemenő folyamatokhoz: egyrészt biztosak lehetünk benne, hogy a lehető legkevesebb információt veszítjük el a reprezentáció megalkotása közben, másrészt pedig bízhatunk benne, hogy döntési problémánk megoldható úgy, hogy a valódi világbeli folyamatokkal külön-külön foglalkozunk. Ha egy konyhai vészhelyzetben elkülönítjük a zuhanó poharat az égő sütőtől, ak1
Angolul ennek talán a „feature space” kifejezést feleltethetjük meg, és így implicite azt is feltesszük, hogy ezt a reprezentációt egy előzetes transzformáció eredményeképp kaptuk meg.
3
BEVEZETÉS
kor feltehetőleg könnyebb a problémát megoldani, mintha egyszerre akarnák mindkettővel foglalkozni. Ugyanakkor viszont az is világos, hogy a világban lezajló valódi folyamatokat általános esetben képtelenség közvetlenül modellezni azok bonyolultsága miatt. Ha pedig csak az együttes hatásukat ismerjük, akkor szinte lehetetlen a megfigyelt eredményből kitalálni azok paramétereit. Egy egyszerű zuhanó pohár is túl sok fizikai folyamat együttese ahhoz, hogy akár csak megközelítőleg pontosan reprezentálni (modellezni) lehessen. Közelítéseket kell tehát alkalmaznunk, de a valódi folyamatok közelítésével általában már nem tudjuk követni a valódi folyamatokat, és modellünk általában épp ott nem elég finom, ahol arra szükség lenne. Egy másik lehetőség, hogy „felülről lefelé” dolgozunk: a rendszer döntéseinek eredményéből kiindulva megpróbáljuk kitalálni, melyik reprezentáció lesz a leginkább hatékony egy probléma megoldásában. Az optimális döntést azonban minden lehetséges reprezentációhoz meg kell határoznunk, tehát problémánk komplexitása a reprezentációs tér dimenziójával exponenciálisan növekszik. Márpedig az információkat reprezentáló terünket fokozatosan bővítenünk kell ahhoz, hogy egyre kifinomultabb döntéseket tudjunk hozni. Ugyanakkor több megfigyelés-döntés ciklust nem tudunk végezni adott idő alatt, tehát az optimális reprezentációt a valódi problématérhez képest exponenciálisan csökkenő számú mintavételből kell felépítenünk. Ezt a problémát szokás a „dimenziók átkának” is nevezni a szakirodalomban (Bellman, 1961). Fogas problémával állunk tehát szemben, amire természetesen nincs is univerzális megoldás, hiszen egy döntési probléma akár valóban lehet exponenciális bonyolultságú is. Hogyan hanyagoljunk el úgy információkat, hogy pont azokat dobjuk ki, amelyekre az éppen fontos döntésekhez nincs szükség? Hogy alakítsuk ki úgy a reprezentációt, hogy ne kelljen minden új döntési helyzetben egy egészen újat kitalálni? Hogy tegyük mindezt úgy, hogy ne kelljen exponenciálisan nehéz problémákat megoldanunk? Mint biológiai lények, életünk során pontosan ilyen problémák tömegével nézünk szembe. Érzékszerveink adatok tömegével bombáznak minket, és ki kell találnunk, hogy melyik részét érdemes hasznosítani. Mégis meglepően hatékonyan oldjuk meg a feladatot. A kutatások azt mutatják, hogy az élőlények az „arany középutat” választották: alkalmaznak a világról alkotott modelleket 4
BEVEZETÉS
és a döntéshozatal eredményei alapján is képesek megváltoztatni az információk reprezentációját. Például a látókéregben olyan sejteket találunk, amelyek a valódi világ statisztikus tulajdonságaihoz igazodnak, de ugyanakkor mindannyian ismerjük azokat az illúziókat is, amelyek egyértelműen bizonyítják, hogy várakozásaink módosítani képesek a valóságról alkotott reprezentációinkat. A kétféle megközelítés együttes alkalmazásánál azonban felmerül a kérdés, hogy hogyan lehetne ezeket hatékonyan összekapcsolni? Meddig építkezzünk alulról felfelé, és meddig fentről lefelé? Ebben a munkában azt javaslom, hogy a módszereket valamilyen kritérium szerint választott komponensek mentén kell összeilleszteni. A komponenseket a probléma valószínűségi struktúrája alapján igyekszem majd megtalálni. Az 1. fejezetben bemutatom a megerősítéses tanulást és annak néhány olyan problémáját, amikről a dolgozatban szó lesz. Ezután a komponensek elkülönítésére három lehetséges megközelítést veszek szemügyre. A 2. fejezetben egy olyan algoritmust mutatok be, ami az állapottér közel determinisztikus komponenseinek leválasztásával próbálkozik. A 3. fejezetben bemutatok egy eljárást, ami az időbeli megbízhatóság mérésén keresztül próbálja a feladatokat széttördelni, és erősen sztochasztikus problémákban is használható. A harmadik javasolt kritériumot a független elemekből álló reprezentáció megtalálása jelenti, amelyet a 4. fejezetben fogok kifejteni. A függetlenséget itt a legáltalánosabb, tér- és időbeli értelemben használom (tehát az elemek akár folyamatok is lehetnek). Bár nem egyértelmű, hogy a független folyamatokon végzett döntésoptimalizáció végezhető párhuzamos módon, a dolgozatban amellett érvelek majd, hogy egy hatékony döntéshozatali módszercsalád (a megerősítéses tanulás) esetében ez teljesül. Így a független folyamatok megtalálásával a reprezentáció várhatóan olyan elemekre esik szét, amelyeken külön-külön optimalizálhatunk megerősítéses tanulással. Azonban az további munka részét kell képezze, hogy pontosan miként lehet független folyamatok ilyen reprezentációját kialakítani. A dolgozat lezárásaként az 5. fejezetben numerikus szimulációkkal megvizsgálom a kutatócsoportunkban kidolgozott, független komponenseket és megerősítéses tanulást alkalmazó hippokampális modellt a biológiai kísérletekkel mutatott egyezés szempontjából.
5
1. fejezet Motiváció 1.1. Optimális döntéshozatal sztochasztikus környezetben A mesterséges intelligencia tanulási algoritmusainak létezik egy népszerű, bár időnként kicsit homályos osztályozása. Az egyik csoportba tartoznak az úgynevezett felügyelt tanulással működő algoritmusok. Ezeket az eljárásokat úgy szokás definiálni, hogy a tanulórendszer a tanulási fázisban minden lépésben, minden információt megkap arra nézve, milyen döntése lett volna helyes. A másik csoportot a felügyelő nélküli tanulással működő algoritmusok képezik: ebben az esetben az eljárás nem kap információt lépésenként arra nézve, milyen döntései eredményeznék most a legjobb eredményt, hanem ezt valamilyen szempont szerint magának kell kitalálnia. Azért nevezem ezt a felosztást homályosnak, mert hosszú távon természetesen a felügyelő nélküli tanítás is kap arra nézve információt, hogy milyen döntése eredményezi a számára „legjobb” célfüggvényt. A különbség talán inkább abban van, hogy mekkora szabadságot hagyunk a tanulórendszernek, hogy eldönthesse: mikor tekintse a feladatot megtanultnak, avagy sem. A felosztás más szempontból sem jelent élesen elkülöníthető határokat. A napjainkban népszerű megerősítéses tanulás (reinforcement learning, RL) összefoglaló névvel illetett algoritmuscsalád alapproblémája igazából a felosztás határterületére helyezhető. Ebben ez esetben a tanulórendszer nem marad teljesen felügyelet nélkül, hiszen minden lépésben kap egy visszajelzést, egy úgynevezett közvetlen jutalmat, de ugyanakkor arra nézve nem 6
1. FEJEZET. MOTIVÁCIÓ
ágens állapot st
jutalom rt
akció at környezet
1.1. ábra. Egy Markov döntési folyamat modellje
kap információt, hogy ezt a jutalmat pontosan melyik döntésének vagy netán döntéssorozatának köszönheti. Más szavakkal, rendszerünk döntéseit egy meglehetősen lusta felügyelő tartja szemmel, aki időnként valamilyen nagyon egyszerű visszajelzést (megerősítést) ad arra nézve, hogy általában nézve jól cselekedtünk-e avagy sem. Ezt a fajta tanítást szokás „kritikus általi tanításnak” is nevezni. A megerősítéses tanulás problémája a tanulórendszerek ügynök-környezet típusú tárgyalásának (Futó, 1999) egy lehetséges formalizációja, tehát szekvenciális döntési problémákkal foglalkozik. Két alapvető jellemzője különbözteti meg a klasszikus mesterséges intelligencia módszereitől. Az egyik egy kibővítés: ellentétben a klasszikus tanulórendszerek túlnyomó többségével, a megerősítéses tanulás problémájának matematikai megfogalmazása a kezdetektől fogva valószínűségi megközelítést alkalmaz. A másik egy megszorítás: általában feltesszük, hogy az állapot-átmeneti függvény és a cselekedeteinkért kapott jutalmazási függvény markovi, tehát kizárólag a jelenlegi állapottól (és az ott választott akciónktól) függ.
1.1.1. Markov döntési problémák A probléma matematikai kerete az 1.1. ábrán látható. Az ágens a t-edik lépésben egy at ∈ A akció választásával kapcsolatba lép környezetével, amelytől egyrészt egy st ∈ S állapotjelzőt, illetve egy rt ∈ R valós számmal kifejezett közvetlen jutalmat (vagy közvetlen költséget) kap. Az előző részben említett Markov-feltételezés azt jelenti, hogy 7
1. FEJEZET. MOTIVÁCIÓ
p(st+1 = s′ , rt+1 = r|st, at , rt , st−1 , at−1 , rt−1 , . . . , s0 , a0 , r0 ) = = p(st+1 = s′ , rt+1 = r|st , at , rt )
(1.1.1)
teljesül. A tárgyalt interakciót ezért röviden Markov döntési folyamatnak hívják (Puterman, 1994). Ha ez nem okoz problémát, elhagyhatjuk az időindexeket, és ha az ágens s állapotból a akció választásával s′ állapotba jut, akkor jelölje ezen átmenet valószínűségét P (s, a, s′) és az érte kapott közvetlen jutalom átlagos értékét R(s, a, s′ ) ∈ R. Ezen két mennyiség a döntési probléma szempontjából tökéletesen jellemzi az ilyen markovi körP ′ nyezetet. P egy s′ -n értelmezett valószínűség: s′ P (s, a, s ) = 1. Legyen P R(s, a) := s′ P (s, a, s′)R(s, a, s′ ), ami az s állapotban a akciót választva a várható közvetlen jutalmat jelöli. A döntéshozatali problémákban az a feladatunk, hogy valamilyen kritériumnak megfelelően meghatározzunk egy optimális viselkedést (akciósorozatot). A fenti keretben általában a diszkontált kumulált jutalmat próbáljuk P t optimalizálni, ami a ∞ t=0 γ rt mennyiség várható értéke. Itt 0 ≤ γ < 1 a diszkontálási faktor, ami azt határozza meg, hogy ágensünk mennyire „előrelátó”, milyen messzi időhorizontot vesz figyelembe döntései meghozatalánál. Ha γ = 0, az ágens csak egyetlen lépésre előre próbálja a jutalmait optimalizálni, ha γ = 1, akkor az összes várható jutalomra optimalizál. Ez utóbbi esetnek csak akkor van garantáltan értelme, ha a cselekvéssorozat véges időn belül befejeződik (azaz a probléma epizodikus jellegű). A diszkontálás alkalmazásának előnye, hogy a végtelen horizontú esetek is tárgyalhatók. Az ágens feladata egy olyan politika kifejlesztése, ami a cselekvései közvetlen jutalmát egy időtartamra nézve maximalizálja (vagy költségeit minimalizálja), tehát ami várható értékben a maximális diszkontált kumulált jutalmat eredményeP zi. A politika egy π(s, a) : S × A → [0..1] függvény, amelyre a π(s, a) = 1. A tárgyalásmódban tehát megengedjük a sztochasztikus politikákat is. A fentiekben definiált hS, A, R, P i négyest (véges) Markov döntési folyamatnak hívjuk. A definíció, bár teljesen formális, elég szabad ahhoz, hogy nagyon sok valódi probléma beleférjen a kereteibe. Például minden klasszikus newtoni fizikával modellezett rendszer „markovi” abban az értelemben, hogy a rendszert minden időpillanatban tökéletesen leírja az állapottérbeli pozí8
1. FEJEZET. MOTIVÁCIÓ
ciója és sebessége. Ezt a két változót állapotjelzőnek választva elméletben bármilyen fizikai rendszer kontrolljának problémája megfogalmazható ebben a keretben.
1.1.2. Megerősítéses tanulás Az elmúlt két évtizedben az optimális politika meghatározására rengeteg algoritmust fejlesztettek ki. Ebben a rövid összefoglalóban a dolgozat könnyebb érthetősége végett röviden áttekintem a megerősítéses tanulás alapvető eljárásainak működési elvét, de nem célom azok kimerítő ismertetése. Az érdeklődő további részletekért a szakirodalomhoz fordulhat (Sutton és Barto, 1998). Az algoritmusok többsége az úgynevezett értékelőfüggvény alapú megoldást használja (Bellman, 1957). Sok ilyen elven működő algoritmusról sikerült megmutatni, hogy bizonyos technikai feltételek teljesítése esetén az optimális politikához konvergálnak (Singh és mtsai, 2000). Ezek a módszerek először az úgynevezett optimális értékelőfüggvényt határozzák meg, ami egy V ∗ (s) : S → R függvény. A függvény értéke adott s állapotban a várható kumulált diszkontált jutalmat approximálja, feltéve, hogy a kezdőállapot s és a π politikát követjük (tehát egy V (s) értékelőfüggvény mindig függ egy politikától, amely függést nem fogok külön feltüntetni, ha ez nem okoz félreértést). Az optimális értékelőfüggvény minden s ∈ S állapotban kielégíti a következő, Bellman-egyenlet néven ismert fixpontegyenletet (Bellman, 1957): V ∗ (s) = max a
X
P (s, a, s′) (R(s, a, s′ ) + γV ∗ (s′ )) .
(1.1.2)
s′
Ennek az egyenletnek γ < 1 esetén egyetlen V ∗ megoldása van, amelyet iteratív módszerrel approximálni lehet: Vt+1 (s) = max a
X
P (s, a, s′) (R(s, a, s′ ) + γVt (s′ )) .
(1.1.3)
s′
Ezt az eljárást érték-iterációnak nevezzük. Az alkalmazhatóság mélyebb oka az, hogy a 1.1.2. Bellman-egyenlet megfogalmazható a következő operátor segítségével: 9
1. FEJEZET. MOTIVÁCIÓ
[T V ](s) = max a
X
P (s, a, s′) (R(s, a, s′ ) + γV (s′ )) ,
(1.1.4)
s′
és T -ről belátható, hogy max-normában kontraktív, így V ∗ ezen operátor fixpontja. Egy másik, hasonló, de a kontroll szempontjából hasznosabb függvény a Q(s, a) állapot-akció értékelő függvény. Ez egy s állapotban megadja egy a akció választása esetén várható kumulált diszkontált jutalmat, feltéve, hogy onnantól az optimális politikát követjük. Az állapot-akció értékelő függvény a következő egyenletet elégíti ki: Q∗ (s, a) =
X s′
P (s, a, s′) R(s, a, s′ ) + γ max Q∗ (s′ , b) .
(1.1.5)
b
Kiszámítása az 1.1.3. egyenlethez hasonlóan dinamikus programozással történhet. Bebizonyítható, hogy az optimális politika az optimális értékelőfüggvényre nézve mohó politika (Sutton és Barto, 1998). Egy értékelőfüggvényre nézve mohó politika alatt azt értjük, hogy minden lépésben azt az akciót választjuk, ami a legnagyobb értékű állapotot eredményezi. Ez egy újabb iteratív eljárást eredményez: minden lépésben határozzuk meg az aktuális politikához tartozó értékelőfüggvényt, majd határozzuk meg a hozzá tartozó mohó politikát, ezt értékeljük ki újra, és így tovább. A kapott algoritmust politika-iterációnak hívjuk. Belátható, hogy az iterált politika mindig javít az értékelőfüggvényen, így az eljárás az optimális megoldáshoz konvergál (Sutton és Barto, 1998). Ha a környezet modelljét (azaz az R és a P mennyiségeket) nem ismerjük, illetve az állapottér túl nagy ahhoz, hogy közvetlenül megoldjuk az 1.1.3. egyenletet, mintavételi eljárásokhoz folyamodhatunk. A teljesség igénye nélkül megemlítek két ilyen algoritmust. Az egyik Q-learning elnevezést kapta (Watkins, 1989), és a következő iterációt használja:
Qt+1 (st , at ) = (1 − αt )Qt (st , at ) + αt rt + γ max Qt (st+1 , a) , a∈A
(1.1.6)
ahol st a rendszer állapota, at a választott akció, rt pedig a közvetlen jutalom a t-edik időpillanatban. 0 ≤ αt ≤ 1 az úgynevezett tanulási együttható. 10
1. FEJEZET. MOTIVÁCIÓ
A mintavételező eljárásokban roppant fontossá válik a mintavétel közben követett politika megválasztása a mintavétel kiegyensúlyozottságának fenntartása miatt. A mohó politika például nem alkalmas ilyen választásra, mert a konvergencia-tételek megkövetelik, hogy minden állapotban minden akciót pozitív valószínűséggel válasszuk. A legegyszerűbb megoldás egy olyan politika alkalmazása, ami valamilyen kicsiny ǫ valószínűséggel véletlen akciót választ, de egyébként a mohó politikát követi. Ezt a politikát hívjuk ǫ-mohó politikának. A tanulási együttható (α) beállításával meghatározhatjuk, hogy az állapotok kiértékelése közben milyen gyorsan „felejtse el” a rendszer a korábP bi mintavételeket. Ha limt→∞ αt = 0 teljesül, valamint t αt divergens, de P 2 t αt konvergens, és minden Q(s, a) végtelen sokszor frissítődik, akkor Qt ∗ Q -hoz konvergál 1 valószínűséggel (Singh és mtsai, 2000). Egy másik alapvető mintavételező módszer neve SARSA. Tanulási szabálya az 1.1.6. egyenlethez hasonló:
Qt+1 (st , at ) = (1 − αt )Qt (st , at ) + αt (rt + γQt (st+1 , at+1 )) ,
(1.1.7)
ahol a t + 1-edik időpillanat felel meg az épp aktuálisnak. A SARSA algoritmus a Q-learning algoritmusával megegyező feltételek mellett konvergens. A két algoritmus elsősorban abban különbözik, hogy a SARSA ún. on-policy, politikafüggő algoritmus, tehát a követett politikát értékeli ki, míg a Q-learning off-policy eljárás, tehát elméletben nem függ az explorációs politikától, hanem mindig az optimális (mohó) politikát értékeli. A teljességhez persze hozzátartozik, hogy a Q-learning konvergenciája is igényli, hogy a mintavételezés közben követett politika minden állapotban véges valószínűséggel válasszon minden lehetséges akciót.
1.1.3. Tervezés A megerősítéses tanulás igen nagy számú tapasztalat begyűjtését igényli ahhoz, hogy jó politikát kapjunk, mert a konvergenciához elméletben minden állapotban végtelen sokszor ki kell próbálnunk minden lehetséges akciót. A tapasztalatok begyűjtése azonban a gyakorlati problémák esetében többnyire 11
1. FEJEZET. MOTIVÁCIÓ
a legköltségesebb részét jelentik a feladatnak. Emellett lehetnek olyannyira rossz döntéseink is az exploráció során, amiket jó lenne minél kevesebbszer kipróbálni. A megerősítéses tanulás alapvető algoritmusai csak a környezettel történő nagyszámú interakció árán képesek megtanulni a probléma egy közelítő megoldását. Ez csak abban az esetben teljesíthető, ha az interakció és a környezet felfedezése nem jelent elviselhetetlen költségeket. A probléma megoldása a megerősítéses tanulás tervezéssel történő kiegészítése. A Markov döntési folyamatok fogalomrendszerében a tervezés azt jelenti, hogy valamilyen módszerrel (közelítő) modellel kell rendelkeznünk a környezetről (például a tapasztalatok alapján elkészítünk egy ilyet), amellyel környezeti interakciók nélkül kiszámítunk egy (közelítő) optimális politikát. Az 1.1.3. egyenlet például alkalmas ilyen tervezési feladatra, amennyiben ismerjük a P és az R függvényeket, azaz a környezet modelljét. Ha ez nem teljesül, továbbra is tapasztalatokat kell gyűjtenünk ahhoz, hogy mintavételezhessük ezeket a függvényeket. Problémát jelent, hogy az ilyen „off-line” tervezés nagy számításigénnyel bírhat: egyetlen, az 1.1.3. egyenlettel végzett értékelőfüggvény-frissítés a teljes állapottéren O(|S|2 ) lépést igényel, amelyet igen sokszor kell elvégeznünk. A számításigény problémájának megoldására több megoldást javasoltak (Moore és Atkeson, 1993; Barto és mtsai, 1995). Még nagyobb gondot jelenthet azonban az, ha a modell kezdetben nem áll rendelkezésre. A megoldást a környezettel történt interakciókban rejlő információk minél ügyesebb kihasználása jelenti, mert a tanulási folyamat során gyűjtött tapasztalat túlságosan értékes ahhoz, hogy csak egyetlen egyszer használjuk fel egyetlen állapotérték javítására. Az egyik legáltalánosabban használt ilyen kiterjesztés a „Dyna” nevet kapta (Sutton és Barto, 1998). Ebben az eljárásban a tapasztalatokat arra is felhasználjuk, hogy a környezetről modellt építsünk. A modell szerkezete például megfelelhet a Markov döntési problémának. A környezettel történő valódi interakció mellett ezzel a modellel szimulált tapasztalatokat tudunk gyűjteni, tehát minden lépésben a valódi interakció mellett a modellből is nyerünk állapot-átmeneteket a hozzá tartozó jutalommal. Ezzel a környezettel szükséges interakciók száma nagyságrendekkel csökkenthető, a frissítések a környezet modellel rendelkező részein történnek, így várhatóan a számítási bonyolultságot is csökkentik, emellett a rendszer gyorsabban tud alkalmazkodni a megváltozó R, P függvényekhez is. 12
1. FEJEZET. MOTIVÁCIÓ
A valódi és szimulált tapasztalatok arányának megfelelő beállításával a Dyna képes arra, hogy akkor is viszonylag jól működjön, ha a valódi tapasztalatok begyűjtése nem túlságosan drága. A megerősítéses tanulás alapvető algoritmusainak részletes összefoglalóját Sutton és Barto (1998) könyvében találhatjuk meg.
1.2. A megerősítéses tanulás néhány problémája 1.2.1. Komplexitás Az elméleti eredmények ellenére a megerősítéses tanulás gyakorlati esetekben sok problémával küzd. A legnagyobb probléma a bevezetőben is említett kombinatorikus robbanás, amely jelentkezik • a reprezentáló elemek számának növelésével az S állapottér méretében; • a lehetséges elemi akciók számának növekedésével az A akciótér méretében; • a probléma időbeli dimenziójának kiterjedésével a lehetséges akciók sorrendjének kombinációiban. Az értékelőfüggvényt look-up táblákban tároló klasszikus implementációk esetén a mai számítógépek kb. 104 − 106 állapotnál nagyobb terű problémák esetében tárbeli és időbeli komplexitási gondokkal néznek szembe. Multiágens rendszerek esetén a probléma bizonyítottan kezelhetetlen: az ilyen rendszerek egy lehetséges matematikai modellje a decentralizált részlegesen megfigyelt Markov-döntési folyamatok, amelyek NEXP-teljesek, tehát jóval nehezebbek egy NP-teljes problémánál is (Bernstein és mtsai, 2002). A komplexitást számos módszerrel igyekeznek csökkenteni. Az alábbiakban a teljesség igénye nélkül, röviden összefoglalom a fontosabb megközelítéseket. Legegyszerűbben közelítő eljárások alkalmazásával csökkenthetjük a probléma bonyolultságát. A legnépszerűbb az, hogy a kiszámolt állapot-értékelő függvényt nem táblázatokban tároljuk, hanem valamilyen függvényapproximátorral közelítjük. Ha az állapot és akciótér nem diszkrét, a közelítések alkalmazása többnyire amúgy is elkerülhetetlen. A legegyszerűbbek a lineáris 13
1. FEJEZET. MOTIVÁCIÓ
függvényapproximátorok, ahol az értékelőfüggvény a reprezentáció elemeinek valamilyen lineáris kombinációja: Vˆt (s) = ΘTt Φ(s),
(1.2.1)
ahol Θt a paramétervektor a t-edik időpillanatban, Φ(s) pedig a reprezentáló elemek vektora az s állapotban. A feladat a paramétervektor beállítása úgy, hogy Vˆ valamilyen szempont (többnyire négyzetes hiba) szerint közelítse V ∗ -ot. Ezt a gyakorlatban a ∇Θt Vt (s) gradiens mentén szokás változtatni a visszaterjesztett hiba (a becsült állapotérték és az állapotértékre vonatkozó új becslés) arányában. A lineáris függvényapproximátorokkal kiegészítve az alapvető algoritmusok konvergensek és közelítőleg helyes megoldást adnak, de off-line sampling (így például tervezés) esetén előfordulhat divergencia (Tsitsiklis és Van Roy, 1996). Egy másik lehetőség a létező eljárások kibővítése ad-hoc módszerekkel, amelyek elősegítik a komplexitás csökkenését. Az előző részben említettem a prioritizált frissítést, amely az állapottér frissítéseinek számát igyekszik csökkenteni a dinamikus programozást használó módszerek esetében (mint pl. a Dyna). Az irodalomban előforduló megoldásokban vagy az állapotok értéke alapján választjuk ki a frissítendő átmeneteket (Moore és Atkeson, 1993), vagy a jelenlegi állapottól vett távolság, illetve bizonyos esetekben az értékelés hibája alapján (Peng és Williams, 1993). A prioritizált frissítés drasztikusan felgyorsíthatja a tervezést. Népszerű az ún. felelősségnyomok 1 módszere (Sutton, 1988; Singh és Sutton, 1996), amely nagyságrendekkel gyorsabb konvergenciát eredményezhet. Ebben a módszerben nyilvántartjuk, hogy az aktuális állapotba milyen állapotokon keresztül jutottunk el, és ennek megfelelően az előző állapotok mennyire tekinthetők „felelősnek” a jelenleg kapott közvetlen jutalomért (illetve az értékelőfüggvény aktuális hibájáért). Az értékeket ezután minden lépésben az így meghatározott felelősség arányában frissítjük minden előzőleg bejárt állapotra nézve. Ma már nem nagyon létezik olyan megerősítéses tanulás implementáció, amely nem használna ilyen segítő eljárásokat működés közben, de ezek gyakorlati haszna mindig az adott feladat struktúrájától függ és általában sem1
Az angol nyelvű szakirodalomban eligibility traces.
14
1. FEJEZET. MOTIVÁCIÓ
milyen elméleti becsléssel nem rendelkezünk a várható hasznukra nézve. Egy harmadik lehetséges elméleti irány olyan algoritmusok kidolgozása, amelyekről bizonyítható, hogy képesek a problémát viszonylag gyorsan megoldani. Bizonyíthatóan polinomiális korlátokat ad több közelítő algoritmus (Kearns és Singh, 1998; Brafman és Tennenholtz, 2001). Ezek az eljárások elméleti sikereik ellenére nem igazán nyertek még teret eddig alkalmazásokban. Hasonló kiterjesztésekről lesz szó a 4. fejezetben. A problémát kicsit más oldalról megközelítve megkérdezhetjük, hogy tulajdonképpen miért is lép fel a fejezet elején bemutatott kombinatorikus robbanás? Ha megnézzük a felsorolást, láthatjuk, hogy ahhoz, hogy egy feladatot a megerősítéses tanulás keretében megfogalmazzunk, döntéseket kell hoznuk a reprezentáció módjáról. Az állapottér megválasztása nyilvánvaló példa erre, de például a feladatban megadunk egy időlépést is, ami az akciókat és azok környezetre gyakorolt hatását szükségszerűen ütemekre osztja. A megerősítéses tanulás semmit sem mond a reprezentáció megválasztásának mikéntjéről, azon kívül, hogy az 1.1.1. Markov-feltevés lehetőleg teljesüljön. Az optimalizációt a választásainkból származó megtapasztalható állapotok és a választható akciók terén próbáljuk majd végrehajtani. Világos, hogy a probléma komplexitását nem kizárólag az fogja meghatározni, hogy miként tudjuk az optimalizáció algoritmikus részét hatékonyan végrehajtani, hanem főleg az, hogy hogyan definiáltuk a feladat elemeit. A feladathoz nem illeszkedő reprezentáció komplex megoldást fog igényelni. Ha például a cél az, hogy jussunk el a repülőtérre, a tervezési feladatot nem érdemes az izommozgások szintjén elkezdeni, hanem inkább a közlekedési csomópontok közötti útvonallal érdemes foglalkozni (persze ez csak akkor járható út, ha van olyan akciónk is, hogy „ juss el Kőbánya-Kispestre”). Ha a feladat az, hogy gépeljünk, a szaglási információkat nem érdemes belevenni az állapottérbe. Minden ilyen rossz választás exponenciális ütemben fogja növelni a probléma bonyolultságát. Tulajdonképpen azt is mondhatjuk, hogy a kombinatorikus robbanás elkerülésének leghatékonyabb módja az, ha ezeket a reprezentációkat ügyesen választjuk meg. Az időbeli felosztásból adódó problémák egy lehetséges megoldása az ún. makró-akciók használata, illetve ehhez kapcsolódóan a tanulás és akciókiválasztás hierarchikus rendszerbe történő szervezése. A makrók – azaz ak15
1. FEJEZET. MOTIVÁCIÓ
ciók fix sorozatai – tulajdonképpen alfeladatokat definiálnak (pl. „menj az ajtóhoz”), és képesek felgyorsítani a kiértékelést (Hauskrecht és mtsai, 1998; Precup és mtsai, 1998; McGovern és Sutton, 1998). A különböző makrók használata tulajdonképpen részproblémák megoldására töri szét a feladatot. A fő probléma ezzel a megközelítéssel az, hogy a makrók kitalálása önmagában is egy reprezentációs problémát jelent, amelyet nem triviális kidolgozni. A makrókat (1) le kell gyártani, majd (2) ki kell értékelni. Az utóbbi történhet a makrókra vonatkozó értékelőfüggvények kiszámításával, de az első problémára nem létezik igazán jó megoldás. A kézzel történő „bedrótozás” mellett (Kaelbling, 1993; Kalmár és mtsai, 1998) történtek próbálkozások azok automatikus generálására is (Dietterich, 2000). Ezek általában valamilyen heurisztika alapján alap-akciókból összetett makrókat készítenek, amelyeket utána ki kell értékelni. Ez esetben rengeteg használhatatlan makró is keletkezik, amelyek a kitűzött céllal ellentétben épphogy lassíthatják a tanulást, mert egy rossz makró alkalmazása egy nagy lépést jelent egy rossz irányba (McGovern és Sutton, 1998; Kalmár és Szepesvári, 1999). Szorosan ide tartoznak a hierarchikus megerősítéses tanulás kialakítására tett kísérletek is, amely terület egy összefoglalóját adja Barto és Mahadevan (2003).
1.2.2. Az állapottér megváltozása A megerősítéses tanulás modellje alapvetően statikus valószínűségi struktúrát tételez fel. Bár az algoritmusok lehetnek alkalmazkodóképesek abban az értelemben, hogy a tanulási rátákat nullától különbözőnek hagyva folyamatosan átértékelik az állapotaikat egy változó valószínűségekkel és jutalmakkal adott környezetben, ezekre az esetekre értelemszerűen nem érvényesek a konvergenciára vonatkozó tételek. Emellett rossz taktika lenne egy kiértékelt, kioptimalizált, már kidolgozott modellel rendelkező környezetről szerzett tudás teljes eldobása. Az átmeneti valószínűségekben történt változások nem mindig a környezetben rejlő változásokat tükrözik, hanem jelezhetik magának az egész környezetnek a lecserélődését. A megerősítéses tanulás algoritmusai ezt önmagukban nem képesek felismerni. Példa lehet erre az az eset, amikor egy takarítórobotot új helységbe helyeznek. Természetesen lehetséges a probléma kiterjesztése olyan nagy állapotterekre, amely így magában foglalja az összes 16
1. FEJEZET. MOTIVÁCIÓ
lehetséges szobát, de ez ismét komplexitási problémához vezet. Ezt a tanulás kontextusának felismerésével lehet elkerülni, azaz melyek azok a részei a problémának, amelyeket érdemes kioptimalizálni, és melyek azok, amelyek elég ritkán változnak meg ahhoz, hogy azokat címkézni érdemes. Egy lehetséges választ erre a problémára a 2. fejezetben fogok bemutatni. Az utolsó fejezetben ismertetett modell is nyújt egy lehetőséget a kontextus felismerésére, amelyre ebben a dolgozatban nem fogok kitérni (Lőrincz és mtsai, 2001b).
1.2.3. Költségalapú reprezentáció A reprezentáció megválasztása, mint láttuk, lényeges kérdés lehet a probléma komplexitásának csökkentésénél. A megoldandó feladat viszont nem az alacsony komplexitás, hanem a maximális diszkontált jutalom gyűjtése: az előbbi csak technikai szempontból lehetővé teszi az utóbbi megoldását. Érdekes kérdés, hogy lehetséges-e a reprezentációt egy olyan szempont alapján kiválasztani, ami valamilyen értelemben – akár közvetlenül, akár az algoritmusok segítésével – az összegyűjtött jutalmat maximalizálja. Természetesen ha egy probléma valóban Markov döntési folyamat, és sikerült az állapotról rendelkezésre álló összes adatot összegyűjtenünk a reprezentációban, akkor a komplexitási kérdések (gyors tanulás, kis tárigény) optimális kezelésén kívül mást nem várhatunk a reprezentációtól. Sokkal valószínűbb azonban az a helyzet, hogy a reprezentáció csak részben tudja teljesíteni a Markov feltételt, mert nincs elegendő erőforrása a valódi állapotok teljes követésére. Például a newtoni fizikai világ Markov folyamat, és elméletben teljesen megfigyelhető. Egy korlátozott erőforrásokkal rendelkező ágens azonban mindig csak valamilyen részét képes megfigyelni, és időnként döntenie kell, melyik külső folyamatra összpontosítja szenzorait. Valójában tehát többnyire egy részlegesen megfigyelt Markov döntési folyamattal állunk szemben: ebben az esetben a valódi állapotokat nem, csak azok valamilyen (esetleg sztochasztikus) függvényét tudjuk megfigyelni. Számos közelítő algoritmust dolgoztak ki a probléma megoldására (Lovejoy, 1991; Kaelbling és mtsai, 1996), de jelenleg az az általános a vélemény, hogy a részleges megfigyelhetőséget közvetlenül figyelembe vevő modellek komplexitási szempont17
1. FEJEZET. MOTIVÁCIÓ
ból elméletileg is kezelhetetlenek (Bernstein és mtsai, 2002; Madani és mtsai, 2003). Bár a matematikai feltételek általában megkövetelik a Markov feltétel teljesülését a kiegyensúlyozott mintavétel miatt, a részleges megfigyelhetőség az algoritmusaink számára gyakorlatban általában nem okoz problémát. A részlegesen megfigyelt külvilág természetesen sztochasztikusabbnak tűnő viselkedést fog mutatni, de ez belefér a megerősítéses tanulás fogalmi keretébe. A reprezentáció megfelelő megválasztásával sokat tehetünk azért, hogy javítsunk a megfigyelhetőségen. Azonban korlátozott erőforrások mellett általában el kell döntenünk, hogy a lehetséges reprezentációk közül melyiket válasszuk. Itt többféle célt követhetünk. Megkövetelhetjük a Markov-feltétel minél pontosabb teljesülését. Ezt azonban nehéz mérni és sosem lehetünk benne biztosak, hogy egy megfigyelésen érdemes-e javítani, vagy valóban sztochasztikus a háttérben zajló folyamat. Érdekesebbnek tűnik az a megoldás, hogy megpróbáljuk közvetlenül a megerősítéses tanulás célját követni a reprezentáció megválasztásánál, azaz olyan reprezentációt találni, ami a legalkalmasabb a maximális jutalmak (vagy minimális költségek) feladatának elérésére. Erre jelenleg nem ismert univerzális megoldás. Egy, a kutatócsoportunkban kidolgozott lehetséges megközelítést a 4. fejezetben fogok bemutatni.
18
2. fejezet Determinisztikus komponensek Az előző fejezet végén megfogalmazott kérdések igen általánosak és mélyek, és nem várhatjuk azt, hogy univerzális módszereket sikerül alkotni, amelyek maradéktalanul megoldják azokat. Megkereshetjük viszont a feladatok olyan részhalmazait, amelyeken közelítő eljárások alkalmazásával bizonyíthatóan jó eredményeket kaphatunk, illetve megpróbálhatunk olyan új módszereket kidolgozni, amelyek a feladat széttördelésével segítik a komplexitás és a reprezentáció megválasztása körül felmerülő problémákat, tehát megpróbálunk jó komponenseket keresni a problémához. Ebben és a következő fejezetekben bemutatok néhány ilyen komponenskereső eljárást.
2.1. ǫ-Markov döntési folyamatok Az 1.2.2. alfejezetben említett probléma, tehát a változó környezet problémája esetében a legelső lépés, hogy megpróbáljuk megvizsgálni, milyen környezeti változásokkal képes a megerősítéses tanulás önmagában megbirkózni. Ehhez bevezetem az ǫ-Markov döntési folyamat (ǫ-MDF) fogalmát és bemutatom azokat a tételeket, amelyek az ilyen problémákra a megerősítéses tanulás egyik alapalgoritmusának, a Q-learning (1.1.6) konvergenciáját illetve optimum-közeli eredményét igazolják. Az ǫ-MDF-ok bevezetésének értelmét az adja, hogy egyrészt a megerősítéses tanulás így könnyen kiegészíthetővé válik egy kontrollerrel, másrészt egyszerűsíthetjük a probléma szerkezetét, amire a 2.2.1. fejezetben fogok példát mutatni. Az ǫ-MDF az ǫ-stacioner MDF-ek (Kalmár és mtsai, 1998) egy általánosí19
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
tásának tekinthető. Ebben a modellben a környezet számára engedett, hogy időben változzon, egyedül arra van szükség, hogy a változások egy adott korlát (azaz egy kis ǫ határ) alatt maradjanak. Ebben az esetben nem kereshetjük meg az optimális politikát, ami lehetséges, hogy nem is létezik. Ugyanakkor belátható, hogy ha egy, az optimális értékelőfüggvényt közelítő algoritmus konvergál az eredeti MDF keretben, akkor a megfelelő ǫ-MDF modellben kapott közelítő értékelőfüggvény és az optimális értékelőfüggvény távolsága korlátos, és a korlát arányos ǫ-nal.
2.1.1. Általánosított Markov döntési folyamatok Szepesvári és Littman (1996) munkája egy, az 1.1.1. modellnél általánosabb modellt vezet be a Markov döntési folyamatokra. Ez azt használja ki, P hogy a s′ P (s, a, s′ ) . . . művelet (azaz a várható érték kiszámítása az átmeneti valószínűségekre véve) a környezet hatását, míg a maxa ... művelet az optimálisan viselkedő ágens hatását írja le (azaz a legnagyobb várható értékkel kecsegtető akció kiválasztását). Ha ezt a két műveletet kicserélhetővé tesszük, más jól ismert modelleket is meg tudunk fogalmazni az MDF keretben. L N 2.1.1. Definíció. Egy általánosított MDF-et definiál a hS, A, R, , i ötös, L ahol S, A és R az 1.1.1. alfejezetben definiáltakkal megegyezik, : (S × A × S → R) → (S × A → R) egy „várható-érték” típusú operátor és N : (S × A → R) → (S → R) egy „maximalizáció-típusú” operátor. L P N Például ( S)(s, a) = s′ P (s, a, s′)S(s, a, s′) és ( Q)(s) = maxa Q(s, a) (ahol S : (S × A × S) → R és Q : (S × A) → R) beállításokkal visszakapjuk a klasszikus várható jutalommal dolgozó MDF modellt. A feladat az, hogy megkeressük azt a V ∗ függvényt,ami kielégíti az absztrakt Bellman-egyenleteket: V ∗ (s) =
OM
(R(s, a, s′) + γV ∗ (s′ )),
minden s ∈ S
Vagy még rövidebben: V∗ =
OM
(R + γV ∗ ).
20
esetében.
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
L N Ha 0 ≤ γ < 1 teljesül és sem , sem nem expanzív, akkor a V ∗ optimális megoldás létezik és egyértelmű. Az általánosított MDF modell nagy előnye, hogy sokféle más modell megfogalmazható a keretében, például a Markov-játékok (Littman, 1994), az alteráló Markov-játékok (Boyan, 1992), a diszkontált várható jutalommal foglalkozó MDF-ek (Watkins és Dayan, 1992), a kockázat-érzékeny MDF-ek (Heger, 1994) vagy az exploráció-érzékeny MDF-ek (John, 1994). Az általánosított MDF-ekben megfogalmazható a Q-learninghez hasonló általánosított algoritmus, valamint a konvergencia is bizonyítható. Ha csak L azokra az esetekre szorítkozunk, ahol a operátor a várható-érték operátor, L P ′ ′ azaz ( g)(s, a) = s′ P (s, a, s )g(s, a, s ), akkor 1.1.6. egyenlet mintájára az általánosított eset a következő: Qt+1 (st , at ) = (1−αt (st , at ))Qt (st , at )+αt (st , at )(rt +γ(
O
Qt )(s′t )), (2.1.1)
ahol st a jelenlegi állapot, at a kiválasztott akció, s′t a következő állapot, rt a begyűjtött közvetlen jutalom és αt (s, a) a tanulási ráta (itt az állapottól és az akciótól is függővé tettük). L Az optimális Q∗ állapot-akció értékelő függvényre Q∗ = (R + γV ∗ ) teljesül, ahol Q∗ a K operátor fixpontja, amelyet a következőképp definiálunk: KQ =
M
(R + γ
O
Q).
(2.1.2)
A frissítésekre vonatkozó megfelelő feltételek és a tanulási paraméterekre tett feltételek mellett bizonyítható, hogy ez a Q-learning algoritmus az optimálishoz konvergál (Szepesvári és Littman, 1996).
2.1.2. Változó környezetek 2.1.2. Definíció. Egy P és egy P ′ átmeneti függvény távolsága ǫ-kicsi, ha P kP (s, a, .)−P ′(s, a, .)kL1 ≤ ǫ minden (s, a)-ra, vagy másképp, s′ |P (s, a, s′)− P ′ (s, a, s′)| ≤ ǫ minden (s, a)-ra. 2.1.3. Definíció. A hS, A, {Pt }, Ri ötöst ǫ-stacioner MDF-nek nevezzük (Kalmár és mtsai, 1998), ha ǫ > 0 és létezik hS, A, P, Ri kiinduló MDF úgy, hogy P és Pt távolsága ǫ-kicsi minden t = 1, 2, 3, . . .-re. 21
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
A legegyszerűbb példa ǫ-MDF-re egy közönséges MDF, aminek az átmeneti valószínűségeire egy additív zaj rakódik minden lépésben, azaz P ′ (s, a, s′) = P (s, a, s′) + δ, ahol δ egy kis zaj. Az ǫ-stacioner MDF-ekben is megadható a dinamikus programozás operátor az 1.1.4. egyenlethez hasonlóan: [Tt V ](s) = max a
X
Pt (s, a, s′ ) (R(s, a, s′ ) + γV (s′ )) .
(2.1.3)
y
Természetesen a Vt+1 = Tt Vt iterációnak nem feltétlen van fixpontja. Legfeljebb az optimális értékelőfüggvény egy jó approximációjában reménykedhetünk, azaz hogy találunk egy Vˆ függvényt úgy, hogy kVˆ − V ∗ k < ǫ′ valamilyen ǫ′ > 0 mellett. Itt k.k a max-normát jelöli.
2.1.3. Általánosított ǫ-MDF-k A közönséges MDF-ekhez hasonlóan az ǫ-stacioner MDF-ek is általánosíthatók környezeti és ágens-operátorokra. A kapott modell mindkét megközelítés előnyeit egyesíti, azaz sokféle modellt képes tárgyalni változó környezetek esetén is. 2.1.4. Definíció. Adott ǫ > 0-hoz tartozó általánosított ǫ-MDF -nek vagy L N L egyszerűen csak ǫ-MDF-nek hívjuk a hS, A, R, { t }, { t }i ötöst, ahol t : N (S × A × S → R) → (S × A → R) és t : (S × A → R) → (S → R) L N függvények, t = 1, 2, 3, . . ., amennyiben létezik hS, A, R, , i általánosíN L NL tott MDF, hogy lim supt→∞ k t t − k ≤ ǫ.
A feltevés gyakorlatilag azt mondja ki, hogy a Tt dinamikus programozás operátor-sorozat T -től számított távolsága kicsi. A megadott defiL L níció valóban mindkét koncepció általánosítása: legyen ǫ = 0, t = N N és minden t esetén. ekkor visszakapjuk az általánosított MDFt = L eket. Ugyanakkor az ǫ-stacioner MDF-eket kapjuk vissza, ha ( t S)(s, a) = P N ′ ′ s′ Pt (s, a, s )S(s, a, s ) és ( t Q)(s) = maxa Q(s, a) minden t esetén. 22
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
2.1.4. Az értékiteráció aszimptotikus korlátja Bemutatom azokat a tételeket, amelyek igazolják, hogy ǫ-MDF-okban létezik a 2.1.2. alfejezetben említett jó közelítés ǫ′ ∝ ǫ mellett. Az eredmények Szepesvári és Littman eredményeinek általánosításai (Szepesvári és Littman, 1996). A tételben nem írtunk elő 1 valószínűségű egyenletes konvergenciát, ehelyett a közelítésre az alábbi definíciókat adjuk. Legyen S tetszőleges állapottér, és jelölje V(S) az ezen definiált összes lehetséges értékelőfüggvény halmazát. Legyen T : V(S) → V(S) egy tetszőleges kontrakciós leképezés a V ∗ fixponttal, és legyen Tt : V(S) × V(S) → V(S) sztochasztikus operátorok sorozata. 2.1.5. Definíció. Azt mondjuk, hogy értékelőfüggvények egy Vt sorozata κ-approximálja V -t (κ > 0), ha lim supt→∞ kVt − V k ≤ κ 1 valószínűséggel teljesül. 2.1.6. Definíció. Azt mondjuk, hogy Tt κ-approximálja T -t V -nél S felett (κ > 0), ha tetszőleges V0 értékelőfüggvényre és Vt+1 = Tt (Vt , V ) esetén Vt κ-approximálja T V -t S felett 1 valószínűséggel. Figyeljük meg, hogy Tt függhet a közelített V értékelőfüggvénytől a 2.1.3. egyenlettel ellentétben. A κ-approximáció gyengébb feltételt jelent, mint az 1 valószínűségű egyenletes konvergencia. Ez ugyanis azt jelentené, hogy minden ǫ, δ > 0 számhoz létezik egy T úgy, hogy Pr(sup(kVt − V k) < δ) > 1 − ǫ, t≥T
ugyanakkor a κ-approximáció azt köti ki, hogy minden ǫ > 0 esetén létezik T úgy, hogy Pr(sup(kVt − V k) < κ) > 1 − ǫ, t≥T
és κ rögzített. 2.1.1. Tétel. (Szita, Takács és Lőrincz, 2002.) Legyen T tetszőleges leképezés V ∗ fixponttal, és legyen Tt sztochasztikus operátorok olyan sorozata, 23
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
ami κ-approximálja T -t V ∗ -nál S felett. Legyen V0 tetszőleges értékelőfüggvény és Vt+1 = Tt (Vt , Vt ). Ha léteznek olyan 0 ≤ Ft (x) ≤ 1 és 0 ≤ Gt (x) ≤ 1 függvények, amelyek a következő feltételeket 1 valószínűséggel teljesítik: 1. minden U1 , U2 ∈ V(S) és s ∈ S esetén Tt (U1 , V ∗ )(s) − Tt (U2 , V ∗ )(s) ≤ Gt (s) U1 (s) − U2 (s)
2. minden U, V ∈ V(S) és s ∈ S esetén
Tt (U, V ∗ )(s) − Tt (U, V )(s) ≤ Ft (s) sup V ∗ (s′ ) − V (s′ ) s′
3. minden k > 0 esetén szerint, ahogy n nő 1 és
Qn
t=k
Gt (x) egyenletesen konvergál nullához s
4. létezik 0 ≤ γ < 1 hogy s ∈ S és elegendő nagy t esetén Ft (x) ≤ γ(1 − Gt (x)) 1 valószínűséggel teljesül, akkor Vt κ′ -approximálja V ∗ -ot S felett, ahol κ′ =
2 κ. 1−γ
A tétel bizonyítása hasonló az eredeti tételhez és megtalálható a Szita és mtsai (2002a) cikkben.
2.1.5. Q-learning általánosított ǫ-MDF-kben L Ismét feltehetjük, hogy t egy várható érték operátor minden t esetén, L P ′ ′ azaz ( t g)(s, a) = s′ Pt (s, a, s )g(s, a, s ). A 2.1.1. tétel alkalmazásával belátható, hogy az általánosított Q-learning algoritmus: Qt+1 (st , at ) = (1 − αt (st , at ))Qt (st , at ) + αt (st , at )(rt + γ(
O
Qt ))(s˜′ t ),
– ahol s˜′ t a Pt (st , at , .) eloszlásnak megfelelően lett választva – aszimptotikusan optimum közeli értékelőfüggvényt talál. Legyen T˜t (Q′ , Q)(s, a) a következő: 1
Egy végtelen szorzat konvergenciájából a tagjai 1-hez való konvergenciája is követke-
zik.
24
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
( Q′ (s, a) ha s 6= st vagy a 6= at , T˜t (Q′ , Q)(s, a) = N (1 − αt (s, a))Q′ (s, a) + αt (s, a)(rt + γ( Q))(s˜′ t ) egyébként, (2.1.4) ahol s˜′ t a Pt (st , at , .) eloszlásból lett mintavételezve és st+1 = s˜′ t . 2.1.2. Lemma. Legyen M = maxs,a Q∗ (s, a) − mins,a Q∗ (s, a). Ha az általánosított ǫ-MDF a következő feltevéseket teljesíti: N 1. nem expanzió, N 2. nem függ R-től vagy P -től, 3. rt véges varianciájú és E(rt |st , at ) = R(st , at ),
akkor a T˜t sztochasztikus operátor-sorozat κ-approximálja a 2.1.2. egyenletben definiált K operátort Q∗ -nál κ = γMǫ választással. A lemmában szereplő feltételek a környezetre nézve csak technikailag szükségesek és nem jelentenek komoly megszorítást, mert várhatóan sok környezetre teljesülnek. 2.1.3. Tétel. Legyen Q∗ egy általánosított ǫ-MDF-hez tartozó, a 2.1.3. definícióban megadott kiinduló MDF optimális értékelőfüggvénye és legyen M = maxs,a Q∗ (s, a) − mins,a Q∗ (s, a). Ha a 2.1.2. lemmában megadott feltételek 2 teljesülnek, akkor lim supt→∞ kQt − Q∗ k ≤ 1−γ γMǫ 1 valószínűséggel, azaz 2 ′ a Qt sorozat κ -approximálja az optimális értékelőfüggvényt κ′ = 1−γ γMǫ választás mellett. A lemma és a tétel bizonyítása ugyancsak megtalálható a Szita és mtsai (2002a) cikkben. Belátható tehát, hogy ha egy algoritmus egy Markov döntési folyamatban optimális értékelőfüggvényhez konvergál, akkor a megfelelő ǫMDF esetén az aszimptotikus távolság az optimális értékelőfüggvény és az algoritmus által adott értékelőfüggvény között korlátos, és a korlát arányos ǫ-nal. Habár az ǫ-MDF modellben a környezet megváltozhat, továbbra sem szabad túl messzire eltávolodnia valamilyen fix modelltől. Ez a tulajdonság viszont esetleg a jövőben felhasználható annak bizonyítására, hogy a környezet teljes megváltozása esetén – feltéve, hogy a változás gyorsasága nem túl 25
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
gyors – a megerősítéses tanulás képes lehet egy optimalitáshoz közeli politikát fenntartani. Ennek bizonyítása meglehetősen bonyolult, mert az algoritmus konvergenciasebességének vizsgálatára is szükség van. Givan és munkatársai egy, az ǫ-MDF-khez hasonlító modellt vezettek be (Givan és mtsai, 2000). Az általuk „korlátos paraméterű Markov döntési folyamatnak” (bounded Markov decision process, BMDP) nevezett modellben az átmeneti valószínűségek és a jutalmak egy intervallum erejéig definiáltak. Egy állapot értéke az ő leírásukban szintén egy lehetséges minimális és maximális érték között helyezkedik el. Ugyanakkor nem adnak felső korlátot ezekre az eltérésekre, amelyek egészen nagyok is lehetnek, ha bizonyos átmenetek nagyon bizonytalanok. A BMDP tulajdonképpen egy fix MDF (de bizonytalan, melyik), míg az ǫ-MDF egy olyan környezet ír le, ami idővel megváltozhat - akár még az 1.1.1. feltételt sértő módon is. Röviden azt mondhatjuk, hogy a megerősítéses tanulás algoritmusai várhatóan elég robusztusak ahhoz, hogy a környezet átmeneti valószínűségeiben előforduló kisebb ingadozásokat tolerálják, konvergenciájuk és aszimptotikus optimalitásuk közelítőleg így is biztosított. Az így nyert szabadságot felhasználhatjuk arra, hogy a következőkben a probléma komplexitását csökkentő egyszerűsítéseket tegyünk.
2.1.6. Eseménytanulás A megerősítéses tanulás ismertetett megfogalmazása különbséget tesz állapotok és akciók között: az állapot az az információ, amit a környezet ad valamely időpillanatban, az akciót pedig az abban az időpillanatban lehetséges cselekvéseink közül kell kiválasztani. Azonban létezik olyan megközelítés, ahol ez a szétválasztás nem történik meg. Ezt munkatársaim dolgozták ki és eseménytanulásnak nevezték el (Lőrincz és mtsai, 2003). Ebben a megközelítésben az ágens a kívánt következő állapotot választ akciók helyett, és nem állapot-akció párok, hanem állapot-állapot párok (események) értékét tanuljuk meg. A kívánt következő állapot elérését egy kontrollerre bízzuk. A kontrollerek megerősítéses tanulásban történő alkalmazására egy ideje már történnek próbálkozások (lásd pl. (Doya, 1996, 2000; ten Hagen, 2001)). Az eseménytanulásról megmutatható (Szita és mtsai, 2002a,b), hogy az SDS 26
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
kontrollerrel – ami egy robusztus nem-markovi kontroller – kiegészítve az ǫ-MDF-k családjához tartozik bizonyos feltételek teljesülése esetén. Legyen x, y, y d ∈ S állapotok, és jelölje az eseménytanulás értékelőfüggvényét E : S × S → R. y d az az állapotot jelöli, amelyet x-ben tartózkodva szeretnénk elérni, így E(x, y d ) annak értéke, hogy x-ből y d -be próbálunk jutni egy lépésben. Ez természetesen különbözhet a várható diszkontált jutalomösszegtől ugyanerre a lépésre nézve, de mégis ez a definíció kívánatos, ha kívánt következő állapotot szeretnénk választani. Hasonlóképp vezessük be a π E : S × S → [0, 1] esemény-kiválasztási politikát. π E (x, y d) megadja, hogy mi a valószínűsége annak, hogy y d következő állapotot választjuk x állapotban. A kontroller lesz az, aki a „kívánságokat” valódi akciókra fordítja le, amelyet a kontroller politika definiál: π A : S × S × A → [0, 1], ahol π(x, y d , u) az u akció választásának valószínűségét adja meg abban az esetben, ha az x → y d átmenetet szeretnénk realizálni. Figyeljük meg, hogy E(x, y d ) mind π E -től és π A -tól is függ, ezt a továbbiakban nem jelölöm külön. Az eseménytanulásban kizárólag az esemény-kiválasztási politikát tanuljuk meg és kontroller politika megtanulását leválasztjuk a problémáról. Az eseménytanulás szempontjából a kontroller a környezetbe van építve. Az esemény értékelő függvény kifejezhető az állapot-értékelő függvénnyel:
EπE (x, y d ) =
X
π A (x, y d, u)
u
X y
P (x, u, y) · R(x, y) + γV (y) ,
(2.1.5)
és megfordítva is: V (x) =
X
π E (x, y d )EπE (x, y d ).
(2.1.6)
yd
Ez a következő definíciót adja: 2.1.7. Definíció. Egy rögzített π A kontroller politika esetén egy eseményértékelő függvény optimális, ha teljesíti a következő egyenletet: Eπ∗A (x, y d ) =
X u
π A (x, y d , u)
X y
P (x, u, y) · R(x, y) + γVπ∗A (y) ,
27
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
ahol Vπ∗A (x) = maxz d Eπ∗A (y, z d ). Könnyen látható, hogy maxπA Vπ∗A (x) = V ∗ (x). Egy π∗A kontroller-politikát optimálisnak nevezünk, ha maximalizálja ezen kifejezés bal oldalát. Egy optimális kontroller-politikára vett optimális állapot-értékelő függvényt E ∗ -vel fogjuk jelölni. Általános esetben nem tételezhetjük fel, hogy létezik időfüggetlen optimális kontroller-politika. Épp ellenkezőleg, jól jöhet, ha megengedjük a kontrollernek, hogy idővel adaptálódjon. Ebben az esetben legfeljebb aszimptotikusan optimalitáshoz közelítő megoldást várhatunk. A legtöbb esetben egy approximált inverz dinamika megtanulásával ez általában teljesíthető (Fomin és mtsai, 1997), amelyet végezhetünk az eseménytanulás optimalizálásával párhuzamosan. Egy másik lehetőség, hogy a kontroller politikáját szintén megerősítéses tanulással optimalizáljuk, ami egy finomabb állapottérfelbontáson dolgozik, ezzel egy moduláris (vagy hierarchikus) tanulást definiálunk (Barto és Mahadevan, 2003). Egy harmadik lehetőség egy robusztus kontroller illesztése, ami kevéssé érzékeny a környezet megváltozásaira. Ilyen pl. az SDS kontroller (Szepesvári és Lőrincz, 1997), ami bizonyítottan aszimptotikusan optimális-közeli kontrollt biztosít és igen gyorsan alkalmazkodik. A konvergenciát illetően itt alkalmazhatjuk a 2.1.1. tételt, hogy megmutassuk, létezik olyan iteráció, ami így is optimum közeli eredményt ér el. Ehhez az eseménytanulást az ǫ-MDF formalizmusban kell megfogalmaznunk. Az akció ez esetben egy új kívánt állapot kiválasztása, tehát jelen esetben A megegyezik S-sel, ezért az általánosított állapot-akció értékelőfüggvény megegyeN zik az E esemény-értékelő függvénnyel. Legyen ( t E)(x) = maxyd E(x, y d ) L P d d t-től függetlenül, és legyen ( t S)(x, y d) = y pt (y|x, y )S(x, y , y), ahol P N pt (y|x, y d) = u πtA (x, y d, u)P (x, u, y). Végül legyen ( E)(x) = maxyd E(x, y d ) L P P és ( S)(x, y d ) = y u π A (x, y d, u)P (x, u, y)S(x, y d, y). A megfelelő általánosított Q-learning algoritmus a következő:
Et+1 (st , sdt+1 ) = (1 − αt (st , sdt+1 ))Et (st , sdt+1 ) d d + αt (st , st+1 ) rt + γ max Et (st+1 , s ) . (2.1.7) sd
2.1.4. Tétel. Ha a πtA kontroller politikák sorozata π A egy környezetébe konvergál egyenletesen, azaz lim supt→∞ kπtA (x, y d , .) − π A (x, y d , .)k ≤ ǫ minden 28
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
(x, y d ) esetén 1 valószínűséggel, akkor az előző bekezdésben szereplő modell egy ǫ-MDF. A bizonyítás megtalálható Szita és mtsai (2002a) cikkben. Alkalmazhatjuk tehát a 2.1.1. tételt: 2.1.5. Következmény. Legyen lim supt→∞ kπtA (x, y d , .) − π A (x, y d , .)k ≤ ǫ és legyen M = maxx,yd Eπ∗A (x, y d ) − minx,yd Eπ∗A (x, y d ). Ha 1. rt véges varianciájú és E(rt |xt , yt ) = R(xt , yt ), valamint P P∞ d d d 2. a tanulási rátákra ∞ t=0 χ(xt = x, yt = y )αt (x, y ) = ∞ és t=0 χ(xt = x, ytd = y d)αt (x, y d )2 < ∞ 1 valószínűséggel teljesül, akkor az Et sorozatra 1 valószínűséggel igaz, hogy lim supt→∞ kEt − Eπ∗A k 2 ≤ 1−γ γMǫ. Természetesen ha π A = π∗A , akkor a közelített értékelőfüggvény E ∗ .
2.1.7. Eseménytanulás SDS kontrollerrel Az static and dynamic state (SDS) kontroller (Szepesvári és mtsai, 1997; Szepesvári és Lőrincz, 1997) az ún. sebességtér-követési problémákra nyújt egy lehetséges megoldást folytonos dinamikai rendszerekben (Hwang és Ahuja, 1992; Fomin és mtsai, 1997; Szepesvári és Lőrincz, 1998). A probléma a következő: tegyük fel, hogy adott S állapottér és v d : S → S˙ sebességtér (tehát minden pozícióhoz hozzárendelünk egy kívánt sebességet). A t-edik időpillanatban a rendszer x(t) állapotban van v(t) sebességgel. Olyan kontrollt keresünk, ami a sebességet v d (x(t)) irányába módosítja. Az SDS kontroller ezt a feladatot képes korlátos hibával megoldani (Fomin és mtsai, 1997; Szepesvári és mtsai, 1997; Szepesvári és Lőrincz, 1997; Szepesvári, 1998). Az ˆ közelítő inverz dinamikát alkalmaz, ami egy visszacsaSDS kontroller egy Φ toló taggal van korrigálva:
ut (xt , vtd )
ˆ t , v d) + Λ = Φ(x t
Z
t
wτ dτ, ahol
τ =0
ˆ τ , vτd ) − Φ(x ˆ τ , vτ )). wτ = Φ(x 29
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
Itt wτ a korrekciós tag, és Λ > 0 a visszacsatolás erőssége. Megfelelő feltételek esetén a kontroller követési hibája const/Λ szerint korlátos. A közelítő inverz dinamikára vonatkozó feltételek nem túlságosan erősek: csak előjelhelyesség szükséges, azaz az általa javasolt akció jobb kell legyen, mint az akció ellenkezője. Ilyen inverz dinamikát általában könnyű készíteni akár a rendszer dinamikájának ismeretében, akár a dinamika közvetlen megfigyelése során. Ez a kontroller közvetlenül nem alkalmazható az eseménytanulásban, mivel folytonos idő és állapotleírást használ. Az állapotteret tehát diszkretizálni kell. Ha az idő diszkrét, a v d megkívánt sebesség előírása ekvivalens egy y d rákövetkező állapot előírásával (Lőrincz és mtsai, 2003). Így a kontroller egyenlete a következőképp alakul: ut (xt , ytd)
ˆ t , y d) + Λ = Φ(x t
t X
wτ · ∆t, ahol
τ =0
ˆ τ , y d ) − Φ(x ˆ τ , yτ )), wτ = Φ(x τ és ∆t jelöli az időlépések hosszát. xτ és yτ (és így wτ is) kizárólag diszkretizációs határokon változik meg, tehát amikor egy esemény történik. Ezért az eseménytanulás az SDS kontrollerrel együtt a frissítési gyakoriságra nézve jóval gyengébb feltételeket igényel, mint a klasszikus megerősítéses tanulás módszerei (Lőrincz és mtsai, 2003). A fentebb definiált kontroller közvetlenül beilleszthető az eseménytanulásba a következő beállítással: πtA (xt , ytd, a) =
(
1 ha a = ut (xt , ytd), 0 egyébként.
(2.1.8)
2.1.6. Következmény. Legyen ǫ egy előre meghatározott szám. Elegendően nagy ǫ és elegendően kicsi időlépés esetén a 2.1.8. egyenletben leírt kontroller kielégíti a 2.1.4. egyenlet feltételeit, ezért a környezet és az SDS kontroller együtt egy ǫ-MDF-t alkot. Ennek megfelelően a 2.1.5. tétel alkalmazható. Az eseménytanulás tehát a kontrollerek előnyeit képes a megerősítéses tanulásba integrálni: ha a kontroller politikája aszimptotikusan korlátos ǫ-nal, akkor az eseménytanulás értékelőfüggvényének bizonytalansága maximum C · 30
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
1. kar 2. kar
2.1. ábra. A kétkarú inga. Felső kép: az inga, alsó képek: egy sikeres felhelyezési kísérlet három pillanatfelvétellel szemléltetve. ǫ, ahol C egy konstans, ami a problémán és a paramétereken múlik. Ennek megfelelően az eseménytanulás megfelelő kontrollerrel egy optimálishoz közeli értékelőfüggvényhez konvergál, és ha a kontroller politikája optimális, akkor az eseménytanulás értékelőfüggvénye is optimális. Például a robusztus SDS a környezet változásai esetén is képes véghezvinni ugyanazt a feladatot, és ez azt jelenti, hogy ilyenkor az eseményértékelő függvényt sem kell újra megtanulni. Ezt illusztrálja a (Lőrincz és mtsai, 2001a) cikkben szereplő kísérlet, ahol a SARSA-val összehasonlítva a kontrollerrel kiegészített eseménytanulás a következő részben leírt kísérlet egy változatában során egy környezeti paraméter nagyobb méretű megváltozása esetén is képes volt megoldani a problémát az eredetileg megtanult értékelőfüggvénnyel (2.2. ábra). 2.1.1. Szimuláció. Az eseménytanulást és az ǫ-MDF konvergenciáját a kétkarú inga problémáján demonstráltam (Yamakita és mtsai, 1995; Aamodt, 1997). Magát az ingát a 2.1. ábra mutatja. Az inga egy vízszintes és egy csatolt függőleges karral rendelkezik, ezek elfordulási szögét α1 -gyel és α2 -vel fogom jelölni. Az inga egy motorral rendelkezik, ami a vízszintes tengely mentén tudja mozgatni az ingát mindkét irányba. Az ágens feladata a második kar felállítása a felső, instabil állapotába és ott annak megtartása egyensúlyozással. Egy epizód végét az jelzi, ha (1) az ágensnek sikerült elérnie a célállapotot és ott bizonyos ideig megmaradnia, (2), bizonyos idő eltelik sikeres próbálkozás nélkül, illetve (3) bizonyos sebességhatárok átlépése (ilyenkor 31
A feladat befejezéséhez szükséges idő megváltozása [%]
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
350
300
250
SARSA SDS nélkül 200
150
100
E-learning SDS (1.0) 50
0 -0.1
0
0.1
0.2
0.3
0.4
0.5
∆ m (kg)
2.2. ábra. A feladat befejezéséhez szükséges idő egy megváltoztatott környezeti paraméter (az m2 tömeg) függvényében. Folyamatos vonal: állapot-akció függvénnyel dolgozó SARSA, szaggatott vonal: eseménytanulás SDS kontrollerrel (Λ = 1) (Lőrincz és mtsai, 2001a). A kísérleti környezet leírásához lásd a 2.1.1. szimulációt.
32
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
az ágens büntetést kap). Egy epizód befejezése után a rendszert egy véletlen állapotból újraindítjuk, mely állapotot az állapottér egy kisebb, de gyakran meglátogatott tartományából választjuk (amikor a kisebb kar lent van). A szimuláció paramétereit a 2.1-2.3. táblázatok tartalmazzák. Az inga állapotát a α1 , α2 , α˙ 1 és α˙ 2 menyiségek írják le. Az állapottér elméletben végtelen kiterjedésű, de ezt az előző bekezdésben említett büntetéssel járó sebességkorlátok behatárolják. Ha a rendszer célállapotban van, 0 jutalmat kap, egyébként folyamatosan -1 értékű büntetést. Optimista kiinduló értékelőfüggvényt használtam: kezdetben minden állapot-állapot átmenet értéke 0. Az eseménytanulás előző részben vázolt formájához diszkrét állapottérre van szükség, ezért az állapottér változóit egyenetlenül elosztott határok mentén diszkretizáltam. Többféle partícionálást is kipróbáltam. Az itt bemutatott eredményekhez a 2.3. táblázatban levő értékeket használtam. A kísérletben az eseménytanulást használtam az SDS kontrollerrel. Az inverz dinamika két lehetséges akció közül választott, és ezt korrigálta az SDS kontroller. A tanulás elején az ügynök tapasztalatot gyűjthetett, hogy megtanulja az inverz dinamikát: véletlen alapakciót választva 10 másodpercenként véletlen pozíciókból újraindítottam a rendszert. Minden lépésben a négydimenziós folytonos állapotvektor a diszkrét partícionálás szerint egy négydimenziós diszkrét állapotvektorba lett leképezve. Ebben az új állapottérben egy állapot-állapot átmenet csak akkor történik meg, ha a rendszer állapota keresztezi az előre definiált felosztás valamelyik határát. Ha nem történik ilyen átmenet valamely időpillanatban, akkor az ágens (xt , xt ) átmenetet (vagy eseményt) tapasztal. Az inverz dinamika tanulása során rögzítettem, hogy egy kiválasztott alapakció mellett melyik események történtek meg, és az inverz dinamikát pedig az alapján határoztam meg, hogy melyik a legvalószínűbb akció, feltéve, hogy valamelyik esemény megtörtént. Az inverz dinamika tanulását leállítottam, amikor már nem tapasztaltam sok új állapot-állapot átmenetet, és átváltottam a tanulási fázisra (ennek paramétereit a 2.3. táblázat tartalmazza). A tanulás felgyorsítása érdekében felelősségnyomokat használtam (lásd 1.2.1. rész). A kombinatorikus robbanást elkerülendő, az ágens csak az aktuális állapotból már megtapasztalt rákövetkező állapotok közül választhatott. 33
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK paraméter neve vízszintes kar súlya függőleges kar súlya vízszintes kar hossza függőleges kar hossza súrlódás időlépés interakciós idő (∆t két diszkretizált állapot között)
érték 0.82kg 0.43kg 0.35m 0.3m 0.005 0.001 ms 0.005 ms
jelölés m1 m2 l1 l2 K frict τ
2.1. táblázat. A fizikai modell paraméterei paraméter neve jutalom a célállapotban büntetés nem célállapotokban büntetés, ha α˙ 1 > 1000 büntetés, ha α˙ 2 > 1500 előírt fenntartási idő célállapot akkor, ha
érték 0 -1/interakció -10 és újraindít -10 és újraindít 10 s α2 < ± 12◦ α˙ 2 < ± 60◦ /sec
2.2. táblázat. Jutalmazási rendszer Eredmények A konvergenciára vonatkozó eredmények a 2.3. ábrán láthatók. A paramétereket itt nem változtattam és a 2.3. táblázatban leírt durva diszkretizációt használtam, ami végsősoron a kontrollerrel együtt változó környezetként jelenik meg a tanulás számára. A 2.1.2. fejezet tételei szuprémum normában lettek megfogalmazva. Két erre a normára vonatkozó görbe látható a 2.3(a). ábra, az egyik kikapcsolt SDS kontrollerre vonatkozik (Λ = 0), a másik bekapcsoltra (Λ = 1.5). Miután az optimális értékelőfüggvény nem áll rendelkezésre, a távolságokat a kísérlet végén kapott értékelőfüggvénytől kell érteni. A konvergencia jól láthatóan határozottabb bekapcsolt kontrollerrel, ugyanakkor gyorsabb is, ami részben a bekapcsolt kontrollerrel alkalmazható elméletben végtelen sokféle kontroll következménye. A négyzetes hibában számolt eltérés mértéke látható a 2.3(b). ábrán. Az inga teljesítményét az átlagos teljesítési idő és a teljesítési idő szórá34
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK paraméter neve tanulási ráta diszkontálási faktor SDS visszacsatolás erősség SDS súlyfaktor felelősségnyomok csökkenése felelősségnyomok sorhossza felosztások száma α1 , α2 , α˙ 1 és α˙ 2 állapotjelzőkben alapakciók véletlen akciók gyakorisága maximális epizódhossz
érték 0.02 0.95 0.0-10.0 0.9 0.8 70 lépés 1, 16, 6, 14 ± 1.5 Nm 2 Hz 60 sec
jelölés α γ Λ αSDS λ
2.3. táblázat. A tanulás paraméterei sa jellemzi, amit a 2.3(c). ábrán láthatunk. Világosan látható a robusztus kontroller alkalmazásának előnye. A 2.1.6. következmény alapján azt is várhatjuk, hogy a konvergenciához szükséges idő csökken a Λ visszacsatolási erősség növelésével. Ugyanakkor túlságosan erős visszacsatolás azt eredményezheti, hogy a diszkretizáció miatt instabilitások lépnek fel, mert az SDS túl nagyot korrigál a diszkretizációs határok között. Valóban: a 2.4. ábra mutatja, hogy létezik egy ilyen optimális visszacsatolási erősség, és nagy Λ értékekre a tanulás teljesítménye romlani kezd. Ezen helyzeten finomabb diszkretizációval vagy gyakrabb megfigyelésekkel lehet javítani, természetesen ennek ára van, mert elveszítjük a kontroller flexibilitását. A Λ tehát olyan paraméter, amit feladattól és diszkretizációtól függően kell optimalizálni. A gyakorlat is megerősíti tehát, hogy az ǫ-MDF-k alkalmazhatók olyan modellek esetében, amelyek bizonytalan vagy zajos állapotleírással rendelkeznek. Megjegyezném, hogy a számítógépes szimulációk nem teljesítették a tételek idődiszkretizációra vonatkozó feltételeit, tehát elképzelhető, hogy gyengébb feltételek mellett is teljesül a konvergencia.
2.2. Térben tervezhető komponensek Az előző részben bemutattam azokat a tételeket, amelyek igazolják, hogy az ǫ-MDF-ek segítségével matematikailag kezelhető válik egy új megerősí35
B)
négyzetes norma
A)
szuprémum norma
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
25
Konvergencia
20 15 10 0
1
2
3
4
7
8
9
10 5
x 10
2
10
1
2
3
4
536
átlag és STD [s]
6
Konvergencia
3
10
0
C)
5
idő [s]
200
5
idő [s]
6
7
8
9
10 5
x 10 60
Az epizódok hossza
150
40
100 50
20
0 -50
0
1
2
3
4
5
5
5
idő [s]
x 10
6
7
8
9
0 10 5
x 10
2.3. ábra. Az értékiteráció konvergenciája kontrollerrel és kontroller nélkül. A vízszintes tengelyen a szimuláció ideje van feltüntetve másodpercben. Körök/pontozott vonal: kontroller nélkül (Λ = 0.0), négyzetek/folytonos vonal: kontrollerrel(Λ = 1.5). A: Az eseményértékelő-függvény konvergenciája szuprémum-norma szerint. A távolságot mindig a legutolsó értékelőfüggvénytől mértem, tehát az érték mindig 0 a legutolsó esetben (ezt ezért az ábrán nem mutatom). B: Az eseményértékelő-függvény konvergenciája négyzetes norma (eulideszi távolságnorma) szerint. Körülbelül 104 dimenziós mennyiségeket hasonlítunk össze, a távolságot ismét a legutolsó lépés értékelőfüggvényétől kell számítani, ennek megfelelően a konvergencia ütemének mérlegeléséhez a görbék lezáró részét nem szabad figyelembe venni. C: Átlagos teljesítési idő és ezek szórása a tanulás során. A függőleges skála lépésközét az 5 × 105 . időpontban körülbelül háromszorosára növeltem, hogy a tanulás végéről is részletesebb képet kaphassak. A két skálát az ábra balés jobboldala mutatja.
36
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
a sikeres epizódok száma 500000 másodperc alatt
4
3
x 10
2.5
2
1.5
1
0.5
0
0
1
2
3
4
5
6
7
8
9
10
SDS visszacsatolási erősség (7)
2.4. ábra. Az optimális visszacsatolási erősség kiválasztása. Az ábra azt mutatja be, hogy az SDS kontroller alkalmazása esetén létezik egy optimális visszacsatolási erősség. Túl kicsi Λ esetén a megerősítéses tanulás nem tudja megtanulni a feladatot, túl nagy esetén pedig a visszacsatolás túl erőssé válik. A folyamat sztochasztikus jellege miatt (például véletlen újraindításokat alkalmaztam) a végeredmény véletlen eseményektől is függ, ezért az eredményeket minden Λ esetén 3 különböző randomszám-generátor kezdőértékkel újrafuttattam, ezek eredménye látható az ábrán.
37
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
téses tanulás koncepció, az eseménytanulás (Lőrincz és mtsai, 2001a). Az eseménytanulás ugyanakkor felfogható úgy is, hogy egy lehetséges megoldás a feladathoz megoldásához hasznos részcélok keresésére, ami az 1.2.1. fejezetben írottak értelmében komplexitás-csökkentő hatással bírhat. Ezzel a feladattal foglalkozik a moduláris megerősítéses tanulás (Maes, 1992; Mahadevan és Connell, 1992; Singh, 1992; Dayan és Hinton, 1993; Kaelbling, 1993; Mataric, 1997; Kalmár és mtsai, 1998; Dietterich, 2000; Barto és Mahadevan, 2003) és a szemi-Markov döntési folyamatokban kidolgozott opciók fogalma (Precup és Sutton, 1998; Sutton és mtsai, 1998). Ebben a fejezetben egy másik módszert fogok bemutatni a problémák darabolására, ami a probléma determinisztikus komponenseit próbálja külön optimalizálni.
2.2.1. Tervezhető megerősítéses tanulás Az ǫ-MDF-k elmélete lehetőséget biztosít arra, hogy matematikai garanciák mellett egyszerűsítsük a probléma komplexitását a teljesítmény lényeges csökkentése nélkül. A megerősítéses tanulás egyik alapvető pillére a valószínűségi értelmezés. Sajnos ezen kellemes tulajdonságért árat kell fizetnünk, és ez a számítási igény növekedése. Általános esetben például bármely két állapot közötti, esetleg elhanyagolható valószínűségű átmenetet is nyilván kell tartanunk. Az 1.2.3. részben amellett érveltem, hogy a véletlenszerű környezet általában részlegesen megfigyelt folyamatok jelenlétét takarja. Tulajdonképpen úgy is tekinthetünk a világra, hogy az alapvetően determinisztikus, de ezt időnként olyan hatások zavarják meg, amitől az sztochasztikussá válik. Ilyen lehet például valamilyen zaj, egy kis valószínűségű hiba elkövetése vagy az előző fejezetben említett rejtett változók miatt nem teljesen mértékben megfigyelt környezet. Ha viszont a világ alapvetően determinisztikus, akkor ezen részek azonosítása fontossá válhat. Egyrészt tippeket kapunk arra, hogy hol kellene a reprezentáción javítani, és hol nem érdemes. Másrészt a közel determinisztikus részeknek jóval egyszerűbb struktúrája van, amelyeken a teljes valószínűségi leírás figyelembe vétele nélkül hatékonyabban lehet tanulni valódi interakciók nélkül is. 38
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
Az alábbiakban bemutatok egy módszert, ami ezzel az utóbbi ponttal kíván foglalkozni. Az eljárást tervezhető megerősítéses tanulásnak neveztük el, és hasonlít az 1.2.1. részben említett Dyna módszerre és az ugyanott említett makró-akciókra. Az algoritmus a Dyna algoritmusához hasonlóan egy modellből nyert tapasztalatok alapján fókuszálja az értékelőfüggvény frissítéseit. Ugyanakkor itt két független (de qaz akciók kiválasztásánál interakcióban álló) értékelőfüggvényt használunk, az egyiket tanulásra, a másikat tervek készítésére. A tervező értékelőfüggvény kiértékelésére egy nagyon egyszerű modellt használunk: az értékeket akkor frissítjük egy átmenet mentén, ha az átmenetet tervezhetőnek minősítjük, azaz determinisztikushoz közeli állapot-átmenetről van szó. Ezután ezzel a tervező értékelőfüggvénnyel makró-akciókat határozunk meg. Az ǫ-MDF-k elmélete alapján megmutatható, hogy ezek a makró-akciók optimálishoz közeli módon képesek a hozzájuk tartozó részfeladatot megoldani. Ez azt jelenti, hogy nincs szükség arra, hogy nagyszámú, feltehetőleg rossz makrót gyártsunk (McGovern és Sutton, 1998; Kalmár és Szepesvári, 1999), és a gyors tanulás továbbra is biztosított. Ezeket a makrókat úgy is tekinthetjük, hogy megpróbáljuk megtalálni a feladat determinisztikus komponenseit. A párhuzamosan tanított másik értékelőfüggvény a makrók értékét tárolja, és erre az értékelőfüggvényre nézve mohó politikát fogunk követni. A kapott politika alapján fogjuk az alkalmazandó makrót kiválasztani. Egy fontos kérdés a modell megválasztása. Meg lehetne próbálni közvetlenül a P (s, a, s′) átmeneti valószínűségeket és a megfelelő jutalmakat közvetlenül mérni, de egy |S|2 ·|A| méretű táblázat fenntartása és frissítése nem tűnik túlságosan jó ötletnek. Azért is logikus lenne egyszerűsítéseket alkalmazni, mert tervezni többnyire az állapottér determinisztikusként viselkedő részein értelmes. Például amikor autóval közlekedve át akarunk haladni egy városon, választhatunk, hogy közvetlenül a belvároson át haladjunk, vagy menjünk végig a várost övező körgyűrűn. Az első eset sok esetben a legrövidebb (a legkisebb a minimális költsége), de az utazási idő nagyon hosszú lehet, ha forgalmi dugó alakul ki a belváros zsúfoltabb utcáin. A második lehetőség pontosabban tervezhető, és végül átlagosan adhat közel olyan jó költséget, mint a másik. Ha több ágens vesz részt egy probléma megoldásában, a tervezhetőség mindennél fontosabb lehet: képtelenség több ágens viselkedésének 39
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
koordinálása, ha azok megbízhatatlanul teljesítik a részfeladatokat. Az általunk kidolgozott algoritmus csak azokat az átmeneteket tárolja, amelyek közel determinisztikusak (ezeket tervezhető átmeneteknek fogjuk hívni). Természetesen nem kell az egész állapottérnek ilyennek lennie. Az algoritmust tervezhető megerősítéses tanulásnak (angol rövidítéssel pRL-nek) fogom nevezni. 2.2.1. Definíció. Egy (s, s′ ) átmenetet κ pontossággal tervezhetőnek nevezünk, ha legalább κ valószínűséggel kivitelezhető, azaz létezik as→s′ = arg maxa P (s, a, s′) akció úgy, hogy P (s, as→s′ , s′ ) ≥ κ. Más szavakkal as→s′ egy olyan akció, ami s-ből s′ -be vezet a legnagyobb valószínűséggel. Ha több ilyen is van, akkor mindegy, melyiket választjuk. Feltesszük, hogy az (s, s′ ) 7→ as→s′ leképezés előre ismert a κ-tervezhető átmenetek esetén. A legtöbb problémában ez eléggé nyilvánvalóan teljesül: ha egy ágens közel biztos abban, hogy az egyik állapotból a másikba fog kerülni, a legtöbb esetben (1) pontosan tudja, milyen akciót kell ehhez választania, vagy (2) teljesen mindegy, melyik akciót választja. Amennyiben egy problémában ez mégsem teljesülne, mindig megtanulhatja tapasztalat útján a φ : S×S → A inverz dinamikát úgy, hogy φ(s, s′ ) = as→s′ ha (s, s′) tervezhető (egyébként tetszőleges). Ez mintavételezéssel elsajátítható vagy a dinamika ismeretében megalkotható a 2.1.6. részben említett módszerekkel. Az igazság kedvéért jegyezzük meg, hogy ha tapasztalatokkal akarjuk ezt az akciót megtanulni, akkor abban a ritka esetben, amikor P (s, a, s′) ≈ P (s, a′, s′ ) két különböző a és a′ akcióra, a megfelelő as→s′ kitalálása olyan nehéz lesz, mint a teljes P (s, a, s′ ) és P (s, a′ , s′ ) teljes valószínűségek becslése. Közelítő determinisztikus modell Egy modellt κ-közelítő módon determinisztikusnak nevezünk, ha a modell minden tárolt átmenete κ-tervezhető és ezen átmenetek közvetlen jutalma a modellben ismert. Egy ilyen modell szükségképpen független a politikától és ideális esetben kizárólag a tervezhető átmeneteket tárolja. Vezessük be a következő jelöléseket: 40
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
P (s, s′) := P (s, as→s′ , s′ ) ′
R(s, s ) := R(s, as→s′ ).
(2.2.1) (2.2.2)
Tulajdonképpen elég lenne az {(x, y, R(x, y)) | P (x, y) ≥ κ} hármasokat nyilvántartani, tehát csak azon élekhez tartozó jutalmakat, amelyek κtervezhetőek, de a gyakorlatban P (s, s′) tapasztalati becslése nélkül ez az információ általában nem áll rendelkezésre. Szeretnénk tehát tanulás közben meghatározni a modell paramétereit, azaz a P (s, s′) and R(s, s′ ) mennyiségeket. A becsült mennyiségeket Pˆ (s, s′ ) és ˆ y) fogja jelölni. Legegyszerűbb egy egyszerű iterált átlagolást haszálni: R(x, ′ ′ ˆ (1 − αt )Pt (s, s ) + αt · 1 ha st = s, at = as→s′ és st+1 = s , Pˆt+1 (s, s′) = (1 − αt )Pˆt (s, s′) + αt · 0 ha st = s, at = as→s′ és st+1 6= s′ , ˆ Pt (s, s′) egyébként, (2.2.3) Pˆ0 ≡ 1. ˆ s′ ) közvetlen jutalmakat is. ChernHasonló eljárással közelíthetjük a R(s, off tétele szerint a rossz közelítés és így a tervezhetőség szempontjából történő félreosztályozás (azaz hogy Pˆt (s, s′ ) ≥ κ de P (s, s′) < κ vagy fordítva) exponenciálisan csökken az (s, s′ ) állapot-átmenetek bekövetkezéseinek számával. Ennek megfelelően a közelítés során 1-hez tartó valószínűséggel fogjuk megfelelően azonosítani az átmeneteket. Chernoff-határok használatával P és R elegendően pontos közelítését lehet elérni polinomiális időben (Brafman és Tennenholtz, 2001). A továbbiakban tehát feltételezzük, hogy a modell rendelkezésre áll, és a {(x, y) : P (x, y) ≥ κ} halmazok ismertek. Az algoritmus leírása Az előző részben bemutatott közelítő modellt arra fogjuk használni, hogy egy közelítő értékelő függvényt határozzunk meg, ami a κ-tervezhető átmeneteken működik. Egy (s, s′) átmenetet pontosan akkor fogunk tervezhetőnek 41
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
tekinteni, ha az bekerül a modellbe, tehát az approximált átmeneti valószínűség Pˆt (s, s′ ) ≥ κ. Ezeket a majdnem bizonyos átmeneteket az algoritmus tervező része biztosnak fogja tekinteni, ami egyszerűsíti a tervező értékelő függvény frissítését, és az ǫ-MDF formalizmus szerint optimálishoz közeli eredményeket fog adni. Az algoritmusban egyszerre két értékelőfüggvény van nyilvántartva: egy hagyományos Q(s, a) állapot-akció értékelő függvény, amelyet a valódi tapasztalatokkal frissítünk, valamint a tervező értékelő függvény, ami a Dynához hasonlító algoritmussal fogja a 2.2.3. egyenletben leírt egyszerűsített modellt működtetni. Ez utóbbi függvényt Vˆ fogja jelölni. Mindkét függvény javasol egy politikát, ami esetleg el is térhet egymástól. A pRL algoritmus egésze minden lépésben választ a politikák között az alapján, hogy melyik tűnik jobbnak. Az alap értékelő függvény frissítésére a megerősítéses tanulás bármelyik hagyományos eljárását használhatjuk. A szimulációkban a SARSA algoritmust (1.1.7. egyenlet) használtam annak egyszerűsége miatt. A tervező értékelő függvény frissítésére ismét számos szabályt használhatnánk, de ebben az esetben rendelkezésre áll egy közelítő modell és egy as→s′ inverz dinamika. Ezért elegendő egy állapot-értékelő függvény használata, mert a lehetséges rákövetkező állapotok és az inverz dinamika ismeretében a legjobb akciót könnyű meghatározni. Ezen függvényt az s állapotban jelölje Vˆ (s). Frissítése a következő szabály alapján oldható meg: Vˆt+1 (s) = max a
X
(P (s, a, s′)(R(s, a, s′ ) + γ ′ Vˆt+1 (s′ ))).
s′
A nem-eltűnő tagok száma itt jóval kisebb lehet, mint az összes állapotállapot átmenet száma. Az elhanyagolások azonban természetesen hibákat jelentenek az akciók kiválasztásánál, amely hibák mértékét az egyszerűsítések aránya adja meg, ami a κ számtól függ. A modellben szereplő mennyiségekkel a frissítési szabály a következőképp írható fel: Vˆt+1 (s) = max
ˆ t (s, s ) + max (R ′
s′ ∈T (s)
γ ′ Vˆt (s′ )), Vt (s)
.
(2.2.4)
Itt T (s) az s állapotból elérhető tervezhető állapotok halmazát jelöli, azaz 42
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
T (s) := {s′ : (s, s′ ) κ-tervezhető} = {s′ | Pˆ (s, s′ ) ≥ κ}.
(2.2.5)
A közelítések miatt időnként jobb döntés a Vt (s) alapján akciót választani, mint a Vˆt (s) tervező értékelő függvény alapján. Ha például nincs tervezhető átmenet a jelenlegi állapotból, mindenképp az alap értékelő függvényhez kell fordulnunk. Úgy is tekinthetjük, hogy az akcióteret kiegészítjük egy olyan akcióval, aminek a jelentése a tervezés leállítása, és ennek választása esetén az algoritmus a továbbiakban az alap értékelőfüggvény szerint választ akciót. A tervezhető átmenetek éleiből álló gráf összefüggő részeit tervezhető tartományoknak nevezzük. A frissítési szabályt a jelenlegi st állapot körüli tervezhető tartományban, illetve annak egy korlátos részében alkalmazzuk. Ezt a területet egy korlátozott mélységű szélességi kereséssel lehet meghatározni a tervezhető átmenetek gráfján. A keresési és frissítési fázis nem igényel valódi interakciót, csak számítást, és miután a frissítések számát és a keresés mélységét korlátozzuk, csak O(C) lépésről van szó. Végeredményben két különböző értékelőfüggvénnyel fogunk rendelkezni, amelyek akár eltérő politikát is adhatnak. Az alkalmazandó akcióról a jobb politika alapján döntünk: amennyiben Vˆt (st ) > Vt (st ), akkor az akciót a tervező értékelő függvény alapján választjuk, egyébként fordítva. Ezt a döntést az algoritmus minden időlépésben meghozza. Az algoritmus pszeudokódját a 2.5. ábra foglalja össze. A tervező értékelő függvény által kódolt makrók A makrókat nem reprezentáljuk explicite az algoritmusban, csak a tervező értékelő függvényen keresztül. Ez előnyös, mert így nem kell külön helyet fenntartani számukra, és egyúttal az értékét is tárolni tudjuk. A Vˆ által tárolt makrókat a következő módon kaphatjuk meg. Valamely st állapotból kiindulva válasszuk a mohó akciókat Vˆt szerint, amíg Vˆt > Vt . Amennyiben ez nem teljesül vagy ha egy akció nem a tervezetthez vezet, a makró véget ér. Formálisabban fogalmazva legyen ˆ t (s, s′ ) + γ ′ Vˆt (s′ )) L(s) := arg max (R ′ s
43
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
ˆ Pˆ , s0 , a0 , r0 , φ inicializálása Q, Vˆ , R, t←0 REPEAT FOREVER st , rt megfigyelése Pˆ frissítése a (2.3.1) szerint ˆ frissítése R SARSA tanulás az alap értékelőfüggvényen: Q(st−1 , at−1 ) ← (1 − αt )Q(st−1 , at−1 ) + αt (rt + γQ(st , at )) % a tervezett tartomány meghatározása G := {(x, y) ∈ S × S : Pˆ (x, y) ≥ κ} P LAN _AREA :=Szélességi keresés G-ben st állapotból indulva, legfeljebb N csúcs meglátogatásával % a tervező értékelő függvény frissítése: LOOP M alkalommal x ← egy véletlenül kiválasztott P LAN _AREA-beli állapot V (x) ← maxanQ(x, a) o ˆ y) + γ ′ Vˆ (y)), V (x) Vˆ (x) ← max maxy:(x,y)∈G(R(x, END LOOP
% akcióválasztás IF Vˆ (x) = V (x) OR terv hossza > maximális tervhossz OR nincs tervezhető állapot THEN at ← arg maxa∈A Q(st , a) ELSE ˆ y) + γ ′ Vˆ (y)) y ← arg maxy:(x,y)∈G(R(x, at ← φ(st , y) END IF t← t+1 END REPEAT
2.5. ábra. A pRL algoritmus pszeudokódja. Ebben a formában az algoritmusnak legfeljebb O(N + M) lépésre van szüksége az akciók kiválasztásához, ahol N a mélységi keresés által bejárt csúcsok száma.
1
44
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK a Vˆ szerint mohó módon választott akció, és legyen a(s) := φ(s, L(s)). Ekkor az s állapothoz tartozó makró az a(s), a(L(s)), a(L(L(s))), . . . , a(Ln (s)), . . . sorozat, amely akkor ér véget, ha Vˆt (Ln+1 (s)) < Vt (Ln+1 (s)) vagy a(Ln (s)) az Ln (s) állapotban Ln+1 (s)-től eltérő állapotba vezet. Természetesen explicite is el lehet készíteni ezeket a makrókat, de az algoritmus szempontjából erre nincs szükség. Az algoritmus közelítő optimalitása Miután az alap értékelő függvény továbbra is a SARSA algoritmusának megfelelően frissítődik és az exploráció miatt továbbra is minden állapotot végtelen sokszor mintavételezünk, az alap értékelő függvény a pRL algoritmusban is az optimális értékelőfüggvényhez kell hogy konvergáljon (Singh és mtsai, 2000). Ugyanakkor az optimális politikához történő konvergencia csak akkor garantált, ha κ = 1 teljesül. A konvergencia sebességét is befolyásolhatja κ: minél kisebb 1-nél, annál nagyobb számú makrót engedünk meg alkalmazni, amelyek ugyan gyorsabban konvergálnak, viszont egy valószínűleg az optimálishoz képest egyre rosszabb megoldáshoz. Vegyük észre, hogy a tervező értékelő függvény egy olyan környezetben adja meg az optimális megoldást, amelyben a majdnem biztosan végrehajtható átmeneteket biztosan végrehajthatóakkal helyettesítettük. Felidézve az ǫ-MDF-k elméletét, a módosított környezet így az eredeti környezet egy ǫMDF módosítása, ahol ǫ = 1 − κ. Ennek megfelelően alkalmazhatjuk az ǫ-MDF-k elméletét: 2.2.1. Következmény. A pRL algoritmus olyan Vˆt értékelőfüggvényeket fog eredményezni, amelyekre lim supt→∞ kVˆt − V ∗ k ≤ const · (1 − κ) teljesül. Így a pRL által talált makrók optimálishoz közeliek lesznek.
45
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
40
START
1
35
5 0.95
30
10 0.9
15 20
κ = 0.8
25
0.85
20
0.8
15
25
κ = 1.0 κ = 0.9
30
40
10
0.75
35
5 5
10
15
20
25
30
35
40
0.7
CÉL
5
10
15
20
25
30
35
40
(a) A szimulációban használt átmeneti (b) Tervezhetőnek minősíthető tartovalószínűségek mányok különböző κ értékek esetén START -0.2
5
-0.4
10 -0.6
15
-0.8 -1
20
-1.2
25 -1.4
30
-1.6
35 40
-1.8 -2
5
10
15
20
25
30
35
40
CÉL
(c) A szimuláció által használt közvetlen jutalmak
2.6. ábra. A tesztprobléma bemutatása. Az (a) ábrán az intenzitás annak valószínűségét mutatja, hogy egy akció milyen eséllyel vezet a „megfelelő” állapotba, azaz ha például az ágens az „ÉSZAK” akciót választja valamelyik állapotban, akkor északra is jut. Ha az akció nem sikeres, akkor az ágens egyforma eséllyel érkezik a fennmaradó állapotok valamelyikébe. A (c) ábrán az intenzitás jelöli a közvetlen jutalom nagyságát akkor, amikor az ágens a megfelelő állapotba kerül. A célállapot (amit ábrán a jobb alsó sarokban találhatunk) elérése +200 egység jutalmat jelent.
46
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
Lépések száma
8000
κ=0.05 κ=0.1 SARSA
7000 6000 5000 4000 3000 2000 1000 0 0
500
1000
1500
Epizód sorszáma
2000
2.7. ábra. A pRL algoritmus konvergenciája. Tanulási görbék három különböző κ érték esetén. pontozott vonal: κ = 0.05, összefüggő vonal: κ = 0.15, szaggatott vonal: κ = 1.0 (megfelel a SARSA algoritmusnak). A görbék az átlagos lépésszámokat mutatják 500 próbálkozásra átlagolva. A tervezés sokkal gyorsabban konvergál kezdetben, de a túl durva modell rossz makrókat ad. A tanítást az itt ábrázolt tartomány után is folytattam, amíg a görbék nem konvergáltak teljesen.
2.2.2. Szimulációk 2.2.1. Szimuláció. A pRL algoritmus teszteléséhez egy 40 × 40 méretű labirintust készítettem. Az ágens feladata a bal felső kezdőpozícióból eljutni a jobb alsó célpozícióba. Az ágens minden állapotban megfigyeli az aktuális pozíciójának koordinátáit, majd a világtájaknak megfelelő négy különböző akció közül választhat. Valamely s állapotban járva a választása P succ(s) eséllyel teljesül. Ellenkező esetben 1 − P succ(s) eséllyel egy véletlen irányba lép tovább a maradék lehetséges irányok közül. A P succ(s) függvényt úgy sorsoltam ki, hogy a legkisebb értéke 0.7 legyen, és egyes területeken ez fokozatosan 1 értékre növekedjen. Ezt a függvényt a szimulációban felhasznált példában a 2.6(a). ábrán tekinthetjük meg. A megfelelő tervezhető tartományokat különböző κ értékeknél a 2.6(b). ábra mutatja. Az ágens minden lépésben egy kis méretű (−0.1) büntetést szenved el, a célállapot kivételével, ahol egy +200 méretű jutalomhoz jut. Emellett „csapdákat” is létrehoztam véletlenszerű tartományokban, amelyek −1 büntetéssel 47
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
Átlagos lépésszám
500
400
300
200
100
0
0.2
0.4
κ
0.6
0.8
1
2.8. ábra. A pRL algoritmus optimalitása. A végső teljesítménye a kapott politikáknak κ függvényében. Miután a tanítás konvergált, a különböző κ értékekhez tartozó értékelőfüggvények teljesítményét lemértem a feladat teljesítéséhez szükséges átlagos lépésszámmal (10000 próbálkozásra történt az átlagolás). A vízszintes vonal az optimális értékelőfüggvénnyel rendelkező SARSA algoritmus által talált megoldás teljesítményét mutatja (κ = 1 eset).
járulnak hozzá a közvetlen jutalomhoz. Egy ilyet mutat a 2.6(c) ábra. 10000 lépés letelte után - vagy ha sikerült elérni a célállapotot - a szimuláció új epizódot indított. A kísérletekben az alap értékelőfüggvény kiszámítására a SARSA algoritmust használtam felelősségnyomokkal és ǫ-mohó akcióválasztással (1.1.7. és 1.2.1. fejezetek). A következő paramétereket használtam: α = 0.001, a felelősségnyomok csökkenési állandója λ = 0.95 volt, a diszkontálási ráta γ = 0.98, a véletlen akcióválasztás valószínűsége 0.1. A tervező értékelő függvény paramétereit ugyanezekre az értékekre állítottam, viszont több κ értéket is kipróbáltam. A frissítések száma (a 2.5. ábra M paramétere) 10 volt, az N paraméter (a gráf bejárandó mérete) pedig 20. Az átmeneti valószínűségek becsléséhez használt ráta 0.02, a közvetlen jutalmak becsléséhez használt ráta 0.05 volt. 48
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
Eredmények Elméletileg a κ = 1 esetben pRL azonossá válik a SARSA algoritmussal (ilyenkor egyáltalán nincs tervezés, csak valóban determinisztikus esetben). κ = 0 esetben a pRL egy egyszerű modellel rendelkező Dyna algoritmussal válik ekvivalenssé. Megfelelő κ választással a pRL algoritmus képes közelíteni a Dyna sebességét, jóval kisebb tárbonyolultság mellett (2.7. ábra). κ viszont hangolandó paraméter, amit attól függően tudunk beállítani, gyors avagy pontos eredményre van szükségünk. Megtehetjük azt is, hogy a tanulás során idővel emeljük a κ értékét. A 2.8. ábra demonstrálja a pRL algoritmus optimálishoz közeli eredményeit. A korlát létezésében nem kételkedünk A 2.2.1. következmény értelmében biztosan optimum közeli eredményt várhatunk, a kérdés csak az, hogy a korlát ebben a gyakorlati példában túl nagy-e avagy elég kicsi. Ezért a kapott politikák átlagos teljesítményét vizsgáltam különböző κ értékek esetén. Úgy találtam, hogy ebben a konkrét esetben a determinisztikus átmenetekkel történő egyszerűsítés nem befolyásolja lényegesen a teljesítményt, amennyiben κ elég magas. Néhány igen alacsony κ esetén is jó eredményeket kaptam, például κ ≈ 0.5 is elég jól teljesít. Ugyanakkor κ = 0.7 kiugróan rossz teljesítményt ad, ami ezen feladat speciális tulajdonságának köszönhető, nevezetesen, hogy a legtöbb átmenet épp 0.7 valószínűséggel rendelkezik, és így egyes átmenetek tervezhetősége roppant bizonytalan.
2.2.3. „Visszavonuló” tervezés Mint az előző részben láttuk, a κ paraméter lényeges hatással bír mind a tanulás sebességére, mind annak minőségére. Egy lehetséges megoldás a κ paraméter növelése a tanulás előrehaladtával, de ehhez nehéz egy jó ütemezést megadni. Létezik azonban egy olyan átfogalmazása a fenti algoritmusnak, amelynél erre nincs szükség, a tanulás végére mégis automatikusan a κ = 1 esethez fogunk elérkezni, és nem használjuk ki semmilyen szempontból κ nagyságát. Ebben a változatban ugyanúgy leválasztjuk a közelítő értékelő függvényt, amit a pRL-hez hasonlóan a dinamikus programozás egy determinisztikus változatával fogunk kiszámítani, és ezzel fogjuk kezdetben segíteni az alap 49
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
megerősítéses tanulás algoritmust. Azonban ebben a változatban a tervező lépések fokozatosan eltűnnek, ahogy az alap értékelő függvény egyre jobban közelíti az optimális megoldást. Ezt a változatot RL+-nak neveztük el annak kiegészítő jellege miatt. Az RL+ algoritmus Hasonlóképp a pRL algoritmushoz, itt is feltesszük, hogy az alap értékelő függvény nyilvántart valamilyen V értékelőfüggvényt, ami aszimptotikusan optimális. Most feltesszük azt is, hogy értékei nemnegatívak. Ez könnyen teljesíthető korlátos közvetlen jutalmak esetén, mert ilyenkor az értékelőfüggvényekhez a hozzájuk tartozó politika megváltozása nélkül hozzá lehet adni tetszőleges konstanst. Ismét párhuzamosan frissítjük az alap és a tervező értékelő függvényt: hasonlóan az előző változathoz, minden t lépésben, az állapot-akció-állapot hármast arra használjuk fel, hogy ˆ t becsléseken, 1. javítsunk a Pˆt és a R 2. frissítsük az alap megerősítéses tanulás algoritmus Vt állapot és/vagy Qt állapot-akció értékelőfüggvényét, ˆ t és 3. végrehajtsunk M frissítést a Vˆt tervező értékelő függvényen Pˆt , R Vt felhasználásával, végül 4. kiválasszuk a at akciót az értékelőfüggvények alapján. Tehát itt is ki fogjuk használni a Dyna algoritmus eljárását arra, hogy interakciók nélküli frissítéseket végezzünk a tervező értékelő függvényen, amely az egyszerű modell miatt relatíve könnyen és kevés számítással megtehető. A tervező értékelő függvény frissítése Nézzük meg, hogy alakul a Bellman-egyenlet a Vˆ ∗ függvény esetében. A további jelölések áttekinthetősége érdekében jelöljön x és y illetve ezek vesszős változatai is állapotokat. Minden x állapotban azt kell eldöntenünk, hogy (1) hagyjuk a tervezést, és használjuk az eredeti értékelőfüggvényt, vagy (2) válasszunk egy tervezhető átmenetet x-ből kiindulva. Az első választásnak természetesen a következő az értéke: 50
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
ˆ nincs_tervezés) = V (x). Q(x,
(2.2.6)
Vˆ definíciója alapján a (2) lehetőség értéke ˆ ax→y ) = R(x, ax→y ) + γP (x, ax→y , y)Vˆ (y) + Q(x, X + P (x, ax→y , y ′) R(x, ax→y , y ′ ) + γ Vˆ (y ′ ) . (2.2.7) y ′ 6=y
A közelítő determinisztikus modell elhanyagolja a P (x, ax→y , y ′) mennyiségeket y ′ 6= y esetben. Ugyanakkor P (x, ax→y , y ′) értékét sem ismerjük pontosan. Ugyanakkor definíció szerint ez a valószínűség nagyobb mint κ, tehát megpróbálhatjuk ezt a korlátot közelítésnek felhasználni. Ezzel az ax→y választásának értéke a modellben ˆ ax→y ) = R(x, ax→y ) + κγ Vˆ (y). Q(x,
(2.2.8)
A tervező értékelő függvény Bellman-egyenlete ennek és a 2.2.6. egyenletnek megfelelően ˆ a) Vˆ (x) = max Q(x, a ˆ = max max R(x, y) + κγ V (y), V (x) y∈T (x)
(2.2.9) (2.2.10)
minden x állapotra. Ezen egyenlet optimális megoldása definiálja a Vˆ ∗ optimális értékelő függvényt. Ennek megfelelően a Vˆ ∗ approximációjára szolgáló iterációs egyenlet a következő: Vˆt+1 (x) = max
ˆ t (x, y) + κγ Vˆt (y)), Vt+1 (x) . max (R
y∈T (x)
(2.2.11)
Vegyük észre, hogy ez a frissítési szabály megfelel a 2.2.4. egyenletnek, csak γ ′ = κγ választással. Az előző algoritmustól tehát annyival térünk el, hogy a tervező értékelő függvény diszkontálási rátáját κ-val arányosan kisebbre választjuk. Mint látni fogjuk, ennek az lesz a hatása, hogy a tervező értékelő függvény teljesítményét idővel mindenképp felül fogja múlni az alap értékelő függvény. 51
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
Az akció kiválasztása Az akcióválasztás is eltér a pRL algoritmus megoldásától. Ez a megoldás az alap algoritmus akcióválasztását egészíti ki. A legtöbb ilyen akcióválasztási eljárás, mint például az ǫ-mohó politika, világosan megkülönbözteti az exploráció javára tett lépéseket az optimálisnak gondolt akciók kiválasztásától. Engedjük meg, hogy amennyiben az alap algoritmus akcióválasztása explorációs lépést hajtana végre, ezt továbbra is megtehesse. Ezzel az elegendő exploráció feltételét teljesítettük. Ha az alap algoritmus egy nem exploráló lépést választana, akkor választás előtt állunk: használhatjuk az alap értékelő függvényt a mohó lépés megválasztására (a∗ = arg maxa Qt (x, a)), de választhatjuk a tervező értékelő függvény szerintit is (azaz a ax→y∗ akciót, ahol y ∗ = arg maxy∈T (x) R(x, ax→y ) + κγ Vˆt (y)). Az algoritmusban az utóbbit fogjuk választani, ha R(x, ax→y∗ ) + κγ Vˆt (y ∗ ) ≥ Qt (x, a∗ ) + θ
(2.2.12)
teljesül, egyébként a∗ -ot választjuk. θ > 0 egy kis küszöbparaméter, ami azt a célt szolgálja, hogy ha a két érték megegyezik, az alap értékelő függvény hozza a döntést. Ennek megfelelően az alap értékelő függvény becslésének javulásával idővel a tervező értékelő függvény alapján történt döntések el fognak tűnni. A 2.2.12. feltétel egyébként Vˆt (x) ≥ Qt (x, a∗ ) + θ alakra egyszerűsíthető. Aszimptotikus optimalitás Az alábbiakban bemutatom, hogy az RL+ algoritmus megtartja az alap értékelő függvény optimalitását. Az akcióválasztás mechanizmusából következik, hogy a Vt sorozat továbbra is az optimális értékelő függvényhez konvergál. Az is egyértelmű, hogy a Vˆt sorozat a 2.2.10. egyenlet által definiált Vˆ ∗ függvényhez konvergál, mert az ott megadott Bellman-egyenlet kontrakció. 2.2.2. Tétel. Az optimális tervező értékelő függvény megegyezik az optimális alap értékelő függvénnyel, tehát V ∗ ≡ Vˆ ∗ . 52
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
A tétel állítása elegendő az aszimptotikus optimalitáshoz, mert a θ küszöb pozitív, és ennek megfelelően t → ∞ esetén az akcióválasztást kizárólag a Vt ≈ V ∗ függvény fogja irányítani. Bizonyítás. V ∗ (x) ≤ Vˆ ∗ (x) definíció szerint teljesül (lásd a 2.2.10. egyenletet). A másik irány bizonyításához definiáljuk a V¯t sorozatot a szinkron értékiteráció egyenletei alapján: V¯0 ≡ 0, és V¯t+1 (x) = max R(x, a) + γ a
X
!
P (x, a, y ′)V¯t (y ′) .
y′
Nyilvánvaló, hogy a V¯t sorozat V ∗ -hoz konvergál Vt -hez hasonlóan, ezért ha sikerül minden t esetén megmutatni hogy V¯t ≥ Vˆt teljesül, a határátmenetben V ∗ ≥ Vˆ ∗ . Az állítást indukcióval bizonyíthatjuk. Az általánosság korlátozása nélkül feltehetjük, hogy V0 (x) ≥ Vˆ0 (x) teljesül minden x esetén, például legyen V0 ≡ Vˆ0 ≡ 0. Az indukciós feltevés szerint Vt (x) ≥ Vˆt (x) teljesül minden x esetén. Ekkor egy kiválasztott x állapotra,
V¯t+1 (x) = max R(x, a) + γ a
≥ max
y∈T (x)
= max
y∈T (x)
X
P (x, a, y ′)V¯t (y ′)
y′
R(x, ax→y ) + γ
X
!
(2.2.13)
P (x, ax→y , y )V¯t (y ) ′
′
y′
R(x, ax→y ) + γP (x, ax→y , y)V¯t(y) + γ
!
X
(2.2.14) P (x, ax→y , y ′)V¯t (y ′)
y6=y ′
≥ max R(x, ax→y ) + γκV¯t (y) y∈T (x) ≥ max R(x, ax→y ) + γκVˆt (y) .
y∈T (x)
(2.2.15) (2.2.16) (2.2.17)
Itt a 2.2.13. lépés a V¯t érték-iterációs szabályából adódik, a 2.2.14. lépés a max operátor hatáskörét szorítja meg a tervezhető akciókra, a 2.2.15. lépésben az y-nal jelölt tervezhető állapotot elkülönítjük az összeg többi tagjától, a 2.2.16. lépésben felhasználjuk a P (x, ax→y , y) ≥ κ, P (x, ax→y , y ′) ≥ 0 és a V¯t ≥ 0 összefüggéseket és végül a 2.2.17. lépésben kihasználjuk a V¯t (x) ≥ Vˆt (x) indukciós feltevést. Miután V¯t+1 (x) ≥ Vt+1 (x) is teljesül, 53
!
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
V¯t+1 (x) ≥ max
max
y∈T (x)
R(x, ax→y ) + γκVˆt (y) , Vt+1 (x)
= Vˆt+1 (x),
(2.2.18) ami befejezi az indukciót. Az egyenlőtlenség nyilván határátmenetben is teljesül, tehát V ∗ (x) ≥ Vˆ ∗ (x). Ennek megfelelően Vˆ ∗ ≡ V ∗ is teljesül, és ezt szerettük volna bizonyítani. Bár a tételben feltettük, hogy ismerjük az ax→y akciót tervezhető átmenetek esetén, a bizonyítás akkor is működik, ha csak egy közelítő (esetleg épp hibás) akcióval rendelkezünk. Ennek az az oka, hogy ha a modell rossz akciót javasol, akkor az alap megerősítéses tanulás fog akciót választani, tehát a tanulás lelassul, de továbbra is optimális marad.
2.2.4. Szimulációk 2.2.2. Szimuláció. Ismét a 2.2.1. szimulációban leírt tesztkörnyezetet használtam. Láttuk, hogy az eljárás optimális eredményt ad, a kérdés tehát az, hogy alakul a konvergencia sebessége más eljárásokkal összehasonlítva. Ehhez a már említett Dyna algoritmust használtam (lásd 1.1.3. rész és pl. Sutton (1991b)). A Dyna nem különíti el a valódi tapasztalatokat a szimuláltaktól, ugyanakkor alapötlete meglehetősen általános, és többfajta modellre is alkalmazható. A szimulációban kétféle modellt próbáltam ki: az egyik a Dyna-Q eljárás (Sutton és Barto, 1998), ami minden állapot-akció-állapot átmenethez az utoljára megfigyelt rákövetkező állapotot és a hozzá tartozó jutalmat tárolja, ami egy egyszerű determinisztikus modell. A másik kipróbált modell a teljes, sztochasztikus modell volt, tehát ami minden állapot-akció-állapot átmenet valószínűségét és közvetlen jutalmát becsli. Az algoritmus új θ paraméterét 0.1-re állítottam. Eredmények A SARSA RL+-szal kiegészített változatát több κ paraméter mellett kipróbáltam. Az algoritmust az egyszerű SARSA-val és a két Dyna algoritmussal hasonlítottam össze. A 2.9. ábra mutatja a feladat teljesítéséhez szükséges időlépések számát az epizód sorszámának függvényében. Mint az látható, az 54
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
RL+ képes drasztikusan megnöveli a SARSA tanulási sebességét a κ megválasztásától függetlenül. Megfelelő κ választásával az optimálishoz közeli megoldást kaphatunk alig 100 próbálkozás után. Egy másik kísérletsorozatban az RL+ végső teljesítményét vizsgáltam κ függvényében. Ehhez a teljes tanuláshoz igénybe vett időt mértem különböző κ értékek esetén. A 2.10. ábra mutatja a szükséges lépések számát a 6000. epizód végéig κ függvényében. A paraméter tetszőleges megválasztása esetén jelentős javulást észleltem az RL+-szal kiegészített algoritmus javára.
2.2.5. Összehasonlítás más módszerekkel A megerősítéses tanulásban előforduló problémákat sokféleképp lehet kategorizálni. Egy lehetséges szempont a probléma valószínűségi jellege. Ezen skála egyik oldalán a teljesen determinisztikus problémák állnak. Ezeket többé-kevésbé hatékony módon képesek megoldani a klasszikus tervezési eljárások is. A teljesen sztochasztikus problémák esetében, mint például a backgammon2 (Tesauro, 1994), a megerősítéses tanulás a jelenleg ismert legígéretesebb eljárás (feltéve, hogy a Markov feltétel teljesül). A valóságban igen ritka mindkét szélsőség, és a problémák egy igen nagy része a két véglet közé esik. Mint azt a 2.2.1. rész elején kifejtettem, egy valójában determinisztikus világban mozgó ágens, amelynek szenzorait zaj terheli illetve erőforrások hiányában nem képes a külvilágot teljes egészében megfigyelni, szükségképpen bizonyos fokig mindig sztochasztikus környezetben kényszerül döntéseket hozni. Egy további problémát jelent, ha az ágens modellezni kezdi a külvilágot, mert modellje szinte egészen biztosan képtelen lefedni a környezet összes paraméterét, ami további bizonytalanságot jelent. Ugyanakkor maradhatnak olyan komponensei is a modellnek és a külvilágnak, ahol az információ teljes, és a probléma determinisztikus. Így ha leválasztjuk a determinisztikus komponenseket, első közelítésben feltehetjük, hogy ott nincs szükség a reprezentáció finomítására. Ezen komponensek felismerésében és az értékelőfüggvény itt végezhető speciális optimalizálásában tudnak segíteni az ismertetett algoritmusok a 2.11. ábrában is összefoglalt módon. 2
A játék neve kevésbé közismert régi magyar nevén ostábla.
55
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
8000
κ=0.3 κ=0.6 κ=0.9 SARSA
7000
Lépések száma
6000 5000 4000 3000 2000 1000 0 0
1000
2000
3000
4000
Epizód sorszáma
5000
6000
(a) A SARSA és SARSA/RL+ algoritmusok összehasonlítása 8000
κ = 0.3 κ = 0.6 Dyna-Q Dyna teljes MDF modellel
7000
Lépések száma
6000 5000 4000 3000 2000 1000 0 0
1000
2000
3000
4000
Epizód sorszáma
5000
6000
(b) A Dyna és a SARSA/RL+ algoritmusok összehasonlítása
2.9. ábra. Tanulási görbék a SARSA, a SARSA RL+-szal kiegészített változata és a kétféle Dyna algoritmus esetében
56
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
6
A lépések összes száma
11
x 10
10
SARSA
9 8 7 6 5 4 3 2 1 0.1
0.2
0.3
0.4
0.5
κ
0.6
0.7
0.8
0.9
1
2.10. ábra. A tanulás teljes ideje 6000 epizód alatt különböző κ értékek esetén. Az egyszerű SARSA által igényelt időt vízszintes vonal jelzi.
determinisztikus
közel determinisztikus
redukálható valószínűségi jelleg
pl. zajmentes fizikai problémák
pl. fizikai problémák kis mértékű zajjal
problémák rejtett változókkal
alapvetően valószínűségi problémák pl. ostábla, póker
a probléma valószínűségi jellege gyenge
erős
2.11. ábra. A problémák egy lehetséges felosztása a valószínűségi jelleg alapján. A pRL/RL+ algoritmusok várhatóan a középső két – szürkével jelölt – kategóriában tudnak jól teljesíteni.
57
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
A pRL és az RL+ algoritmusok a determinisztikus tervezést újszerű módon integrálják a megerősítéses tanulással. Az alkalmazott megoldás érdekes lehetőséget jelenthet a klasszikus mesterséges intelligenciában használt tervgenerálás megerősítéses tanulással történő ötvözésére is. Az algoritmusok vonzó tulajdonsága, hogy megfelelő feltételek esetén bizonyítottan optimálishoz közeli vagy optimális értékelőfüggvényeket találnak. A szimulációs feladatban például a SARSA algoritmus lassúnak bizonyult, de optimális eredményt adott, míg a Dyna-Q gyorsan konvergált, de közel sem optimális eredményeket szolgáltatott. A pRL esetében az előbbi esetnek a κ = 1 választás felel meg, míg az utóbbi a κ = 0 eset, a kielégítőnek nevezhető kompromisszum pedig a kettő között található. A pRL algoritmushoz bemutatott szimulációban a tervezéshez használt γ diszkontálási ráta azonos volt a SARSA által használt γ diszkontálási rátával. Ennek variálása a pRL számára is nagy szabadságot biztosít: ha például γ ′ ≥ γ, a tervezés nagyobb tartományokra hat. γ ′ ≤ γ választással a tervezés rövidtávú célokat próbál teljesíteni. γ ′ megválasztásával tehát beállíthatjuk, hogy tervezéssel vagy az alap értékelőfüggvénnyel szeretnénk a rövidtávú és/vagy a hosszútávú céljainkat elérni egy adott környezetben. Az RL+ algoritmus ezt a szabadsági fokot használja ki γ ′ = κγ választással, és ekkor - mint azt a 2.2.3. részben láttuk - a tervezésről belátható, hogy a tanulás során idővel átadja az akcióválasztást a lassabban tanuló, de biztosan optimális alap értékelő függvénynek. ′
A 2.1.6. részben ismertetett eseménytanulás „természetes partnere” az itt bemutatott determinisztikus tervező algoritmusoknak, hiszen az állapotállapot átmenetek valószínűségének becslését ekkor mind a tervező, mind az alap eseménytanulás értékelőfüggvényénél felhasználhatjuk. A pRL/RL+ algoritmusok sok más, régebb óta ismert eljárással párhuzamba állíthatók. Például úgy is tekinthetjük őket, mint speciális prioritizált frissítési eljárásokat (lásd 1.2.1. alfejezet), ahol a tervezés során csak a tervezhető állapot-átmenetek mentén frissítünk. Láttuk, hogy a Dyna algoritmus (Sutton, 1990, 1991b) igen közel áll az itt ismertetett tervező eljárásokhoz. A fő különbség az, hogy a pRL és az RL+ két értékelőfüggvényt tart fenn, ami biztosítja, hogy a pontatlan modellben generált virtuális tapasztalatok nem „írják felül” a valódi, pontos tapasztalatokat. Tulajdonképpen ez teszi lehe58
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
tővé, hogy a modellt roppant egyszerűre – és így könnyen megtanulhatóra – válasszuk. Az itt ismertetett algoritmusok kizárólag azzal foglalkoznak, hogy egy átmenet valószínűsége nagyobb-e κ-nál avagy sem. Ugyanakkor ezeket a valószínűségeket a becslés bizonytalanságát figyelembe véve jóval pontosabban is lehet modellezni. Az ún. Bayes megerősítéses tanulás elméleti szempontból optimális megoldást ad erre a problémára azzal, hogy a bizonytalanságot minimalizálja. Ugyanakkor alkalmazása gyakorlati szempontból a legtöbb esetben kivitelezhetetlen, mert egy folytonos és részlegesen megfigyelt MDF megoldását kívánja. A sikeres approximáció érdekében több módszert javasoltak, amelyek közül az intervallum-alapú módszerek állnak a legközelebb az itt tárgyalt modellekhez (Duff, 2002; Wiering és Schmidhuber, 1998; Dearden és mtsai, 1999). Ezek a módszerek a 2.1.5. részben említett BMDP modellekhez hasonlóan egy konfidencia-intervallumot tartanak fenn minden átmeneti valószínűség becsléséhez. Ez általánosabb, mint a pRL és az RL+ algoritmusok megoldása, amelyek csak a [κ, 1] intervallummal foglalkoznak, ugyanakkor ezzel az egyszerűsítéssel a modell is jóval egyszerűbbé vált a politika optimalitásának illetve optimalitás közeli eredményének fenntartása mellett. Az RL+ esetében az optimalitáshoz szükség is van erre az egyszerűbb modellre. Az RL+ algoritmus kitüntetett előnye, hogy nem befolyásolja az alap értékelőfüggvény konvergenciáját. Valójában az RL+ algoritmus nem csak a problémák egy osztályában, hanem minden esetben alkalmazható fejfájás nélkül, hiszen az eredeti algoritmus teljesítményét biztosan nem fogja rontani, legfeljebb némi extra számítási igénnyel lép fel, ami nem növeli a környezeti interakciók számát. Ez különösen hasznossá teszi az algoritmust abban az esetben, ha a környezettel folytatott interakció költséges vagy épp veszélyes, de a számításokhoz felhasználható kapacitásunk kevésbé korlátozott. Végül azzal a megjegyzéssel zárnám ezt a fejezetet, hogy a determinisztikus tartományok felismerése az intelligens viselkedés egyik alapfeltétele. A determinisztikus „szabályok” gyors felismerése lehetővé teszi azok prediktív alkalmazását, megváltozásuk gyors felismerését és a szükséges alkalmazkodást. Ez a fajta intelligencia már a hét hónapos gyermekekben megjelenik (Thelen, 2000). A hagyományos megerősítéses tanulás algoritmusai nem ren59
2. FEJEZET. DETERMINISZTIKUS KOMPONENSEK
delkeznek ezzel a képességgel.
60
3. fejezet Megbízható komponensek A „tervezés” fogalmát a megerősítéses tanulásban legtöbbször a döntéshozatal off-line optimalizációjára használják, mint például a Dyna esetében (Sutton, 1991a). A klasszikus mesterséges intelligenciában használt tervezés általában egy kicsit mást jelent: ott a feladat az, hogy kitaláljuk, milyen úton érhetünk el egy kitűzött célt. A klasszikus MI tervezés sztochasztikus környezetekre történő kiterjesztésével már igen régóta próbálkoznak a kutatók (lásd például Feldman és Sproull (1977)). A Markov döntési folyamatok és a hozzájuk kapcsolódó megerősítéses tanulás elmélete egy új lehetőséget jelent ennek az egyesítésnek a megteremtésére, Sikerei arra bátorították a kutatókat, hogy a tervezés kérdéseire ezen a kereten belül keressenek megoldást (Boutilier és mtsai, 1999; Dean és mtsai, 1995). A tervezéshez célokra van szükség. A klasszikus tervező algoritmusok a célokat általában az állapottér részhalmazaiként fogalmazzák meg. Ezt bővíti ki a Markov döntési folyamat fogalma a közvetlen jutalom bevezetésével, és így nem egy konkrét állapothalmaz elérése lesz a cél, hanem a diszkontált kumulált jutalom maximalizálása. A Markov döntési folyamatok keretében egy jó terv ekvivalens egy jó politika megtalálásával (Littman és mtsai, 1998). Tehát a klasszikus tervezés és a megerősítéses tanulásban értelmezhető tervezés között a különbség az, hogy a megerősítéses tanulásban a tervezés egyúttal a célt is kijelöli. Az előző fejezetben erre példákat is láttunk. A feladatok nagy része epizodikus jellegű. Ez azt jelenti, hogy a jutalmak (vagy költségek) begyűjtése egy célállapot véges lépésben történő elérése után 61
3. FEJEZET. MEGBÍZHATÓ KOMPONENSEK
befejeződik. Az ilyen feladatokban a jutalmazási rendszer általában olyan, hogy a célállapotért jár csak jutalom, a többi lépés valamilyen költségbe kerül. Ilyenkor a cél az, hogy a célállapotba jutás valószínűségét maximalizáljuk és az ehhez szükséges várható lépésszámot a minimumra csökkentsük. A javasolt tervek értékelése sokféle alapon történhet. Általában a terv várható költségét szokás mérni. Ez nem az egyetlen lehetőség, például értékelhetnénk a sikeres végrehajtás valószínűsége alapján is. Ebben a fejezetben egy olyan tulajdonságot fogok vizsgálni, amellyel ritkán foglalkoznak, nevezetesen a terv végrehajtási idejének megbízhatóságát. Ennek mérése lényeges kérdés olyan rendszerekben, amelyeket érzékenyek az időzítésekre. Például képzeljünk el egy kooperáló multi-ágens rendszert, ahol az ágensek kizárólag akkor képesek interakcióba lépni, ha közel vannak egymáshoz, mint például egy szállítmányozási társaság kamionjai. Egy ilyen rendszerben képtelenség lenne hosszú távú terveket készíteni, ha az egyes kamionok úton töltött ideje túl nagy változékonyságot mutatna. Az érkezés pontossága ilyenkor lényegesebb lehet, mint hogy minden kamion átlagosan valamivel gyorsabban teljesítsen egy-egy utat. Egy másik példa lehet a postás esete, akiről tudjuk, hogy 8 körül szokott érkezni, és talán levelet hoz. Bár tudjuk, hogy levél érkezésének valószínűsége alacsony, mégis érdemes lehet megnézni a ládát. Ha a postás megbízhatatlan, esetleg sokkal több időt töltünk azzal, hogy ellenőrizzük a ládát, mint kellene. Ráadásul az időre érzékeny nemlineáris rendszerekben egyetlen találkozó elmulasztása lavinaszerű hibákat okozhat a később végrehajtandó tervekben is. Hogyan lehetne mérni ezt a fajta megbízhatóságot? A legegyszerűbb feltevés az, hogy minél nagyobb az alfeladat végrehajtási idejének varianciája, annál kevésbé lehet számítani arra a komponensre egy tervben. Azonban ezt le kellene tudni mérni. A következő részben javaslok egy algoritmust ezen variancia kiszámítására.
3.1. Az epizódok hossza és a hossz szórása Használjuk az 1.1. rész jelöléseit: legyen egy epizodikus MDF S véges állapottere és A annak véges akciótere. Az ágens valamilyen x0 állapotból indul, és a π : S × A → [0, 1] politikának megfelelően lép, amíg eléri a 62
3. FEJEZET. MEGBÍZHATÓ KOMPONENSEK
Z ⊂ S terminális állapothalmazt. Legyen Z0 ⊂ Z a célállapotok halmaza. Feltehetjük, hogy tetszőleges z ∈ Z termináló állapotból az ágens egy ω hiperterminális állapotba kerül, azaz P (z, a, ω) = 1 minden z ∈ Z, a ∈ A esetén. Ez a feltételezés nem módosítja a Z első eléréséhez szükséges időt, de segít egyszerűsíteni a formalizmust, mert minden Z-beli állapotot legfeljebb egyszer látogatunk meg. Jelöljük pπ (x, y)-szel annak valószínűségét, hogy az ágens x állapotból kiindulva y állapotba érkezik π politika követése esetén, azaz
pπ (x, y) =
X
π(x, a)P (x, a, y).
(3.1.1)
a∈A
Az egy epizód során felkeresett állapotokat {b0 , . . . , bK } fogja jelölni, feltéve, hogy az epizód K lépést vesz igénybe (K szintén véletlen változó). Ha az x → y átmenet τxy ∈ N0 időt vesz igénybe,1 akkor az epizód befejezéséP hez szükséges idő meghatározható T = K−1 i=0 τbi bi+1 szerint, ahol T ∈ N0 . Természetesen ha minden átmenethez szükséges idő egységnyi, akkor K ≡ T . A következő három kérdésre keressük a választ: 1. Mi a valószínűsége, hogy az ágen célállapotban (Z0 -beli állapotban) fejezi be az epizódot? 2. Mi egy célállapot eléréséhez szükséges átlagos idő? 3. Mekkora ennek a szórása?
3.1.1. A célállapot elérésének valószínűsége Egy epizód lehet sikeres (az ágens Z0 -beli állapotba jut) illetve sikertelen (a végén Z\Z0 -beli állapotba kerül). Jelölje s(x) annak valószínűségét, hogy x állapotból kiindulva az ágens sikeres lesz, azaz s(x) = Pr(bK ∈ Z0 |b0 = x). Ekkor 1
Az egy átmenettel eltöltött idő függhet az alkalmazott akciótól is, ami τ (x, a, y) függvényekkel történő munkát tesz szükségessé τxy helyett. Az így kapott egyenletek roppant hasonlóak az itt bemutatottakhoz, így az egyszerűség kedvéért nem foglalkozom az akciótól való függéssel. Az egyetlen különbség, hogy a 3.1.1. egyenlet nem ezt a formát ölti.
63
3. FEJEZET. MEGBÍZHATÓ KOMPONENSEK
1 s(x) = 0 P
ha x ∈ Z0 , ha x ∈ Z\Z0 , π y∈S p (x, y)s(y) ha x ∈ S\Z.
(3.1.2)
3.1.2. A pontosan T lépés alatt bekövetkező siker esélye Jelölje q(T |x) Z0 elérésének valószínűségét pontosan T idő alatt, feltéve, hogy az ágens a 0 időpillanatban az x állapotban tartózkodott. Ekkor q(T |x) = Pr(T, bK ∈ Z0 |b0 = x) minden T ≥ 0. Így ( 1 ha x ∈ Z0 , q(0|x) = 0 ha x ∈ S\Z0 , és a következő egyszerű rekurzió érvényes: q(T |x) =
(P 0
y∈S
pπ (x, y)q(T − τxy |y) ha x ∈ S\Z, ha x ∈ Z
T ≥ 1 esetén. Ha T < 0, akkor természetesen q(T |x) = 0. Az egyszerűség kedvéért tegyük fel, hogy egy nem-terminális állapotból az ágens 1 valószínűséggel véges időn belül terminális állapotba kerül, azaz {Pr(bK ∈ / Z0 |b0 = x), q(0|x), q(1|x), q(2|x), . . .} P egy valószínűségi eloszlás. Könnyen látható, hogy ∞ T =0 q(T |x) = s(x).
3.1.3. Az epizód átlagos hossza
A fenti rekurzió felhasználásával hasonló rekurziókat lehet levezetni a célállapot eléréséhez szükséges lépések várható számára nézve valamely x állapotból kiindulva. Ezt A(x)-szel fogom jelölni. Az egyenletek a következők:
A(x) = E{T |bK ∈ Z0 , b0 = x} =
∞ X
T · Pr(T |bK ∈ Z0 , b0 = x) =
T =0
∞ X
∞
Pr(T, bK ∈ Z0 |b0 = x) 1 X = T· = T · q(T |x). Pr(bK ∈ Z0 |b0 = x) s(x) T =0 T =0 64
3. FEJEZET. MEGBÍZHATÓ KOMPONENSEK
Ha x ∈ Z, akkor A(x) = 0. Amennyiben x ∈ S\Z, A(x) a következőképp írható fel:
∞
1 X A(x) = T · q(T |x) = s(x) T =0 ∞
1 X X π = T p (x, y)q(T − τxy |y) = s(x) T =0 y∈S
∞ X 1 X π = p (x, y) (T − τxy ) · q(T − τxy |y) + τxy q(T − τxy |y) = s(x) y∈S T =0 ! ∞ ∞ X X 1 X π = p (x, y) T · q(T |y) + τxy q(T |y) = s(x) y∈S T =0 T =0 1 X π = p (x, y)s(y) [A(y) + τxy ] . (3.1.3) s(x) y∈S
3.1.4. Az epizód hosszának varianciája Az epizódhosszra vonatkozó B(x) második momentumot valamely x ∈ S állapot esetén hasonló módon határozhatjuk meg:
∞
1 X 2 T · q(T |x). B(x) = E{T |bK ∈ Z0 , b0 = x} = s(x) T =0 2
Ha x terminális állapot, B(x) = 0. Egyébként 65
3. FEJEZET. MEGBÍZHATÓ KOMPONENSEK
∞ ∞ 1 X 2X π 1 X 2 B(x) = T · q(T |x) = T p (x, y)q(T − τxy |y) = s(x) T =0 s(x) T =0 y∈S ∞ X 1 X π = p (x, y) · (T − τxy )2 · q(T − τxy |y) + s(x) y∈S T =0 2 + 2 · τxy · T · q(T − τxy |y) − τxy q(T − τxy |y) = ∞ X 1 X π = p (x, y) · (T − τxy )2 · q(T − τxy |y) + s(x) y∈S T =0
+ 2 · τxy [(T − τxy ) · q(T − τxy |y) + τxy · q(T − τxy |y)] − 1 X π 2 − τxy q(T − τxy |y) = p (x, y) · s(x) y∈S ·
∞ X
T 2 · q(T |y) + 2 · τxy
T =0
∞ X
2 T · q(T |y) + τxy
T =0
∞ X
q(T |y)
T =0
1 X π 2 = p (x, y)s(y) B(y) + 2 · τxy · A(y) + τxy . s(x) y∈S
!
=
(3.1.4)
A jól ismert formulával a variancia a következő:
D(x) =
p
B(x) − A(x)2 .
(3.1.5)
A fejezet rekurzív egyenletei egy algoritmust definiálnak: először számoljuk ki az s(x) mennyiséget a 3.1.2. egyenlet alapján, amíg a számítás nem konvergál. Ezután iteráljuk A(x)-et 3.1.3 alapján az előzőleg kiszámolt s(x) felhasználásával, végül számítsuk ki hasonló módon B(x)-et a 3.1.4. egyenlet alapján a korábbiakban meghatározott s(x) és A(x) segítségével. Az algoritmus megadja (1) a sikeres befejezés valószínűségét, (2) egy epizód átlagos idejét, és (3) az epizód hosszának varianciáját minden lehetséges kezdőállapot és rögzített végállapothalmaz esetén.
3.2. Szimulációk 3.2.1. Szimuláció. Az algoritmust egy egyszerű problémán keresztül szemléltetem. Képzeljünk el egy folyószakaszt, amin belül a víz igen gyorsan folyik 66
3. FEJEZET. MEGBÍZHATÓ KOMPONENSEK
nyugatról kelet felé. A folyó bal partján egy kikötő helyezkedik el. A folyón egy hajó halad, kezdőpozíciója tetszőleges lehet. A hajónak el kell érnie a kikötőt, különben a folyó végén egy óriási vízesésbe kerül (ha ijesztőnek tűnik a sorsa, gondolhatunk palackpostára vagy a folyón úszó fatörzsre is). A vízáramlás olyan erős, hogy a hajó mozgását nagyon nehéz befolyásolni – a modell szerint a hajó minden lépésben majdnem biztosan a vízesés irányába halad tovább, de nem lehet kiszámítani, hogy milyen irányba. Egy kis eséllyel a hajó akár visszafelé is mozoghat. Természetesen a hajó nem kerülhet túlságosan messze sem előző pozíciójától. A problémát a 3.1. ábra mutatja. Ebben a példában igen kevés olyan szituáció létezik, amelyről nagy valószínűséggel azt mondhatjuk, hogy biztosan bekövetkezik, hiszen minden állapot-állapot átmenet (a part mentiek kivételével) igen kis valószínűséggel történik meg. A trajektóriák közvetlen tervezése ezért szinte értelmetlen. Viszont az időbeli tervezés a 3.1. részben vett értelemben továbbra is értelmes. A 3.2, a 3.3 és a 3.4. ábrák mutatják az az egyenletek s(x), A(x) és C(x) mennyiségeit a konvergencia után (100 iterációt hajtottam végre). Az ábrákról leolvasható, hogy nagyon kicsi annak az esélye, hogy a hajó eljut a kikötőig, ha a kikötőtől feljebb kezdett a folyón, ahogy ezt várjuk is. Ugyanakkor miután csak a sikeres befejezésekhez szükséges idővel foglalkozunk, az átlagos lépéshosszak majdnem ugyanakkorák, mint akkor, amikor a hajó egy lényegesen kedvezőbb baloldali pozícióból kezd. Ugyanakkor a végrehajtási idők megbízhatósága, amit a varianciával mérhetünk, jóval magasabb az első esetben (3.4. ábra). Ha a kikötőben váró személy ismeri a hajó kiindulási pozícióját, tudja, mikor kell kimennie a kikötőbe a 3.3. ábra alapján, és a 3.4. ábra alapján arról is van elképzelése, mennyit kell várnia, amíg közel biztosra veheti, hogy a hajó már nem érkezik meg.
3.3. Összehasonlítás más módszerekkel A kumulált költség valószínűségi tulajdonságainak vizsgálata (az átlagos értéken túlmenően) nem új az irodalomban. A legtöbb kísérlet a begyűjtött költség varianciájának büntetésére koncentrál (Filar és mtsai, 1989; Greffenstette és mtsai, 1990; Huang és Kallenberg, 1994; White, 1992, 1994; Collins, 1997). A variancia direkt kiszámítására szolgáló formulákat is publikáltak 67
3. FEJEZET. MEGBÍZHATÓ KOMPONENSEK
(b) KIKÖTŐ
0.3
VÍZESÉS
(a)
0.1 J.Á.
0.3 0.3
folyó iránya
3.1. ábra. A játékprobléma leírása. Az (a) ábra mutatja a folyót, ami balról jobbra folyik. A folyót egy 50 × 10 rácson modelleztem. A kikötőt az ábrán jelöltem. A folyó egy vízesésbe torkollik a jobb oldalon. Ha a hajó az utolsó pozíció valamelyikébe jut, az epizód sikertelen véget ér. A (b) ábra mutatja az állapot-állapot átmeneti valószínűségeket. Ha a folyó partja nem akadályozza, mindhárom jobb oldali szomszédba 0.3 valószínűséggel kerül a jelenlegi állapotból (ezt J.Á. jelöli). Az átlós lépések 2 egységnyi időt vesznek igénybe, míg a közvetlenül előre lépő 1 egységnyit. Ugyanakkor a hajó kis valószínűséggel a bal oldali állapotba is kerülhet, és ez a lépés 5 egységnyi időt vesz igénybe. A folyó partja és a szigetek befolyásolhatják a végrehajtható átmenetek számát. Ilyen esetekben a nem végrehajtható átmenetekhez rendelt valószínűség egyenletesen van szétosztva a lehetségesek között.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
3.2. ábra. Egy sikeres epizód valószínűsége. Az ábra a sikeres érkezés valószínűségét mutatja tetszőleges s(x) állapotból indulva. Az ábrát a 3.1.2. egyenlet rekurzív formulája alapján számoltam ki). Az árnyékolás skálája mutatja a kikötőbe érkezés valószínűségét. A jobb oldalon látható, hogy a sikeres teljesítés esélye onnan indulva igen kicsi.
68
3. FEJEZET. MEGBÍZHATÓ KOMPONENSEK
0
10
20
30
40
50
60
70
80
90
100
3.3. ábra. Egy sikeres epizód átlagos hossza. A színskála az A(x) mennyiséget mutatja a sikeres epizódokra nézve.
0
2
4
6
8
10
12
14
16
18
20
3.4. ábra. A sikeres epizódok hosszának varianciája. A színskála a C(x) mennyiséget mutatja a sikeres epizódokra nézve.
69
3. FEJEZET. MEGBÍZHATÓ KOMPONENSEK
már. Kemeny és Snell (1960) meghatározta Markov láncokban az állapotok első felkeresésének várható idejét. A jutalomrendszerrel kiegészített Markov láncok kumulált jutalmának második momentumára ad képletet Platzman (1978). Sobel (1982) egy általános módszert ad a kumulált diszkontált jutalom tetszőleges momentumának meghatározására. Munkája hasonló az itt bemutatotthoz, azzal a különbséggel, hogy ez a változat megkülönbözteti a sikeres és a sikertelen epizódokat is. Az ismertetett algoritmus nem használja fel az MDF által definiált jutalmakat (költségeket), tehát szigorúan véve nem tartozik a megerősítéses tanuláshoz. Ugyanakkor az átmenetek végrehajtásához szükséges időt költségnek tekintve, az átlagos végrehajtási idő kiszámítása ugyanaz a probléma, mint a költségek átlagos összegének kiszámítása a nem diszkontált esetben. Ebben az értelemben a τxy mennyiségek definiálják a megfelelő költségfüggvényt, és a 3.1.4. egyenletben valóban ráismerhetünk az 1.1.2. Bellman-egyenletre a nem diszkontált esetben. Ezt párhuzamot könnyen az előnyünkre fordíthatjuk: a megerősítéses tanuláshoz hasonlóan valójában nincs szükség a dinamikus programozási feladat közvetlen megoldására, hanem a s, A és B mennyiségeket a megerősítéses tanulásból kölcsönzött algoritmusokkal is kiszámíthatjuk. Aszinkron frissítésű eljárások, Monte-Carlo módszerek, vagy akár a Q-learning algoritmushoz vagy a SARSA algoritmushoz hasonló módszerek egyaránt szóba jöhetnek, és ezeknek – hasonlóan a megerősítéses tanulásban történő felhasználásukhoz – nincs szükségük a modell ismeretére. Az integráció egy másik előnye, hogy az időbeli megszorítások költségalapú megfogalmazásával a kétféle kényszert egy közös költségfüggvényben egyesíthetjük. A „multi-criteria” megközelítésekkel pedig akár egyszerre több értékelőfüggvényre is optimalizálhatunk, illetve a különböző költségek alapján kapott megoldásokat kombinálhatjuk (Mitten, 1964; Gábor és mtsai, 1998). Mint azt korábban említettem, a komponensek megtalálásától a komplexitás csökkentését várjuk. A tervezés bármilyen formája, illetve a tervezhetőségre szolgáló bármilyen mérőszám segíthet a problémát széttörni tervezhetőés nem tervezhető részekbe, amely egyúttal részcélokat jelöl ki. Egy lehetséges mérőszám a 3.1.5. egyenlet alapján kiszámolt variancia, amely alapján ki tudjuk válogatni a megbízható részcélokat. Ez számos olyan területen fontos 70
3. FEJEZET. MEGBÍZHATÓ KOMPONENSEK
lehet, amely ütemezési problémákat próbál megoldani, például az ún. „ jobshop” ütemezés (Zhang és Dietterich, 1995), felvonók optimlaizációja (Crites és Barto, 1996), robotfoci (Kitano és mtsai, 1997) vagy kontextus-fókuszált internetes keresőrobotok (Kókai és Lőrincz, 2002). Láthatjuk, hogy míg az előző fejezetben bemutatott módszerek várhatóan a közel determinisztikus problémák esetében működnek hatékonyan, az ebben a fejezetben bemutatott módszer értékes komponenseket tud szolgáltatni erősen sztochasztikus problémák esetében is.
71
4. fejezet Független komponensek A 2. és a 3. fejezetekben bemutattam két algoritmust, amelyekkel a megerősítéses tanulás komplexitását a valószínűségi struktúra egyszerűsítésével, illetve az időbeli megbízhatóság vizsgálatával csökkenthetjük. Ezek az eljárások a megerősítéses tanulás algoritmikus oldalát módosítják. Mint azt az 1.2.1. részben már előre vetítettem, a reprezentáció ügyes megválasztásával is sokat tehetünk a probléma komplexitásának csökkentéséért. Egy jó reprezentáció nem csak a felesleges információk kizárásával tudja csökkenteni a probléma bonyolultságát. További nyereséget jelent, ha sikerült megtalálnunk azt a reprezentációt, amellyel a feladat szétesik párhuzamosan optimalizálható részfeladatokra. Például a számítógép billentyűzetén dolgozó felhasználónak nem mindegy, hogy a kéz mozgatását milyen elemi akciókkal oldja meg. Ha ahelyett, hogy a különálló billentyűkkel foglalkozna, jóval nehezebb probléma elé néz, ha például azt figyeli, le vannak-e nyomva a Q, D és H billentyűk egyszerre avagy sem. Hasonlóképp, a kezek mozgását nem a kezeket együttesen tárgyaló akciókkal (pl. bal fent, jobb lent), hanem a két kezet függetlenül irányító akciókkal érdemes megoldani, különben az egyébként szétválasztható probléma (azaz hogy mit nyomok le a bal és mit a jobb kézzel) összekapcsolódik, és a két problémát már csak együtt tudjuk optimalizálni. Ebben a problémában könnyű kitalálni a helyes megoldást, de egy absztraktabb esetben egyáltalán nem nyilvánvaló a megfelelő reprezentáció megtalálása. Ezekben az esetekben hasznos lehet, ha a beérkező információk statisztikai tulajdonságaiból indulunk ki, azokat egy többdimenziós (vektorértékű) valószínűségi változó mintavételezéseinek tekintve. 72
4. FEJEZET. FÜGGETLEN KOMPONENSEK
A reprezentáció valószínűségi struktúráján sok minden múlhat a megerősítéses tanulásban is. Például a külvilágról alkotott modellek – hasonlóan a sokdimenziós eloszlásokhoz – egyszerűsíthetők bizonyos változók függetlenségének feltételezése mellett, gyorsabb tervezést és hatékonyabb tárolást téve lehetővé. Érdekes kérdés, hogy miként lehet olyan reprezentációkat megalkotni, amelyek már önmagukban rendelkeznek ezekkel a statisztikus függetlenségi tulajdonságokkal.
4.1. Független komponens analízis Az alkalmas reprezentáció megtalálása természetesen nem kizárólag a megerősítéses tanulás problémája. Gyakran előjön például a statisztikában, adat- és jelfeldolgozásban és a neuronhálózatok kutatásánál is. Egyszerűségi okból ezt a reprezentációt gyakran érdemes az eredeti adatok egy lineáris transzformációja alakjában keresni. Egy nemrégen kifejlesztett ilyen transzformációs módszer az úgynevezett független komponens analízis (FKA) vagy angolul independent component analysis (ICA). Jelölje x egy m dimenziós X valószínűségi változó megvalósulásait. A cél az, hogy keressük meg ennek egy olyan
s = Wx
(4.1.1)
lineáris transzformáltját, ami minimalizálja az s output réteg elemei között fennálló kölcsönös függőséget. A teljes függetlenségre a jól ismert definíció adható: az s1 , . . . , sn változók függetlenek, ha a közös sűrűségfüggvényük felirható a következő szorzat alakjában:
p(s) =
m Y
p(si ).
(4.1.2)
i=1
Egy gyakorlati példa egy ilyen transzformáció hasznára a vak forrásszétválasztás problémája. Ez röviden a következő: adott néhány hangforrás (például beszélgető emberek) és hozzá mikrofonok egy szobában. Minden egyes mikrofon a hangforrások egy lineáris keverékét érzékeli. Ha a források egymástól 73
4. FEJEZET. FÜGGETLEN KOMPONENSEK
függetlenek, akkor az FKA problémájának megoldása pontosan az eredeti beszélők szétválasztott hangját adja vissza. A probléma azért „vak”, mert a keverés mikéntjéről semmit sem tudunk, kizárólag a mikrofonokon rögzített jelek statisztikai tulajdonságaira támaszkodhatunk. A probléma megoldása után teljes függetlenség csak valóban független források keverékénél érhető el, azaz ha független komponens analízis zajmentes modellje helyes:
x = As,
(4.1.3)
ahol A valamilyen keverőmátrix. Ilyenkor W = A−1 neve szeparáló mátrix. A feladat általánosabban is megfogalmazható úgy, hogy valamilyen függőséget mérő F (s1 , . . . , sn ) függvényt kell maximalizálnunk. Ez történhet a modell paramétereinek együttes becslésével, de úgy is, hogy külön-külön próbáljuk meghatározni a független komponenseket. Egy lehetőség együttes paraméterbecslésre a maximum likelihood megoldás keresése (Pham és mtsai, 1992). Ha W = (w1 , . . . , wm )T , akkor ez a következő célfüggvényre történő optimalizációt jelenti:
L=
T X m X
logfi(wiT x(t)) + T ln | det(W)|
(4.1.4)
t=1 i=1
ahol fi függvények az si források eloszlásfüggvényei (amelyeket ebben az esetben ismertnek tételezünk fel), x(t), t = 1 . . . , T pedig az X megvalósulásai. Egy másik, ehhez hasonló célfüggvényt vezettek le a neuronhálózatok elméletében a nemlineáris kimenetekkel rendelkező egyrétegű neuronhálózat kimenete entrópiájának (vagy információ-átvitelének) maximalizációjából (pl. Bell és Sejnowski (1995)). Formálisan: ha az egyes neuronok kimenete gi (wiT x) alakú, ahol wi az i-edik neuron súlyvektora, akkor a cél a T L = H(g1(w1T x), . . . , gm (wm x))
(4.1.5)
függvény maximalizálása. Ha a gi függvényeket megfelelően választjuk meg, az eljárás képes a 4.1.3. modell paramétereinek becslésére. Több szerző is 74
4. FEJEZET. FÜGGETLEN KOMPONENSEK
bizonyította, hogy a 4.1.4. és a 4.1.5. célfüggvények ekvivalensek, ha a gi nemlinearitások az fi sűrűségfüggvényekből származtatható kumulatív eloszlásfüggvényeknek felelnek meg (azaz gi′ (.) = fi (.) teljesül). Egy további lehetőség a kölcsönös információ minimalizálása, amit yi (i = 1, . . . , m) véletlen változók esetében a következőképp definiálunk: I(y1 , y2 , . . . , ym ) =
X
H(yi) − H(y),
(4.1.6)
i
ahol a H(.) függvény a differenciális entrópia: H(y) =
Z
p(y)logp(y)dy.
(4.1.7)
A kölcsönös információ mindig pozitív és csak akkor nulla, ha a változók függetlenek, és megegyezik az együttes eloszlás és a komponensek faktorizált eloszlásánal Kullback-Leibler távolságával. Sajnos a kölcsönös információt nehéz becsülni, mert szükség van hozzá a teljes eloszlás ismeretére, de szerencsére sorfejtéssel magasabb rendű kumulánsokkal közelíthető. A független komponensek külön-külön történő becslésére használható a negentrópia: J(y) = H(ygauss ) − H(y),
(4.1.8)
ahol ygauss egy normáleloszlású véletlen változó y-nal megegyező kovarianciamátrixszal. A negentrópia mindig nemnegatív és csak akkor 0, ha y normáleloszlású. A negentrópia felhasználásával korrelálatlan yi-k esetében a kölcsönös információ a I(y1 , y2 , . . . , ym ) = J(y) −
X
J(yi )
(4.1.9)
i
alakot ölti, tehát - mivel a negentrópia nem változik lineáris transzformációk hatására - a maximális negentrópiájú irányok megtalálása W-ben ekvivalens a minimális kölcsönös információt eredményező transzformáció megkeresésével. Sajnos a negentrópiát sem könnyű becsülni, de szintén közelíthető magasabbrendű kumulánsokkal, amelyeket a negentrópiától függetlenül is használnak a komponensek külön-külön történő becslésére. 75
4. FEJEZET. FÜGGETLEN KOMPONENSEK
Algoritmusok Az FKA algoritmusok sokszor igénylik az adatok előzetes fehérítését, ami azt jelenti, hogy az x megfigyelt adatokat egy előzetes lineáris transzformációval leképezzük úgy, hogy a kapott
v = Qx
(4.1.10)
adatok már egységnyi kovarianciájúak (E{vvT } = I) legyenek. A fehérítés elvégezhető pl. a következő neurális eljárással:
∆Q ∝ (I − vvT )QT .
(4.1.11)
A független komponens analízis problémájára az elmúlt másfél évtizedben számos különböző algoritmust dolgoztak ki. A legtöbb a fentebb bemutatott célfüggvényeket használja. Terjedelmi okokból képtelenség lenne ezek egy megközelítőleg átfogó áttekintését itt bemutatni, így csak a következő fejezet szempontjából érdekes algoritmusokra fogok kitérni. A maximum likelihood célfüggvény alapján történő sztochasztikus gradienseljárást használja Bell és Sejnowski (1995):
−1 − 2 tanh(Wx)xT ∆W ∝ WT
(4.1.12)
∆W ∝ (I − 2 tanh(y)yT )W
(4.1.13)
ahol a tanh(.) függvényt a Wx vektor minden komponensén külön-külön hat. Ez az eljárás a legtöbb szuper-gaussi (azaz ritka) forrás esetében működik, de a gyakorlatban igen lassan konvergál. Az adatok fehérítésével és az ún. természetes gradiens alkalmazásával (ami az FKA esetében mindkét oldal WT W-vel történő szorzását jelenti) ezen tovább lehet javítani (Cardoso és Laheld, 1996):
ahol y = Wx. 76
4. FEJEZET. FÜGGETLEN KOMPONENSEK
A sztochasztikus gradiensen alapuló adaptív eljárásoknak számos hátránya van. A konvergencia általában lassú, és a tanulási rátákkal is külön kell foglalkozni. Ha a teljes adatsor rendelkezésre áll, nincs is szükség az on-line tanításra. Talán a legnépszerűbb off-line FKA fixpont-algoritmus a FastICA (Hyvärinen és Oja, 1997), ami egy igen gyors, paramétermentes eljárás. Fehérített adatokra és egyetlen kimenet súlyaira nézve a következő a tanulási egyenlete:
w(k) = E{xG′ (w(k − 1)T x)} − E{G′′ (w(k − 1)T x)}w(k − 1) (4.1.14) ahol a w súlyvektort minden lépés után 1-re kell normálni. Kurtózis alapú negentrópia-becslés esetén G(y) = y 4. A gyakorlatban a várható értékeket az adatok alapján szokás becsülni, amelyek az off-line működés miatt egyszerre rendelkezésre állnak. A független komponens analízis számos klasszikus módszerrel áll kapcsolatban. Felfogható úgy, mint egyfajta redundancia-csökkentő eljárás, ami komplex információkat feldolgozó rendszerekben igen fontos. Tekinthetjük úgy is, mint egy nem-gaussi forrásokkal dolgozó faktoranalízis, de kapcsolatban áll a PCA (főkomponens-analízis, lásd pl. Horváth (1998)) klasszikus eljárásával is. A PCA transzformáció csak korrelálatlanságot ér el a kimenetén, azaz
E{yiyj } − E{yi }E{yj } = 0
(4.1.15)
minden i 6= j esetén teljesül, míg a függetlenség ennél jóval erősebb feltevést jelent:
E{g1 (yi)g2 (yj )} − E{g1 (yi )}E{g2(yj )} = 0
(4.1.16)
tetszőleges g1 , g2 függvények és minden i 6= j esetén. A független komponens analízist számos helyen alkalmazzák a gyakorlatban. A hangfeldolgozási problémákon kívül népszerű az fMRI és EEG mérések feldolgozásában (Makeig és mtsai, 1996; Vigário, 1997; Vigário és mtsai, 77
4. FEJEZET. FÜGGETLEN KOMPONENSEK
1998), de használják vak forrásdekonvolúcióra (Bell és Sejnowski, 1995), zajtalanításra (Hyvärinen és mtsai, 1999) és pénzügyi elemzésekben is (Kiviluoto és Oja, 1998). Számos alkalmazást nyert biológiai modellekben (Olshausen és Field, 1996, 1997; Hyvärinen és Hoyer, 2000) - erre a következő fejezetben is lesz példa. Az optimális reprezentáció kereséséhez talán a feature extraction alkalmazások állnak a legközelebb (pl. Bell és Sejnowski (1997)), amelyekben a független komponenseket az adat valamilyen más eljárás szempontjából is hasznos projekcióit keressük. Ebben a rövid fejezetben nem lehet átfogó ismertetést adni az FKA elmélete, algoritmusai és alkalmazásai teljes spektrumáról. A részletek iránt érdeklődőnek javaslom a téma kiterjedt irodalmának tanulmányozását (javasolt kiinduló források pl. Hyvärinen és mtsai (2001); Hyvärinen (1999); Choi és mtsai (2005)).
4.1.1. FKA a megerősítéses tanulásban A megerősítéses tanulás összekapcsolhatóságát a statisztikai értelemben független komponensekkel még tudomásom szerint nem hangsúlyozták a szakirodalomban. A legközelebb ehhez az ún. faktorizált Markov döntési folyamatok elképzelése áll, amely a grafikus modellek és az MDF-ek vegyítésére tett kísérletek eredménye. Egy ismeretlen környezetben tevékenykedő ágens bizonytalan döntéseket kényszerül hozni hiányos információ alapján. Döntései gyakran szintén csak valamilyen valószínűségi eloszlással leírható hatással bírnak. A problémát tanulmányozva a kutatók régóta foglalkoznak inferenciával a mesterséges intelligenciában, ami a rendelkezésre álló adatokból történő valószínűségi jellegű következtetést jelenti a közvetlenül nem megfigyelhető paraméterekre. Az inferencia problémájának megoldására szolgáló algoritmusokban centrális szerepet játszanak a grafikus modellek (pl. Bayes-hálók vagy Markov-mezők, lásd pl. Jordan (1999)). Ezek olyan gráfreprezentációk, amelyek egy sokdimenziós valószínűségi változó eloszlásfüggvényét reprezentálják kompakt formában úgy, hogy a gráf szerkezete tükrözi a valószínűségi változó komponenseinek feltételes függetlenségeit. A gráf struktúrájából adódó egyszerűsítéseket kihasználva az egyébként exponenciálisan nehéz inferencia problémája jelentő78
4. FEJEZET. FÜGGETLEN KOMPONENSEK
sen egyszerűsödhet. A dinamikus programozás és a grafikus modellekben számolt egzakt inferencia összekapcsolását végző gráfmodelleket befolyás-diagramoknak (influence diagrams) hívják. A befolyás-diagramok megoldásának problémáját Bayes-hálókon végzett inferenciára Shachter és Peot (1992) és Zhang (1998) vizsgálta, de csak egzakt inferencia esetében. A közelítő inferencia és részlegesen megfigyelt MDF-ek megoldásának összekapcsolására példa Rodriguez és mtsai (2000); Thrun (2000); Poupart és mtsai (2001) munkái. Poupart és Boutilier (2000) is foglalkozott közelítő inferencia alkalmazásával a várható kumulált jutalom maximalizációjára. Ugyanakkor igen kevesen foglalkoztak a közelítő dinamikus programozás (és így a megerősítéses tanulás) inferenciával történő összekapcsolásával, hiánypótló ebben Sallans munkája (Sallans, 2002). Dolgozatában bemutatja, hogy a grafikus modellek elméletét hatékonyan fel lehet használni a megerősítéses tanulásban a Boutilier és mtsai (2000) által kidolgozott faktor-MDF-ek elméletével összekapcsolva. A faktor-MDF-ekben az állapotokat és az akciókat változók halmazai M reprezentálják. Az 1.1.1. rész jelöléseivel egy h{Si }M i=1 , {Ai }i=1 , R, P i négyes alkotja, ahol R és P ezúttal a megfelelő vektorértékű tereken értelmezettek. Egy faktor-MDF (vagy részlegesen megfigyelt változata) reprezentálható dinamikus Bayes-hálók halmazával. Az így reprezentált részlegesen megfigyelt MDF-ek egzakt módon megoldhatók dinamikus programozással a kompakt reprezentációból fakadó komplexitáscsökkentő hatás megmaradása mellett (Boutilier és mtsai, 2000). Az értékelőfüggvény ezekben is tanulható a megerősítéses tanulás technikáival (Boutilier és Dearden, 1996; Koller és Parr, 1999; St-Aubin és mtsai, 2000). Azonban a grafikus modell felépítése egy teljesen ismeretlen környezetben mozgó ágens számára nem egyszerű feladat. A szerzők többnyire közelítő eljárásokat javasolnak a probléma megoldására ahhoz, hogy a modell felépítéséhez szükséges számítások kezelhetőek maradjanak – ha egyáltalán foglalkoznak a kérdéssel, és nem tekintik a modellt adottnak. Tadepalli és Ok (1996) bemutattak egy algoritmust egy dinamikus Bayes-háló feltételes valószínűségi tábláinak megtanulására, és a hozzá tartozó faktor-MDF közelítő értékelőfüggvényét is tanítják. Hasonló tanítást javasol Sallans (2002), de részlegesen megfigyelt MDF-ek esetében. 79
4. FEJEZET. FÜGGETLEN KOMPONENSEK
A független komponens analízis optimális esetben egy speciális eloszlást hoz létre a 4.1.2. egyenletben megfogalmazott célra törekedéssel, így kimenete várhatóan közelítő esetekben is bőven rendelkezik elhanyagolható függőségekkel és könnyen reprezentálható grafikus modellekkel. Jól ismert elméleti háttere és a megvalósítás szempontjából egyszerűsége is mellette szól. A faktor-MDF-ek elméletében tehát mindenképpen komoly segítséget jelenthet a független komponens analízis előfeldolgozásként történő alkalmazása, de további kutatás és szimulációk tárgyát kell képezze, hogy pontosan milyen problémák esetében hasznos. Egy újabb eredmény a független komponens analízis használatára gépi tanulási feladatokban Zhang és mtsai (2005) munkája, ahol párhuzamos, de hasonló osztályozási feladatok közös tanítására használták. A feladatok hasonlóságait rejtett független komponensekkel modellezték, és ezek becslésére használták fel az FKA egy változatát.
4.2. Független folyamatok keresése A Markov döntési folyamatok szempontjából a független komponens analízis azon tulajdonsága hátrányos, hogy az input időbeli változásaiban rejlő információt nem használja fel, sőt, a működéséhez általában szükséges, hogy ne legyen ilyen információ. Az FKA abban az értelemben teljesen statikus, hogy a transzformálandó valószínűségi változó mintavételeit tetszőleges időbeli sorrendben adhatjuk meg, sőt, gyakorlatban szokás össze is keverni a mintavételeket az FKA algoritmusok alkalmazása előtt, mert az időbeli függőségek megzavarhatják a szeparációt. A valóságban általában nem ez a helyzet: a bejövő adatok dinamikája fontos információt hordozhat. Egy ágens információit a külvilág valamilyen folyamatainak kimenetele együtt adja, ezért lényeges lehet az aktuálisan hozzáférhető megfigyelések helyett az azok mögött húzódó folyamatok függetlenítése. Egy lehetséges definíció a független folyamatokra a következő. 4.2.1. Definíció. Legyen s(t) valamilyen sokdimenziós valószínűségi változó megvalósulása a diszkrét t-edik időpillanatban. Ekkor azt mondjuk, hogy s(t) független folyamatokat reprezentál, ha 80
4. FEJEZET. FÜGGETLEN KOMPONENSEK
p(s(t), s(t − 1), . . . ) =
m Y
p(si (t), si (t − 1), . . . )
(4.2.1)
i=1
teljesül. Ez a definíció annyiban tér el a 4.1.2. definíciótól, hogy most azt követeljük meg, hogy az egyes komponensek történetei legyenek függetlenek. A független folyamatok elkülönítése nem triviális feladat. Nézzünk meg néhány ötletet arra nézve, hogyan lehetne a folyamatokat szeparálni.
4.2.1. Temporális független komponens analízis Igen egyszerűen úgy lehet az egyes komponensek történeteire is kiterjeszteni a függetlenítést, hogy a független komponens analízist nem egyedi mintákon végezzük, hanem minták egy konkatenált időbeli sorozatán. Az inputok állapotterének dimenziószámát tehát kibővítjük, mégpedig annyiszorosára, ahány egymás után következő mintát fűzünk egybe, tehát az
x(1), x(2), . . . , x(D), . . . x(t), . . . sorozatból az
x(1) x(2) .. . x(D)
,
x(2) x(3) .. . x(D + 1)
, . . . ,
x(t) x(t + 1) .. . x(t + D − 1)
,...
sorozatot készítjük el. Az állapottér ilyen kibővítését beágyazásnak (embedding), az összefűzött minták számát pedig, amit itt D jelöl, a beágyazás dimenziójának (embedding dimension) hívhatjuk. A független komponens analízis ezzel a kiterjesztéssel időbeli dimenziót nyer, ezért a módszert jogos temporális független komponens analízisnek (T-FKA vagy T-ICA) elnevezni. Az eljárás nem tökéletes: valójában többet követel a folyamattól, mint a történetek függetlensége, mert minden időpillanattól való függetlenségre is 81
4. FEJEZET. FÜGGETLEN KOMPONENSEK
próbál optimalizálni, azaz a 4.2.1. egyenlet jobb oldalán szereplő szorzat tagQ jait is igyekszik felbontani p(si (t), si (t − 1), . . . ) = −Inf τ =t p(si (τ )) alakban. Ennek ellenére remélhetjük, hogy ha a beágyazás dimenziója elég nagy, sikerül megtalálni azt a projekciót, ami az eredeti folyamatok történetét is függetleníti. Sajnos a beágyazás dimenziója a problématér méretét exponenciális mértékben növeli. Előnye viszont, hogy az eljárás akár neurális eszközökkel is könnyen megvalósítható. A következő fejezetben bemutatott biológiai modell is a T-FKA eljárást használja.
4.2.2. Független altér analízis A független komponens analízis egydimenziós problémát old meg abban az értelemben, hogy a megoldás során az összes forrás teljes függetlenségét tételezzük fel. A gyakorlatban előfordul, hogy a források nem egydimenziósak, tehát a források bizonyos csoportjai esetleg nem szeparálhatóak. A FKA ezen kiterjesztését többdimenziós független komponens analízisnek (Cardoso, 1998) vagy független altér analízisnek (FAA) (angolul independent subspace analysis, ISA) hívjuk (Hyvärinen és Hoyer, 1999). Az FAA modell általános esetben a következő. Adott k darab, d1 ,. . . ,dk diT T menziós független s1 , . . . , sk forrásunk (si ∈ Rdi ). Legyen s = (s1 , . . . , sk )T ∈ Pk R i=1 di , és tegyük fel, hogy a 4.1.3. modellhez hasonlóan csak az x = As Pk jeleket tudjuk megfigyelni, ahol A ∈ Rm× i=1 di . Feladatunk a mért x ∈ Rm jelekből a rejtett s forrás és az A keverőmátrix minél pontosabb visszaállítása. Az FAA modellben feltesszük, hogy minden i 6= j esetén si ∈ Rdi független sj ∈ Rdj -től, sőt azt is feltesszük, hogy az s1 , . . . sk források nem csak páronként, hanem együttesen is függetlenek a 4.1.2. egyenletnek megfelelően. Az FKA feladatban a mért x jelekből a források csak előjel, skálázás és permutáció erejéig állíthatók vissza. A FAA feladatnál megmutatható, hogy ez a meghatározatlanság általánosabb, mert az si jelek csak permutáció és egy d dimenziós invertálható lineáris transzformáció erejéig határozhatók meg (Póczos, 2006). Természetesen d = 1 esetén visszakapjuk az FKA problémát. A független altér analízis elmélete és gyakorlata jóval kevésbé kidolgozott, mint az FKA esetében. A feladat egyértelműségi kérdéseit Theis (2004) cik82
4. FEJEZET. FÜGGETLEN KOMPONENSEK
ke vizsgálja. A feladatot megoldó algoritmusok kifejlesztésére is egyre több kísérlet történik, ez a probléma azonban jóval nehezebb, mint a klasszikus FKA probléma. Az FAA fő nehézségét az adja, hogy sokdimenziós kölcsönös információ illetve differenciális entrópia becslésére lenne szükség (néhány közelítő algoritmus található pl. Learned-Miller (2003); Costa és Hero (2004) cikkeiben). Egyes megközelítések közvetlenül az FAA probléma megoldásával próbálkoznak kétdimenziós Edgeworth-sorfejtéssel (Akaho és mtsai, 1999), viszont ezek elég bonyolult egyenletekre vezetnek, és általánosításuk több dimenzióra még nem megoldott. Egy másik lehetőség, hogy az FAA feladatot megpróbáljuk egyszerű FKA algoritmussal megoldani, majd megpróbáljuk megtalálni a becslésként kapott keverőmátrix oszlopainak megfelelő permutációját (Cardoso, 1998; Szabó és mtsai, 2006). Nyitott probléma, hogy ez az FKA előfeldolgozás mikor lesz elegendő, másrészről nem triviális feladat a permutációk megtalálása sem. Léteznek bizonyos mátrix halmazok együttes blokk-diagonalizációján alapuló algoritmusok (Theis, 2005) is, de ezek egyelőre csak alacsony dimenziós feladatokon működnek megfelelően. Munkatársam, Póczos Barnabás előkészületben álló Ph.D. dolgozatában (Póczos, 2006) részletesen foglalkozik az FAA problémával. Munkájában megadja azt a problémacsaládot, ami esetén KFA előfeldolgozás után elegendő a kapott független komponenseket megfelelően permutálni a független alterek meghatározásához. Bemutat több algoritmust, amelyekkel hatékonyan lehet becsülni a szükséges többdimenziós mennyiségeket is, és a szükséges permutációk is könnyen megkereshetők. Az FAA problémája jól láthatóan szoros kapcsolatban áll a független folyamatok 4.2.1. definíciójával: ha az egyes komponensek történetét különböző többdimenziós forrásnak tekintjük, a szeparáció megoldható az FAA algoritmusával. Ellentétben a T-FKA megoldással, itt nincs szükség a 4.2.1. egyenletben megfogalmazott feltételnél erősebb kiindulópontra. Természetesen a gyakorlatban itt is csak egy véges időmélységre tudjuk a történeteket függetleníteni, hiszen a szükséges erőforrások végesek, de gyakorlatban bízhatunk benne, hogy ha létezik olyan projekció, ami ezt egy véges intervallumon megoldja, akkor a teljes időtartományra nézve is sikerült szeparálni a folyamatokat. Sajnos gondot okoz, hogy az FAA (és az FKA) algoritmusai általában 83
4. FEJEZET. FÜGGETLEN KOMPONENSEK
csak független statikus (i.i.d.) eloszlás szerint mintavételezett esetben képesek megoldani a szeparációs problémát, amely ebben az esetben nem feltétlen teljesül. Az FKA esetében több megoldást is kidolgoztak erre a problémára bizonyos speciális esetekben (Hyvärinen, 1998; Belouchrani és mtsai, 1997; Hyvärinen és Hurri, 2004; Choi és mtsai, 2002; Choi és Cichocki, 2000; Penny és mtsai, 2000; Muller és mtsai, 1999; Attias, 1999; Ziehe és Muller, 1998). A független altér analízis segítségét is felhasználhatjuk közvetlenül dinamikával rendelkező szeparációs problémák megoldására például a folyamatok innovációjának felhasználásával (Póczos és mtsai, 2005). Nézzünk egy példát a sokdimenziós autoregresszív (AR) folyamatok esetére. Egy x(t) sztochasztikus folyamat innovációja alatt a
e(t) = x(t + 1) − E{x(t + 1)|x(t), x(t − 1), . . .},
(4.2.2)
mennyiséget értjük, tehát a legjobb predikció hibáját. Ennek becslése általában igen nehéz, de az AR folyamatok esetén viszonylag egyszerű. Egy d-dimenziós τ rendű AR folyamat alatt a
s(t) = F1 s(t − 1) + . . . + Fτ s(t − τ ) + ǫ
(4.2.3)
időfejlődésnek eleget tevő sztochasztikus folyamatot nevezzük, ha Fp ∈ Rd×d mátrix és ǫ ∈ Rd i.i.d. zaj. Legyen adott m darab ilyen folyamat, és készítsünk az {si }m i=1 folyamatok konkatenált megfigyeléseiből egy S(t) vektort (ez természetesen továbbra is lineáris időfejlődésnek tesz eleget). Tegyük fel, hogy ennek egy lineáris X(t) keverékét tudjuk megfigyelni a 4.1.3. modellnek megfelelően, azaz X(t) = AS(t), ahol A ∈ Rmd×md egy invertálható keverő mátrix. Az A mátrix becslése ebben az esetben egy FAA feladat d-dimenziós AR folyamatokon. Könnyen látható (Póczos és mtsai, 2005; Póczos, 2006), hogy ebben a speciális esetben X(t) szintén egy τ -rendű AR folyamat, és a folyamat innovációja az együttes folyamat zajának A mátrixszal vett lineáris transzformáltja, ami a feltevés szerint már i.i.d. sorozat, ezért FAA már alkalmazható a szeparációs mátrix meghatározására. A következő fejezetben bemutatandó biológiai modell is használni fogja az innovációkat. 84
4. FEJEZET. FÜGGETLEN KOMPONENSEK
Egy további lehetőség a folyamatok – esetleg erősen nemlineáris – keverékének szeparációjára a rekurrens hálózatok (Shriki és mtsai, 2001) illetve a kaotikus neuronhálózatok használata (Jaeger és Haas, 2004). Ezekkel a módszerekkel esetleg a lineáris esetnél bonyolultabb modellek is azonosíthatók, de hogy ez pontosan miként tehető meg, jelenleg is aktív kutatómunka tárgyát képezi a csoportomban. Ezeket a – részben saját – eredményeket a dolgozatban hely hiányában már nem tudom ismertetni.
4.3. Költségkomponens-analízis A megerősítéses tanulás és a független komponens analízis egy egészen más irányú kapcsolatát szintén munkatársaim dolgozták ki, amely a költségkomponens-analízis (KKA) (angolul cost component analysis, CoCA) nevet kapta (Lőrincz és Póczos, 2003). Az algoritmus általános megfogalmazásban többváltozós költségfüggvények globális optimalizálásában tud segíteni (ami mellesleg a Markov döntési folyamatok költségfüggvényével is célunk). Az alábbiakban röviden bemutatom az eljárás lényegét. A globális optimalizálást végző algoritmusok mindig valamilyen modell mentén dolgoznak (teljesen általános esetben belátható, hogy nincs jobb módszer, mint a véletlen próbálkozás). A modell igen sokféle feltevést tehet. A tipikusak általában a függvény simaságára vonatkoznak. A KKA algoritmus azzal a feltételezéssel él, hogy a sokdimenziós költségfüggvény egy megfelelő koordinátatranszformációval egyváltozós független költségekre bontható fel. Az optimalizálást ezután a komponenseken külön-külön elvégezve komplexitás tekintetében akár exponenciális nyereséghez juthatunk, hiszen egy n dimenziós optimalizálási probléma helyett immáron n darab egydimenziós optimalizálást kell megoldanunk. Legyen J : Rn → R egy költségfüggvény, és jelölje J(x1 , x2 , . . . , xn ) ∈ R ennek értékét az x = (x1 , x2 , . . . , xn )T , xi ∈ R pontban. A költség bármilyen pontban lekérdezhető (de ez a kiértékelés költséges művelet), és a J függvény alakjáról semmilyen egyéb információnk nincs. Tegyük fel, hogy az n változós J költségfüggvény megfelelő bázisban egyváltozós költségfüggvények összegeként áll elő az alábbi módon: 85
4. FEJEZET. FÜGGETLEN KOMPONENSEK
J(x1 , x2 , . . . xn ) = f1 (s1 ) + . . . + fn (sn ),
(4.3.1)
ahol s = (s1 , s2 , . . . , sn )T ∈ Rn , x = As és az A ∈ Rn×n keverő mátrix invertálható, de nem ismert. Az fi (.) függvények az ún. költségkomponensek (fi : R → R , i = 1, 2, . . . , n). Ha ismernénk az A mátrixot, akkor az n dimenziós optimalizálási feladatot n darab 1 dimenziós függvény optimumkeresési problémájává lehetne alakítani, mert az egy dimenziós s∗i globális optimumokat konkatenálva, majd A-val transzformálva megkapnánk a keresett x∗ globális optimumot. A célunk tehát az ismeretlen A mátrix becslése. Megmutatható, hogy a feladat átírható egy FKA problémává. Tegyük fel, hogy már adottak az x(1) , . . . , x(m) pontok a dimenziós keresési térből. Mintavételezzük ezeket újra a g(x) := R
exp(−J(x)) exp(−J(x))dx
(4.3.2)
Boltzmann-eloszlás szerint, azaz x(j) mintát [c exp(−J(x(j) ))] példányban tegyük bele az új mintahalmazba, ahol [.] az egészérték műveletét jelenti, és c egy nagy pozitív konstans. Jelölje a 4.1.3. FKA modellben az A mátrix (oszloponként normált) FKA ˜ és legyen ˜ ˜ −1 becslését A, ai ∈ Rn ennek az i-edik oszlopa. Jelölje a W = A szeparáló mátrix j-edik sorát wi ∈ R1×n . Jelölje fX (z) az X vektorértékű valószínűségi változó sűrűségfüggvényét ˜ mátrixra teljesül, hogy a a z pontban. Az FKA algoritmus által megtalált A mintavételezett pontokban ˜ −1 ˜ g(x) = fAS ˜ (x) = fS (A x)/ | det(A) |,
(4.3.3)
ahol utolsó lépésben kihasználtunk egy ismert azonosságot (lásd pl. Cover és Thomas (1991)). Itt az FKA feltevés értelmében S koordinátái már függetleQ nek. Így ha a koordináták sűrűségfüggvényét fSi jelöli, fS = ni=1 fSi teljesül, ezért ˜ fAS ˜ (x) = fS (Wx)/ | det(A) |=
n Y i=1
86
˜ fSi (wi x))/ | det(A).
(4.3.4)
4. FEJEZET. FÜGGETLEN KOMPONENSEK
Ezt összevetve a 4.3.2. egyenlettel és véve mindkét oldal negatív logaritmusát a következő kifejezést kapjuk:
J(x) = −
n X
˜ | − log log fSi (wi x) + log | det(A)
i=1
Z
exp(−J(x))dx, (4.3.5)
ezzel eredeti célunkat – miszerint megpróbáljuk J(x) költségfüggvényt független egyváltozós költségfüggvények összegeként felírni – teljesítettük. Ha az ˜i irányokban az optimum s∗i -ben található, J globális optimumát az a ˜ 1 s∗1 + . . . + a ˜n s∗n x∗ = a
(4.3.6)
pontban veszi fel. A KKA algoritmussal végzett számítógépes szimulációkat és az algoritmus további diszkusszióját Póczos (2006) munkájában olvashatjuk. Az algoritmus fő problémája, hogy relatíve sok mintával kell rendelkeznünk a szeparáló mátrix pontos becsléséhez a 4.3.2. eloszlásból, de nagy dimenziós terekben erre léteznek hatékony eljárások, pl. a Hastings-Metropolis algoritmus (Hastings, 1970). A megerősítéses tanulással való kapcsolat nyilvánvaló: ha a J(x) költségfüggvény megegyezik a diszkontált kumulált jutalom valamilyen approximáltjával (ez lehet pl. az 1.1.3. egyenlet értékelőfüggvénye), akkor a KKA algoritmus pont azt a transzformációt adja meg, amit a reprezentáción elvégezve a koordináták szerint külön-külön kereshetjük az optimumot. Természetesen ha a költségfüggvény valójában nem egyes költségek összege, az eljárás bizonytalan eredményt ad. További kutatás tárgyát kell képezze, hogy a KKA algoritmus pontosan milyen problémacsaládokon hatásos a megerősítéses tanulásban.
87
5. fejezet Biológiai vonatkozások A 4. fejezetben leírt reprezentációs megközelítés, bár sokáig érvelhetünk előnyei mellett, egy a lehetséges sok közül. Természetesen nem lehet semmilyen értelemben bizonyítani, hogy a legérdekesebb problémák esetében mindig valóban ez lenne a legjobb választás (mint ahogy ez feltehetően nem is igaz). Konkrétabb viszont a következő kérdés: vajon milyen reprezentációs modellt választottak az élőlények, akiknek hasonlóan nehéz, összetett, komplexitási szempontból végtelenül bonyolult problémák tömegével kell nap mint nap megbirkózniuk? A kérdés teljes megválaszolásával, mivel gyakorlatilag ekvivalens lenne az agy teljes működésének feltérképezésével, még alighanem sokáig adós marad a neurobiológia. Ugyanakkor, mint ebben a fejezetben bemutatom, meggyőző bizonyítékok léteznek arra nézve, hogy a független komponensek szerephez juthatnak az emlősök információfeldolgozási rendszerében is, egyfajta „bizonyítékot” szolgáltatva ezzel az előző fejezetben felvázolt elképzelések gyakorlati hasznára vonatkozóan. Kutatócsoportom régóta foglalkozik a hippokampusz, és a vele szorosan összefüggő entorhinális kortex nevű, ma a neurobiológiai modellezés fókuszában álló agyi képlet modellezésével. Munkám során számítógépes szimulációkkal bemutattam, hogy a modellben független komponensek reprezentációját feltételezve az élő állatokban tapasztalt valódi neurális kisülés-mintázatokhoz igen hasonló eredményeket kapunk. A fejezet elején egy végtelenül rövid áttekintőt nyújtok a hippokampális formáció biológiájáról. Ezután nagy vonalakban ismertetem a használt modellt, majd bemutatom a számítógépes szimulációkat, és ahol ez lehetséges, 88
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
összehasonlítom azokat a biológiai kísérletek eredményeivel.
5.1. A hippokampusz és az entorhinális kortex biológiája A hippokampusz és környéke az agy egyik legtöbbet tanulmányozott területe, és ennek megfelelően biológiájáról az utóbbi húsz-harminc évben hatalmas mennyiségű publikáció jelent meg. Lehetetlen volna ebben a fejezetben a teljességet akár csak említések szintjén elérő összefoglalót készíteni, és ez nem is lehet célom, csupán a biológiában járatlan olvasó számára szeretném könnyíteni az eredményeim leírásában használt fogalmak megértését. A témában mélyebben elmerülni kívánó olvasó számára kiindulópontként javaslom az Amaral és Witter (1989), Redish (1999), Freund és Buzsáki (1996), Scharfman és mtsai (2000), Gluck és mtsai (2003) és Eichenbaum (2004) források tanulmányozását.
5.1.1. Felépítés A hippokampális formáció az agy limbikus rendszerének része. Az elnevezés gyűjtőnév; számos további képletet foglal magába. Az alkotókat eltérően szokták meghatározni, de többnyire ide sorolják az entorhinális kortexet, a gyrus dentatust1 , a subiculáris komplexumot és természetesen magát a hippokampuszt. Ez utóbbi elhelyezkedését a patkány agyában az 5.1. ábra mutatja. A hippokampális formáció kiterjedt kapcsolatokat ápol a környező struktúrákkal. Az entorhinális kortex szoros kapcsolatban áll a perirhinális és a postrhinális kortexszel, amelyek a hátulsó fali lebenytől és az inferotemporális kortextől egyaránt direkt afferenseket (beérkező információt továbbító idegkötegeket) kapnak. Ez arra utal, hogy például a látás dorzális és ventrális árama egyaránt jelen van a hippokampális formációban. Az entorhinális kortex és a neokortex (amely az agy legmagasabb szintű feldolgozási egységeit tartalmazza) közvetlen kapcsolatokkal rendelkezik. A hippokampális formáció efferensei (elvezető kapcsolatai) egyrészt az entorhinális kortexen keresztül vezetnek, másrészt a hippokampusz és a subiculum a fornixszal számos 1
Magyarul fogas tekervénynek is szokták hívni.
89
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
5.1. ábra. A hippokampusz elhelyezkedése a patkány agyában. A kinagyított képen képen CA3, CA1: a piramidális sejtek fő rétegei, S: szeptális magok, T: temporális kéreg, a kisebb képen DG: gyrus dentatus, S: subiculum pp: az entorhinális kortexet a hippokampusszal összekötő axonköteg [perforant path], mf: moharostok, sc: Schaffer kollaterálisok (Amaral és Witter (1989) nyomán).
DG CA3
EC
PrS PaS
CA1 S
5.2. ábra. A hippokampális formáció tágabb kapcsolatrendszere. Rövidítések: EC: entorhinális kortex, DG: gyrus dentatus, PrS: presubiculum, PaS: parasubiculum, S: subiculum (Amaral és Witter (1989) nyomán).
90
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
más szubkortikális területtel is összeköttetést létesít. Általános a vélekedés, hogy a hippokampális formáció az agy információtovábbító rendszerében központi helyet foglal el, és gyakorlatilag mind a magasabb szinten feldolgozott információkhoz, mind a közvetlen szenzoros információkhoz hozzáfér. Maga a hippokampális formáció is bonyolult háromdimenziós struktúrával rendelkezik. A hippokampusz maga egy elnyújtott formájú képlet, ami a szeptális magoktól a temporális lebenyig húzódik (5.1. ábra). A hippokampusz metszeti képét leginkább két egymásnak fordított C betűhőz lehetne hasonlítani. A C betűk szöveti állományát három, CA1, CA2 és CA3 elnevezésű részre osztják2 . Ezek közül a CA2 kis méretű, nem túlságosan jól definiált terület, kapcsolati rendszere a CA3-hoz hasonló. Ezért a CA2 területet nem szokás a CA3-tól elkülönítve tárgyalni. A CA3 és az EC V réteg erős rekurrens (önmagukra visszacsatoló) kapcsolatokkal rendelkezik. Az entorhinális kortex – hasonlóan más agykérgi területekhez – hat neurális réteget tartalmaz, és szokás felszíni és mély rétegekre osztani (a legfontosabbak ezen belül az EC II-III, illetve EC V-VI rétegek), amelyeken belül a fő információáram a mély rétegek felől a felszíniek felé mutat, de a IV-V-VI. rétegek kimenetei gyakorlatilag minden kortikális területhez eljutnak. Az en5.3. ábra. Az entorhinátorhinális kortex emellett horizontális tagozódást lis kortex részletei és beis mutat mediális és laterális részekre, amelyek menő kapcsolatai. Rövidítések: MEC: mediális entorközött funkcionális különbség is kimutatható. A hippokampusz kapcsolati rendszerét Ra- hinális kortex, LEC: laterális entorhinális kortex (Hargreamon y Cahal vizsgálta először a múlt század véves és mtsai (2005) nyomán). gén. Az entorhinális kortex (EC) felől jövő afferensek a gyrus dentatus fő sejtállományát alkotó szemcsesejtekre vetítenek. A 2
A CA itt a cornu ammonis, ammon-szarv rövidítése.
91
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
szemcsesejtek axonjai (ezeket moharostnak hívják) a CA3 terület principális sejtállományát képző piramissejtek bemenetét képezik. A CA3 piramissejtjeinek axonjai egyrészt a CA3-on belül végződnek (ezek a már említett rekurrens kollaterálisok), másrészt a CA1 régió piramissejtjeinek bemenetét adják az úgynevezett Schaffer-kollaterálisokon keresztül. A CA3 és a CA1 régió szinaptikus rendszere mutatja a hippokampális formációban tapasztalt egyik legnagyobb diverzitást. A CA1 axonjai a subiculum kolumnáris szerveződésű bemenetét képezik, amely ezután főként az entorhinális kortex felé képez outputot. Az entorhinális kortex nem csak a gyrus dentatus sejtjeire vetítenek, hanem a hippokampusz CA3-CA1 piramidális sejteit, sőt, bizonyos interneurális típusokat is beidegeznek. A CA1-ből egy gyengébb közvetlen kapcsolat is van az entorhinális kortex felé. A subiculáris komplexum belső elrendeződése is meglehetősen összetett. A kapcsolati rendszer végeredményben egy hurokhoz hasonlítható, amely az EC felszíni rétegeiből kiindulva a DG, CA3, CA1 régiókon keresztül az EC mély rétegeibe érkezik. Emelett számos oldalelágazást, valamint keresztirányú és rekurrens kapcsolatot is tartalmaz. A felderített összefüggések egy összefoglaló rajzát láthatjuk az 5.2. ábrán. Az entorhinális kortex bemenő kapcsolatait és területeit részletezi a az 5.3. ábra. A hippokampális formáció a principális sejteken kívül kiterjedt interneurális hálózattal is rendelkezik. Ezen interneuronoknak számos fajtája van. Bizonyos típusaik lokális kontrollt gyakorolnak a principális sejtállomány felett, mások a principális sejtek kapcsolatait erősítő vagy éppen gátló hálózatba szerveződnek.
5.1.2. Neurofiziológia és tüzelési térképek EEG-je alapján úgy tűnik, hogy a hippokampusz két fő módban működik. Mozgás és az alvás REM fázisa alatt a hippokampusz EEG-je 7-12 Hz-es aktivitásváltozást mutat, amit theta ritmusnak hívunk. Pihenés és lassú hullámú alvás során a hippokampusz aktivitása irreguláris, rövid ideig tartó hullámokban jelentkezik, amit SPW (sharp wave) vagy LIA (large-amplitude irregular activity) fázisnak hívunk. SPW alatt a piramissejtek aktivitása magas. Theta alatt a piramissejtek csak akkor mutatnak nagyobb aktivitást, ha az állat a megfelelő place field-ben van (lásd alább), ezért a sejtek tüzelési gyakorisá92
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
EC felszíni rétegek (II-III)
CA1
EC mély rétegek (V-VI)
5.4. ábra. A CA1 régió, az EC mély rétegei és az EC felszíni rétegeinek tüzelési térképe biológiai kísérletekben, lineáris pálya bejárása során. Minden sor egy-egy tipikusnak mondható sejt térképét ábrázolja a bal oldalon jelzett régióból. A térképek az oszlopokban a W alakú pálya különböző útvonalainak – ezek a legalsó sor kis ábráin láthatók – megfelelően szét vannak válogatva. Megfigyelhetjük, hogy a felszíni EC mintázatok igen zajosak, a CA1 régió térképei viszont határozottan lokálisak. Az EC mély rétegeinek sejtjei hasonlóan a CA1 régióhoz lokális aktivitást mutatnak, de kiterjedtebbek azoknál (Frank és mtsai (2000) nyomán).
93
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
5.5. ábra. A CA1, MEC, LEC régiók, a parasubiculum és a perirhinális kortex mért tüzelési térképei kisméretű négyzetes nyílt pálya véletlen explorációja során. Az ábrát Hargreaves és mtsai (2005) cikkében láthatjuk színes eredetiben. Minden sor több sejt térképét ábrázolja, sötétebb árnyalat nagyobb aktivitást jelent. A térképek alatt láthatjuk a patkány által az exploráció során bejárt pályát, amin fekete pontok jelzik a detektált tüzeléseket. Ezek átlagolásából készülnek a tüzelési térképek. A térképek alatti számok a sejtek maximális aktivitását mutatják. A CA1 sejtek lokális aktivitást mutatnak. A MEC terület hasonlóan lokális, és (bár ezen a képen a kis méretű pálya miatt nem igazán látható, de lásd 5.6. ábra) az aktivitásmaximumok szabályos háromszögek csúcsaiba rendeződnek. A többi terület térképei meglehetősen zajosak. A postrhinális kortex, ami a MEC fő inputját adja (5.3. ábra), hasonló tüzelési térképeket mutat, mint a perirhinális (Fyhn és mtsai, 2004). 94
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
ga jóval alacsonyabb. Emellett az egész piramidális sejtállományra jellemző az aktivitás lassú hullámzása, ami az EEG jelben megjelenő periodicitásokat okozza. Ez azt jelenti, hogy theta fázis esetében az EEG-n látható theta hullám maximumánál a legnagyobb a piramissejtek átlagos aktivitása. Elektródás méréseknél ezért a theta hullámot az összes mért sejt átlagaktivitásából is meg lehet határozni. A 70-es években a hippokampális formáció EEG-n túlmutató vizsgálata kezdődött meg az elektródás mérési technika fejlődésével. Ezekben az in vivo kísérletekben a patkányok fejébe elektródákat ültetnek, amelyekkel több (10-1000) sejt aktivitását lehet egyszerre rögzíteni, miközben a patkány a rögzítő berendezéstől függetlenül szabadon mozoghat egy általában igen egyszerű alakú „labirintusban”. A feladat kísérletről kísérletre változik: előfordul, hogy a patkánynak az élelmet úgy helyezik el, hogy rögzített pálya bejárására kényszerítsék, de gyakran alkalmaznak véletlenül elhelyezett táplálékot is, hogy a patkány véletlen explorációval járja be a környezetét. O’Keefe és munkatársai publikálták először 1971-ben azt az igen fontos kísérleti eredményt, hogy navigációs feladatoknál a hippokampális formáció egyes piramissejteinek aktivitása az állat pozíciójával korrelál (O’Keefe és Dostrovsky, 1971). A sejtek aktivitásának térbeli korrelációit mutató tüzelési térképek azt ábrázolják, hogy miként korrelál a vizsgált mennyiség (jelen esetben a sejt elektródás mérésekkel nyert kisülései) az állat térbeli pozíciójával. A térkép magas intenzitású területein a szóban forgó sejt aktívabb, a sejt aktivitása tehát megnő, ha az állat a környezet egy bizonyos pozíciójában tartózkodik. Ez a tény meglehetősen meglepő, mert az állat pozí95
5.6. ábra. A dorzokaudális mediális entorhinális kortex (dMEC) felszíni régióban mért tüzelési térképek nagyméretű, kör alakú pálya random explorációja során. Az ábrán a bal oldali oszlop mutatja a tüzelési térképeket három sejt esetében, a jobb oldali ezek autokorrelogrammját. Jól látható, hogy az aktivitásmaximumok szabályos háromszögekből álló rácsba rendeződnek (Hafting és mtsai (2005) nyomán).
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
ciója egy globális jellegű információ, amelyet lokális szenzoros észlelésekből egyáltalán nem könnyű kikövetkeztetni. Sokan úgy tekintik ezt a felfedezést, mint ami elsőként utal a magasrendű agyi funkciók és a biológiai szubsztrátum ekvivalenciájára. A megfelelő sejthez tartozó területet jobb magyar fordítás híján a sejt place field -jének, a sejtet pedig helyre érzékeny sejtnek (vagy röviden helyérzékeny sejtnek) fogom hívni. A helyre érzékeny sejtek létezését szinte minden lehetséges környezetben igazolták. Számos kísérletben próbálták tisztázni, hogyan reagálnak a környezet manipulálására. Úgy találták, hogy fennmaradnak a sötétben, bonyolult feladatok végrehajtása közben, környezeti manipulációk után és a szenzoros rendszer tönkretétele esetén is. A place fieldek nem feltétlen erősen lokalizáltak, bár többnyire azok, de esetleg hosszan elnyúlhatnak például egy labirintus fala mentén. Vannak olyan sejtek is, ahol a place field nem csak egy pozícióra korlátozódik. A helyfüggő sejtek jelenlétét szinte minden fontosabb hippokampális régióban kimutatták. Számos tanulmány foglalkozik a különböző hippokampális régiókban talált térbeli korrelációk közötti különbségek tanulmányozásával (lásd pl. Frank és mtsai (2000); Leutgeb és mtsai (2004); Hargreaves és mtsai (2005)). A CA1 és az entorhinális kortex mély és felszíni régióiból származó néhány tipikus sejt tüzelési térképét mutatja az 5.4. ábra egy W alakú pályán, amiben az állat nem explorál, csak egy irányba halad. Különböző régiókból származó sejtek és nyílt területen exploráló állat esetére mutat tüzelési térképeket az 5.5. ábra. Mint láthatjuk, a tüzelési térképek fix pálya (útvonal) bejárása közben a sejtek irányfüggését mutatják, azaz ugyanazon a helyen a sejtek aktivitása eltér, ha az állat különböző irányokba haladás közben érinti a sejt place field-jét. Ez a jelenség nem mutatkozik, ha véletlen módon fedezi fel a környezetét, tehát például a nyílt labirintusban, azaz ekkor a helyérzékeny sejtek tüzelése nem függ a fej irányától. Új és meghökkentő felfedezés Hafting és mtsai (2005) eredménye, akik nagyobb méretű labirintusok véletlen explorációjából nyert térképeken úgy találták, hogy a dorzokaudális mediális entorhinális kortex (dMEC) területen a felszíni rétegben a tüzelési térképek szabályos háromszögekből álló rács alakját veszik fel (5.6. ábra). A felismerés még igen új, és egyelőre erre a jelenségre nincs univerzálisan elfogadott magyarázat. Egy lehetséges mechanizmust fogok az 5.3.2. részben 96
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
ismertetni. Természetesen a tüzelési térképek önmagukban csalókák, mert a helyérzékeny sejtek nem csak a pozícióval korrelálnak, hanem például a sebességgel, az iránnyal, a fordulás szögével, a padló mintázatával, sőt egészen komplex jellemzőkkel is, mint például hogy az állat egy bonyolult feladat melyik fázisát hajtja végre éppen. Emellett aktivitásuk egyéb környezeti hatásokkal is összefügg, mint például hogy felemelünk-e egy falat, bekapcsoljuk-e a fényeket, vagy forgatjuk-e a környezetet. Ezek a hatások másodrendűeknek tekinthetők, abban az értelemben, hogy nem a place field-ek alakjáért, hanem azok változásaiért felelősek. Tehát például ha az egyik paraméter bizonyos értéke vagy egy körülmény megléte esetén egy sejtnek place field-je van, más feltételek mellett lehetséges, hogy nincs. A hatás topológiai jellegű is lehet, tehát előfordul, hogy a paraméter változása két place field egymáshoz viszonyított elhelyezkedését befolyásolja. Mindenesetre – mint azt a következő részben bemutatom – arról egyelőre nincs egyezség a kutatók között, hogy a lokális aktivitást mutató tüzelési térképek elárulnak-e valamit a sejtek funkciójáról avagy sem.
5.1.3. Feltételezett szerepek A hippokampusz először akkor került az érdeklődés középpontjába, amikor az 50-es években kiderült, hogy rendkívül fontos szerepe van az emlősállatok, így az ember memóriájának kialakításában. A sérült hippokampusszal bíró páciens speciális memóriazavarokat mutat: közvetlen felidézési feladatokban jól teljesít, de néhány percnél hosszabb várakozási idők esetén már nagyon rosszul. Röviden úgy is fogalmazhatunk, hogy képtelen új, hosszú távú emlékeket kialakítani (ez az úgynevezett anterográd amnézia jelensége). Ugyanakkor retrográd amnéziát is mutatnak, azaz nem tudnak felidézni olyan dolgokat, amik a lézió vagy a sérülés előtt történtek velük. Ez azonban csak korlátozott időre visszamenőleg érvényes: az életük korai szakaszában szerzett memóriák érintetlenek maradnak. A hippokampusz piramissejtjein sikerült először kimutatni az úgynevezett LTP (long-term potentiation) jelenségét, ami – nagyon egyszerűen megfogalmazva – azt a régóta feltételezett mechanizmust takarja, hogy két sejt között 97
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
erősödik a kapcsolat, ha együtt aktívak (ennek matematikai alakja az ún. Hebb-szabály). Ma úgy gondoljuk, hogy neurális szinten ez a mechanizmus az idegrendszer memóriaformáló képességének alapja. A hippokampális formáció szerepére vonatkozólag az elmúlt évtizedekben rengeteg kísérletet végeztek. Rendkívül érdekes összefüggéseket találtak, de a mai napig nincs univerzálisan elfogadott elmélet arra nézve, hogy mi a struktúra fő funkciója. Azt általában mindenki elfogadja, hogy a hippokampusznak köze van a térbeli navigáció lebonyolításához, de azt is, hogy szerepe nem korlátozódik pusztán erre. Az alábbiakban néhány mondatban összefoglalom a jelenleg még terítéken levő legfontosabb elképzeléseket a források beidézése nélkül. Kognitív térkép O’Keefe és Nadel 1978-ból származó elmélete azt állítja, hogy a hippokampusz a környezet kognitív térképét tárolja. Az elmélet legfontosabb bizonyítékát a hippokampális piramidális sejtek elsőrendű korrelációi, azaz a már említett helyfüggő sejtek adják. Az is az elmélet mellett szól, hogy a hippokampális sérüléseknek komoly hatása van az állat navigációs képességeire. Az elképzelés egyértelműen sikeresnek bizonyult, amit az az elképesztő mennyiségű kísérlet is bizonyít, amely erre a hipotézisre alapozva végeztek. Sok munkát fektettek a modellezésbe is. Ezek főleg a helyre érzékeny sejtek kialakulásának mechanizmusait illetve a navigációban betöltött szerepüket próbálják kideríteni. A kognitív térkép elmélete sikeresnek bizonyult, de önmagában túl általános, így számos alváltozata született. A legtöbb közülük azzal a kérdéssel foglalkozik, hogy a rendszer miként reprezentálja az állat helyzetét és ezután hogyan képes ezeket a reprezentációkat felhasználni. Néhány elképzelés azonban tovább finomítja a hippokampális formáció szerepét is. A hippokampusz, mint lokális nézeteket tároló asszociatív memória. Egy állat lokális navigáció képessége alatt azt értjük, hogy képes olyan célhoz navigálni, ami direkt módon nincs megjelölve (tehát például képes egy szoba – egyébként teljesen üres – közepét megtalálni). A navigáció ekkor a környezetben levő kimelkedő pontok (az úgynevezett landmarkok ) helyzete alapján 98
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
történik, amelyek az állat pillanatnyi pozíciójából elérhető szenzoros inputban jelennek meg. A kísérletek azt mutatják, hogy a hippokampusz csak ezt a lokális navigációt befolyásolja. Az első modellekben úgy gondolták, hogy a hippokampusz sejtjei azért mutatnak place field-eket, mert közvetlenül a landmarkok kombinációira érzékenyek. Mikor kiderült, hogy a sejtek a sötétben továbbra is place field-eket mutatnak, nyilvánvalóvá vált, hogy ez messze nem a teljes magyarázat. Ekkor már számos kutató úgy látta, hogy a hippokampusz asszociatív memóriához hasonló tulajdonságokat mutat: néhány sejt valószínűleg érzékeli a sötétben is megmaradó landmarkokat, és ebből a hiányos mintázatból a reprezentáció hiányzó elemeit a hippokampusz asszociatív módon kiegészíti. Ez önmagában viszont nem magyarázza az ún. útintegrációs képességet, ami azt jelenti, hogy az állat egy bejárt pálya bármilyen helyzetéből képes visszatérni kiindulópontjára egy adott környezetben, még sötétben is, tehát képes rövidítéseket „fejben” megtervezni a környezet ismeretlen területein át. Az asszociatív memória elmélet szerint az állatnak először meg kellene tapasztalnia az adott átmenetet, hogy azt a megfelelő lokális nézettel asszociálhassa. Ezért az ezen az elméleten dolgozó kutatók közül egyre többen gondolják úgy, hogy az út-integrációt a hippokampuszon kívüli egységek valósítják meg. Ez ekkor azt jelentené, hogy a lokális nézet reprezentációi a hippokampuszon kívül találhatók. Ennek az elképzelésnek megvan az a problémája, hogy ekkor a felgyülemlő hibák eltorzíthatják a hippokampális kognitív térképet. A kognitív gráf elmélet. Muller és munkatársai a kilencvenes évek elején kimutatták, hogy helyfüggő sejtek esetében a hebbi LTP tanulás a környezet véletlen bejárását feltételezve képes a szinaptikus súlyokban a place fieldek közötti távolságokat tárolni. A kongnitív gráf elnevezést javasolták erre a struktúrára. Wilsonnak és McNaughtonnak sikerült kísérleti bizonyítékokat is mutatnia arra, hogy ez a struktúra exploráció után valóban létezik is a hippokampuszban. Egy gráfkereső algoritmus (pl. a Dijkstra vagy a Bellman-Ford algoritmus) útiterveket tudna készíteni ennek a struktúrának a felhasználásával. A fő probléma ezzel az elmélettel, hogy egyik algoritmus sem rendelkezik egyszerű neurális implementációval. Útvonaltanulás használata navigációra. Az LTP aszimmetrikus volta (az99
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
az ha a röviddel b neuron előtt tüzel, akkor csak az a → b kapcsolat erősödik, fordítva nem, lásd még az 5.3.2. részben az STDP-t) képes lehet a CA3-ban olyan aszimmetrikus kapcsolati mátrixot létrehozni, amely a bejárt útvonalakat reprezentálja3 . Az aszimmetrikus kapcsolatrendszer egyik előrejelzett következményét, miszerint a place fieldek a megtanult útvonalak mentén visszafelé nézve enyhén torzulnak, kísérletileg is igazolták. Az elmélet kigondolói úgy tartják, hogy ezek az aszimmetrikus kapcsolatok a navigáció irányítására is felhasználhatók. Ennek mikéntje még nem tisztázott, a javasolt mechanizmusok pedig ellentmondani látszanak a kísérleteknek. Kontextuális felidézés Hirsch 1974-es javaslata szerint a hippokampusz szerepe az eredeti környezet felidézése a korábban megtanult inger-válasz reakciók előhívásához. Ez a kontextuális felidézés néven ismertté vált elmélet megmagyarázta a hippokampális léziónak alávetett állatok esetében tapasztalt kognitív problémákat: egyszerű diszkriminációs problémákat normálisan teljesítenek, de amennyiben választásukért a továbbiakban jutalom helyett büntetést kapnak, furcsa mód hajlamosak továbbra is ugyanazt a hibás választ adni. A kontextuális felidézés elméletéhez hasonló javaslatot tett Rawlins 1985-ben, bár elmélete elsősorban a felidézéshez szükséges időbeli áthidalás problémáját hangsúlyozza. Az azóta elvégzett kísérletek alapján egyértelműnek tűnik, hogy a hippokampusznak van szerepe a kontextuális kondícionálásban. Az asszociáció kialakulását nem gátolja a hippokampusz működésképtelensége, de a környezetek közti asszociációt ilyenkor az állat a normális egyedektől eltérően hajtja végre. Memória kialakítása A már korábban említett anterográd amnézia jelensége arra mutat, hogy a hippokampusz közvetlenül a memórianyomok kialakításáért lehet felelős. A tanulmányok kimutatták, hogy a hippokampusz csak az úgynevezett deklaratív memória formálásában játszik szerepet. A memória felosztását deklaratív 3 Szükség van az ún. fázisprecessziós jelenségre is (Skaggs és mtsai, 1996), amelyre hely hiányában itt nem térek ki.
100
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
és procedurális memóriára először Cohen és Squire javasolta 1980-ban. A deklaratív memória tényeket, neveket, eseményeket és epizódokat tárol (ezért a deklaratív memóriát hívják epizodikus memóriának is), míg a procedurális memória a gyakorlással elsajátított képességeket jelöli. A deklaratív memória gyors (egy kísérlet elég az elsajátításra) és általában a „mi” kérdésre válaszol, amíg a procedurális memória csak hosszas gyakorlással alakítható ki és a „hogyan” kérdésére vonatkozik. Például képesek vagyunk gyorsan megjegyezni, hogy ez a mondat a 101. oldalon van, és ennek a tudásnak azonnal birtokában is vagyunk. Szemünket becsukva rögtön meg tudjuk mondani valakinek, hogy melyik oldalon jártunk éppen. Ha viszont valaki elmagyarázza, hogy hogyan kell kosárlabdázni, nem sokra megyünk vele. Egészen addig nem leszünk jó játékosok, amíg néhány százszor vagy ezerszer meg nem próbáltuk magunk is. Az oldalszám példa a deklaratív memóriára, míg a kosárdobás a procedurálisra. Egy hippokampális beteg továbbra is képes elsajátítani új, procedurális memóriát igénylő feladatok megoldását. Viszont meglehetősen hátborzongató módon hiába nagyon jók már egy ilyen feladat teljesítésében, minden próbálkozásnál azt állítják, hogy a feladattal még soha nem találkoztak és nem is hiszik el, hogy képesek lennének megcsinálni. Szekvenciák tárolása és előhívása. Néhány kutató szerint a hippokampusz szerepe szekvenciák tárolása és előhívása. Kimutatták, hogy a CA3 rekurrens kollaterálisai alkalmasak erre a célra. Ez hasonlít arra az útvonaltároló és előhívó mechanizmusra, amelyeket az útvonaltanulásnál említettem. Mivel a sorozatokat átfedő kóddal kell tárolni, az elmélet kidolgozói feltételezik, hogy a rendszer képes kontextuális egységek kiválasztásával az átfedő kód többértelműségeit megszünteti. Ennek megvalósítását autoasszociatív hálózatokkal képzelik el. Visszajátszás alvás során. Marr 1970-es neokortexről szóló elméletében azt a javaslatot teszi, hogy a neokortex szerepe a klasszifikáció és a hosszú távú memória funkciójának ellátása. Ehhez előnyös volna, ha a neokortexet egy másik struktúra alvás közben tanítaná. A szerző szerint a hippokampusz játszhatja ezt a szerepet. Marr a kérdést főleg a memóriatárolás helye szempontjából közelítette meg. McCelland és munkatársai megpróbálták megindokolni, hogy mi101
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
ért szükséges egy átmeneti tároló a memória kialakítása közben. Szerintük a trükk abban rejlik, hogy az autoasszociatív neuronhálózatok hajlamosak katasztrofális interferencia szenvedő alanyai lenni. Feltételezik, hogy a hippokampusz speciális struktúrája a memória gyors tárolását teszi lehetővé, míg a neokortex csak lassan tudja ugyanezt. A hippokampuszt, mint puffert alkalmazva, a szerzők szerint a neokortexnek lehetősége nyílik olyan struktúrákat kialakítani, amelyek mentesek az interferencia problémájától. A friss emléknyomok hippokampális visszajátszását alvás során számos tanulmány erősíti meg. Egy népszerű javaslat szerint a memória a hippokampuszba íródik theta fázis alatt, majd az SPW fázis alatt előhívódik. Kimutatták, hogy theta fázis alatt az entorhinális kortex (EC) felszíni rétegei a theta ritmussal korrelált módon tüzelnek, míg a mély rétegekre ez nem igaz. Ellentétben ezzel, SPW alatt az EC mély rétegeiben levő sejtek a sharp wave-vel korrelálva tüzelnek, míg a felszíni EC rétegek sejtei nem. Ez azt a következtetést vonja maga után, hogy a memória konszolidációja közben az EC mély rétegei képzik a kimeneti utat a hippokampuszból.
5.2. A hippokampális formáció rekonstrukciós modellje Az alábbiakban röviden áttekintem a kutatócsoportomban kidolgozott hippokampusz-entorhinális kortex modellt, amely bizonyos szempontból egyesíti a fentebb ismertett modelleket. A modell eredetileg abból indult ki, hogy a hippokampusz és az entorhinális kortex által képzett hurok szabályozó szerepet játszhat (Lőrincz, 1998). Az ötlet kifejtése végül egy, a rekonstrukciós hálózatokon alapuló struktúrához vezetett. A modell újdonság-felismerő képességét emeli ki Lőrincz és Buzsáki (2000), ami az előző részben idézett kontextuális felidézéssel áll kapcsolatban. Az újszerűség mértékét a modellben a rekonstrukció után kapott reprezetációs hiba (ami a várt és tapasztalt reprezentációk különbsége) adja. A modellt Lőrincz és mtsai (2002) egészíti ki a neokortex struktúráira. A szabályzó elképzelések és a rekonstrukciós hálózatok egyesítése érdekében munkatársaim kidolgozták a Kálmán-szűrő lokális neurális megvalósítását (Szirtes és mtsai, 2005), valamint a figyelemfókuszálás rekonstrukciós háló102
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
zatokban történő szabályzó alapú megközelítésével is foglalkoztunk (Lőrincz, 2005). A Kálmán-szűrő tanításának problémáját sikerült a megerősítéses tanulás keretében megfogalmazni (Szita és Lőrincz, 2004).
5.2.1. A modell rövid leírása A hippokampális formáció és az entorhinális kortex által formált visszacsatolt hurkot lényegében egy Kálmán-szűrővel modelleztük. A Kálmán szűrő a következő lineáris dinamikai rendszer rejtett paramétereinek kiszámításával foglalkozik: rejtett folyamat : megfigyelt folyamat :
zt+1 = Mzt + mt
(5.2.1)
xt = Hzt + nt
(5.2.2)
ahol az mt ∝ N (0, Σm) és az nt ∝ N (0, Σn ) paraméterek független normális eloszlású zajok. A cél az, hogy meghatározzuk a zt rejtett változókat egy ht ∈ Rn mennyiség formájában, amennyiben adott xτ ∈ Rp (itt τ ≤ t) megfigyelt folyamat. Négyzetes mátrixokra és euklideszi normák esetében az optimális megoldást Kálmán adta meg az 1960-as években. A megoldás lényege az ún. predikciós egyenlet, ami megbecsli h értékét a (t + 1)-edik mérés előtt: h(t+1|t) = Fh(t|t−1) + Kt xt − Qh(t|t−1) = Fh(t|t) ,
(5.2.3)
ahol F és Q az M és a H mátrixok approximációi. Kt az úgynevezett Kálmán erősítési tényező (angolul „Kalman-gain”), amelyet a zt rejtett folyamat ht közelítésének megfigyelés előtti és utáni kovariancia-mátrixaiból lehet kiszámolni. Az 5.2.3. egyenletben szereplő et = xt − Qh(t|t−1) kifejezést azonosíthatjuk a rekonstrukciós hibával, mert négyzetes mátrixokra és zajmentes esetben Qh(t|t−1) tökéletesen meg kell egyezzen a bemenettel. Az erősítési tényező az et hibát és a modellből származó Fh(t|t−1) jóslatot egyensúlyozza ki optimálisan a legkisebb hiba elérése érdekében. A Kálmán szűrő tehát képes arra, hogy bizonyos – bár csak elsőrendű lineáris – részlegesen megfigyelt problémát optimálisan oldjon meg. A matematikai struktúra pontosan követi egy visszacsatolt rekonstrukciós hálózat 103
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
szerkezetét, és így meg lehet próbálni a neurális rendszerek visszacsatolt hálózataihoz, így a HC-EC hurokhoz történő illesztését is. Tudomásunk szerint Kawato és mtsai (1993) javasolta az első rekonstrukciós hálózatokat használó neokortikális modellt, ami hasonlóan a most ismertetésre kerülőhöz közelítő pszeudoinverz-számításokat tételez fel neokortikális területek között. Ezt a munkát terjesztette ki Rao és Ballard (1997, 1999) Kálmán-szűrőkre, de nem próbálkoztak modelljük az agy neurális rendszerére történő leképezésével. A neurobiológusokat elsősorban az riasztotta el, hogy a Kálmán-szűrő neurális megvalósítása problémákba ütközik, mert például a megoldáshoz mátrixokat kell invertálnunk. Szirtes és mtsai (2005) cikkükben publikáltak egy közelítést, amiben a Kálmán-szűrő egyenleteket lokális tanulási szabályokkal, tehát neurális megoldással közelítőleg meg lehet oldani. Ennek ismertetésére itt részleteiben nem térek ki, de annyit megemlítek, hogy a közelítés
Kt z ≈ Kθt z = θt . ∗ Kz
(5.2.4)
alakú, ahol θt egy lokális szabályokkal számolható vektor, és lényeges, hogy a közelítés csak akkor érvényes, ha az itt szereplő K mátrixot az előző fejezetben ismertetett független komponens analízis segítségével állítjuk elő. Tehát a Kálmán-szűrő neurális megvalósításában is lényeges szerepet játszanak a független komponensek. Megerősítéses tanulással optimalizált rejtett reprezentáció A modell felhasználja a megerősítéses tanulás egy lehetséges összekapcsolását a Kálmán-szűrővel. Tegyük fel, hogy rendelkezésre áll egy c közvetlen költség, amely minden időpillanatban felírható a következő alakban: c(ht , ut ) = hTt Mh ht + uTt Mu ut ,
(5.2.5)
ahol Mh és Mu , szimmetrikus mátrixok, u ∈ Rp pedig az ún. kontrollvektor, ami megfelel a rendszer által választható akcióknak. Tegyük fel, hogy ez a következő lineáris formában hat a rejtett változókra: ht+1 = Fht + Gut + Kt (xt − yt ), 104
(5.2.6)
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
ahol G ∈ Rp×p mátrix az ún. kontroll-transzformáció. h állapot, u akció és c költség együtt egy megerősítéses tanulás problémát definiál: szeretnénk úgy hatni az u kontrollal a belső reprezentációra, hogy a diszkontált kumulált költség minimális legyen. Kihasználva azt is, hogy a belső reprezentáció lineáris időfejlődést mutat a Kálmán-szűrőnek megfelelően, megmutatható (Szita és Lőrincz, 2004), hogy ebben a megszorított modellben a megerősítéses tanulás egyik alapalgoritmusa, az ún. TD módszer (Sutton és Barto, 1998) meglehetősen egyszerű, neurálisan megvalósítható alakba önthető. A Qπt (h, u) állapot-akció értékelőfüggvény ugyanis ilyenkor a következő kvadratikus alakot ölti: Θ11,t Θ12,t Qt (h, u) = [h , u ] Θt [h , u ]Θt = Θ21,t Θ22,t ahol a Θt tartalmazza a optimalizálandó paramétereket. Ha δt az értékelőfüggvény becslésének differenciája (az ún. TD-hiba): T
T T
T
T
δt = (c(ht−1 , ut−1 ) + Qt (ht , ut )) − Qt (ht−1 , ut−1 ),
(5.2.7)
akkor Qt frissítési szabálya a következő: Θ21,t+1 = Θ21,t + αt · δt · ut hTt
(5.2.8)
Θ22,t+1 = Θ22,t + αt · δt · ut uTt
(5.2.9)
ahol α1 , α2 tanulási ráták. Ez a szabály lokális, neurálisan megvalósítható. Az optimális kontrollvektort a következő kifejezés adja: ut = − (Θ22,t )−1 Θ21,t ht
(5.2.10)
Ez viszont sajnos nem lokális, mert tartalmaz egy mátrix-inverziót. Viszont a következő differenciálegyenlet megoldása ugyanez: dut = −Θ22,t ut − Θ21,t ht (5.2.11) dt Konstans ht esetén az 5.2.11. egyenletben az ut vektor − (Θ22,t )−1 Θ21,t ht hoz konvergál. Nagy ǫ értékek esetén az egyenlet megoldása követni tudja az 5.2.10. egyenlet bal oldalát. Ez a differenciálegyenlet már egyszerűen megvalósítható neurális eszközökkel. ǫ
105
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
Leképezés a HC-EC hurokra Ha feltesszük, hogy a kívülről érkező információ az EC II rétegben jelenik meg, mint ahogy azt a biológiai felépítés alapján várjuk, a Kálmán szűrő leképezése a HC-EC hurokra meglehetősen egyértelmű. A hurok bemenő adatait a rekonstruált input és a beérkező input különbsége, az innováció (vagy rekonstrukciós hiba) adja (lásd még 4.2.2. rész). Az innovációt a dentate gyrus dolgozza fel, ami a modellben ún. vak dekonvolúciót végez (Lőrincz és Buzsáki, 2000). A modell feltételezi, hogy a CA3 és a CA1 területek független komponens analízist végeznek a 4.1.11. és a 4.1.13. egyenleteket megvalósító neurális kapcsolatokkal. A Kálmán-erősítés a CA1 régió minden egyes neuronján hat az 5.2.4. egyenletnek megfelelően. Ehhez a modell az EC III → CA1 direkt kapcsolatokat használja fel. A Kálmán-szűrő rejtett reprezentációját az EC mély rétegei adják, rekurrens kapcsolataik pedig a rejtett változók lineáris modelljét tartalmazzák az F mátrixban. Az EC V rétegből a felszíni EC III rétegre vetítő kapcsolatok rekonstruálják a bemenetet. A modell feltételezi, hogy ez a vetítés képes felülírni az ott található aktivitásokat. A rekonstruált input összehasonlításra kerül a valódi bemenettel, és a kapott hiba (az innovációs folyamat) újból a hurok bemenetét képezi, és a folyamat kezdődik elölről. Az EC VI réteg tartalmazza a kontrollt (akciókat), amelyek az EC V réteg rejtett állapotát optimalizálják költség szerint. Ehhez az EC VI rétegnek gyors időbeli integrációt kell megvalósítania. Az EC III réteg direkt kapcsolatban áll a CA1 réteggel. Az EC III réteg, tehát a rekonstruált input a magasabb feldolgozási szinteken végzett módosítások miatt (például az optimalizált rejtett reprezentáció miatt) különbözhet az EC II neokortikális inputtól. Így a rekonstruált input egyfajta szűrőként is képes üzemelni: meghatározhatja, hogy melyik CA1-beli független információ-továbbító csatorna van nyitva. Ennek megfelelően a magasabb feldolgozási szintek végsősoron modulálni tudják, hogy milyen információ jusson tovább az inputból. Ez a figyelem fókuszálásának egy lehetséges mechanizmusa lehet (Lőrincz, 2005). A modellnek kétfázisú működésre van szüksége ahhoz, hogy a hippokampusz által bekódolt információkat a hosszú távú memóriát jelentő Q mátrixba 106
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
tudja juttatni. Az SPW fázisok (lásd 5.1. rész) alatt a CA3 rekurrens kollaterálisai visszajátsszák az inputok megtanult sorozatait, illetve theta fázisban mintázatkiegészítő szerepet is játszhatnak (Hasselmo, 2005). A modell rajzát tartalmazza az 5.7. ábra. Az elképzelés szerint az EC-HC hurok specialitását az adja, hogy két szerepet egyesít. Egyrészt (1) neokortikális inputot rekonstruáló hálózat, hasonlóan a kortiko-kortikális visszacsatoló hálózatokhoz, más szempontból viszont (B) egy szabályzó hálózatról van szó. A modell szabályzott rekonstrukciót hajt végre, ahol a szabályzás megerősítéses tanulással valósul meg. A kontrollvektor más neokortikális területeket is szabályozhat, befolyásolva így a hosszú távú deklaratív memóriaformálást a teljes neokortikális struktúrában. A modell ellenőrzése Az utóbbi időben számos kísérlet eredménye erősítette meg a modell jóslatait. 1. A modellben a dentate gyrus vak dekonvolúciót végez, amihez késleltető vonalakra van szükség. Ezek létezését nemrégiben kísérletileg kimutatták (Henze és mtsai, 2002). 2. A modell szerint az EC V réteg aktivitásai önfenntartóak, amennyiben nem érkezik újszerű input. Ezt kísérletileg igazolták (Egorov és mtsai, 2002). Az ellenkezőjét találták viszont az EC II rétegben (Klink és Alonso, 1997). 3. Az EC II és EC III efferenseinek különböző szerepét kísérletileg igazolták (Kloosterman és mtsai, 2004). 4. A modellben az EC III efferensek megerősítéses tanulás által felügyeltek, és az információfeldolgozás magasabb feldolgozottság felé haladó útját szabályozzák (Lőrincz, 2005). Kísérletileg igazolták, hogy (1) az entorhinális kortexből közvetlenül a CA1 régióba vetítő kapcsolatok szenzorimotoros és kognitív feladatokban aktívak (Sybirska és mtsai, 2000), (2) ez a közvetlen kapcsolat hatással bír mind a hippokampális formáció tanulására, mind a kimenetére (Remondes és Schuman, 107
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
Kt(xt-yt)
Független komponenseket előállító előfeldolgozási fázis
Megerősítéssel optimalizált rejtett reprezentáció
EC V Q21
W2
W
w DG (+/-)
CA3 U
Dekonvolvált és fehérített innovációt készítő előfeldolgozási fázis
W1
u
*dt
F G
Gu t
CA1disztális
-Q 21h t
s
proximális
D
Fh t
h
Q
h
-Q22ut Q22
EC VI
t
Q
y x-y
(-)
EC II
EC III
Rekonstruált input x
x
5.7. ábra. A HC-EC hurok feltételezett funkcionális térképe. A rekonstrukciós hiba (innováció) az EC II rétegből a dentate gyrus-ba, onnan a CA3, majd a CA1 régiókba képződik le. A belső reprezentáció költség szempontjából optimális formájának kialakítása az EC mély rétegeiben történik meg, ahol a VI réteg tartalmazza a kontrollt és az V réteg a rejtett változókat. Vastag tömör vonalak : az 5.2.6. egyenlet komponensei. Vastag szaggatott vonalak : az 5.2.11. egyenlet elemei. A világosszürke dobozok jelölik a különböző neurális rétegeket, világosszürke ellipszisek a funkcionális szempontból elkülöníthető egységeket. A kisbetűs változók az egyes rétegek által reprezentált matematikai mennyiségeknek felelnek meg. A nyilak melletti nagybetűs mennyiségek a leképező mátrixokat jelölik. További jelölések: t: időindex, W1 , W2 , W: Az FKA transzformáció elemei, U, D: vak dekonvolúció elemei, x: input, y: rekonstruált input, x − y: rekonstrukciós hiba, w: dekonvolvált és fehérített reprezentáció, s: független komponensek, h: rejtett változók, u: kontrollvektor, Θ21 : a rejtett változóktól a kontrollvektorba leképező mátrix, Θ22 : az EC VI rekurrens kapcsolatai, Q: a mély rétegeből a felszín rétegekbe képző szinaptikus R mátrix – ez képzi a hosszútávú memóriát, F: becsült predikciós mátrix, dt: gyors időbeli integrálás.
108
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
2002), valamint (3) ezen kapcsolat kiirtásával a hosszú távú memória kialakulása sérül (Remondes és Schuman, 2004). 5. A modell szerint az EC mély rétegei központi szerepet játszanak az entorhinális kortex mély és felszíni rétegei közötti kapcsolatok tanításában (Lőrincz és Buzsáki, 2000). Erre nemrégiben kísérleti bizonyítékokat találtak (Yang és mtsai, 2004). A modell egy lehetséges tesztjét jelenti az elméleti és az in vivo kimért tüzelési mintázatok összehasonlítása. A következő részben numerikus szimulációkon keresztül bemutatom, hogy megfelelő feltételek mellett a modell által jósolt mintázatok nem állnak messze a valódiaktól.
5.3. Tüzelési térképek a modell szimulációiban 5.3.1. Hippokampusz A a 4. fejezetben amellett érveltem, hogy a (temporális) független komponens analízis képes lehet arra, hogy a szenzoros feldolgozás komplexitásán csökkentsen. A biológiai struktúráról elmélkedő kutatóktól sem távol álló gondolat, hogy az információ-átvitel maximalizálása jelentheti a kulcsot az agyi struktúrák modellezéséhez (Barlow, 1987; Field, 1994; Baddeley, 1996; Olshausen és Field, 1997). A független komponens analízis neurális eszközökkel megvalósítható információ-átvitelt maximalizáló algoritmus, a modellezők érdeklődése tehát nem véletlen fordult ebbe az irányba. Többen igazolták, hogy a látókéreg sejtjeinek kimért receptív mezőihez hasonló struktúrákat kapunk a független komponens analízis vagy azzal bizonyos feltételek esetén ekvivalens algoritmusok segítségével (Olshausen és Field, 1997; Hyvärinen és Hoyer, 2000). Érdekes eredmény Hateren és Ruderman (1998) cikke, ahol a szerzők úgy találták, hogy a időben konkatenált sorozatokon végzett független komponens analízis (4.2.1. rész) jobban megközelíti a valódi receptív mezők tulajdonságait. A T-FKA a modellbe beépíthető, mivel a CA3 piramissejtek dendritfáin extrém hosszú késleltetések tételezhetők fel (Jaffe és Carnevale, 1999; Mehta, 2004). Az alábbiakban bemutatok egy kísérletet, ami igazolja, hogy az 5.2.1. részben bemutatott modell képes helyfüggő sejteket kialakítani egy labirintusban 109
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
mozgó robot szimulációjában. Az eredmény egy korábbi cikkünk kiterjesztése (Lőrincz és mtsai, 2001c), a fontosabb különbségek, hogy (1) a robot folytonos pozíciót vehet fel, (2) a felhasznált szenzoros információ sokrétű: modellezi egy patkány taktilis ingereit, látásinformációit és saját mozgására vonatkozó észleleteit, (3) kizárólag a robothoz rögzített koordinátarendszerben adott információkat használtam, (4) az útvonal generálása valószerű, (5) a bemenő információ tekintélyes zajtartalommal rendelkezik. 5.3.1. Szimuláció. A robot és a környezet modellezésére egy nyílt forráskódú Khepera robot szimuláció módosított változatát használtam4 . A környezet egy U alakú pálya volt. A pálya részleteit mutatja az 5.8(a). ábra. A robot egy egyszerű kontrollerrel volt felszerelve, amely igyekezett a robot a pálya közepén tartani: amennyiben a rövidtávú szenzorok akadályt észleltek, a robotot elfordították az akadály irányából, egyébként maximális sebességgel előre haladt. Ha mégis bekövetkezett az ütközés, a robot megállt, és automatikusan kb. 100 fokot fordult az ütköző oldallal ellentétes irány felé. Így időnként előfordult az is, hogy a robot 180 fokos fordulat után a labirintus ugyanabban a karjában folytatta útját, de többnyire az 5.8(b). ábrán látható útvonalat követte. A szenzoros információ tartalmazott „tapintási” információkat, amelyet a Khepera kis távolságokat detektálni képes infravörös szenzorai felhasználásával modelleztem, a robot saját mozgására vonatkozó információkat, amit a robot két motorjának aktuális forgatónyomatéka jellemzett, és végül vizuális információkat, amelyeket a 64 × 1 pixel felbontású lineáris kamera szolgáltatott (lásd még 5.8(c). ábra és magyarázata). A szenzoros információ időben konkatenált változatát használtam: minden időpillanatban 7 szenzoros bemenet együttesén dolgoztam. Az így beágyazott reprezentáció képezte a FastICA algoritmus bemenetét (lásd 4.1.14. egyenlet), amellyel 30 dimenzióra történő projekciót végeztem. A FastICA nem rendelkezik állítandó paraméterekkel, viszont képes negatív és pozitív kimeneteket adni, amelyek értelmezése ebben a neurális kontextusban nem nyilvánvaló. Léteznek a független komponens analízisnek nemnegatív eredményeket adó megvalósításai (lásd pl. Yuan és Oja (2004)), de 4
http://yaks.ida.his.se/
110
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
még egyszerűbb egyszerűen megduplázni a kimenő dimenziók számát, és a negatív és pozitív kimeneteket elkülöníteni. Az 5.9. ábrán ezt az eljárást követtem. A negatív értékek teljesebb magyarázatához jutunk, ha feltesszük, hogy a neurális válaszok rátakódban értelmezendők, tehát alacsony rátájú spike-ok (kisülések) kódolják a negatív számokat. A tüzelési térképeket elkészítettem úgy is, hogy úgy tekintettem, hogy a vizsgálandó sejtet tüzel, ha aktivitása az előforduló aktivitások tartományának felezőpontjától nagyobb. Ekkor a tüzelési térkép valóban tüzelési valószínűségeket ábrázol. A kapott ábrák nem különböztek lényegesen a közvetlen aktivitás-átlagolással készült ábráktól, ezért a továbbiakban a tüzelési térképek elkészítésénél mindig közvetlenül az aktivitásokat átlagoltam egy-egy rácspontban. A különbséget azzal fogom kiemelni, hogy a továbbiakban a térképekre aktivitási és nem tüzelési térképekként fogok hivatkozni. Az aktivitási térképek elkészítéséhez Brown és Skaggs (2002) cikkében leírt algoritmust használtam: ha egy mintavételezési pontban kevés (< 50) mintapont volt (mert például a robot csak kevés alkalommal fordult meg abban a pozícióban), akkor a mintákat a legkisebb olyan sugarú körből gyűjtöttem, amely már tartalmazott 50 mintapontot. A kör sugara maximálisan 10mm volt, ha a szükséges mintákat csak ennél távolabbról lehetett volna begyűjteni, a pontot érvénytelenné nyilvánítottam. Az aktivitási térképek mintavételezése 100 × 100 pontban történt. A mintavételezési pontok számának növelésével a térképek nem adtak több információt. A robot pozícióját összesen 40000 pontban vettem fel, ami nagyjából 500 teljes bejárásnak felel meg.
Eredmények Minden független komponenst reprezentáló modellezett neuron irány- és helyfüggő aktivitási térképet mutatott. Négy tipikus térképet mutat az 5.9. ábra. A sejtek egy-egy kitüntetett pontban mutattak kiugró aktivitást, noha a környezetról szóló információk csak egy igen zajos, bizonytalan, hiányos forrásból állt rendelkezésre. Intuitíve azt is mondhatjuk, hogy a független komponens analízis algoritmusának sikerült elkülöníteni a bejövő információk nem összefüggő darabjait (amennyire ez lehetséges). A kapott aktivitási 111
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
(a) A Khepera robot és a tesztkörnyezet
(b) Tipikus befutott pályák
aktivitás
infravörös szenzor 1 0.5 0 50
100
150
200
250
300
350
400
450
500
300
350
400
450
500
300
350
400
450
500
időlépés
aktivitás
látószenzor 1 0.5 0 50
100
150
200
250 időlépés
aktivitás
mozgásszenzor 1 0.5 0 50
100
150
200
250 időlépés
(c) Szenzorok: „bajuszok ” (nagylátószögi, rövid hatósugarú infravörös érzékelők), vizuális szenzorok és perifériális mozgásdetektorok. Az itt ábrázolt tartomány kb. 3 teljes körbefutásnak felel meg.
5.8. ábra. A robot és környezete, a bejárt pályák és a szenzoros információ. A robotot egy U alakú környezetben teszteltem, ami az (a) ábrán látható. A „labirintus” mérete 200 mm volt mindkét irányban. A robot mérete 55 mm. A robot szenzoros rendszere állt (1) két szenzorból, ami a robot saját mozgására vonatkozó információkat a bal- és jobboldali motorra adott vezérlőjelen keresztül jellemezte (0: teljesen hátrakapcsolt, 1: teljesen előrekapcsolt állapot, 0.5: álló motor), (2) nyolc „taktilis” szenzorból, amelyet a Khepera rövid távú (kb. max 40 mm távolságon észlelő) infravörös szenzorai adtak, amelyekből 6 van az elülső részen, 2 a hátsón, (3) egy 64 × 1 pixel felbontású kamera, amely legfeljebb 100 mm távolságra lát 36 fokos látószögben, amely egyenletesen oszlik meg a 64 pixel között. A kamera egy pixele 1, ha fal van az adott irányban és maximális távolságon belül, 0, ha nincs. A pixelek értékét egy kis abszolútértékű zaj is zavarta. A 74 szenzorból képzett vektor képezte a szimuláció bemenetét. A rendszer semmilyen információt sem kapott abszolút pozíciójáról. 112
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
1. sejt
2. sejt
3. sejt 6
4 3
4
4. sejt 3
6
2
4
1
2
2 2 1 0
0 6
4 3
4
0 3
6
2
4
1
2
2 2 1 0
0
0
5.9. ábra. CA1 aktivitási térképek a modellben. Felső sor: aktivitási térképek négy tipikus sejt esetében, ha a bejárt út jobbról balra vezet (az 5.8(b). ábra fehér nyilai), alsó sor: aktivitási térképek ugyanezen modellezett sejtek esetén, ha a robot balról jobbra halad (az 5.8(b). ábra fekete nyilai).
térképek hasonlóak a valódi mérések során patkányokban mért tüzelési térképekhez, amit az 5.4. ábra CA1 eredményeivel történő összehasonlítással ellenőrizhetünk. A független komponens analízis által felhasznált információ nem tartalmazott allocentrikus (külső koordinátarendszerben adott) összetevőket. A kísérletek közvetlen eredménye, hogy helyre érzékeny sejtek modellezhetők lineáris labirintusban globális helyinformációk nélkül is. A kutatók a modellek túlnyomó többségében felteszik ilyen információ meglétét, és a nyílt területeken tapasztalt helyfüggés magyarázatához az ilyen információk jelenlétét többnyire szükségesnek is tartják (lásd 5.5. ábra). Ugyanakkor bármilyen globális információ bevitele a helyfüggő sejtek kialakulását többé-kevésbé triviálissá teszi. A hippokampusz-entorhinális kortex esetében a lényeges kérdés inkább az, hogy elég-e ez a struktúra önmagában ahhoz, hogy kialakítson ilyen sejteket. Erre a kérdésre a fejezet végén még visszatérek, most azonban nézzük tovább, hogy képes-e a modell produkálni a többi régióban kialakuló tüzelési térképeket. 113
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
5.3.2. Entorhinális kortex felszíni rétegei Mint azt a 5.1.2. részben már említettem, az entorhinális kortex felszíni rétegeiben a piramissejtek tüzelési térképe szabályos háromszögekből álló rácsot mutat. A kísérleti tapasztalatok szerint a tüzelési térképeken tapasztalt rács állandója (tehát a rácsot felépítő háromszögek oldalhossza) sejtről-sejtre változik (Hafting és mtsai, 2005). Továbbá, a rács nem kimutatható hippokampális lézió esetén. Érdekes kérdés, hogy miként lehetne egy ilyen tüzelési térkép megjelenését magyarázni. Modellezési próbálkozásaim során arra az eredményre jutottam, hogy bizonyos feltételezések mellett a struktúrát egy igen egyszerű neurális szabály, az ún. anti-Hebb szabály érvényesülése magyarázni tudja. Az antiHebb szabály pontosan azt takarja, mint amire a nevéből következtethetünk: az 5.1.3. részben említett Hebb-szabálynak megfelelően, ami erősíti két neuron közötti kapcsolatot, ha azok együtt aktívak, az enti-Hebb szabály ilyenkor gyengíti a kapcsolatot. A formális leíráshoz szorítkozzunk egyetlen lineáris átvitelű neuronra, és vizsgáljuk meg egy ilyen szabály hatásának következményét. Jelölje a neuron bemenő szinpatikus súlyaiból alkotott vektort w. Feltesszük, hogy a w súlyokat kötegelt eljárással tanítjuk, tehát elhagyjuk w a mintavétel idejétől vett függését. Az anti-Hebb feltevés w-re nézve az alábbi szabályt jelenti (α > 0):
∆wT = −αwT
X
x(t)x(t)T ,
(5.3.1)
t
ami w komponenseiben a következő szabállyal ekvivalens:
∆wi = −α
X j
wj
X
xj (t)xi (t) = −αwT
X
xi (t)x(t).
(5.3.2)
t
t
A szabály a következő költségfüggvény w szerinti deriváltjából is megkapható:
J=
X
(wT x(t))2 .
t
114
(5.3.3)
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
Tehát az anti-Hebb szabály egy ritkító szabály, ami arra törekszik, hogy a neuron kimenetének négyzete a lehető legkisebb legyen. A (5.3.1) egyenletből származtatható
˙ = −αw w
X
x(t)x(t)T
(5.3.4)
t
egyenlet megoldása a következő:
′
w(t′ ) = e−αt
P x(t)x(t)
T
t
,
(5.3.5)
P illetve a −α t x(t)x(t)T mátrix sajátértékeit λi -vel, sajátvektorait pedig ui -vel jelölve: w(t′ ) =
X
′
ci ui eλi t
(5.3.6)
i
P amiben a ci konstansok a (5.3.5) egyenlet alapján kiszámolhatóak. A t x(t)x(t)T mátrix sajátértékeiről annyit tudunk, hogy szimmetrikus pozitív definit mátrixról van szó, így minden sajátértéke pozitív kell legyen. Az eredeti mátrix esetében tehát mindegyik λ negatív, így (5.3.1) mindig konvergál. Egy biztos fixpont a w ≡ 0 eset, de ha w kezdetben véletlen értékeket vett fel, minden sejt súlyvektora különböző lokális optimumokba juthat. Egy további érdekes következtetésre juthatunk, ha megnézzük az 5.3.3. költségfüggvényt: arra is számíthatunk, hogy azok a wi -k csökkennek a legnagyobb mértékben, amelyek olyan bemenetekhez tartoznak, amelyek azonos időben aktívak (mert ilyenkor lesz a kimenet (y) abszolútértéke a legnagyobb). Ennek pedig a hippokampális formáció tüzelési térképeiben gondolkodva lényeges következménye van. A térképek átfedései megmutatják, hogy két sejt mikor aktív együtt. Ha egy neuron bemeneteit változatos mintákban térbeli pozícióra érzékeny sejtek képezik és a kapcsolatok erősségét az antiHebb szabály szerint állítjuk, akkor azt várhatjuk, hogy a sok más bemenő sejttel átfedő bemenő sejtek súlya és így a neuron kimenetére gyakorolt hatása igen gyorsan csökken, míg a kevés más sejttel átfedőké jóval lassabban 115
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
változik. Ha a bemenő sejtek érzékeny területeinek van valamilyen minimális mérete, akkor a konvergencia során a néhány kezdőlépés után azon sejtek súlyai fognak megmaradni, amelyek a lehető legkisebb méretűek és/vagy nem fednek át a többi sejt érzékeny területével. Ennek következménye egy szoros pakolású tüzelési térkép, ami kétdimenziós esetben egy szabályos háromszögekbe rendeződő rács. Talán egy egyszerű példával ezt úgy lehetne szemléltetni, hogy kiszórunk egy nagy halom papírlapot egymásra, és utána mindig kihúzzuk a halomból azt, ami felülnézetben a legtöbb más papírlappal fed át. A végén egymást nem takaró, össze-vissza álló papírlapok maradnak, amelyek szorosan egymáshoz vannak illesztve. A példa nem tökéletes, mert az eredeti esetben a papírlapokat „ki is vonhatjuk” az eredeti halomból, ha negatív súlyt rendelünk hozzájuk. Bővebb magyarázathoz nézzük meg a (5.3.2) egyenletet. wi gyorsan csökken, ha a jobb oldalon álló kifejezés nagy. Tegyük fel, hogy kezdetben mondjuk minden wi = 1. Legyen k olyan index, amire xk sok más inputtal átfed, ugyanakkor legyen l olyan index, amire xl kevesebb inputtal fed át, tehát P P P P legyen j t xk (t)xj (t) > j t xl (t)xj (t). Ekkor igaz a következő: ∆wk (0) = −α
X j
wj
X
xj (t)xk (t) >
t
XX j
xl (t)xj (t) = ∆wl (0) (5.3.7)
t
tehát kezdetben a kevésbé átfedő wi -k lassabb ütemben fognak csökkenni, mint az átfedők. A (5.3.2) egyenletből az is látszik, hogy ha w-t sikerülne ortogonalizálni P az iterációk során a t xi (t)x(t) (konstans) vektor(ok)hoz képest, ∆wi = 0 lesz. Természetesen ez nem fog minden vektorra teljesülni, viszont ezzel magyarázható az, hogy a szimulációkban kezdetben a rács "gyorsan" beáll, majd lassú csökkenés következik: w relatíve gyorsan bejut abba a pozícióba, ami a lehető leginkább merőleges a kovariancia-mátrix oszlopaira. Így az antiHebb szabály tulajdonképpen egy "preferált irányt" jelöl ki w-nek, ahova igen gyorsan beforgatja a súlyvektort. Az anti-Hebb szabály önmagában nem garantálja az információk átvitelét (például a w ≡ 0 fixpont semmilyen információt nem visz át). Ezért az anti-Hebb szabályt érdemes kiegészítenünk stabilizáló tagokkal. Egy jónak ígérkező lehetőség, hogy az anti-Hebb szabályt mellett megpróbáljuk 116
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
maximalizálni az információ-átvitelt, amit a független komponens analízissel végezhetünk (4.1. rész). Nézzük, milyen eredményekhez vezet az anti-Hebb szabály alkalmazása az előző részben ismertetett Khepera szimulációkban. 5.3.2. Szimuláció. A használt rendszer megegyezik az 5.3.1. kísérletben ismertetettel. A robotot ezúttal egy kör alakú környezetbe helyeztem, amelynek sugara 200 mm volt. A kontroller annyiban ki lett egészítve, hogy időnként véletlen fordulókat iktatott be, hogy a labirintus közepét is relatíve gyakran mintavételezhesse. Bár próbálkoztam az előző kísérlet szenzoros rendszerével is, az nem bizonyult elegendőnek ahhoz, hogy a labirintus közepéről is elegendően gazdag információkat nyújtson. Ezért a szenzoros rendszert rotáció-invariáns detektorok kal egészítettem ki, amelyek aktivitási térképe a postrhinális kortexből származó inputokéra hasonlít (5.5. ábra). Ezeket a szenzorokat a labirintus területén véletlenül elhelyezett, 20 és 40 mm között változó félértékszélességű kétdimenziós Gauss-foltok keverékéből állítottam elő. A szenzorok átlagosan 20 ilyen véletlenszerűen kiválasztott foltra voltak érzékenyek (de volt, amelyik többre, volt amelyik kevesebbre), tehát akkor mutattak aktivitást, amikor a robot áthaladt a foltokon. Néhány tipikus aktivitási térképet mutat az 5.10(a). ábra. Feltettük, hogy a sejtek nem irányszelektívek, mint ahogy ezt a nyílt labirintus esetében tapasztalták (5.1.2. rész). 1000 ilyen szenzor képezte a rendszer bemenetét. A tesztek során kipróbáltam az anti-Hebb szabályt, a fehérítést és a független komponens analízist és ezek kombinációit. Ha y = Wx jelöli a megtanulandó transzformációt, akkor például az anti-Hebb szabály és a független komponens analízis kombinált szabálya a következő: ∆W = −αyxT + β(I − f (y)yT )W,
(5.3.8)
ahol α, β pozitív konstansok (a később bemutatott eredményekben α = 0.002 és β = 0.001) és f (.) egy nemlineáris függvény (lásd 4.1.13. egyenlet). Itt az y dimenziója 30-ra volt választva. A jobb oldal első tagja felel meg az 5.3.1. egyenletnek. Az aktivitási térképeken rácsok keresésére a következő algoritmust használtam. 117
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
1. Az aktivitási térkép simítása egy átlagoló szűrővel. Ez opcionális lépés volt, a bemutatott ábrákon nem használtam. 2. Az I(x, y) térkép 2D autokorrelogramjának kiszámítása: P P CI (x, y) = ∆x ∆y I(x, y)I(x + ∆x, y + ∆y).
Szabályos háromszögekből álló rácsok esetében a korrelogramnak ugyanolyan háromszögrács-struktúrát kell mutatnia, mint az eredeti képnek, tehát a probléma ugyanaz marad, viszont egy igen hatékony zajszűrést alkalmaztunk.
3. Miután az aktivitási térkép véges, a korrelogramot pontonként normalizálni kell annak megfelelően, hány pontot összegeztünk. Legyen CI′ (x, y) = CI (x, y)/CB (x, y), ahol B(x, y) az I(x, y) aktivitási térkép bináris maszkja. Ha CB (x, y) < 100, ezt a pont vegyük ki CI′ -ből. 4. Keressük meg az Mi (xi , yi) lokális maximumokat a CI′ (x, y) normalizált korrelogramban. 5. Dobjuk el azokat a csúcsokat, amelyek nem érik el a teljes intenzitástartomány egy megadott százalékát, tehát ahol CI′ (xi , yi)
max CI′ (x, y) x,y
−
min CI′ (x, y) x,y
(K ∈ [0..1]).
Ezek a csúcsok feltehetőleg hamis maximumokon vannak (opcionális, az ábrákban nem használtam). 6. Vonjuk össze azokat a csúcsokat, amelyek túl közel vannak: • számoljuk ki a d(i, j) távolságokat minden csúcsra, • majd keressük meg a legkisebb d(k, l) távolságot, ezután legyen xk := (xk + xl )/2 és yk := (yk + yl )/2 és töröljuk az Ml csúcsot a maximumok listájából. • Kezdjük elölről, ha d(k, l) ≤ 3. 7. Készítsük el a Mi ponthalmaz Delanuay-háromszögelését. 118
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
8. Tekintsük a kapott rács éleit egy eloszlásból származó mintavételeknek. A háromszögelés azon éleit dobjuk el, amelyek nem tartoznak legalább két háromszöghöz. Erre a lépésre azért van szükség, mert a korrelogram szélén kialakulhatnak olyan élek a hiányzó pontok miatt, amelyek valójában nem képezik részét a rácsnak. 9. Készítsük el az élek hosszának hisztogramját. Azt várjuk, hogy ez a hisztogram ritka eloszlást fog tükrözni (ideális esetben minden él egyforma hosszú kell legyen), a szórásnak pedig kicsinek kell lennie, ha valóban háromszögrács van az eredeti képen. Eredmények A Khepera eredeti szenzoros rendszere nem volt alkalmas a rácsformálás kimutatására, mert a normál szenzorok nem tudnak különbséget tenni pl. a labirintus elforgatottjai között. Ugyanígy a független komponens analízis önmagában nem adott rácsstruktúrát semmilyen kipróbált inputon. Az invariáns szenzorok és az anti-Hebb szabály alkalmazásával viszont háromszögekből álló rácsot kaptam. A tanulási szabályt az 5.3.8. egyenletnek megfelelően kiegészítettem független komponens analízissel vagy fehérítéssel. Természetesen más kiegészítések is lehetségesek. Az 5.10(b). ábra mutat két példát a kialakuló aktivitási térképekre a kimeneteken az 5.3.8. egyenlet esetében. Az 5.11. ábra mutatja a kialakulás folyamatát. Hogyan jelenik meg az anti-Hebb szabály a modellben? Egy nyilvánvaló lehetőség a mindenütt jelenlévő gátló kapcsolatrendszerek hatását ezzel a szabállyal modellezni, de ez önmagában még nem ad magyarázatot néhány kísérleti eredményre. A tapasztalatok szerint a rács ugyanis nem alakul ki, ha a hippokampusz sérülést szenved. A biológusok néhány éve tudják, hogy az LTP (tehát a Hebb-szabály idegrendszerben kimérhető formája) számos esetben egy időben asszimetrikus átviteli függvényen keresztül valósul meg: az ok-okozati viszonyban álló tüzelések (tehát amikor a kimeneten megjelenő aktivitást megelőzi a bemeneten megjelenő) esetén a kapcsolat erősödik, egyébként gyengül. A mechanizmust angolul spike-time dependent plasticitynek (STDP), azaz a tüzelés időpontjától függő alakíthatóságnak hívják (a terület egy összefoglalóját adja 119
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
2 1.5 1 0.5
1.4 1.2 1 0.8 0.6 0.4 0.2
1.5 1 0.5
2 1.5 1 0.5
(a) Példák az invariáns szenzorok aktivitási térképeire 3 2
35
6
30 25
1
5
20 0
15
−1
10
−2
5 0
4 4
6
8
3 40 2 1 0
2
30 20
1
−1 −2
10
−3
0
4
6
5.2
8
(b) Két példa a kialakult rácsos aktivitási térképekre, azok autokorrelogramja, és az élek hosszának hisztogramja
5.4
5.6
5.8
6
6.2
6.4
(c) Az átlagos élhosszak hisztogramja mind a 30 sejtre együttesen
5.10. ábra. A kialakított mátrix által transzformált inputok aktivitási térképe háromszög-rácsokat tartalmaz. (a) az invariáns szenzorok aktivitási térképe, (b) bal oldali oszlop: két tipikus példája a kapott aktivitási térképekre, középső oszlop: autokorrelogram és a rajtuk detektált rácsszerkezet, jobb oldal: az egyes rácsok élhosszainak hisztogramja. A legutóbbin folytonos vonal jelzi az átlagos élhosszt, szaggatott vonalak pedig a szórástartományok határát. Az élhosszak átlagaiból készült hisztogramot mutatja a (c) ábra.
120
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
A 10., 30., 70., 180., 450., 1160. és 3000. iterációs lépések 4 10
4
5 2
0
0
4
2
5 0
2
0
0
2
0
0
−2
−2
−4
−4
−5 −2
−5
−10
−2
−10 −4
2
3
4
10
40
40
40
20
20
2 1
2
5
20
1 0
5
10
15
0
5
10
15
0
5
10
15
0
5
10
15
0
5
10
15
0
5
10
15
0
5
10
15
5.11. ábra. A háromszög-rácsok kialakulása. A sorozat az iteráció jelzett lépéseiben látható állapotot mutatja az egyik sejt esetében. Az ábrák leírásához lásd az 5.10(b). ábra magyarázatát. Abbott és Nelson (2000)). Magyarán minden esetben az anti-Hebb szabály érvényesül, amikor a tüzelések nem állnak közvetlen ok-okozati viszonyban. Konkrétabban, az STDP szabály erősítő részének időablaka a hippokampális sejtek esetében kb. 20-30 msec, tehát ha a szinapszis kimeneti és a bemeneti neuronja ekkora tartományon belüli időkülönbséggel és megfelelő sorrendben tüzel, a szinapszis erősödik, egyébként gyengül. A perirhinális és a MEC terület közötti szinapszisok kimenetét a rekonstruált hiba képzi, amely csak jelentős (>100 msec) késleltetéssel ér körbe a hurokban. Mindenképp hosszabb késleltetésekkel kell tehát számolni, ami az STDP szabály tulajdonsága miatt úgy tűnhet, mintha egy anti-Hebb szabály érvényesülne ezeken a kapcsolatokon. Úgy is mondhatjuk, hogy az anti-Hebb szabály modellezheti a hurok késleltetéseit, míg az aktivitást fenntartó rész a direkt perirhinális-MEC kapcsolatok feedforward serkentő hatásából ered. Kísérleteim szerint a STDP szabály direkt alkalmazása az 5.3.2. kísérletben szintén háromszög-rácsokhoz vezet. A rácsszerkezet kialakulása egyelőre még igen új felfedezés. Jelenleg is számos kísérlet folyik, amellyel a neurobiológusok tisztázni próbálják kialakulásuk körülményeit. Néhány új modell ebben a témában Treves és mtsai (2005) és Fuhs és Touretzky (2006) munkái, ahol a rácsszerkezetet a perio121
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
dikus struktúrákon történő információ-átvitel optimalizálásával illetve speciális konstrukciójú neuronhálózatokkal (spinüveg-hálózatokkal) igyekeznek magyarázni. Az itt bemutatott eljárás a bemenő adatok (valóban létező) térbeli korrelációján kívül nem használ fel extra feltételezéseket.
5.3.3. Entorhinális kortex mély rétegei Az entorhinális kortex mély rétegei a kísérletek szerint – a CA1 területhez hasonlóan – lokális tüzelési térképeket és lineáris labirintusban irányfüggő válaszokat adnak. A lényeges különbség az, hogy az EC V-VI rétegekben mért place field-ek kiterjedtebbek (5.4. ábra). Az alábbiakban bemutatott szimulációban azt vizsgáltam, hogy milyen aktivitási térképeket kapunk a vizsgált hippokampális modell szerint a mély EC rétegek szimulációjában a háromszög-rácsok képzésére alkalmazott mechanizmus alkalmazásával az U alakú labirintusban. 5.3.3. Szimuláció. Ismét az 5.3.1. kísérletben használt környezetet használtam, viszont ezúttal az 5.3.2. szimuláció szerinti eljárással 250 invariáns detektort állítottam elő az U alakú labirintusban. Ezeken független komponenssel kevert anti-Hebb szabályt alkalmaztam az EC II-III rétegek aktivitásainak szimulációjához (ennek kimenete ismét 30 dimenziós volt). Az entorhinális kortex szimulált rétegeiben a pozitív aktivitásokra történő küszöbölést alkalmaztam (rátakódot feltételezve csak a pozitív értékeknek megfelelő tartományban észlelünk tüzeléseket). A CA1 mező esetében a modell neurális Kálmán-szűrő megoldásának megfelelően (lásd 5.2.1. rész) egy további küszöbölést alkalmaztam, ami a neuronok kimenő aktivitását csak akkor engedte át, ha azok elérték a neuron maximális tüzelésének legalább 10%-át. A CA1 afferenseket az 5.3.1. szimulációban leírtaknak megfelelően T-FKA algoritmussal tanítottam. Az idősor-konkatenáció mélysége 7 volt. A CA1 kimeneteken a Kálmán-szűrő rejtett rétegének szimulációjához időbeli kompressziót végeztem, amely során 7 egymás után következő inputot összegeztem. A kapott reprezentáción a Kálmán-szűrő 5.2.3. egyenletnek megfelelő prediktív rendszerének szimulációjához a Hebb-szabállyal prediktív mátrixot tanítottam. A két tanítás (T-FKA és predikció) nem egymással párhuzamosan, hanem egymás után zajlott le. 122
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
4 3 2
1.5 1 0.5
1
2.5 2 1.5 1 0.5
1
0
8 6 4 2 0
12 10 8 6 4 2
(c) CA1, balról jobbra irány 5 0
8 6 4 2 0
2 1.5 1 0.5
0
(a) Néhány példa az invariáns szenzorok aktivitási térképeire 5
1.5 1 0.5
(b) EC II-III
30 20 10
20
30 20 10
0
(d) EC V-VI, balról jobbra irány 12 10 8 6 4 2
(e) CA1, jobbról balra irány
30 20 10
20
30 20 10
0
(f ) EC V-VI, jobbról balra irány
5.12. ábra. Példák a modellezett területek aktivitástérképeire. (a): három invariáns szenzor a 250 közül, (b): az EC II-III területeknek megfelelő aktivitási térképek, mindkét irányra egyszerre összegezve, (c), (d): aktivitási térképek a bal karból jobb karba történő mozgás során a modellezett CA1 és EC mély rétegekben, (e) és (f): aktivitási térképek az ellenkező irányba mutató pálya esetén. A különböző irányok szerint egymás alá került térképek ugyanazon neuron térképét ábrázolják. A (c) és a (e) ábrán látható, hogy a modellezett CA1 neuronok lokális, és irányfüggő válaszokat adtak, míg a (d) és a (f) ábrán az EC mély rétegeinek modellje elnyújtott és irányérzékeny térképeket produkáltak. A különböző irányokba összetartozó aktivitásokat közös skálán ábrázoltam.
Eredmények
A modell aktivitási térképekeit az 5.12. ábra foglalja össze. Az invariáns szenzorok aktivitási térképét mutatja az 5.12(a). ábra. Láthatjuk, hogy a CA1 térképek az 5.3.2. részben ismertetett elgondolások beépítésével is az 5.3.1. szimulációhoz hasonló eredményeket szolgáltatnak. A mély EC rétegekben a Hebb-szabállyal predikált aktivitások térképei az 5.4. ábrának megfelelően a mozgásiránytól függő, elnyújtottabb válaszokat adtak. 123
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
5.4. Neurális megerősítéses tanulás alkalmazása kontrollra A független reprezentáció keresése – mint a hippokampális struktúra egyik fő feladata – harmonizál azzal, amit a a 4. fejezetben írtam a független komponensek felhasználhatóságáról a megerősítéses tanulásban. A független komponensek Kálmán-szűrővel és megerősítéses tanulással történő összekapcsolása lehetővé teszik a háttérben zajló folyamatok modellezését és így azok független optimalizációját, tehát az ismertetett modell mellett szól annak potenciális komplexitás-csökkentő képessége is. Számos bizonyíték utal arra, hogy a hippokampális formáció funkcionális szerepe lényegében ugyanaz mindegyik emlősállat esetében (lásd pl. Redish (1999)). A különbségek elsősorban a beérkező információ jellegéből és előfeldolgozásából, a viselkedési különbségekből (jutalmazási rendszerből) adódhat. Ennek megfelelően a hippokampusz sérülésével (léziójával) járó memóriazavarok arra utalnak, hogy a HC-EC hurok fő szerepe nem kizárólag a helyfüggő sejtek kialakítása, vagy más szavakkal, nem csak térbeli navigáció a feladata. Majmokon végzett kísérletek szerint a főemlősökben a hippokampális sejtek nem a pozícióra, hanem direkt vagy indirekt látási információkra érzékenyek (Rolls, 1999). Általánosabb megfogalmazáshoz jutunk, ha azt állítjuk, hogy a hippokampális formáció az optimalizálandó környezetet allocentrikus, tehát az állattól független koordinátákban történő reprezentációja lehet (O’Keefe és Nadel, 1978; Georges-Francois és mtsai, 1999). A tárgyalt hippokampális modell ezt annyival egészíti ki, hogy ezen reprezentációk kialakításához az egész hippokampális formációra szükség van. A jutalmazási rendszer bevonása a hippokampális modellekbe már régi gondolat. Elsőként Marr javasolta azt, hogy a hippokampusz a térbeli információ és a jutalom asszociálásának színtere lehet (Marr, 1971) (lásd még Treves és Rolls (1994); Rolls (1996)). Az elméleti megfontolások mellett kísérleti bizonyítékok is vannak arra nézve, hogy a kapott jutalom képes a patkány hippokampális neuronjaira hatást gyakorolni (Hölscher és mtsai, 2003; Tabuchi és mtsai, 2003). Még szembetűnőbb ez majmokban: néhány ellenkező módon jutalmazott próba képes arra, hogy a hippokampális sejtek válaszait befolyásolja (Rolls és Xiang, 2005). Arra nézve is vannak eredmények, hogy a 124
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
hippokampális rendszer tanulása a kumulált jutalom függvénye (Bower és mtsai, 2005), márpedig a megerősítéses tanulás a várható kumulált jutalommal foglalkozik. Az alábbiakban egy kísérletben bemutatom, hogy az 5.2.1. részben leírt kvadratikus, neurális alapokon implementálható megerősítéses tanulás képes önmagában megoldani egyszerű navigációs problémákat. 5.4.1. Szimuláció. Ebben az esetben egy nagyobb, 400mm × 400mm méretű U alakú labirintust használtam az 5.3.3. kísérlet leírása szerint. A direkt szenzoros reprezentációt részben a robot eredeti 8 infravörös szenzora, részben 8 iránytű-szenzor adta. Ez utóbbiak a 360 fokos teljes szögtartományt egyenletesen 45 fokonként 60 fokos félértékszélességű átfedő tartományokban fedik le (hasonló információ a kísérletek tanúsága szerint egy állatnak is rendelkezésére áll). Ezek felhasználása mellett – a helyfüggő sejtek információit modellezendő – 100 darab véletlenszerűen elhelyezett, lokális, Gauss-jellegű aktivitással rendelkező, 80-160mm félértékszélesség között változó szenzort használtam. A teljes reprezentációt az iránytű-szenzorok és a helyfüggő szenzorok szorzatteréből készítettem el, kiegészítve a 8 infravörös szenzorral. Az akcióteret a két motor forgatónyomatéka írja le, ami két folytonos mennyiség. Ezt a teret egy 5 × 5 rács szerint diszkretizáltam, összesen 25 lehetséges akciót kialakítva. Más szavakkal, mindkét motor 5 sebességfokozatban működhetett, és ezek kombinációi jelentették az összes lehetséges akciót. A költségfüggvényt úgy alakítottam ki, hogy a robot célja az legyen, hogy kerülje el a falakkal történő ütközést a labirintusban történő nem-epizodikus jellegű mozgás során. Emellett célul tűztem ki a labirintusban a jobb oldali kar végén elhelyezett célállapot elérését. Ezt a célállapotot úgy valósítottam meg, hogy a hozzá legközelebb eső szenzor aktivitása esetén a robot jutalmat kapott. Ez a költségfüggvény a megadott állapotreprezentációban felírható az 5.2.5. egyenletnek megfelelő kvadratikus formában. Ha a robot elég közel került a célállapothoz, visszahelyeztem a bal oldali karban levő induló pozíciójába. Az induló pozícióban a robot mindig észak felé nézett egy ±30 fokos véletlen szögtartományon belül (az 5.8(a). ábra mutatja a környezet egy – ebben az esetben nem méretarányos – rajzát). A robot büntetést kapott, ha nem haladt előre. A mozgás hiányáért (vagy hátrafelé haladásért) maximálisan kapható büntetés körülbelül megegyezett az ütközés miatt kapható 125
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
-3
átlagos begyűjtött költség
1.8
x 10
1.7 1.6 1.5 1.4 1.3 1.2 1.1 0
1
2
3
4
5
időlépés
6
7
8
9 5
x 10
5.13. ábra. A kvadratikus megerősítéses tanulás teljesítményének alakulása a tanulás során. A rendszer az 5.2.5-5.2.10. egyenletek alapján tanult rotáció-invariáns szenzorok által formált állapotreprezentáción. Az egyes epizódok eredményeit egy 10000 széles ablakkal konvolváltam. büntetéssel. A robot az 5.2.5-5.2.10. egyenletek alapján tanult. A tanulási ráta α = 0.0001, az exploráló lépések valószínűsége ǫ = 0.05 volt.
Eredmények Egy kapott tanulási görbét mutat az 5.13. ábra. Látható, hogy annak ellenére, hogy a kísérletben alkalmazott reprezentáció messze nem teljesíti a lineáris dinamika feltételét, a megerősítéses tanulás által alkalmazott kontroll képes csökkenteni a begyűjtött költségeken. Vegyük észre azonban, hogy a bemutatott kísérletben a megerősítéses tanulás nem a belső reprezentáció optimalizálását végzi, hanem a robot direkt irányítását. A modellben bemu126
5. FEJEZET. BIOLÓGIAI VONATKOZÁSOK
tatott eset vizsgálatához további szimulációkra van szükség. Záró megjegyzésként megemlíteném, hogy bizonyos biológiai kísérletek azt bizonyítják, hogy a helyfüggő sejtek szerveződése megváltozhat a navigációs feladatban mutatott teljesítmény romlása nélkül is (Jeffery és mtsai, 2003). Ugyanakkor a kontroll (figyelem fókusza) stabilizálhatja is a reprezentációt (Kentros és mtsai, 2004). A modellben is kétféle módon függhet a reprezentációk kialakulása a tapasztalatoktól. Egyrészt a bemenő adatok az „alulról-felfelé” történő információtovábbítás során statisztikájuknak megfelelő különböző transzformációkon esik át és különböző reprezentációkat alakíthat ki. A modell esetében a pálya mentén gyűjtött jutalom vagy büntetés az egész reprezentációt befolyásolhatja, mint az az 5.2.8. és az 5.2.9. egyenletekből látszik is. Másrészt a megerősítéses tanulás alkalmazásával „felülről-lefelé” hatások is befolyásolják a reprezentációt. Tehát a tanítási folyamat módja, a megerősítés módja, a bejövő szenzoros információ (a környezet jellege) egyaránt befolyásolhatja a kialakuló reprezentációkat mind finom léptékekben, mind globálisan. Úgy gondoljuk, hogy a bemutatott modell potenciálisan képes produkálni ezeket a jelenségeket, de még tisztázásra vár, hogy pontosan milyen módon.
127
Irodalomjegyzék T. M. Aamodt. Intelligent control via reinforcement learning. BASc thesis, University of Toronto, 1997. http://www.eecg.utoronto.ca/∼aamodt/. L. F. Abbott és S. B. Nelson. Synaptic plasticity: taming the beast. Nature Neurosci., 3:1178–1183, 2000. S. Akaho, Y. Kiuchi, és S. Umeyama. MICA: Multimodal independent component analysis. In Proc. IJCNN, pages 927–932, 1999. D. G. Amaral és M. W. Witter. The three-dimensional organization of the hippocampal formation: A review of anatomical data. Neuroscience, 31: 571–591, 1989. H. Attias. Independent factor analysis with temporally structured sources. Neural Comp., 11(4):803–851, 1999. R. Baddeley. An efficient code in V1? Nature, 381:560–561, Jun 1996. H. B. Barlow. Learning receptive fields. In Proceedings of the IEEE 1st Annual Conf. on Neural Networks, volume IV, pages 115–121. IEEE Press, USA, 1987. A. Barto és S. Mahadevan. Recent advances in hierarchical reinforcement learning, 2003. URL citeseer.ist.psu.edu/article/barto03recent.html. A. G. Barto, S. J. Bradtke, és S. P. Singh. Learning to act using real-time dynamic programming. Artificial Intelligence, 72(1-2):81–138, 1995. A. J. Bell és T. J. Sejnowski. An information-maximization approach to blind separation and blind deconvolution. Neural Computation, 7:1129– 1159, 1995. A. J. Bell és T. J. Sejnowski. The ‘independent components’ of natural scenes are edge filters. Vision Research, 37(23):3327–3338, 1997. 128
IRODALOMJEGYZÉK
R. E. Bellman. Dynamic Programming. Princeton University Press, Princeton, New Jersey, 1957. R. E. Bellman. Adaptive Control Processes. Princeton University Press, Princeton, NJ., 1961. A. Belouchrani, K. Abed Meraim, J.-F. Cardoso, és E. Moulines. A blind source separation technique based on second order statistics. IEEE Trans. on Signal Processing, 45(2):434–444, 1997. D. S. Bernstein, R. Givan, N. Immerman, és S. Zilberstein. The complexity of decentralized control Markov decision processes. Mathematics of Operations Research, 27(4):819–840, November 2002. C. Boutilier és R. Dearden. Approximating value trees in structured dynamic programming. In ICML-96, 1996. C. Boutilier, T. Dean, és S. Hanks. Decision-theoretic planning: Structural assumptions and computational leverage. Journal of Artificial Intelligence Research, 11:1–99, 1999. C. Boutilier, R. Dearden, és M. Goldszmidt. Stochastic dynamic programming with factored representations. Artificial Intelligence, 121(1-2):49–107, 2000. URL citeseer.ist.psu.edu/boutilier99stochastic.html. M. R. Bower, D. R. Euston, és B. L. McNaughton. Sequential-contextdependent hippocampal activity is not necessary to learn sequences with repeated elements. J. Neurosci., 25:1313–1323, 2005. J. A. Boyan. Modular neural networks for learning context-dependent game strategies. Master’s thesis, Department of Engineering and Computer Laboratory, University of Cambridge, UK, August 1992. R. I. Brafman és M. Tennenholtz. R-MAX - a general polynomial time algorithm for near-optimal reinforcement learning. In Proc. 17th IJCAI, pages 953–958. Morgan Kaufmann, 2001. URL citeseer.nj.nec.com/509500.html. J. E. Brown és W. E. Skaggs. Concordant and discordant coding of spatial location in populations of hippocampal CA1 pyramidal cells. J. Neurophysiol., 88:1605–1613, 2002. J.
Cardoso. Multidimensional independent component sis. Proc. ICASSP’98, Seattle, WA., 1998. citeseer.nj.nec.com/cardoso98multidimensional.html. 129
analyURL
IRODALOMJEGYZÉK
J. F. Cardoso és B. Laheld. Equivariant adaptive source separation. IEEE Trans. on Signal Proc., 44:3017–3030, 1996. S. Choi és A. Cichocki. Blind separation of nonstationary sources in noisy mixtures. Electronics Letters, 36:848–849, 2000. S. Choi, A. Cichocki, és A. Belouchrani. Second order nonstationary source separation. J. VLSI Signal Proc., 32(1-2):93–104, 2002. S. Choi, A. Cichocki, H.-M. Park, és S.-Y. Lee. Blind source separation and independent component analysis: A review. Neural Information Proc. Letters and Reviews, 6:1–57, 2005. E. J. Collins. Finite-horizon variance penalised Markov decision processes. OR Spektrum, 19:35–39, 1997. J. A. Costa és A. O. Hero. Geodesic entropic graphs for dimension and entropy estimation in manifold learning. IEEE Trans. on Signal Proc., 52: 2210–2221, 2004. T. Cover és J. Thomas. Elements of Information Theory. John Wiley and Sons, New York, USA, 1991. R. H. Crites és A. G. Barto. Improving elevator performance using reinforcement learning. In M. C. Mozer D. S. Touretzky és M. E. Hasselmo, editors, Advances in Neural Information Processing Systems, volume 8, pages 1017–1023, San Mateo, CA, 1996. Morgan and Kaufmann. P. Dayan és G. E. Hinton. Feudal reinforcement learning. In Advances in Neural Information Processing Systems, volume 5, pages 271–278, San Mateo, CA, 1993. Morgan Kaufmann. T. Dean, L. Kaelbling, J. Kirman, és A. Nicholson. Planning under time constraints in stochastic domains. Artificial Intelligence, 76(1-2):35–74, 1995. R. Dearden, N. Friedman, és D. Andre. Model based Bayesian exploration. In Proc. 15th Conf. on Uncertainty in Artificial Intelligence, pages 150–159. Morgan Kaufmann, 1999. URL citeseer.nj.nec.com/dearden99model.html. T.G. Dietterich. Hierarchical reinforcement learning with the MAXQ value function decomposition. Journal of Artificial Intelligence Research, 13: 227–303, 2000. 130
IRODALOMJEGYZÉK
K. Doya. Reinforcement learning in continuous time and space. Neural Computation, 12:243–269, 2000. K. Doya. Temporal difference learning in continuous time and space. Advances in Neural Information Processing Systems 8, Cambridge, MA, 1996. MIT Press. M. Duff. Optimal learning: computational procedures for Bayes-adaptive Markov decision processes. Ph.D. thesis, University of Massachusetts, 2002. A. V. Egorov, B. N. Hamam, E. Fransén, M. E. Hasselmo, és A. A. Alonso. Graded persistent activity in entorhinal cortex neurons. Nature, 420:173– 178, 2002. H. Eichenbaum. Hippocampus: Cognitive processes and neural representations that underlie declarative memory. Neuron, 44:109–120, 2004. J. A. Feldman és R. F. Sproull. Decision theory and artificial intelligence II: The hungry monkey. Cognitive Science, 1:158–192, 1977. D. J. Field. What is the goal of sensory coding? Neural Comp., 6:559–601, 1994. J. A. Filar, L. C. M. Kallenberg, és H. M. Lee. Variance-penalised Markov decision processes. Math Oper. Res., 14:147–161, 1989. T. Fomin, T. Rozgonyi, Cs. Szepesvári, és A. Lőrincz. Self-organizing multiresolution grid for motion planning and control. International Journal of Neural Systems, 7:757–776, 1997. L. M. Frank, E. N. Brown, és M. Wilson. Trajectory encoding in the hippocampus and entorhinal cortex. Neuron, 27:169–178, 2000. T. F. Freund és G. Buzsáki. Interneurons of the hippocampus. Hippocampus, 1996:347–470, 1996. M. C. Fuhs és D. S. Touretzky. A spin glass model of path integration in rat medial entorhinal cortex. The Journal of Neuroscience, 26(16):4266–4276, 2006. I. Futó, editor. Mesterséges intelligencia. Aula, 1999. M. Fyhn, S. Molden, M. P. Witter, E. I. Moser, és M.-B. Moser. Spatial representation in the entorhinal cortex. Science, 305:1258–1264, 2004. 131
IRODALOMJEGYZÉK
Z. Gábor, Zs. Kalmár, és Cs. Szepesvári. Multi-criteria reinforcement learning. In Proceedings of the Fifteenth International Conference on Machine Learning, 1998. P. Georges-Francois, E. T. Rolls, és R. G. Robertson. Spatial view cells in the primate hippocampus: allocentric view not head direction or eye position or place. Cerebral Cortex, 9(3):197–212, 1999. R. Givan, S. M. Leach, és T. Dean. Bounded-parameter Markov decision processes. Artificial Intelligence, 122(1-2):71–109, 2000. URL citeseer.nj.nec.com/article/givan97bounded.html. M. A. Gluck, M. Meeter, és C. E. Myers. Computational models of the hippocampal region: linking incremental learning and episodic memory. Trends in Cogn. Science, 7, 2003. (in press). J. J. Greffenstette, C. L. Ramsey, és A. C. Schultz. Learning sequential decision rules using simulation models and competition. Machine Learning, 5:355–381, 1990. T. Hafting, M. Fyhn, S. Molden, M.-B. Moser, és E. I. Moser. Microstructure of a spatial map in the entorhinal cortex. Nature, 2005. doi:10.1038/nature03721. E. L. Hargreaves, G. Rao, I. Lee, és J. J. Knierim. Major dissociation between medial and lateral entorhinal input to dorsal hippocampus. Science, 308: 1792–1794, 2005. M. E. Hasselmo. The role of hippocampal regions CA3 and CA1 in matching entorhinal input with retrieval of associations between objects and context: Theoretical comment on lee et al. (2005). Behav. Neurosci., 119:342–345, 2005. W. K. Hastings. Monte carlo sampling methods using Markov chains and their applications. Biometrika, 57:97–109, 1970. J. H. Hateren és D. L. Ruderman. Independent component analysis of natural image sequences yields spatio-temporal filters similar to simple cells in primary visual cortex. Proc. R. Soc. London B, 265:2315–2320, 1998. M. Hauskrecht, N. Meuleau, L. P. Kaelbling, T. Dean, és C. Boutilier. Hierarchical solution of Markov decision processes using macro-actions. In Uncertainty in Artificial Intelligence, pages 220–229, 1998. URL citeseer.nj.nec.com/hauskrecht98hierarchical.html. 132
IRODALOMJEGYZÉK
M. Heger. Consideration of risk in reinforcement learning. In Proceedings of the Eleventh International Conference on Machine Learning, pages 105– 111, San Fransisco, CA, 1994. Morgan Kaufmann. D. A. Henze, L. Wittner, és Gy. Buzsáki. Single granule cells reliably discharge targets in the hippocampal CA3 network in vivo. Nature Neurosci., 5: 790–795, 2002. C. Hölscher, W. Jacob, és H. A. Mallot. Reward modulates neuronal activity in the hippocampus of the rat. Behav. Brain. Res., 142:181–191, 2003. G. Horváth, editor. Neurális hálózatok és műszaki alkalmazásuk. Műegyetemi Kiadó, 1998. Y. Huang és L. C. M. Kallenberg. On finding optimal policies for markov decision chains: a unifying framework for mean-variance-tradeoffs. Math Oper. Res., 19:434–448, 1994. Y. K. Hwang és N. Ahuja. Gross motion planning – a survey. ACM Computing Surveys, 24(3):219–291, 1992. A. Hyvärinen. Independent component analysis for time-dependent stochastic processes. In Proc. Int. Conf. on Artificial Neural Networks (ICANN’98, Skövde, Sweden), pages 541–546, 1998. A. Hyvärinen. Survey on independent component analysis. Neural Computing Surveys, 2:94–128, 1999. A. Hyvärinen és P. O. Hoyer. Emergence of topography and complex cell properties from natural images using extensions of ICA. Advances in Neural Information Processing Systems (NIPS99), 1999. A. Hyvärinen és J. Hurri. Blind separation of sources that have spatiotemporal dependencies. Signal Proc., 84(2):247–254, 2004. A. Hyvärinen és E. Oja. A fast fixed-point algorithm for independent component analysis. Neural Comp., 9:1483–1492, 1997. A. Hyvärinen, P. Hoyer, és E. Oja. Sparse code shrinkage: Denoising by nonlinear maximum likelihood estimation. In Advances in Neural Information Processing Systems 11 (NIPS*98), pages 1739–1768. MIT Press, 1999. A. Hyvärinen, J. Karhunen, és E. Oja. Independent Component Analysis. John Wiley, New York, NY, 2001. URL http://www.cis.hut.fi/projects/ica/book/. 133
IRODALOMJEGYZÉK
A. Hyvärinen és P. O. Hoyer. Emergence of phase and shift invariant features by decomposition of natural images into independent feature subspaces. Neural Computation, 12(7):1705–1720, 2000. H. Jaeger és H. Haas. Harnessing nonlinearity: predicting chaotic systems and saving energy in wireless communication. Science, 304(5667):78–80, 2004. D. B. Jaffe és N. T. Carnevale. Passive normalization of synaptic integration influenced by dendritic architecture. J. Neurophysiol, 82:3268–3285, 1999. K. J. Jeffery, A. Gilbert, S. Burton, és A. Strudwick. Preserved performance in a hippocampal-dependent spatial task despite complete place cell remapping. Hippocampus, 13:175–189, 2003. G. H. John. When the best move isn’t optimal: Q-learning with exploration. In Proceedings of the Twelfth National Conference on Artificial Intelligence, page 1464, Seattle, WA, 1994. M. J. Jordan, editor. Graphical models. MIT Press, Cambridge, Cambridge MA, 1999. L. P. Kaelbling. Hierarchical learning in stochastic domains: Preliminary results. In Proceedings of the Tenth International Conference on Machine Learning, pages 167–173, San Mateo, CA, 1993. Morgan Kaufmann. L. P. Kaelbling, M. L. Littman, és A. R. Cassandra. Planning and acting in partially observable stochastic domains. Technical Report CS-96-08, 1996. URL citeseer.ist.psu.edu/kaelbling95planning.html. Zs. Kalmár és Cs. Szepesvári. An evaluation criterion for macro-learning and some results. Technical Report TR-99-01, Mindmaker Ltd., Budapest, Hungary, 1999. www.mindmaker.hu/∼szepes. Zs. Kalmár, Cs. Szepesvári, és A. Lőrincz. Module-based reinforcement learning: Experiments with a real robot. Machine Learning, 31:55–85, 1998. M. Kawato, H. Hayakawa, és T. Inui. A forward-inverse model of reciprocal connections between visual neocortical areas. Network, 4:415–422, 1993. M. Kearns és S. Singh. Near-optimal reinforcement learning in polynomial time. In Proc. 15th ICML, pages 260–268. Morgan Kaufmann, 1998. URL citeseer.ist.psu.edu/kearns98nearoptimal.html. 134
IRODALOMJEGYZÉK
J. G. Kemeny és J. L. Snell. Finite Markov Chains. Van Nostrand, New York, 1960. C. G. Kentros, N. T. Agnihotri, S. Streater, R. D. Hawkins, és E. R. Kandel. Increased attention to apatial context increases both place field stability and spatial memory. Neuron, 42:283–295, 2004. H. Kitano, M. Asada, Y. Kuniyoshi, I. Noda, és E. Osawa. RoboCup: The robot world cup initiative. In W. Lewis Johnson és Barbara Hayes-Roth, editors, Proceedings of the First International Conference on Autonomous Agents (Agents’97), pages 340–347, New York, 5–8, 1997. ACM Press. ISBN 0-89791-877-0. K. Kiviluoto és E. Oja. Independent component analysis for parallel financial time series. In Proc. ICONIP’98, volume 2, pages 895–898, 1998. R. Klink és A. Alonso. Muscarinic modulation of the oscillatory and repetitive firing properties of entorhinal cortex layer II neurons. J. Neurophysiol., 77: 1813–1828, 1997. F. Kloosterman, T. van Haeften, és F. H. L. da Silva. Two reentrant pathways in the hippocampal-entorhinal system. Hippocampus, 14:1026–1039, 2004. I. Kókai és A. Lőrincz. Fast adapting value estimation based hybrid architecture for searching the World-Wide Web. Applied Soft Computing, 2: 11–23, 2002. D. Koller és R. Parr. Computing factored value functions for policies in structured MDPs. In Proc. IJCAI’99, 1999. E. Learned-Miller. A new class of entropy estimators for multi-dimensional densities. in ICASSP, 2003. S. Leutgeb, J.K. Leutgeb, A. Treves, M.-B. Moser, és E.I. Moser. Distinct ensemble codes in hippocampal areas CA3 and CA1. Science, 305:1295– 1298, 2004. M. L. Littman. Markov games as a framework for multi-agent reinforcement learning. In Proceedings of the Eleventh International Conference on Machine Learning, pages 157–163, San Fransisco, CA, 1994. Morgan Kaufmann. M. L. Littman, J. Goldsmith, és M. Mundhenk. The computational complexity of probabilistic planning. Journal of Artificial Intelligence Research, 9:1–38, 1998. 135
IRODALOMJEGYZÉK
A. Lőrincz. Attentional filtering in neocortical areas: A top-down model. Neurocomp., 65-66:817–823, 2005. A. Lőrincz. Forming independent components via temporal locking of reconstruction architectures: A functional model of the hippocampus. Biological Cybernetics, 79:263–275, 1998. A. Lőrincz és Gy. Buzsáki. Two–phase computational model training long– term memories in the entorhinal–hippocampal region. NYAS, 911:83–111, 2000. A. Lőrincz és B. Póczos. Cost component analysis. Int. J. of Neural Systems, 2003. (in press). A. Lőrincz, I. Pólik, és I. Szita. Event-learning and robust policy heuristics. Technical Report NIPG-ELU-15-05-2001, ELTE, 2001a. A. Lőrincz, B. Szatmáry, G. Szirtes, és B. Takács. Recognition of novelty made easy: Constraints of channel capacity on generative networks. In R. French, editor, Connectionist Models of Learning, Development and Evolution, pages 73–82. Springer-Verlag, London, 2001b. A. Lőrincz, G. Szirtes, B. Takács, és Gy. Buzsáki. Independent component analysis of temporal sequences forms place cells. Neurocomputing, 38-40: 769–774, 2001c. A. Lőrincz, B. Szatmáry, és G. Szirtes. Mystery of structure and function of sensory processing areas of the neocortex: A resolution. J. Comp. Neurosci., 13:187–205, 2002. A. Lőrincz, I. Pólik, és I. Szita. Event learning and robust policy heuristics. Cognitive Systems Research, 4:319–337, 2003. W. S. Lovejoy. A survey of algorithmic methods for partially observable markov decision processes. Annals of Operations Research, (28):47–66, 1991. O. Madani, S. Hanks, és A. Condon. the undecidability of probabilistic planning and related stochastic optimization problems, 2003. URL citeseer.ist.psu.edu/madani03undecidability.html. P. Maes. Learning behavior networks from experiencec. Toward a practice of autonomous systems: Proceedings of the First European Conf. on Artificial Life, Cambridge, MA, 1992. MIT Press, Cambridge. 136
IRODALOMJEGYZÉK
S. Mahadevan és J. Connell. Automatic programming of behavior-based robots using reinforcement learning. Artificial Intelligence, 55:311–365, 1992. S. Makeig, A. J. Bell, T. P. Jung, és T. J. Sejnowski. Independent component analysis of electroencephalographic data. In NIPS, volume 8, pages 145– 151, 1996. D. Marr. Simple memory: A theory for archiocortex. Philos. Trans. Roy. Soc. B, 262:23–81, 1971. M.J. Mataric. Behavior-based control: Examples from navigation, learning, and group behavior. J. of Experimental and Theoretical Artificial Intelligence, 9:2–3, 1997. A. McGovern és R. Sutton. Macro-actions in reinforcement learning: An empirical analysis. technical report 98-70, University of Massachusetts, Department of Computer Science, 1998. M. R. Mehta. Cooperative LTP can map memory sequences on dendritic branches. Trends in Neurosci., 27:69–72, 2004. L. G. Mitten. Composition principles for synthesis of optimum multi-stage processes. Operations Research, 12:610–619, 1964. A. W. Moore és C. G. Atkeson. Prioritized sweeping: Reinforcement learning with less data and less time. Machine Learning, 13:103–130, 1993. URL citeseer.nj.nec.com/moore93prioritized.html. K. R. Muller, P. Philips, és A. Ziehe. JADEtd: Combining higher order statistics and temporal information for blind source separation (with noise). In Proc. Int. Workshop on Independent Component Analysis and Signal Separation (ICA’99), Aussois, France, pages 87–92, 1999. J. O’Keefe és J. Dostrovsky. The hippocampus as a spatial map. preliminary evidence from unit activity in the freely moving rat. Experimental Brain Research, 34:171–175, 1971. J. O’Keefe és L. Nadel. The hippocampus as a cognitive map. Oxford University Press, Oxford, UK, 1978. B. A. Olshausen és D. J. Field. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381:607– 609, 1996. 137
IRODALOMJEGYZÉK
B. A. Olshausen és D. J. Field. Sparse coding with an overcomplete basis set: A strategy employed by V1? Vision Research, 37:3311–3325, 1997. J. Peng és R. J. Williams. Efficient learning and planning within the dyna framework. In Proceedings of the 2nd International Conference on Simulation of Adaptive Behavior, Hawaii, 1993. URL citeseer.nj.nec.com/peng93efficient.html. W. D. Penny, R. Everson, és S. J. Roberts. Hidden Markov independent component analysis. In M. Giroliami, editor, Advances in Independent Component Analysis. Springer, 2000. D. T. Pham, P. Garrat, és C. Jutten. Separation of a mixture of independent sources through a maximum likelihood approach. Proc EUSIPCO, pages 771–774, 1992. L. K. Platzman. Mimeographed Lecture Notes for IOE 315. Dept. of Industrial and Operations Engineering, University of Michigan, Ann Arbor, 1978. B. Póczos. Független altér analízis. Ph.D. thesis, Eötvös Loránd Tudományegyetem, 2006. előkészületben. B. Póczos, B. Takács, és A. Lőrincz. Independent subspace analysis on innovations. Lecture Notes in Computer Science, 3720:698–706, 2005. ECML 2005, Porto, Portugal, http://dx.doi.org/10.1007/11564096_71. P. Poupart és C. Boutilier. Value-directed belief state approximation for POMDPs. In Proc. UAI 2000, 2000. P. Poupart, L. E. Ortiz, és C. Boutilier. Value-directed sampling methods for monitoring POMDPs. In Proc UAI 2001, 2001. D. Precup és R. Sutton. Multi-time models for temporally abstract planning. Advances in Neural Information Processing Systems, 10:1050–1056, 1998. D. Precup, R. S. Sutton, és S. P. Singh. Theoretical results on reinforcement learning with temporally abstract options. In European Conference on Machine Learning, pages 382–393, 1998. URL citeseer.nj.nec.com/precup98theoretical.html. M. Puterman. Markov decision processes : Discrete stochastic dynamic programming. John Wiley & Sons, New York, 1994. 138
IRODALOMJEGYZÉK
R. P. N. Rao és D. H. Ballard. Dynamic model of visual recognition predicts neural response properties in the visual cortex. Neural Comput., 9:721–763, 1997. R. P. N. Rao és D. H. Ballard. Predictive coding in the visual cortex: A functional interpretation of some extra-classical receptive-field effects. Nature Neuroscience, 2:79–87, 1999. A. D. Redish. Beyond the cognitive map: From place cells to episodic memory. MIT Press, Cambridge, MA, 1999. M. Remondes és E. M. Schuman. Direct cortical input modulates plasticity and spiking in CA1 pyramidal neurons. Nature, 416:736–740, 2002. M. Remondes és E. M. Schuman. Role for a cortical input to hippocampal area CA1 in the consolidation of a long-term memory. Nature, 431:699–703, 2004. A. Rodriguez, R. Parr, és D. Koller. Reinforcement learning using approximate belief states, volume 12. MIT Press, Cambridge, 2000. E. T. Rolls. A theory of hippocampal function in memory. Hippocampus, 6: 601–620, 1996. E. T. Rolls. Spatial view cells and the representation of place in the primate hippocampus. Hippocampus, (9):467–480, 1999. E. T. Rolls és J.-Z. Xiang. Reward-spatial view representations and learning in the primate hippocampus. J. Neurosci., 25:6167–6174, 2005. B. Sallans. Reinforcement Learning for Factored Markov Decision Processes. Ph.D. thesis, University of Toronto, 2002. H.E. Scharfman, M.P. Witter, és R. Schwarz, editors. The parahippocampal region: Implications for neurological and psychiatric dieseases, volume 911 of Annals of the New York Academy of Sciences. New York Academy of Sciences, New York, 2000. R. D. Shachter és M. A. Peot. Decision making using probabilistic inference methods. In Proc. of the Eighth Conference on Uncertainty in Artificial Intelligence, pages 276–283, 1992. O. Shriki, H. Sompolinsky, és D. D. Lee. An information maximization approach to overcomplete and recurrent representations. Advances in Neural Information Processing Systems, 13:612–618, 2001. 139
IRODALOMJEGYZÉK
S. P. Singh. Scaling reinforcement learning algorithms by learning variable temporal resolution models. In Proceedings of the Ninth International Conference on Machine Learning, MLC-92, San Mateo, CA, 1992. Morgan Kaufmann. S. P. Singh és R. S. Sutton. Reinforcement learning with replacing eligibility traces. Machine Learning, 22(1-3):123–158, 1996. URL citeseer.nj.nec.com/singh96reinforcement.html. S. P. Singh, T. Jaakkola, M. L. Littman, és Cs. Szepesvári. Convergence results for single-step on-policy reinforcement-learning algorithms. Machine Learning, 38:287–303, 2000. W. E. Skaggs, B. L. McNaughton, M. A. Wilson, és C. A. Barnes. Theta phase precession in neuronal populations and the compression of temporal sequences. Hippocampus, 6:149–172, 1996. M. J. Sobel. The variance of discounted Markov decision processes. Journal of Applied Probability, 19:794–802, 1982. R. St-Aubin, J. Hoey, és C. Boutilier. Apricodd: Approximate policy construction using decision diagrams, volume 12. MIT Press, Cambridge, 2000. R. Sutton. Dyna, an integrated architecture for learning, planning, and reacting. SIGART Bulletin, 2:160–163, ACM Press 1991a. R. Sutton. Learning to predict by the method of temporal differences. Machine Learning, 3:9–44, 1988. R. Sutton és A. G. Barto. Reinforcement Learning: An Introduction. MIT Press, Cambridge, 1998. R. Sutton, D. Precup, és S. Singh. Between MDPs and semi-MDPs: Learning, planning and representing knowledge at multiple temporal scales. Journal of Artificial Intelligence Research, 1:1–39, 1998. R. S. Sutton. Integrated architectures for learning, planning and reacting. In Proceedings of the Seventh International Conference on Machine Learning, pages 216–224. Morgan Kaufmann, 1990. R. S. Sutton. Planning by incremental dynamic programming. In Proceedings of the Eighth International Workshop on Machine Learning, pages 353–357. Morgan Kaufmann, 1991b. URL citeseer.nj.nec.com/sutton91planning.html. 140
IRODALOMJEGYZÉK
E. Sybirska, L. Davachi, és P. S. Goldman-Rakic. Prominence of direct entorhinal-CA1 pathway activation in sensorimotor and sognitive tasks revealed by 2-DG functional mapping in nonhuman primate. J. Neurosci., 20:5827–5834, 2000. Z. Szabó, B. Póczos, és A. Lőrincz. Cross-entropy optimization for independent process analysis. In Independent Component Analysis and Blind Signal Separation, 6th International Conference, ICA 2006, Charleston, SC, USA, March 5-8, 2006, Proceedings, pages 909–916, 2006. Cs. Szepesvári. Static and dynamic aspects of optimal sequential decision making. Ph.D. thesis, Attila József University, Bolyai Institute of Mathematics, 1998. Cs. Szepesvári és M. L. Littman. Generalized Markov decision processes: Dynamic-programming and reinforcement-learning algorithms. In Proceedings of International Conference of Machine Learning ’96, Bari, 1996. Cs. Szepesvári és A. Lőrincz. Applications of Neural Adaptive Control Technology, chapter Approximate Inverse-Dynamics Based Robust Control Using Static and Dynamic Feedback, pages 151–179. World Scientific, Singapore, 1997. Cs. Szepesvári és A. Lőrincz. An integrated architecture for motion-control and path-planning. Journal of Robotic Systems, 15:1–15, 1998. Cs. Szepesvári, Sz. Cimmer, és A. Lőrincz. Neurocontroller using dynamic state feedback for compensatory control. Neural Networks, 10:1691–1708, 1997. G. Szirtes, B. Póczos, és A. Lőrincz. Neural Kalman-filter. Neurocomputing, 65-66:349–355, 2005. I. Szita és A. Lőrincz. Kalman filter control embedded into the reinforcement learning framework. Neural Comp., 16:491–499, 2004. I. Szita, B. Takács, és A. Lőrincz. Epsilon-MDPs: Learning in varying environments. Journal of Machine Learning Research, 3:145–174, 2002a. I. Szita, B. Takács, és A. Lőrincz. Event-learning with a non-Markovian controller. In F. van Harmelen, editor, 15th European Conference on Artifical Intelligence, Lyon, pages 365–369. IOS Press, Amsterdam, 2002b. 141
IRODALOMJEGYZÉK
E. Tabuchi, A. B. Mulder, és S. I. Wiener. Reward value invariant place responses and reward site associated activity in hippocampal neurons of behaving rats. Hippocampus, 13:117–132, 2003. P. Tadepalli és D. Ok. Scaling up average reward reinforcement learning by approximating the domain models and the value function. In Proc. 13th International Conference on Machine Learning, 1996. S. H. G. ten Hagen. Continuous state space Q-learning for control of nonlinear systems. Ph.D. thesis, University of Amsterdam, Amsterdam, 2001. G.J. Tesauro. TD-Gammon, a self-teaching backgammon program, achieves master-level play. Neural Computation, 8:257–277, 1994. F. J. Theis. Uniqueness of complex and multidimensional independent component analysis. Signal Processing, 84(5):951–956, 2004. F. J. Theis. Blind signal separation into groups of dependent signals using joint block diagonalization. In Proc. ISCAS 2005, pages 5878–5881, Kobe, Japan, 2005. E. Thelen. Grounded in the world: Developmental origins of the embodied mind. Infancy, 1:3–30, 2000. S. Thrun. Monte Carlo POMDPs, volume 12. MIT Press, Cambridge, 2000. A. Treves és E. T. Rolls. A computational analysis of the role of the hippocampus in memory. Hippocampus, 4:374–391, 1994. A. Treves, E. Kropff, és A. Biswas. On the triangular grid of entorhinal place fields. In Abstract Viewer/Itinerary Planner, Washington, DC, 2005. Society for Neuroscience. Program No. 198.11., Online. J. N. Tsitsiklis és B. Van Roy. An analysis of temporal-difference learning with function approximation. Technical Report LIDS-P-2322, 1996. URL citeseer.nj.nec.com/tsitsiklis96analysis.html. R. Vigário, V. Jousmaki, M. Hamalainen, R. Hari, és E. Oja. Independent component analysis for identification of artifacts in magnetoencephalographic recordings. In NIPS, pages 229–235, 1998. R. Vigário. Extraction of ocular artifacts from eeg using independent component analysis. Electroenceph. Clin. Neurophysiol, 103(3):395–404, 1997. 142
IRODALOMJEGYZÉK
C. J. C. H. Watkins. Learning from Delayed Rewards. Ph.d. thesis, King’s College, Cambridge, UK, 1989. C. J. C. H. Watkins és P. Dayan. Q-learning. Machine Learning, 8 (3): 279–292, 1992. D. J. White. Computational approaches to variance penalised markov decision processes. OR Spektrum, 14:79–83, 1992. D. J. White. A mathematical programming approach to a problem in variance penalised markov decision processes. OR Spektrum, 15:225–230, 1994. M. A. Wiering és J. Schmidhuber. Efficient model-based exploration. In Proc. 6th Intl. Conf. on Simulation of Adaptive Behavior: From Animals to Animats, pages 223–228. MIT Press/Bradford Books, 1998. M. Yamakita, M. Iwashiro, Y. Sugahara, és K. Furuta. Robust swing-up control of double pendulum, 1995. S. Yang, D. S. Lee, C. H. Chung, M. Y. Cheong, C. J. Lee, és M. W. Jung. Long-term synaptic plasticity in deep layer-originated associational projections to superficial layers of rat entorhinal cortex. Neurosci., 127:805–812, 2004. Z. Yuan és E. Oja. A FastICA algorithm for non-negative independent component analysis. Lecture Notes in Computer Science, 3195:1–8, 2004. J. Zhang, Z. Ghahramani, és Y. Yang. Learning multiple related tasks using latent independent component analysis. In NIPS 2005, 2005. N. L. Zhang. Probabilistic inference in influence diagrams. In Proc. UAI’98, pages 514–522, 1998. W. Zhang és T. G. Dietterich. A reinforcement learning approach to jobshop scheduling. In Proceedings of the International Joint Conference on Artificial Intellience, 1995. A. Ziehe és K. R. Muller. TDSEP - an efficient algorithm for blind separation using time structure. In Proceedings of ICANN ’98, pages 675–680, 1998.
143
Összefoglaló A megerősítéses tanulás szekvenciális döntési problémák megoldásával foglalkozik sztochasztikus környezetben. Dolgozatomban azt tanulmányozom, hogyan lehet elkerülni az ilyen módon irányított autonóm rendszerek (ágensek) állapotreprezentációjának kombinatorikus robbanását. Három lehetséges megközelítést veszek szemügyre: (1) a probléma valószínűségi struktúrájának egyszerűsítése úgy, hogy a közel determinisztikus komponenseket leválasztjuk az állapottérben, (2) új mérőszámok bevezetésével a feladatokat időbeli megbízhatóság alapján széttördeljük, (3) valószínűségi értelemben független komponensek keresésével az állapottér reprezentációját az optimalizálandó költségfüggvényhez igazítjuk. A független komponensek segítségével sikerülhet megtalálnunk azt a reprezentációt, amelyben a feladat szétesik párhuzamosan optimalizálható részfeladatokra. Vizsgálom, hogy a független folyamatok egy lehetséges definíciója esetén milyen kapcsolat teremthető a független komponens analízis módszerei és a megerősítéses tanulás között. A dolgozatban áttekintem az irodalomban fellelhető eszközöket, valamint kutatócsoportom eredményeit, amelyekkel a jövőben lehetőség nyílhat a függetlenül optimalizálható folyamatok szeparálására. A dolgozat lezárásaként numerikus szimulációkkal megvizsgálom a kutatócsoportunkban kidolgozott, független komponenseket és megerősítéses tanulást alkalmazó hippokampális modellt a biológiai kísérletekkel mutatott egyezés szempontjából. A dolgozatban szereplő főbb eredmények a következők. 1. Tanulmányozom a Markov döntési folyamatok egy lehetséges kiterjesztését, az úgynevezett ǫ-MDF-eket. A segítségükkel tárgyalható eseménytanulás hatékonyan egyesíti a célok kijelölése alapján történő tervezést a megerősítéses tanulással. Számítógépes szimulációkkal igazolom, hogy az eseménytanulás robusztus kontrollerrel kiegészítve képes egy valós nemlineáris fizikai problémát megoldani abban az esetben is, ha az elméleti állítás feltételei nem teljesülnek maradéktalanul. 2. Az ǫ-MDF-ek elmélete lehetőséget biztosít arra, hogy matematikai garanciák mellett egyszerűsítsük a probléma komplexitását a teljesítmény 144
ÖSSZEFOGLALÓ
lényeges csökkentése nélkül. Megadok egy, az ǫ-MDF-ek fogalmára építő algoritmust (pRL), ami kettős értékelőfüggvény használatával a közel determinisztikus komponenseken gyors tervezést végez, és ezt kombinálva a klasszikus megerősítéses tanulás alapvető algoritmusaival közelítőleg optimális eredményeket szolgáltat. Bemutatom az algoritmus egy olyan változatát (RL+), amely a dolgozatban bizonyított módon optimális teljesítményt nyújt a szuboptimális tervező rész fokozatos visszaszorításával. Számítógépes szimulációkkal alátámasztva tárgyalok olyan problémacsaládokat, amelyekben a két algoritmus gyorsabban illetve kevesebb erőforrás felhasználásával jut (közel) optimális megoldáshoz, mint a vizsgált nem tervező, illetve a klasszikus tervező modelleket használó algoritmusok. 3. Tanulmányozom az egyes epizódok végrehajtási idejét és szórását epizodikus döntési problémákban. Bevezetek egy algoritmust, amellyel meghatározhatjuk a probléma megbízhatóan végrehajtható komponenseit. Numerikus szimulációk segítségével demonstrálom a megbízhatóan tervezhető komponensek keresésére szolgáló algoritmus működését. 4. A hippokampális formációról ismert tények rövid leírása után bemutatom a hippokampális formáció kutatócsoportunkban kidolgozott Kálmán-szűrő modelljét, amely független komponensekből készített reprezentációt optimalizál megerősítéses tanulással. Numerikus szimulációkkal igazolom, hogy a modell képes a biológiai szubsztrátumban kimért térbeli korrelációkat produkálni a CA1 és az EC V-VI rétegekben. A modellt kiegészítem egy egyszerű neurális eljárással, az ún. anti-Hebb tanulással. Számítógépes kísérletekkel igazolom, hogy az anti-Hebb mechanizmus szerepet játszhat az entorhinális kortex felszíni rétegeiben tapasztalt rácsszerű térbeli aktivitás-mintázatok kialakításában. Számítógépes szimulációkban vizsgálom a modell által használt neurális alapon implementálható megerősítéses tanulást. Igazolom, hogy a modell képes egyszerű navigációs problémák megoldására.
145
Summary Reinforcement learning is involved in solving sequential decision problems in stochastic environments. In my Ph.D. thesis I studied the possible ways of avoiding the combinatorial explosion of the state representation in agents controlled by reinforcement learning. I consider 3 possible theoretical ways of reducing complexity: (1) simplifying the probability structure by separating the near-deterministic parts of the problem, (2) introducing new measures of temporal reliability and splitting the problem according to these measures, (3) finding independent components of the problem and developing the state representation which suits the cost function to be optimized well. I argue for that we may gain a lot via finding a representation which reduces a complex problem into smaller sub-problems which can be optimized independently. I propose a definition of independent processes, which establishes a connection between reinforcement learning and independent component analysis. I briefly review the tools found in the literature and the methods developed in my research group which may help in finding independent processes in the future. In the final part of my thesis, I compare the predictions of the hippocampal model developed in my research group with biological experiments via computer simulations. The model exploits independent components and reinforcement learning. This work’s major contributions are as follows. 1. I study a possible extension of Markov decision processes which we call ǫ-MDPs. It enables the mathematical treatment of event learning, which integrates planning with goal states into reinforcement learning efficiently. I prove through computer simulations that event learning augmented by a robust controller is capable of solving a real, nonlinear physical problem, even beyond the conditions of the theoretical statement. 2. With the theory of ǫ-MDPs, it is possible to prove the mathematical correctness of reducing complexity in some special cases. I describe a 146
SUMMARY
novel algorithm (called pRL) which utilizes the notation of ǫ-MDPs and uses two value functions simultaneously: one for fast planning on neardeterministic components and one for classical reinforcement learning. By combining the two, we achieve near-optimal results. I introduce a modification of the algorithm (called RL+) which is proven to be optimal by gradually decreasing the number of sub-optimal planning steps. I characterize the problem families where these two algorithms achieve (near) optimal results with fewer resources than non-planning or traditional planning algorithms. This classification is supported by computer simulations. 3. I propose an algorithm which is capable of determining the expected duration of an episode and the variance of this duration. This measure may help us to determine the components of the problem which are possible to plan reliably in time. I demonstrate the algorithm by numerical simulations. 4. After a short review of the facts known about the hippocampal formation, I present a Kalman-filter model of the hippocampus and the entorhinal cortex (developed in my research group), which optimizes a hidden representation based on independent components by reinforcement learning. I support this model by showing that the model is capable of producing the spatial correlations found in in vivo experiments in the CA1 and EC V-VI layers. I propose a simple, neurally plausible method based on the anti-Hebbian learning rule which is capable of exhibiting grid-like spatial correlations found in the superficial layers of the entorhinal cortex. Using the anti-Hebbian rule, I successfully reproduced the triangular grids in the model of the hippocampal formation by numerical simulations. I examine the neural reinforcement learning method proposed in the model and verify by computer simulations that it is able to solve simple navigational tasks.
147