Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata Mér˝o László NymE Bolyai János Gyakorló Általános Iskola és Gimnázium
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
TARTALOMJEGYZÉK
Kivonat Munkámban arra kerestem a választ, hogy az idegrendszerben elképzelhet˝oe a klasszikus Hopfield hálózathoz hasonló célú és szerkezet˝u neuronális hálózat. Ehhez két, a klasszikus Hopfield hálózathoz hasonló, de szerkezetükben egymástól jelent˝os eltéréseket mutató (eltér˝o komplexitású) mesterséges neurális háló dinamikus viselkedését vizsgáltam, melyek m˝uködése, szerkezetük különböz˝osége ellenére, nagymérték˝u hasonlóságot mutatott. Az els˝o egy diszkrét idej˝u mesterséges neurális háló, amely lényegében ugyanolyan neuronokat használ, mint a Hopfield hálózat, azonban pozitív küszöbértékkel. A második hálózat a FitzHugh-Nagumo neuronmodellen alapul, egy saját szinapszis modellel. Mindkét hálózat, a Hopfield modellel ellentétben, m˝uködés közben tanul, a Hebb-féle mechanizmussal. A második háló vizsgálata bizonyítékot adhat a hozzá hasonló, de él˝o neuronokból álló hálók plauzibilitására. A vizsgált hálók korlátozott hasznosságot mutatnak autoasszociatív memóriaként, A bonyolultabb szerkezet nem eredményezett lényegesen bonyolultabb viselkedést, tehát feltételezhet˝o, hogy az eddig elhanyagolt paraméterek bevitelét el˝oször elegend˝o az els˝o, jóval egyszer˝ubb hálón kipróbálni.
Tartalomjegyzék 1. Bevezetés
3
2. Neuron modellek
6
2.1. A valódi neuron . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2. Küszöbös neuron . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.3. Szigmoid átviteli függvény˝u neuron . . . . . . . . . . . . . . . .
10
2.4. Integrál és tüzel . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.5. Hodgkin és Huxley modellje . . . . . . . . . . . . . . . . . . . .
13
2.6. A FitzHugh-Nagumo modell . . . . . . . . . . . . . . . . . . . .
14
2.7. Többrekeszes modellek . . . . . . . . . . . . . . . . . . . . . . .
15
2
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
1
BEVEZETÉS
3. Célkituzés ˝
15
4. Vizsgált rendszerek
16
4.1. Hopfield hálózat . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
4.2. Diszkrét idej˝u modell . . . . . . . . . . . . . . . . . . . . . . . .
19
4.3. Fiziológiás modell . . . . . . . . . . . . . . . . . . . . . . . . .
23
5. Megfigyelések
30
5.1. Teljes minták felismerése . . . . . . . . . . . . . . . . . . . . . .
30
5.2. Egyértelm˝u részleges minták helyes felismerése . . . . . . . . . .
34
5.3. Döntés többértelm˝u bemeneteknél . . . . . . . . . . . . . . . . .
35
5.4. Új minta tanítása . . . . . . . . . . . . . . . . . . . . . . . . . .
38
5.5. A két háló viselkedésének hasonlósága . . . . . . . . . . . . . . .
40
6. Összefoglalás
40
7. Diszkusszió
40
8. Zárszó
43
1.
Bevezetés
Az emberi agy egy leny˝ugöz˝o dinamikával rendelkez˝o hatalmas rendszer. Mikroszkopikus szerkezete nagyon hasonló minden részén, de ennek ellenére különböz˝o szerkezeti egységei teljesen más m˝uködést mutatnak, más feladatot teljesítenek. Az agy legapróbb alkotó eleme, a neuron maga is leny˝ugöz˝o dinamikát tud mutatni, nemhogy neuronok csoportjai, a neurális hálók. Azért választottam munkám témájául ilyen hálókat, mivel a neurális hálók szerkezete és dinamikája er˝osen összekapcsolódik, és egy nagyon egyszer˝u, könnyen elemezhet˝o szerkezet is létrehozhat nagyon komplex dinamikai jelenségeket. A szimulált neurális hálók tanulmányozása már sok eredményre vezetett az utóbbi néhány évtizedben. A szimulált neurális hálókat használják programozók
3
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
1
BEVEZETÉS
és mérnökök, de biológusok is, mindegyikük természetesen a saját céljaira. Az egyszer˝ubb, absztraktabb matematikai modellek, melyek el˝oször születtek a neuronokról, hatékonyan használhatónak bizonyultak ahhoz, hogy a számítógépeket tanulásra bírjuk, így születtek meg a mesterséges intelligenciához és gépi tanuláshoz kitalált mesterséges neurális hálók. A legújabb mesterséges neurális hálók már meglep˝oen nagy teljesítménnyel rendelkeznek a mintafelismerés, osztályozás illetve kiegészítés terén. Egy tárgyak felismerésére készített neurális háló közel 50%-os pontosságot ért el 1000 különböz˝o tárgy felismerésében. A hálót az internetr˝ol származó képeken tanították és tesztelték. Természetesen az ilyen hálók még mindig messze állnak akár csak egy gerinctelen állat intelligenciájától is, hiszen ezeket egy célra tervezik, és mind a háló szerkezetét, mind pedig a tanulási módszert a célhoz alakították ki. Szintén problémás, hogy ezek a hálózatok nagyon sokoldalú tanítást igényelnek, hogy megfelel˝oen m˝uködjenek. Azonban, ha a matematikai absztrakciót részben feladjuk, és több dinamikát viszünk ezekbe, az egyébként viszonylag statikus rendszerekbe, lehetséges, hogy sokkal komolyabb teljesítményt tudunk kihozni ezekb˝ol a hálókból. Lehetséges, hogy a mesterséges neurális hálók legnagyobb problémája az, hogy a jelenlegiek arra vannak tervezve, hogy egy irányba kiemelked˝o teljesítményt nyújtsanak, nem pedig arra, hogy általánosságban, több terülten, de valamivel kevesebbet. Azt, hogy valamivel kevesebbet nyújtsanak, természetesen nem csak úgy lehet értelmezni, hogy romlik a kérdésekre adott válaszok min˝osége, hanem úgy is, hogy egy kérdés megválaszolásához több er˝oforrást vesz igénybe a hálózat, mint egy, a célra tervezett háló venne igénybe. Azonban ennek megvalósításához egy olyan általános tanulási szabályt kéne találni, mint amilyen a valódi neuronoknak van. Ezzel viszont az a probléma, hogy csak egyetlen egy neuron is végtelenül komplexnek t˝unik egyel˝ore, így egy egész, ilyen nagyszer˝u egységekb˝ol álló hálózatot leírni szinte lehetetlen a mai technológiával. Ha csak azt vesszük, hogy egy embernek nagyságrendileg 1012 neuronja, és 1015 szinapszisa van, egy ekkora hálót szimulálni egyszer˝uen lehetetlennek t˝unik, akár még a legegyszer˝ubb küszöbös neuronmodellekkel is.
4
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
1
BEVEZETÉS
Mint említettem, biológusok is használnak szimulált neurális hálókat valódi él˝olények idegrendszerének tanulmányozására. Ezek a neurális hálók más neuronmodelleket használnak, amelyek sokkal pontosabban leírják egy neuron m˝uködését. Ennek a pontosabb leírásnak természetesen ára is van. A szimulációk ilyen neuronokkal sokkal több id˝ot vesznek igénybe a modellek komplexitása miatt, így nagy, több száz neuronból álló hálók szimulálása gyakorlatilag lehetetlenné válik, vagy rendkívül sok id˝ot és er˝oforrást vesz igénybe. A komplexitás miatt részletes matematikai elemzést is nehezebb adni az ilyen biológiailag pontosabb hálókról. Ennek ellenére fontos felfedezéseket tettek már meg szimulált neuronokkal is, melyek segítik az él˝olények idegrendszerének minél alaposabb megértését. Munkámban arra keresem a választ, hogy az idegrendszerben elképzelhet˝o-e a Hopfield hálózathoz hasonló célú és szerkezet˝u hálózat. A Hopfield hálózat egyszer˝u szerkezete nagyon komplex dinamikai jelenségeket tud létrehozni az eredeti, kevéssé dinamikus neuronmodellel és fix súlyokkal is. Ahhoz, hogy egy ilyen hálózat m˝uködni tudjon a valós idegrendszerben is, sokkal nagyobb dinamikájának kell lennie, mint a Hopfield hálózatnak, hiszen m˝uködés közben folyamatosan tanulnia kell. Ez a dinamika létezik a természetben. Ezt a kérdéskört szimulációkkal próbálom megközelíteni, így, mint minden szimulációnál felmerül a kérdés, milyen elemek dinamikáját szükséges belevinni a modellbe, és mi az ami csak a számítási er˝oforrások pazarlása lesz? Ennél a témánál ezt a kérdést még nehezebb megválaszolni, hiszen nem ismerjük akárcsak egy valódi neuron pontos dinamikáját sem. Egy neuronhálózat dinamikáját még nehezebb megközelíteni, hiszen rengeteg dologtól függ, amelyeket nem feltétlenül jó belevinni egy szimulációba, hiszen úgy megkérd˝ojelezhet˝o lesz a szimuláció általános érvény˝usége. Munkám során próbáltam úgy kiválasztani, illetve megalkotni a használt modelleket, hogy e hármas között egyensúlyoztam: elegend˝o dinamika, számítási er˝oforrásigény és az általános érvény˝uség. Természetesen lehetséges, hogy egy fontos dinamikai elemet kihagytam, vagy valamilyen olyan dinamikát, vagy bonyolultságot vittem a szimulációkba, ami teljesen szükségtelen.
5
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
2.
2
NEURON MODELLEK
Neuron modellek
Nézzük meg, milyen modellek állnak a rendelkezésünkre, ha egy bizonyos hálószerkezet m˝uködését akarjuk vizsgálni.
2.1.
A valódi neuron
Azonban, miel˝ott belemélyedünk a neuronmodellek világába, definiáljuk, mi is az a neuron. A neuron vagy idegsejt egy olyan elektromos ingerületbe hozható sejt, amely elektromos, vagy kémiai úton információt szállít, közöl, vagy feldolgoz. Ezt az elektromos ingerelhet˝oséget a sejtmembránban lév˝o különböz˝o fehérjék, úgynevezett ioncsatornák, és ionpumpák hozzák létre, melyek csak bizonyos ionok áramlását engedik meg a sejtplazma, és a sejten kívüli tér között. A sejtmembrán maga egy kett˝os lipidréteg, mely foszfolipidekb˝ol áll. Ez a membrán nagyon jó elektromos szigetel˝o, ez alapján lehet úgy modellezni az ioncsatornák nélküli membránt, mint egy kondenzátort. Erre alapul a kés˝obb tárgyalt integrál és tüzel modell. Az ionpumpák olyan fehérjék, amelyek aktívan szállítanak ionokat a sejtplazma és az extra-celluláris tér között. Ehhez az aktív szállításhoz energiára van szükségük, amit ATP formájában biztosít nekik a sejt a bels˝o bontó anyagcserefolyamataiból. Az ionpumpák biztosítják a sejt állandó nyugalmi membránpotenciálját, azaz egy állandó feszültséget a sejtplazma, és a sejten kívüli tér között. Nyugalmi helyzetben a sejtplazma negatívabb, mint a küls˝o tér, tehát a membránpotenciál negatív. Ha a membránpotenciál alacsonyabb lesz, tehát a sejtplazma a nyugalmi helyzethez képest negatívabb lesz azt mondjuk, hogy a sejt hiperpolarizálttá vált, ha a membránpotenciál pozitív irányban mozdult el akkor a sejt hipopolarizált lett. Amennyiben a membránpotenciál közel 0 vagy akár pozitív lesz akkor a sejt depolarizálódott. Az ioncsatornák közül van, amelyik a membránon mérhet˝o elektromos feszültség hatására nyit vagy zár, illetve vannak olyanok, amelyek kémiai receptorként m˝uködnek, tehát egy hozzájuk kapcsolódott molekula, úgynevezett ligandum
6
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
2
NEURON MODELLEK
megléte alapján nyitnak vagy zárnak. Általánosságban a feszültségt˝ol függ˝o ioncsatornák hozzák létre a hirtelen membránpotenciál-változásokat, azaz az akciós potenciált, amely a sejt membránpotenciáljának depolarizációval járó rövid idej˝u, nagy mérték˝u megváltozása, ami akkor jön létre, ha a nyugalmi állapotban negatív membránpotenciál közelebb kerül a nullához, tehát a sejt hipopolarizált lesz, és a membránpotenciál elér egy bizonyos küszöböt. A ligandumfügg˝o, azaz receptorként m˝uköd˝o ioncsatornák csak jóval kisebb áramokat tudnak létrehozni, így a sejt membránpotenciálját csak lassan, illetve kis mértékben tudják megváltoztatni. Azonban ez a kismérték˝u változás összeadódik a sejten belül, és el tudja érni a küszöböt az akciós potenciál létrejöttéhez. A neuronok egymással szinapszisokon keresztül kommunikálnak. Kétféle szinapszis létezik, kémiai és elektromos. A kémiai szinapszisok úgy m˝uködnek, hogy a preszinaptikus neuron, tehát az, amelyikb˝ol a jel érkezik, egy kémiai anyagot, azaz neurotranszmittert szabadít fel az akciós potenciál hatására. A posztszinaptikus neuron, tehát az a neuron, amelyik fogadja a jelet, ligandumfügg˝o ioncsatornák által érzékeli ezt. A ligandumfügg˝o ioncsatornákhoz a neurotranszmitter kapcsolódik, így az ioncsatorna kinyílik, és egy olyan áram jön létre, amelyik vagy el˝osegíti egy akciós potenciál kialakulását, vagy gátolja azt. Aszerint, hogy milyen irányú áram alakul ki a posztszinaptikus neuronban a szinapszis aktiválódásakor, a szinapszisokat két kategóriába tudjuk sorolni: serkent˝o vagy gátló. A serkent˝o szinapszisok a posztszinaptikus sejtben egy preszinaptikus akciós potenciál hatására hipopolarizáló áramot hoznak létre, míg a gátló szinapszisok hiperpolarizáló áramot hoznak létre. Az elektromos szinapszisnál a neuronok sokkal közelebb helyezkednek el egymáshoz, és ioncsatornák kötik össze a két sejtet. Az elektromos szinapszisok igaz gyorsabbak, mint a kémiai szinapszisok, de kevésbé flexibilisek. Az elektromos szinapszisnál a két oldalon létrejöv˝o potenciálváltozás mindig azonos el˝ojel˝u, így egy neuron nem tudja gátolni egy másik m˝uködését egy elektromos szinapszison keresztül. Egy másik probléma az, hogy az elektromos szinapszisokon a jel
7
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
2
NEURON MODELLEK
mindkét irányban áthaladhat. Egy neuron általában három részre osztható. Az els˝o rész a dendritek összessége, a dendritfa. A neuronba innen érkezik a jelek nagy része. Általában a dendriteken alakulnak ki a ligandumfügg˝o ioncsatornák, ezek alkotják a kémiai szinapszisok egyik részét. A dendritek nem csak szállítják a jeleket, hanem részben fel is tudják dolgozni o˝ ket. A második rész a sejttest. Itt helyezkednek el olyan fontos elemei a neuronnak, amik ahhoz szükségesek, hogy fenntartsák a sejt m˝uködését. Itt található a sejtmag, amely a m˝uködéshez szükséges információt DNS formájában tárolja, a mitokondriumok, a sejt energiaközpontjai, amelyek a sejt gyakorlatilag minden elemének m˝uködéséhez szükséges ATP-t állítják el˝o, és a riboszómák is, amelyek fehérjékké alakítják a DNS-ben tárolt, majd más formában a riboszómák felé közvetített információt. Természetesen a sejttest is ingerelhet˝o, a sejttest felületén is kialakulhatnak szinapszisok. A sejttest egy megnyúlt része az axondomb, innen indul az idegsejt harmadik része, az axon. Az axonon szállítja az idegsejt tovább az információt más sejtek felé. Az axon végénél alakulnak ki a szinaptikus hólyagok, amelyek a kémiai szinapszisokhoz szükséges neurotranszmittert tartalmazzák. Akciós potenciál hatására ezekb˝ol a hólyagokból a neurotranszmitter exocitózissal felszabadul, és a szinaptikus résbe jut. A szinaptikus résben lév˝o transzmitter köt˝odhet a posztszinaptikus sejten lév˝o receptorokhoz, a preszinaptikus sejt újra felveheti o˝ ket, vagy a sejtek közötti térben jelenlév˝o enzimek elbonthatják. A neuronokat többféle osztályba sorolják aszerint, hogy a sejttest, a dendritek és az axon hogyan helyezkednek el egymáshoz képest. Minden osztály máshol található meg az idegrendszerben, és más a feladata. Az újabb, részletesebb modellek már számításba veszik a neuronok geometriáját is, hiszen sok folyamatban szerepet játszik, amiket a kevésbé részletes modellek nem tudnak leírni. A neuronok formája szerepet játszik a jelek terjedési sebességében is, például egy vastagabb axonon gyorsabban tud végigfutni egy akciós potenciál.
8
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
2.2.
2
NEURON MODELLEK
Küszöbös neuron
A küszöbös neuron, avagy McCulloch-Pitts neuron egy nagyon egyszer˝u absztrakt modell, amely egy kétállapotú küszöblogikaként írja le a neuron m˝uködését. Annak ellenére, hogy nagyon egyszer˝u, mégis szolgálhat néhány alapvet˝o információval egy hálózat m˝uködését illet˝oen. A neuron viselkedését a következ˝o egyenlet adja meg: 1 o= 0
ha ∑i Wi Ii > U ha ∑i Wi Ii < U
Ahol o a neuron kimenete, Ii az i-edik bemenet, Wi az i-edik bemenet súlya és U a küszöb. A bemenetek is kétállapotúak az eredeti modell szerint, 0 vagy 1 lehet az értékük. A súly egy valós szám, ha negatív, akkor hozzátartozó bemenet gátolni fogja a neuron m˝uködését, ha pozitív akkor serkenteni. Egy tanulási módszerrel kombinálva olyan gépi tanulási rendszereket tudunk bel˝ole létrehozni, melyek alapvet˝oek a mesterséges intelligencia sok ágához. Ilyen például a perceptron, egy, a hatvanas években magasztalt modell, amely nagyon hatékonyan tudja megtanulni a bemeneteinek osztályzását, azonban csak akkor, ha egyeltalán képes rá. A perceptron csak akkor képes a bemeneti vektorokat helyesen két osztályra bontani, ha a vektorok által a hipertérben megadott pontokat egy hipersíkkal a két osztályba tudjuk osztani, azaz a bemenetek lineárisan szeparálhatók. Például a perceptron nem tudja elvégezni a kizáró vagy logikai m˝uveletet. Emiatt a gyengeség miatt a perceptronokat ma már ritkán használják, helyettük fejlettebb, és majdnem ugyanolyan gyors algoritmusokat használnak egy kicsit komplexebb modelleken, mint például a backpropagation szigmoid átviteli függvény˝u neuronokkal. Szintén a McCulloch-Pitts neuronmodellt használja a Hopfield hálózat, az egyik háló, amit felhasználtam a munkámhoz. A Hopfield hálózat abban különbözik a legtöbb McCulloch-Pitts modellt használó hálózattól, hogy a neuronjai nem szinkronizáltan váltanak állapotot, hanem egyesével, véletlenszer˝u sorrend-
9
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
2
NEURON MODELLEK
ben azaz Monte Carlo módszerrel. Még egy újdonsága volt a Hopfield hálózatnak az er˝oteljes visszacsatolás, azaz a hálóban az információ nem a bemenetekt˝ol a kimenetek felé terjed, hanem mindig, minden neuronnál egyszerre jelen van, minden neuronra tud hatni az összes többi állapota. A McCoulloch-Pitts modellt használó hálókban közös az, hogy az id˝ot nem folyamatosan írják le, hanem diszkrét lépésekben. Ez abból is látható, hogy a neuron viselkedését egy közönséges egyenlet, nem pedig egy differenciálegyenlet írja le. A Hopfield hálózatnál például egy diszkrét lépés egy neuron vizsgálata, hogy állapotot vált-e. Az általam felállított diszkrét idej˝u modellben egy ilyen id˝olépésen belül minden neuron megvizsgálja, hogy váltson-e az állapotok között. Az ilyen diszkrét idej˝u modellek elhanyagolják a neuronok közötti késleltetés különbségeit is, általában bármely két neuron közti késleltetést egy id˝oegységnek vesznek. Emiatt szintén kiesik az idegrendszer egyik információ-közl˝o mechanizmusa, az akciós potenciálok fázisa. Azért ezt a modellt választottam az általam készített rendszerek egyikéhez, mert rendkívül egyszer˝u, illetve a Hopfield hálózat, amelyb˝ol kiindultam szintén ezt a modellt használja. A modell rendkívüli egyszer˝usége könny˝u matematikai elemzést biztosít a kísérletek eredményeihez, illetve gyors szimulációkat, még nagy hálózatokra is.
2.3.
Szigmoid átviteli függvényu˝ neuron
A szigmoid átviteli függvény˝u neuron már pontosabban modellezi a valódi neuronokat, mint a küszöbös modell, de még mindig csak a bemenetek súlyozott összegét˝ol függ a kimenet, az id˝ot˝ol nem, tehát nincsenek elkülöníthet˝o akciós potenciálok, a neuron kimenete leginkább az akciós potenciálok átlagos frekven-
10
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
2
NEURON MODELLEK
ciáját írja le. A neuronmodellt a következ˝o egyenlet írja le: ! o=σ
∑ WiIi i
ahol σ (x) =
1 1 + e−β x
Ezt a neuronmodellt is f˝oként mesterséges intelligenciához használják. Ilyen neuronokkal már sokkal több m˝uvelet elvégezhet˝o, azonban az ezekb˝ol álló hálózatok tanítása nehezebb és lassabb a perceptronok tanításánál. Természetesen speciális szerkezet˝u, úgynevezett el˝orecsatolt hálózatok tanítására létezik hatékony módszer, a backpropagation, így ezzel a modellel is komoly eredményeket lehet elérni a mesterséges intelligencia terén. Az ilyen neuronokra épül˝o hálók már meg tudnak tanulni lényeges információkat lesz˝urni egy egyszer˝u bemenetb˝ol, és ezekb˝ol a lényeges információkból akár következtetéseket is le tudnak vonni. A backpropagation algoritmus arra alapul, hogy definiáljuk a kimenet hibáját, mint az elvárt kimenett˝ol való eltérést, vagy még gyakrabban úgy, mint annak négyzetét, majd minden súlyra vonatkozólag a hálózaton belül visszavezetjük a kimenet hibaderiváltját, és egy kicsit változtatunk a súlyokon abba az irányba, hogy csökkentsük a hibát. Ha a hibát így minimalizálni tudjuk, megkapjuk az adott a hálószerkezetre a feladatot legjobban teljesít˝o súlyokat. Bizonyos feltételek teljesülése mellett bonyolultabb, fiziológiailag pontosabb neuronmodellek is redukálhatók matematikailag ilyen, vagy ehhez hasonló leegyszer˝usített modellekké, így az ezzel a modellel megalkotott hálónak is lehet biológiai jelent˝osége. A neuronok kimenete így olyan mennyiségnek fogható fel, aminek van biológiai értelme, mint például az egymást követ˝o akciós potenciálok frekvenciája. Még ez a modell sem folyamatos id˝ovel, hanem diszkrét id˝olépésekkel dolgozik, ami egyrészt jó, hiszen sokkal hatékonyabban lehet szimulálni, de másrészt így nem írhatja le annyira pontosan a valóságot, mint egy differenciálegyenleteken alapuló folyamatos idej˝u modell.
11
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
2.4.
2
NEURON MODELLEK
Integrál és tüzel
Az integrál és tüzel modell már tartalmazza a membránpotenciált, mint változót, azonban még nem ad modellt az akciós potenciál kialakulására és lefutására. Ez a modell az eddigiekkel ellentétben már folyamatos id˝oben dolgozik, így alapvet˝oen jobban le tudja írni a valós rendszereket. Ezt a modellt lehet tekinteni a legegyszer˝ubb konduktancia-alapú modellnek, mivel a sejthártyát egy kondenzátornak tekinti, és ebb˝ol vezeti le a modellt leíró egyenletet. A következ˝o egyenlet írja le a potenciálváltozást az id˝oben: dV I(t) = dt C ahol V a membránpotenciál, I az áram a membránon keresztül, és C a membrán kapacitása. Ez az egyenlet láthatóan a kondenzátorra vonatkozó Q = CV egyenlet id˝obeli deriváltja. Az integrál és tüzel modell akkor hasznos, ha egy nagy hálót akarunk szimulálni, így nincs er˝oforrásunk minden akciós potenciál lefutását egyesével modellezni, de mégis szeretnénk a membránpotenciálokat számon tartani. Ezzel a modellel így viszonylag nagy hálózatokat is tudunk modellezni, ami hasznos lehet, például ha egy fiziológiai jelenség modelljét belevisszük a hálózatba. A modell legnagyobb hibája a memóriajelenség, tehát az, hogy egy küszöb alatti stimulusra a következ˝o akciós potenciálig emlékezni fog, mivel a kondenzátorból nem távozik a stimulus által bevitt töltés. Erre a hibára nyújt megoldást a szivárgó integrál és tüzel modell, amely bevisz egy szivárgó áramot is sejtmembrán kapacitásával párhuzamosan. Az így kapott modellt a következ˝o egyenlet írja le: I(t) − VR(t) dV = dt C ahol R a membrán ellenállása. Ez a modell csak akkor tüzel, ha a bemeneti áram átlép egy bizonyos küszöbértéket. Mint látható itt a nyugalmi potenciált 0-nak
12
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
2
NEURON MODELLEK
kell venni. A modellnek még több kiegészítése is létezik, például be lehet vinni egy nyugalmi id˝ot az akciós potenciál után, amikor a neuron nem reagál a stimulusra, vagy csak nem jöhet létre egy újabb akciós potenciál, abból a célból, hogy ezáltal korlátozzuk az akciós potenciálok maximális frekvenciáját. Egy másik kiegészítés az integrál és tüzel vagy börsztöl, amely már a neuronok egy komplexebb viselkedését is modellezi, a börsztölést, amelyet az egyszer˝ubb, hálózatszimulációra alkalmas modellek nem tudnak reprodukálni.
2.5.
Hodgkin és Huxley modellje
A Hodgkin-Huxley modell egy rendkívül széles körben ismert és használt modell. Ez volt az els˝o modell, ami pontos leírást adott az akciós potenciál keletkezésére és lefutására. Megalkotói munkájukért 1963-ban Nobel-díjat kaptak. A modell az akciós potenciálok generálását feszültségfügg˝o Na+ és K+ ionáramokból vezette le, és ezzel megteremtette a konduktancia-alapú neuronmodellek alapjait. Igaz, a modell eredetileg csak a tintahal óriás axonjában tovább terjed˝o akciós potenciál leírására szolgált, de egy olyan keretet nyújt, amelybe könnyen be lehet illeszteni új részleteket, mint például a szinapszisok receptorainak áramát. Emiatt ebb˝ol a modellb˝ol rengeteg új, részletesebb modell származik. Érdekes módon, míg a legtöbb modellben a hipopolarizáló áramok pozitív el˝ojel˝uek, addig a Hodgkin-Huxley modellben a hiperpolarizáló áramok kaptak pozitív el˝ojelet, és a hipopolarizáló áramoknak negatív el˝ojelük van. Érdemes megemlíteni, hogy a szerz˝ok méréseiket úgy végezték, hogy a sejt membránpotenciálját rögzítették, és az áramokat mérték, ebb˝ol vezették vissza a modelljüket. Ennek ellenére — f˝oleg a kor technikai szintjét figyelembe véve — elég pontosan sikerült reprodukálniuk a kísérletileg kimért akciós potenciál lefutását. Még egy jelent˝os feltétele van modell valósságának, az, hogy a sejtet a szerz˝ok ekvipotenciálisnak vették. Ez kisebb idegsejtekre teljesül, azonban nagyobb sejteknél a modell csak a sejtmembrán egy kisebb részére érvényes.
13
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
2
NEURON MODELLEK
A modell azonban eléggé komplex ahhoz, hogy megnehezítse a hálózatok szimulációját, emiatt születtek leegyszer˝usítései is.
2.6.
A FitzHugh-Nagumo modell
Richard FitzHugh a matematikai neuronmodellek m˝uködésének részleteit kutatva állította fel modelljét, amely a mai napig a neuronhoz hasonló excitálható rendszerek alapmodellje maradt. FitzHugh a Hodgkin-Huxley modell leegyszer˝usítéseként alkotta meg a modelljét, azért, hogy részletesen tanulmányozza a HodgkinHuxley modell tulajdonságait. Nagumo és munkatársai egy, a modellel ekvivalens áramkört alkottak meg, egy alagút dióda illetve passzív áramköri elemek felhasználásával. A modellnek két id˝obeli változója van, az egyik egy, a membránpotenciálhoz hasonló mennyiség (V ), a második pedig egy helyreállási változó (W ). A FitzHugh-Nagumo modellt a következ˝o egyenletek írják le: dV dt dW dt
3
= V − V3 −W + I
= 0, 08(V + 0, 7 − 0, 8W )
Mint látható, a modellnek két id˝obeli változója van, és elég egyszer˝uen függnek össze egymással. Emiatt a FitzHugh-Nagumo modell˝u neuronokat viszonylag gyorsan lehet szimulálni, érdemest a modellt hálózatok szimulációjára is felhasználni. A modellnek természetesen vannak hibái, de ezekkel meg lehet küzdeni egykét kiegészítést alkalmazva. Ilyen hiba az, hogy nincsen éles küszöb az akciós potenciál kialakulásához, az, hogy csak inhibícióval, annak hirtelen változtatásával is létre lehet hozni egy akciós potenciált, illetve az, hogy túl er˝os bemeneti áramra a neuron leblokkol, azaz egy folyamatosan magas V értéket vesz fel. Azért ezt a modellt választottam, mert ahhoz képest, hogy milyen egyszer˝uen, kevés számítási teljesítménnyel szimulálható, viszonylag jó leírást ad a neuronok
14
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
3
˝ CÉLKITUZÉS
m˝uködésér˝ol.
2.7.
Többrekeszes modellek
A többrekeszes modellek úgy születtek meg, hogy nagyobb sejteket akartak leírni a Hodgkin-Huxley modellel. Mivel a nagyobb sejtek nem tekinthet˝ok ekvipotenciálisnak, a sejteket több rekeszre osztották, amelyek már ekvipotenciálisnak tekinthet˝ok, és amelyeket ohmikus ellenállásokon keresztül kötöttek össze, és a rekeszekre egyesével felírhatták a Hodgkin-Huxley modellt, vagy egy részletesebb variánsát. Az ilyen modellek jelenleg a legrészletesebb modellek egyetlen sejtr˝ol. Csak ezek a modellek tudják megjeleníteni az axonból a dendritfába visszaterjed˝o akciós potenciált, vagy az akciós potenciálok után jelentkez˝o Ca2 + hullámokat, melyek fontos szerepet játszhatnak a sejtszint˝u tanulásban, azaz a szinaptikus plaszticitásban. Ilyen modellekkel mutatták ki azt is, hogy bizonyos sejttípusok dendritfája olyan alrégiókra bontható, melyek olyan számításokat is végezhetnek, amelyekr˝ol azt gondoltuk eddig, hogy egy teljes sejthálózat szükséges hozzájuk.
3.
Célkituzés ˝
A következ˝o célokat t˝uztem ki munkám során: 1. Két eltér˝o komplexitású, a klasszikus Hopfield modellhez hasonló szerkezet˝u, de realisztikusabb folytonos tanulású neurális hálózat modell létrehozása 2. A két modell összehasonlító vizsgálata teljes és részleges memórianyomok tárolása és el˝ohívása szempontjából 3. A két modell összehasonlító vizsgálata a többértelm˝u bemenetre adott válasz szempontjából 4. A két modell számításigényének összehasonlítása
15
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
5. Az eredmények megvitatása abból a szempontból, hogy milyen szint˝u leegyszer˝usítés engedhet˝o még meg realisztikus neurális háló modellezés folyamán.
4.
Vizsgált rendszerek
Miután megnéztük, milyen modellek állnak rendelkezésünkre, következzen az általam használt és vizsgált rendszerek részletes leírása.
4.1.
Hopfield hálózat
A Hopfield hálózatról szóló cikkét 1982-ben publikálta John J. Hopfield. Célja egy olyan rendszer megalkotása volt, amely egyszer˝u egységekb˝ol áll, és egy egyszer˝u szabály alapján összekötve o˝ ket valamilyen számítási teljesítményt mutatnak. Egy autoasszociatív memória hálót készített ebb˝ol a célból, jelent˝osen leegyszer˝usített neuronokkal. Ezzel megmutatta, azt hogy egy neurális háló nem csak pontosan a céljára kitalált szerkezettel m˝uködhet, hanem egy jóval egyszer˝ubb, általános szerkezettel is. A hálóban minden neuronnak két állapota lehet: 1 („aktív, azaz maximális sebességgel tüzel”), vagy 0 („inaktív, csendes”). A neuronok Monte Carlo módszerrel, azaz véletlenszer˝u sorrendben, de azonos eséllyel a sorrakerülésre, hasonlítják össze a bemeneteiket az állapotváltáshoz. A Monte Carlo módszerb˝ol következik az is, hogy a neuronok átlagosan ugyanolyan frekvenciával hajtják végre az összehasonlításokat az állapotváltáshoz. Ez egy lényeges újdonság volt ebben a hálóban, mivel a régebbi hálókban szinkronizált állapotváltást használtak. Az új állapotot a következ˝o szabály alapján határozzák meg: oi = 0 ha
∑ Wi j · o j < Ui j
oi = 1 ha
∑ Wi j · o j > Ui j
16
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
Ahol oi az i-edik neuron kimenete, a W súlymátrix, i-edik sorának j-edik eleme a j-edik neuron által az i-edikre gyakorolt hatást írja le egy „szinaptikus súly” formájában, illetve Ui az i-edik neuron küszöbértéke.1 E szerint a szabály szerint a pozitív „szinaptikus” súly két neuron között serkent˝o, a negatív gátló kapcsolatot jelent. A hálóban minden neuron kapcsolódik minden más neuronhoz, de önmagához nem. A háló szerkezetét mutatja az 1. ábra. Az információ tárolásához a következ˝o algoritmust lehet használni: Wi j = ∑(2si − 1)(2s j − 1) s
Ahol az s vektorok adják meg a mintákat, egy mintavektor i-edik eleme az i-edik neuron kimenetét írja le abban a mintában. Mivel egy neuronnak nincs önmagával kapcsolata Wii mindig nulla, tehát a súlymátrix f˝oátlója csak 0-ákat tartalmaz. Az összes betanított mintavektort tartalmazó halmazt S-el jelölöm. Minden mintát egyesek és nullák sorával is jelölni például 0101 h lehet természetesen i jelöli a 0 1 0 1 mintavektort. Ez az algoritmus növeli a „szinaptikus” súlyt az egy mintában azonos állapotban lév˝o neuronok között, és csökkenti a súlyt az ellentétes állapotú neuronok között, így ha mutatunk egy részmintát a hálónak, az azzal aktivált neuronok megpróbálják aktiválni azokat a neuronokat, amelyekkel van közös mintájuk, azaz S tartalmaz olyan mintát, amiben a két neuron állapota azonos. Illetve az aktivált neuronok gátolják azok aktiválódását, amelyekkel nincsen közös mintájuk. Hopfield definiál a szimmetrikus súlyokkal rendelkez˝o, 0 küszöb˝u hálózat állapotához egy energiát a következ˝o módon: E =−
1 Wi j oi o j 2 ∑∑ i6= j
1A
jelöléseket megváltoztattam, hogy az egymásnak megfeleltethet˝o változóknak ugyanaz az legyen a jele, mint az én modellem leírásában.
17
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
Az állapotváltási algoritmusból következik, hogy az energia monoton csökken. Vegyük az egy neuron állapotváltása által okozott energiaváltozást: ∆E = −∆Vi ∑ Wi jV j j6=i
Ha egy neuron 1-esb˝ol 0 állapotba vált akkor a ∆Vi = −1 lesz. Ez akkor történhet, ha
∑ Wi jV j < 0 j6=i
az állapotváltási algoritmusból adódóan. Ekkor ∆E beláthatóan negatív lesz, tehát az energia csökken. Ha egy neuron a 0 állapotból az 1-es állapotba vált akkor ∆Vi = 1 lesz, ez akkor történhet ha
∑ Wi jV j > 0 j6=i
Ekkor is ∆E negatív lesz. Ez a monoton csökkenés hátrányos, mivel a háló megakadhat egy magas energiájú állapotban, ami az energiafüggvény egy lokális minimuma.2 Ilyen magas energiájú, de lokális minimumot képz˝o állapot például az, amikor az összes neuron kimenete nulla. Azonban ha a neuronoknak 0 a küszöbértéke, akkor a nullázott állapot energiája jóval magasabb, mint a felismerend˝o mintáké, így nem tud kialakulni a nulla állapot, csak ha abból indul a háló. De a neuronok küszöbértékének megemelésével a felismerend˝o állapotok energiáját is meg tudjuk emelni a nulla állapot energiájához közeli értékekre. Ez azért hasznos, mert ha a háló nem tud felismerni egyetlen tanított mintát sem, akkor a nulla állapotot fogja választani. Természetesen ez csak akkor igaz, ha nincs egy aktív neuronnal rendelkez˝o minta. Ezek a lokális minimum problémák léteznek az általam alkotott hálókban is. Ennek a problémának a megoldására alkották meg a Boltzmann gépet, ahol az 2A
lokális minimumot definiáljuk itt úgy, mint olyan állapotot, amiben ha egy neuron megváltoztatja a kimenetét az energia csak n˝ohet.
18
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
energianövel˝o állapot váltások megengedettek, de jóval kisebb eséllyel, mint az energiacsökkent˝o változások. Az id˝obeli változások az háló állapotában nem teljesen determinisztikusak a Monte Carlo módszer miatt, többértelm˝u bemenet esetén a háló statisztikus módon választ a tanított állapotok közül, tehát amelyik jobban hasonlít a bemenetre, annak nagyobb esélye van a kialakulásra. Az hogy melyik minta fog kialakulni függ attól, hogy melyik neuront választjuk ki el˝oször állapotváltásra. Az eredeti modell nem tartalmaz bemeneteket, ezért úgy lehet autoasszociatív memóriaként használni, ha azoknak a neuronoknak rögzítjük a kimenetét, amelyeknél ismert az érték. Ez a rögzítés nagyjából ekvivalens az én hálózataimban egy er˝os bemenettel, az 1-hez rögzítést egy er˝os pozitív, a 0-hoz rögzítést egy er˝os negatív bemenettel tehetjük meg.
4.2.
Diszkrét ideju˝ modell
A diszkrét idej˝u hálót azért hoztam létre, hogy a m˝uködés közben tanuló memóriahálók legfontosabb jelenségeivel megismerkedjek. A diszkrét idej˝u hálózat m˝uködésének formális definíciója: o(t) = ~f [W × o(t − 1) + i] h i o(0) = 0 0 · · · 0 Ahol: • az o(t) oszlopvektor az állapotvektor t id˝oben; • W a súlymátrix, aminek i-edik sorának j-edik eleme az i-edik neuronra a j-edik által gyakorolt hatást írja le; • az i oszlopvektor a bemeneti vektor;
19
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
• az ~f vektorfüggvény pedig a következ˝o: h ~f (v) = f (v1 ) f (v2 ) · · · ahol
1 f (x) = 0
i f (vn )
ha x > 1 ha x ≤ 1
A fenti egyenletben a W × o(t − 1) szorzat adja meg a neuronok bemeneteit a hálózaton belülr˝ol, ehhez hozzáadjuk a kívülr˝ol érkez˝o bemeneteket(i), majd minden neuron bemenetét transzformáljuk a neuronok átviteli függvényével( f (x)), így kapjuk meg a neuronok új kimenetét. A súlymátrix változási szabályához definiáljunk egy W∗ mátrixot, melynek minden eleme kezdetben nulla. A változás szabálya a következ˝o minden W∗ i j re(i 6= j): W∗ i j (t) = W∗ i j (t − 1) + µ · o j · (2oi − 1) Ebb˝ol a W súlymátrixot a következ˝oképpen kapjuk: Wi j = 2 tanh W∗ i j minden i, j-re Ez a transzformáció azért szükséges, mert e nélkül a súlyok abszolútértékei viszonylag gyorsan olyan magas értékekre n˝onének, hogy a bemenetek nem befolyásolnák jelent˝osen a háló m˝uködését, egy minta beégne a hálóba. A tanh x egy szigmoid függvény, szigorúan monoton növekv˝o, és két határértéke van: lim tanh x = 1
x→∞
lim tanh x = −1
x→−∞
Így ezáltal a transzformáció által a súlyokat -2 és 2 közé szorítottuk, nem n˝ohetnek a végtelenségig.
20
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
A háló legfontosabb tulajdonságai: • Hopfield szerkezet • küszöb függvényes neuronok • szinkronizált állapot váltás • aszimmetrikus szinapszisok • súlymátrix folyamatos változása m˝uködés közben A Hopfield szerkezet annyit jelent, hogy Wii = 0 minden i-re, azaz egy neuronnak sincs kapcsolata önmagával. A neuronok kimeneti függvénye( f (x)) is a Hopfield modellre hasonlít, annyi különbséggel, hogy itt nem 0 hanem 1 a küszöb, ezért egy kis súlyú bemenet nem tudja kibillenteni a nyugalmi helyzetb˝ol a neuront. Erre szükség van, hogy a modell jobban jósolja meg a fiziológia paraméterekkel rendelkez˝o rendszer viselkedését, mivel annak is viszonylag magas kvázi-küszöbe van. A szinkronizált állapotváltás a gyors és egyszer˝u szimuláció miatt került a modellbe. Az eredeti Hopfield modellben véletlenszer˝uen váltanak állapotot a neuronok, és csak az átlagos frekvencia egyenl˝o minden neuronnál. A szinkronizáció miatt egy id˝olépés számolását kevés, a számítógép grafikus vezérl˝ojét kihasználva jelent˝osen optimalizálható lépésben lehet elvégezni, így egy lépés az id˝oben egy mátrix szorzásra, egy vektor összeadására és az aktivációs függvény számítására egyszer˝usödik. Emiatt a diszkrét idej˝u hálóval végzett tesztek sokkal gyorsabbak, illetve jóval nagyobb hálókon tudok szimulációt végezni a diszkrét idej˝u modellel. Az aszimmetrikus szinaptikus súlyoktól az egymást átfed˝o minták könnyebb megkülönböztetését, és a többféleképpen értelmezhet˝o részmintáknál a több értelmezés közti döntést vártam. A folyamatosan változó súlymátrix egy új dimenziót visz a hálózat dinamikájába. Az új, dinamikusabb hálózat feltételezésem szerint hatékonyabban tud majd tanulni, illetve memóriákat „felidézni”, azaz a bemenet alapján a már tanult állapotok egyikét felvenni. A változási szabály meger˝osíti a kapcsolatot az
21
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
együtt aktív neuronok között, és gyengíti a kapcsolatot, ha csak a preszinaptikus neuron aktív, a posztszinaptikus nem. Így a mintákban együtt el˝oforduló neuronok egymást aktiválhatják. A kapcsolat gyengülése során a súly negatív értéket is felvehet, ilyenkor a szinapszis gátolja a posztszinaptikus neuron aktiválódását. A tanh függvénnyel a súlyértékeket -2 és 2 közé korlátoztam, ez fontos, mivel enélkül tanítás közben rögzülhetne az egyik tanított minta vagy egy, több tanított mintából álló kevert minta, és így a háló alkalmatlanná válna a céljára. Két fontos különbség van a Hopfield által adott tanulási algoritmushoz képest. Az els˝o az hogy a Hopfield-féle módszerrel két inaktív neuron között is megn˝o a kapcsolat súlya. Ezt azért hagytam el, mert ez beláthatóan hamis minták kialakulásához vezet, vegyük a következ˝o példát: Tanítsunk be egy négyneuronos Hopfield hálót a 0110 és 0011 mintákra. Így a következ˝o Wi j súlymátrixot kapjuk:
0
−2
0
0
0
0
−2
0
0
0 Wi j = −2 0
0
−2 0 0
E szerint a mátrix szerint, ha a küszöb 0, akkor nem csak a 0110 és 0011 állapotok stabilak, hanem az 1100 és az 1001 állapotok is. Ha van küszöb, akkor csak a 0000 állapot lesz stabil. Ellenben az én tanítási algoritmusommal körülbelül ilyen formájú súlymátrix alakul ki(a > b > 0):
0
0
0
0
−b 0 b −b Wi j = −a 0 0 0 −b −b b 0
22
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
Természetesen ezek csak körül-belüli értékek, az a és b értékek függenek a betanítás hosszától és a µ tanulási sebességt˝ol is, illetve a szekvenciális tanítás miatt nem biztos hogy mindenhol pontosan nulla lesz a súly, csak az hogy 0-hoz közeli érték. Ez a mátrix több információt tartalmaz a mintákról, ha a Hopfield hálózat súlymátrixaként alkalmaznánk, elt˝unnének az olyan stabil állapotok, amelyeket nem tanítottunk (kivéve természetesen a 0000 állapotot). A második f˝o különbség az, hogy a háló m˝uködés közben tanul, így lehetségessé válik az, hogy menetközben új mintát tanuljon. A háló abban is különbözik a Hopfield-félét˝ol, hogy vannak bemenetei. Ezek a bemenetek el˝onyösek lehetnek akkor, ha sejtésünk van arról, hogy milyen állapotot kéne felvenni egy neuronnak, de nem vagyunk biztosak benne. Ilyenkor ha csak egy kis abszolút érték˝u bemenetet kapcsolunk az adott neuronra, az nem biztos hogy az általunk javasolt állapotot fogja felvenni, de ezzel el˝osegíthetjük többértelm˝u bemenetek esetén a lehetséges minták közti döntést. Még egy lényeges különbség a Hopfield hálótól az, hogy az én modellem determinisztikus, tehát egy adott kísérletre mindig ugyan azt az eredményt fogja adni, hiszen nincsen véletlenszer˝u elem a definícióban, ellentétben a Hopfield hálózattal, ahol a neuronokat Monte Carlo módszerrel választjuk ki az állapotváltáshoz. Ez a különbség megengedi azt, hogy jóval kevesebb kísérletb˝ol következtetéseket vonjunk le.
4.3.
Fiziológiás modell
A fiziológiás modellel azt szerettem volna vizsgálni, hogy elképzelhet˝o-e egy m˝uköd˝oképes, hasonló szerkezet˝u háló egy valós idegrendszerben. A lényeges tulajdonságok: • Hopfield szerkezet • FitzHugh-Nagumo modell˝u neuronok • saját, paraméterezhet˝o szinapszis modell
23
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
• aszimmetrikus szinaptikus súlyok • szinaptikus súlyok változása egy differenciálegyenlet alapján • a bemenetek konstans áramok A FitzHugh-Nagumo(FN) modell a Hogdkin és Huxley által felállított neuron modell egy leegyszer˝usített változata. A modellt Richard FitzHugh publikálta el˝oször, illetve Nagumo és munkatársai építettek egy ekvivalens áramkört állati axonok modellezésének céljából. Habár FitzHugh nem a neuronok pontos m˝uködését leíró modellt keresett, sokkal inkább csak a neuronokat leíró matematikai modellek alapjelenségeit kutatta, modellje mégis hasznossá vált a kutatók kezében, a neuronokhoz hasonló rendszerek alapmodelljévé vált. A modell csak 2 id˝obeli változót tartalmaz, emiatt gyorsabban lehet szimulálni ezt a modellt. Ez a különbség fontos nagyobb hálók, illetve hosszabb kísérletek esetén. A modell a következ˝o két differenciálegyenlet írja le: dV dt dW dt
3
= V − V3 −W + I
= 0, 08(V + 0, 7 − 0, 8W )
Ahol V a neuron potenciálját írja, és I a bemeneti áram. Amennyiben a bemeneti áram átlép egy bizonyos kvázi-küszöböt, a modell egy jellemz˝o tüskét mutat a potenciálban, egy akciós potenciált(AP). A modellnek vannak hibái, de ezeket a rendszer többi részének megfelel˝o felépítésével el lehet kerülni. Ilyen hiba az, hogy a modell képes nem teljes akciós potenciálokat produkálni. Ebb˝ol következ˝oen az akciós potenciálnak nincs egy pontos küszöbértéke, csak egy kvázi-küszöb. Ha a neuron potenciálja a bemeneti áram hatására a kvázi-küszöb közelébe kerül akkor a neuron egy hibás, nem teljes AP-t ad le. Amikor a feszültség teljesen át tudja lépni a kvázi-küszöböt akkor egy teljes akciós potenciál keletkezik. Mivel ez a jelenség a kvázi-küszöb viszonylag sz˝uk környezetében figyelhet˝o meg úgy, hogy jelent˝os eltérést okoz a az elvárt m˝uködést˝ol, ezért az elkerüléséért nem kell semmilyen változtatást bevezetnem.
24
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
Másik hiba a posztinhibíciós AP, ami annyit jelent, hogy ha a neuront folyamatosan inhibitáló áramot hirtelen megszüntetjük, az egy akciós potenciált ad le. Ez azzal magyarázható hogy a neuron nyugalmi állapota olyan (V,W ) koordinátára kerül az inhibíciós áram miatt, ami az inhibíció nélküli kvázi-küszöbön túl van, és ha az inhibitáló áram hirtelen sz˝unik meg, a neuron egy akciós potenciált produkál. Ezek a hamis akciós potenciálok sem zavarják meg a rendszer m˝uködését jelent˝osen, így nem kellet miattuk változtatnom magán a rendszeren, de bizonyos kísérletekben meg kellet változtatnom a minták tanításának módját miatta. A harmadik, és legjelent˝osebb hiba az, hogy a neuront túl er˝os serkent˝o árammal tüzelésb˝ol egy folyamatos magas potenciállal rendelkez˝o állapotba lehet billenteni. Ez ellen a hiba ellen a nagyobb hálókkal történ˝o kísérleteknél már védekeznem kellett, ezért minden neuron bemeneti áramát a következ˝o függvénnyel transzformáltam: f (x) =
x 1 + e−10(1−x)
+
1.2 1 + e−10(x−1)
Ez függvény körülbelül lineáris a ] − ∞; 1] intervallumon, 1-nél nagyobb x-ekre pedig körülbelül 1 és 1.3 közé es˝o értékeket ad, ezek elég kicsik ahhoz, hogy ne jöjjön létre ez a hiba. Azért ilyen függvényt alkalmazok, mert ez nem változtatja meg a háló m˝uködését, amíg kis áramok vannak a neuronok bemenetén, csak akkor avatkozik be jelent˝osen a hálózat m˝uködésébe, amikor fellépne a hiba. A FitzHugh-Nagumo modell alapvet˝o m˝uködését, és két jelent˝osebb hibáját mutatja a 2. ábra. A grafikonon látható a modell két id˝obeli váltózója (V , W ) és a bemeneti áram(I). A kísérlet els˝o szakaszában I = 0, 5 bemeneti áramnál a neuron szabályos akciós potenciálokat produkál. A kísérlet második szakaszában a neuron I = 2 bemeneti áramot kap, ami leblokkolja a neuront, az egy folyamatosan magas V értéket vesz fel. A harmadik szakaszban a neuron er˝os gátló áramot kap (I = −1), majd ezt a gátlást hirtelen visszaveszem(I = 0), így a neuron egy posztinhibíciós akciós potenciált mutat. A neuronokat a modellben ekvipotenciálisnak tekintem, azaz csak egy, egységes potenciáljuk van. Természetesen ez a valódi neuronokban nem így van,
25
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
mivel a potenciáloknak utazniuk kell a neuron különböz˝o részei között. Az egységes potenciál azt is jelenti, hogy elhanyagoltam a késleltetéseket a hálózatban a szinaptikus késleltetésen kívül, mivel a sejten belül nem kell utaznia a potenciáloknak. Mivel szinapszisoknak csak a maximális vezet˝oképességét változtatom, mint szinaptikus súlyt, a késleltetés álladó bármely két neuron között. A saját szinapszis modell szükséges volt, hiszen nem találtam olyan modellt, amelyikben jól paraméterezhet˝o a késleltetés, illetve a hatás hossza, de nem kell hozzá ionkoncentrációkkal számolni, amelyeket a választott neuronmodellem nem tartalmaz. Természetesen ennél a modellnél jóval részletesebb modellek léteznek a szinapszisokra, amelyek már meg különböztetik az is, hogy milyen neurotranszmittert használ a szinapszis, illetve, hogy milyen receptor fehérjék vannak a posztszinaptikus sejtben. Az én modellemben egy szinapszisnak 2 id˝obeni változója van: c: a transzmitter „koncentrációja” a szinapszisban (az idéz˝o jelek azért szükségesek, mert a koncentráció értékek mértékegység nélküliek, illetve minden valóságbeli alapot nélkülöz˝oek) és k: a nyitott ioncsatornák aránya. c és k változását a következ˝o differenciálegyenletek írják le: dc = pc · σ (Vpre − 1) + k · mk − pk · c · (1 − k) − c · mc dt dk = pk · c · (1 − k) − k · mk dt Ahol Vpre a preszinaptikus neuron potenciálja, és σ (x) =
1 1 + e−50x
pc , mc , pk , mk pozitív konstansok, a szinapszis m˝uködését írják le, változtatásukkal elérhet˝o rövidebb és hosszabb hatás, illetve meredekebb, vagy kevésbé meredek átmenetek a nyitott ioncsatornák arányában, és ezzel együtt a szinapszis által a posztszinaptikus sejt membránján keltett áramban. pc jelöli a transzmitter felszabadulási sebességét, mc a felszívódási sebességét. pk jelöli a kötödés sebességét
26
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
a receptorokhoz, mk pedig a felszabadulás sebességét a receptoroktól. A legtöbb leírt kísérletben a következ˝o értékeket használtam: pc = 1 mc = 0, 1 pk = 0, 1 mk = 0, 1 A szinapszis által keltett bemeneti áramot a következ˝o képlet adja meg: I = gk Ahol g a maximális áram, ami ebben a rendszerben egyenl˝o a szinaptikus súllyal. Ezzel a megoldással egyszer˝u, a diszkrét idej˝u modellhez hasonló dinamikát lehet bevinni a szinaptikus súlyokhoz, mivel a negatív g gátló áramot, a pozitív pedig serkent˝o áramot jelent. Két neuron és egy szinapszis m˝uködésér˝ol ad képet a 3. ábra. A preszinaptikus neuron V paraméterét jelöltem V1-gyel, a posztszinaptikusét V2-vel. A szinapszis id˝obeli változóit c-vel és k-val jelöltem. Az akciós potenciál utáni hiperpolarizáció megakadályozza, hogy a posztszinaptikus neuron minden akciós potenciált átvegyen a preszinaptikustól, így csak minden második akciós potenciált vesz át, tehát fele akkor frekvencián tüzel. Itt a többi kísérlettel ellentétben az mc paraméterre 0,1 helyett 1-et használtam. A hálónak a diszkrét idej˝u hálóhoz hasonlóan szüksége van egy súlydinamikára, ami megadja azt, hogyan változzanak a súlyok. Ennél a hálónál nehezebb megadni egy egyszer˝u súlydinamikát, mivel nehezebb meghatározni azt, hogy egy neuron egy adott id˝opillanatban tüzel-e. Külön-külön nem lehet hagyatkozni sem a pillanatnyi V értékre a fázis eltolás miatt, sem pedig a V id˝obeli deriváltjára, mivel a V érték meredeken változhat pulzált gátlás esetén is, nem csak akciós
27
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
potenciálok esetén. A súlydinamikát a következ˝o differenciálegyenlet adja meg: dg dt
0 0 − 1.25) + 1 − σ (|V 0 0 = µ(gmax − g)σ (Vposzt − 1)[σ (Vposzt −Vpre poszt −Vpre |)] 0 + 0.5)][1 − σ (|V 0 −µ(g − gmin )[1 − σ (Vpre poszt | − 0.3)][1 − (Vposzt − 1)]
Ez az egyenlet lényegben egy algoritmus elágazásai egyenletbe írva, azzal a különbséggel, hogy itt a σ (x) függvény létrehoz egy átmenetet a feltételek teljesülési határának közelében. Az algoritmus leírása: Ha a posztszinaptikus neuronban kialakul egy akciós potenciál és 1,25-nál nagyobb a különbség a két neuron potenciálderiváltja között, vagy 0,1-nél kisebb a különbség a két neuron potenciálja között növeljük meg a g-t, gmax -hoz konvergáló függvény mentén. Ha a preszinaptikus neuron egy akciós potenciál leszálló ágánál tart, és posztszinaptikus neuronban nem alakult ki akciós potenciál, illetve a posztszinaptikus neuron potenciálderiváltjának abszolút értéke kisebb, mint 0,3 csökkentsük a g-t egy gmin -hez konvergáló függvény mentén. Az algoritmus, illetve a differenciálegyenlet akkor növeli a g-t ha a két neuron teljesen egy fázisban tüzel, ilyenkor a posztszinaptikus neuronban kialakul egy akciós potenciál, és a két V különbsége kicsi. Az algoritmus akkor is növeli a g-t ha a preszinaptikus neuron akciós potenciálja kiváltja a posztszinaptikusból az akció potenciált, ilyenkor a preszinaptikus akciós potenciál lefutásánál fut fel a posztszinaptikus akciós potenciál, tehát a két V deriváltjának különbsége nagy lesz. g csökkenés akkor történik, ha van preszinaptikus akciós potenciál, de a posztszinaptikus elmarad, azaz a preszinaptikus akciós potenciál leszálló ágánál a posztszinaptikus V nem magas, illetve nem változik jelent˝osen, tehát a deriváltjának abszolútértéke alacsony. A gmin és gmax értékek közé korlátozott maximális áram hasznos, mivel ez segít elkerülni a FitzHugh-Nagumo modell azon hibáját, hogy túl er˝os ingerre nem tüzel a neuron, hanem folyamatosan magas potenciált vesz fel. A bemeneteket a lehet˝o legegyszer˝ubb formában, konstans áramokként reprezentálom, ennél bonyolultabb definíció ebben az esetben célszer˝utlen lenne, vala-
28
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata 4
VIZSGÁLT RENDSZEREK
mint lassítaná a szimulációt is. Tehát ezt a modellt az eddigieket összefoglalva a következ˝o egyenletek írják le(i és j jelölik a neuronok sorszámát a hálózatban):
V3 dVi =Vi − i −Wi + Ii + ∑ gi j ki j dt 3 j6=i dWi =0, 08(Vi + 0, 7 − 0, 8Wi ) dt dci j =pc · σ (V j − 1) + ki j · mk − pk · ci j · (1 − ki j ) − ci j · mc dt dki j =pk · ci j · (1 − ki j ) − ki j · mk dt dgi j =µ(gmax − gi j )σ (Vi − 1)[σ (Vi0 −V j0 − 1.25) + 1 − σ (|Vi0 −V j0 |)] dt − µ(gi j − gmin )[1 − σ (V j0 + 0.5)][1 − σ (|Vi0 | − 0.3)][1 − (V j − 1)] A differenciálegyenleteket Euler-féle numerikus módszerrel oldom meg, ez megfelel˝o pontosságot ad ahhoz, hogy megfigyelhessem a rendszer m˝uködését. A módszer lényege az, hogy a differenciálegyenletekre egy közelít˝o megoldást ad. A megoldandó feladat az, hogy adott egy differenciálegyenlet a következ˝o formában: y0 (t) = f (t, y(t)) Illetve tudjuk azt, hogy: y(t0 ) = y0 Az általam használt modellben ez a t0 érték mindig a szimuláció kezdetét jelzi. Tudjuk továbbá a következ˝ot: y0 (t) ≈
y(t + h) − y(t) h
29
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
5
MEGFIGYELÉSEK
Ezt az egyenletet átrendezhetjük a következ˝oképpen: y(t + h) = y(t) + hy0 (t) ebb˝ol következik, hogy: y(t + h) = y(t) + h f (t, y(t)) A t értékekb˝ol alkothatunk egy sorozatot a következ˝oképpen: tn = t0 + nh, illetve ehhez tudunk definiálni egy yn = y(tn ) sorozatot, amellyel közelítjük az y(t) függvény értékeit, és aminek értékeit rekurzívan számíthatjuk a következ˝oképpen: yn+1 = yn + f (tn , yn ) Ez a módszer alkalmazható az összes általam használt differenciálegyenletre. Természetesen minél kisebb h értéket alkalmazunk, annál nagyobb lesz a megoldás felbontása, annál pontosabb közelítést kapunk. Minden kísérletben a h = 0, 05 érteket használtam, ami jóval alaposabb felbontást adott, mint amire szükségem volt.
5. 5.1.
Megfigyelések Teljes minták felismerése
A teljes minták felismerése a legalapvet˝obb m˝uködési jelenség egy mintajavító hálóban. Ahhoz, hogy ez sikerüljön a Hopfield szerkezet˝u hálókban az egymást átfed˝o minták esetén nem szabad az átfedésben lév˝o neuronoknak serkenteni a minták átfedésben nem lév˝o neuronjait, mivel így egyik minta el˝ohívhatná a másik egy részét, vagy egészét, és így kevert minták jönnének létre a háló kimenetén. Ez feltételezésem szerint úgy történik meg, hogy az egyik minta tanítása alatt amennyit er˝osödik egy ilyen kapcsolat, a másik minta tanítása alatt körülbelül
30
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
5
MEGFIGYELÉSEK
ugyanannyit gyengülnie kell, így a tanítás végén, ha nem alkalmazunk túl magas µ értéket az ilyen kapcsolatok súlyának nulla közelinek kell lennie, azaz nem befolyásolja jelent˝osen a rendszer m˝uködését. A teljes minták felismerésének próbáját az összes leírt kísérletben elvégeztem. El˝oször egy négy neuronból álló hálón tanulmányoztam az egymást átfed˝o minták felismerését. A hálót az 1100; 0110 és 0011 mintákra tanítottam be, ahol az 1-esekkel jelölt neuronok aktívak a mintában, 0-val jelöltek inaktívak. A négyneuronos hálót még nagyon könnyen lehet szimulálni, nem kell nagy számítási teljesítmény hozzá, viszont már elég mintakombináció létezik négy neuronra. Azért ezt a három mintát választottam ki a tanításhoz, mert viszonylag egyszer˝u szimmetrikus súlymátrixot vártam, és kaptam a tanítás után. Ezekkel a mintákkal is lehet sokféle többértelm˝u bemenetet létrehozni. A kísérlet menete a következ˝o volt a diszkrét idej˝u hálónál: Egy tanítási ciklus alatt minden mintát addig prezentáltam a hálónak, amíg az stabil állapotot nem ért el. A prezentáció úgy zajlik, hogy a mintában aktív neuronok bemenetét 2-re állítottam, az inaktívakét -2-re. Ez a gátló bemenet azért kellett, hogy az els˝o néhány minta után garantáljam, hogy csak a mintában aktív neuronok tüzelnek, a többi nem. Így a háló felvette a mintát a kimenetén, így a súlymátrix súlyai a tanuláshoz megfelel˝o irányban elmozdultak. Minden minta prezentálása után az összes neuron kimenetét 0-ra állítottam. Ez azért volt szükséges, hogy elkerüljem a minták közötti kölcsönhatást, illetve a minták beégését a hálóba. A tanítási ciklust tízszer megismételtem. Ezután a tényleges teszt úgy zajlott, hogy a hálónak megmutattam minden mintát újra, de az inaktív neuronoknak nem adtam gátló bemenetet. A fiziológiás hálónál ez az eljárás annyiban változik, hogy a mintákat fix ideig mutatom (100 id˝oegység), serkent˝o áramként 0,5-t, gátló áramként -0,5-t használok, illetve a kimenetek nullázása helyett szüneteket iktatok be (50 id˝oegység), amikor gátló áram van az összes neuron bemenetén. Ezekre a változtatásokra egyrészt azért van szükség, mert a FitzHugh-Nagumo neuronok kvázi-küszöbe alacsonyabban van, mint az diszkrét idej˝u hálóban használt neuronoké, és a túl
31
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
5
MEGFIGYELÉSEK
magas áram blokkolná a FitzHugh-Nagumo neuronokat, amelyekben akciós potenciálok helyett folyamatosan magas V érték alakulna ki. Másrészt a hálózat feltehet˝oen jobban közelíti a valós neuronhálók m˝uködését, ha hagyom a neuronokat maguktól alaphelyzetbe állni, mintha mesterségesen újra visszaállítanám o˝ ket az alapállapotukba. Fontos megemlíteni, hogy az összes a négyneuronos hálókkal végzett kísérlet determinisztikus, tehát akárhányszor futtatom o˝ ket le az eredményük mindig ugyanaz lesz. Ezzel elkerülhet˝o az eredmények statisztikai elemzése. A 4.ábra mutatja a fiziológiás háló tanítását. A neuronok V változóját ábrázolja a grafikon, V1, V2, V3, V4 címkével az 1., 2., 3. és 4. neuronokét. A grafikon fölé írt tartományok jelzik, hogy mikor melyik mintát tanítom a hálónak. A grafikon els˝o tartományában a két aktív neuron görbéje pontosan fedi egymást, mivel teljesen azonosan viselkednek. Ahogy tanítom a hálót, úgy lesznek ezek a görbék egyre inkább aszimmetrikusak. Az 5. ábra egy szinapszis vezet˝oképességének a változását mutatja. A szinapszis 2-es neuront köti össze a 3-assal (2-es a preszinaptikus). A két neuron V értékét jelöltem V2-vel illetve V3-mal, a szinapszis maximális vezet˝oképességét, azaz a szinaptikus súlyt pedig g-vel. Látható, hogy az els˝o tartományban gyengül a súly, negatív lesz, mivel csak a preszinaptikus neuron aktív, a posztszinaptikus nem. A második tartományban a súly er˝osödik, mivel a két neuron egyszerre aktív, a harmadik tartományban a súly állandó, mivel a preszinaptikus neuron nem aktív. Azt tapasztaltam, hogy a teljes mintákat ez a négyneuronos háló majdnem esetben esetben feltudja ismerni. Ez alól kivételt képezett az az eset, amikor az egyik mintát olyan hosszan mutatom a hálónak, hogy a más mintákban együtt aktív neuronok között gátló súlyok alakulnak ki. Ilyenkor egy vagy több minta kieshet a háló memóriájából. Egy másik kísérletben 16 neuronos hálóknak tanítottam be két véletlenszer˝u mintát. Ez a kísérlet a véletlenszer˝uen választott minták miatt nem determinisztikus, azonban a szimuláció hosszúsága miatt nem futtattam a statisztikai elemzés-
32
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
5
MEGFIGYELÉSEK
hez elegend˝o kísérletet. Ezek a kísérletek a négyneuronos kísérletekhez hasonló eredményeket adtak. A tanításhoz az el˝oz˝o módszereket használtam, azonban a fiziológiás hálónál néhány módosítást kellett végeznem, mivel több hibás m˝uködési forma is jelentkezett. A diszkrét idej˝u háló megfelel˝oen m˝uködik ebben a konfigurációban is, egyedül a µ tanulási sebesség értéket módosítottam, mivel több neuronnál kisebb súlyok is megfelelnek a neuronok között, nagyobb súlyokkal pedig könnyebben alakulnak ki hibás minták. A diszkrét idej˝u háló minden teljes mintára helyesen reagált. A fiziológiás hálóval ellenben gondok adódnak, ha növelem a háló méretét. Az els˝o probléma az volt, hogy a neuronok túl nagy bemeneti áramot kapnak, így kialakult bennük egy folyamatos magas potenciál, tüskék nélkül. Ez a szinapszisok felépítéséb˝ol adódóan folyamatos áramot keltett azokban, és így rövid id˝o alatt a bemeneti minta által aktivált összes neuron ebbe az állapotba került. Ez ellen védekezek a már említett módszerrel, hogy a bemeneti áramot transzformálom egy függvénnyel, ami így korlátozza azt, hogy mekkora áramot kaphat egy neuron. A második probléma az volt, hogy a neuronok között tanítás közben egy önfenntartó minta jön létre, ami a tanított minták közti szünetekben is megmarad. A 6. ábra mutatja be egy ilyen önfenntartó minta kialakulását. A grafikon mutatja egy sejt V változóját, és a küls˝o bemeneti áramát(I). Látható hogy a minta kialakulása után a sejt a kívülr˝ol érkez˝o bemenett˝ol függetlenül tüzel. Az önfenntartó minta miatt nagyobb gátló áramot kell bevezetnem, azonban ez a nagyobb gátló áram több posztinhibíciós akciós potenciállal jár. Ezért a teljes -3-as gátló áramot csak a szünet feléig tartom fent, utána fokozatosan 0,5-es lépésekben megnövelem, így elkerülhet˝o a hibás akciós potenciálok nagy része. Ahhoz, hogy ez a módszer m˝uködhessen hosszabb, 100 id˝oegységes szüneteket iktattam a két minta közé. A 7. ábra mutatja egy sejt V változóját, illetve a bemeneti áramát, miközben ezzel a technikával tanítom. Ezzel a módszerrel a 16 neuronos háló is felismerte a teljes mintákat, azonban
33
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
5
MEGFIGYELÉSEK
már hibázott néha. Ezek a hibák valószín˝uleg a véletlenszer˝u mintáknak tudhatók be, mivel itt nem olyan szabályos az átfedés a minták között, lehetséges, hogy az egyik minta összes aktív neuronja aktív a másik mintában is.
5.2.
Egyértelmu˝ részleges minták helyes felismerése
A háló tényleges célja az, hogy részleges mintákat is fel tudjon ismerni helyesen, és így kijavítani a hibákat. Ez a hibajavítás két részre bontható: 1. a bemenet által nem aktivált, de mintában lév˝o neuronok aktiválása 2. a bemenet által aktivált, de a mintában nem lév˝o neuronok gátlása Az els˝ohöz az szükséges, hogy meger˝osödjenek a serkent˝o kapcsolatok egy mintán belül, ezt a tanulási módszer garantálja, amíg a háló tanulás közben helyes állapotokat vesz fel. A második cél megvalósítása nehezebb, mivel az el˝ohívásnál nem alkalmazok gátló bemenetet, így kisebb súlyokkal is aktiválható egy neuron, azonban ahhoz hogy egy aktivált neuront gátoljon a háló, er˝osebb gátló súlyokra van szükség. Az els˝o kísérletben vizsgáltam a részeges minták felismerését, azt figyeltem meg, hogy a 1000 és a 0001 bemenetekre helyesen felismeri a 1100 és 0011 mintákat. Más egyértelm˝u részleges minta ebben a kísérletben nem létezik, mivel minden más minta vagy teljes, vagy többértelm˝u. A fiziológiás háló m˝uködését a 8. ábra mutatja. Megfigyelhet˝o, hogy itt jelent˝os a fáziseltoldódás a két aktív neuron akciós potenciáljai között, ez a szinaptikus késleltetés miatt van. A 16 neuronos hálóknál a részleges minták felismerését úgy vizsgáltam, hogy az egyik betanított mintán két véletlenszer˝uen kiválasztott neuron állapotát megváltoztattam. Az így kapott részleges mintákra az eredmények vegyesek voltak, volt amikor a hálózat helyesen felismerte o˝ ket, volt amikor a kimeneti minta azonos volt a bemenetivel, illetve létrejöttek kevert kimenetek is. Ez arra enged következtetni, hogy nagyobb hálóknál sokkal bonyolultabb jelenségek jöhetnek létre, illetve hogy minél nagyobb egy ilyen háló annál nehézkesebb a m˝uködése.
34
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
5.3.
5
MEGFIGYELÉSEK
Döntés többértelmu˝ bemeneteknél
Bizonyos bemeneteket lehet többféleképpen is értelmezni, feltételezésem szerint a vizsgált új hálók magasabb fokú dinamikájuk miatt ilyenkor dönteni tudnak a két minta között. Mivel a tanítás szekvenciális, azaz a mintákat sorban mutatjuk a hálónak, mindig lesz egy utolsó minta, aminek nagyobb lesz a befolyása a végs˝o súlyokra, mint a többi mintának, ez a kis aszimmetria a minták er˝ossége között feltételezésem szerint segíthet, hogy többértelm˝u mintáknál a háló dönteni tudjon. E mellett az el˝ohívás alatt változó súlyok is el˝osegíthetik ezt az aszimmetriát, mivel szintén aszimmetriát visznek a súlymátrixba, így nagyobb esély van arra, hogy egy többször el˝ohívott minta jelenjen meg a kimeneten. Ez a súlymátrix változás azonban azt is jelentheti, hogy bizonyos mintákat a háló elfelejthet az el˝ohívás alatt. Az els˝o kísérletben a többértelm˝u minták közötti döntés több alapesetét is kipróbáltam. Az els˝o alapeset a 0100 és a 0010 minták esete, mindkét minta kétféleképpen értelmezhet˝o. Ebben az esetben a kimeneti minta is 0100 illetve 0010 lett. A fiziológiás háló viselkedését mutatja a 9. ábra. Az ábrán megfigyelhet˝o, hogy az aktív neuron egyre er˝osebben gátolja az inaktív neuronokat, ez a tanulási szabályból következik. Ez az eredmény a tanítás algoritmusából, illetve az általa kialakított súlymátrixból adódik. Vegyük az els˝o tanítási ciklust a diszkrét idej˝u háló betanítása alatt. Az 1100 minta tanítás után ilyen formájú lesz a súlymátrix: 0 a 0 0
a −a −a
0 −a −a ahol a > 0 0 0 0 0 0 0
Tehát az els˝o két neuron között körülbelül ugyan olyan er˝osség˝u serkent˝o kap-
35
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
5
MEGFIGYELÉSEK
csolat alakult ki, mint amilyen er˝os gátló a többi irányában. A következ˝o minta (0110) tanítása alatt a W1 2 súly gyengülni fog, míg a W2 3 er˝osödni. Mivel a mintákat ugyanannyi ideig mutatjuk, ezért a változások mértéke egyenl˝o lesz, tehát a következ˝o súlymátrixot kapjuk:
a −a −a 0 0 0 −b −a a 0 −a ahol b > a > 0 0 0 0 0 0
Fontos megjegyezni itt, hogy b 6= 2a a súlyváltozási szabályban lév˝o tanh függvényes transzformáció miatt. A következ˝o minta(0011) tanítása alatt a W3 2 súly gyengülni fog, míg a W3 4 er˝osödni, úgy, hogy ezek a változások kioltják ugyanezen súlyok az el˝oz˝o minta alatti változásait. Ezek szerint a súlymátrixot ilyen formában írhatjuk fel:
0
0
a 0 W= −a 0 −a −b
−b −a 0 0 0
−a ahol b > a > 0 a 0
Ebb˝ol a mátrixból látható, hogy a 2. és 3. neuron nem tud serkenteni egyetlen másikat sem, mivel a mátrix 2. és 3. oszlopában nincs pozitív súly. emiatt a háló nem tudja felismerni ezt a többértelm˝u mintát egyik tanult mintaként sem. Az általam vizsgált hálók erre a tesztre rosszabbul teljesítettek, mint a Hopfield hálózat, hiszen csak nem tanult mintát mutattak a kimenetükön. A Hopfield hálózat ezekben az esetekben a két lehetséges mintát megfelel˝o súlymátrixszal egyforma arányban adta volna eredményül.
36
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
5
MEGFIGYELÉSEK
Egy másik kísérletként vizsgáltam a hálózatok viselkedését 1110 és 0111 bemenetekre. Ezekre a bemenetekre a háló már helyesebben viselkedik, mindkét esetben a 0110 tanult minta alakul ki. Ez érthet˝o, mivel a második és a harmadik neuronnak a tanítás közben csak gátló szinapszisaik alakultak ki, így ezzel tudják csak befolyásolni a hálózat végs˝o állapotát. A fiziológiás háló viselkedését az 1110 mintára a 10. ábra mutatja. Érdemes megfigyelni, hogy az els˝o akciós potenciál kialakul az els˝o neuronban is, mivel itt még nem alakult ki a gátló hatás a szinapszisban. Vegyük például az 1110 bemeneti mintát. Ilyenkor az els˝o neuron serkenti a másodikat, a második gátolja a negyediket, de ennek nincsen jelent˝osége, mivel ez nem változtat a hálózat kezd˝oállapotán. Azonban a harmadik neuron er˝osen gátolja az els˝ot. Elég er˝osen ahhoz, hogy az els˝o a küls˝o serkentés ellenére ne tüzeljen, így kialakul a 0110 kimeneti minta. A Hopfield hálózat erre a bemenetre egyenl˝o valószín˝uséggel választaná az egyik lehetséges mintát, amennyiben helyes súlymátrixot adunk neki. Kipróbáltam még az 1111 bemeneti mintát is. Ebben az esetben mindkét hálónál a 0110 minta alakult ki a kimeneten. A fiziológiás háló viselkedését a 11. ábra mutatja erre a bemenetre. Ez a kimenet teljesen egyértelm˝uen levezethet˝o a tanítás utáni súlymátrixból. Vegyük a már említett súlymátrix felírást: −b −a a 0 0 −a ahol b > a > 0 W= 0 a −a 0 −a −b 0 0
0
0
t = 1 id˝oben még nem befolyásolja a m˝uködést a súlymátrix, mivel minden neuron kimenete nulla t = 0-nál, így a hálózat felveszi a bemeneti mintát. Ez után t = 2-nél az 1-es és 4-es neuronok bemenetén 2−a−b van. Elég hosszú tanításnál
37
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
5
MEGFIGYELÉSEK
a és b értéke megközelíti a 2-t, a maximális súlyt, és így a neuronok bemenetén körülbelül -2 van. Eközben a 2-es és 3-as neuronok bemenetén 2 van, mivel az 1-es t˝ol és 4-es t˝ol kapott bemenetek kioltják egymást. Így alakul ki a 0110 minta, amely stabil lesz továbbra is, mert igaz az 1-es és 3-as neuronok bemenetén t = 3tól már csak 2 − b van, azonban ez még mindig közel 0, jóval az 1 érték˝u küszöb alatt. Ezek az indoklások nagyrészt megállják a helyüket a fiziológiás modellnél is, de ott jóval komplexebb a m˝uködés, f˝oleg a súlyok változását leíró egyenlet, emiatt ott jóval nehezebb és hosszabb egy ilyen részletekbe men˝o elemzést végezni. Azonban a lényeges m˝uködési elemek azonosak mindkét hálóban, és a tesztek ugyan azt az eredményt adták, így következtethetünk arra, hogy a fiziológiás háló is hasonlóan m˝uködik.
5.4.
Új minta tanítása
Mivel a súlyok folyamatosan a tudnak változni a hálókban, ezért azt feltételezem, hogy új mintákat is tudnak tanulni a hálók, nem csak azokra tudnak emlékezni, amiket a szimuláció kezdetét˝ol fogva mutatunk nekik. Ehhez természetesen szükség van arra, hogy a bemeneti áramok elég er˝osek legyenek ahhoz hogy meggátolják egy már tanult minta kialakulását. Az els˝o erre irányuló kísérlet a következ˝okép zajlott. Egy négyneuronos hálót el˝oször megtanítottam az 1100 és a 0011 mintákra, ezek megtanulását visszaelleno˝ riztem az 1000 és 0001 részleges mintákkal. Ezután 10-szer mutattam a hálónak a 0110 mintát. Majd minden mintát visszaellen˝oriztem, sorban az 1000, 0001, 0110, 1111 bemenetekkel. Azért erre a mintakombinációra esett a választás, mivel együtt tanított mintákkal már ismerjük azt, hogyan viselkednek a hálók. A tanítási sorrend beláthatóan nem számít ebben az esetben. Látható, hogy az 1100 és a 0011 minták ugyan azt viselkedést produkálnák, ha ezeket szeretnénk utólag megtanítani, csupán az egyes neuronok szerepe változna, de lényegében a mechanizmus ugyan az lenne, csak az egyes mintákat és a súlymátrixot tükrözni kéne. Vegyük példának azt,
38
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
5
MEGFIGYELÉSEK
hogy csak a 0110, és 0011 mintákat tanítjuk be el˝oször Az els˝o két minta tanítása után ilyen formájú súlymátrixot kapunk: 0 −a −b −a 0 0 0 −a ahol b > a > 0 W= 0 a 0 a 0 −a 0 0
Itt a harmadik minta tanítása akkor lehet sikeres, ha a serkent˝o bemenet nagyobb, mint a, illetve, ha a gátló bemenet kisebb, mint −a. Ez láthatóan teljesül a diszkrét idej˝u hálóval, hiszen ott minden súly abszolútértéke kisebb, mint 2(a < 2), és a gátló és serkent˝o bemenetek, amelyeket használok -2 és 2. Azonban ha a 0110 mintát tanítjuk utólag, akkor az els˝o két minta között nincs átfedés. Így a következ˝o súlymátrix alakul ki az els˝o két minta tanítása után:
0
a
−a −a
a 0 −a −a ahol a > 0 W= a −a −a 0 −a −a a 0 Itt az új minta tanítása szintén akkor lehet sikeres, ha a serkent˝o bemenet nagyobb, mint a és a gátló bemenet kisebb, mint −a. Tehát ez alapján ebben az kísérletben mindegy, hogy milyen sorrendben tanítjuk meg a mintákat a hálónak. A kialakult súlymátrix is hasonló lesz az egyszerre tanított hálókéhoz az összes esetben. Az eredmények azt mutatják, hogy mind a diszkrét idej˝u, mind pedig a fiziológiás háló sikeresen megtanulta a harmadik mintát is.
39
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
5.5.
7
DISZKUSSZIÓ
A két háló viselkedésének hasonlósága
A diszkrét idej˝u háló által felvett állapotok a fiziológiás hálóra is igazak az esetek nagy részében. Ez azt igazolja, hogy az ilyen diszkrét idej˝u hálózatok segíthetnek megérteni sokkal komplexebb, nehezebben szimulálható rendszereket is egy bizonyos fokig. Ez a tulajdonság igazolja az els˝o háló helyes tervezését, valamint azt is, hogy biológiailag adaptálható felismeréseket lehet tenni McCulloch-Pitts neuronokra épül˝o rendkívül egyszer˝u hálókkal is.
6.
Összefoglalás
A vizsgált hálók nem használhatóak hatékonyan autoasszociatív memóriaként, mivel a mintákat nehezen ismerik fel, illetve kevés mintát tudunk nekik tanítani. Tehát a szimulált hálók vizsgálata alapján ilyen, és hasonló szerkezet˝u hálók a valós idegrendszerben létezhetnek, de a modell nem pontos, mivel meg sem közelíti az ember mintafelismer˝o és kiegészít˝o képességét. A hálók képesek új mintákat megtanulni m˝uködés közben, amikor már más mintákat megtanultak teljesen. A két háló hasonlóságot mutat viselkedésben, a fiziológiás háló bonyolultabb szerkezete nem hozott bonyolultabb dinamikát a rendszerbe. Ez a hasonlóság olyan szint˝u, hogy az olyan új paramétereket bevitelét, amelyek a diszkrét idej˝u hálón implementálhatók érdemesebb azon tanulmányozni, hiszen a diszkrét idej˝u háló számításigénye jóval kisebb.
7.
Diszkusszió
Az új minták tanulása egy hasznos tulajdonság lehet ilyen hálóknál, de ez a régebbi minták elfelejtésével jár, ami nem feltétlenül kívánatos. Ennek a tulajdonságnak a kihasználásával a hálókat alkalmazhatnánk esetleg felügyelet nélküli tanulási rendszerként, olyan problémák megoldására, ahol hirtelen változásokat kéne érzékelni, például felügyeleti rendszerekben.
40
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
7
DISZKUSSZIÓ
A viselkedés hasonlóságából az is következik, hogy körülbelül ugyanolyan elhanyagolásokat tettem mindkét modell létrehozatalakor, hiszen egyikük m˝uködése sem olyan komplex, mint bármelyik valós neuronokból álló hálózat, de valószín˝uleg ezzel magyarázható, hogy nem teljesítenek túl jól. Lehetséges, hogy ezeknek az elhanyagolt paramétereknek a bevitelével sokkal jobb teljesítményre lehet rábírni a hálókat. Ezeket a paramétereket els˝o körben elég lenne a diszkrét idej˝u hálón kipróbálni, hiszen az az esetek jelent˝os részében ugyanúgy viselkedett, mint a fiziológiás modell. Természetesen ilyen leegyszer˝usített modelleknél mindig figyelembe kell venni azt, hogy milyen dolgokat hanyagoltunk el a szimulációban. Lehetséges, hogy bizonyos elhanyagolt paraméterek bevitelével a hálók teljesítménye jelent˝osen javulna. A diszkrét idej˝u háló nagyon absztrakt, itt elhanyagoltam a neuronok majdnem összes tulajdonságát, kivéve azt, hogy legalapvet˝obben egyfajta küszöblogikaként m˝uködnek, van egy bizonyos küszöbük, amit ha elér az inger akkor egy akciós potenciál alakul ki a neuronban. Azonban ez a diszkrét hálózat nem tartalmaz információt a neuronok membránpotenciáljáról, az akciós potenciálok frekvenciájáról és id˝obeli fázisáról, valamint a szinapszisok hatásának hosszáról, és késleltetésér˝ol sem. A fiziológiás modellbe az el˝obbiekb˝ol sok mindent bevittem, de még így is vannak jelent˝os, de elhanyagolt paraméterek. A szinapszisok nagyjából egyformák minden neuron között, csak a maximális vezet˝oképességük különböz˝o. A szinapszisok paramétereib˝ol adódóan a neuronok fáziscsatoltak egymáshoz, az akciós potenciálok vagy átadódnak egyik neuronról a másikra, vagy nem. A szinapszisok nem integrálják a preszinaptikus neuron akciós potenciáljait, id˝oben nem adódnak össze az ingerek. A szinapszisok paraméterezését érdemes lehet evolúciós vagy genetikai algoritmussal optimalizálni. Ezek az algoritmusok a darwini evolúciót modellezik, különböz˝o mechanizmusok bevitelével. Az így optimalizált paraméterekkel a szinapszisok bizonyára jobban teljesítenének, mint az általam használtakkal.
41
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
7
DISZKUSSZIÓ
Egy másik tulajdonság, amely hasznos lehet, de elhanyagoltam a szinapszisok kifáradása. Ezzel feltételezésem szerint az önfenntartó minták hibáját el lehetne kerülni, illetve a háló csak korlátozott ideig tartana fenn egy tanult mintát, ezután elfáradna, megszokná a bemeneti mintát, így új mintákat tudna tanulni. Szintén elhanyagoltam azt, hogy a valóságban a szinapszisok súlya csak ritka esetekben tud el˝ojelet váltani, azaz egy gátló szinapszisból nem lesz serket˝o, és egy serkent˝ob˝ol sem lesz gátló a tanulási folyamat során. De ez az elhanyagolás nem jelent˝os, hiszen lehet adni olyan, nagyjából ekvivalens hálózatot, amiben a tanulási folyamat során nem történhet el˝ojelváltás, de mégis feltételezhet˝o, hogy m˝uköd˝oképes. Ha a hálózat neuronjainak számát megháromszorozzuk akkor építhet˝o egy olyan hálózat, ahol egy réteg neuron jelképezi azokat, amelyek a vizsgált hálózatban vannak. A három rétegben lév˝o neuronok száma azonos, az egy rétegben lév˝oknek nincs kapcsolatuk egymással. Az els˝o rétegnek csak serkent˝o szinapszisai vannak a másik kett˝o fele. A másik két közül az egyiknek csak serket˝o, a másiknak csak gátló súlyai vannak az els˝o fele. Az els˝o réteg kimeneteit tekinthetjük a háló kimenetének, és a háló bemenetét is az els˝o rétegre kéne kötni. Az ilyen szerkezet˝u hálóban beláthatóan végbemehetnek hasonló tanulási folyamatok a szinaptikus súlyok el˝ojel változása nélkül. Fontos elhanyagolt tulajdonságok lehetnek még a hálózat, és a neuronok geometriája, mivel ez jelent˝osen befolyásolja a jelek egymáshoz képesti id˝ozítését. A fiziológiás háló tanulását leíró differenciálegyenletet lehetséges hogy egyszer˝usíteni kéne, ezzel nyernék mind a számítási teljesítmény, mind a matematikai elemezhet˝oség terén. Itt fontos azt is megemlíteni, hogy ezt a tanulási modellt csak a fent megadott szinapszisparaméterekkel teszteltem. Ezekkel a hálókkal, legegyszer˝ubben a diszkrét idej˝u modellel lehetne modellezni a természetben minden él˝olényben meglév˝o dominancia sort is. A dominancia sor egy örökletes tulajdonság, minden állat idegrendszere el˝onyben részesíti az olyan ingereket, amelyeket már örökletesen ismer, és fontosak a túlélése szempontjából. Például az emberi agy látóközpontja, amikor kiegészíti a látott képet el˝onyben részesíti az olyan ingereket amelyben lát logikát, illetve el˝onyben
42
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
8
ZÁRSZÓ
részesíti a mozgó dolgokat, hiszen egy mozgó dolog lehet zsákmányállat, vagy ragadozó, mindkett˝o felismerése fontos a túlélés szempontjából. Ezt a tulajdonságot domináns neuronok bevezetésével lehetne létrehozni a hálóban. A domináns neuronoknak „örökletesen”, tehát már kiinduláskor er˝osebb befolyásuk lenne a hálózat m˝uködésére, mint a többinek. Így ha a küls˝o inger aktivál egy domináns neuront, akkor jelent˝osebb esélye van egy olyan minta kialakulásának, amilyet a domináns neuron „akar” azaz, ami felé a domináns neuron súlyai eltolják a hálózatot. Ez a szimuláció azt is mutatja, hogy egy szimulált neurális hálózat több, mint a részeinek összessége. Mindkét szimulált hálózat dinamikája jóval komplexebb, mint a részeinek dinamikája, még egy ilyen, viszonylag egyszer˝u szerkezet esetén is.
8.
Köszönetnyilvánítás és zárszó
Sok ember segítsége és rengeteg munka van abban, hogy ez a rövid dolgozat elkészült. Ezúton szeretném megköszönni Baranyai Józsefnek, hogy elindított ezen az úton, és hogy mindig fel tudott vetni egy érdekes ötletet a munkámhoz. Köszönöm a segítséget, és az épít˝o kritikát Dr. Molnár Péternek, illetve köszönöm Hajnal Bencének, hogy a nyári szünetben is id˝ot szakított arra, hogy elmagyarázza nekem az él˝o neuronok alapvet˝o m˝uködését. Ez a dolgozat nem próbál a tudományosság látszatába burkolózni, mint az idegi szervez˝odés egy új elmélete, csupán egy ötlet vizsgálata. Kezeljük helyén, és azt, hogy mennyit ér az Önök feladata eldönteni. Egy tanulságot azonban fontos levonni a dolgozat végén. Hiába vannak a részletes modellek, az emberi test még mindig annyira komplex, mint szerkezetében, mint dinamikájában, hogy egy számítógépen — akár csak egy kis részletét is — pontosan szimulálni szinte lehetetlen. Ennek ellenére modellekre mindig is szükség volt, és szükség lesz, mivel a leegyszer˝usítés el˝osegíti a bonyolult rendszerek megértését.
43
Autoasszociatív mesterséges neurális hálózatok dinamikájának összehasonlító vizsgálata
HIVATKOZÁSOK
Hivatkozások [1] J. J. Hopfield, Neural networks and physical systems with emergent collective computational abilities, Proceedings of the National Academy of Sciences of the USA, vol. 79 no. 8 pp. 2554–2558, April 1982. [2] McCullough, W.S., Pitts, W.H. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics,5, 115-133 1943 [3] FitzHugh, R. Mathematical models of threshold phenomena in the nerve membrane. Bull. Math. Biophysics, 17:257—278 1955 [4] FitzHugh, R. Impulses and physiological states in theoretical models of nerve membrane. Biophysical J. 1:445-466 1961 [5] Nagumo J., Arimoto S., and Yoshizawa S. An active pulse transmission line simulating nerve axon. Proc. IRE. 50:2061–2070. 1962
44