2015 június: A hallás elemzése - Winkler István Winkler István tudományos tanácsadó, az MTA Természettudományi Kutatóintézetében a Kognitív Idegtudományi II. csoport vezetője. Villamosmérnöki és pszichológusi tudása is hozzájárulhatott ahhoz, hogy a „sikeres vezető kutatói pályával rendelkező tudósok” kategóriájában Lendület-pályázatot nyert. Kutatásait az NKFI (OTKA) is támogatja. Legújabb projektje az „Újszülött csecsemők hangfeldolgozási képessége” címet viseli. Honnan indult ez a kutatás? Tíz-tizenöt évvel ezelőtt már foglalkoztatott, hogy milyen alapkészlettel „kezdjük a hallást”: mit tud az agy akkor, amikor megszületünk? Azóta kiderült: ez nem jó kérdés, mert azt feszegeti, hogy mit öröklünk, és mit kapunk a környezettől – aminek ebben a formában egyszerűen nincs értelme. Miért nincs?
Winkler István
Nem lehet elválasztani a kettőt, mert egy normális csecsemő megszületéséhez sok környezeti hatásnak kell érvényesülnie. Ezek között hangok is vannak. Körülbelül a harmadik trimeszterben már működik a hallórendszer: a csecsemők hallják a magzati folyadékon átszűrt hangokat. Sokan tudják, hogy ha terhesen zajos helyre mennek, a baba rugdalózni kezd a hasukban. Az én lányom éppen „belül volt”, amikor a Queen koncertet adott Budapesten, és őt is nagyon “érdekelte” az együttes… Az ötvenes évek végén, a hatvanas évek elején sok olyan állatkísérlet folyt, amelyben megakadályozták a fejlődő állatok normális észlelését. Ezt vagy műtéti beavatkozással érték el, vagy olyan szobában nevelték az állatokat, ahol, mondjuk, csak függőleges vonalak voltak, vízszintesek nem. Ezekből a kísérletekből nem azt tudtuk meg, hogy mi öröklődik és mi nem, hanem azt, hogy ezek az állatok rendkívül sokféle módon tértek el a normálistól. A kísérletek tehát nem az eredeti kérdést válaszolták meg, hanem kiderült, hogy az öröklődés és a környezet hatása elválaszthatatlan egymástól. Mit érdemes megkérdezni a csecsemőktől? A babák nem árulják el, hogy mit látnak, mit hallanak, ezért közvetett technikákat kell alkalmazni. Régen sokan használták a szopómozgást, az üres szopást, mert azt lehet úgy kondicionálni, hogy a sűrűsége attól függően változzon, hogy észrevesz-e a baba valamit vagy sem. Ez azonban egy rettenetesen nehézkes módszer. Nekünk az az előnyünk, hogy alvó csecsemők agyi elektromos jeleit mérjük. Erre nagyon alkalmasak az újszülöttek, mert minden háromórás ciklusból általában egy-másfél órát végigalszanak. Ekkor már érdemes – legalábbis én úgy gondolom, érdemes – feltenni azt a kérdést, hogy az evolúció milyen képességeket tartott elég fontosnak ahhoz, hogy mindjárt az elején „ott legyenek”, és miért pont ezeket választotta ki. Azt találjuk, hogy a csecsemők egyszerűnek látszó képességei meglepően gyengék. Ilyen például két hang megkülönböztetése a magasságuk szerint. Az ember hangmagasságmegkülönböztetése jelentősen felülmúlja az állatvilágét, ezért ezt a képességet fontosnak gondolnánk. Ezzel szemben a csecsemők nagyjából 20 százalékos eltérésnél adnak megbízható megkülönböztető válaszokat. (A felnőttek fél hang – kb. 5,5 százalékos – eltérést
már megbízhatóan érzékelnek.) Ez a megkülönbözetés ráadásul nagyon lassan fejlődik. Akinek volt már óvodás, alsós gyereke, az tudja, milyen hamisan énekelhetnek a kicsik. Nem azért, mert baj van a torkukkal vagy a hangképző szervükkel, hanem mert nem hallják a különbséget. A felnőttre jellemző megkülönböztetés a kamaszkor végére alakul ki. A csecsemők a szüneteket is rosszabbul érzékelik: sokkal nagyobb szüneteket hallanak csak meg, mint a felnőttek. Ezzel szemben szinte minden fejlett képesség, amit megvizsgáltunk, ugyanolyan, mint a felnőttek esetében. Az újszülöttek még a változó hangsorokban is felismerik a struktúrákat, szét tudnak választani két különböző forrásból származó hangsort, megkülönböztetik a dúr és a moll akkordokat, a torzított hangzásokat. Mi lehet ennek az értelme? Miért pont ezek a képességek jelennek meg már „nulla-napos” korban, miközben a látszólag nagyon egyszerű képességek hosszú-hosszú fejlődésen mennek át. Valószínűleg azért, mert ezek a képességek szükségesek ahhoz, hogy felvegyük a kapcsolatot a környezettel. Legközelebb a pszichológus-kongresszuson beszélek majd erről: abból fogok kiindulni, hogy amikor a számítógépes szakemberek elkezdtek hálózatokat építeni, rengeteg problémát kellett leküzdenünk ahhoz, hogy két gép kapcsolatot vegyen fel egymással egy olyan mezőben, ahol mindenki mindenkivel össze van kötve. Ennek analógiájára: ha többen vagyunk egy szobában, honnan tudom, hogy nekem szóltak-e. Ehhez először meg kell különböztetnem a hangforrásokat. Aztán azonosítanom kell őket, majd megtudni, nekem szólt-e a kérdés, vagy sem; egyáltalán kérdés volt-e, kell-e rá válaszolni és így tovább. Amikor a számítástechnikusok hálózatokat kezdtek készíteni, protokollokat kellett írniuk ezekre a folyamatokra, mert enélkül nem lehetett volna szabályozni azt, hogy egy adott kérés elérjen a címzetthez és az válaszoljon rá, azaz nem tudtak volna a számítógépek hasznosan kommunikálni. Kiderül, hogy ezeket a protokollokat már ismerik a csecsemők: a fejlett funkciók „be vannak építve” az agyukba. Azt gondolom, azért, hogy fel tudják venni a dialógust egy felnőttel. Ez jelenti számukra a túlélést? A tanulás lehetőségét. A csecsemő – ez Csibra Gergely és Gergely György elmélete – a felnőttel való kommunikációban, a „természetes pedagógia” segítségével képes nagyon rövid idő alatt jelentős mennyiségű tudás felhalmozására, amivel viszonylag hamar, egy-két év alatt eligazodik valamennyire. Ehhez szükségesek az előbb említett funkciók. A kommunikáció jóval a beszéd kezdete előtt elindul: mindenki ismeri például a kukucs-játékokat. A párbeszédhez még az sem fontos, hogy a baba hangokat adjon a szájával (lehet mutogatva, vagy tárgyakkal, például csörgővel kiadott hangokkal), de fölveszünk egy dialógust, amelyben tudjuk, hogy amit én mondok, azt neked mondom, te erre válaszolni fogsz, mégpedig jó ütemben, akkor, amikor kell. Felépítjük a kommunikációt, még mielőtt az verbálissá válik. Nem véletlen, hogy a zene nagyon hamar leköti a gyerekeket. Azon már Darwin is gondolkodott, hogy mi lehet a zene funkciója, miért adta nekünk a zenét az evolúció. Azt gondolom, hogy – ebben a szemléletben – a zene a kommunikáció mellékterméke. Mindazok a képességek, amelyekről elmondtam, hogy szükségesek a kommunikációhoz, a zenéhez is kellenek, így a zene a kommunikáció egyik formájaként valósul meg, legalábbis kezdetben. A babát meg lehet nyugtatni, közös mozgásra lehet késztetni, ha énekelnek neki. Azért kezdtem el azoknak a funkcióknak a feltérképezését, amelyek akár az újszülött csecsemőkben is megtalálhatók, hogy megnézzük, „mire vagyunk kihegyezve”, mi az, amit az evolúció támogat, mi kell ahhoz, hogy jó fejlődési menet indulhasson be. Erre a gondolatra
épülne a következő kutatásunk, amelynek támogatására most pályázunk. Itt az a kérdés, hogyan tudnánk előre jelezni a beszédfejlődést – mikor jelentkezik és milyen minőségű lesz beszéd –, ami később klinikai alkalmazáshoz is elvezethetne. Egy másik munkája, a Lendület-projekt, talán még közelebb visz a gyakorlathoz. Aazt jelenti, hogy nem állíthatjuk meg a folyamatot, nem gondolkozhatunk rajta, amíg tovább nem lépünk, mert közben a világ megy tovább. A pályám legelején, szerencsére, elég sok időt tölthettem Finnországban, Risto Näätänen professzornál, aki felfedezett egy elektroenkefalográfiás módszert a hallórendszer vizsgálatára. Ezzel követhettem, milyen szabályosságokat szűr ki az agy egy hangsorból. Ha megsértünk egy szabályosságot, akkor megjelenik az agyban egy „szabálysértési jel”, amit eltérési negatívitásnak hívunk. Näätänen professzor laboratóriumában ezt a jelenséget többféle nézőpontból vizsgáltuk. Volt, akit a jel funkciója érdekelt: a jel felhívja figyelmet, ha valami megváltozik a környezetünkben, ezért elősegíti az alkalmazkodást, a veszélyek felfedezését. Engem az izgatott, mit tárolunk el a beérkező hangsorról, amiből aztán meg tudjuk állapítani, ha a következő hangok nem illeszkednek. A hallási emlékezetnek létezett egy klasszikus elképzelése a pszichológiában; ezekhez elsősorban viselkedéses kísérletekkel jutottak el. A doktori disszertációm, amit annak idején Helsinkiben írtam, még arról szólt, hogy mi azt vizsgáltuk elektroenkefalográfiás módszerrel, amit a pszichológusok hallási emlékezetként írtak le. Azóta azt gondolom, hogy a hallási emlékezet ebben a formában nem létezik – de az idáig vezető lépésekre is szükség volt, persze. A hallási emlékezet klasszikus elképzelése szerint előbb megállapítjuk az egyedi hangok tulajdonságait, ezeket aztán összefűzzük egy reprezentációban, és ezt a reprezentációt tároljuk átmenetileg. Ha sok ilyen gyűlik össze, akkor meg tudjuk mondani, például, hogy sérül-e a szabályosság, vagy sem. Most vissza kell nyúlnunk a 19. századi kezdetekhez, Gustav Fechnerhez, aki fizikusként abból a kérdésből indult ki, hogy található-e objektív összefüggés az inger nagysága és az észlelet között. Fechner pozitív választ adott a kérdésre – és ehhez kötjük a modern pszichológia indulását. Fechner a kísérletezésnek azt az akkor nagyon előremutató módszerét vezette be, hogy pontosan meghatározott, a környezettől elhatárolt ingerekkel kell dolgoznunk (például két összehasonlítandó inger egyetlen tulajdonságban különbözzön csak egymástól). Csakhogy az ember másképp „keletkezett”. Az nem úgy volt, hogy Isten először megtanított bennünket egyetlen hangnak a hallására, és amikor az már jól ment, azt mondta, hogy itt van két hang, most próbálkozzatok ezzel, ha pedig az is jól ment, akkor kaptunk egy egész hangsort. A hangok folyamatosan jelen vannak a környezetünkben, és nem valószínű, hogy olyan reprezentációjuk keletkezne, amely kifejezetten a Fechner-féle kísérletezési módszernek a leképeződése. Természetesen, ha rövid, egymástól elválasztott hangokat adok, akkor a hallórendszernek ezeket kell leképeznie, de ettől még nem ez az alapja a reprezentációnak, bár a rendszer erre is képes. Ezért aztán azt gondolom, hogy a hallási reprezentációnak az alapegysége valójában a hangsor, amely összefüggő elemeket tartalmaz, és ebből származik minden hallási emlékezet. Tehát ha egy hangsor egymástól időben elkülönült hangokból áll, akkor utólag ki tudjuk belőle emelni az egyedi hangokat, és külön-külön felidézni őket. De a reprezentáció nem az egyedi hangokra épül, hanem a hangláncokra. (Magyarul hangláncnak nevezzük az „auditory stream” kifejezést, amelyet Al Bregman vezetett be az 1980-as években.) Ezek az összefüggő hangreprezentációk már elvezetnek a hangforrások – vagy inkább „hallási tárgyak” –
megkülönböztetéséhez. A hallási tárgy perceptuális tárgy; nem feltétlenül egyezik meg a hangforrással. Vannak olyan esetek, amikor egy hangforrás több láncot hoz létre, és olyanok is, amikor több hangforrás – például egy zenekar – egyet. Mi nemcsak a hangforrással tudunk gondolati műveleteket végezni, hanem a dallammal is. A dallamot transzponálhatjuk, másik hangszeren játszhatjuk le, amitől még ugyanaz marad. Meghalljuk, ha valamit rosszul éneklünk. Nemcsak a hangforrás, hanem a dallam is önálló reprezentáció vagy tárgy. A hallási emlékezet hagyományos felfogásáról tehát folyamatosan áttértem a mintázat- vagy szabályosság-leíró reprezentációra, és rájöttem, mi lehet az eredeti funkciója: ez segíti elő, hogy kiismerjük magunkat a környezetünkben – ne káoszt halljunk, vagy legfeljebb csak addig halljuk, amíg a reprezentációk létre nem jönnek. Amikor belépünk egy osztályterembe, először csak zsibongást hallunk, és pár másodperc kell ezeknek a bizonyos reprezentációknak az elkészítéséhez: azután már az egyedi hangokat is ki tudjuk szűrni a zsibongásból. Ugyanígy, ha kilépünk az utcára, csak néhány másodperc múlva tudjuk kiválasztani ki a zajból az autók vagy a beszéd hangjait. Ez a gondolat vezetett végül is a Lendület-pályázatbeli kutatáshoz, amelyben algoritmusokat szeretnénk készíteni több beszélő hangjának a szétválasztására, a „koktélparti-effektus”-ra. A jelenséget először Colin Cherry tanulmányozta körülbelül ötven évvel ezelőtt, de őt inkább az érdekelte, hogyan tudunk a figyelmünkkel egyetlen dolgot kiválasztani a sok közül. A figyelem működéséhez – és a választáshoz – azonban először elő kell állítani azt a palettát, amelyről választunk. Engem éppen ennek a palettának a kialakulása érdekel, amire Cherry annak idején nem fordított nagyobb figyelmet. A hallási elemzéssel – több hangforrás szétválasztásával – sokan foglalkoznak. A mi kiindulópontunk abban tér el a hagyományos felfogástól, hogy felismertük az előrejelzés fontosságát ebben a műveletben. Természetesen előttünk is sokan tanulmányozták már a predikciót, de az a gondolat, érdekes módon, nemigen merült fel, hogy az előrejelzés az észlelésben is jelentős szerepet játszhat, pedig ennek is régi gyökerei vannak. Az észlelés funkcionális leírása már a két világháború között elkezdődött – ennek a nagy alakja a magyar származású Egon Brunswick. Ő hangsúlyozta először, hogy az észlelés nem esztétikai értékítéletek alkotására való, hanem a túlélés egyik fontos kelléke. Meg kell találunk azokat a dolgokat, amelyekre szükségünk van az élethez, és el kell kerülnünk azokat, amelyek veszélyesek. Ebből az következik – ezt már mi tesszük hozzá –, hogy az embernek nem azt kell jól leírnia, hogy mi történt, mert a világgal folytatott interakciónk, az információinkhoz képest, a jövőben zajlik. Egy nagyon egyszerű példa: ha át akarunk menni az úton, nem az az érdekes, hogy hol van most egy autó, hanem az, hogy hol lesz akkor, amikor mi keresztezzük azt a sávot, amelyben közlekedik. Ennek megfelelően az észlelés funkciója előrejelző. Tudnunk kell, hogy mi fog történni, mert avval tudunk valamit kezdeni. Azt is mondhatjuk, hogy a jövő üzen nekünk, és ezt az üzenetet próbáljuk meg dekódolni. Természetesen a jövő nem akaratlagosan üzen nekünk, de mintha az észlelésünk a jövő üzenetét akarná megfejteni. Ha ezt most arra a szűk problémára alkalmazzuk, ami engem izgat, abból az következik, hogy az előbb említett reprezentációk nem passzívak – nem olyanok, mint a klasszikus módra elképzelt emlékezet, amely ott heverészik az agyban, és ha szükségem lesz rá, akkor majd valamilyen úton-módon elérem –, hanem aktívak, és állandóan megpróbálják előre jelezni, hogy minek kellene bekövetkeznie az adott láncban. Ezért a valóságot nem a múlttal, hanem az abból készült előrejelzéssel hasonlítjuk össze. Ennek természetesen minden szempontból nagy jelentősége van. Felismerhetjük például, hogy az a hang, ami most érkezett be, folytatása-e
valaminek, amiről már tudunk, vagy az illető forrás változtatott valamit a jellemzőjén, esetleg új forrás lépett be. Ez a működés a „hallási jelenetelemzés” szempontjából fontos. A reprezentáció szempontjából pedig az a jelentősége, hogy a valósággal történő összehasonlítás ellenőrzi, mennyire jó a reprezentáció. Nyilván azok a megbízható reprezentációk, amelyek viszonylag nagymértékben megjósolják a világot, és ritkán hibáznak. Az észlelésben, persze, nincs olyan reprezentáció, ami örökre él, legfeljebb a fülcsöngés, az meg elég nagy baj. Ezért a reprezentációinkat állandóan módosítjuk, időnként ki kell őket dobni, újakat kell építeni: ez egy dinamikus folyamat. Ebből ered a következő gondolat. Ha azt mondjuk, hogy ezeknek az építőköveknek, ezeknek a hallási láncoknak a leírásai aktív előrejelző reprezentációk, és ezek egymással párhuzamosan jelennek meg, akkor elképzelhető, hogy verseny folyik közöttük, és csak az kerül be a tudatunkba, azt észleljük tudatosan. De az összes többi is ott van, mert nem lehet kiválasztani egyet anélkül, hogy ismerném az összes többit. Azért tudom a bejövő hang egy bizonyos részéről megállapítani, hogy nem ahhoz a reprezentációhoz tartozik, ami engem most érdekel, mert az a reprezentáció ragadja magához, amelyiknek a folytatása. Ha pedig ezek a reprezentációk egyszerre vannak jelen a hallórendszerben és versenyeznek egymással, akkor evvel modellezhetjük a hallási elemzést vagy ezen belül az egymással párhuzamosan beszélők hangjainak a szétválasztását. Ezt az elképzelést fejtjük majd ki a Lendület-pályázatban. Amiből esetleg új hallókészülékek születnek. Igen, ez elvezethet az intelligensebb hallókészülékekhez. A hallás húszéves kortól már gyengül, mert a belső fül érzékeny mechanikai elemei gyorsan rongálódnak. A hallórendszer intelligens, agyban lévő részei eleinte elég jól alkalmazkodnak ehhez, de idővel mindenkinek észlelhetően romlik a hallása. Nem elsősorban arra kell gondolni, hogy bizonyos hangmagasságokat már nem hallunk jól, ennek általában kisebb a jelentősége. Hanem amikor az ember öregszik, egyre nagyobb erőfeszítésébe kerül, hogy meghalljon valamit egy zajos környezetben. Ezt előbb-utóbb mindenki megtapasztalja. Ennek tipikus modellje a családi ebéd, ahol a nagypapa csak zsivajt hall, miközben mindenki más vidáman beszélget egymással, párhuzamosan. Ezen a jelenlegi hallókészülékek egyáltalán nem segítenek, mert elsősorban csak frekvenciasávokat erősítenek fel. Ezért olyan hallókészülék kellene, amely maga választaná szét a hangláncokat, és ezeket ajánlaná fel „menüként”. A készülék elkészítése, azt hiszem, már nem a kutató feladata. De az fontos lenne, hogy a hallókészülékeket felkészítsük a mindennapi életben való hallásra. A mostani készülékek is nagyon jók, ha egy csendes szobában beszélgetünk valakivel vagy tévét nézünk, de sokkal többre már nem képesek. A gyártók lassacskán felismerik, hogy az agytól is tanulniuk kellene. A feladat távolról sem triviális. Ugyanis a hangok összekeverednek a levegőben, még mielőtt a fülünkbe érnek. Ez az összekeveredés – a fizikusok, matematikusok nyelvén – nverz probléma elé állít bennünket: a következményből kell a forrásra következtetnünk. A feladat a legtöbb esetben, mint most is, matematikai értelemben alulhatározott: végtelen számú lehetséges forráskombináció vezet ugyanarra az eredményre. De nekünk az egyetlen, valóságos megoldást kell megtalálnunk Mit tud az agyunk, milyen információval egészíti ki a már meglevőket? A matematikusok nyelvén: milyen peremfeltételekkel teszi az inverz problémát egyértelműen megoldhatóvá? Ezekről, szerencsére, a pszichológiának nagyon régi tudása van. A Gestaltpszichológia (alaklélektan) már az 1910-es években azzal kezdett el foglalkozni, hogy mitől mintázat a mintázat, mi az egész és a rész viszonya az észlelésben. Rengeteg empirikus szabályt írtak le, amelyek megmondják, mitől tartoznak össze és válnak szét az elemek az
észlelésben. Ezeket az észlelés alapelveinek nevezték. A pszichológiának ma azokat a jelenségeket kell megmagyaráznia, amelyeket a „gestaltosok” felfedeztek fel. Fechnerhez hasonlóan, ők is többnyire fizikusok voltak, és a szabályokat objektív, fizikai törvényszerűségeknek próbálták tekinteni. Mai szemmel ezek a szabályok inkább „komputációs algoritmusok”, amelyekkel az agyunk összerendezi a dolgokat. A gestaltosok – fizikusi előképzettségüknek megfelelően – olyan magyarázatokat kerestek, amelyekben valamilyen paraméter optimum-értéket mutat (hasonlóan az energia-minimumra törekvés fizikai elvéhez). Ma úgy látjuk, hogy valójában információtárolási optimumokhoz találtak jelenségeket – olyan optimumokat jelöltek ki, amelyek a lehető legkevesebb információval írhatók le. (Például egy tükörszimmetrikus ábrának a leírásához kevesebb információ szükséges, mint egy nem szimmetrikuséhoz, mert csak a felével kell foglalkoznom. Egy szabályos hangsor esetén elég a szabályosságot leírnom, és a kezdetét pontosan megadnom.) Mi ezeket az elveket próbáljuk átültetni a szabályosság-kereső és előrejelző keretrendszerbe, majd ebből esetleg megalkotni egy modernebb hallókészülék elveit. Mielőtt megtanulunk beszélni (videotorium.hu) Winkler István előadása a Magyar Tudomány Ünnepén, 2012-ben Silberer Vera