Magyar és angol szóasszociációs hálózatok vizsgálata Orosz Katalin – Kovács László – Pollner Péter 0. Bevezetés Jelenlegi elképzeléseink szerint a beszédértés és beszédprodukció során előhívott szavakat (és a mögöttes fogalmakat) mentális lexikonunkban (egyfajta „agyi szótárban”) tároljuk (vö. pl. Gósy 2005). A mentális lexikonunkban a fogalmak rögzítése történhet nyelvtől függetlenül, a szavak rögzítése azonban nyelvhez kötött. Így feltételezhetjük, hogy adott nyelvre jellemző nyelvi-szerkezeti sajátosságok is szerepet játszhatnak a szóasszociációs hálózat szerkezetének kialakításában. Szóasszociációs hálózatok kutatása során nem hagyhatjuk figyelmen kívül az adatgyűjtés módszertanát sem, ugyanis a kapott hálózat nem csak az adott nyelv sajátosságaira építhet (például toldalékolt szóalakok hívószóként való megjelenése), hanem maga az adatfelvétel is befolyásolhatja a létrejövő hálózatot. Felmerül tehát a kérdés, milyen eltéréseket és/vagy hasonlóságokat mutatnak a különböző nyelvű szóasszociációs adatokból kialakuló hálózatok? Kimutathatóak-e olyan jellemzők, amelyek nyelvfüggetlen módon, általánosan érvényesek az emberi mentális asszociációs hálózatokra? Befolyásolja-e az adatgyűjtés módszere a hálózatok szerkezetét? Tanulmányunkban ezen kérdésekre kerestük a választ egy magyar és egy angol nyelvű szóasszociációs adatbázis hálózatos elemzése során. Vizsgálatainkban a hálózatok szerkezetének meghatározására valamint a strukturális különbségek feltárására koncentráltunk. 1. Szóasszociációs hálózatok 1.1. Szóasszociációs hálózatok keletkezése A szóasszociációs hálózat az asszociációs adatok gyűjtésében résztvevő személyek hívószóra adott válaszai alapján jön létre. A válaszadó személy a megjelenő hívószóra az először eszébe jutó szót adja válaszként, ami egy irányított kapcsolatot definiál a hívószó és a válaszszó között. Ha két szó között asszociáció jött létre, akkor a hívószó → válaszszó irányított hálózati él bekerül a hálózatba. A létrejött hálózat csúcspontjai az egyes szavak, a hálózat élei pedig a szavak közötti irányított asszociációs kapcsolatok. 1.2. Agykapocs hálózat A magyar nyelvű szóasszociációkat az Agykapocs adatbázis (Kovács 2011) alapján vizsgáltuk. Az Agykapocs rendszer egy interneten elérhető felület segítségével 2008 óta gyűjti az oldalon regisztráló felhasználók által megadott asszociációkat. A felhasználók regisztráció után először egy 134 szavas, rögzített kezdő hívószólistára adják meg az először eszükbe jutó válaszszót. A további hívószavak a rendszerbe beérkezett válaszszavakból véletlenszerűen generálódnak. A válaszok nem csak szótári szavak lehetnek, hanem hosszabb karaktersorozatok is, ami lehetővé teszi, hogy toldalékolt alakok, szószerkezetek is bekerüljenek az adatbázisba, illetve később hívószóként megjelenjenek. Ha a felhasználónak a kapott hívószóra nem jut eszébe válasz, akkor lehetősége van ezt a "Nincs ötletem" gomb megnyomásával jelezni. Elemzésünkben az Agykapocs rendszerben 2011 elejéig összegyűlt magyar asszociációkat használtuk fel. Eddig az időpontig körülbelül 700 felhasználó nagyságrendileg 95000 asszociációt hozott létre. Az adatok hálózatos elemzését megelőzően 58
szükség volt egy adattisztítási lépésre, ahol sor került helyesírási hibák javítására, azonos jelentésű, de eltérően írt szavak egységesítésére. A hálózat létrehozásakor figyelmen kívül hagytuk a "Nincs ötletem" típusú válaszokat és az önmagukra mutató asszociációs kapcsolatokat, valamint néhány olyan felhasználó asszociációit, akik sok "Nincs ötletem" vagy önmagára mutató asszociációt hoztak létre. Az elemzett hálózatban 134 kezdő hívószóból kiindulva, további körülbelül 11000, a válaszokból generált hívószóra jöttek létre az asszociációs kapcsolatok. (Az adatbázis felépítésével és működésével kapcsolatban lásd részletesen Kovács 2011). 1.3. Florida hálózat Az angol nyelvű asszociációk vizsgálatához a University of South Florida Free Association Norms asszociációs adatbázist használtuk (Nelson et al. 1998). Az asszociációs normák gyűjtése 1973-ban kezdődött, több mint 6000 résztvevő asszociációinak rögzítésével. A gyűjtésében résztvevő kutatók sok időt és energiát fordítottak a beérkező adatok rendszerezésére, a helyesírási hibák javítására. Az adatbázisba folyamatosan kerültek be az újabb hívószavak, éppúgy, mint az Agykapocs esetében. Itt azonban nincs egy rögzített hívószó lista, ami minden felhasználónak ugyanaz. A hívószavakat főleg memóriakísérletek szavainak teszteléséhez választották ki, valamint a keletkezett válaszszavakból is kerültek ki új hívószavak. Az adatgyűjtés és a folyamatos értékelés, valamint további kutatások során megfogalmazott kérdések hatására újabb és újabb szavak váltak hívószóvá. Összesen 5019 hívószót alkalmaztak. 2. Agykapocs és Florida hálózatok szerkezete Az Agykapocs 16562 csúcsot és 43702 irányított élt, míg a Florida hálózat 10617 csúcsot és 72172 élt tartalmaz. A hálózatok szerkezetének összehasonlításához több jellemző vizsgálatát végeztük el. Elsőként a hálózati csúcsok bemenőfokszám-eloszlását hasonlítottuk össze, majd a hálózat szavainak összekapcsoltságát vizsgáltuk hálózati komponensek azonosításával, valamint a szavak közötti legrövidebb útvonalak elemzésével. Végül elemeztük a kezdő hívószavak alkalmazásának hálózati struktúrára gyakorolt hatását. 2.1. Fokszám eloszlás Egy hálózati csúcspont bemenő fokszáma a csúcsba mutató irányított élek száma. A szóasszociációs hálózatban egy szónak, mint csúcspontnak a bemenő fokszáma azon hívószavak száma, amelyekről az adott szóra asszociáltak. A bemenőfokszám-eloszlás megadja, hogy a hálózat csúcsai mekkora valószínűséggel rendelkeznek adott bemenő fokszámmal.
1. ábra. a) Az Agykapocs hálózat bemenőfokszám-eloszlása. b) A Florida hálózat bemenőfokszám-eloszlása. 59
Az 1.a) és 1.b) ábra az Agykapocs, illetve a Florida hálózat bemenőfokszámeloszlását mutatja. Az eloszlások nagyon hasonlóak, mindkét eloszlás hatványfüggvény szerinti, azaz a hálózatok skálafüggetlenek. Az 1. táblázatban felsoroltuk az angol és a magyar hálózat első néhány legnagyobb bemenő fokszámú csúcspontját. A szavak egy része mindkét listában szerepel, ezek rendszerint általános, vagy a mindennapokban használt szavak. Ilyenek a pénz, az autó, a munka, a jó és a rossz szavak. (Ezen szavak angol és magyar megfelelőjét az 1. táblázatban a könnyebb átláthatóság kedvéért nagy betűvel szedtük.) Agykapocs
Florida
PÉNZ
food
JÓ
MONEY
AUTÓ
water
ROSSZ
CAR
ember
GOOD
sok
BAD
MUNKA
WORK
1. táblázat. Első néhány nagy bemenő fokszámú csúcspont az Agykapocs és a Florida hálózatban.
2.2. Szigorúan összefüggő komponens vizsgálata Az egyes szavak egymáshoz való viszonyának vizsgálatakor lényeges kérdés az összekapcsoltság. Ennek elemzésére az egyik gráfelméleti lehetőség az úgynevezett szigorúan összefüggő komponensek meghatározása. Szigorúan összefüggő komponensnek nevezzük egy irányított hálózat azon csúcspontjainak halmazát, amelyből bármely két csúcspontot kiválasztva létezik irányított útvonal az egyik csúcspontból a másik csúcspontba és fordítva. Az ilyen tulajdonságokkal rendelkező csúcspontok maximális halmazát szoktuk meghatározni. Egy gráfban több ilyen csúcspont csoport is létezhet. Az Agykapocs hálózat legnagyobb szigorúan összefüggő komponense a hálózat csúcspontjainak 56%-át, a Florida hálózaté pedig a csúcspontok 46%-át tartalmazza. Ez azt jelenti, hogy mind a magyar, mind az angol hálózat szavainak megközelítőleg a fele egymással közvetve vagy közvetlenül össze van kötve. 2.3. Legrövidebb útvonalak vizsgálata Az összekötöttségről árnyaltabb képet kapunk, ha megvizsgáljuk a szavak közötti legrövidebb útvonalakat. Megszámolhatjuk, hogy két szó közötti adott hosszúságú legrövidebb útvonalból hány darab található a hálózatban. A kapott eloszlást az Agykapocs és a Florida hálózatra, illetve a hálózatok legnagyobb szigorúan összefüggő komponensére a 2. ábra mutatja. Mindkét hálózatnál azt tapasztaljuk, hogy a teljes hálózatra és a legnagyobb szigorúan összefüggő komponensre kapott eloszlás nagyon hasonló. Tehát a legnagyobb szigorúan összefüggő komponensnek meghatározó szerepe van a teljes hálózat legrövidebb úthosszainak kialakításában. A legrövidebb útvonalak közül a leghosszabb az Agykapocsban 21, míg a Floridában 11 lépés hosszúságú. A Florida hálózatbeli rövidebb maximális úthossz annak köszönhető, hogy az adatgyűjtés hosszabb időtartama miatt sűrűbb a hálózat. A szavak közötti leggyakoribb távolság mindkét hálózatban kicsi. A konkrét útvonalak vizsgálatakor számos esetben azt látjuk, hogy egy szóból kiindulva akár néhány lépésen belül egy másik, 60
távoli szóhoz juthatunk el. Például az Agykapocs hálózatban: gazella → gizella → mátyás → király. A Florida hálózatban: left → right → correct → answer.
2. ábra. Legrövidebb úthosszak eloszlása az Agykapocs és a Florida hálózatban és a hálózatok legnagyobb szigorúan összefüggő komponensében.
2.4. Kezdő hívószavak szerepe Az Agykapocs rendszerben kezdetben minden résztvevő 134 rögzített hívószóra adott választ. Ezzel szemben a Florida asszociációknál a hívószavak folyamatosan kerültek be a rendszerbe, nem volt minden válaszadó számára rögzített hívószó lista. Felmerül a kérdés, hogy az eltérő adatfelvétel milyen különbséget okozott a hálózatok szerkezetében. Ennek megállapítására úgynevezett hólabda keresést alkalmaztunk. A hólabda keresés során egy vagy több csúcspontból indulunk el a csúcsok kimenő élein keresztül a hálózat többi csúcspontja felé. Meghatározható, hogy adott számú lépéssel a kimenő élek mentén hány hálózati csúcspontot értünk el. Az Agykapocs hálózat adatfelvételi módjából következik, hogy a kezdő hívószavak csoportjából kiindulva gyorsan elérhetőek a hálózat csúcspontjai. Azonban amennyiben nem az eredeti listából indulunk ki, hanem véletlenszerűen választott 134 csúcspontból indítjuk a hólabda keresést, akkor lassabban érjük el a hálózat csúcsait. A Florida hálózatnál 134 véletlenül kiválasztott angol kezdőszóból kiindulva ugyancsak lassabb ütemben növekszik a hálózati csúcsok elérési görbéje. Ezt követően megvizsgáltuk, hogy az egyes hálózati csúcspontokból egyenként kiindulva hány csúcspontot érünk el néhány lépés alatt. Az Agykapocs hálózatnál találtunk olyan szavakat, amelyeket egyenként a hólabda keresés kiindulópontjának választva a csúcsból három lépés alatt a hálózat több mint 50%-a elérhető. Ezen szavak mindegyike kezdő hívószó volt. A Florida hálózatnál ezzel szemben a legkedvezőbb kiinduló csúcspont választás esetén is a hólabda keresés harmadik lépésében a hálózati csúcspontoknak csak a 20%-a volt elérhető. További lépesek után természetesen itt is elérjük a csúcspontok nagy részét. Láthatjuk tehát, hogy a rögzített kezdő hívószó listából kiindulva létrejövő hálózatban a kezdő hívószavaknak található egy olyan csoportja, amely szavakból egyenként kiindulva gyorsan elérhetőek a hálózat szavai. 3. Összefoglalás Eredményeink azt mutatják, hogy hálózataink – bár eltérő nyelvű asszociációkat tartalmaznak – felépítése sok szempontból hasonló. A bemenő fokszámok eloszlásának skálafüggetlen jellege az angol és a magyar hálózat alapján univerzális jellemzőnek bizonyult. A legnagyobb bemenő fokszámú szavak magyar és angol hálózatbeli listája szintén jelentős átfedést mutat. Ezekre a szavakra – nyelvfüggetlen módon – sok hívószóról asszociálunk. Mindkét hálózatban azonosítottunk egy nagy – a hálózati csúcspontok körülbelül felét tartalmazó – magot, amelyen belül a szavak irányított útvonalakon keresztül szorosan kapcsolódnak egymáshoz. A hálózat többi csúcspontja ezen mag körül egy lazább 61
héjat alkot. Kiderült, hogy ez a szigorúan összefüggő komponens a hálózat szavai közötti legrövidebb úthosszak szempontjából meghatározó szerepű. A hálózatok kisvilág jellegére utal, hogy a leggyakoribb legrövidebb útvonal hossza két csúcspont között viszonylag rövid, így két, akár nagyon távoli szó esetén is találhatunk a szavak között néhány lépés hosszúságú asszociációs útvonalat. A magyar asszociációk gyűjtésekor alkalmazott rögzített kezdő hívószó-készletnek a hálózat csúcspontjainak gyors elérésében lehet szerepe. Irodalom Gósy Mária 2005. Pszicholingvisztika. Budapest: Osiris. Kovács László 2011. Fogalmi rendszerek és lexikai hálózatok a mentális lexikonban. Budapest: Tinta. Nelson, Douglas L. et al. 1998. The University of South Florida word association, rhyme, and word fragment norms. http://w3.usf.edu/FreeAssociation/
62