WordNet egy számítógépes lexikai adatbázis Somogyi Gábor

MULTIMÉDIA AZ OKTATÁSBAN

Szeged, 2004. május 27–29.

WordNet – egy számítógépes lexikai adatbázis Somogyi Gábor SZTE BTK angol–kommunikáció szak [email protected] A számítástechnika rohamos fejlődése, az internetnek mint a legnagyobb, vagyis világméretű hálózatnak katonai körökből a „civil” szférába (a hétköznapokba) való kikerülése, valamint az a nagyarányú technológiai fejlődés, amely mind a háttértárak és egyéb komputerperifériák fizikai méretében, mind pedig tárolókapacitásukban vagy gyorsaságukban történt robbanásszerű változásában is megmutatkozik, roppant összetett, értékes és intelligens szoftverek megalkotását tette lehetővé, hiszen már rendelkezésükre állt a programozóknak és a felhasználóknak a roppant nagy kapacitású személyi számítógép. A mesterséges intelligencia, a kibertér, az intelligens elektronikus robotok fogalmaival mára már nem csak a sci-fi magazinok hasábjain, hanem informatikai és műszaki szaklapok oldalain is találkozhatunk. Az ember és a gép közti kommunikáció mindig jelek, tehát szavak, parancsok, mondatok formájában valósult meg, vagyis egy mesterséges intelligenciával rendelkező rendszer megtervezése során az egyik legfontosabb kérdés a kommunikáció kialakításának módja. A gép, nem rendelkezvén a metakommunikáció luxusával, csakis szavakban fejezheti ki magát, csakis betűkkel és számokkal válaszolhat a programozó kérdéseire. Válaszai így egyértelműek, félreérthetetlenek lesznek, és kevésbé válnak kultúra- és kontextusfüggővé, mint a gesztusnyelv és az egyéb nonverbális beszédformák. A mesterséges intelligencia kutatása körül megnövekedett érdeklődést tükrözi az, hogy a számítógépes nyelvészetnek már nemcsak a nyelvi feldolgozás vagy a számítógépes lexikográfia, hanem a nagyméretű, sok millió rekordot tartalmazó szövegadatbázisok (korpuszok) létrehozása és további vizsgálatokra való felhasználása is kiemelten fontos területévé vált. Ezek a lexikai mátrixok – például a WordNet – nem „csupán” milliónyi szót és kifejezést tartalmaznak, hanem ezen tartalmi elemek tulajdonságai is megjelennek az adatok között. „A tartalmi kapcsolatok nemcsak a rokonértelműségre vagy a más nyelvű fordításra terjedhetnek ki, (…) hanem például a szó jelentését tartalmazó magasabb kategóriáról (például: kutya – háziállat – állat), alacsonyabb kategóriáról, fajtáról (például: kutya – vizsla – magyar vizsla), funkcióról (kutya – házőrző, vakvezető stb.) vagy egyéb jelentésbeli kapcsolatról [is szó eshet]. E kapcsolatok felismerése viszont megkívánja, hogy a számítógép olyan szótárral rendelkezzen, amely az egyes szavak és kifejezések jelentését ábrázolja. Próbálták már a jelentést elvonatkoztatással, mesterséges világmodell segítségével ábrázolni, ennek azonban a web általános környezetében – ahol szinte bármilyen információ előfordulhat – nincs tere (nem dolgozható ki). Ha azonban jobban szemügyre vesszük a fenti példákat, láthatjuk, hogy a tartalmi kapcsolatok szótári szavak közötti kapcsolatokra vannak visszavezetve. A számítógép tehát azzal ábrázolhatja a szavak jelentését, hogy az erre szolgáló speciális szótárban különböző típusú kapcsolatokat (kategória, funkció stb.) tart fenn a címszavak között.” [1] Ilyen szótár a WordNet is, amelynek bemutatása során a 213



Christiane Fellbaum által szerkesztett WordNet: an Electronic Lexical Database (MIT Press, Cambridge, 1998) könyv szövegére, valamint a Szegedi Tudományegyetem Bölcsészettudományi Karán a 2003/2004. tanév tavaszi szemeszterre általánosan művelő tantárgyként meghirdetett „Számítógépes lexikai adatbázisok” című szemináriumon elhangzottakra támaszkodom. Rövid történeti áttekintés George A. Millernek, a WordNet megálmodójának és csapatának – annak ellenére, hogy már az 1970-es évek második felétől felmerült bennük egy komplex lexikon létrehozásának a gondolata – nem volt pontos elképzelése arról, hogy lényegében mik is azok a főbb irányelvek, amelyek mentén a rendszert létre kívánják hozni. 1978-ban Miller a National Institute of Educationnak írt levelében vetette fel a lehetőségét és előnyeit egy automatizált szótárnak, amelyet elsősorban az oktatás terén lehetne felhasználni. 1984-ben el is készült a WordNet őse, egy IBM személyi számítógépen futó és 45 főnév szemantikai hálóját tartalmazó szoftver. Donald Walker és csapata felfigyelt a kezdeményezésre, és igen segítőkésznek bizonyult, így a WordNet továbbfejlesztéséhez a Bellcore és a Princeton Egyetem adott otthont. Az igazi munka tehát 1985-ben indult be. Még ebben az évben tartott konferencián merült fel az az ötlet, hogy az egyes fogalmak reprezentálására szinonimakészletet (synsets) hozzanak létre, amely kapcsolatot teremtene a mátrixban a szóalak és a jelentés között. Az alkotók előtt tehát ott lebegett már a feladat immár kissé körülhatároltabb megfogalmazása: egy online számítógépes szótár, amely mindinkább szemantikai bázisokat, mintsem csupán ABC-sorrendben elhelyezett szavakat tartalmaz. A project a Princeton Egyetem Kognitív Tanszékén folyó kutatások egyike lett, és a munkálatok beindulását az Office of Naval Research, vagyis egy katonai szervezet támogatta. A WordNet kiépítéséhez a legfontosabb programnak a Grinder bizonyult, amely a nyelvészek által kiegészített forrásfájlokat beépítette az adatbázisba. Forráskorpuszként a Brown Corpust használták, már csak azért is, mert ez a lista elkülöníti egymástól a különböző szófajokat. 1993-ban a COMLEX-szel kölcsönösen felfrissítették az adatbázisaikat. A megnövekvő adattömeg rendezett tárolására szintaktikai kategóriákat hoztak létre: a főnevekét, az igékét és a melléknevekét, majd 1992-től a határozószókét is. A rendezés ellenére is túl sok, részletesebb osztályozást kívánó szó maradt, a nyitottság leginkább a főnevek osztályán mutatkozott meg. P. N. Johnson-Laird vetette fel azt a problémát, miszerint a WordNetnek jeleznie kellene a melléknév jelentésében bekövetkezett változást, amikor az egy főnév előtt állva módosítja azt. Végül 266 antonímiapár készült el aszerint, hogy milyen főnevek jelentését módosítják. Ezzel a főneveket további 25 alkategóriába tudták besorolni. 1987-ben Christiane Fellbaum is csatlakozott a teamhez, első feladataként az igéket kategorizálta, így már csak a melléknevek osztálya maradt rendezetlen. 1989-ben Antonio Romero kifejleszti a Grinder új verzióját, amellyel megjegyzéseket és akár példamondatokat is hozzáfűzhetnek a synsetek egyes bejegyzéseihez. Ezt az új szolgáltatást az adatok drasztikus megnövekedése tette indokolttá. 1995-re a synsetek száma meghaladta a 90 ezret, a glosszáké pedig a 75 214



ezret. Még ugyancsak 1989-ben Susan Chipman tanácsára megalkották a Word Filter nevű programot, amely beolvas egy szövegfájlt, és kiértékeli a benne foglalt szavakat. A programot először tengerészeti-katonai tartalmú szövegfájlok analizálásánál futtatták, és a program segítségével a nem használatos, ritka szavakat, valamint a terminus technikusokat közkeletűbb, gyakorta használt szinonimákkal cserélték fel. Ezek után már csak egy probléma adódott, amely nyelvi jelenséget az inflekciós morfológia ír le, nevezetesen: a szavak, főleg az igék bizonyos esetekben toldalékot kapnak. Az angol nyelvben a gyenge igék E/3-as ragozása egy –s vagy -es szuffixekben jelenik meg, és a –d vagy az –ed jelzi a múlt időt. A főnevek pedig – a rendhagyók kivételével – egy –s ragot kapnak, ha többes számba tesszük őket. De akár az a probléma is felmerülhet, hogy az egyes ragozott szavak többértelműek lehetnek: a ships jelenthet hajókat, de akár a hajózni, hajóval szállítani ige E/3-as alakja is lehet. A megoldást Richard Beckwith és Michael Colon Morphy nevű programja jelentette, amely egyszerűen levágta a szótőről a toldalékokat, amennyiben az az adott szó nem szerepelt a kivétellistán. Claudia Leacock és Brian Gustafson nevéhez pedig a ConText program fűződik, amely feldolgozza a szöveget, és megjeleníti annak WordNet bejegyzéseit. 1993-ban új változat készül el, amelynél a programozók minél jobban törekedtek a feldolgozás alatt előforduló többértelmű kifejezések helyes feldolgozására. Komputerek és lexikonok A WordNet megalkotása kezdetén a készítők három fontos elvárást támasztottak leendő adatbázisukkal szemben. Az első az elkülönítés hipotézise volt, vagyis a nyelvek lexikális komponensei elkülönítve, önmagukban is vizsgálhatók; egyes nyelvészek szerint ez a szavak szintjén történhet. Habár ezek az elemek nem teljesen függetlenek, nagyon is izolálhatók. A következő elvárás a szerkezeti sémák hipotézise, amely azt mondja ki, hogy a természetes nyelvhasználat addig nem valósul meg lexikális tudáshalmaz felhasználásával, amíg nem vagyunk tisztában a használati sémákkal (patterns) és a szavak jelentései közti kapcsolatokkal. A különböző nyelvkönyvekben a szerző egy-egy szemantikai teóriát 20–50 példával illusztrál, pedig akár 100 ezer példa is felhozható. A harmadik hipotézis, a teljeskörűség elmélete szerint a számítógépes adatbázisoknak úgy kell a nyelvet használni, ahogyan azt a valóságban is teszik az emberek. Tehát egy könnyen hozzáférhető, böngészhető, kereshető és széles körű lexikai adatbázisra van szükség. A szerzők nem győzik elégszer megemlíteni, hogy az e filozófián alapuló WordNet a mesterséges intelligenciakutatás terén mekkora előrelépésekhez vezethet. 1985-re a kognitív pszichológusok és informatikus nyelvészek körében általánosan bevett szokás volt, hogy elképzeléseiket, megfigyeléseiket diagramokkal és hálómodellekkel ábrázolják. A WordNet készítői felismerték ennek az előnyeit, és egyértelművé vált számukra, hogy az egyetlen lehetséges út a lexikális szemantikai vizsgálatokhoz a relációs, hierarchikus rendszerfelépítésen nyugszik. Mára a komputerek egyre gyorsabban és olcsóbban tudnak olyan feladatokat is elvégezni, amelyeket az ember csak nagyon nehezen. A nyelvészeti teóriák az emberi nyelvek működését, nyelvtanát hivatottak ábrázolni, de olyan adatokon nyugszanak, amelyek nincsenek a mindennapi használat számára jól dokumentálva. 215



Manapság már elérhető számos nyelvi korpusz, ezek szolgáltatnak kísérleti környezetet a teóriák, nyelvészeti rendszerezések teszteléseinek. Az emberek gondolataikat is a nyelvvel formázzák meg, szavak rendszerei alapján. A WordNet egy hierarchikus struktúrává vált. A nyelvészet számos területein (fonológia, morfológia, szintaxis, szemantika) lefektetett szigorú szabályok számítógépen való modellezése izgalmas kihívásnak tűnik a szakemberek számára. Ám egy effajta adatbázis felállítása számos technikai kérdést vet fel. A rendszer adatokkal való feltöltése kétféle úton történhet: szótárak szkennelésével, amely során a nyomtatott szöveg átalakul adatokká. Ezeket utólag még fel kell dolgozni, és rendszerezni kell. A legtöbb lexikai adatbázis ezzel a szisztémával készül, amely hátránya az, hogy a program nem mindig ismeri fel helyesen az adott szöveget. A gyorsaságot növelheti az automatikus akvizíció módszere. A másik alternatíva a szótárak begépelése. Ez lassú, hosszadalmas és unalmas munka, de előnye az, hogy már előre, célirányosan készíthetünk bejegyzéseket, és a hibajavítást is kiküszöbölhetjük, vagyis ez a módszer minimális feldolgozást igényel; a WordNet így készült. A második kérdés az, hogy mit tartalmazzon az adatbázis. Habár a WordNet számos állandósult szókapcsolatot (pl. phrasal verb) és idiomatikus kifejezéseket is tartalmaz, alapegysége a szó, annak is a szótári alakja. A tartalom szó alatti részekre nem terjed tehát ki, továbbá nem tartalmaz szó feletti szervezőegységeket (script, frame) sem, ám például a buy (venni) és a sell (eladni) ige közt relációt tart fenn, amely szisztéma hasonlít Fillmore és Atkins FrameNetjéhez. Az egyes nyitott osztályok szemantikai hálóba való felosztása azt is mutatja, hogy a WordNet nem tartalmazza a szavak szintagmatikai tulajdonságait. Egy átlagos szótártól eltérően, a WordNet rövidebb frázisokat is tartalmaz, például a bad person (rossz ember), amely nem fejezhető ki teljesen kizárólag egy szóval. Az effajta szókapcsolatok a WordNet relációs struktúrájából következnek, amely két fogalmat egy olyan harmadikon keresztül kapcsol össze, amelyre az angolban nincs egyszavas kifejezés. A nyelvészek és pszichológusok gyakran különböztetik meg a lexikai (fogalmi) tudást az enciklopédikus tudástól. A szótárak az előzőt, az enciklopédiák pedig az utóbbi tudást hordozzák. Ám a határok napjainkban egyre jobban összemosódnak. Annak a tudása, hogy megütni valakit egy erőszakos tett, az enciklopédikus tudáskörünkbe tartozik, míg az, hogy az ütni ige többnyire tárgyas vonzatú, és szinonimája a bántalmazni (eufemisztikus) ige, már a lexikális tudásunkhoz tartozik. Ám a világban való eligazodásunkhoz mindkét terület ismerete szükséges. Kay szerint egy olyan típusú szótár, amely mindkét ágat tartalmazza, bizonyosan sikeres lenne. A WordNet, habár erre nem vállalkozik, számos tekintetben eleget tesz ennek a követelménynek, mert például egyes kifejezések megértését példamondatok segítik, valamint a nem hétköznapi szavaknál, állat- vagy növényneveknél mindkét terület tudása be van ágyazva. A harmadik fő kérdés az adatbázis kivitelezésére, dizájnjára vonatkozik. Egy számítógépes szótár nagy előnye az, hogy nem szorul alfabetikus szisztéma szerinti feltöltésre, mert a program úgyis helyes sorrendbe teszi az egyes rekordokat. A keresőrendszer pillanatok alatt megtalálja az adott kritériumoknak megfelelő értékeket. Habár a WordNet se nem tradicionális szótár, se nem tezaurusz (fogalomkörök alapján készített szótár), számos hasonló tulajdonságot mutat velük. 216



A WordNet annyiban tezaurusz, hogy a benne foglalt szavak utalnak a fogalmilag hozzá kapcsolódó más szavakra, kifejezésekre. Ez azt jelenti, hogy egy szó kikeresésénél lehetőség van annak szinonimáit, valamint más, logikailag és szemantikailag összetartozó szavakat kilistázni. A kapcsolatok pontosak és felcímkézettek, a felhasználó kiválaszthatja a számára megfelelőt. Ám ennek is van határa. A korábban már említett bad person kifejezésnek számos alárendelt szinonimája van, például az offender (bűnöző) és a libertine (kicsapongó). Ha a bad person kifejezés nem referálna erre a két kifejezésre, amelyek ugyan szinonimák, de nem teljesen jelentik ugyanazt, akkor ezek az alárendelt kifejezések egyet jelentenének és kapcsolódnának az adventurer (kalandor), a lover (szerető) vagy a worker (munkás) szóhoz. A bad person és a lover pedig már teljesen mást jelent. A WordNet pedig annyiban szótár, hogy példamondatokat és definíciókat is rendel az egyes szavakhoz, információt ad a morfológiailag kapcsolódó szavakról, és néha a különböző szinonimákat más-más példával illusztrálják. Relációk a WordNetben A jelentésbeli relációkkal való foglalkozás során érdekes kérdéseket vetett fel az ún. „tenisz probléma”. A WordNetben a relációkat a hasonlóság és a jelentésbeli kontraszt is meghatározza. A megengedhetőség tűréshatára véges, tehát az adatbázis nem tartalmaz semmiféle szinonímiai kapcsolatot a racquet (teniszütő), a ball (labda) és a net (háló) szavak közt. Ezek összekapcsolása vetné fel a tenisz problémát. „A fogalmak analógiák révén függnek össze. Olyan szabály nincs, amely eleve eldönthetné, hogy jó vagy rossz-e egy-egy analógia, hiszen bármi bármihez hasonlítható, valamilyen összefüggésben.” [2] Számos megoldási javaslat született: Hirst és St-Onge egy „lexikai lánc” alkalmazását írja le, amely lényegében a főnevek szemantikai relációin alapuló, kontextusban elhelyezett főnév-szekvencia. Al-Haimi és Kazman a „lexikai fa” fogalmát alkotta meg, amely hasonló alapokon derivál témainformációt. Harabagiu és Moldovan szerint növelni kellene a szemantikai kapcsolódásokat a szavak közt, ezzel lehetővé válna a témainformáció kivonatolása és a szövegkoherencia megteremtése. Új perspektívák Számos felhasználói kritika azt rótta fel a készítőknek, hogy az adatbázis kevés szintaktikai információt tartalmaz, de ennek elsősorban az az oka, hogy a WordNet egy szemantikai-hálós adatbázisnak készült. Különösen az igék esetében lenne fontos a szintaktikai megjelölés. Ennek ellenére, a szintaktikai megkötések szabályai jól érzékelhetők például a mellékneveken. Jelenleg az egyes kereteknek bizonyos alapvető információt történő szolgáltatása már minden igei synset része, még mindig kevés információ nyerhető ki az egyes argumentumok természetéről. Kohl, Jones, Berwick és Nomura ezért egy olyan szolgáltatást dolgozott ki, amely növeli a szintaktikai keretek számát, felhasználva Levin angol igéket osztályozó rendszerét. A kutatók 200 mondatsémát vizsgáltak, programjuk több, mint 10 ezer példamondatot generált 2600 szóformából. Amennyiben valamely oknál fogva rossz 217



mondat generálódott (például szemantikailag helytelen igeszinonima felhasználásakor), a program helytelen mondatként meg is jelölte azt. Ezek az esetek azt mutatták, hogy a szemantikai szempontból hasonló igék szintaxisa korántsem mindig ugyanaz. Egyértelműsítés A beszélők a többértelmű szavaknak az adott kontextus alapján tulajdonítják a helyes értelmezést, amely többnyire beválik, ennek ellenére annak a kérdése, hogy hogyan tudjuk felismerni, úgymond megérezni, hogy az adott szónak éppen melyik jelentésváltozatával találkoztunk, még viszonylag megválaszolatlan. A számítógépes programok többé-kevésbé helyesen értelmezik a szavakat, de persze itt nagyobb kötöttségek fordulnak elő, mint az emberek esetében. Voorhees azt is kimutatta, hogy egy számunkra szükséges dokumentum megtalálása egy hatalmas, heterogén környezetben csakis egy eredményes kereséssel érhető el, amely során egyezés van a keresőszó és a dokumentumcím vagy a -kivonat közt. Kísérletei azt igazolták, hogy csak akkor növekedett a helyes visszakeresések száma, amikor a fogalmakat (elhelyezve a WordNet synsetjeiben) manuálisan, az adott jelentés tudatában választották ki. A WordNet magyar nyelvű fejlesztéséről [3] A WordNet magyar nyelvre való átültetése Prószéky Gábor (Morphologic) és Miháltz Márton (ELTE) nevéhez fűződik, akik a munkálatokat 2000-ben kezdték el. Legfőbb alapelvük a Princeton-féle eredeti WordNet alapstruktúrájára való támaszkodás volt, amely adatbázist magyar nyelvű főnevekkel töltötték fel. Az eljárást két módszer szerint végezték el: kézi egyértelműsítés az absztrakt szintek érdekében, valamint automatikus egyértelműsítés egy korábbi projekt heurisztikai rendszere alapján. A magyar nominális WordNet egynyelvű szótár alapján történő kiépítésének minél könnyebbé tételéhez számos alternatíva mutatkozott. Számítógépes programok segítségével elemezték ki az egyes szótári bejegyzéseket és bontották ki azok szemantikai információit. A definíciók 83%-ában a logikailag hierarchikusan fölérendelt szavakat (genus words) be tudták azonosítani: koala: marsupial mammal resembling a bear, native in Australia. Vagyis a koala a mammal (emlős) alárendeltje, hiszen minden koala emlős. 1700 esetben a fölérendelt szó vagy gyűjtőnév, vagy pedig csak részben hozható kapcsolatba az adott szóval: alphabet: the set of letters used for…; face: the part of the head that… Számos internetes alkalmazást fejlesztettek ki a korábban már említett többértelmű szavak helyes értelmezésének céljából. A felhasználóknak a rendszer egy olyan weblapot jelenít meg, amely űrlapként funkcionál: ezen válaszolhat a készítő a központi adatbázis feltöltése során. A magyar kifejezések itt úgy értelmeződnek, mint az angol kifejezések egyes szinonimái. Akkor kerülnek be az adatbázisba, amennyiben a felhasználó úgy találja, hogy a magyar és az angol kifejezés ugyanazt jelenti. A fejlesztés jelenleg is tart, a csapat jövőbeli tervei közt szerepel az egyes rekordok felcímkézése, valamint még több szinonimai kapcsolat hozzáadása.

218



Referenciák [1] Prószéky Gábor – Kis Balázs: Globális társadalom – globális nyelv: a nyelvi processzorok világa. URL: www.morphologic.hu. [2] Eco, Umberto: A Foucault-inga. Európa Könyvkiadó, Budapest, 748. o. (2003) [3] Prószéky Gábor – Miháltz Márton: Semi-automatic Development of the Hungarian WordNet. URL: www.morphologic.hu.

219

WordNet egy számítógépes lexikai adatbázis Somogyi Gábor

Recommend Documents