Fogalmi struktúrák vizsgálata SPSS-szoftverrel Muráth Judit - Bagó Péter 1. A kutatás tárgya, célja és módszerei A Pécsi Tudományegyetem Közgazdaságtudományi Karán futó projekt keretében az informatikában és a nyelvészetben alkalmazott kutatási módszereket egymással kombinálva teszünk kísérletet a gazdaság nyelvének mélyebb elemzésére. A vizsgálat középpontjában a gazdaságban zajló kommunikáció, a gazdasági kommunikáció terminológiája, a szakszókincs: szakszavak, szakkifejezések vizsgálata áll. A kutatás célja különösen a szakfordítások során felmerülő egyre gyakoribb és különféle terminológiai problémák okainak tisztázása, a fogalmi struktúrák, a fogalmak és a hozzájuk tartozó terminusok között fennálló kapcsolatok feltárása, és végül, de nem utolsó sorban e törekvéseket támogatandó új eljárások, kutatási módszerek bevezetése. A kutatást végző team egy nagyobb projekt keretein belül olyan modellt kíván megalkotni, amely alkalmas egy-egy témakört megjelenítő szövegkorpusz tartalmának szemantikai hálóval történő reprezentálására. Mivel nagy és ezért kézi erővel nehezen feldolgozható korpusz vizsgálata áll a középpontban, ezért nagy a jelentősége az informatikai lehetőségek bekapcsolásának. A kutatás első lépésében erre már történtek kísérletek, és elsőként a NooJ szövegelemző rendszer lehetőségeit próbáltuk ki. A kutatás eddigi eredményeiről a 2010-es MANYE kongresszuson számoltunk be (vö. Muráth J, Bagó P. 2011). Következő lépésként egy újabb szoftvercsomag, az SPSS alkalmasságát és lehetőségeit vizsgáljuk céljaink megvalósíthatósága szempontjából abban a reményben is, hogy a bemutatott eljárás továbbiakban más korpuszok vizsgálatára is alkalmas lehet. 2. Terminológiai vizsgálatok – kutatási irányok 2.1 Rendszerszintű vizsgálatok A terminológia a terminológiatan megalkotója, Wüster szerint – mai fogalommal élve – tudásreprezentáció, hiszen egy-egy szakterület feltérképezése után a fogalmak definiálása és rendszerben elhelyezése történik megi. Már a klasszikus terminológiatannak is alaptétele volt, hogy a fogalmat nem csupán pontos definíció révén határozhatjuk meg. Közelebbi meghatározásának további fontos kritériuma, hogy megadjuk a rendszerben elfoglalt helyét is. Mivel a fogalom gondolati tartalom, következésképpen szükség van a terminusra, amely a fogalmat reprezentálja. Wüster és tanítványai abból a napjainkban is érvényes elvből indultak ki, hogy egy-egy szakterület terminológiája rendszert alkot, amelyben az egyes 59
fogalomnak és a hozzá tartozó terminusnak meghatározott helye van, és a rendszer ábrázolható is. Az osztályozásnak és rendszerezésnek, a dolgok/fogalmak alá-, feléés mellérendelésének tehát kitüntető szerep jut. Különösképpen a természettudományokban láthatunk erre már jóval korábban is példákat (vö. Linné által kidolgozott rendszer az élővilág osztályzására). Az illusztrációként felrajzolt rendszerek több szintes fa-struktúrát alkotnak. Ez az ábrázolás a magyar terminológiai szakirodalomtól sem idegen. Hasznos didaktikai szerepet tölt be, és a terminológiáról szóló bevezető előadások fontos eszközei. Gyengéje: nem minden tudományág vagy szakma fogalmi rendszerének leírására alkalmas, különösen nehéz a társadalomtudományokban egy teljes rendszert így bemutatni, és előfordulhat az is, hogy egy-egy terület terminológiájának egyes példányai a tényleges nyelvhasználatban, egy-egy adott szakszövegekben a rendszerszinten történt ábrázolástól eltérő értelmet kapnak. Például az aktuális szövegben fogalmi kontamináció lép fel. Erre Gerzymisch-Arbogast már 1996-ban rámutatott (Gerzymisch-Arbogast 1996), de magyarországi kutatásokban is kimutattak hasonló eredményeket (vö. Muráth 2002). A jelenség lehet az adott tudomány vagy szakma fejlődésének eredménye, ám lehet más oka is. Tovább bonyolítja a helyzetet, ha nem egynyelvű, hanem két- vagy többnyelvű terminológiai munka folyik, és a rendszerek nyelvenként is különböznek. Felmerül a kérdés, lehet-e a rendszerekre vonatkozóan az eddig leírtaktól eltérően is megállapításokat tenni, és ha igen, milyen ábrázolási lehetőségek vannak? Igaz-e, hogy a nyelvhasználat nem csupán az elmélet alátámasztására szolgáló példákat szolgáltat, hanem alapos vizsgálata bizonyos törvényszerűségek megállapítására is lehetőséget ad? E kérdések már jó ideje foglalkoztatják a kutatókat, akik újabb és újabb eljárásokat próbálnak ki, hogy a másik irányból is megközelíthessék vizsgálatuk tárgyát. 2.2 A használati szint kutatása Az utóbbi években egyre nagyobb hangsúlyt kapnak azok az empirikus vizsgálatok, amelyek a nyelvhasználó felől közelítve speciális módszerekkel vizsgálják a nyelvet. Kiemelendő közülük a korpuszelemzés és a hálózatalapú kutatás. A korpuszelemzés olyan empirikus kutatás, amely nyelvészeti vizsgálatok céljából összeállított írott és/vagy beszélt nyelvi szövegeken, azaz korpuszokon végzett elemzés során tesz a nyelvre vonatkozó megállapításokat. A kutatók igyekeznek minél nagyobb korpuszt összeállítani, mivel a kinyert adatok mennyiségének növekedésével arányosan csökken a kapott eredmény esetlegessége, egyben növekszik a megbízhatósága. Kibontakozására a számítógépes adatfeldolgozás elterjedésével kerülhetett sor, hiszen a gépi 60
feldolgozással vált lehetővé az óriási korpuszokban fellelt hatalmas adattömeg gyors és eredményes feldolgozása. Értékes megállapítások születtek az anyanyelv használatáról, de egyre több vizsgálatban jelenik meg a nyelvösszehasonlítás vagy a fordítás kérdése is. Jelentős korpusznyelvészeti kutatások folynak a Magyar Tudományos Akadémia Nyelvtudományi Intézetének Korpusznyelvészeti Osztályán Váradi Tamás vezetésével, és több magyarországi kutató végez értékes korpusznyelvészeti kutatásokat. Mivel „minden, mindennel összefügg” (vö. Balázs 2010), a hálózatkutatásnak óriási nemzetközi, de egyre nagyobb magyar szakirodalma is van, a legkülönfélébb tudományterületek művelői, a legkülönfélébb élethelyzetek kutatói foglalkoznak vele a saját területükön: biokémikusok, fizikusok, szociológusok, nyelvészek; gondoljunk a vasúthálózatokra, az egyéb közlekedési hálózatokra, az áramszolgáltatás hálózatára, a regionális gazdasági hálózatokra, a legkülönfélébb társadalmi kapcsolathálókra. Kutatják a társadalmak rejtett hálózatát, a falusi társadalom rejtett kapcsolatait, hogy csak néhány egészen extrém kutatási területet említsünk, de ott van példának okáért az internet, amely a közeljövő bizonyára egyik legizgalmasabb kutatási területe lesz. Lényeges a karrierépítés szempontjából is – és így szakma független érdeklődési területet jelenthet –, hiszen ki, milyen kapcsolathálóval rendelkezik, erősen befolyásolja sikeres vagy kevésbé sikeres karrierjét. A témával foglalkozók keresik magának a hálózatkutatásnak az alapkérdéseit (vö. Csermely P. 2005), vagy saját szakterületükön belül vizsgálják. A hálózatkutatás és a hálózatalapú kutatás egyre több eredménnyel büszkélkedhet a nyelvészetben is (vö. például Balaskó M., Balázs G., Kovács L. (2010), Kovács L. (2011). A korpuszelemzés mellett egyre érdekesebbé és hasznosabbá válik számunkra a hálózatalapú kutatás is, mivel az előzőhöz hasonlóan a tényleges nyelvhasználatból indul ki, és abból próbál törvényszerűségeket megállapítani. Úgy látjuk, hogy vizsgálódásainkban a korpuszelemzés és a hálózatalapú kutatás összekapcsolása a modern technológiával, az újabb szoftverek kísérleti alkalmazása újabb eredményekhez vezethet. Az alábbiakban az SPSS szoftvert és a vele végzett vizsgálatot mutatjuk be. 3. Fogalmi struktúrák vizsgálata SPSS szoftverrel Az adatokat kétféleképpen lehet kinyerni a weboldalakról: manuálisan vagy automatikusan. Előző cikkünkben az elsőt már bemutattuk (Muráth J, Bagó P. 2011). A manuális adatkinyerés során kézi beavatkozás szükséges az adatok összegyűjtéséhez. Ez lassú és munkaigényes megoldás. Az összeszedni kívánt adatokban struktúrát kell találni, amelyhez emberi beavatkozás szükségeltetik, 61
mert a weboldalakon sok olyan információ található, amelyre nincs szükségünk: többek között reklámok, főcímek, a weboldal navigálásához szükséges elemek. A másik módszer az automatikus információ-begyűjtés, ehhez a szoftver RSS szabványos megoldást kínál, amely azonban több problémát is felvet. Az RSS feed egy olyan információmegosztó megoldás, amelyet a weboldalak szolgáltatnak, de készítőik dönthetik el, milyen formában. Általában 100-200 karakterre korlátozva adnak betekintést az általuk megosztani kívánt információba, amely ha felkelti az olvasó érdeklődését, akkor továbbkattint és elolvassa a teljes cikket. Tehát az RSS megoldásokat hírolvasásra hozták létre, az SPSS csak RSS-ből tud olvasni strukturált információt, amelyet ha nem oszt meg teljes egészében a weboldal készítője, akkor csak korlátozottan jutunk hozzá az információhoz. Ez jelentősen le tudja rövidíteni a tartalmat és az egész kutatást rossz irányba viszi. Tehát az automatikus megoldás sem teljesen kielégítő. Célunk a jövőben olyan megoldás keresése, amely a felesleges zaj nélkül adja ki a megfelelő információkat. Érdemes a statisztikák között böngészni, a vállalatoknál található adatok 80%-a strukturálatlan információkat tartalmaz (vö. Körmendi, 2007). Az SPSS Modeler A következő szoftverünket, amellyel az elkezdett kutatást folytattuk – az SPSS Modelert –, még nem alkalmazták nyelvészeti vizsgálódásokhoz, kutatásunkban erre első ízben teszünk kísérletet. Az SPSS Modeler – régi nevén Clementine –, a gazdaságban végzett adatbányászati tevékenységek ismert eszköze, amely lehetővé teszi, hogy az adatbányászati tevékenységek más, hasonló termékek nyújtotta lehetőségekhez képest lényegesen szélesebb körű adattípuson és az ügyfelekre való szélesebb rálátással történjenek. Tehát ez egy adatbányászati megoldás, amely hatékonyabbá teszi a vállalat működését, jelen esetben a korpuszunk elemzését. Konferenciákon elhangzottak szerint számos más alkalmazásban is lehetőség van alkalmazni a szoftvert, például az ügyfélszerzés és -megtartás, ügyfél életciklus értéknövelés, kockázatkezelés, csalások felderítése és megelőzése, terméktervezés megoldásokban. Az IBM többek között az alábbiakat írja a termékről: az SPSS Modelerrel (Clementine) létrehozott modellek közvetlenül felhasználhatók számos kampánymenedzsment, ill. CRM rendszerben, a termék támogatja az automatizált ügyfélbesorolást és scoring-ot. A modellek létrehozásához, alkalmazásához, az előrejelzések biztonságos és hatékony kezeléséhez további lehetőség áll rendelkezésre az SPSS Collaboration Services (SPSS Predictive
62
Enterprise Services) termékkel való integráción keresztül. A szoftver magas szinten támogatja: a numerikus és szöveg típusú, valamint Web-log adatok és kérdőív eredmények hatékony elérését, adattranszformációját és integrálását. Ezen funkcionalitásában egyedülálló a versenytársaival szemben; a legfejlettebb statisztikai és tanuló algoritmusok használatával a gyors modellépítést és validálást az előrejelző modellekben foglalt üzleti előnyök hatékony felhasználását, alkalmazását, a folyamatok valós idejű kezelését vagy ütemezését a felhasználók, illetve a megfelelő döntéstámogató rendszerek felé. Az SPSS Modeler (Clementine) (továbbiakban a szoftver) felhasználóbarát felülete lehetővé teszi a streamek kezelését, amelyeket gyorsan és vizuálisan hozzá lehet adni a szoftverhez. Nem kell a mögöttes infrastruktúrával, illetve az informatikai, statisztikai megoldásokkal törődni. A cél a tudásfeltárás, amit a stream segít, ezt úgy kell elképzelni, mint az adat útját az információig. Az adat bármi lehet, az újság tartalma, dátuma, színe és minden, ami csak a képernyőn megjelenik, vagy amit a kezünkbe fogunk. A felhasználó számára fontos adatból lesz az információ, például ha nem megyünk sehova, akkor az aznapi hőmérséklet csak egy adat, de ha készülünk valahová, akkor az már információ, hiszen a szerint öltözünk fel. Tehát egy streamet úgy kell felfogni, mint egy adat-transzformációt az információ kinyeréséhez vezető úton. A szoftver képes előrejelző modellek gyors készítésére és rugalmas modellek felhasználására, mindezt nyitott architektúrával, ami lehetővé teszi a mögöttes adatbázisok szabadon kiválasztását. (SPSS, 2011) Az SPSS megoldás A vizsgálatban a gazdasági válság témakörét bemutató szövegkorpusz (vö. Muráth J, Bagó P. 2011) tartalmát elemezzük az SPSS Modeler közbeiktatásával, amellyel lehetővé válik a korpusz szemantikai hálójának felvázolása. Ha kiragadunk a háló egy-egy csomópontjában lévő kulcskifejezést, akkor egy-egy részháló is ábrázolható. A szoftvert tehát az előző évben – a NooJ szoftverhez – összeállított korpuszon próbáltuk ki, aminél ezúttal is előjöttek a strukturálatlan információkezelésből adódó problémák. Célunk egy használható modell megépítése, amely további korpuszok elemzéséhez a későbbiekben is használható. Az első node (érthetőség kedvéért azt lehet mondani, alkalmazás, ami egy adott funkciót valósít meg az analitika során) az adatbevitel-node. A fent és az előző cikkünkben említett problémák miatt, az adatfájl-beviteli node volt, ami során el kellett dönteni, milyen struktúrába rendezzük az adatokat. Mi 63
egyetlen mezőt használtunk, amelyet új sorjelzéssel ellátott egységekre felbontva tölti be a mezőbe. A következő node a „text mining” volt, ezzel végezzük el a valódi szövegbányászatot, erre az egyetlen mezőre. Érdemes elgondolkodni azon, hogy az előre beállított szótárak közül melyiket használjuk. Ez azért fontos, mert ha banki környezetben vagy egyéb iparágakban gondolkodunk, az általuk használatos szavakkal, kifejezésekkel lehet dolgozni, ezzel is hatékonyabbá téve a munkát. Következő lépésként le kell futtatni a folyamatot, amihez megfelelő erőforrás szükséges, ezek után az interactive workbenchez jutunk, ahol kategóriákat lehet létrehozni a megtalált szövegből, ezeket a szavakat, kifejezéseket szűrni lehet, mindebből grafikonokat, kapcsolatokat lehet kimutatni.
1. ábra: pénzügy terminus kapcsolatai (saját szerkesztés, 2011)
A fenti ábrán gyakoriságok és kapcsolatok találhatók, a gyakoriságot a kifejezés melletti kör nagysága mutatja, a vonalak vastagsága a két kifejezés közötti alárendeltségi viszony erősségét mutatja. Kategóriák létrehozását automatikusan is elvállalja a program, de a strukturálatlan szövegből többnyire csak gyakoriságokból tud létrehozni kategóriákat. Jobb eredményre jutunk, ha leszűrjük a szöveget és azokból képezünk automatikus kategóriákat. Az egész megoldásnak az a lényege, hogy automatikusan, mindenféle programozás nélkül lehet eljutni ilyen megoldásokig, nem kell érteni a technológiához, nem 64
kell törődni az adatbázisokkal, ha készen áll a szöveg, akkor gyors automatikus megoldást nyújt a szoftver. 4. Konklúzió Bármely megoldást választjuk is, akár a NooJ-t, akár az SPSS-t, mindkettő hatékonysága jelentős mértékben függ az alapszövegtől, amely ha megfelelő mértékben strukturált, jó eredményt kapunk, ha nem, akkor az eredmény jelentősen függ a manuális közbeavatkozástól. A két szoftver között jelentős különbség mutatkozik: amíg a NooJ egy szabad forráskódú szoftver és ennek megfelelően a tudása is visszafogott, addig az SPSS egy fizetős alkalmazás, aminek a tudása is ezt tükrözi. Mindkét szoftverhez jelentős erőforrásra van szükség, ezért megfelelő számítási kapacitás nélkül nem is érdemes nekilátni a munkának. Irodalom Balázs G. 2010. Minden mindennel összefügg? Hálózatkutatás a nyelvben. In: Balaskó M. et al. (szerk.) 2010. 18-25. Balaskó M., Balázs G., Kovács L. (szerk.) 2010. Hálózatkutatás – Hálózatok a társadalomban és a nyelvben. (Segédkönyvek a nyelvészet tanulmányozásához 103.) Budapest: Tinta Könyvkiadó. Csermely P. 2005. A rejtett hálózatok ereje. Budapest: Vince Kiadó. Fischer M. 2010. Terminológia a szakmai kommunikáció szolgálatában. In: Dobos Cs. (szerk.) Szaknyelvi kommunikáció. Budapest – Miskolc: Tinta Könyvkiadó – Miskolci Egyetem.51-72. Gerzymisch-Arbogast, H. 1996. Termini im Kontext. (Forum für FachsprachenForschung Bd. 31) Tübingen: Gunter Narr. Kovács L. 2010. Hálózatelmélet és nyelvészet. In: Balaskó M. et al. (szerk.) 2010. 9-17. Kovács L. 2010. A mentális lexikon vizsgálata hálózatelméleti megközelítésben. In: Balaskó M. et al. (szerk.) 2010. 109-121. Kovács L. 2011. Fogalmi rendszerek és lexikai hálózatok a mentális lexikonban (Segédkönyvek a nyelvészet tanulmányozásához 119.) Budapest: Tinta Könyvkiadó. Körmendi Gy. 2007. Magyar nyelvű szöveganalitika. Budapest: SPSS Hungary. Muráth J. 2002. [2003]. Zweisprachige Fachlexikographie. (PBS 5, Universitas) Budapest: Nemzeti Tankönyvkiadó.
65
Muráth J., Bagó P. 2011. A válság izotópiája. In: Boda I. K. et al. (szerk.) 2011. Az alkalmazott nyelvészet ma: innováció, technológia, tradíció. XX. Magyar Alkalmazott Nyelvészeti Kongresszus Debrecen, 2010. aug. 26-28. (MANYE, Vol. 7.) Budapest – Debrecen: MANYE – Debreceni Egyetem. 72-78. SPSS 2011. SPSS Modeler (Clementine) adatbányászati platform http://www.spss.hu/termekek-esmegoldasok/clementineadatbanyaszatiplatform.html Jegyzetek i
Az alapfogalmakat az alábbiak szerint értelmezzük: 1. terminológia: tudásreprezentáció, egy szakterület fogalmainak és megnevezéseinek összessége (vö. még DIN 2342); 2. terminológiatan: terminológia-elmélet (vö. még Fischer 2010); 3. fogalom vö. ISO 1087-1 (2000:2): concept : unit of knowledge created by a unique combination of characteristics;4. terminus vö. ISO 1087-1 (2006) term: verbal designation of a general concept in a specific subject field.
66