A nyelvtechnológia hatása napjaink lexikográfiájára Prószéky Gábor MorphoLogic & PPKE ITK www.morphologic.hu & www.itk.ppke.hu MTA, 2011. november 8.
A nyelvtechnológia és az internet hatása napjaink szótáraira Prószéky Gábor MorphoLogic & PPKE ITK www.morphologic.hu & www.itk.ppke.hu MTA, 2011. november 8.
A nyelvtechnológia és a lexikográfia érintkezési pontjai Mitől nyelvtechnológiai egy megoldás? Hogy segíthet a nyelvtechnológia a szótári világban? Csak az elektronikus világban segít? A nyelvtechnológia és lexikográfia közös területei: 1. szótárlétrehozás 2. szótárlekérdezés 3. szótármegjelenítés Ismert helyzet: verseny az elektronikus és a papírvilág között… Nyelvtechnológia probléma-e egy elektronikus szótár létrehozása, lekérdezése és megjelenítése? … és a papírszótáré?
Prószéky Gábor
MTA, 2011. november 8.
Szótárak létrehozása Korpuszokban való kereséssel („corpus based lexicography”) A korpusznyelvészet eszközeivel – pl. az MTA Nyelvtudományi Intézete kutatásai: Sass B., Héja E. („corpus driven lexicography”) Statisztikai és nyelvi elemzőprogramok közbeiktatásával Crowd-sourcing technikákkal (pl. Amazon Mechanical Turk) Nyelvtechnológiai „indíttatású” szótárkészítő eszközökkel: Lexicographers’ Workbench (MorphoLogic)
Prószéky Gábor
MTA, 2011. november 8.
Szótári lekérdezés Hagyományosan : Pontosan, ábécérendben Részszóként És a nyelvtechnológia segítségével: A szó töve(i) alapján Hasonlósági alapon Pontatlan helyesírással Hangzás alapján Hasonló jelentéssel (szinonima, esetleg antonima) Szemantikus relációi alapján (hierarchikus információ) … és akár több forrásban, egyszerre!
Prószéky Gábor
MTA, 2011. november 8.
Szótármegjelenítés A nyelvtechnológia elsősorban az elektronikus – azon belül is sokszor az internetes – szótárak esetében játszhat szerepet Többféle formában (pl. tildével vagy anélkül) Többféle tipográfiával: nyomtatásban vagy képernyőn Dinamikus keresési eredményekkel Dinamikus struktúrákban (kihagyható információk) Virtuális szótárként Szövegkörnyezetekkel
Prószéky Gábor
MTA, 2011. november 8.
Szótári szerkezet és a szócikk-környezet A mai szótárak szerkezete a Gutenberg-galaxis mellékterméke Szóbokrok: tipográfiai okok, rövidítések, papírmegtakarítással Intelligens elektronikus szótárak: nyelvtechnológiai tudás → nyelvfüggőség Hagyományos szótárak: a megértéshez szükséges nyelvi információ egy része „a felhasználó fejében” Intelligens számítógépes szótárak: dinamikusan működő „értelmező” modul, ami épp azt látja, amit a felhasználó (pl. MoBiMouse) Mára az informatikai megoldások veszik át azt a meghatározó szerepet, amit korábban – egészen más módon – a nyomdászok birtokoltak a szótárak formájának kialakításban
Prószéky Gábor
MTA, 2011. november 8.
Hogyan lehet egy elektronikus szótárba belenézni? Az elektronikus szótárak megítélése sokszor az első egy-két keresendő szó megtalálásával korrelál: ha megvannak a szótárban, a felhasználó jó szótárnak minősíti; ha nincsenek, akkor rossznak Ráadásul ez sokszor még azzal a következménnyel is jár, hogy akinek csak időnként lenne szüksége a szótárra, az az egyébként sikeres teszt után mégsem veszi meg Már az internetes szótárak előtti korban is sokan úgy döntöttek ilyenkor, hogy a néha megkeresendő egy-egy szóhoz megfelel nekik az egy-két szóra teljes találatot adó, de hosszabb használat esetén már csak ún. demó módban futó bemutató verzió is
Prószéky Gábor
MTA, 2011. november 8.
A lexikográfiai munka egyik mérőszáma csak a szótárak mérete A legjobb szótár mindig a legnagyobb? Nehéz mérni, hogy mennyire modern A szótárkritika műfaja még mindig alig ismert 2007: MTA Szótári Munkabizottsága „Kiváló magyar szótár” díj A szótár méretét – mint egyetlen mérőszámot – az elektronikus változatok világában még nehezebb ellenőrizni, és az van előrébb a marketingversenyben, aki nagyobbat mond Papírszótár: könyvvastagság, papírvastagság, tördelés A nem jogszerű használat miatt az elektronikus szótárak nem szívesen használják az eredeti számokat Mindig „készíthető” olyan megszámlálásra épülő ismérv, ami szerint valami a legnagyobb
Prószéky Gábor
MTA, 2011. november 8.
A lexikográfiai tartalom ingyen jár, vagy meg kell(ene) venni? Elektronikus világ: pénzért beszerezhető szótárak és ingyenesen hozzáférhető szótárak (valamint: enciklopédiák, lexikonok, …) Ma, amikor szótári találatokat ingyen is megkaphatunk valahonnan az internetről, nagy a kísértés: miért is kellene megvásárolni az elektronikus szótárat, ha az interneten ott van ingyen – „majdnem” ugyanez? A fizetős internetes szolgáltatások használatának (különösen a régiónkban) nem alakult ki igazi kultúrája: nem maga az ár, hanem a fizetés ténye a gát Az ingyenes szolgáltatás általában nem használhatatlanul rossz Az tehát nem a nyelvtechnológia, hanem az internet „üzenete”, hogy: nem baj, ha valami nem a legjobb, csak ingyen legyen Kérdés: van külön virtuális és 3D-s etika? Prószéky Gábor
MTA, 2011. november 8.
Csökkentett lexikográfiai tömegigények A papírszótáraknál ha valami nem jó, akkor azt rögtön láthatja a szótáron a felhasználó, hiszen a teljes változatot a kezében tartja Az elektronikus világban a jól ismert, korábban nagynevű szótáraknak rengeteg változatuk van közkézen Belső szerkezet nélküli szócikkek Sem tipográfiai elrendezés, sem szócikk-sorrend Azonosításuk ezeken az alapokon meglehetősen nehézkes Azt az állítást nehéz védeni, hogy egy esetleges „eltulajdonítás” miatt lett a table magyarul asztal, vagy a horse éppen ló (ám paripa soha) Kérdés: hol kezdődik az a nyelvi ismeret, ami egy adott szótárban úgy szerepel, hogy a felhasználó e nélkül nem tudna hozzájutni? Prószéky Gábor
MTA, 2011. november 8.
Kérdések… Mikor és ki adott ki utoljára pl. román–magyar, lengyel–magyar vagy magyar–szlovák szótárat? Mivel a szótárkiadás irányítása nem a kulturális tárca vagy a Magyar Tudományos Akadémia kutatóinak a kezében van, hanem üzleti alapon történik, mekkora az esély arra, hogy a jövőben a modell megváltoztatása nélkül, azaz pusztán üzleti alapon mégis lesznek ilyen szótárak? Bár vannak olyan nyelvpárok (albán–magyar, magyar–hindi, …), amelyek szótárai gyakorlatilag készen vannak (mert készítőik nem üzleti alapon, hanem „megszállottságból”, pusztán a nyelv és a kultúra szeretete miatt hozták létre ezeket), mikor lesznek ezek a szótárak publikusan elérhetőek azok számára, akik ezt igénylik?
Prószéky Gábor
MTA, 2011. november 8.
A nyelvtechnológia segíthet? Szükség volna tehát egy az utóbbi kérdésekre pozitív választ adó, lexikográfiai és terminológiai tevékenységet végző, szótári tartalmakat létrehozó, illetve a meglevő tartalmakat modern nyelvtechnológiai eszközökkel (!) folyamatosan (!) közkinccsé (!) tevő intézményre A mai kornak megfelelően kizárólag professzionális számítógépes lexikográfusokkal és nyelvtechnológusokkal zajlana a szótárkészítés, hiszen csak a technológiai eszközök magas szintű használata teszi az eredményeket a napi életben is, az interneten is versenyképessé Ez az intézmény nem alapkutatásokat végezne, tehát nem a hagyományos értelemben vett akadémiai kutatóhely volna, de a „szótárlétrehozásnak” ebben az intézményben szigorúan tudományos alapokon kell történne Az internet által fokozatosan ingyenessé tett világban a jó minőségű lexikográfiai tartalom alanyi jogon járhatna például minden magyar anyanyelvű állampolgár számára Prószéky Gábor
MTA, 2011. november 8.
Minden magyar állampolgárnak, alanyi jogon… A lexikográfiai tevékenységet nem a piac szabályainak, hanem a regionális kulturális igényeknek kellene meghatároznia Olyan döntéshozói szándék szükséges ehhez, amelyik akarja és támogatja, hogy 1. a magyar és más nyelvek közötti modern szótárak létrejöjjenek 2. ha megvannak, publikussá váljanak 3. a közvetlen haszonszerzés kötelezősége ne terhelje a lexikográfia világát Az erre a feladatra alkalmas stáb létezik: kérdés, hogy a felvázolt működéshez szükséges háttér mikor teszi lehetővé, hogy mindenki számára elérhető módon megjelenjenek a jó lexikográfiai minőségű elektronikus és – igény szerint természetesen papír alapú – termékek, amelyek elnyomhatnák a kevésbé jó, de a végfelhasználók számára hasonlóképpen ingyenes, ám napjainkban még mindenütt jelenlévő, alacsonyabb igényű próbálkozásokat Prószéky Gábor
MTA, 2011. november 8.