Milyen szótár készíthet⊕ ⊕ a nagyszótári korpuszból? Pajzs Júlia A magyar irodalmi és köznyelv nagyszótárának munkálatai 1984 végén indultak meg újból , Kiss Lajos 1986-ban vette át a munka irányítását. E több mint tíz év alatt els⊕sorban a szótár forrásanyagául szánt szövegrészletek (korpusz) számítógépre vitele és lekérdezhet⊕vé tétele volt f⊕ feladatunk. Tekintettel arra, hogy az el⊕zetesen tervezettnél már lényegesen több szövegszó rögzítésre került és számítógépen on-line elérhet⊕ formában van, lehet⊕ségünk van annak megvizsgálásra, hogy a korpusz milyen mértékben alkalmas a tervezett nagyszótár forrásanyagául. 1
1. A korpusz legfontosabb jellemz⊕ ⊕i A számítógépre rögzítend⊕ szövegrészleteket irodalomtudósok jelölték ki számunkra. Feladatuk az volt, hogy az így összeállítandó válogatás a lehet⊕ legjobban reprezentálja a magyar irodalmi és köznyelv szókincsét. Az eredeti terv szerint mintegy 13 millió szövegszónyi korpuszt kellett volna kijelölniük az alábbi korszakok szerinti bontásban: XVI. század 1.000.000 XVII. század 1.000.000 XVIII. század 2.000.000 XIX. század 4.000.000 XX. század 5.000.000 A szövegrészletek kiválasztását az egyes korszakok kiváló irodalomtudósai végezték el. A válogatás közben azonban az egyes részletek terjedelmét csak többé-kevésbé tudták megbecsülni, így csak a rögzítés során tudatosult bennünk, hogy a XIX. század gépre vitt anyaga ténylegesen mintegy 7 millió szövegszó, a XX. század eddig felvitt és lekérdezhet⊕ formában lév⊕ szövegszavainak száma mintegy 10 millió, és további legalább 5 millió bevitelét tervezzük a kijelölt forrásanyagból. Így a most on-line elérhet⊕ XIX-XX. századi korpusz mérete (közel 17 millió szövegszó) jelent⊕sen meghaladja az el⊕zetesen tervezett teljes korpusz méretét. Sajnálatos módon azonban a korábbi századok anyagának bevitele korántsem haladt ilyen ütemben, mivel ezek rögzítése és lekérdezhet⊕vé tétele lényegesen nagyobb szakértelmet igényel. Terjedelmét tekintve azonban a jelenleg lekérdezhet⊕ korpusz már mindenképp alkalmas annak megvizsgálására, hogy milyen mennyiség〈 és min⊕ség〈 szócikk készíthet⊕ ennek alapján. 2. Gyakorisági vizsgálatok Tihanyi László 1994-ben készített egy lemmatizált gyakorisági listát a korpuszból nyert adatok alapján. A szövegeket az általa fejlesztett HUMOR morfológiai elemz⊕programmal lemmatizálta, majd szétválogatta az így nyert adatokat a program által felismert és fel nem ismert szavakra. Mindkett⊕r⊕l készített gyakorisági összefoglalást, a szótár szempontjából itt els⊕sorban a felismert szavak jöhetnek szóba címszóként, azonban a fel nem ismert adatokat sem hagyhatjuk figyelmen kívül, hiszen abban számos olyan alakváltozat, írásváltozat fordul el⊕, amelyet a program t⊕tára nem tartalmaz, s⊕t el⊕fordulnak régebbi szavak is, amelyeket
1
egy nagyszótárba fel kell vennünk. Els⊕dlegesen azonban mindenképp a felismert lexémák összesített gyakorisági adatait érdemes megvizsgálnunk. Mivel ez az összesítés néhány évvel ezel⊕tt készült, csupán az akkor gépen lév⊕ szövegszómennyiségb⊕l indulhatott ki (14.200.000 szó), az alábbi adatok tehát erre vonatkoznak. A leggyakoribb szavak természetesen azonosak az egyéb magyar gyakorisági listák elejével: a 955145 az 478652 és 235381 nem 188474 s 185227 hogy 179748 ez 165250 is 146465 van 143327 egy 122000 de 84708 ⊕ 82507 én 74273 csak 68654 ki 67202 meg 66093 ha 64601 mi 64237 még 54912 már 52864 Összesen:
3479720
Azaz a leggyakoribb 20 szó lefedi a szövegszók 24.5% százalékát. Az összes felismert különböz⊕ lexéma száma (a homonimákat és homográfokat figyelmen kívül hagyva) 165.441. Ezek eloszlása gyakoriság szerint:
A legalább tízszer el⊕forduló lexémák alapul szolgálhatnak kétnyelv〈 kisszótárak címszóanyagául, a nagyszótári munkákhoz azonban úgy gondolom legalább 3 el⊕fordulásra van szükségünk (még azok közül is sok ténylegesen csak egyszer jöhet számításba idézetként, ha ugyanabban a szövegben található). Ebb⊕l az adódik, hogy a 14 milliós korpuszból mindössze egy kb. 60.000-65.000 címszót tartalmazó kéziszótár készíthet⊕! Mint látjuk a lexémák több mint fele, csaknem kétharmada (101.352 lexéma) csupán egyszer-kétszer fordul el⊕. Az alábbiakban egy rövid részletet mutatunk be a csupán egyszer el⊕fordult szavak közül. Mint látható, e szólista nem tekinthet⊕ valódi lexéma listának, csupán az elemz⊕ által t⊕ként értelmezhet⊕ szavak listájának (összetett vagy képzett alakok is el⊕fordulhatnak, illetve
2
feltételezett összetételek és képzések ajándékozóját-is, akadémia-jutalmaz). ajándékkészít⊕ ajándéklevél ajándékozóját-is ajándékszivar ajándéktöml⊕ ajándékösszeg ajánlattev⊕ ajánlatú ajánlgató ajánltatható ajánlástok ajánló-levél ajánlólap ajánlósor ajókagy〈r〈 akadozň akadékosság akadémia-alapító akadémia-jutalmaz akadémista-klasszikus Ezek között találhatunk feltételezhet⊕ rögzítési vagy elemzési hibát (akadozň, ajánlástok), egy részük azonban mérlegelést igényel, vajon bekerüljön-e a nagyszótárba esetleg az összetétel el⊕tagjának vagy a képzés alaptagjának címszavához, vagy önállóan. A lexémagyakorisági lista ábécében is rendezhet⊕, bár a valódi magyar ábécébe rendezéshez bonyolultabb programra van szükség. Itt az ábránd származékszavainak és összetételeinek gyakorisági listáját láthatjuk: ábránd 385 ábrándérték〈 1 ábrándfoszlány 1 ábrándh⊕s 2 ábrándít 2 ábrándja-vesztett 1 ábrándkép 18 ábrándkór 1 ábrándlény 1 ábrándorzó 1 ábrándos 174 ábrándosság 3 ábrándos-barna 1 ábrándoz 7 ábrándozás 71 ábrándozik 140 ábrándozó 59 ábrándrajz 1 ábrándrontó 1
Ezek a listák nyilván nagymértékben segíthetik a címszólista összeállítását, de mint láthatjuk, semmiképp sem biztosítható, hogy valamilyen mennyiségi kritérium alapján a gép válassza ki a címszavakat számunkra, hiszen a gyakoribbak között vannak olyan képzett alakok (ábrándozó, ábrándul) amelyek feltehet⊕leg nem fognak önálló címszóként szerepelni, másrészt a ritkábban el⊕fordultak felvétele esetenként indokolt lehet (ábrándvilág?). A korpusz méretének növelése természetesen módosítja a gyakorisági adatokat, az arányokon azonban jelent⊕sen nem változtat. Tapasztalataink szerint els⊕sorban a már amúgy is gyakori szavak el⊕fordulási száma növekszik, és az egyszer el⊕forduló hapaxok száma. Éppen a kritikus 2-3-4 el⊕fordulási számú szavakra nem feltétlen kapunk számottev⊕en több idézetet (némelyikre természetesen igen). A korpusz közelmúltban történt b⊕vítésekor például (amikor a szövegszavak száma 14 millióról 17 millióra n⊕tt) az ábránd 1, 2 el⊕fordulási számú lexémái közül csupán az ábrándít gyakorisága emelkedett 5-re, az ábrándvilág 4-re, és további hapaxok kerültek a listára (ábrándkoncepció, ábrándöl, ábrándokbahurkoló). Ugyanakkor viszont az általam éppen vizsgált abszolút szó el⊕fordulási száma (ebben az írásváltozatban) 220-ról 455-re n⊕tt. Ezekkel az adatokkal csupán arra szeretném felhívni a figyelmet, hogy a korpusz egyszer〈 mennyiségi b⊕vítése nem feltétlenül hozza meg a kívánt eredményt. Másfel⊕l természetesen hiba lenne elzárkóznunk a szövegarchívum folyamatos b⊕vítését⊕l, karbantartásától, de az új és új adatoknak a szótárba való beépítését alaposan át kell gondolnunk (hiszen akkor sosem tekinthetnénk egy szócikket lezártnak). 3. Számítástechinkai eszközök a szótáríráshoz A lekérdez⊕ ⊕program A korpusz szövegszavainak konkordanciáját az OPEN TEXT (korábbi nevén PAT) program segítségével kérdezhetjük le. A korábbi változathoz kifejlesztettünk egy olyan magyar nyelv〈 interfészt2, amelynek segítségével a korpusz minden el⊕zetes ismeret nélkül, menüvezérelt módon érhet⊕ el bárki számára a telnet-en keresztül. Az egyetlen tudnivaló a bejelentkezés módja: telnet sun1.nytud.hu login: patuser password: Patuser Sikeres bejelentkezés esetén a program elindul, el⊕sz⊕r ki kell választanunk az általunk használni kívánt karakterkészletet, ebben is segítségünkre van a program a különféle lehet⊕ségek megjelenítésével. Ezután rátérhetünk a keresésre, egyszer〈en be kell gépelnünk a keresett szót vagy szókapcsolatot, a talált konkordanciát pedig többféle méretben kiírathatjuk a
4
képerny⊕re. A keresésnél sajnos újra problémát jelenthetnek az ékezetes karakterek, attól függ⊕en, hogy milyen gépr⊕l, milyen szoftver segítségével jelentkeztünk be, különböz⊕ módon írhatók be ezek, és abban sem lehetünk biztosak, hogy a hálózaton való konverziók után pontosan az az ékezetes karakter érkezik-e meg, amit el szerettünk volna küldeni. E problémák kiküszöbölésére melegen ajánljuk az ún. Prószéky kódok használatát, amit egyébként a program a megjelenítés lehet⊕ségeként is említ. (Ebben az á=a1, é=e1, ö=o2, ⊕=o3 stb.) Ha meg tudjuk szokni az így kódolt szövegek írását-olvasását, akkor biztonságosan használhatjuk a rendszert, hiszen az ékezetes karakterek átvitele az eredmények kimentésekor és e-mail-en való elküldésekor is gondokat okozhat. A lekérdez⊕program segítségével kereshetjük több szó együttes el⊕fordulását is, és sz〈kíthetjük a keresést m〈faj, szerz⊕ vagy a keletkezés éve szerint. Ilyenkor azt is kiírja a program, hány olyan m〈részlet szerepel a korpuszban amely az általunk leírt kritériumnak megfelel. Így tudhatjuk meg például, hogy az egyes szerz⊕kt⊕l eddig hány részletet vittünk fel, vagy bizonyos évekb⊕l, évtizedekb⊕l milyen mennyiség〈 adatunk van. Sajnos a m〈faji besorolás egyel⊕re nem kell⊕en alapos és egységes (e kötetben Váradi Tamás tanulmánya foglalkozik ezzel a kérdéssel), többek között azért, mert a szótárírás szempontjából a m〈faj nem els⊕dleges fontosságú. A korpusz többcélú felhasználhatósága érdekében azonban törekszünk ennek egységesítésére. A szócikkírást segít⊕ ⊕ szövegszerkeszt⊕ ⊕ program Mindent szótárt, de különösen az ilyen nagyterjedelm〈nek tervezetteket érdemes azonnal adatbázisformában tárolni a számítógépen (Pajzs 1993, 1994). Célszer〈 az erre nemzetközileg elterjedt szabvány, az ún. SGML3 használata: ennek a szövegek kódolására kialakított konvenciója a TEI4 ajánlás. Ennek figyelembevételével próbáltam kidolgozni a NSz. szócikkeinek feltételezhet⊕ struktúráját. Az egyes szerkezeti elemek jelölésében törekedtem az ÉKsz. leend⊕ adatbázisában alkalmazandó kódokkal való azonosságra is, hogy minél jobban megkönnyítsem a majdani két szótári adatbázis integrált együttes használatát. Jelenlegi elképzeléseink szerint a következ⊕ módon alakul a szócikkek szerkezete:
5
> > > > > > > > > >
>
> > > > > > >
Az egyes mez⊕nevek ("tag"-ek) jelentése: <entry> Szócikk. Címszó. Alakváltozat. A grammatikai információk összefoglaló blokkja. <pos> Szófaj. <pos type=rep> Szófajt helyettesít⊕ körülírás. <subc> Szófaji kiegészítések, amelyek megel⊕zik a szófajt, grammatikai alkategóriáknak is tekinthet⊕k pl. "tn", "ts" "hat-ragos". A szófaji és nyelvtani kiegészítésb⊕l az, amely a szófajt zárójelben követi. <mentioned>az lbl-en belül id⊕nként el⊕forduló kurzívval szedett szövegrészek, hivatkozások más címszóra, vagy egyéb d⊕ltbet〈s utalások (pl: "-t ragos hat-val"). <usg> Stílusmin⊕sítés. <sense n='1'> (n=2, 1.1, 1.2..stb) egy önálló jelentés blokkja. <sengr n='I'> Grammatikai blokk, többszófajú szavak esetén. <def> Értelmezés. <def type=rep> Helyettesít⊕ értelmezés. A "< >" közötti kiegészít⊕ értelmezés.
6
Az értelmezésben, esetleg a szókapcsolatban vagy a példában el⊕forduló olyan "( )" zárójelbe tett részek, amelyek a vagylagosságot jelölik.
Az értelmezés szövegében el⊕forduló olyan "( )" zárójeles részek, amelyek latin fordítást tartalmaznak (pl. növénynevek). <eg> Az idézetet tartalmazó egység. Maga az idézet. <wdate> A keletkezés dátuma. A kiadás dátuma. Szerz⊕ neve. A kötet címe, esetleg sorszáma stb.
Oldalszám. A forrásrészlet azonosító kódszáma. Az értelmezett szókapcsolat, szólás stb. egysége. Az értelmezett szókapcsolat, szólás, szójárás, szóláshasonlat d⊕lt bet〈vel szedett része, amelyet kett⊕spont és állóbet〈s értelmezés követ. A szerkezeti leírásban (DTD: Document Type Definition) alkalmazott fontosabb jelölési konvenciók: ? 0 vagy egy el⊕fordulás * 0 vagy akárhány el⊕fordulás + legalább egy el⊕fordulás A jelöletlen elemek el⊕fordulása kötelez⊕, a felsorolt sorrendben. Hangsúlyoznom kell azonban, hogy a fent ismertetett szerkezeti ábra csupán ideiglenes, a szócikkek írása közben folyamatosan módosítjuk a felmerül⊕ igények alapján, legalábbis a szótárírás kezdeti stádiumában. A szócikkek készítésekor a felsorolt mez⊕határoló jeleket a WriterStation program segítségével visszük számítógépre. Ez a program jelent⊕sen megkönnyíti az ilyen formátumú bevitelt, legalábbis egy hagyományos, közönséges (nem SGML editor) használatához képest. Számontartja, hogy a struktúra aktuális szintjén melyek a megengedett és kötelez⊕ elemek, és csak ezek bevitelét kínálja fel. Mivel azonban a rendelkezésünkre álló programverzió meglehet⊕sen régi, számos gyengesége van. Reméljük, hogy a közeljöv⊕ben módunk nyílik egy korszer〈bb SGML editor beszerzésére. Az ilyen módon rögzített adatbázisból azután egy konverziós program segítségével elkészíthet⊕ a szótár nyomtatott változata. El⊕nye még, hogy a végleges tipográfiai képet elegend⊕ közvetlenül a kiadás el⊕tt eldöntenünk. Az adatbázisként tárolt változatból pedig bármilyen SGML lekérdez⊕vel kikereshetjük, csoportosíthatjuk a már elkészült szócikkeket, például a korpusz lekérdezésére is használt Open Text programmal. 4. A próbaszócikk irás tapasztalatai Bár a próbaszócikkek írásának még az elején tartunk, annyit az eddigi kísérletekb⊕l megállapíthattunk, hogy a korpusz már jelenlegi állapotában is alkalmas a szócikkek jelent⊕s részének kidolgozására (legalábbis arra a kb. 65.000-re, amelyre legalább 3 adatunk van), különösen akkor, ha a hagyományos cédulás gy〈jtésb⊕l származó forrásokat is figyelembe vesszük. Miel⊕bb ki kell b⊕vítenünk a számítógépes korpuszt a XVIII. századi szövegekkel, és törekednünk kell arra, hogy a XX. századi anyag eddig kijelölt részének bevitele belátható id⊕n belül befejez⊕djön. Ezután célszer〈nek látszik áttérnünk a korpusz b⊕vítésének manapság korszer〈 módjára, a már elektronikus formában tárolt szövegek átvételére. Ugyan, mint
7
rámutattunk, a korpusz méretének növelése nem pontosan az általunk kívánt min⊕ségi változást eredményezi, a mai igényeknek és lehet⊕ségeknek csak ez a módszer felelhet meg. Tekintve azonban, hogy a nagyságrendekkel terjedelmesebb korpusz gy〈jtése, karbantartása, hozzáférhet⊕vé tétele messze meghaladná a lexikográfiai osztály lehet⊕ségeit, inkább a mások által gy〈jtött anyagok (pl. Magyar Elektronikus Könyvtár) felhasználására kell törekednünk. Els⊕dleges feladatunknak a tényleges szótárírást kell tekintenünk, és ehhez kapcsolódóan eljárásokat kell kidolgoznunk a korpusz minél gazdaságosabb lexikográfiai felhasználhatóságára. Ha ugyanis a korpusz mérete 200-300 millió szövegszónyi lesz, ami manapság a nemzetközi gyakorlat, nyilván id⊕rabló a gyakori szavak több száz, s⊕t több ezer szónyi konkordanciáját végigolvasnunk, hogy abból azt az 5-25 idézetet kiválasszuk, amely majd a szótárba kerül. A jelenlegi lekérdez⊕programmal is megadhatjuk, hogy csupán 60 véletlenszer〈en kiválasztott el⊕fordulást kelljen átnéznünk a gyakoribb szavak esetén, nem lehetünk azonban biztosak abban, hogy ilyenkor kapunk példát valamennyi lényeges jelentésárnyalatra. Kutatásokat kell tehát folytatnunk abban a tekintetben, hogy miként tehet⊕ a mintavételi eljárás kifinomultabbá. Tovább kell fejlesztenünk a lemmatizált keresést szolgáló elemz⊕ algoritmust is több irányban: egyrészt optimális megoldást kell találnunk a homográfok egyértelm〈sítésére, másrészt meg kell oldanunk a történeti karaktereket tartalmazó szövegek lexémára való kereshet⊕ségét is. -----------------------A jelenleg rendelkezésünkre álló korpusz és a számítástechnnikai eszközök lehet⊕vé teszik a nagyszótár tényleges szótárírói munkájának megindítását. A próbaszókikkek szerkesztése során b⊕víthetjük tapasztalatainkat azon a téren is, hogy milyen irányban kell b⊕vítenünk a korpuszt, és hogyan kell továbbfejlesztenünk a kezeléséhez használt számítástechnikai eljárásokat.
Jegyzetek 1. A munkálatot az alábbi támogatások tették lehet⊕vé: TPB KKFA-ATA 1985-1989, OTKA 1989-1990.,OTKA 1991-1994. Nysz:T 003207, OTKA infrastruktúrális m〈szer pályázat 1992, Nysz: C 008, OTKA 1995-1998. Nysz: T 014798, 2. Az interfész elkészítését az NIIF 1996 Nysz: M-668-96 pályázata tette lehet⊕vé. A programot Váradi Tamás fejlesztette. 3. Standard Generalized Markup Language. 4. Text Encoding Initiative.
Bibliográfia Kiss L. - Pajzs J.: A magyar irodalmi és köznyelv nagyszótára (1533-1990) Magyar Nyelv 1989. évf. 2. szám. p. 129-136. Pajzs J.: A számítógépes nagyszótári korpusz felhasználásának lehet⊕ségei Magyar Nyelv 1994. 3. pp. 287-302. Pajzs J.: Számítógépes szótárak mint adatbázisok. NyK 93. kötet 1-2. szám Budapest, 1992-1993. pp. 161-177.