1 A számítógépes nagyszótári korpusz felhasználásának lehet⊕ ⊕ségei 1. Pajzs Júlia MTA Nyelvtudományi Intézet Lexikográfiai és Lexikológiai Osztály 1014 Bp. Színház u 5-9 e-mail:
[email protected] A magyar irodalmi és köznyelv nagyszótárának (a továbbiakban NSz.) munkálatai2 1985-ben indultak meg újra az MTA Nyelvtudományi Intézetében gyökeresen új koncepció alapján. E szerint a szótár forrásanyagául számítógépre rögzített folyamatos szövegek szolgálnak, ezekb⊕l válogatja ki a lexikográfus a megfelel⊕ idézeteket, ennek alapján tükrözteti egy-egy szó jelentésének alakulását. Minthogy - természetesen - maga a szótár is számítógépen íródik, a nyomtatott szótár megjelenésével egyidej〈leg egy szótári adatbázist is létrehozunk. Mivel a forrásanyagul szolgáló számítógépes korpusz nemcsak a szótáríráshoz, hanem számos egyéb nyelvészeti (grammatikai, stilisztikai) kutatáshoz is jól hasznosítható lesz, azt kívánom bemutatni, milyen forrásanyagot és hogyan érhetnek el intézetünkbenaz érdekl⊕d⊕ kutatók. 1. A korpusz A könyvnyomtatás korától napjainkig terjed⊕ forrásanyagot az egyes korszakok kiváló irodalomtörténészei válogatták ki számunkra. Az egyes századokból folyamatosan növekv⊕ mennyiség〈 anyagot gy〈jtünk. Míg a 16. századból összesen 1 millió szövegszónyi szövegrészletet viszünk számítógépre, addig a 19. századból már 7 millió szövegszónyi korpuszunk van, a 20. századból jelenleg 4 millió szövegszónyi anyag kérdezhet⊕ le, de ennek mennyisége folyamatosan növekszik, és minden valószín〈ség szerint meg fogja haladni a 10 millió szót. A korpusz viszonylag rövid (néhány lapos) szövegrészletekb⊕l áll. Minél több szerz⊕t⊕l minél több különféle szöveget rögzítünk annak érdekében, hogy statisztikailag a lehet⊕ legjobban reprezentáljuk a magyar irodalmi szókincset. Nevesebb szerz⊕kt⊕l lényegesen nagyobb mennyiséget rögzítünk, a korszakos jelent⊕ség〈 m〈veket pedig teljes egészében gépre visszük, még ha nagyobb terjedelm〈ek is (pl. Toldi, Vizsolyi Biblia). Nem szorítkozunk szépirodalmi szövegekre, szaktudományi, publicisztikai stb. szövegeket is gy〈jtünk. A szövegekben az ékezetes bet〈ket sajátos kódolással jelöljük azért, hogy bármilyen számítógéppel kezelhet⊕k, lekérdezhet⊕k legyenek. (Pl. a lekérdezésre használt SCO UNIX operációs rendszerben jelenleg még nem tudjuk begépelni a magyar ékezetes karaktereket.) Ezért az ún. Prószéky kódot használjuk, amelyben az ékezetes bet〈t és a történeti karaktereket bet〈k és számok kombinációjával jelöljük, pl. az á-t a1, az é-t e1, az ö-t o2, ⊕-t o3 jelöli. Természetesen az így rögzített szöveg egy program segítségével bármikor átalakítható olvasható, ékezetes formára.
1. Megjelent a Magyar Nyelv-ben 1994. 3. pp. 287-302. 2. A munkálatot az alábbi támogatások tették lehet⊕vé: TPB KKFA-ATA 1985-1989, OTKA 1989-1990.,OTKA 1991-1994. Nysz:T 003207, OTKA infrastruktúrális m〈szer pályázat 1992, Nysz: C 008
2 Az egyes szövegrészletek elején megtalálhatók a hozzájuk tartozó bibliográfiai adatok: a szövegrészlet szerz⊕je, a m〈 címe, a publikációs adatok, a keletkezés éve és a szöveg m〈faji besorolása. Ezek egyrészt lehet⊕vé teszik az idézetek pontos forrásmegjelölését, másrészt a szövegekben való különféle szempontú visszakeresést. (Pl. kereshetek idézeteket csak Arany m〈veib⊕l, vagy 1950-1956 között keletkezett m〈vekb⊕l stb.) 2. Keresés a korpuszban A jelenleg számítógépen egyidej〈leg lekérdezhet⊕ korpusz mintegy 7-7 millió szövegszónyi 19-20. századi anyag. A szöveg lekérdezésére a PAT (GONNET 1987) programot használjuk, amely hatalmas mennyiség〈 folyamatos szövegb⊕l képes azonnal kikeresni valamely szó - vagy szókezd⊕ karaktersorozat - összes el⊕fordulását, és amely kiírja KWIC (key word in context) konkordanciáját. Ezt a programot eredetileg az Oxford English Dictionary számítógépes változatának lekérdezésére fejlesztették ki, ezért nem csupán folyamatos szövegek, hanem strukturált szöveges adatbázisok lekérdezésre is alkalmas. Ahhoz, hogy kikereshessük egy szó összes el⊕fordulását, a teljes szöveget indexeltük a program segítségével. Ez annyit jelent, hogy a program egy ún. index-fában tárolja a szövegben található összes karaktersorozat kezd⊕pozícióját. Amikor megkérdezzük egy szó (vagy szókezd⊕ karaktersorozat) összes el⊕fordulását, a program el⊕ször ebb⊕l a fából kikeresi az el⊕fordulások számát, és ezt írja ki a képerny⊕re. Ezután eldönthetem, hogy minden idézetet végig akarok-e nézni vagy csak valami kis mintát akarok kiíratni (1. ábra). >> hamis >> pr sample 222843, ..Ama' gyilkos, hamis hi1rt! Mint O3szszel a' li1liom-sza1l, / Sze.. 229789, .. hogy o3 olly hamis; / De tu3ri: mert nagy kedve1ben / Van o3 sz.. 284204, ..ssz, Valo1 's Hamis ko2zo2tt, - / Lelku2nk' fele1t, Szi1vu2nk' f.. 373776, ..kra, mind a' hamissakra. (9 Matth. 5. v. 45. )9 <par> (1.. 619151, ..gy maga ellen hamis hitet esku2djo2n, e1s mindekkora1ig be1kesse.. 692890, ..gokat, az az: hamis esku2ve1so2ket. Oskolai letzke1m uta1n Majer.. 710376, .. egyenes, nem hamis, szive1vel egyu2tt, mio1ta tsak vele ta1rsol.. 619151, ..gy maga ellen hamis hitet esku2djo2n, e1s mindekkora1ig be1kesse1ges.. 1. ábra
A kiírandó minta mennyisége alapértelmezésben 10, ezt azonban módosíthatjuk a {Samplesize n} utasítással, ahol n a kívánt minta nagysága. A megjelenítend⊕ szövegkörnyezet mérete is módosítható: a {PrintLength n} utasítással a teljes környezet mérete növelhet⊕, a {LeftContext m} utasítással a baloldali környezet módosítható, a keresett szó a konkordanciasorokon belül pl. középre helyezhet⊕. (2. ábra) >> {PrintLength 215} >> pr sample 692890, ..gokat, az az: hamis esku2ve1so2ket. Oskolai letzke1m uta1n Majer Jo1zsef Sze1kesfehe1rvari Kispap Bara1tomhoz tu2zes levelet ke1szi1tettem. Hozza1ja fu2ggesztettem sza1ma1ra Ne1ha1ny okaimat, Vitkovitsnak egy pa1r Halotti kes.. 710376, .. egyenes, nem hamis, szive1vel egyu2tt, mio1ta tsak vele ta1rsolkodom, mindenkor bo2tsben volt elo3ttem: most ke1t szinu3 keszkeno3se1get nem o2smero3 hi1v bara1tsa1ga ege1szen szertesze1t el terjedo3 bizodalom gyo2keret term.. 1435700, ..usonn, e1s a' hamis hithez tartozo1konn." <par>,,Hija1ban szegezne1 maga1t ellene egyfelo24l a' To2ro2k, masfelo24l a' Maurus; mert o24 tu1l az Eufratesenn, tu1l a' Taurus' havas be1rtzeinn, e1s tu1l vihetne1 azokonn
3 az.. 1566571, ..tudoma1nyt a' hamisto1l megku2lo2mbo2zteti a' to2ke1lletes okoskoda1s. Aka1r elo24bb, aka1r uto1bb, tsak kitets43zik ve1gte1re, mint a' s43zeg a' zsa1kbo1l, a' gonos43z to2rekede1s, a' tsalfa foga1s. <par>(1 A' magya.. >> {LeftContext 100} >> pr sample 619151, ..bal ko2zt megtanultam ku2lo2nbse1get tenni, rea1 nem vehettem lelkem esme1rete1t, hogy maga ellen hamis hitet esku2djo2n, e1s mindekkora1ig be1kesse1ges tu2re1ssel tartottam sza1mot a Mindenhato1nak gondvisele1se1re, ki a.. 2. ábra
Nemcsak egy-egy szót kereshetünk, hanem különböz⊕ szavak együttes el⊕fordulását a fby, near, not fby, not near utasításokkal, illetve képezhetjük a válaszhalmazok metszetét a '^'jellel, különbségét a '-'-jellel. Azt, hogy milyen hosszúságú karakterláncban való együttes el⊕fordulásra vagyunk kíváncsiak, szintén mi adhatjuk meg; alapértelmezésben 80 karakter hosszú intervallumban keres a program, de a {Proximity n} utasítással ezt módosíthatjuk. (3. ábra) >> anya near gyermek >> 316 >> pr sample 2123869, ..o24t egyedu24l a' Nemzetnek anyai nyelve1n mehet ve1gbe, azonn t. i. mellyet a' Nemzetbe1liek az Anyai tejjel szoptak, 's ahoz ke1pest gyermekse1gektu24l fogva e1rtenek, nem pedig ma1s idegen Nyelvenn, mert ezt ele1bb nag.. 2350837, ..! / A1lmomban megho1dolt a du2ho2s ellense1g / S o2ro2mkia1lta1s ko2zt meglett a be1kese1g. / Sok anya1t la1ttam si1rni o2ro2mo2kben / S vi1gasztala1st lelni megjo2tt gyermeko2kben. / Ifju1va1 tett e hi1r sok o3szu2lt o2r.. 3016334, .. ne1kiek kiva1lt, Miska' gyermekeinek hagyhatna1m uto1bb. - <par>Ezen ka1ros feldarabola1sa1t anyai jo1sza1gunknak, ha meggondolom, csak egygyik Testve1rem su2rgetheti: Miska nem, mert o3 ne1ki Uram Atya1m' kegyelme1bo3.. 3020015, .., 's Me1rgesi Portzio1kon, <page>
0314
e1s a' Hali szo2llo2n kivu3l, minden o3si atyai, anyai; e1s szerzeme1ny javait, u1gy mint a' mellyeket ma1r u1gy is vagy gyermekei, vagy Idegenek birnak, gyermekei ko2zo2tt m.. >> apa fby fiu1 >> 27 >> pr sample 13460692, ..r><par>(1 (Eltolja maga1to1l a gyermeket.) )1 <par>Anya1dhoz menj, az u1r neve1re, vissza; / Apa1d nem le1szek e1n sem fe1rje ne1ki, / O2zvegy lesz o3 s te a1rva kis fiu1. <par>(1 (Ella1gyulva maga1hoz vonja fi.. 13713923, ..r><par>- Ej, az isten szent szerelmee1rt, hogyne volna ko2zo2d hozza1? folytata1 Ternyei, hiszen az apa te vagy... igen, bara1tom, a kis Betti egy fiu1val aja1nde1kozott meg. <par>Ez temeto3i jelene1s volt. U1gy tetszet.. 13775538, ..elese1ge1hez, ki ekkora1ra ma1r elszu2lte gyermeke1t. Ha1rman to2lto2tte1k a szoba1ban az e1jet: az apa halva, a fiu1 most kezdve e1lni, e1s az anya fe1lig e1lve, fe1lig halva. <par>Az o2zvegy eltemettete1 fe1rje1t, s m.. 3. ábra
A konkordanciasorokat alapértelmezésben a program a keresett szó jobb oldali környezetére ábécébe rendezve írja ki, ez a sorrend azonban módosítható a {SortOrder Occur} utasítással. Ennek hatására a szövegben való elhelyezkedés sorrendjében nézhetjük meg a konkordanciákat. Ezen kívül arra is lehet⊕ségünk van, hogy a konkordanciasorok elején az adat számunkra legfontosabbnak ítélt jellemz⊕jét jelenítsük meg, pl. a szerz⊕t vagy a keletkezés évét. A {SortOrder Occurhead wdate section} utasítás hatására pl. a továbbiakban a konkordanciasorok elején a keletkezés éve látható, és az adatok e szerint vannak rendezve
4 (,mivel a korpuszban található szövegrészleteket a keletkezés éve alapján másoltuk egymás után). (4. ábra) >> {SortOrder Occurhead wdate section} >> a1ll >> pr 1802 ..43zs43zen s43zeme fe4nynye? hogy s43enki s43e la1sson keres43ztu24l a' vontt ha1lyogon? 's hogy ki-a1llhass43a ez a' mester foga1s me1g ama' s43zent buzgo1sa1gu1, 's elo24re-is, ha1tra-is la1to1 Jojada1nak s43zeme' e1le1t?.. 1802 .. A' Pla1ne1ta1k ko2zzu24l ala1-hengeredett, / Do2rge1se1nek hangja1t E1s43zak-fele1 tartya: / Hol a1ll a' Ba1lticom, 's feje1r tenger' partja; / Mellyre fel-rettenve1n a' Fennai kebel, / Mintegy mada1r s43zava eso24zve1n v.. 1802 .. / Bara1zda1lta1k habos si1kja1t hajo1 s43za1llal; / Haddu1 a' vitorla1k' abros43zs43zai ala1 / Ki-a1llva1n; indu1lttok' dalla1t fujdogala1. / Ku2rtje' hangza1sa1ra a' s43ze1l ki-rohane1k; / A' ko1rma1nyos pedig ama' nagy .. 1802 ..3zedegett, / 'S maga1ban a' mezo24 gyapja1t beretva1llya; / A' nya1j-fele1 tarto1 o2sve1nnye1t el-a1llya, / A' s43za1ja1ban le1vo24 fu24vel azt meg-kapva1n, / Nyekego24 ge1ge1je1t hamar ki-harapva1n, / Le-nyu1zott tzi1mere.. 1802 ..date>
<page>0220
<par> A' ke1s fintorodva la1ba1val fel-fordu1ltt, / Ve1re fu2le fele1 a1ll-kaptza1ja1n tsordu1ltt; / Ha1tu1lro1l ki-futva1n Szakada1r s43em ke1se, / Hamar ki ra1ntatva1n Zemefrisnek ke1se, / ,,H.. 1802 ..m ve1ge1t itt le1ve1n ves43ztemre, / ,,Ba1torsa1god felo24l de me1g-is fel-tettem, ,,Hogy egy vad-a1llatnak meg-felels43z helyettem; / ,,E1n ugyan nem s43za1nna1m e1ltemet e1retted; ,,De illy buzgo1sa1gom mos43tan fe1lre .. 1802 ..' Szu24z lea1nyhoz mikor ke1ro24k jo2nnek, / Es s43zu2lo24i elo24tt azok be1-ko2s43zo2nnek, / Meg a1ll keze1ben vo1lt Rokka, vagy Moto1lla / Keble1ben moto1zva1n, tsak ke1so24n meg-s43zo1lla; / I1gy Zemefris melje alma1ja1.. 1802 ..t e1lu2nk, / Ha erko24ltso2s s43zi1vtek egyet tart mive1lu2nk! / Zemefris s43zava1ra Szakada1r ra1-a1lla, / E1s go24go2s pitvaru1 ha1za1ba be1-s43za1lla. <section>
1900325010
Ebb⊕l a példából jól látható, milyen hátránya van a folyamatos - nem lemmatizált (címszó alá nem sorolt) - szövegek lekérdezésének. Így csupán az összes áll kezdet〈 szó konkordanciáját kérdezhetjük le, ebb⊕l kell a lexikográfusnak kiválasztania azt a néhány, számára releváns idézetet, amely a szócikkíráshoz szükséges. Lekérdezhetjük ugyan az összes "áll " szót is, ekkor azonban a toldalékolt adatokat veszítjük el. Ugyanez a probléma jelentkezik természetesen valamennyi homográf esetében is, a változó tövek pedig szintén gondot okoznak: például a hó összes el⊕fordulásához minden hó és hav kezdet〈 szót meg kell keresnünk. E probléma kiküszöbölésére határoztuk el, hogy a folyamatos szövegeket lemmatizáljuk. Ehhez kifejlesztettünk egy morfológiai elemz⊕ programot (Prószéky - Tihanyi 1992), amely a szövegszót lexémára és toldalékokra osztja. 3. A morfológiai elemzés Az elemz⊕ program els⊕dleges feladata esetünkben a szótövek felismerése. Mivel azonban ehhez a toldalékokat is helyesen fel kell ismerni, egyúttal ezeket is azonosítjuk, kódoljuk. A program t⊕tárat és toldaléktárat használ, el⊕ször megkeresi a t⊕tárban a szövegszóra balról illeszthet⊕ leghosszabb szótövet, majd a maradékot, (ha van,) megkeresi a toldaléktárban, szükség esetén több lépésben. Közben folyamatosan ellen⊕rzi, követheti(k)-e egymást a szót⊕ és a felismerni vélt toldalék(ok) ebben a sorrendben, ha nem, más megoldást
5 keres. A programnak több változata van, az egyik helyesírásellen⊕rz⊕ként használatos (HELYES_E? néven ismert), másik változata pedig a szó összes, a program által lehetségesnek tartott felbontását kiírja, megjelölve, mit ítél helyesnek és mit helytelennek. Az általunk használt variáns több helyes megoldás esetén mindig csak azt írja ki, amelyik a leghosszabb szótövet tartalmazza. Amennyiben a több helyes megoldás nem különbözik az azonosított szót⊕ hosszában, a t⊕tárban els⊕nek talált tövet választja. Ez rendszerint a szövegekben gyakrabban megtalálható szót⊕. (Pl. az él ige sokkal gyakoribb, mint a f⊕név, ugyanez a helyzet az áll, lép esetében is.) Sajnos, a program egyel⊕re nem képes a homonímák, homográfok szétválasztására, erre csak akkor lesz lehet⊕ség, ha egy automatikus szintaktikai elemz⊕ program is elkészül. (Ez a morfologiai elemz⊕t készít⊕ MORPHOLOGIC Gmk. legközelebbi terve.) Az elemzett szövegben a szövegszavak t⊕- és toldalékmorfémákra bontva találhatók, a szót⊕ mellett fel van tüntetve szófaja, a toldalékok mellett a kódjuk. Pl. ágyakat elemezve: ágy[FN]+ak[PL]+at[ACC]. Ha a lexéma nem azonos a szövegszóban el⊕forduló szót⊕vel, mindkett⊕t feltüntetjük. Pl: lovaknak elemezve: ló[FN]=lov+ak[PL]+nak[DAT]. Így lehet⊕vé válik, hogy egy lexéma összes el⊕fordulását egyszerre kérdezhessük le. (5a. ábra) (Az elemzésben használt kódok listája a függelékben található). >> lo1 >> 2221 >> "lo1[FN]" >> 1171 >> pr sample 50492683, ..ri[FN]. <par>A1rny[FN] suhan[IGE] a[DET] la1ny[FN] lo1[FN]=lov+a[PSe3] melle1[NU]&. Egy[DET]& lo1[FN] a1rny[FN]+a[PSe3], egy[DET]& lovas[MN] a1rny[FN]+a[PSe3]. U1gy[HA] bukkan[IGE]+t[Me3]& fel[IK]& a[DET] so2te1t[MN]+bo.. 36991012, ..N]+u1t[FN]+on[SUP] a[DET] zsilip[FN] mellett[NU] laza[MN]=laza1+n[SUP] meg[IK]+ko2t[IGE]+o2tt[Me3]& lo1[FN]. A[DET] (%1 Bugabu^Buga[FN]+bu1[FN]& )%1 fede1lzet[FN]+e1[PSe3]+n[SUP]&. <par>Szem[FN]+u2k[PSt3] figyel[IGE]+te.. 8100862, ..N] visz[IGE]=vi+tt[Me3]& benne[HA] ke1t[SZN] halott[FN]+at[ACC], / Meg[IK]+a1ll[IGE]+t[Me3]& a[DET] lo1[FN] a[DET] %barrak-ha1z elo3tt[NU]& / E1s[KOT] mint[KOT]& aki[NM]+k[PL] re1gen[HA]& o2ssze[IK]+szokik[IGE]=szok+tak[Mt3]:.. >> "e1l[FN]" >> 268 >> pr sample 32009213, ..e[TMe3]& a[DET] perc[FN]+et[ACC]&, amikor[HA]& az[DET]& ege1sz[MN] vila1g[FN] egy[DET]& fejsze[FN]-+e1l[FN]+ben[INE] fut[IGE] a[DET] fej[FN]+e[PSe3] fele1[NU]&. <par>Egy[DET]& kitarto1[MN]& kutya[FN]& a1t[IK]+ugat[IGE]+.. 55023373, ..'' mond[IGE]+ja[Te3]& ki[IK]& %1928-+ban[INE] i1ro1tt^i1rott[MN] Ady[FN]-+tanulma1ny[FN]+a[PSe3] e1l[FN]+e1[PSe3]+n[SUP]& (1 (Az[DET]& Ady[FN]-+po2r[FN]). )1 E1let[FN]& e1s[KOT] irodalom[FN] egyu2tt[HA]& vizsga1l[IGE]+a1s[.. 18100068, .. Fenyo3[FN] az[NM]+t[ACC] i1r[IGE]+ja[Te3]&, hogy[KOT] Ady[FN]+nak[DAT] (1 A[DET] halott[FN]+ak[PL] e1l[FN]+e1[PSe3]+n[SUP]& )1 ci1m[FN]+u3[UKEP] ko2tet[FN]+e1[PSe3]+hez[ALL]& csak[HA] a[DET] (%1 Verseny[FN]+t[ACC] az[DET]& e.. 16730752, ..l[IGE]+t[Me3]& el[IK] az[DET]& euro1pai[FN]& reakcio1[FN] ellen[NU]&, (1 a[DET] nemzet[FN]+ek[PL]& e1l[FN]+e1[PSe3]+n[SUP]& )1 harcol[IGE]+va[HIN], ege1sz[MN] Euro1pa[FN] minden[NM]& elnyomott[MN]& ne1p[FN]+ei[PSe3i] ne1v[F.. 36780869, ..%1 megye[FN]=megye1+k[PL]+re[SUB] (4 (%medja) )4)%1 oszlik[IGE]=oszl+ik[e3], a[DET] va1r[FN]+ak[PL] e1l[FN]+e1[PSe3]+n[SUP]& (1 ispa1n[FN] (4 (%z9%upan) )4)1 a1ll[IGE]&. A[DET] va1r[IGE]& ne1p[FN]+ei[PSe3i] ko2zt[NU]& udvarno.. 52099159, ..1[FN]=szav+unk[PSt1]+na1l[ADE] is[KOT] szebb[MN]+en[ESS]& besze11[IGE]+tetek[Mt3]." #3 (,,Halott[FN]+ak[PL] e1l[FN]+e1[PSe3]+n[SUP]&", 1939. ma1rc[ROV]. 23. (1 Pest[FN]+i[IKEP] Naplo1[FN] )1 ) <par>postafordulta[FN]=Postafordul..
6 19634481, ..T]& a[DET] fontos[MN], hogy[KOT] egy[DET]& szoli1d^szolid[MN]& e1s[KOT] megbi1zhato1[MN] u2zlet[FN] e1l[FN]+e1[PSe3]+n[SUP]& a1ll[IGE]+ok[e1]. Mi[NM] lesz[IGE]=le+tt[Me3]& volna[IGE]& belo3le[HA]+m[PSe1], mikor[HA]& pa1lya1zi.. >> "e1l[IGE]" >> 4326 >> pr 36177569, ..1Nos[MSZ], meg[IK]+van[IGE]=vagy+unk[t1] pajta1s[FN]&. Tu1l[IK]+e1l[IGE]+ted[TMe2]&. ,,Tu1l[IK]+e1l[IGE]+tem[TMe1]&". / S[KOT] kar[FN]+od[PSe2] u1t[FN]+ja[PSe3] is[KOT] lassu1[MN] e1s[KOT] te1tova[MN], / Mi1g[HA] a[DET] .. 2949147, ..& a[DET] hant[FN] alo1l[NU]. A[DET] Ve1g[FN]+ek[PL]+en[SUP], hol[HA] me1ly[MN] maga1ny[FN]+ban[INE] e1l[IGE]+tem[TMe1]& / S[KOT] %Rodosto1 gya1sz[FN]+a[PSe3] sza1ll[IGE]+t[Me3]& le1lek[FN]=lelk+em[PSe1] felett[NU], / A[DET] .. 58709009, .., - / E1s[KOT] la1tott[MN]&, mind[NM] a[DET] ti1z[SZN] u1jja1ba^ujj[FN]+a1[PSe3]+ba[ILL]' / Ott[HA] e1l[IGE]+tem[TMe1]&, s[KOT] vak[FN] szem[FN]+e1[PSe3]+be[ILL]& rejtve[HA]& / Ragyog[IGE]+tam[TMe1]&, mint[KOT]& ti1z[SZN] uno.. 5a. ábra
A kapott konkordanciát egy program segítségével olvashatóvá is alakíthatjuk (5b. ábra). >> "ló" 50492683, ..ri. <par>Árny suhan a lány ló mellé. Egy ló árnya, egy lovas árnya. Úgy bukkant fel a sötétbo.. 36991012, ...úton a zsilip mellett lazán megkötött ló. A (1 Bugabú )1 fedélzetén. <par>Szemük figyelte.. 8100862, .. vitt benne két halottat, / Megállt a ló a barrak-ház el⊕tt / És mint akik régen összeszoktak:.. >> "él[FN]" 32009213, ..e a percet, amikor az egész világ egy fejsze-élben fut a feje felé. <par>Egy kitartó kutya átugat.. 55023373, ..'' - mondja ki 1928-ban írott Ady-tanulmánya élén (1 (Az Ady-pör). )1 Élet és irodalom együtt vizsgálása.. 18100068, .. Feny⊕ azt írja, hogy Adynak (1 A halottak élén )1 cím〈 kötetéhez csak a (1 Versenyt az e.. 16730752, ..lt el az európai reakció ellen, (1 a nemzetek élén )1 harcolva, egész Európa minden elnyomott népei névei.. 36780869, ..1 megyékre (4 (medja) )4)1 oszlik, a várak élén (1 ispán (4 (z9upan) )4)1 áll. A vár népei közt udvarno.. 52099159, ..11l is szebben beszéltetek." #3 (,,Halottak élén", 1939. márc. 23. (1 Pesti Napló )1 ) <par>Postafordul.. 19634481, .. a fontos, hogy egy szolíd és megbízható üzlet élén állok. Mi lett volna bel⊕lem, mikor pályázi.. >> "él[IGE]" >> pr 36177569, ..1Nos, megvagyunk pajtás. Túlélted. ,,Túléltem". / S karod útja is lassú és tétova, / Míg a .. 2949147, .. a hant alól. A Végeken, hol mély magányban éltem / S Rodostó gyásza szállt lelkem felett, / A.. 58709009, .., - / És látott, mind a tíz újjába' / Ott éltem, s vak szemébe rejtve / Ragyogtam, mint tíz uno.. 5b. ábra
Az elemzett szöveg lekérdezése nemcsak a lexikográfusok munkáját teheti sokkal könnyebbé, hanem, úgy gondolom, számos nyelvészeti kutatásban lehet hasznos az adatgy〈jtés fázisában. Hiszen az elemzett szöveget a PAT segítségével lekérdezve a legkülönböz⊕bb kérdésekre kaphatunk választ. Megnéztük például, milyen gyakoriak azok az elméletben
7 lehetséges bonyolult toldalékcsoportok, ahol a birtokos esetet possessivus, majd valamilyen esetrag követi (mint mondjuk apáméinak). Ezt a PATtal így kérdezhetjük meg: PS fby.10 POS (6. ábra). Összesen 320-szor követi a birtokos személyragot birtokjel a 4 millió szövegszónyi elemzett mintában (amelyben csaknem 1 millió f⊕név van, és 282 528 birtokos személyrag!). Ezután egyenként megvizsgáltuk, mikor van a többesszámú birtokos személyrag után birtokjel (összesen 18, ebb⊕l a három példában követte a birtokjelet esetrag is). Majd megnéztük, mikor követi a birtokos személyragot többeszámú birtokjel, összesen 3 ilyen esetet találtunk, egy esetben mindkett⊕ többesszámban volt, és ezt az alakot még esetrag is követi (... nyelvi realizmusa, naturalista vaskossága helyenként versenyre kelhet a reformáció ördögtörténeteivel, vitairataiéival: Baránszky-Jób László: A józan költ⊕ Bp. Magvet⊕ 1978.). Megkérdezhetjük azt is, mi a leggyakoribb birtokos személyrag possessivus el⊕tt, a signif utasítással: az egyesszám els⊕ személy〈t találjuk leggyakoribbnak, holott, mint a következ⊕ utasítással megtudjuk, általában az egyesszám harmadik személy〈 a leggyakoribb. (A birtokos személyragot hányszor követi a birtokjel) >> PS fby.10 POS >> 320 >> pr sample 1905 ..]&. %Ideafo1babb [!] fajta[MN]=fajta1+t[ACC] nem[HA]& ke1pzel[IGE]+ek[e1] a[DET] 21 maga[NM]=maga+m[PSe1]+e1[POS]+na1l[ADE]; hiszen[KOT] Ki1na[FN]=Ki1na1+ban[INE] ma1r[HA] %Montesquieu-t 1905 ..ia1+k[PL] ko2zu2l[NU]& %Alfred (1 %Fouille1, )1 a[DET] %Revue %des %deux %Mondes munkata1rs[FN]+a1[PSe3]+e1[POS] ki[IK]& a[DET] Nietzsche[FN]-+irodalom[FN]+ban[INE], aki[NM] %Max (1 %Nordauval )1 1906 ..zereto3[FN]+je[PSe3]: / Ra1[IK]+lel[IGE]+tem[TMe1]& e1n[NM] is[KOT] ma1r[HA] a[DET] maga[NM]=maga+m[PSe1]+e1[POS]+ra[SUB]. / Enye1m[NM]. Ne[HA] fa1j[IGE]+jon[Pe3] a[DET] ma1s[NM]& fej[FN]+e[PSe3] 1912 ..+em[PSe1] egyne1ha1ny[NM] e1v[FN]+et[ACC]. Az[NM]+t[ACC] hisz[IGE]+ed[TPe2], a[DET] maga[NM]=maga+m[PSe1]+e1[POS]+hoz[ALL] ko2t[IGE]+ne1m[TFe1] akkor[HA] is[KOT] a[DET] te[NM] fiatal[MN], (A többeszámú birtokos személyragot hányszor követi a birtokjel:) >> PSe1i fby.10 pos >> 1 >> PSe2i fby.10 pos >> 1 >> PSe3i fby.10 pos (szomsze1d[FN]+ai[PSe3i]+e1[POS]+to1l[ABL]) >> 12 (gyermek[FN]+ei[PSe3i]+e1[POS]+vel[INS] >> PSt1i fby.10 pos >> 4 (szomsze1d[FN]+aink[PSt1i]+e1[POS]+t[ACC] >> PSt2i fby.10 pos >> 0 >> PSt3i fby.10 pos >> 0 (A birtokos személyragokat mikor követi töbesszámú birtokjel:) >> PS fby.10 POSi >> 3 >> pr sample 55943807, .. vitairat[FN]+ai[PSe3i]+e1i[POSi]+val[INS]. A[DET] magyar[FN].. 37606101, .. maga[NM]=mag+uk[PSt3]+e1i[POSi] e1pi1te1s[FN]+e[PSe3] ko2zbe.. 34080348, .. szellem[FN]+u2k[PSt3]+e1i[POSi]+vel[INS], mint[KOT]& a[DET] .. >> signif PS fby.10 POS
(mi a leggyakoribb birtokos rag posessivus el⊕tt)
8 >> 112, "PSe1" >> pr sample 56043953, ..ede1ly[FN], a[DET] szerelem[FN]& viviszekcio1[FN]: a[DET] ma1s[NM]+e1[POS]&, a[DET] maga[NM]=maga+m[PSe1]+e1[POS]. - %Emerson szerint[NU] Goethe[FN]=Goethe1+t[ACC] egy-egy[SZN] lelki[MN] va1lsa1g[FN], u1j[MN] gondol.. 44930843, .. na1la[HA] a[DET] mosoly[FN]+t[ACC] jelent[IGE]+ette[TMe3]&. <par>- Az[DET]& anya[FN]=anya1+m[PSe1]+e1[POS] lehet[IGE]+ett[Me3]& - mond[IGE]+ta[TMe3]& ve1gu2l[HA]& is[KOT]. <par>- Hogy[KOT] van[IGE] e1de.. >> signif PS (mi a leggyakoribb birtokos személyrag) >> 165574, "PSe3" >> pr sample 36885266, ..=szu2let+nek[t3] u1jra[HA]&. A[DET] %havasalfo2ldi vajda[FN], %Neagoe Basa[FN]+rab[FN] udvar[FN]+a1[PSe3]+ba[ILL] gyu3jt[IGE]+i[Te3] a[DET] Balka1n[FN]+ro1l[DEL] meneku2lo3[FN] fo3pap[FN]+ok[PL]+at[ACC], ko2zt[HA]+u.. 56591286, ..,,elvta1rs[FN]''-+nak[DAT], hanem[KOT] ,,Fo3no2k[FN]& u1r[FN]+nak[DAT]'', e1s[KOT] jelenle1t[FN]+e1[PSe3]+ben[INE]& mindenki[NM]+t[ACC] elvta1rs[FN]+nak[DAT] szo1li1t[IGE]+ane1k[TFt3], csak[HA] Sa1r[FN]+i[IKEP] ne1n.. 6. ábra
Mindez csak egy gondolatébresztésnek szánt példa. E sorok els⊕dleges célja az, hogy bátorítsam az érdekl⊕d⊕ket, tegyenek fel minél több minél érdekesebb kérdést. 4. A szöveges adatbázis és a számítógépen tárolt szöveg Ha egy szöveget pusztán azért viszünk számítógépre, mert írógép helyett használjuk a szövegszerkeszt⊕t, akkor csupán egy számítógépen tárolt szövegünk lesz, de nem beszélhetünk adatbázisról. Az adatbázis jellemz⊕je, hogy a benne lév⊕ adatok jól meghatározott "mez⊕kben" helyezkednek el. Egy könyvtári nyilvántartásban pl. az egyik mez⊕ben a könyv szerz⊕je, másikban a címe, harmadikban a kiadója szerepel stb. Ha mindig ugyanabba a mez⊕be rögzítjük az azonos adatokat, kés⊕bb a mez⊕k tartalma alapján lekérdezhetjük, csoportosíthatjuk adatainkat. A legelterjedtebb és a legtöbb célra használható adatbázistípus az ún. relációs adatbázis, ahol az egyes mez⊕k hosszát el⊕re megadjuk; ezek ugyan módosíthatók, de nem tehet⊕k változó méret〈vé. A mez⊕k mennyiségét, elnevezését is el⊕re meg kell határoznunk. A túlnyomórészt szöveget tartalmazó adatbázisoknál ez a tárolási mód gyakran nem célszer〈. Esetünkben a szótár példájánál maradva: nyilvánvaló, hogy az egyes szócikkek mérete, a bennük aktuálisan el⊕forduló különféle szerkezeti elemek száma, min⊕sége rendkívül változó. Igen célszer〈tlen lenne (talán lehetetlen?) az elképzelhet⊕ legbonyolultabb szócikk szerkezetét el⊕re definiálni, és a többi szócikkben üresen hagyni az éppen nem kitöltend⊕ elemeket. Felmerülhet persze az a kérdés is, miért ne gépeljük be egyszer〈en egy szövegszerkeszt⊕vel a szótárat, miért érdemes adatbázist is létrehoznunk bel⊕le? A legkézenfekv⊕bb, mondhatni kényelmi szempont: egy szótár írása, kiadása rendszerint hosszadalmas feladat, az íráskor ritkán tudjuk, hogy a megjelenéskor milyen módszerrel, szövegszerkeszt⊕vel, esetleg fényszed⊕rendszerrel stb. készül el majd a végleges változat. Az átalakítás egyik rendszerr⊕l a másikra sokszor csaknem akkora munka lehet, mint az újra begépelés. Ennél lényegbevágóbb szempont azonban az, hogyha nem sajnáljuk a fáradságot, hogy adatbázist építsünk fel, akkor abból bármikor viszonylag könnyen és mindenképp automatikusan nyerhetjük a nyomtatott szótárat, másrészt pedig az adatbázisból a legkülönböz⊕bb szempontú lekérdezésekre, csoportosításokra is lehet⊕ségünk van. Például a majdani nagyszótárból
9 kikereshetjük azokat a szavakat, amelyekre van 1800 el⊕tti idézet, vagy amelyekre 1910 után nincs adatunk. Kikereshetjük csak az értelmezéseket, vagy megvizsgálhatjuk, mely szerz⊕k m〈veib⊕l idéztünk a legtöbbet. Kétnyelv〈 szótárak esetén például ellen⊕rizhetjük, hogy az egyik szótárban megtalálható összes ekvivalens el⊕fordul-e címszóként a másik szótárban, stb. Ezen problémák megoldására született meg az Oxford English Dictionary számítógépesítése során a nyelvtan által definiált adatbázis fogalma. Ennek lényege, hogy az adatbázis lehetséges mez⊕i és azok tartalma épp oly jól meghatározott, mint a szokásos adatbázisoknál, hosszuk azonban nem kötött, csak egymáshoz való viszonyukat adjuk meg. (Például az idézethez mindig tartozik forrásmegjelölés.) Ezt a fogalmat a NSz. próbaszócikkeinek struktúráján keresztül szeretném bemutatni. (7. ábra)
10 dic art hea sen xpl pub grb
(art+) (hea, (grb*|sen+)) (lem, hmn?, pos?, sug*, var*, xrf?) (snu?, def+, sug*, xpl+, xrf?, sen*) (exa, pub) (dpb, src?, aut, ttl, pag) (gnu, pos, sug*, var*, xrf?, sen+)
Ahol: dic: dictionary art: article hea: head lem: lexem hmn: homonim num. pos: part of speech sug: suggestion var: variant xrf: xref sen: semantic unit snu: sense num. gnu: gram. block num. def: definition xpl: exampl. unit exa: example pub: publication dpb: date of pub src: source aut: author ttl: title pag: page
szótár szócikk szócikkfej lexéma homonima szám szófaj jelentés megszorítás alakváltozat keresztreferencia jelentés egység jelentés száma grammatikai egység száma értelmezés példa egység példamondat publikációs adatok publikáció éve forrás: korpusz vagy cédula szerz⊕ cím lapszám 7. ábra
Az ábrában '+'-al jelöltük azokat az elemeket, amelyeknek száma∃1, és '*'-al azokat, amelyek száma∃0. '?' áll azon elemek után, amelyek legfeljebb egyszer fordulhatnak el⊕. Így a fenti nyelvtan els⊕ sorainak értelmezése: - A szótár egynél több szócikkb⊕l áll - A szócikk fejrészb⊕l és legalább egy szemantikai egységb⊕l, vagy egynél több grammatikai egységb⊕l épül fel. - A szócikkfejben mindig van egy címszó, ezen felül lehet szófaji meghatározás, jelentésbeli megszorítás (pl. Orv., M〈sz.), alakváltozat stb. Az így leírható adatbázisok tárolására a nemzetközileg elterjedt egységes jelrendszer az ún. Standard Generalized Markup Language (SGML). Ennek egyik jellegzetessége az, hogy a mez⊕k elejét nevük rövidítésével jelzi, amit csúcsos zárójelek közé írnak, ugyanez a rövidítés egy '/' jellel kiegészítve jelöli a mez⊕ végét. Így például a szócikk (article) elejét , végét jelöli. A 8. ábrán a NSz. két próbaszócikkét láthatjuk ebben a jelölésrendszerben. (A szócikkeket Villó Ildikó dolgozta ki.)
11 alabástromfehér mn alabastromfehér <SEN>alabástromhoz hasonlóan szép fehér szín〈 <XPL><EXA>igen sovány nyaka volt és hosszú; de különben gy⊕ny⊕r〈 bájos szemekkel, szép alabástromfehér fogakkal 1872/1955 Déryné Eml. 1: 63 <XPL><EXA>... az alabastrom fehér arcz ... szeliden néz le reánk 1884 <SRC># Jókai MagyFöld. 56 alantas I. mn <SEN>alacsony, alacsonyan lev⊕, fekv⊕ <XPL> <EXA>... a vele való folytonos érintkezés s együtt tanulás csakis jótékony befolyással lehetett mi reánk gyengébbekre s a fejlettség sokkal alantasabb fokán állókra nézve 1824-1844/1887. Podmaniczky Napl. 128 <XPL><EXA>...ezek a bástyatornyok még most is fenyegetnék szakállas ágyúikkal az alantas síkságot 1882/1897<SRC># Jókai 68: 281 <SEN><SNU>2.alacsony társadalmi állású, hivatali beosztású <XPL><EXA>A vendégl⊕ kertjében, mely a promenád felé terült el a lejt⊕n, szerényen leült a tipeg⊕ polgármester, és egy ideig mélázva nézte a kuglizó társaságot, a zöldhajtókás tiszteket, a fürge alantas tisztvisel⊕ket... 1893/1957 PappD Muzs. 58. <XPL><EXA>A történet abban a nagyvárosban játszódik, ahol szeretni és dalolni csupán az alantas néposztályban szokás 1913 <SRC># Krúdy Postak. 6<SEN><SNU>3 alacsonyrend〈, közönséges <XPL><EXA>A hiba az én kicsinyes, alantas lekemben rejlett 1893 <SRC>#Kabos Éjsz. 13 <XPL><EXA>S ez a mozdulata, ez a magatartása olyasmit fejezett ki, hogy ugyan mi köze is van néki az ilyen alantas dolgokhoz, mint terhesség, gyerekszülés? 1961 Füst M Parn 156 II. fn <SEN>alárendelt, beosztott személy <XPL><EXA>Valahányszor a nagyurak valami galyibába keverednek, annak a levét az alantasok isszák meg 1910/1911 <SRC># Mikszáth Fekvár. 1: 81 <XPL><EXA>És mindenkivel beszélt és mindenkit irányított. Munkatársai, alantasai el voltak ragadtatva t⊕le 1922 Karinthy Cap. 49 8. ábra
Az így rögzített szótár az ember számára igen nehezen olvasható, nem áttekinthet⊕, ez a formátum azonban a gép számára értelmezhet⊕. A PAT program részére ezek az rövidítések mondják meg, mett⊕l meddig terjed egy mez⊕, és, mint látni fogjuk, ezek felhasználásával igen bonyolult kérdések megválaszolására nyílik lehet⊕ségünk. Ebb⊕l a formátumból egy program segítségével egy pillanat alatt el⊕állítható az ember számára "élvezhet⊕" nyomtatási kép, s⊕t, a végs⊕ kép kialakításáig könnyedén kipróbálhatunk különböz⊕ tipográfiai alternatívákat. A 9. ábrán láthatjuk a fenti két szócikket kétféle nyomtatási képpel. (Kiss G. 1993 felhasználásával) alabástromfehér mn alabastromfehér 'alabástromhoz hasonlóan szép fehér szín〈 'igen sovány nyaka volt és hosszú; de különben gy⊕ny⊕r〈 bájos szemekkel, szép alabástromfehér fogakkal (1872/1955 DÉRYNÉ EML. 1:63) ... az alabastrom fehér arcz ... szeliden néz le reánk (1884 # JÓKAI MAGYFÖLD.:56)
alantas I. mn 1.'alacsony, alacsonyan lev⊕, fekv⊕' ... a vele való folytonos érintkezés s együtt tanulás csakis jótékony befolyással lehetett mi reánk gyengébbekre s a fejlettség sokkal alantasabb fokán állókra nézve (1824-1844/1887. PODMANICZKY NAPL.:128) ...ezek a bástyatornyok még most is fenyegetnék szakállas ágyúikkal az alantas síkságot (1882/1897 # JÓKAI 68:281) 2. 'alacsony társadalmi állású, hivatali beosztású' A vendégl⊕ kertjében, mely a promenád felé terült el a lejt⊕n, szerényen leült a tipeg⊕ polgármester, és egy ideig mélázva nézte a kuglizó társaságot, a
12 zöldhajtókás tiszteket, a fürge alantas tisztvisel⊕ket... (1893/1957 PAPPD MUZS.:58.) A történet abban a nagyvárosban játszódik, ahol szeretni és dalolni csupán az alantas néposztályban szokás (1913 # KRÚDY POSTAK.:6.) 3. 'alacsonyrend〈, közönséges' A hiba az én kicsinyes, alantas lekemben rejlett (1893 # KABOS ÉJSZ.:13.) S ez a mozdulata, ez a magatartása olyasmit fejezett ki, hogy ugyan mi köze is van néki az ilyen alantas dolgokhoz, mint terhesség, gyerekszülés? (1961 FÜST M PARN.:156.) II. fn 'alárendelt, beosztott személy' Valahányszor a nagyurak valami galyibába keverednek, annak a levét az alantasok isszák meg (1910/1911 # MIKSZÁTH FEKVÁR. 1:81.) És mindenkivel beszélt és mindenkit írányított. Munkatársai, alantasai el voltak ragadtatva t⊕le (1922 KARINTHY CAP.:49.) alabástromfehér mn alabastromfehér 'alabástromhoz hasonlóan szép fehér szín〈' igen sovány nyaka volt és hosszú; de különben gy⊕ny⊕r〈 bájos szemekkel, szép alabástromfehér fogakkal (1872/1955 Déryné Eml. 1:63) ... az alabastrom fehér arcz ... szeliden néz le reánk (1884 # Jókai MagyFöld.:56) alantas I. mn 1.'alacsony, alacsonyan lev⊕, fekv⊕' ... a vele való folytonos érintkezés s együtt tanulás csakis jótékony befolyással lehetett mi reánk gyengébbekre s a fejlettség sokkal alantasabb fokán állókra nézve (1824-1844/1887. Podmaniczky Napl.:128) ...ezek a bástyatornyok még most is fenyegetnék szakállas ágyúikkal az alantas síkságot (1882/1897 # Jókai 68:281) 2. 'alacsony társadalmi állású, hivatali beosztású' A vendégl⊕ kertjében, mely a promenád felé terült el a lejt⊕n, szerényen leült a tipeg⊕ polgármester, és egy ideig mélázva nézte a kuglizó társaságot, a zöldhajtókás tiszteket, a fürge alantas tisztvisel⊕ket... (1893/1957 PappD Muzs.:58) A történet abban a nagyvárosban játszódik, ahol szeretni és dalolni csupán az alantas néposztályban szokás (1913 # Krúdy Postak.:6.) 3. 'alacsonyrend〈, közönséges' A hiba az én kicsinyes, alantas lekemben rejlett (1893 # Kabos Éjsz.:13). S ez a mozdulata, ez a magatartása olyasmit fejezett ki, hogy ugyan mi köze is van néki az ilyen alantas dolgokhoz, mint terhesség, gyerekszülés? (1961 Füst M Parn.:156.) II. fn 'alárendelt, beosztott személy' Valahányszor a nagyurak valami galyibába keverednek, annak a levét az alantasok isszák meg (1910/1911 # Mikszáth Fekvár. 1:81.) És mindenkivel beszélt és mindenkit írányított. Munkatársai, alantasai el voltak ragadtatva t⊕le (1922 Karinthy Cap.:49.)
9. ábra
5. A PAT mint adatbáziskezel⊕ ⊕ A PATban a mez⊕k fogalmát a region helyettesíti. Minden olyan mez⊕t, amelyet SGML kezd⊕ és záró szimbólumok határolnak, leindexelhetünk egy program (patregion) segítségével, ennek hatására eltárolódik, hogy melyik mez⊕ milyen karakteren kezd⊕dik és végz⊕dik. Így a PAT meg tudja találni azt a szót, amelyet csak egy bizonyos mez⊕n belül keresek. Ez teszi lehet⊕vé azt is, hogy kijelölhessem, hogy a keresést csak a korpusz egy részén akarom végeztetni (pl. egy szerz⊕ m〈veiben, vagy csak a prózai m〈vekben). A korpuszban a következ⊕ mez⊕jelöléseket alkalmaztuk: <section> egy szövegegység forráskód szerz⊕ m〈 címe publikációs adatok <wdate> keletkezés éve m〈faj a folyamatos szöveg <page> lap lapszám <par> bekezdés (vagy versszak) Ezek segítségével találhatjuk meg a konkordanciasorokhoz tartozó forrásadatokat is. Például az irály szóhoz a region section including ira1ly utasítással írathatjuk ki a forrásadatokat. (10. ábra). Hasonlóan nézhetjük meg, a m〈 hányadik oldalán volt a keresett szó: region page including ira1ly. A sorok elején látható 10 jegy〈 forráskód a m〈részlet egyedi azonosítója. A konkordanciasorokat és a hozzájuk tartozó forrásadatokat (a fejlécet és a lapszámot) kimenthetjük egy file-ba, és ezután bármilyen szövegszerkeszt⊕ben megtekinthetjük, kiválogathatjuk az idézeteket.
13 >> {Sortorder OccurHead id section} >> "ira1ly" 1900469001 .. Pillanatnyi benne a gondolat, de me1gis tarto1s e1s naphosszas az egy gondolatroli e1rtekezo3de1s. Az ilynemu2 ira1lyt tartom e1n a legfesztelenebbnek, a ne1lku2l, hogy pongyola1nak szabadna lennie. 1900469001 .. Leve1lben to2bbet s nyiltabban lehet megvallani, mint netala1n ba1rmely ma1s neme1ben az ira1lynak, e1s ezt az olvaso1 meg fogja tudni bocsa1tani, a mint azt egyik jo1 fe1l, jo1 >> region section including ira1ly 1900469001 ..<section> 1900469001 TAVASY LAJOS
LEVELEK ERDE1LYBE MAGYARORSZA1GBOL. PEST; LANDERER E1S HECKENAST; 1848; LEVELEK ERDE1LYBE MAGYARORSZA1GBOL. PAPNAK A TANITO1. 5 <wdate>1848 1900469011 ..<section> 1900469011 TAVASI LAJOS NEVELE1SI EMLE1KLAPOK. PEST; TRATTNER-KA1ROLYI; 1848; NEVELE1SI EMLE1KLAPOK. O2TO2DIK FU2ZET. 9 <wdate>1848 >> region page including ira1ly 1900469001 ..<page>0016
0122
A region használatával adhatjuk meg azoknak a szövegeknek valamely jellemz⊕jét, amelyekben keresni szeretnénk. Pl. a region section including (region wdate including "1950".."1960") utasítással az 1950 és 1960 között írt m〈veket jelöljük ki. A kijelölt halmaznak nevet is adhatunk. Pl. az arvers=region section including ("arany" within region author) utasítással Arany m〈veinek halmazát jelöltük ki a korpuszból. Erre a halmazra így hivatkozhatunk: vitéz within *arvers. Ennek hatására csak az Arany-m〈vek között keresi a vitéz szó el⊕fordulásait. Amint a készül⊕ szótárnak már jelent⊕sebb része számítógépen lesz, természetesen azt is le fogjuk tudni kérdezni a legkülönböz⊕bb szempontok szerint e program segítségével. 6. SGML formátumú szövegek bevitelét el⊕ ⊕segít⊕ ⊕ program A fentebb bemutatott bonyolult struktúrájú szócikkek bevitele szokványos szövegszerkeszt⊕kkel igen körülményes. Oda kell figyelnünk, mikor melyik szerkezeti elem következik (következhet), vigyáznunk kell, el ne felejtsünk kitenni egy mez⊕határoló jelet, és arra is, milyen sorrendbe tesszük ⊕ket egymás után. Ráadásul ez a formátum az ember számára igen nehezen áttekinthet⊕, ellen⊕rizhet⊕. Ezért szolgált nagy örömünkre, amikor a párizsi Centre Interuniversitaire d'Études Hongroises-zal való együttm〈ködésünk keretében beszerezték számunkra a WriterStation programot, amely kifejezetten SGML formátumú adatok kényelmes és biztonságos bevitelét támogató szövegszerkeszt⊕ program. Valahányszor egy szótárat (vagy más struktúrált szöveget) kezdünk el ennek segítségével gépre vinni, el⊕ször el kell hozzá készítenünk egy ún. applikációt. Ez annyit jelent, hogy el kell döntenünk, milyen elemek lesznek szótárunkban, ezek hogyan követhetik egymást, melyek a kötelez⊕k, opcionálisak stb., azaz el kell készítenünk egy olyan nyelvtant, amilyet a 7. ábrán láttunk. Ezután eldöntjük, mely elemeket akarjuk azonos bet〈típussal jelölni, melyeket akarunk megkülönböztetni, és elkészíthetjük az applikációt. Attól kezdve, hogy betöltjük a szövegszerkeszt⊕ programot és a megfelel⊕ applikációt, a program "vezeti a kezünket" szótárírás közben. A képerny⊕ alján folyamatosan mutatja, melyik helyzetben milyen elemet írhatunk be. Ha valamit kifelejtünk, vagy rossz helyre írunk, jelzi a hibát. Az SGML jeleket pedig nem nekünk kell begépelnünk, csak mindig egy billenty〈kombinációt kell lenyomnunk
14 ahhoz, hogy a kívánt jel a megfelel⊕ helyre bekerüljön. A képerny⊕ nagyobb részében nem is SGML formában látjuk a szöveget, hanem úgy, mintha normál szövegszerkeszt⊕vel különböz⊕ bet〈típusokkal írnánk folyamatos szöveget. Csupán a képerny⊕ alsó sorában látjuk az SGML formájú szöveget úgy, ahogy ténylegesen a gépen rögzítjük. Ezzel az eszközzel a szótárírás sokkal könnyebbé és biztonságosabbá válik, mert lehetetlenné teszi, hogy következetlen formátumban vigyük be a szócikkeket. A nyomtatási képet ezután dönthetjük el, és azt a munka során bármikor módosíthatjuk. 7. További terveink Els⊕dleges feladatunk az, hogy ezeknek a programoknak a segítségével miel⊕bb megkezdjük a próbaszócikkek írását az eddigieknél lényegesen nagyobb mennyiségben. Ezen túlmen⊕en azonban szeretnénk, ha az általunk gy〈jtött adatokat a kutatók minél szélesebb köre tudná hasznosítani. Erre több módon nyílik lehet⊕ség: bármely érdekl⊕döt szívesen megtanítunk a PAT program használatára, a program az intézet csaknem minden osztályáról elérhet⊕, reméljük, hogy hamarosan a könyvtárba is be tudunk szerezni egy olyan gépet, amelyr⊕l a korpusz lekérdezhet⊕ lesz. Azok számára, akiknek nem áll módjában személyesen használni a rendszert, örömest válaszolunk levélben feltett kérdésekre (,ha tudunk). Mindezért els⊕sorban azt kérjük, hogy azokban a publikációikban amelyekben felhasználják az itt gy〈jtött adatokat, hivatkozzanak a korpuszra, mint forrásra. Örömmel vennénk, ha a WRITERSTATION programot is többen használnák fel szótárak írására. Ehhez azonban a leend⊕ felhasználóknak meg kell vásárolniuk a szoftvert gyártójától. Az aktuális probléma megfogalmazásában, az applikáció kifejlesztésben szívesen nyújtunk segítséget. Bibliográfia: KISS G.: Tipográfiai változatok a NSz.-hoz. Kézirat. 1993. KISS L. - PAJZS J.: A magyar irodalmi és köznyelv nagyszótára (1533-1990) Magyar Nyelv 1989. évf. 2. szám. p. 129-136. GONNET, G.: (1987) PAT - An efficient text searching system University of Waterloo Centre for the New OED. GONNET, G. - TOMPA, F.: (1987) Mind your Grammar: a New Approach to Modelling Text. University of Waterloo Centre for the New OED. PAJZS J.: Számítógép és lexikográfia (Doktori disszertáció) MTA Nyelvtudományi Intézet, Budapest 1990. p. 83. PAJZS J.: (1990) Creating a Historical Dictionary of Hungarian with the Aid of Computer T. MAGAY - J. ZIGANY: BUDALEX '88 Proceedings Akadémiai Kiadó Budapest p. 559-563. PAJZS J.: (1991) The Use of a lemmatized Corpus for Compiling the Dictionary of Hungarian In: Using Corpora Proceedings of the 7th Annual Conference of the OUP & Centre for the New OED and Text Research University of Waterloo Centre for the New OED p. 129-136. PRÓSZÉKY G. - TIHANYI L.: A Fast Morphological Analyzer for Lemmatizing Corpora of Agglutinative Languages. In: Papers on Computational Lexicography and Text Research Proceeding of COMPLEX 92 MTA Nyelvtudományi Intézet Budapest 1992. Függelék Az elemzésben használt kódok listája: igeragok:
15 kijelent⊕, jelen, alanyi egyes sz. els⊕ e1 = e2 =<sz,asz,esz,ol,el,öl> e3 =<0,ik> tbsz. 1. t1 = t2 = t3 = tárgyas, egysz, Te1 = Te2 = Te3 =<ja,i> Tt1 =<juk,jük,uk,ük,> Tt2 =<játok,itek> Tt3 =<ják,ik> Múlt, kij, alanyi Me1= Me2= Me3= Mt1= Mt2= Mt3= Múlt, kij. tárgyas
Feltételes alanyi
Felszólító alanyi
Feltételes, tárgyas
Felszólító, tárgyas
TMe1= TMe2= TMe3= TMt1= TMt2= TMt3= Fe1 = Fe2 = Fe3 = Ft1 = Ft2 = Ft3 = Pe1 =<jak,jek,ak,ek> Pe2 =<jál,jél,ál,él,j,> Pe3 =<jon,jen,jön,on,en,ön,ék> Pt1 =<junk,jünk,unk,ünk> Pt2 =<jatok,jetek,atok,etek> Pt3 =<janak,jenek,anak,enek> TFe1 = TFe2 = TFe3 = TFt1 = TFt2 = TFt3 = TPe1 =<jam,jem,am,em> TPe2 =<jad,jed,ad,ed> TPe3 =<ja,je,a,e> TPt1 =<juk,jük,uk,ük> TPt2 =<játok,jétek,átok,étek> TPt3 =<ják,jék,ák,ék>
A második személy〈 tárgyra utaló ragok (pl. szeretlek)
16
Igenévképz⊕ ⊕k: Melléknévi ig.
Határozói ig.
Ie1 IMe1 IFe1 IPe1
= = = =<jalak,jelek,alak,elek>
MIF MIA MIB
=<ó,⊕> = =
HIN INF
= =
F⊕ ⊕névi igenév személyragos alakjai: INRe1=<nom,nem,nöm,anom,enem,önöm> INRe2=<nod,ned,nöd,anod,ened,önöd> INRe3= INRt1= INRt2=<notok,netek,nötök,anotok,enetek,önötök> INRt3= Melléknévjelek és -ragok: (FF)+MN+(FOK) (FF)+MN+(FOK)+(PS)+(POS)+CAS (FF)+MN+(FOK)+(PL)+(POS)+CAS F⊕ ⊕névjelek és -ragok: FN+(PL)+(POSS)+CAS FN+(PS)+(POSS)+CAS
Ahol: többes szám birt. jel
PL POS
= =<é,éi>
birt. szem rag.
PSe1=<m,am,em,om,öm> PSe2= PSe3= PSt1= PSt2= PSt3= birt több. birt. PSe1i= PSe2i= PSe3i= PSt1i= PSt2i= PSt3i= esetragok
CAS: NOM=<0> FOR= TEM= CAU=<ért> TER= DAT= SUB=
17 DEL= INE= ELA= ILL= ADE= ABL= INS= SOC=<stul,stül> FAC= ALL= SUP= ACC= Melléknévfokozás FF
= FOK =
Képz⊕k, amelyeket esetenként - amikor a t⊕tárban nincs meg a képzett szó - felismerünk: F⊕nevek után: BELI = FFOSZ = EK = <ék> COL = <ság, ség> IKEP = DES = MIGY = SKEP = <s, as, os, es, ös> UKEP = <ú, 〈, jú, j〈> FI = FAK = <ít> Igék után: MUV = GYAK = HA = VISSZ = <ód, ⊕d> IFOSZ = IF = <ás,és> Melléknevek után: MN+FOK+KIEM KIEM = ESS =