´ AR ´ adatb´azis felhaszn´al´asa a Sz´oszablya projektben A SZOT Kornai Andr´as K´ezirat, v0.95, 2003. okt. 16.
0.
Bevezet´ es
´ AR ´ adatb´ B´ar a SZOT azis kutat´ asi c´elokra m´ar k´et ´evtizede el´erhet˝o (a SZTAKI-ban 1984-ben volt a bemutat´oja), a teljes anyag minden korl´ atoz´ as n´elk¨ uli nyilv´anoss´agra hozatal´ara csak most, a Sz´oszablya projekt honlapj´an http://www.szoszablya.hu ker¨ ulhet sor, mivel h´ usz ´evvel ezel˝ott a f´ajlm´eretek m´eg nem engedt´ek meg a sz´elesk¨or˝ u ´ hozz´af´er´est. Eredetileg az Eltet˝ o L´ aszl´ o´ altal a SZTAKI-ban kifejlesztett assembler alap´ u adatb´azis-kezel˝ o (r´eszletesen ´ ismerteti Eltet˝ o 1985) tette lehet˝ ov´e, hogy az anyagban keresni tudjunk, most k¨ ul¨on figyelmet ford´ıtottunk arra, hogy mindent a Unix h´ej ´ altal k´ın´ alt eszk¨ oz¨ okkel, k¨ ul¨on¨osen a grep, awk, sed, perl programcsal´addal k¨onnyen kezelhet˝o form´aba konvert´ aljunk. Miut´ an a 8-bites karakterek sokszor m´eg ma is zavart okoznak, mindent meghagytunk az akkor haszn´ alt 7-bites form´ aban, ahol ´ekezetek helyett az 1-3 sz´amokat haszn´aljuk (Pr´osz´eky 1985). Moore t¨orv´eny´enek h´ala ma m´ ar az eg´esz anyag, mintegy 40MB, minden neh´ezs´eg n´elk¨ ul feldolgozhat´o ak´ar ´atlagos szem´elyi sz´am´ıt´og´epen is. H´ usz ´eve a magyar sz´ ok´eszletr˝ ol m´eg csup´an k´et nagyobbnak mondhat´o sz´am´ıt´og´epes feldolgoz´ as k´esz¨ ult: a ´ AR ´ rendszer magj´ SZOT at e kett˝ o egyes´ıt´ese adja (Kornai 1986). Az els˝o, a Papp Ferenc f´ele a tergo sz´ot´ar (a tov´abbiakban V´egSz, ld. Papp 1969a) alapj´at k´epez˝o u ´n. Debreceni Thesaurus, nemcsak u ´tt¨or˝o munka volt, hanem egyben kulcsot ad a hagyom´ anyos magyar lexikogr´afia eredm´enyeinek a digit´alis korszakba val´o ´atment´es´ehez is, ´ ´ hiszen a V´egSz az Ertelmez˝ o Sz´ ot´ ar (ErtSz) kis h´ıj´an hatvanezer c´ımszav´an alapult (b´ar Papp ´es munkat´arsai ezekhez m´eg sz´amos igen fontos k´ odot adtak hozz´ a, a sz´ok´eszletet egyes durva sajt´ohib´ak jav´ıt´as´at´ol eltekintve adottnak vett´ek). A m´asodik, a F¨ uredi–Kelemen-f´ele gyakoris´agi sz´ot´ar (a tov´abbiakban GyakSz, ld. F¨ uredi – Kelemen 1988) mintegy f´elmilli´ o sz¨ ovegszavas mint´ an alapult, ebb˝ol sajnos a tulajdonnevek m´ar kiker¨ ultek mire az anyag a SZTAKI g´ep´ere ker¨ ult, ´ıgy 487 ezer sz¨ ovegsz´ o (91 ezer k¨ ul¨onb¨oz˝o sz´oalak), mintegy 42 ezer lemma ´allt rendelkez´es¨ unkre. Az´ota term´eszetesen sokkal nagyobb sz´ amit´og´epes lexikogr´afiai munk´ak is elkezd˝odtek: ezek k¨oz¨ ul k¨ ul¨ on kiemelj¨ uk a Nyelvtudom´ anyi Int´ezetben Pajzs J´ ulia vezet´es´evel zajl´o nagysz´ot´ari projektet (ld. http://www.nytud.hu/ril/lexi/honlap/honlap/osztaly/aho.htm) ´es a V´aradi Tam´as vezet´es´evel ugyanott k´esz¨ ul˝o digit´alis korpuszt (ld. http://www.nytud.hu/oszt/korpusz). Kornai 2001-ben k´esz´ıtett egy j´oval nagyobb (4.5 milli´o weblapon, t¨obb milli´ ard sz¨ ovegsz´ on alapul´ o) gyakoris´agi felm´er´est, amelyet a kutat´ast t´amogat´o Axelero Internet sz´ıves enged´ely´evel most szint´en nyilv´ anoss´ agra hozunk a Pilot0 k¨onyvt´arban, ´es term´eszetesen ebbe a sorba tartozik a Sz´oszablya projekt is, amely terveink szerint mintegy ¨otmilli´ard szavas mint´an alapul majd: ez ut´obbit itt most a Web0 korpusszal illusztr´ aljuk. Az egyes anyagok f˝obb jellemz˝oit mutatja az al´abbi t´abl´azat: V´egSz GyakSz Pilot0 Web0 sz¨ ovegsz´ o NA-1 487 k 1.26 g 196 m sz´ oalak NA-2 91k k 31.1 m 4.4 m lemma 58 k 42 k NA-3 611 k 1A. t´ abl´ azat: a cikkben t´argyalt anyagok f˝obb jellemz˝oi Jogos a k´erd´es, hogyha egyszer a GyakSz anyag´an´al h´arom nagys´agrenddel nagyobb felm´er´esek is el´erhet˝ok (´es a ´ AR ´ k¨ozelj¨ov˝oben v´ arhat´ o a n´egy nagys´ agrenddel nagyobb Magyar Webkorpusz), akkor ugyan mi ´ertelme van a SZOT nyilv´anoss´agra hozatal´ anak, a tudom´ anyt¨ ort´eneti ´erdekess´eg? B´ar nincs kiz´arva, hogy az anyag ilyen szempontb´ol is ´erdekes lehet m´eg a magyarorsz´ agi sz´ am´ıt´og´epes nyelv´eszet t¨ort´enet´et kutat´oknak, a szerz˝o ennek meg´ıt´el´es´ere nyilv´an nem hivatott, ´es nem is c´elja a tudom´anyt¨ort´eneti vizsg´al´od´ as. ´ AR-ban ´ Az ebben a cikkben adott v´ alasz h´ arom r´eszb˝ol ´all. Az els˝o r´eszben egyfajta OLVASS.EL-t adunk a SZOT megtal´alhat´o sz´ amos olyan (pl. etimol´ogiai) inform´aci´or´ol, amelyek a k´es˝obbi, nagyobb felm´er´esekb˝ol hi´anyoznak, teh´at k¨ozz´et´etel¨ uk mindenk´eppen indokolt. A m´asodik r´eszben ¨osszehasonl´ıtjuk a k¨ ul¨onb¨oz˝o, most nyilv´anoss´agra 1
ker¨ ul˝o anyagok szerkeszt´esi elveit: mint l´ atni fogjuk, a metaadatok elt´er˝o volta miatt az adatok (teh´at a fenti t´abl´azat oszlopai) nem vethet˝ oek mechanikusan ¨ ossze, ami m´ar ¨onmag´aban is el´eg ok a nyers adatok k¨ozz´et´etel´ere. V´eg¨ ul a harmadik r´eszben t´ argyaljuk azokat a m´ odszereket, k¨ ul¨on¨ osen Zipf ´es Herdan t¨orv´enyeit, melyekkel a t´abl´azat NA ´ AR ´ j´oval nagyobb, a Pilot0 pedig j´oval (nincs adat) elemeit meg lehet becs¨ ulni: mint ebb˝ol kider¨ ul, val´oj´aban a SZOT kisebb, mint amekkor´ anak az 1A. t´ abl´ azat alapj´an l´atszik. Cikk¨ unk magja a harmadik r´esz, amelyben nemcsak bevezetj¨ uk az olvas´ot a modern sz´am´ıt´og´epes nyelv´eszetben k¨ozponti szerepet bet¨ olt˝ o statisztikai modellek inform´aci´oelm´eleti alapelveibe, hanem ezeket az elveket a gyakorlatban, ´ AR ´ ´es a t¨obbi anyag nyilv´anoss´agra hozatal´at konkr´et numerikus becsl´esekre is felhaszn´ aljuk. V´egs˝o soron a SZOT nemcsak a tudom´ anyos etika elemi reproduk´alhat´os´agi k¨ovetelm´enye teszi sz¨ uks´egess´e (Marshall 2003), hanem a statisztikai m´ odszer alapjai is: a nyelv t´enyeinek vizsg´ alat´ahoz nemcsak nagy ´es egyre nagyobb mint´akra van sz¨ uks´eg, hanem arra is, hogy ezek egym´ ast´ ol f¨ uggetlenek legyenek, hiszen az eredm´enyek alkalmazhat´os´ag´at csak ez ´ AR ´ teljes nyilv´ garant´ alhatja. A SZOT anoss´ agra ker¨ ul´ese biztos´ıtja, hogy mostant´ol az adatb´azis ne csak a Sz´oszablya projektet, hanem ´ altal´ aban a magyar sz´ am´ıt´og´epes nyelv´eszet eg´esz´et robusztusabb´a, elm´eletileg ´es gyakorlatilag megalapozottabb´ a tehesse.
1.
´ AR ´ mez˝ A SZOT or˝ ol mez˝ ore
´ ´ AR-on ´ Az Eltet˝ o L´aszl´ o´ altal kifejlesztett rendszer (amelyet a SZOT 1984 v´eg´en demonstr´altunk) klasszikus, rekordorient´alt adatb´ azis-kezel˝ o, amelyben minden sz´o (vagy lemma) mellett fix hossz´ us´ag´ u, fix ´ertelmez´es˝ u mez˝ok ´allnak. Eredetileg maga a sz´ o is egy 31 karakter hossz´ u mez˝ot foglalt le, a mai rendszerben m´ar term´eszetesen nincs sz¨ uks´eg arra hogy a mez˝ oket sz´ ok¨ oz¨ okkel t¨olts¨ uk fel csak az´ert hogy minden sz´o pontosan 31 karaktert foglaljon el. P´eldak´eppen ´ alljon itt n´eh´ any rekord a sz´ ot´ ar f´ajlb´ol: kedv n CVcvcc F8 O9 T01 A04 PL00 PO04 J03 kedvel v CVcvccvc F7 S78 O9 D1 Gt VY01 IK2 J03 kedves a CVcvccvc F7 O9 D1 T01 HA03 AD04 BB04 J09 FK032 SZF20 kedves a CVcvccvc F8 kedves n CVcvccvc F7 O9 D1 T01 A03 PL04 PO04 J09 FK032 kedvez v CVcvccvc F0 O9 D1 G00504 VY18 IK2 J03 kedvez´ es n CVcvccvcvvc F0 S78 O9 D1 T01 A03 PL04 PO04 kedvezm´ eny n CVcvccvccvvc F4 ¨ O D1 T01 A03 PL04 PO04 J02 kedvezm´ enyes a CVcvccvccvvcvc F0 ¨ O D1 T01 HA00 AD07 BB03 J02 kedvez} o a CVcvccvcvv F6 O9 D1 T01 HA00 AD99 BB02 J02 kedvez} otlen a CVcvccvcvvccvc F3 O9 D1 T01 HA00 AD09 BB03 A sz´ot (illetve sz´ oalakot, ld. lentebb) k¨ ovet˝ o els˝o mez˝o a sz´ ofaj: ez egy egybet˝ us k´od, amely az al´abbi ´ert´ekeket veheti fel (baloldalt tal´ alhat´ o az adott kateg´ oria sz´ amoss´aga): 41255 n f} on´ ev 17200 v ige 10619 a mell´ ekn´ ev 1519 d hat´ aroz´ osz´ o 482 u sz´ amn´ ev 340 e indulatsz´ o 305 s n´ evm´ as 180 c k¨ ot} osz´ o 90 p n´ evut´ o 57 i igek¨ ot} o 27 k k¨ ot¨ ott morf´ ema 2 l latin prefix 1 r mutat´ osz´ o ´ Ezek a sz´ofajk´ odok az ErtSz t´ avolr´ ol sem vitathatatlan sz´ofajbesorol´asait t¨ ukr¨ozik – ahol ezek nem egyeznek meg a GyakSz ´altal adott besorol´ assal, ott ez ut´obbiakat is felt¨ untetj¨ uk. A k´odok jelent´es´et a rendszer eredetileg FU
2
f´ajlokban t´arolta (ld. Kornai 1986), ezeket most a Kulcs k¨onyvt´arban ´erheti el az olvas´o: az SZF k´odok (teh´at a GyakSz sz´ofajk´ odjai) Kulcs/gyak.faj alatt tal´alhat´ok meg. A sz´ofajt k¨oveti a szavak m´ assalhangz´ o–mag´anhangz´o szerkezet´et mutat´o u ´n. CV-csontv´az (angolul CV skeleton, ld. pl. Clements – Keyser 1983). Egy c´elprogram seg´ıts´eg´evel minden sz´ohoz (p´eld´aul illemtan´ ar) u ´j, a CVcsontv´ azat tartalmaz´ o mez˝ ot rendelt¨ unk (a p´eld´aban vccvccvcvvc). A program term´eszetesen nem tudott minden digr´afr´ol, trigr´ afr´ ol, illetve hangz´ okies´esr˝ ol automatikusan d¨onteni, ´ıgy a v´ ızsug´ ar t´ıpus´ u szavak CV-csontv´az´at k´ezzel kellett kijav´ıtani. (Az ¨ osszes k´etes esetet, teh´at mintegy 15 ezer sz´ot ´at kellett n´ezni, de szerencs´ere csak n´eh´any sz´azat kellett kijav´ıtani.) A CV-csontv´ azat k¨ oveti a F(rekvencia) mez˝o, amely a GyakSz r´eszletes adataib´ol csak egysz´amjegy˝ u kivonatot ad: ez 0 akkor, ha a sz´ o nem szerepel a GyakSz-ban; 1 akkor, ha 1 gyakoris´aggal szerepel; 2 akkor, ha t¨obbsz¨or szerepel, de ugyanabban az anyagr´eszben; 3 akkor, ha k´etszer szerepel, de k¨ ul¨onb¨oz˝o anyagr´eszekben; 4 akkor, ha a statisztikai eszk¨oz¨okkel kialak´ıtott u ´n. m´ odos´ıtott gyakoris´ag (Fmod, ld. lentebb) 0 ´es 2 k¨oz´e esik; 5 akkor, ha Fmod 2 ´es 4 k¨oz´e esik; 6 akkor, ha Fmod 4 ´es 8 k¨ oz´e esik; 7 akkor, ha Fmod 8 ´es 20 k¨oz´e esik, v´eg¨ ul 8 akkor, ha Fmod legal´abb 20 (ld. Kulcs/sz´ ot´ ar.f). Mint a cikk m´ asodik r´esz´eben l´atni fogjuk, az F-ben t´arolt inform´aci´o a gyakoris´agr´ol ugyan durva, viszont megb´ızhat´ o t´ aj´ekoztat´ ast ad. Az adatok statisztikai term´eszete miatt t¨obb tizedesjegyre csak a fels˝o z´on´aban l´ev˝o (F=8,9) szavak gyakoris´ ag´ at lett volna ´erdemes megadni, ezek az adatok (melyek k´ezi haszn´alatra a GyakSz-ban eddig is el´erhet˝ ok voltak), most digit´alis form´ aban is el´erhet˝ov´e v´alnak. Ezut´an O kulccsal az eredet (a B´ arczi-f´ele Sz´ofejt˝o Sz´ot´ar alapj´an, ld. Kulcs/sz´ ot´ ar.ere), majd a V´egSz ´ paradigmak´odjai k¨ ovetkeznek. Atvett¨ unk a GyakSz-b´ol n´eh´ any olyan k´odot is (SZF, T-k´od, homon´ımia-k´ od, ut´obbiakr´ol ld. Kulcs/gyak.t, Kulcs/gyak.hom), amelyek az egyes homon´ım´ak azonos´ıt´as´at k¨onny´ıtik meg: tekintve, hogy a homon´ım´ak beoszt´ asa a k´et anyagban nem ugyanolyan, ezek ¨osszef´es¨ ul´ese csak k´ezi munk´aval, esetr˝ol esetre haladva ´ AR ´ kib˝ov¨ lenne megval´os´ıthat´ o. Ezek a rekordok teh´ at val´oj´aban nem jelentenek u ´j sz´ocikkeket, a SZOT ul´ese (jelenleg durv´an 72 ezer rekordb´ ol ´ all) teh´ at azoknak a szavaknak k¨ osz¨onhet˝o, amelyeket a V´egSz nem tartalmazott, ellenben a GyakSz igen. A GyakSz ´es a V´egSz egyes´ıt´ese azzal k¨ ovetkezm´ennyel j´ art, hogy a CV-csontv´az kiv´etel´evel egyik szempont szerint sem teljes a k´odol´ as: azok mell˝ ol a szavak mell˝ol, amelyek csak a GyakSz-b´ol sz´armaznak, hi´anyzik a debreceni k´od, ´es azok mell˝ol, amelyek a GyakSz f´elmilli´ o szavas kiindul´ o anyag´aban nem szerepeltek (a gyakoris´agi k´od 0) – ez persze m´ar ¨onmag´ aban el´ arul valamit az ilyen szavak gyakoris´ag´ar´ol. Term´eszetesen ezeket a hi´anyokat j´ o lenne megsz¨ untetni, ez azonban meglehet˝osen ¨osszetett feladat. Tekintve, hogy ´ AR ´ kutat´ a SZOT asi c´elokra jelen ´ allapot´ aban is j´ol felhaszn´alhat´o, a teljess´egre t¨or´es ¨onmag´aban nem indokolhatja a p´otl´olagos k´ odol´ assal j´ ar´ o hatalmas munk´at: c´elszer˝ ubbnek t˝ unik az anyagot a HunSpell nyilv´anosan el´erhet˝o ´ AR ´ is) meglehet˝osen r´eszletes inform´aci´ot tartalmaz a t˝ot´ar´aval harmoniz´ alni, hiszen a V´egSz (´es ´ıgy a SZOT hangrendr˝ol, egyes toldal´ekokr´ ol, ´es paradigma-oszt´alyba sorol´ast is ad (b´ar az anyag inhomog´en, ´es ezt csak fokozta az ´ az elj´ar´as, hogy a t˝ oszavak eset´en a k´ odol´ ok ´ atvett´ek az ErtSz min˝os´ıt´eseit, de ¨osszet´etelek eset´en saj´at nyelv´erz´ek¨ ukre hagyatkoztak ld. V´egSz 20–21. o.).
2.
Az adatgy˝ ujt´ es m´ odszerei
A sz¨ovegmint´akon alapul´ o nyelvi feldolgoz´ as sor´an h´arom munkaf´azist k¨ ul¨on´ıthet¨ unk el: az els˝o a sz¨ ovegszavakra bont´as avagy tokeniz´ al´ as, majd a sz¨ ovegszavak gyakoris´agi elemz´ese; a m´asodik a morfol´ogiai alap´ u lemmatiz´ al´ as, majd a sz´ot¨ovek gyakoris´ agi elemz´ese; a harmadik az egy´ertelm˝ us´ıt´es avagy dizambigu´ al´ as, majd az egyes sz´ojelent´esek gyakoris´agi elemz´ese.
2.1.
Sz¨ ovegszavakra bont´ as
B´ar a nagyobb l´ept´ek˝ u sz´ ot´ arak hagyom´ anyosan sz¨ovegmint´akon, pontosabban az ezekb˝ol k´esz¨ ult c´edulakatal´oguson alapulnak, a sz¨ ovegszavakra bont´ as mint probl´ema fel sem szokott mer¨ ulni, mert azt a k´ezi el˝ofeldolgoz´as sor´an a lexikogr´afusok – mintegy ´eszrev´etlen¨ ul – elv´egzik. Eg´eszen m´as a helyzet a g´epi alap´ u feldolgoz´asn´al, hiszen a g´epnek semmi nem mag´at´ol ´ertet˝od˝o, sem az, hogy a nagy- ´es kisbet˝ us alakokat egybeejtj¨ uk-e (Aztat, AZTAT ´es aztat h´any sz¨ovegsz´o-t´ıpusba ker¨ ul), sem az, hogy mit kezd¨ unk az ilyen normat´ıv szempontb´ ol esetleg szubstandard alakokkal. ´ Altal´ aban m´ ar a sz¨ ovegszavakra bont´ as sor´an meg kell hozni sz´amos olyan d¨ont´est, ami a k´es˝obbi f´azisok eredm´eny´et nagyban befoly´ asolja, ezeket itt csak c´ımszavakban soroljuk fel, durv´an az algoritmiz´al´as n¨ovekv˝o neh´ezs´ege szerinti sorrendben.
3
2.1.1.
Hat´ arol´ o elemek
A tipikus hat´arol´ o elem a sz´ ok¨ oz (whitespace), de az algoritmusnak gondoskodnia kell a sz´ok¨oz-´ert´ek˝ u egy´eb elemek, pl. a sorhagy´o sz´ ok¨ oz (HTML-ben ), a tabul´atorjel (horizontal tab), a soremel´es (carriage return, linefeed, vertical tab), a cseng˝ ojel (visible bell) ´es egy´eb nyomdai ´ert´ekkel nem rendelkez˝o (non-printing) karaktereknek, illetve ezek sorozatainak helyes kezel´es´er˝ ol is. 2.1.2.
Elhagyand´ o elemek
A szavak elej´en ´es v´eg´en gyakran tal´ alunk olyan ´ır´asjeleket, mint a pont, vessz˝o, k¨ ul¨onf´ele z´ar´ojelek, melyeket sz´ot´ark´esz´ıt´esi szempontb´ ol nem szok´ as a sz´o r´esz´enek tekinteni. Ezek t¨orl´ese nem mindig trivi´alis feladat, hiszen esetenk´ent m´egis a sz´ o r´esz´enek sz´ am´ıtanak, pl. Compute! magazin, Dr. Schwartz. K¨ ul¨on kiemelj¨ uk a k¨ot˝ojeleket, amelyek sz´o v´eg´en az elv´ alaszt´ ast jel¨ olik, vagyis tiszt´an nyomdatechnikai okokb´ol jelennek meg, ´es ´ıgy a tokeniz´al´asn´al elhagyand´oak. A kis´es nagybet˝ u jelleg˝ u esetek ez al´ ol kiv´etelt jelentenek, hiszen a k¨ot˝ojel itt ¨osszet´etelb˝ol t¨or¨olt elemet jelz˝o konvenci´o, nem pedig a *kis´es sz´ o elv´ alaszt´ as´ ara szolg´ al. 2.1.3.
Karakternormaliz´ al´ as
A modern (pl. a vil´ agh´ al´ on tal´ alhat´ o) sz¨ ovegekben igen sokf´ele karakter-k´odol´as tal´alhat´o, ezek k¨oz¨ ul k¨ ul¨ on kiemelj¨ uk az ISO 8859-1 ´es 8859-2 szabv´ anyokat, ´es a HTML-entit´asok rendszer´et. P´eld´aul az ˝ o bet˝ u (´es egyben teljes jog´ u sz´o) lek´odolhat´o mint okt´ alis 221, 265 ´es mint HTML ô is. Ide tartozik a fontosabb sz¨ovegszerkeszt˝o programok, pl. a TeX/LaTeX ´ altal haszn´ alatos k´ odok helyes kezel´ese is ´es a h´al´ozaton sajnos rendk´ıv¨ ul elterjedt ekezettelen irasmod is. 2.1.4.
Nagy- ´ es kisbet˝ u
Gyakorlati szempontb´ ol n´egyf´ele mint´ azatot szok´as elk¨ ul¨on´ıteni: MINDNAGY, Elejenagy, mindkicsi ´es MindenEgy´ eb. B´ar minden (sz´ amokat ´es ´ır´ asjeleket m´ ar nem tartalmaz´o) sz´oalak minden el˝ofordul´asa beleilleszthet˝o ezen mint´ak valamelyik´ebe, algoritmikus szempontb´ ol k¨ ul¨on neh´ezs´eget okoz a kontraszt´ıv ´es egy´eb hangs´ ulyt jelz˝ o nagybet˝ uk (erre MOST vigy´ azz) elk¨ ul¨ on´ıt´ese a bet˝ usz´ ok inherens nagybet˝ uit˝ol (FTC), tov´abb´a a mondat eleji ´es a mondaton bel¨ uli nagybet˝ uhaszn´ alat megk¨ ul¨ onb¨ oztet´ese. 2.1.5.
Egybe, k¨ ul¨ on, k¨ ot˝ ojellel, elszak´ıtva
Az akad´emiai helyes´ır´ asi szab´ alyok pedag´ ogiai szempontb´ol igen kudarcos r´esz´et alkotj´ak az egybe- ´es k¨ ul¨on´ır´as szab´alyai: az empirikus anyag igen komoly sz´ammal tartalmaz olyan alakokat, ahol a szab´alyt a szerz˝ o nem tartja be. K¨ ul¨on megeml´ıtj¨ uk az elv´ al´ o igek¨ ot˝ ok (nem pistul bele lehet˝oleg belepistul nem pedig pistul bele alatt gy˝ ujtend˝o) ´es a klitikumok (t´enyleg pesti-e) eset´et. 2.3.-ban kit´er¨ unk a konvencion´alisan sz´ok¨ozzel ´ırt, de val´oj´aban ¨ osszetett sz´ot (fr´azist) alkot´o alakokra is (Magyar Nemzeti Bank, 12 pont). 2.1.6.
Gyakoris´ ag
A fenti k´erd´esek kezel´es´ere kialak´ıtott szerkeszt˝oi elvek ismerete n´elk¨ ul m´eg azok a l´atsz´olagosan trivi´alis k´erd´esek sem v´alaszolhat´ok meg ´ertelmesen, hogy h´ any sz´o(alak)b´ol ´all´ o sz¨ovegminta alapj´an k´esz¨ ult a vizsg´alat, h´ any k¨ ul¨onf´ele alakot tal´altunk, ´es ezeknek mi a gyakoris´aga (ld. fentebb az 1A. t´abl´azatban). A V´egSz ´es a GyakSz elveit j´ol le´ırja ezek bevezet˝ oje, a Magyar Webkorpusz eset´en pedig a fenti feladatokat v´egz˝o algoritmusok (is) nyilv´anosan, forr´ask´oddal egy¨ utt el´erhet˝ oek lesznek, ´ıgy itt csak a m´ar eml´ıtett Pilot0 felm´er´es tokeniz´al´asi h´atter´et t´argyaljuk. A Northern Light keres˝ omotor bels˝ o fel´ep´ıt´es´eb˝ol ad´od´o okok miatt a sz¨ovegszavak mind nagybet˝ us alakra vannak konvert´ alva, ezekben 8-bites magyar ´ekezetek nincsenek (az ´ekezetek 123-k´oddal szerepelnek), a sz¨ovegszavak elv´alaszt´asa agressz´ıv (a k¨ ot˝ojel kiz´ ar´ olag sz´o elej´en, az el˝ojeles sz´amokban megengedett), az ´ır´asjelek t¨orl´ese (a sz´amokban megengedett tizedespont kiv´etel´evel) hasonl´oan. Tokeniz´al´asra ker¨ ulnek viszont az URL-ek, ´ıgy lett a leggyakoribb sz´ oalak a HU, hiszen ez minden vizsg´alt lapn´al legal´abb egyszer el˝ofordul. K¨ ul¨on hangs´ ulyozzuk, hogy ebben a felm´er´esben nem egyszer˝ uen sz´ogyakoris´agot (text frequency, TF), hanem dokumentumgyakoris´agot (document frequency, DF) m´ert¨ unk, teh´ at ha egy alak mellett a 3 sz´am szerepel, az nem azt jelenti hogy 1.26 milli´ard sz´ob´ol h´aromszor fordult el˝ o, hanem azt, hogy 3 olyan weblap volt ahol el˝ofordult, esetleg laponk´ent t¨obbsz¨or is. Illusztr´aci´o gyan´ ant ´ alljon itt a Pilot0 gyakoris´agi lista els˝ o 10 eleme (z´ar´ojelben a GyakSz megfelel˝o adatai): 4
HU 4516525 (0) A 3479829 (42655) LISTS 3411785 (0) DIRECTORIES 3406266 (0) AZ 2432533 (13168) ´ ES 2210614 (8759) IS 1959822 (4426) 1 1774391 (0) E 1633924 (164) NEM 1631758 (8624) Mint l´athat´ o, az adatok mechanikus ¨ osszevet´es´ere nincs m´od, de annyi az´ert m´ar a fentiekb˝ol is kik¨ovetkeztethet˝o hogy a Pilot0 hi´ aba alapul t¨ obb ezerszer nagyobb mint´an, mint a GyakSz, adatai ilyen form´aban m´eg nem alkalmasak a GyakSz eredm´enyeinek finom´ıt´ as´ ara. Az ehhez sz¨ uks´eges statisztikai m´odszerek alapjaival a 3.2. r´eszben foglalkozunk.
2.2.
T¨ ovez´ es
A sz´ot˝ o (illetve ¨ osszet´etelek eset´en sz´ ot¨ ovek) megtal´al´asa igen komplex nyelv´eszeti feladat, melynek neh´ezs´egeit itt nem is t´argyaljuk, hiszen a morfol´ ogiai szakirodalom nagy r´esze valamilyen form´aban ezzel foglalkozik. Sz´am´ıt´og´epes lexikogr´afiai szempontb´ ol azonban e neh´ezs´egek igen nagy r´esze kiker¨ ulhet˝o az al´abb felsorolt ´altal´anos elvek k¨ovetkezetes ´erv´enyes´ıt´es´evel. 2.2.1.
Ragok ´ es jelek igen, k´ epz˝ ok ´ es ¨ osszet´ etelek nem
A le´ır´o nyelv´eszet hagyom´ anyosan k´et affixum-kateg´ori´at k¨ ul¨onb¨oztet meg: deriv´ aci´ os ´es inflexi´ os elemeket; a magyar nyelv´eszeti hagyom´ any ezzel szemben h´ arom kateg´ori´aval dolgozik: k´epz˝ o, jel, rag. Mint Antal (1977) kimutatta, a k´epz˝ok deriv´aci´ os, a ragok ´es jelek inflexi´ os elemek, ´ıgy a tov´abbiakban a jeleket mi is a ragokhoz soroljuk. K¨ ul¨on¨osen az inform´ aci´ o-visszakeres´es (IV, angolul information retrieval, IR) szempontj´ab´ol fontos, hogy azokat a sz´oalakokat, amelyek ugyanazt jelentik, csup´ an mondatbeli szerep¨ uk m´as, ugyanahhoz a lemm´ahoz soroljuk (utaz´ asra, utaz´ ashoz, utaz´ asok stb.) ´es megford´ıtva, olyan sz´oalakokat, amelyek nem jelentik ugyanazt (´ ut, utas, utaz´ as) ne soroljunk egy lemma al´ a, m´eg akkor sem, ha teljesen vil´agos, hogy egy t˝ob˝ol k´epezz¨ uk ˝oket. 2.2.2.
¨ Osszetett szavak nem
Inform´aci´o-visszakeres´esi kontextusban mag´at´ol ´ertet˝od˝o, hogy aki talajgyalut keres annak a talajjal vagy a gyalukkal foglalkoz´o weblapok nem lesznek k¨ ul¨ on¨ osebben ´erdekesek, ´ıgy az ¨osszetett szavak elemz´ese, b´ar tiszt´an morfol´ogiai szempontb´ol teljesen indokolt, az IV szempontj´ab´ol egyenesen k´aros. Kiv´etelt jelentenek az elv´ al´ o elemek (a magyarban teh´at els˝osorban az igek¨ot˝ok), hiszen ezekn´el a k¨ ul¨onb¨oz˝o sz´oalakok (pl. beleh´ uzott, h´ uzz´ al bele) val´ oban ugyanazt a jelent´est ‘beleh´ uz, iparkodik’ hordozz´ak. 2.2.3.
Produkt´ıv, ´ atl´ athat´ o, (sz´ ofajv´ alt´ o) k´ epz˝ ok igen
Kiv´etelt jelentenek 2.2.1. al´ ol azok a k´epz˝ ok, amelyek az al´abbi h´arom, egym´ast t¨obbnyire t´amogat´o krit´eriumnak mind megfelelnek: legyenek produkt´ıvak (diakr´on szempontb´ol a sz´ot´arban gyakran t˝ unjenek fel u ´j ilyen elemek), legyenek ´atl´athat´ oak (a k´epzett sz´ o jelent´ese a t˝o ´es a k´epz˝o jelent´es´eb˝ol el˝ore megj´osolhat´o legyen), ´es a bemen˝o t˝o sz´ofaj´at v´altoztass´ ak meg. Vil´ agosan ide tartozik pl. a mell´ekn´evb˝ol f˝onevet k´epz˝o -s´ ag/s´eg vagy a f˝on´evb˝ol mell´eknevet k´epz˝ o -as/es/os/¨ os. Term´eszetesen ezekn´el is vigy´azni kell a t´ ulelemz´es elker¨ ul´es´ere, teh´at f¨ urd˝ oszob´ as annyi mint ‘f¨ urd˝ oszob´ aval rendelkez˝ o’ de h´ azas tipikusan ‘h´azass´agban ´el˝o’ nem pedig ‘h´azzal rendelkez˝o’, teh´at a lexikaliz´al´odott forma el´er´es´en´el az elemz´est abba kell hagyni. A Sz´oszablya projekt keret´eben fejlesztett HunStem t¨ovez˝oben a felhaszn´al´o ´altal be´all´ıthat´o, hogy mely k´epz˝oket v´alasztunk le. A -s´ ag ´es -os mellett ezek alap´ertelmez´esben a k¨ovetkez˝oek: -i, -j´ u, -nyi (ha k¨ ul¨on mell´ekn´evk´ent nincs felv´eve); -gat (csak az l, z, zik, szt v´eg˝ u ig´ekn´el, ahol a gyakor´ıt´o mozzanat a jelent´est csak igen kev´ess´e befoly´asolja); -cska kicsiny´ıt˝o (b´ ar ez nem sz´ ofajv´ alt´ o); a mell´ekn´evi igen´evi alakok -and´ o, -ott, -´ o; v´eg¨ ul a felt´eteles -hat. Viszont tulajdonnevek eset´eben akkor is elt´ avol´ıtjuk az -i k´epz˝ot ha a k´epzett alak szerepel a sz´ot´arban: budapesti → Budapest.
5
2.2.4.
Gyakoris´ ag
Hogy a Sz´oszably´ aban mi ker¨ ul egy (morfol´ ogiai alap´ u) lemm´aba azt a fentebb ¨osszefoglalt t¨ovez´esi elvek defini´alj´ak. Miut´an ezek nem esnek teljesen egybe sem a magyar lexikogr´afiai hagyom´anyt h˝ uen k¨ovet˝o V´egSz, sem a saj´at j´oval kifinomultabb logik´ aj´ at k¨ ovet˝ o GyakSz lemmatiz´al´asi elveivel, az 1A. t´abl´azat oszlopainak ¨osszehasonl´ıt´as´at ez is nehez´ıti, b´ar nem teszi lehetetlenn´e. A Pilot0 eset´en a f˝o probl´em´at val´oj´aban nem a tokeniz´al´asi ´es lemmatiz´al´asi konvenci´ok elt´er˝ o volta, de m´eg csak nem is a gyakoris´agi sz´amadatok elt´er˝o jellege (TF helyett DF) jelenti, hanem a kiindul´o adatok tiszt´ıtatlan” volta. ” ´ AR ´ eg´esze) nyilv´anval´oan magyar nyelv˝ M´ıg a V´egSz ´es a GyakSz (teh´ at a SZOT u anyagokon alapszik, a Pilot0 mint´aban a .hu tartom´ anyba tartoz´ o angol, n´emet, ´es m´as nyelv˝ u lapok szabadon keverednek a magyar nyelv˝ uekkel. Mint k´es˝obbi vizsg´ alataink mutatj´ ak, a teljes minta jelent˝os r´esz´et ezek adj´ak! Az al´abbiakban k¨oz¨olj¨ uk az 1A. t´abl´azat egy korrig´alt v´ altozat´ at, melynek els˝ o oszlop´aban megel˝olegez¨ unk n´eh´any olyan becsl´est, melyet csak a 3. r´eszben indoklunk majd meg r´eszletesen. A Pilot0 oszlopban szerepl˝o ¨osszes´ıt´esb˝ol kivett¨ uk azokat az alakokat, melyeket a Sz´oszablya keret´eben kifejlesztett hunspell helyes´ır´as-ellen˝ orz˝o (N´emeth 2003) nem fogad el. V´egSz GyakSz Pilot0 Web0 sz¨ ovegsz´ o 2.7 m 487 k 786 m 191 m sz´ oalak 140 k 91k k 2.9 m 4.4 m lemma 58 k 42 k 702 k 611 m 1B. t´ abl´ azat: a f˝obb jellemz˝ok korrig´alt (becs¨ ult) ´ert´ekei
2.3.
Egy´ ertelm˝ us´ıt´ es
A sz´ot´ ark´esz´ıt´es fontos l´ep´ese az egyes sz´ ojelent´esek (pl. nap1 ‘´egitest’ ´es nap2 ‘id˝oszak’) megk¨ ul¨onb¨oztet´ese. A probl´ema neh´ezs´eg´enek legfontosabbb m´er˝ osz´ama az el´agaz´asi fok, mely durv´an azt m´eri, hogy egy sz´oalakhoz atlagban h´any ´ertelem tartozik: ez a GyakSz alapj´an megk¨ozel´ıt˝oleg 1.17 (teh´at a legt¨obb sz´o egy´ertelm˝ ´ u). A lentebb r´eszletesen t´argyalt technikai okok miatt (ld. 3.1. r´esz) nem is ezt a sz´amot ´erdemes haszn´alni, hanem ennek 2 alap´ u logaritmus´at, amely a t¨ obb´ertelm˝ us´eget bitekben m´eri: a GyakSz alapj´an ez a mennyis´eg 0.23 bit. Az egy´ertelm˝ us´ıt´es feladat´at logikailag k´et r´eszre bonthatjuk: sz´ofaj szerinti, illetve jelent´es szerinti egy´ertelm˝ us´ıt´es. 2.3.1.
Sz´ ofaj szerinti egy´ ertelm˝ us´ıt´ es
Igen gyakran a szavak (mind a sz´ ot¨ ovek mind a sz´oalakok) k¨ ul¨onf´ele ´ertelmei m´ar a sz´ofaj alapj´an elk¨ ul¨on¨ ulnek: pl. az ´eg1 ‘´egbolt’ f˝ on´ev, az ´eg2 t˝ uz em´eszti’ pedig ige. A morfol´ogiai elemz´es a sz´ofaj felismer´es´ehez igen gyakran jelent˝os seg´ıts´eget ad: ´egek nyilv´ an ige, egek f˝on´ev. B´ar vannak sz´ep sz´ammal a morfol´ogia alapj´an eld¨onthetetlen esetek (pl. legyek t¨ obbes sz´ am´ u f˝ on´ev vagy egyes sz´am els˝o szem´ely˝ u ige), ha a rendelkez´es¨ unkre ´all egy sz´ofajbesorol´o algoritmus (angolul part of speech tagger), akkor ezzel a t¨obb´ertelm˝ us´egek igen nagy r´esz´et kezelni tudjuk: a GyakSz anyag´an m´erve 0.20 bitet. 2.3.2.
Egy sz´ ofajon bel¨ uli egy´ ertelm˝ us´ıt´ es
Kiindul´o p´eld´ank (nap1 ‘´egitest’ ´es nap2 ‘id˝oszak’) egy´ertelm˝ us´ıt´es´ehez a sz´ofaji inform´aci´o nem elegend˝o, itt ezen t´ ulmen˝ o kontextusra van sz¨ uks´eg. Az esetek egy r´esz´eben ezt a k¨ozvetlen sz¨ovegk¨ornyezet megadja (sikeres nap nyilv´an ‘id˝oszak’ m´ıg f˝ osorozatbeli nap nyilv´ an ‘´egitest’), de m´ashol m´eg ez sem el´eg, pl. milli´ o nap. Ahol a megold´as olyan sok szintaktikai, szemantikai, s˝ ot gyakran pragmatikai v´altoz´o f¨ uggv´enye, mint ebben a probl´em´ aban, ´es ahol e v´altoz´ok pontos mibenl´ete nem is ismert, ott el˝ot´erbe ker¨ ul a statisztikai elemz´es. Ennek alapj´an a sz´ofajon bel¨ uli t¨obb´ertelm˝ us´egek el´ agaz´ asi foka j´ oval kisebb, a GyakSz anyag´an mind¨ossze 1.02: a biteket ¨osszevetve teh´at azt mondhatjuk, hogy a morfol´ ogiai elemz´es az egy´ertelm˝ us´ıt´es probl´em´aj´at t¨obb mint 87%-ban megoldja.
3.
A gyakoris´ ag kvantitat´ıv t¨ orv´ enyei
3.1.-ben bevezet¨ unk egy meglep˝ oen egyszer˝ u val´osz´ın˝ us´egsz´am´ıt´asi modellt, amely a tov´abbi t´argyal´as alapja lesz. (A r´eszletes levezet´eseket elhagyjuk, mindv´egig csup´an a k¨ oz´episkol´as matematikaanyag ismeret´et t´etelezz¨ uk fel.) A hagyom´anyos nyelv´eszet legfontosabb adatstrukt´ ur´aja a sz´ot´ar, a modern nyelv´eszet´e pedig a rejtett Markov modell (Hidden Markov Model, HMM): 3.2.-ben bemutatjuk, hogy a matematikai modell hogyan alkalmazhat´o nem csak
6
e k´et alapvet˝o strukt´ ur´ ara, hanem a sz´ am´ıt´og´epes nyelv´eszetnek sz´amos olyan – l´atsz´olag m´as ter¨ ulethez tartoz´o – algoritmus´ara is, mint a 2.1.-ben t´ argyalt szavakra bont´as (tokeniz´al´as), a 2.2.-ben t´argyalt morfol´ogiai elemz´es (lemmatiz´al´as), ´es a 2.3.-ban eml´ıtett sz´ ofajmeghat´aroz´as. A gyakoris´ag Zipf ´es Herdan nev´ehez kapcsol´od´o t¨orv´enyeit a 3.3. szakaszban t´ argyaljuk.
3.1.
Az egyszer˝ u (unigram) modell
Legyen egy nagy csomag k´ arty´ ank, melyeknek el˝olapj´an nemcsak a szok´asos szimb´olumok (makk hetes, pikk d´ama) hanem egy absztrakt Fi (1 ≤ i ≤ K) szimb´ olumk´eszlet b´armely eleme szerepelhet. A k´arty´ak h´atlapj´ar´ ol egy m´asik (diszjunkt) Bj (1 ≤ j ≤ L) szimb´ olumrendszer elemei olvashat´ok le – nem k¨otj¨ uk ki sem azt, hogy Fi ´es Bi k¨oz¨ott egy-egy megfeleltet´es legyen, sem azt hogy a csomagban minden Fi , Bj feliratoz´as´ u k´artya el˝oforduljon. Ahhoz sem ragaszkodunk, hogy az Fi (vagy Bj ) val´osz´ın˝ us´egei egyenletesek legyenek, viszont ahhoz igen, hogy amikor a csomagb´ol u ´jabb ´es u ´jabb lapokat h´ uzunk (elemi Bernoulli k´ıs´erlet), akkor ezt a lap visszat´etel´evel ´es a csomag u ´jb´oli megkever´essel k¨ oss¨ uk ¨ossze (az´ert hogy minden lap ugyanabb´ol az eloszl´asb´ol vett v´eletlen minta legyen). Lehet c´elunk p´eld´ aul egy olyan magyar-angol sz´ot´ar, amely (i) nem csak lemm´akat, hanem sz´oalakokat is tartalmaz, tov´abb´a (ii) nemcsak alternat´ıv ford´ıt´ asokat, hanem ezek gyakoris´ag´at is megadja. Ebben az esetben a k´arty´ak l´athat´o oldal´an (el˝ olapj´ an) a magyar szavakat, h´atlapjukon pedig ezek angol ford´ıt´asait t¨ untetj¨ uk fel, u ¨gyelve arra, hogy a magyar szavak a magyar, az angol szavak pedig az angol sz¨ovegben vett el˝ofordul´asi gyakoris´agukkal legyenek szerepeltetve. K¨ ul¨ on eml´ıt´esre ´erdemes az a standard elj´ ar´as, hogy a sz´ot´arat mindk´et oldalon kieg´esz´ıtj¨ uk egy ismeretlen” F0 , illetve B0 sz´ oval: erre r´eszben az ad okot, hogy a sz´ot´arb´ol mind a magyar mind az angol oldalr´ol ” term´eszetesen hi´ anyoznak elemek, r´eszben pedig az, hogy a ford´ıt´asok list´aja sem mindig teljes. A k´et eloszl´ as, teh´ at P (Fi ) ´es P (Bj ) empirikusan vizsg´alhat´o. P´eld´aul megm´erhetj¨ uk hogy az angol oldal entr´opi´aja (az inform´aci´o tov´ abb´ıt´ as´ ahoz ´ atlagban sz¨ uks´eges bitek sz´ ama) H(F ) ∼ 12.7, m´ıg a magyar oldal´e H(B) ∼ 15.4. Az ehhez sz¨ uks´eges adatok ak´ ar egynyelv˝ u gyakoris´agi sz´ot´arakb´ol, illetve egynyelv˝ u korpuszokb´ol is k¨onnyen beszerezhet˝ok/sz´amolh az al´abbi m´odon. Az inform´ aci´ oelm´elet alapvet˝o defin´ıci´oja szerint a P (Fi ) val´osz´ın˝ us´egekkel adott eloszl´ as entr´opi´aja X HF = − P (Fi ) log(P (Fi )), (1) i
ahol szok´as szerint 2 alap´ u logaritmust ´es a 0 log(0) = 0 konvenci´ot haszn´aljuk. B´ar a P (Fi ) sz´amokat pontosan nem ismerj¨ uk, rendelkez´esre ´ all ezeknek a korpuszban m´ert (korrig´alatlan) becsl´ese: ha a korpusz az Fi alakot ni -szer tartalmazza, ´es ¨ osszesen N sz¨ ovegsz´ ob´ ol ´ all, akkor ez P (Fi ) = ni /N . Ezt a maximum likelihood becsl´est alkalmazva p´eld´aul a GyakSz alapj´ an a magyar sz´eppr´oza entr´opi´aja 12.26-nak ad´odik. A Shannon-f´ele k´odol´asi t´etel alapj´an teh´at a sz´eppr´ oza minden egyes sz¨ ovegszava ´atlagban ennyi bit inform´aci´ot tov´abb´ıt. Ez a sz´am l´enyegesen kisebb a fentebb id´ezett 15.4 bitn´el, amit els˝ osorban azzal magyar´azhatunk, hogy a k´epletet a tulajdonnevek elhagy´asa (teh´at a korpusz inform´ aci´ otartalm´ anak jelent˝ os cs¨okkent´ese) ut´an alkalmaztuk.
3.2.
A morfol´ ogiai elemz´ es mint unigram modell
Legyenek a k´arty´ ak el˝ olapj´ an a sz´ oalakok, h´ atoldal´an pedig a sz´ot¨ovek (sz´ot´ari alakok, lemmafejek). Az (1) k´eplettel kisz´amolhatjuk nemcsak a sz¨ ovegszavak alapj´an vett HF , hanem a lemm´ak alapj´an vett HB entr´opi´at is: ez a GyakSz eset´eben 10.88 bitnek ad´ odik. A kett˝o k¨ ul¨onbs´ege ´eppen azt fejezi ki, hogy a morfol´ogiai alap´ u lemmatiz´al´as mennyit mos el a r´eszletekb˝ol: mint l´ athat´ o az eredm´eny meglehet˝osen alacsony, mind¨ossze 1.38 bit, ami azt jelzi hogy egy sz´ot˝o (lemma) ´ atlagban 21.38 = 2.6 alakban fordul el˝o. B´ar az egy´ertelm˝ us´ıt´es hat´as´at (amely mintegy 0.2 bitre tehet˝ o) ebben a sz´ am´ıt´ asban elhanyagoltuk (ld. lentebb), a 2.6-os szorz´o l´enyegesen jobban kifejezi a morfol´ogiai rendszer bonyolults´ ag´ at, mint az egy lemm´ahoz tartoz´o sz¨ovegszavak (gyakoris´aggal s´ ulyozott) ´atlaga, amely ugyanezen a korpuszon csak 2.19. Ezeket az ´ert´ekeket felhaszn´alhatjuk az 1A. t´abl´azat els˝o oszlop´ ab´ol a V´egSz hi´anyz´o sz´oalaksz´ am´ anak (NA-2) megbecsl´es´ere: mint l´atni fogjuk az alak/lemma ar´any seg´ıts´eg´evel alulr´ol (127 k alak), a re´alisabb el´ agaz´ asi sz´ am seg´ıts´eg´evel pedig fel¨ ulr˝ol becsl¨ unk (151 k alak) meg: az 1B. t´abl´azatban szerepl˝o 140 k egyszer˝ uen ezek k¨ oz´ep´ert´eke. Miut´an a dolog az inform´ aci´ oelm´eletben j´ aratlanoknak szokatlannak t˝ unhet, tekints¨ uk egy egyszer˝ u p´eldanyelvet, amelyben csup´ an 4 sz´ o van: lesz, lett, meleg, ´es hideg, ´es tegy¨ uk fel, hogy a korpusz v´egig meleg lett, illetve hideg lesz ´es hasonl´o mondatokb´ ol ´all. Miut´ an a n´egy sz´o mindegyike egyforma, 1/4-es val´osz´ın˝ us´eggel szerepel, az eloszl´as entr´opi´aja HF pontosan 2 bit. A morfol´ ogiai elemz´es sor´an 3 t¨ovet k¨ ul¨on´ıt¨ unk el: len- a lesz, lett alakok t¨ove, a meleg, hideg szavak pedig ¨ onmaguk t¨ ovei. Mivel az igei t˝o k´etszer olyan val´osz´ın˝ u, mint a mell´ekn´eviek, a k´arty´ak
7
h´atlapj´anak val´ osz´ın˝ us´egi eloszl´ asa (0.5, 0.25, 0.25), ennek entr´opi´aja pedig 1.5 bit. A morfol´ogiai elemz´es hozad´eka k¨ozvetlen¨ ul kisz´ amolhat´ o, hiszen a meleg, hideg t¨ovek ismeret´eben a pontos alak meghat´aroz´as´ahoz 0 bit, a len´ ismeret´eben pedig 1 bit inform´ aci´ ora van sz¨ uks´eg, ezek val´osz´ın˝ us´egekkel s´ ulyozott ´atlaga teh´at 0.5 bit. Altal´ aban, ha a k´arty´ak h´ atlapja ´es el˝ olapja k¨ ozti asszoci´aci´o az egyik ir´anyban egy´ertelm˝ u (mint p´eld´ankban, ahol minden alakhoz egy´ertelm˝ u t˝ o tartozik), akkor az asszoci´aci´o HF |B inform´aci´otartalm´at egyszer˝ uen az el˝olapi ´es a h´atlapi entr´opi´ak k¨ ul¨onbs´egek´ent nyerj¨ uk, p´eld´ ankban 0.5=2-1.5. Az ebb˝ol sz´amolt el´agaz´asi 2H el´agaz´asi fok p´eld´ankban 20.5 = 1.41, m´ıg a kvantitat´ıv nyelv´eszetben gyakran m´ert alak/lemma ar´any enn´el a p´eld´an´al 4/3=1.33. B´ar ez j´oval egyszer˝ ubben sz´ amolhat´ o (ez´ert igen hasznos) m´er˝osz´am, mint a p´elda is mutatja, a val´os morfol´ogiai komplexit´asra csup´an als´o becsl´est ad, ´es annak sem t´ ul pontosat. ¨ Osszefoglalva az eddigieket, minden olyan rendszer, ahol val´osz´ın˝ us´egi s´ ullyal szerepl˝o bemenethez (el˝olapi szimb´olumok) val´osz´ın˝ us´egi s´ ullyal rendelkez˝ o kimenetet (h´atlapi szimb´ olumok) rendel¨ unk, felfoghat´o u ´gy, mint egy P (Fi , Bj ) (k´artya)modell. Ezen val´ osz´ın˝ us´egekb˝ ol m´ ar kisz´amolhat´o az el˝olapok eloszl´as´anak HF , a h´atlapok eloszl´as´anak HB , ´es az eg´esz rendszernek HF,B entr´ opi´ aja. Gyakorlati szempontb´ol k¨ ul¨on¨osen fontosak a P (Bj |Fi ) felt´eteles eloszl´asok ´es P (Fi |Bj ) du´ alisaik, hiszen ezek mondj´ ak meg, hogy milyen gyakoris´aggal ford´ıtjuk a nap sz´ot, mint sun, illetve, mint day, vagy, hogy milyen val´ osz´ın˝ us´eggel rendelj¨ uk p´eld´aul a kapunk sz´oalakhoz a kapu, illetve a kap t¨ovet. A GyakSz anyag´ aban a megtesz t˝ onek a legnagyobb az entr´opi´aja (78 alak, 5.00 bit), ezt k¨oveti az elvisz (108 alak, 4.94 bit). Mint ez a p´elda is mutatja, az alaktani v´altozatoss´agot sokkal jobban jellemzik a felt´eteles entr´opi´ak, mint az alakok lesz´ amol´ asa: a megtesz 25.00 = 32.1, az elvisz pedig 24.95 = 30.7 el´agaz´asi fokkal fordul csak el˝o. Ha a r¨ogz´ıtett Fi -hez tartoz´o P (Bj |Fi ) eloszl´as entr´opi´aj´at HFi -vel jel¨olj¨ uk, akkor az asszoci´aci´o eg´esz´enek HB|F entr´opi´aj´at ezek s´ ulyozott ´ atlagai adj´ ak meg, k´epletben: X HB|F = P (Fi )HFi . (2) i
A gyakorlati sz´ am´ıt´ asokat nagyban megk¨ onny´ıti, hogy ´erv´enyesek az al´abbi ¨osszef¨ ugg´esek: HF + HB|F = HB + HF |B = HF,B .
(3)
Hangs´ ulyozzuk, hogy az asszoci´ aci´ o nem szimmetrikus: pl. annak az ismeret´eb˝ol, hogy a magyar sz´oalakok entr´opi´aja 15.4 m´ıg az angolok´e csak 12.7, egy´ altal´ an nem k¨ovetkezik, hogy a ford´ıt´as feladat´anak komplexit´ asa ´eppen a k¨ ul¨onbs´eg (2.7 bit/sz´ o) lenne. (Val´ oj´ aban a magyar-angol rendszer teljes entr´opi´aja csak p´arhuzamos sz¨ovegen m´erhet˝o, ´es ha ez mondjuk 20 bit, akkor a magyar-angol ford´ıt´as 20-15.4=4.6, az angol-magyar ford´ıt´as pedig 20-12.7 teh´at 7.3 bit megad´ as´ at ig´enyli.) Ha az ilyen val´ osz´ın˝ us´egi inform´ aci´ okkal kieg´esz´ıtett sz´ot´arat invert´aljuk, teh´at a k´arty´akat h´atulr´ol n´ezz¨ uk (a P (Bj |Fi ) ismeret´eben P (Fi |Bj ) trivi´ alisan sz´ amolhat´o), akkor m´ar el is jutottunk a rejtett Markov modellek (Hidden Markov Model, HMM) alapjaihoz. Az ilyen modellekben a k´arty´ak h´atoldal´ara a modell rejtett ´allapota, a k´arty´ak elej´ere pedig a modell felsz´ıni megfigyel´esei (angolul observables) vannak fel´ırva: az unigram HMM ezt m´eg az egyes allapotok k¨ozti ´ ´ atmenetval´ osz´ın˝ us´egek t´ abl´ aj´aval (´es esetleg bemeneti val´osz´ın˝ us´egekkel) eg´esz´ıti ki. Az unigram HMM teh´at a gyakoris´ agi sz´ot´ ar fogalm´ anak ´altal´anos´ıt´asa. Az n-gram HMM m´eg enn´el is tov´abb l´ep, vagyis az allapotok kimeneti val´ ´ osz´ın˝ us´egeit nem csak a k¨ozvetlen¨ ul megel˝oz˝o, hanem az el˝oz˝o n ´allapot mibenl´et´et˝ol teszi f¨ ugg˝ov´e.
3.3.
Zipf ´ es Herdan t¨ orv´ enyei
Ha a szavakat gyakoris´ ag szerint cs¨ okken˝ o sorrendbe ´all´ıtjuk, Zipf klasszikus t¨orv´enye azt mondja ki, hogy az i-edik sz´o gyakoris´aga, pi ar´ anyos 1/iB -vel, ahol B 1-n´el valamivel nagyobb konstans (Mandelbrot 1959), teh´at log(pi ) log(i)-nek −B ir´anytangens˝ u line´ aris f¨ uggv´enye lesz. Ezt mutatja az al´abbi ´abra:
8
12 "gyaksz" "pilot0" "web0" 10
8
6
4
2
0 4
6
8
10
12
14
16
18
1. ´ abra: Zipf t¨orv´enye A normaliz´alatlan Zipf-g¨ orb´ek tengelymetszetei a korpusz m´eret´evel egy¨ utt n˝onek, teh´at az egyenesek feljebb ´es feljebb cs´ usz´asa term´eszetes. Ahol viszont az ir´anytangens jelent˝os megv´altoz´as´at l´atjuk ott joggal gyanakodhatunk struktur´alis okokra (ld. lentebb). Zipf t¨orv´eny´evel l´enyeg´eben ekvivalens Herdan (1960) t¨orv´enye, mely szerint egy N elem˝ u mint´aban N C k¨ ul¨onb¨oz˝o elemet tal´alunk: a Herdan-t¨ orv´eny C konstansa ´eppen a Zipf-t¨orv´eny B konstans´anak reciproka (Kornai 1999). Val´oj´aban B nem becs¨ ulhet˝ o j´ ol a fentihez hasonl´o g¨orb´ek line´aris regresszi´oj´aval, sokkal c´elszer˝ ubb a becsl´est Herdan t¨orv´eny´en kereszt¨ ul v´egezni: ha a minta m´erete N , ´es ezek k¨ozt V k¨ ul¨onb¨oz˝o van, akkor C = log(V )/log(N ), B = ¨ log(N )/log(V ). Ugyelni kell arra, hogy a mint´ak n¨ovekedt´evel a becs¨ ult ´ert´ek C-hez fel¨ ulr˝ol, ´es viszonylag csak lassan konverg´ al, ez´ert kis mint´ ak C-re csak fels˝o, B-re pedig csak als´o becsl´est adnak (Mandelbrot 1961). Ebb˝ol a szempontb´ol a f´elmilli´ o szavas GyakSz m´eg nagyon kicsi, az ebb˝ol sz´am´ıtott C = 0.87 ´ert´ek ez´ert csak durva fels˝o becsl´esnek tekinthet˝ o. Miut´an a Pilot0 DF ´es nem TF alap´ u, ez´ert C-re als´o becsl´est ad: ez 0.74. Ism´et a kett˝o k¨oz´ep´ert´ek´et v´eve, C = 0.8cal nyerj¨ uk az 1A. t´ abl´ azat els˝ o oszlop´ ab´ ol a V´egSz hi´anyz´o tokensz´am´anak (NA-1) becsl´es´et: 140 k sz´oalakhoz durv´an 2.7 m sz´ot kell ´ atn´ezni. Azt ´ all´ıtjuk teh´ at, hogy ha vesz¨ unk egy ekkora random mint´at a magyarb´ol, akkor ebben lesz legal´abb 140 k k¨ ul¨ onb¨ oz˝ o sz´ oalak, ´es ezek morfol´ogiai elemz´es ut´an legal´abb 58 k lemm´aba fognak tartozni. (A jelent´es szerinti egy´ertelm˝ us´ıt´es hat´ asa, mint fentebb l´attuk, elhanyagolhat´o, de ez term´eszetesen a lemmasz´am n¨oveked´es´et, nem pedig cs¨ okken´es´et hozn´ a.) Azt viszont nem ´ all´ıtjuk, hogy ez az elj´ ar´as ´eppen a V´egSz sz´okincs´et, teh´at a magyar sz´ot´ark´esz´ıt´esi hagyom´any szerint legfontosabbnak ´ıt´elt szavakat eredm´enyezn´e! Arra term´eszetesen nem adhat´o becsl´es, hogy pontosan ezeket a szavakat mennyi anyag ´ atn´ez´ese ut´an tal´ aln´ ank meg – lehet hogy soha, mert egyik vagy m´asik sz´o a sz´ot´ arban csak a ´ c´edulakatal´ogusban ejtett hiba miatt szerepel. Ertelmesebb az a k´erd´es, hogy mekkora mint´aban garant´alhatjuk hogy a V´egSz 58 k szav´ anak mondjuk 95% m´ ar szerepelni fog: ennek okai a V´egSz ´es a GyakSz anyag´anak szisztematikus ¨osszevet´es´eb˝ol m´ ar vil´ agosak. Fenti konzervat´ıv becsl´eseink alapj´ an egy GyakSz-m´eret˝ u (487 k szavas) mint´aban durv´an 4870000.8 = 36000 sz´oalakot v´arhatunk, melyek durv´ an 14 k lemm´aba sorolhat´ok, teh´at a V´egSz anyag´anak java, 58-14=44 k lemma, a GyakSz-ban eleve nem szerepelhetne. B´ ar a GyakSz enn´el j´oval nagyobb v´altozatoss´agot mutat, l´ev´en tudatosan v´alogatott (nem-random) minta, a k´et anyag ¨osszevet´es´eb˝ol az der¨ ul ki, hogy mintegy 36 k lemma, teh´at a V´egSz anyag´anak t¨obbs´ege, val´ oban nem szerepel a GyakSz-ban. Ha ezen szavak list´aj´at megvizsg´aljuk a j´oval nagyobb Pilot0 felm´er´esben abban a rem´enyben, hogy a f´elmilli´o szavas GyakSz hi´anyoss´agait a t¨obb milli´ard szavas web majd bep´otolja, akkor arra a megh¨ okkent˝ o eredm´enyre jutunk, hogy ez t´avolr´ol sincs ´ıgy. A t¨obb ezerszeres korpuszn¨oveked´es a hi´anyz´o” 36 k lemm´ anak mind¨ ossze negyed´et p´otolja, vagyis ¨osszesen 9 k olyan lemm´at tal´alunk, amelyik a GyakSz” ban m´eg nem, de a Pilot0-ban m´ar szerepel.
9
A marad´ek k´ezi ´ atn´ez´ese r¨ ogt¨ on vil´ agoss´a teszi, hogy mi az elt´er´es oka: a V´egSz tele van olyan lemm´akkal, mint ´gfa vagy ´ a afium, melyekr˝ ol a kort´ ars magyar besz´el˝o legfeljebb hom´alyosan tudja, hogy mit jelentenek. Am´ıg a ´ T¨or¨ok Afium Ellen Val´ o Orvoss´ ag” ki nem ker¨ ul a vil´agh´al´ora, addig az ´afiumot a Pilot0 ´es Web0 jelleg˝ u felm´er´esek ” egyszer˝ uen nem fogj´ ak megtal´ alni. Ami teh´at a V´egSz er´enye, a magyar lexikogr´afiai hagyom´any k¨ ovet´ese, az a egyben h´atr´anya is: a hagyom´ any diakr´ on alap´ u. Miut´an a kort´ars nyelv sz´am´ara ez csak egy a vizsg´ alhat´o nyelvi r´etegek k¨oz¨ ul, ´es a sz´ ot´ ark´esz´ıt´esben nincs is kit¨ untetett szerepe, az els˝osorban a kort´ars nyelvhaszn´alat fel´e fordul´o nyelvtechnol´ogiai alkalmaz´ asok nem fogadhatj´ak be kritika n´elk¨ ul a hagyom´anyos magyar lexikogr´afia eredm´enyeit. ´ AR ´ sz´amos Ezeknek digit´alis form´ aban val´ o k¨ ozz´et´etele azonban mindenk´eppen hasznos, nemcsak az´ert, mert a SZOT olyan adatot ´es szempontot tartalmaz amelyek a korszer˝ ubb ´es nagyobb felm´er´esekb˝ol hi´anyoznak, hanem az´ert is, mert a statisztikai elemz´est ezen adatok bevon´asa j´oval robusztusabb´a teszi.
K¨ osz¨ onetnyilv´ an´ıt´ as Ez u ´ton is szeretn´ek k¨ osz¨ onetet mondani F¨ uredi Mih´alynak ´es Pr´osz´eky G´abornak, K¨onyves-T´oth K´alm´annak, aki ´ AR ´ a V´egSz lyukk´ arty´ ait megmentette az eny´eszett˝ol, ´es mindazoknak, akik annak idej´en az SZTAKI-ban a SZOT ´ anak, D´et´ari Gy¨orgynek, Eltet˝ ´ l´etrehoz´as´ahoz hozz´ aj´ arultak: Bod´ o Ev´ o L´aszl´onak, T´oth P´eternek, ´es V´amos Tibornak. Az anyag nyilv´ anoss´ agra hozatal´ at az Axelero Internet hathat´os t´amogat´asa tette lehet˝ov´e, e munka meg´ır´as´at pedig az IHM IKTA programja. K¨ ul¨ on k¨ osz¨ onet a Sz´oszablya projekt r´esztvev˝oinek, akik a cikk meg´ır´as´ahoz sz´amos hasznos tan´accsal, anyaggal, ´es ´eszrev´etellel j´arultak hozz´a.
Irodalom Antal L. 1977: Egy u ´j magyar nyelvtan fel´e. Magvet˝o, Budapest. Clements, N. – Keyser, S. 1983: CV Phonology. MIT Press, Cambridge, Mass. ´ Eltet˝ o L. 1985: Uj adatb´ aziskezel˝ o rendszer VM/CMS alatt. Inform´aci´o – Elektronika. Kornai A 1986: Sz´ ot´ ari adatb´ azis az akad´emiai nagysz´am´ıt´og´epen. MTA Nyelvtudom´anyi Int´ezet Working Papers II 1986 65–79. Kornai A. 1999: Zipf’s law outside the middle range. Proc. Sixth Meeting on Mathematics of Language, University of Central Florida, 347–356. Mandelbrot, B. 1961: On the thory of word frequencies and on related markovian models of discourse. In R. Jakobson (ed): Structure of language and its mathematical aspects. American Mathematical Society, Providence RI, 190– 219. Marshall, E. 2003: The UPSIDE of Good Behavior: Make Your Data Freely Available. Science v 299 Feb 14 p 900. Papp F. 1969a: A Magyar Nyelv Sz´ ov´egmutat´o Sz´ot´ara. Akad´emiai Kiad´o. Budapest. Pr´osz´eky G. 1985: Automatiz´ alt morfol´ ogiai elemz´es a nagysz´ot´ari munk´alatokban. K´ezirat, MTA Nyelvtudom´anyi Int´ezet
10