van eltárolva attól függően hogy DOS, Windows, Macintosh, vagy Unix PC-t használ, és megintcsak

Gépi ékezés ´s Kornai Andra

´ th Ga ´bor To

IBM Almaden Research Center

Sterrenkundig Instituut, Rijksuniversiteit Utrecht

és

és

MTA Nyelvtudom´ anyi Intézet

ELTE TTK Atomfizika Tanszék

Cikk¨ unkben a sz´ am´ıt´ ogépen t´ arolt illetve hálózaton tovább´ıtott magyar szövegekb˝ol gyakran hi´ anyz´ o ékezetek p´ otl´ as´ anak problémájával foglalkozunk. Módszer¨ unk lényege, hogy osszegy˝ ¨ ujt¨ unk minél t¨ obb helyesen ékezett szóalakot, majd az ékezettelen´ıtett és az eredeti ékezett alakok k¨ ozti kapcsolatot statisztikai feldolgozás után beép´ıtj¨ uk a programba.

0

Bevezet´ es

Az ékezetes magyar bet˝ uk (és ´ altal´ aban a latin ábécén alapuló nemzeti ábécék sajátos grafémáinak) sz´ am´ıt´ ogépes t´ arol´ asa és h´ al´ ozati tov´ abb´ıtása részben máig megoldatlan feladat. A probléma nem a nemzetk¨ ozi szabv´ anyok hi´ anya, hanem éppen ellenkez˝oleg, az egymással verseng˝o szabványok sokasága. Az ´ atlagos sz´ am´ıt´ ogépfelhaszn´ al´ o nem tudja, hogy ugyanaz a karakter, pl. a rövid ¨ o, más-más kóddal van elt´ arolva att´ ol f¨ ugg˝ oen hogy DOS, Windows, Macintosh, vagy Unix PC-t használ, és megintcsak m´ asképp az IBM illetve a t¨ obbi nagysz´ am´ıtógépen. Az átlagos felhasználó csak azt tudja, hogy k¨ ul¨ onb¨ oz˝ o rendszerek k¨ oz¨ ott az ékezetek konvertálásával és hálózati tovább´ıtásával mindig baj van. Ezért a felhaszn´ al´ ok igen nagy része ´ ovakodik attól, hogy ékezetekkel ´ırjon, k¨ ulönösen, ha a szöveget szám´ıt´ ogépes h´ al´ ozati terjesztésre sz´ anja. B´ ar ez a korszer˝ ubb gépek elterjedésével egyre inkább csökken˝ o probléma, azt is meg kell eml´ıten¨ unk, hogy a régebbi PC-k és a nagyszám´ıtógéphez kapcsolódó termin´ alok nem mindig képesek az ékezetes bet˝ uk megjelen´ıtésére, illetve billenty˝ uzet¨ uk ezek bevitelére alkalmatlan. Mindennek eredményeképp igen gyakran találkozunk olyan szövegekkel, mint az alábbi: (1) Potyka bacsit kituntettek, Pongratz Gergely liberalis tetuzott, Giczy szerint idegen kisebbseg uralkodik a kereszteny nemzeti tobbsegen, Szabo Albika Izraelbe telepitene a zsidokat. Parlament elott.

Vasarnap Jean Marie Le Pen fog szonokolni a

Gyulekezes a Koztarsasag teren. 1

Természetesen minden magyarul ´ırni-olvasni tudó ember tisztában van vele, hogy a fenti szöveg helyesen ´ıgy nézne ki: (1’) Potyka b´ acsit kit¨ untett´ ek, Pongr´ atz Gergely liber´ alis tet˝uz¨ ott, Giczy szerint idegen kisebbs´ eg uralkodik a kereszt´ eny nemzeti t¨ obbs´ egen, Szab´ o Albika Izraelbe telep´ ıten´ e a zsid´ okat. Parlament el˝ott.

Vas´ arnap Jean Marie Le Pen fog sz´ onokolni a

Gy¨ ulekez´ es a K¨ ozt´ arsas´ ag t´ eren.

Az ékezetp´ otl´ as problém´ aj´ at az tette aktuálissá, hogy az interneten egyre inkább elterjed˝o WorldWideWeb lehet˝ ové teszi az ékezetes bet˝ uk megjelen´ıtését. Bevitel¨ uk változatlanul nem problémamentes, pl. az ´ es sz´ ot a WWW alapj´ at képez˝ o HTML nyelvben a és kifejezéssel kell lekódolni, de ez csak a kézzel gépel˝ o embernek okoz nehézséget, a programoknak nem. Cikk¨ unk els˝ o részében a rendszer elvi alapjait ´ırjuk le. Az algoritmussal a második részben, a rendszer korl´ ataival és b˝ ov´ıtési lehet˝ oségeivel pedig a harmadik részben foglalkozunk.

1

Sz´ ot´ ari keres´ es

M´ıg az emberi nyelvi kompetenci´ at az ékezetek visszapótlása szinte meg sem terheli, addig a szám´ıt´ ogépes nyelvészeti algoritmusok sz´ am´ ara, legalábbis ezek jelenlegi fejlettségi szintjén, a feladat 100%-os vagy azt megk¨ ozel´ıt˝ o megold´ asa egyszer˝ uen lehetetlen. Vannak persze olyan esetek, amikor az ékezetes alak az ékezettelenb˝ ol egyértelm˝ uen visszaáll´ıtható: pl. az ékezettelen bacsi összes lehetséges ékezetes v´ altozata bacsi,bacs´ ı,b´ acsi,b´ acs´ ı köz¨ ul egy és csak egy szerepel a magyar nyelv szókészletében (melybe nemcsak a sz´ ot´ ari alakot, hanem az összes morfológialiag jólformált szóalakot is beleértj¨ uk). De az esetek nagy részében a feladat ennél jóval bonyolultabb, pl. a kituntettek szó helyes ékezését csup´ an a t´ argy hat´ arozotts´ ag´ anak vizsg´ alat´ aval (kit¨ untettek egy embert vs. kit¨ untett´ ek az embert) allap´ıthatjuk meg, ez pedig a mondat egészének szintaktikai elemzését igényli. S˝ot olyan példát sem ´ nehéz tal´ alnunk, ahol az elemzés t´ agabb értelemben vett szemantikai tényez˝oket, a világra vonatkoz´ o enciklopédikus tud´ ast is sz´ am´ıt´ asba kellene vegyen, ´ıgy pl. az ékezettelen baba szónál: (2a) Neh´ ez sz¨ ul´ es volt.

A b´ aba teljesen kimer¨ ult.

(2b) Neh´ ez sz¨ ul´ es volt.

A baba teljesen elk´ ek¨ ult.

B´ ar vannak olyan mesterséges intelligencia adatbázisok, amelyek éppen az ilyen “mindennapi” tud´ ast igyekeznek modellezni (Lenat 1995), de gondoljuk csak végig, mi minden kellene ahhoz, hogy ezt a tud´ ast a probléma megold´ as´ ahoz hasznos´ıtani tudjuk. Kellene els˝osorban egy olyan logikai következtet˝ orendszer (inference engine) amely axiómák t´ızmillióit képes áttekinteni – a jelenlegi szakért˝ oi

2

rendszerek legfeljebb t´ızezer axi´ oma mellett hatékonyak. Kellene továbbá egy olyan tudásreprezentácios (knowledge representation) formalizmus, amelynek formuláival a természetes nyelvek összes relev´ ´ ans jelentés´ arnyalata megk¨ ul¨ onb¨ oztethet˝ o. Miután a (2a-b)-hez hasonló ékezetproblémát minden szemantikai problém´ ahoz k¨ onny˝ u konstru´ alni, elvben az ékezetek visszapótlásához egy teljes szemantikára van sz¨ ukség, annak felhasz´ al´ as´ ahoz pedig egy teljes szintaxisra. A magyar (és általában az agglutinat´ıv nyelvek) szintaktikai elemzése morfol´ ogiai elemzést is el˝ofeltételez, és bár igaz, hogy erre viszonylag hatékony algoritmusaink vannak, de ezek mind felhasználják az ékezetekben rejl˝o információt, teh´ at erre a célra u ´jra kellene ´ırni a morfol´ ogiai elemz˝oket is. Miut´ an a probléma teljes megold´ asa el˝ofeltételezi a számitógépes nyelvészet és a mesterséges intelligencia-kutat´ as sz´ amos, évtizedek ´ ota nyitott problémájának megoldását, ezért nem szimbólum-kezel˝ o szab´ alyokan alapul´ o, hanem statisztikai megoldást keres¨ unk. Természetesen a szimbólumok és szimb´ olum-sorozatok manipul´ al´ as´ ara ´ıgy is sz¨ ukség van, de mint látni fogjuk, a rendszer ereje nem a manipul´ aci´ o logikai mélységéb˝ ol, hanem a manipulálandó adatok b˝oségéb˝ol származik. Rendszer¨ unk tehát nem a hagyom´ anyos “kemény mesterséges intelligencia” (hard AI) hanem a statisztikai alap´ u szám´ıtógépes nyelvészet ir´ anyzat´ aba tartozik. Miut´ an ez az irányzat hazánkban elég kevéssé ismert, k¨ ulön kimondjuk az ¨ osszes olyan el˝ ofeltevést is, amit a témában járatosabb olvasó esetleg triviálisnak érez.

1.1

Defin´ıci´ ok

Jel¨ olj¨ uk azt a f¨ uggvényt amely az ékezetes szövegb˝ol elhagyja az ékezeteket b-vel, b inverzét pedig C-vel. (Matematikai szemmel nézve C nem f¨ uggvény, hanem reláció.) Legyen a magyar nyelv szókincse (ékezetekkel) V . Ha G a magyar grafém´ ak halmaza G = {a, ´ a, b, ....x, y, z} (k¨ ulön grafémának szám´ıtjuk az ékezetes bet˝ uket, de a digr´ afokat és trigráfokat nem), akkor a hagyományos megközel´ıtésben V mint a G elemeib˝ ol képzett l´ ancok G∗ halmazának egy részhalmaza adott. A továbbiakban egy ékezettelen x l´ ancot unikusnak nevez¨ unk, ha C(x) ∩ V u ¨res vagy egyelem˝ u halmaz, veszélyesnek ha többelem˝ u. A bacsi teh´ at unikus, m´ıg a baba veszélyes lánc. A statisztikai elemzés els˝ o lépése az, hogy V -t nem u ´gy fogjuk fel, hogy G∗ minden egyes elemér˝ ol egy 0-1 d¨ ontést testes´ıt meg, hanem u ´gy, hogy minden egyes elem egy 0 és 1 közti valós számmal, a gyakoris´ aggal van jellemezve. K¨ ul¨ on felh´ıvjuk a figyelmet arra, hogy egyes nyelvtanilag helytelen (agrammatikus) l´ ancok szerepelhetnek pozit´ıv gyakorisággal, és hogy nyelvtanilag kifogástalan láncok is szerepelhetnek 0 gyakoris´ aggal, ha nem is a populáció egészében, de az egyes mintákban. Legyen P az egyes szavak relat´ıv gyakoris´ ag´ at (a populációban való el˝ofordulásuk valósz´ın˝ uségét) megadó G∗ → [0, 1] f¨ uggvény. P-t nem ismerj¨ uk pontosan, de értékeit a populációból vett k¨ ulönféle minták azaz korpuszok alapj´ an meg tudjuk becs¨ ulni. Péld´ aul a félmillió szavas korpuszon alapuló Magyar Nyelv Gyakoris´ agi

3

Sz´ ot´ ara (F¨ uredi-Kelemen 1989) alapj´ an az ´ es köt˝oszó gyakorisága 1.84%, m´ıg a Magyar Narancsb´ ol vett hasonl´ o méret˝ u minta alapj´ an az ´ es gyakorisága 1.65%. Mint a k¨ ovetkez˝ o részben l´ atni fogjuk, algoritmusunk alapja az, hogy a szavak ékezetes form´ ait t´ aroljuk a program mem´ ori´ aj´ aban. A veszélyes szavaknál kétféle módszert követhet¨ unk: az ´ ovatos algoritmus veszélyes szavak esetén jelzi a két- vagy többértelm˝ uséget, de nem választ az alternat´ıvák között, m´ıg a b´ ator algoritmus valamilyen kritérium alapján kiválaszt egyet, pl. a leggyakoribbat. A tároláson alapul´ o algoritmusok sikerességét el˝ ore meg tudjuk becs¨ ulni annak alapján, hogy a tárolt szavak összes´ıtett gyakoris´ aga H mekkora. Egy ´ ovatos algoritmus, amely a magyar szókincs H részét lefed˝o list´ an alapul, megk¨ ozel´ıt˝ oleg az esetek (1-H)/2 részében fog hibázni (90%-os lefedettség esetén tehát 5%-ban), mert megk¨ ozel´ıt˝ oleg a szavak fele eleve nem tartalmaz ékezetet. Tekints¨ uk most azt a b´ ator (de u ¨gyetlen) algoritmust, amely veszély esetén a lehetséges form´ ak k¨ oz¨ ul mindig az ékezettelen alakot v´ alasztja. Legyen a populációban az unikus illetve a veszélyes szavak val´ oszin˝ usége u illetve v: defin´ıci´ o szerint u + v = 1. Miután a magyarban u ≈ 0.75, v ≈ 0.25, és nagyj´ ab´ ol a szavak fele ékezettelen, ez az algoritmus a veszélyes szavak felénél fog hibázni, teh´ at legfeljebb 87.5%-os pontoss´ agot érhet el, de még ez is csak akkor lehetséges, ha a memóriában minden unikus sz´ o(alak) t´ arolva van. Mint a k¨ ovetkez˝o részben látni fogjuk, a szóalakok tárolásának els˝odleges technikai korl´ atja nem a rendelkezésre ´ alló memória mérete, hanem a tárolt szójegyzék sz¨ ukségszer˝ uen hi´ anyos volta.

2

Az algoritmus

Programunk 5 egym´ ast k¨ ovet˝ o részb˝ ol a´ll: el˝ofeldolgozás, a gyakori szavak kikeresése, a rövid szavak kikeresése, a fennmarad´ o szavak kikeresése, utófeldolgozás. Vegy¨ uk ezeket sorra.

2.1

El˝ ofeldolgoz´ as

A bej¨ ov˝ o sz¨ oveg ´ altal´ aban az ékezetek hiányán t´ ul is számos jelét viseli annak, hogy szám´ıtógépen ´ırt´ ak és h´ al´ ozaton tov´ abb´ıtott´ ak. Igen gyakoriak benne az e-mail c´ımek, pl. [email protected], amiket nem kiv´ anunk kijav´ıtani a kétségtelen¨ ul igényesebb helyes´ırást t¨ ukröz˝o Kov´ acs@Pl´ ut´ o.Hu formára, mert az ´ıly modon c´ımzett e-mail tov´ abb´ıt´ as´ ara a hálózat jelenleg még nem képes. Hasonló módon, a WWW-n igen gyakori URL kifejezések (uniform resource locators) is benn kell maradjanak az eredeti (7-bites) ASCII szabv´ anyon bel¨ ul. Az el˝ ofeldolgoz´ as teh´ at felismeri az ilyen kifejezéseket, és ezeket félreteszi. Félreteszi továbbá az ´ır´ asjeleket, a sz´ amokat, és ´ altal´ aban mindazokat a láncokat amelyek nem tartalmaznak magánhangz´ ot.

4

A fennmarad´ o l´ ancokat viszont kapcsos zárójelek közé teszi: a program további lépései már csak az ´ıly m´ odon megjel¨ olt szavakat vizsg´ alj´ ak. Ha tehát a kiinduló szöveg az alábbi: Felado : Magyar Narancs [Hungary] Temakor: Tartalom ( 97 sor ) Idopont: Tue Jul

9 09:41:18 EDT 1996 NARANCS1 #73

- - - - - - - - - - - - - - - - - - - - - - - - - - - VIII. evf. 28. szam, 1996. julius 11. ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ http://www.hungary.com/narancs/8_28/joogyula.jpg Joo Gyulat abrazolja a fenykep. Talan az o hangjat lehetett a legkevesbe hallani, harsanyak szeretunk lenni, o akkor az el˝ ofeldolgoz´ as ut´ an az al´ abbi szöveget nyerj¨ uk: {Felado} : {Magyar} {Narancs} [{Hungary}] {Temakor}: {Tartalom} ( 97 {sor} ) {Idopont}: {Tue} {Jul}

9 09:41:18 {EDT} 1996 {NARANCS}1 #73

- - - - - - - - - - - - - - - - - - - - - - - - - - - {VIII}. {evf}. 28. {szam}, 1996. {julius} 11. ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ http://www.hungary.com/narancs/8_28/{joogyula}.jpg {Joo} {Gyulat} {abrazolja} {a} {fenykep}. {Talan} {az} {o} {hangjat} {lehetett} {a} {legkevesbe} {hallani}, {harsanyak} {szeretunk} {lenni}, {o} Az el˝ ofeldolgoz´ o regul´ aris kifejezéseken alapuló igen egyszer˝ u és rendkiv¨ ul hatékony program: az UNIX k¨ ornyezetben elérhet˝ o lex elemz˝ o seg´ıtségével generált program 18000 szót (75000 karakter) dolgoz fel egy m´ asodperc alatt. Ugyanez a program a WWW alkalmazásokban igen elterjedt Perl nyelven meg´ırva h´ aromszor-négyszer lassabb (adataink egy IBM RS/6000 munkaállomásra vonatkoznak, melynek sebessége a ma ´ atlagosnak tekinthet˝ o 100MHz Pentium PC-k sebességének durván kétszerese).

2.2

A gyakori szavak

Az a program, ami nem csin´ al semmit, az esetek felében (nagyobb korpuszon lemérve 54%-ban) “sikeres”. Ha programunk semmi m´ ast nem csinálna, csak a t´ız leggyakoribb unikus szónál tenné ki az ékezeteket, teh´ at es helyett ´ es, ket helyett k´ et, stb., akkor ezzel a találati arány mintegy 3%-kal javul-

5

na. Egy némileg nagyobb, de elveiben semmivel sem bonyolultabb programunk ezt a cserét az ötezer leggyakoribb sz´ ora végzi el, ezzel a tal´ alati arány 78%-ra javul. Ennél is sokkal fontosabb hat´ as, hogy a gyakori szavak átnézésével a további programokra hárul´ o feladatok er˝ osen cs¨ okkennek. Az el˝ ofeldolgozás a szavak mintegy 8%-át vonja ki a további feldolgoz´ as al´ ol, m´ıg a gyakori szavak kikeresése ut´ an mindössze az eredeti anyag 27%-ával kell foglalkozni. A lex elemz˝ ok hatékonys´ ag´ at j´ ol mutatja, hogy az ötezer gyakori szó átnézését 12000 szó/sec sebességgel végzi, teh´ at az el˝ ofeldolgoz´ o sebességénél mindössze egy harmaddal lassabban. Perl-ben a program ismét egy h´ armas faktorral lassabb.

2.3

A r¨ ovid szavak

Algoritmusunk alapgondolat´ aval ¨ osszegyeztethet˝o lenne, ha a további szótári keresést (jelenleg mintegy 150000 sz´ oalakot t´ arolunk) is egy hasonló lex elemz˝ovel nézetnénk át. Ennek azonban határt szab az elemz˝ ok t´ arigénye: m´ıg az el˝ ofeldolgozó egészen parányi (12 kilobyte), a gyakori szavak tárigénye m´ ar két nagys´ agrenddel nagyobb (755 kilobyte), az egész szótárra kiterjed˝o hasonló program pedig t¨ obb mint 20 megabyte (MB) lenne. Miután a program egy olyan PC-n fut, melynek jelenleg összesen 32MB mem´ ori´ aja van, és az ékezetek p´ otlása csak egyike annak a számos feladatnak amit ez a gép ell´ at, mindenképpen sz¨ ukség van arra, hogy a rendszer méretét szigor´ u korlátok között tartsuk. A 150000 szavas nagysz´ ot´ arban a szavakat ezért tömör´ıtve tároljuk, olyan formában, hogy egy¨ utt is csak 1.8MB mem´ ori´ at igényeljenek. A keresés alapja a szám´ıtógéptudományból jól ismert hash-f¨ uggvények felhaszn´ al´ asa (Knuth 1988 vol 3 ch 6.4), melyr˝ol 2.4-ben még b˝ovebben ´ırunk: most csupán annyit jegyezz¨ unk meg, hogy a hash egy olyan f¨ uggvény amely minden bet˝ usorhoz egy egész számot rendel. Ha pl. az a bet˝ ut 0-val, a b-t 1-gyel, a z-t pedig 25-tel számoljuk, akkor minden szó megfeleltethet˝ o egy 26-os sz´ amrendszerben fel´ırt pozit´ıv egész számnak. Mi ezt a hash-t az ékezettelen szavak els˝ o, harmadik, és ¨ ot¨ odik bet˝ uje alapj´ an sz´ amoljuk (azért nem az els˝o három bet˝ u alapján, mert az abb´ ol nyert eloszl´ as kevésbé lenne egyenletes). Miut´ an az elj´ ar´ as csak az ¨ otbet˝ us vagy annál hosszabb láncokra alkalmazható, k¨ ulön kell foglalkoznunk a négybet˝ us vagy ann´ al r¨ ovidebb szavakkal. Ezek jelent˝os része természetesen már a gyakori szavak list´ aj´ an is szerepelt, a r¨ ovid szavak szótárában tehát csupán a fennmaradó mintegy 1400 olyan sz´ oval kell k¨ ul¨ on foglalkoznunk amely nem eleve ékezetmentes. Az ezek alapján generált program lényegében a gyakori szavakat ékez˝ o programmal megegyez˝o sebesség˝ u és tárigény˝ u. Futása után az eredeti szavak u ´jabb 2%-a ker¨ ul ki a tov´ abb vizsgálandó szavak köréb˝ol, tehát a nagyszótárban az eredeti anyag csup´ an 25%-´ at kell majd megnézni.

6

2.4

A nagysz´ ot´ ar

A nagysz´ ot´ ari keresés alapja teh´ at a hash-f¨ uggvények felhasználása: minden szóhoz egy számot rendel¨ unk, a sz´ ot´ arat pedig el˝ ore felv´ agjuk kisebb darabokra avagy cell´ akra u ´gy, hogy az azonos hash-érték˝ u szavak (és csak azok) ker¨ uljenek ugyanabba a cellába. Ahelyett, hogy a szótárban az összes szót átnéznénk, az els˝ o lépésben kisz´ amoljuk a keresett szó hash-értékét, a második lépésben pedig a szót már csak az ehhez az értékhez tartoz´ o cell´ aban keress¨ uk. A fentebb le´ırt hash seg´ıtségével minden ékezettelen alakhoz egy 0 és 17575 k¨ ozti sz´ amot rendel¨ unk. Ha a f¨ uggvény eloszlása tökéletesen egyenletes lenne, akkor a nagysz´ ot´ art 263 = 17576 darabra vágtuk volna, és az egyes darabokba átlag 150000/17576=8.53 alak esne. A val´ os´ agban persze a hash megoszlása nem tökéletesen egyenletes, egyes értékek (pl. az xxx-hez tartoz´ o 16169) soha nem fordulnak el˝o, mások viszont annál gyakrabban (a leggyakrabban mge, ¨ 1132-szer). Osszesen 7696 érték lép fel, tehát az átlagos cellaméret ≈ 19.4. ´ Erdemes megeml´ıteni, hogy az ´ atlagos cellaméret nem egyezik meg a keresések várható munkaigényével, hiszen nem mindegy, hogy a gyakran keresett szavak a nagy (tehát sok bels˝o keresést igényl˝ o) vagy a kis cell´ akba esnek. Ezért a tov´ abbiakban nem az egyes cellák méretét, hanem ezek az odaker¨ ult szavak ¨ osszgyakoris´ aga szerint s´ ulyozott átlagát, az u ´.n. v´ arhat´ ou ¨tk¨ ozéssz´ amot fogjuk tekinteni: a fentebb le´ırt (az els˝ o, harmadik, és ¨ ot¨ odik bet˝ un alapuló) séma esetén ez ≈ 147. Tehát a véletlenszer˝ uen (a sz¨ oveg gyakoris´ agi megoszl´ as´ at k¨ ovet˝ o módon) érkez˝o u ´j szavak köz¨ ul azok, amik eljutnak a nagysz´ ot´ arig (mert sem a gyakori sem a r¨ ovid szavak szótárában nem találtuk meg ˝oket) átlagban 147/2 m´ asik sz´ oval kell ¨ osszehasonl´ıtani (¨ utk¨ oztetni) ha a cellán bel¨ ul lineáris keresést alkalmazunk, illetve log(147)/ log(2) = 7.2 sz´ oval ha bin´ aris keresést alkalmazunk. Miut´ an nagysz´ ot´ ari program egyes darabjainak lemérése világosan mutatja, hogy a program fut´ asidejének jav´ at ilyen ¨ osszehasonl´ıt´ asokkal tölti el, a program gyors´ıtásának legfontosabb eszköze a v´ arhat´ ou ¨tk¨ ozéssz´ am cs¨ okkentése. Ha az eddig figyelmen k´ıv¨ ul hagyott második és negyedik bet˝ ut is besz´ amoljuk, akkor a v´ arhat´ ou ¨tk¨ ozéssz´ am lecsökken ≈ 54-re. Ennek azonban az lenne az ára, hogy a hash maxim´ alis értéke ne 17575 (263 − 1) hanem 11881376 (265 − 1) legyen, ami bináris alakban 24 bitet igényel. Technikai okokb´ ol a 24 bit (3 byte) nem el˝onyös, tehát megvizsgáltuk mi a helyzet 16 illetve 32 bit felhaszn´ al´ asa esetén. Azt tal´ altuk, hogy az 5 bet˝ ub˝ol kihozható optimumnál mindössze 10%-kal rosszabb eredmény, ≈ 59.5-¨ os u ¨tk¨ ozéssz´ am elérhet˝o már 16 bitben is, m´ıg 32 bit lehet˝ové teszi, hogy ez els˝ o¨ ot helyett az els˝ o hét bet˝ ut vegy¨ uk figyelembe, ami által a várható u ¨tközésszám ≈ 14-re csökken. ¨ Osszess´ egében teh´ at a program sz´ıvét jelent˝o keresési algoritmus az els˝o változathoz képest t´ızszeresen gyors´ıthat´ o fel ha line´ aris, és kétszeresen ha az eleve gyorsabb (de kör¨ ulményesebben programozhat´ o) bin´ aris keresést haszn´ aljuk. Szerencsés esetben a sz´ o kikeresésével a nagyszótári keresés már véget is ért: ha megtalájuk a sz´ ot,

7

akkor a sz´ oval egy¨ utt t´ arolt ékezetminta alapján kipótoljuk az ékezeteket, eltávol´ıtjuk a szövegbeni keresést vezérl˝ o { } jeleket, és m´ ar készen is vagyunk. Ha a szót nem találjuk, akkor további indirekt keresési m´ odszereket alkalmazunk, ezekkel a 3.2 részben foglalkozunk.

2.5

Ut´ ofeldolgoz´ as

Az ut´ ofeldolgoz´ ast végz˝ o program két feladatot lát el: egyrészt törli a nagyszótári keresés sikertelenségére utal´ o { } jeleket, m´ asrészt kijav´ıt néhány olyan sablonhibát, amit az okoz, hogy a szavakat a k¨ ozpontoz´ ast´ ol elv´ alasztva vizsg´ aljuk. Gyakorisági megfontolások alapján teljesen egyértelm˝ u, hogy a k¨ ul¨ on´ all´ o o sz´ ot ˝o-re kell cserélni. Ha viszont az o két pont között szerepelt, akkor az oldal szó rövid´ıtése, és mint ilyen v´ altozatlanul kellene maradjon. De m´ıvel az el˝ofeldolgozó program a .o. láncot .{o}. form´ ara hozza, és m´ıvel a f˝ oprogram csak a { és } közti részt vizsgálja, az utófeldolgozóra marad a .˝o. l´ anc vissza´ all´ıt´ asa a helyes .o. formára. Hasonló ehhez a -es lánc viselkedése: köt˝ojel után ez kiz´ ar´ olag az MDF-es, 1971-es stb. l´ ancok részeként szerepel, de a gyakori szavak szótára után ezek a hib´ as MDF-´ es, 1971-´ es form´ aban szerepelne, ha az utófeldolgozó nem jav´ıtaná. Az utófeldolgozó az el˝ ofeldolgoz´ ohoz hasonl´ oan kis méret˝ u (lex-ben és Perl-ben mindössze 5 sorból álló) és nagyon gyors program.

3

A statisztikai m´ odszer korl´ atai

Természetesen v´ arhattunk volna arra, hogy a korszer˝ ubb szám´ıtógépek és a kelet-európai ékezetszabv´ any (ISO 8859-2) elterjedésével az emberek el˝obb-utóbb felhagynak az ékezetek nélk¨ uli gépelés rossz szok´ as´ aval, és v´ arhattunk volna arra is, hogy a szám´ıtógépes morfológia, szintaxis, szemantika, diskurzus-elmélet, tud´ asreprezent´ aci´ o, és tételbizony´ıtás összes problémáját pillanatok alatt megoldják. De u ´gy vélt¨ uk, hogy hasznosabb egy korl´ atozott, de m˝ uköd˝o rendszert létrehoznunk. Kétségtelen¨ ul van valami cs´ ab´ıt´ o abban, hogy a fenti tudományter¨ uletek mélyebb problémáit szinte teljesen ki tudjuk ker¨ ulni egy direkt, a programozástechnikai részletekt˝ol eltekintve igen egyszer˝ u, ´ puszt´ an memoriz´ al´ ason alapul´ o séma felhasználásával. Ugy vélj¨ uk, hogy eljárásunk a nyelvtudományban megszokott, egyedi péld´ akon alapul´ o érveléssel nem is támadható mindaddig, am´ıg valaki legalább ugyanilyen sikeres, de statisztika helyett szabályokon alapuló rendszert nem produkál. Teljesen jogos azonban a kérdés, hogy vajon tisztán statisztikai szemszögb˝ol mennyire tekinthetj¨ uk sikeresnek a rendszert. Az erre adott v´ alasz részben a felhasználók céljaitól f¨ ugg: 3.1-ben tehát el˝osz¨ or ezzel foglakozunk. 3.2-ben és 3.3-ban azt ´ırjuk le, hogy a következetes statisztikai elemzés milyen form´ aban hozza mégis el˝ o a hagyom´ anyos nyelvészet, k¨ ulönösen a morfológia és a szintaxis problém´ ait,

8

vég¨ ul 3.4-ban levonjuk a k´ın´ alkoz´ o tanulságokat.

3.1

A hib´ ak m´ er´ ese

Azt, hogy mit tekint¨ unk hib´ anak, els˝ osorban a felhasználó végcélja szabja meg. Ha célunk a szöveg olvas´ asa, akkor az ´ ovatos rendszer ´ altal bennhagyott ˇ ékezetjelek zavaróak, valósz´ın˝ uleg szubjekt´ıve sokkal ink´ abb zavar´ oak mint a kihagyott ékezetek. Ha viszont célunk a szöveg helyes változatának el˝ o´ all´ıt´ asa, akkor a ˇ hasznos, hiszen vezeti a szemet, m´ıg a kihagyott ékezet után keresgélni kell. A hib´ ak s´ uly´ at a k¨ ovetkez˝ o m´ odon sz´ amoljuk: a

a ´

e

é

i

´ı

o

ó

u

u ´

ö

u ¨

˝o

u ˝

0

0.4

0

0.4

0

0.2

0

0.4

0

0.3

0.5

0.5

0.5

0.5

´

0.6

0

0.6

0

0.3

0

0.6

0

0.4

0

1

1

1

1

¨

-

-

-

-

-

-

0.9

1

0.9

1

0

0

0.3

0.3

˝

-

-

-

-

-

-

1

1

1

1

0.4

0.4

0

0

ˇ

0.6

0.4

0.6

0.4

0.3

0.2

0.6

0.4

0.4

0.3

0.4

0.4

0.3

0.3

B´ ar az egyes hib´ aknak tulajdon´ıtott numerikus értékek némileg önkényesek, táblázatunk u ´gy vélj¨ uk helyesen t¨ ukr¨ ozi az ´ atlagos olvas´ o preferenciáit: • A legzavar´ obb hib´ ak az o/´ o és u/´ u helyetti ˝o illetve u ˝, továbbá az ö/˝o és u ¨/˝ u helyetti ó illetve u ´. • A legkevésbé zavar´ o hiba az ´ı helyetti i. ´ • Ekezet hozz´ aad´ asa zavar´ obb mint ékezet elhagyása. • Azok a hib´ ak, amelyek csak a magánhangzó hosszát befolyásolják, kevésbé zavaróak mint azok, melyek min˝ oségi k¨ ul¨ onbséget is jelentenek. • A ˇ ékezet kitétele legfeljebb ugyanakkora hiba mint az adott oszlop legkisebb hibája (óvatos m´ odban ennek is csak a felét indokolt felszám´ıtani). Igényesebb felhaszn´ al´ o-bar´ ats´ agi (user-friendliness) illetve pszicholingvisztikai vizsgálatok ugyan még m´ odos´ıthatj´ ak némileg a fenti t´ abl´ azatot, de az már jelen formájájában megfelel annak a célnak, hogy a hib´ as alakok mechanikus lesz´ amol´ asa helyett egy finomabb statisztikai mér˝oszámot adjon. Egy tipikus elektronikus cikken (a Batthy´ any Lajos Alap´ıtvány Napi Sajtószemléjenk október 29-i számán) összehasonl´ıtva a kett˝ ot, azt tal´ aljuk, hogy a program annak 2280 szavából 95-ben nem találja meg a helyes

9

ékezetet, ami 4.16%-os hibaar´ any, viszont fenti táblázat értékeivel számolva 5539 magánhangzón 87.1 hibapontot kapunk, ami mind¨ ossze 1.58%-os hibaarány. ´ Erdemes megeml´ıteni, hogy a hib´ ak nagyjából fele olyan, hogy a kontextus ismerete nélk¨ ul nem jav´ıthat´ o: szerepˇ et,vezettˇ ek stb. B´ ar az ilyesfajta ragozási többértelm˝ uség el˝ofordul mély hangrend˝ u szavakn´ al is (pl. megrong´ altˇ ak) az ´ e/e hibák több mint kétszer olyan gyakoriak mint az ´ a/a hib´ ak. Ak´ ar a t´ abl´ azat szerint s´ ulyozva sz´ amoljuk akár darabszámra, az ´ e/e és ´ a/a hibák adják az összhiba mintegy kétharmad részét.

3.2

Morfol´ ogia ´ es indirekt keres´ es

Mint az el˝ obbi szakasz péld´ ai is mutatj´ ak, igen gyakran találunk olyan hibákat, amiket még a helyes morfol´ ogiai elemzés ismeretében sem tudunk kijav´ıtani – olyan gyakran, hogy ez a morfológiai elemzés hasznoss´ ag´ at eleve kérdésessé teszi, k¨ ul¨ onösen annak a fényében, hogy statisztikai alapon ép´ıtett morfol´ ogiai elemz˝ oh¨ oz konzervat´ıv becslés szerint is legalább harmincmilliárd szóalakra (tehát a jelenleg elektronikus form´ aban elérhet˝ o sz¨ ovegeknél négy nagyságrenddel többre) lenne sz¨ ukség (Kornai 1992). Ugyanakkor az is igaz, hogy a szavak t¨ obbsége a mintában csak egy- vagy kétféle ragozott alakban fordul el˝ o, teh´ at a rendszernek képesnek kell lennie eddig még nem látott ragozott formák kikövetkeztetésére, a sz´ ot˝ o alapj´ an val´ o indirekt keresésre is. Rendszer¨ unk ezt egy hatékony, b´ ar nyelvészeti szempontból önkényes algoritmussal oldja meg. Ha pl. a baranyborbe sz´ oalakot nem tal´ aljuk meg a szótárban, akkor sorra megnézz¨ uk az baranyborb, baranybor, baranybo, baranyb kezdet˝ u alakokat (jelenleg legfeljebb 4 bet˝ u levágását engedj¨ uk meg, és megk¨ ovetelj¨ uk, hogy a maradék legalább 5 bet˝ u hossz´ u legyen). A példában ez az eljárás az els˝ o lépésben sikerre vezet, ugyanis a baranyborbol alak szerepel a nagyszotárban, és tudjuk hogy ennek a helyes ékezése b´ ar´ anyb˝orb˝ol. Ebb˝ ol tehát a keresett darab b´ ar´ anyb˝orb- nek adódik, és ehhez még hozz´ atessz¨ uk a (mindig ékezettelen¨ ul hagyott) e végz˝odést, ami a helyes b´ ar´ anyb˝orbe formát adja. Természetesen az elj´ ar´ as sikere nem garantált, pl. az elszaporodasatol forma esetén az algoritmus az elszaporod´ asa form´ at tal´ alja meg, és az ebb˝ol mechanikusan visszáll´ıtott elszaporod´ asatol nem t¨ ukr¨ ozi sem a -t´ ol inherens hossz´ u ´ o-j´ at, sem azt, hogy ny´ılt-magánhangzó-ny´ ulás (Nádasdy-Sipt´ ar 1994:2.2.3.1) hat´ as´ ara a birtokrag a-ja helyett ´ a-t találunk. A m´ odszer a nagysz´ ot´ arban nem tal´ alt szavak harmadát találja meg, és ezeknek kicsit több, mint felén ad hib´ atlan eredményt. De ahol nem hibátlan, ott is számos ékezetet jav´ıt: alkalmazása nélk¨ ul a tesztelt anyagon az ¨ osszes´ıtett hibapontszám nem 87.1, hanem 106 lenne. A toldalékok inherens ékezeteinek beép´ıtése ut´ an a hibapontszám 78.5-re csökken, a ny´ılt-magánhangzó-ny´ ulás figyelembevétele pedig ezt 73.1-re jav´ıtja. Becslés¨ unk szerint ezzel a két kiegész´ıtéssel a mechanikus vágó-al-

10

goritmus a teljes morfol´ ogiai elemzéssel kijav´ıtható hibák több mint 80%-át kijav´ıtja. A jelenleg a www.hungary.org/ekito.cgi alatt fut´ o rendszerben, amely a cs.rice.edu public/andras könyvt´ ar´ aban ekesit.tar.gz néven érhet˝ o el ftp-vel, ezek a kiegész´ıtések még nem szerepelnek.

3.3

Kitekint´ es a szintaxisra

Rendszer¨ unk jelenleg még nem tartalmaz szintaktikai elemz˝ot, tehát az ebben a szakaszban foglaltak némileg spekulat´ıv jelleg˝ uek. Mint eml´ıtett¨ uk, a rendszer által nem jav´ıtott ékezethibák mintegy fele csak a kontextus ismeretében lenne biztons´ aggal jav´ıtható. Az ilyen hibák 40%-a a szófaj ismeretében m´ ar jav´ıthat´ o lenne: pl. mˇ eg, ˇ ugy, szˇ oba. A statisztikai nyelvészet módszereivel a szófaj meghatároz´ asa (tagging) igen nagy sikerrel megoldhat´ o, s˝ot csak ´ıgy oldható meg: az u.n. rejtett Markov-láncokon alapul´ o sz´ ofajmeghat´ aroz´ o programok hatékonysága messze fel¨ ulm´ ulja a hagyományos szabály-alap´ u szintaktikai sz´ ofajmeghat´ aroz´ ok hatékonyságát. Még két nagy hibaoszt´ alyt tal´ alunk: az alanyi és tárgyas ragozás´ u igék (mintánkban pl. vettˇ ek) illetve a birtokjeles illetve jel¨ oletlen esetragos formák (hatalmˇ at, k¨ uld¨ ottgy˝ul´ esˇ en) a szintaktikailag jav´ıthat´ o hib´ ak u ´jabb 30-30%-´ at jelentik. Mintánkban mindössze egy olyan szintaktikailag jav´ıthat´ o hiba volt ami a fenti h´ arom oszt´ aly egyikébe sem sorolható, ez a kor´ u/k¨ or˝u pár, melynek feloldásához az egyes elemek szelekci´ os megk¨ otéseit is figyelembe kellene venni. (Lesznek olyanok, akik ezt nem is a szintaxis, hanem a szemantika k¨ orébe utalják). Bár magyar változat még tudtunkkal nem létezik, a f˝ onévi csoportok megtal´ al´ as´ aban (chunking) is hatékonyabbak a statisztikai módszerek a szabály-alap´ u rendszerereknél. ¨ Osszess´ egében arra sz´ am´ıthatunk, hogy statisztikai alap´ u szintaktikai elemzéssel a rendszer hibája a jelenlegi felére cs¨ okkenthet˝ o, és ennek a javulásnak a kétharmada már a legegyszer˝ ubb, a szavak helyett a sz´ op´ arok gyakoris´ ag´ at sz´ amontart´ o u.n. bigramma-elemzéssel is elérhet˝o. Figyelembe kell venni azonban azt is, hogy a szintaktikai elemzés a rendszer tárigényét egy nagyságrenddel megnövelné, sebességét pedig hasonl´ o mértékben cs¨ okkentené.

3.4

Tanuls´ agok

Programunk els˝ o és legfontosabb tanuls´ aga az, hogy a gyakorlati problémák megoldásának nem el˝ofeltétele az elméleti problém´ ak megold´ asa. B´ ar a mérnöki elme számára evidens, hogy a könnyebb feladatot nem érdemes a nehezebbre visszavezetni, a tudományról vallott felfogást er˝osen áthatja az a “fel¨ ulr˝ ol vezérelt” (top down) modell, melyben az elméleti eredményeket az alkalmazások csak akadozva, gyakran jelent˝ os lemarad´ assal k¨ ovetik. Meglehet, hogy a matematika és a fizika, illetve a fizika és a fizikán alapul´ o technol´ ogia esetében val´ oban ez a helyes modell. De az elméleti megismeréstan (cognitive science) 11

és a mesterséges intelligencia nincsenek abban a helyzetben, hogy a nyelvészeti jelleg˝ u alkalmazásoknak utat mutassanak, hiszen kulcsproblém´ aik nagyrészt megoldatlanok. Ugyan kevésbé éles form´ aban, de hasonló tanulság vonható le a szimbólum-manipuláción alapul´ o nyelvészet és a statisztikai elemzés viszonyáról is. Látjuk, hogy a megfelel˝o eszközökkel az elméleti nyelvészetben rég´ ota sz´ amon tartott jelenségek (pl. a toldalékok inherens és kontextuálisan meghat´ arozott tulajdons´ againak elk¨ ul¨ on´ıtése, vagy a ny´ılt-magánhangzó-ny´ ulás törvénye) statisztikai alapon is relev´ ansnak bizonyulnak. De l´ atjuk azt is, hogy ezek a jelenségek csak akkor válnak észrevehet˝ové, ha az elméletileg esetleg érdektelen, de statisztikailag domináns jelenségkörr˝ol már sikerrel számot adtunk. Ha valamire megtan´ıtott benn¨ unket az utolsó harminc év megismeréstudománya, akkor ez az a felismerés, hogy az emberi mem´ oria “olcs´ o”, a gépi memóriánál sokkal nagyobb b˝oségben rendelkezésre all´ ´ o er˝ oforr´ as, az emberi szimb´ olum-manipuláció pedig “drága”, a szám´ıtógépes aritmetikai és logikai m˝ uveletekhez képest lass´ u és megb´ızhatatlan tevékenység. Amikor tehát egy olyan folyamat gépi modellezésével foglalkozunk mint az ékezés, melyet az emberek könnyen és hatékonyan végeznek, akkor érdemes olyan er˝ oforr´ asokat haszn´ alnunk amelyek az embereknek b˝oséggel rendelkezés¨ ukre állnak, és érdemes minimaliz´ alni azokat a lépéseket, amelyek elvégzése az embereknek nehézséget okoz. Mindennek alapj´ an teh´ at azt j´ osoljuk, hogy a szimb´ olum-manipuláción alapuló, “kemény mesterséges intelligencia” jelleg˝ u nyelvészetet a statisztikai m´ odszereken alapuló elemzés egyre jobban háttérbe fogja szor´ıtani, nemcsak az alkalmazott, hanem az elméleti kutatások körében is.

Felhaszn´ alt irodalom F¨ uredi Mih´ aly és Kelemen J´ ozsef (szerk): A mai magyar nyelv széppr´ ozai gyakoris´ agi sz´ ot´ ara Akadémiai Kiad´ o, Budapest 1989 Donald E. Knuth: A sz´ am´ıt´ ogép-programoz´ as m˝ uvészete. M˝ uszaki Könyvkiadó, Budapest 1988 Kornai Andr´ as: Frequency in morphology. In: Kenesei István (szerk): Approaches to Hungarian IV (1992) 246-268 Douglas B. Lenat: CYC: a large-scale investment in knowledge infrastructure Communications of the ACM 38 (1995) 32-38 ´ am és Sipt´ N´ adasdy Ad´ ar Péter: A magánhangzók. In: Kiefer Ferenc (szerk): Struktur´ alis Magyar Nyelvtan 2. Fonol´ ogia 42-181 Akadémiai Kiadó, Budapest 1994

12

van eltárolva attól függően hogy DOS, Windows, Macintosh, vagy Unix PC-t használ, és megintcsak

Recommend Documents