G´epi ´ekez´es ´s Kornai Andra
´ th Ga ´bor To
IBM Almaden Research Center
Sterrenkundig Instituut, Rijksuniversiteit Utrecht
´es
´es
MTA Nyelvtudom´ anyi Int´ezet
ELTE TTK Atomfizika Tansz´ek
Cikk¨ unkben a sz´ am´ıt´ og´epen t´ arolt illetve h´al´ozaton tov´abb´ıtott magyar sz¨ovegekb˝ol gyakran hi´ anyz´ o ´ekezetek p´ otl´ as´ anak probl´em´aj´aval foglalkozunk. M´odszer¨ unk l´enyege, hogy osszegy˝ ¨ ujt¨ unk min´el t¨ obb helyesen ´ekezett sz´oalakot, majd az ´ekezettelen´ıtett ´es az eredeti ´ekezett alakok k¨ ozti kapcsolatot statisztikai feldolgoz´as ut´an be´ep´ıtj¨ uk a programba.
0
Bevezet´ es
Az ´ekezetes magyar bet˝ uk (´es ´ altal´ aban a latin ´ab´ec´en alapul´o nemzeti ´ab´ec´ek saj´atos graf´em´ainak) sz´ am´ıt´ og´epes t´ arol´ asa ´es h´ al´ ozati tov´ abb´ıt´asa r´eszben m´aig megoldatlan feladat. A probl´ema nem a nemzetk¨ ozi szabv´ anyok hi´ anya, hanem ´eppen ellenkez˝oleg, az egym´assal verseng˝o szabv´anyok sokas´aga. Az ´ atlagos sz´ am´ıt´ og´epfelhaszn´ al´ o nem tudja, hogy ugyanaz a karakter, pl. a r¨ovid ¨ o, m´as-m´as k´oddal van elt´ arolva att´ ol f¨ ugg˝ oen hogy DOS, Windows, Macintosh, vagy Unix PC-t haszn´al, ´es megintcsak m´ ask´epp az IBM illetve a t¨ obbi nagysz´ am´ıt´og´epen. Az ´atlagos felhaszn´al´o csak azt tudja, hogy k¨ ul¨ onb¨ oz˝ o rendszerek k¨ oz¨ ott az ´ekezetek konvert´al´as´aval ´es h´al´ozati tov´abb´ıt´as´aval mindig baj van. Ez´ert a felhaszn´ al´ ok igen nagy r´esze ´ ovakodik att´ol, hogy ´ekezetekkel ´ırjon, k¨ ul¨on¨osen, ha a sz¨oveget sz´am´ıt´ og´epes h´ al´ ozati terjeszt´esre sz´ anja. B´ ar ez a korszer˝ ubb g´epek elterjed´es´evel egyre ink´abb cs¨okken˝ o probl´ema, azt is meg kell eml´ıten¨ unk, hogy a r´egebbi PC-k ´es a nagysz´am´ıt´og´ephez kapcsol´od´o termin´ alok nem mindig k´epesek az ´ekezetes bet˝ uk megjelen´ıt´es´ere, illetve billenty˝ uzet¨ uk ezek bevitel´ere alkalmatlan. Mindennek eredm´enyek´epp igen gyakran tal´alkozunk olyan sz¨ovegekkel, mint az al´abbi: (1) Potyka bacsit kituntettek, Pongratz Gergely liberalis tetuzott, Giczy szerint idegen kisebbseg uralkodik a kereszteny nemzeti tobbsegen, Szabo Albika Izraelbe telepitene a zsidokat. Parlament elott.
Vasarnap Jean Marie Le Pen fog szonokolni a
Gyulekezes a Koztarsasag teren. 1
Term´eszetesen minden magyarul ´ırni-olvasni tud´o ember tiszt´aban van vele, hogy a fenti sz¨oveg helyesen ´ıgy n´ezne ki: (1’) Potyka b´ acsit kit¨ untett´ ek, Pongr´ atz Gergely liber´ alis tet˝uz¨ ott, Giczy szerint idegen kisebbs´ eg uralkodik a kereszt´ eny nemzeti t¨ obbs´ egen, Szab´ o Albika Izraelbe telep´ ıten´ e a zsid´ okat. Parlament el˝ott.
Vas´ arnap Jean Marie Le Pen fog sz´ onokolni a
Gy¨ ulekez´ es a K¨ ozt´ arsas´ ag t´ eren.
Az ´ekezetp´ otl´ as probl´em´ aj´ at az tette aktu´aliss´a, hogy az interneten egyre ink´abb elterjed˝o WorldWideWeb lehet˝ ov´e teszi az ´ekezetes bet˝ uk megjelen´ıt´es´et. Bevitel¨ uk v´altozatlanul nem probl´emamentes, pl. az ´ es sz´ ot a WWW alapj´ at k´epez˝ o HTML nyelvben a és kifejez´essel kell lek´odolni, de ez csak a k´ezzel g´epel˝ o embernek okoz neh´ezs´eget, a programoknak nem. Cikk¨ unk els˝ o r´esz´eben a rendszer elvi alapjait ´ırjuk le. Az algoritmussal a m´asodik r´eszben, a rendszer korl´ ataival ´es b˝ ov´ıt´esi lehet˝ os´egeivel pedig a harmadik r´eszben foglalkozunk.
1
Sz´ ot´ ari keres´ es
M´ıg az emberi nyelvi kompetenci´ at az ´ekezetek visszap´otl´asa szinte meg sem terheli, addig a sz´am´ıt´ og´epes nyelv´eszeti algoritmusok sz´ am´ ara, legal´abbis ezek jelenlegi fejletts´egi szintj´en, a feladat 100%-os vagy azt megk¨ ozel´ıt˝ o megold´ asa egyszer˝ uen lehetetlen. Vannak persze olyan esetek, amikor az ´ekezetes alak az ´ekezettelenb˝ ol egy´ertelm˝ uen vissza´all´ıthat´o: pl. az ´ekezettelen bacsi ¨osszes lehets´eges ´ekezetes v´ altozata bacsi,bacs´ ı,b´ acsi,b´ acs´ ı k¨oz¨ ul egy ´es csak egy szerepel a magyar nyelv sz´ok´eszlet´eben (melybe nemcsak a sz´ ot´ ari alakot, hanem az ¨osszes morfol´ogialiag j´olform´alt sz´oalakot is bele´ertj¨ uk). De az esetek nagy r´esz´eben a feladat enn´el j´oval bonyolultabb, pl. a kituntettek sz´o helyes ´ekez´es´et csup´ an a t´ argy hat´ arozotts´ ag´ anak vizsg´ alat´ aval (kit¨ untettek egy embert vs. kit¨ untett´ ek az embert) allap´ıthatjuk meg, ez pedig a mondat eg´esz´enek szintaktikai elemz´es´et ig´enyli. S˝ot olyan p´eld´at sem ´ neh´ez tal´ alnunk, ahol az elemz´es t´ agabb ´ertelemben vett szemantikai t´enyez˝oket, a vil´agra vonatkoz´ o enciklop´edikus tud´ ast is sz´ am´ıt´ asba kellene vegyen, ´ıgy pl. az ´ekezettelen baba sz´on´al: (2a) Neh´ ez sz¨ ul´ es volt.
A b´ aba teljesen kimer¨ ult.
(2b) Neh´ ez sz¨ ul´ es volt.
A baba teljesen elk´ ek¨ ult.
B´ ar vannak olyan mesters´eges intelligencia adatb´azisok, amelyek ´eppen az ilyen “mindennapi” tud´ ast igyekeznek modellezni (Lenat 1995), de gondoljuk csak v´egig, mi minden kellene ahhoz, hogy ezt a tud´ ast a probl´ema megold´ as´ ahoz hasznos´ıtani tudjuk. Kellene els˝osorban egy olyan logikai k¨ovetkeztet˝ orendszer (inference engine) amely axi´om´ak t´ızmilli´oit k´epes ´attekinteni – a jelenlegi szak´ert˝ oi
2
rendszerek legfeljebb t´ızezer axi´ oma mellett hat´ekonyak. Kellene tov´abb´a egy olyan tud´asreprezent´acios (knowledge representation) formalizmus, amelynek formul´aival a term´eszetes nyelvek ¨osszes relev´ ´ ans jelent´es´ arnyalata megk¨ ul¨ onb¨ oztethet˝ o. Miut´an a (2a-b)-hez hasonl´o ´ekezetprobl´em´at minden szemantikai probl´em´ ahoz k¨ onny˝ u konstru´ alni, elvben az ´ekezetek visszap´otl´as´ahoz egy teljes szemantik´ara van sz¨ uks´eg, annak felhasz´ al´ as´ ahoz pedig egy teljes szintaxisra. A magyar (´es ´altal´aban az agglutinat´ıv nyelvek) szintaktikai elemz´ese morfol´ ogiai elemz´est is el˝ofelt´etelez, ´es b´ar igaz, hogy erre viszonylag hat´ekony algoritmusaink vannak, de ezek mind felhaszn´alj´ak az ´ekezetekben rejl˝o inform´aci´ot, teh´ at erre a c´elra u ´jra kellene ´ırni a morfol´ ogiai elemz˝oket is. Miut´ an a probl´ema teljes megold´ asa el˝ofelt´etelezi a sz´amit´og´epes nyelv´eszet ´es a mesters´eges intelligencia-kutat´ as sz´ amos, ´evtizedek ´ ota nyitott probl´em´aj´anak megold´as´at, ez´ert nem szimb´olum-kezel˝ o szab´ alyokan alapul´ o, hanem statisztikai megold´ast keres¨ unk. Term´eszetesen a szimb´olumok ´es szimb´ olum-sorozatok manipul´ al´ as´ ara ´ıgy is sz¨ uks´eg van, de mint l´atni fogjuk, a rendszer ereje nem a manipul´ aci´ o logikai m´elys´eg´eb˝ ol, hanem a manipul´aland´o adatok b˝os´eg´eb˝ol sz´armazik. Rendszer¨ unk teh´at nem a hagyom´ anyos “kem´eny mesters´eges intelligencia” (hard AI) hanem a statisztikai alap´ u sz´am´ıt´og´epes nyelv´eszet ir´ anyzat´ aba tartozik. Miut´ an ez az ir´anyzat haz´ankban el´eg kev´ess´e ismert, k¨ ul¨on kimondjuk az ¨ osszes olyan el˝ ofeltev´est is, amit a t´em´aban j´aratosabb olvas´o esetleg trivi´alisnak ´erez.
1.1
Defin´ıci´ ok
Jel¨ olj¨ uk azt a f¨ uggv´enyt amely az ´ekezetes sz¨ovegb˝ol elhagyja az ´ekezeteket b-vel, b inverz´et pedig C-vel. (Matematikai szemmel n´ezve C nem f¨ uggv´eny, hanem rel´aci´o.) Legyen a magyar nyelv sz´okincse (´ekezetekkel) V . Ha G a magyar graf´em´ ak halmaza G = {a, ´ a, b, ....x, y, z} (k¨ ul¨on graf´em´anak sz´am´ıtjuk az ´ekezetes bet˝ uket, de a digr´ afokat ´es trigr´afokat nem), akkor a hagyom´anyos megk¨ozel´ıt´esben V mint a G elemeib˝ ol k´epzett l´ ancok G∗ halmaz´anak egy r´eszhalmaza adott. A tov´abbiakban egy ´ekezettelen x l´ ancot unikusnak nevez¨ unk, ha C(x) ∩ V u ¨res vagy egyelem˝ u halmaz, vesz´elyesnek ha t¨obbelem˝ u. A bacsi teh´ at unikus, m´ıg a baba vesz´elyes l´anc. A statisztikai elemz´es els˝ o l´ep´ese az, hogy V -t nem u ´gy fogjuk fel, hogy G∗ minden egyes elem´er˝ ol egy 0-1 d¨ ont´est testes´ıt meg, hanem u ´gy, hogy minden egyes elem egy 0 ´es 1 k¨ozti val´os sz´ammal, a gyakoris´ aggal van jellemezve. K¨ ul¨ on felh´ıvjuk a figyelmet arra, hogy egyes nyelvtanilag helytelen (agrammatikus) l´ ancok szerepelhetnek pozit´ıv gyakoris´aggal, ´es hogy nyelvtanilag kifog´astalan l´ancok is szerepelhetnek 0 gyakoris´ aggal, ha nem is a popul´aci´o eg´esz´eben, de az egyes mint´akban. Legyen P az egyes szavak relat´ıv gyakoris´ ag´ at (a popul´aci´oban val´o el˝ofordul´asuk val´osz´ın˝ us´eg´et) megad´o G∗ → [0, 1] f¨ uggv´eny. P-t nem ismerj¨ uk pontosan, de ´ert´ekeit a popul´aci´ob´ol vett k¨ ul¨onf´ele mint´ak azaz korpuszok alapj´ an meg tudjuk becs¨ ulni. P´eld´ aul a f´elmilli´o szavas korpuszon alapul´o Magyar Nyelv Gyakoris´ agi
3
Sz´ ot´ ara (F¨ uredi-Kelemen 1989) alapj´ an az ´ es k¨ot˝osz´o gyakoris´aga 1.84%, m´ıg a Magyar Narancsb´ ol vett hasonl´ o m´eret˝ u minta alapj´ an az ´ es gyakoris´aga 1.65%. Mint a k¨ ovetkez˝ o r´eszben l´ atni fogjuk, algoritmusunk alapja az, hogy a szavak ´ekezetes form´ ait t´ aroljuk a program mem´ ori´ aj´ aban. A vesz´elyes szavakn´al k´etf´ele m´odszert k¨ovethet¨ unk: az ´ ovatos algoritmus vesz´elyes szavak eset´en jelzi a k´et- vagy t¨obb´ertelm˝ us´eget, de nem v´alaszt az alternat´ıv´ak k¨oz¨ott, m´ıg a b´ ator algoritmus valamilyen krit´erium alapj´an kiv´alaszt egyet, pl. a leggyakoribbat. A t´arol´ason alapul´ o algoritmusok sikeress´eg´et el˝ ore meg tudjuk becs¨ ulni annak alapj´an, hogy a t´arolt szavak ¨osszes´ıtett gyakoris´ aga H mekkora. Egy ´ ovatos algoritmus, amely a magyar sz´okincs H r´esz´et lefed˝o list´ an alapul, megk¨ ozel´ıt˝ oleg az esetek (1-H)/2 r´esz´eben fog hib´azni (90%-os lefedetts´eg eset´en teh´at 5%-ban), mert megk¨ ozel´ıt˝ oleg a szavak fele eleve nem tartalmaz ´ekezetet. Tekints¨ uk most azt a b´ ator (de u ¨gyetlen) algoritmust, amely vesz´ely eset´en a lehets´eges form´ ak k¨ oz¨ ul mindig az ´ekezettelen alakot v´ alasztja. Legyen a popul´aci´oban az unikus illetve a vesz´elyes szavak val´ oszin˝ us´ege u illetve v: defin´ıci´ o szerint u + v = 1. Miut´an a magyarban u ≈ 0.75, v ≈ 0.25, ´es nagyj´ ab´ ol a szavak fele ´ekezettelen, ez az algoritmus a vesz´elyes szavak fel´en´el fog hib´azni, teh´ at legfeljebb 87.5%-os pontoss´ agot ´erhet el, de m´eg ez is csak akkor lehets´eges, ha a mem´ori´aban minden unikus sz´ o(alak) t´ arolva van. Mint a k¨ ovetkez˝o r´eszben l´atni fogjuk, a sz´oalakok t´arol´as´anak els˝odleges technikai korl´ atja nem a rendelkez´esre ´ all´o mem´oria m´erete, hanem a t´arolt sz´ojegyz´ek sz¨ uks´egszer˝ uen hi´ anyos volta.
2
Az algoritmus
Programunk 5 egym´ ast k¨ ovet˝ o r´eszb˝ ol a´ll: el˝ofeldolgoz´as, a gyakori szavak kikeres´ese, a r¨ovid szavak kikeres´ese, a fennmarad´ o szavak kikeres´ese, ut´ofeldolgoz´as. Vegy¨ uk ezeket sorra.
2.1
El˝ ofeldolgoz´ as
A bej¨ ov˝ o sz¨ oveg ´ altal´ aban az ´ekezetek hi´any´an t´ ul is sz´amos jel´et viseli annak, hogy sz´am´ıt´og´epen ´ırt´ ak ´es h´ al´ ozaton tov´ abb´ıtott´ ak. Igen gyakoriak benne az e-mail c´ımek, pl.
[email protected], amiket nem kiv´ anunk kijav´ıtani a k´ets´egtelen¨ ul ig´enyesebb helyes´ır´ast t¨ ukr¨oz˝o Kov´ acs@Pl´ ut´ o.Hu form´ara, mert az ´ıly modon c´ımzett e-mail tov´ abb´ıt´ as´ ara a h´al´ozat jelenleg m´eg nem k´epes. Hasonl´o m´odon, a WWW-n igen gyakori URL kifejez´esek (uniform resource locators) is benn kell maradjanak az eredeti (7-bites) ASCII szabv´ anyon bel¨ ul. Az el˝ ofeldolgoz´ as teh´ at felismeri az ilyen kifejez´eseket, ´es ezeket f´elreteszi. F´elreteszi tov´abb´a az ´ır´ asjeleket, a sz´ amokat, ´es ´ altal´ aban mindazokat a l´ancokat amelyek nem tartalmaznak mag´anhangz´ ot.
4
A fennmarad´ o l´ ancokat viszont kapcsos z´ar´ojelek k¨oz´e teszi: a program tov´abbi l´ep´esei m´ar csak az ´ıly m´ odon megjel¨ olt szavakat vizsg´ alj´ ak. Ha teh´at a kiindul´o sz¨oveg az al´abbi: Felado : Magyar Narancs [Hungary] Temakor: Tartalom ( 97 sor ) Idopont: Tue Jul
9 09:41:18 EDT 1996 NARANCS1 #73
- - - - - - - - - - - - - - - - - - - - - - - - - - - VIII. evf. 28. szam, 1996. julius 11. ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ http://www.hungary.com/narancs/8_28/joogyula.jpg Joo Gyulat abrazolja a fenykep. Talan az o hangjat lehetett a legkevesbe hallani, harsanyak szeretunk lenni, o akkor az el˝ ofeldolgoz´ as ut´ an az al´ abbi sz¨oveget nyerj¨ uk: {Felado} : {Magyar} {Narancs} [{Hungary}] {Temakor}: {Tartalom} ( 97 {sor} ) {Idopont}: {Tue} {Jul}
9 09:41:18 {EDT} 1996 {NARANCS}1 #73
- - - - - - - - - - - - - - - - - - - - - - - - - - - {VIII}. {evf}. 28. {szam}, 1996. {julius} 11. ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ http://www.hungary.com/narancs/8_28/{joogyula}.jpg {Joo} {Gyulat} {abrazolja} {a} {fenykep}. {Talan} {az} {o} {hangjat} {lehetett} {a} {legkevesbe} {hallani}, {harsanyak} {szeretunk} {lenni}, {o} Az el˝ ofeldolgoz´ o regul´ aris kifejez´eseken alapul´o igen egyszer˝ u ´es rendkiv¨ ul hat´ekony program: az UNIX k¨ ornyezetben el´erhet˝ o lex elemz˝ o seg´ıts´eg´evel gener´alt program 18000 sz´ot (75000 karakter) dolgoz fel egy m´ asodperc alatt. Ugyanez a program a WWW alkalmaz´asokban igen elterjedt Perl nyelven meg´ırva h´ aromszor-n´egyszer lassabb (adataink egy IBM RS/6000 munka´allom´asra vonatkoznak, melynek sebess´ege a ma ´ atlagosnak tekinthet˝ o 100MHz Pentium PC-k sebess´eg´enek durv´an k´etszerese).
2.2
A gyakori szavak
Az a program, ami nem csin´ al semmit, az esetek fel´eben (nagyobb korpuszon lem´erve 54%-ban) “sikeres”. Ha programunk semmi m´ ast nem csin´alna, csak a t´ız leggyakoribb unikus sz´on´al tenn´e ki az ´ekezeteket, teh´ at es helyett ´ es, ket helyett k´ et, stb., akkor ezzel a tal´alati ar´any mintegy 3%-kal javul-
5
na. Egy n´emileg nagyobb, de elveiben semmivel sem bonyolultabb programunk ezt a cser´et az ¨otezer leggyakoribb sz´ ora v´egzi el, ezzel a tal´ alati ar´any 78%-ra javul. Enn´el is sokkal fontosabb hat´ as, hogy a gyakori szavak ´atn´ez´es´evel a tov´abbi programokra h´arul´ o feladatok er˝ osen cs¨ okkennek. Az el˝ ofeldolgoz´as a szavak mintegy 8%-´at vonja ki a tov´abbi feldolgoz´ as al´ ol, m´ıg a gyakori szavak kikeres´ese ut´ an mind¨ossze az eredeti anyag 27%-´aval kell foglalkozni. A lex elemz˝ ok hat´ekonys´ ag´ at j´ ol mutatja, hogy az ¨otezer gyakori sz´o ´atn´ez´es´et 12000 sz´o/sec sebess´eggel v´egzi, teh´ at az el˝ ofeldolgoz´ o sebess´eg´en´el mind¨ossze egy harmaddal lassabban. Perl-ben a program ism´et egy h´ armas faktorral lassabb.
2.3
A r¨ ovid szavak
Algoritmusunk alapgondolat´ aval ¨ osszegyeztethet˝o lenne, ha a tov´abbi sz´ot´ari keres´est (jelenleg mintegy 150000 sz´ oalakot t´ arolunk) is egy hasonl´o lex elemz˝ovel n´ezetn´enk ´at. Ennek azonban hat´art szab az elemz˝ ok t´ arig´enye: m´ıg az el˝ ofeldolgoz´o eg´eszen par´anyi (12 kilobyte), a gyakori szavak t´arig´enye m´ ar k´et nagys´ agrenddel nagyobb (755 kilobyte), az eg´esz sz´ot´arra kiterjed˝o hasonl´o program pedig t¨ obb mint 20 megabyte (MB) lenne. Miut´an a program egy olyan PC-n fut, melynek jelenleg ¨osszesen 32MB mem´ ori´ aja van, ´es az ´ekezetek p´ otl´asa csak egyike annak a sz´amos feladatnak amit ez a g´ep ell´ at, mindenk´eppen sz¨ uks´eg van arra, hogy a rendszer m´eret´et szigor´ u korl´atok k¨oz¨ott tartsuk. A 150000 szavas nagysz´ ot´ arban a szavakat ez´ert t¨om¨or´ıtve t´aroljuk, olyan form´aban, hogy egy¨ utt is csak 1.8MB mem´ ori´ at ig´enyeljenek. A keres´es alapja a sz´am´ıt´og´eptudom´anyb´ol j´ol ismert hash-f¨ uggv´enyek felhaszn´ al´ asa (Knuth 1988 vol 3 ch 6.4), melyr˝ol 2.4-ben m´eg b˝ovebben ´ırunk: most csup´an annyit jegyezz¨ unk meg, hogy a hash egy olyan f¨ uggv´eny amely minden bet˝ usorhoz egy eg´esz sz´amot rendel. Ha pl. az a bet˝ ut 0-val, a b-t 1-gyel, a z-t pedig 25-tel sz´amoljuk, akkor minden sz´o megfeleltethet˝ o egy 26-os sz´ amrendszerben fel´ırt pozit´ıv eg´esz sz´amnak. Mi ezt a hash-t az ´ekezettelen szavak els˝ o, harmadik, ´es ¨ ot¨ odik bet˝ uje alapj´ an sz´ amoljuk (az´ert nem az els˝o h´arom bet˝ u alapj´an, mert az abb´ ol nyert eloszl´ as kev´esb´e lenne egyenletes). Miut´ an az elj´ ar´ as csak az ¨ otbet˝ us vagy ann´al hosszabb l´ancokra alkalmazhat´o, k¨ ul¨on kell foglalkoznunk a n´egybet˝ us vagy ann´ al r¨ ovidebb szavakkal. Ezek jelent˝os r´esze term´eszetesen m´ar a gyakori szavak list´ aj´ an is szerepelt, a r¨ ovid szavak sz´ot´ar´aban teh´at csup´an a fennmarad´o mintegy 1400 olyan sz´ oval kell k¨ ul¨ on foglalkoznunk amely nem eleve ´ekezetmentes. Az ezek alapj´an gener´alt program l´enyeg´eben a gyakori szavakat ´ekez˝ o programmal megegyez˝o sebess´eg˝ u ´es t´arig´eny˝ u. Fut´asa ut´an az eredeti szavak u ´jabb 2%-a ker¨ ul ki a tov´ abb vizsg´aland´o szavak k¨or´eb˝ol, teh´at a nagysz´ot´arban az eredeti anyag csup´ an 25%-´ at kell majd megn´ezni.
6
2.4
A nagysz´ ot´ ar
A nagysz´ ot´ ari keres´es alapja teh´ at a hash-f¨ uggv´enyek felhaszn´al´asa: minden sz´ohoz egy sz´amot rendel¨ unk, a sz´ ot´ arat pedig el˝ ore felv´ agjuk kisebb darabokra avagy cell´ akra u ´gy, hogy az azonos hash-´ert´ek˝ u szavak (´es csak azok) ker¨ uljenek ugyanabba a cell´aba. Ahelyett, hogy a sz´ot´arban az ¨osszes sz´ot ´atn´ezn´enk, az els˝ o l´ep´esben kisz´ amoljuk a keresett sz´o hash-´ert´ek´et, a m´asodik l´ep´esben pedig a sz´ot m´ar csak az ehhez az ´ert´ekhez tartoz´ o cell´ aban keress¨ uk. A fentebb le´ırt hash seg´ıts´eg´evel minden ´ekezettelen alakhoz egy 0 ´es 17575 k¨ ozti sz´ amot rendel¨ unk. Ha a f¨ uggv´eny eloszl´asa t¨ok´eletesen egyenletes lenne, akkor a nagysz´ ot´ art 263 = 17576 darabra v´agtuk volna, ´es az egyes darabokba ´atlag 150000/17576=8.53 alak esne. A val´ os´ agban persze a hash megoszl´asa nem t¨ok´eletesen egyenletes, egyes ´ert´ekek (pl. az xxx-hez tartoz´ o 16169) soha nem fordulnak el˝o, m´asok viszont ann´al gyakrabban (a leggyakrabban mge, ¨ 1132-szer). Osszesen 7696 ´ert´ek l´ep fel, teh´at az ´atlagos cellam´eret ≈ 19.4. ´ Erdemes megeml´ıteni, hogy az ´ atlagos cellam´eret nem egyezik meg a keres´esek v´arhat´o munkaig´eny´evel, hiszen nem mindegy, hogy a gyakran keresett szavak a nagy (teh´at sok bels˝o keres´est ig´enyl˝ o) vagy a kis cell´ akba esnek. Ez´ert a tov´ abbiakban nem az egyes cell´ak m´eret´et, hanem ezek az odaker¨ ult szavak ¨ osszgyakoris´ aga szerint s´ ulyozott ´atlag´at, az u ´.n. v´ arhat´ ou ¨tk¨ oz´essz´ amot fogjuk tekinteni: a fentebb le´ırt (az els˝ o, harmadik, ´es ¨ ot¨ odik bet˝ un alapul´o) s´ema eset´en ez ≈ 147. Teh´at a v´eletlenszer˝ uen (a sz¨ oveg gyakoris´ agi megoszl´ as´ at k¨ ovet˝ o m´odon) ´erkez˝o u ´j szavak k¨oz¨ ul azok, amik eljutnak a nagysz´ ot´ arig (mert sem a gyakori sem a r¨ ovid szavak sz´ot´ar´aban nem tal´altuk meg ˝oket) ´atlagban 147/2 m´ asik sz´ oval kell ¨ osszehasonl´ıtani (¨ utk¨ oztetni) ha a cell´an bel¨ ul line´aris keres´est alkalmazunk, illetve log(147)/ log(2) = 7.2 sz´ oval ha bin´ aris keres´est alkalmazunk. Miut´ an nagysz´ ot´ ari program egyes darabjainak lem´er´ese vil´agosan mutatja, hogy a program fut´ asidej´enek jav´ at ilyen ¨ osszehasonl´ıt´ asokkal t¨olti el, a program gyors´ıt´as´anak legfontosabb eszk¨oze a v´ arhat´ ou ¨tk¨ oz´essz´ am cs¨ okkent´ese. Ha az eddig figyelmen k´ıv¨ ul hagyott m´asodik ´es negyedik bet˝ ut is besz´ amoljuk, akkor a v´ arhat´ ou ¨tk¨ oz´essz´ am lecs¨okken ≈ 54-re. Ennek azonban az lenne az ´ara, hogy a hash maxim´ alis ´ert´eke ne 17575 (263 − 1) hanem 11881376 (265 − 1) legyen, ami bin´aris alakban 24 bitet ig´enyel. Technikai okokb´ ol a 24 bit (3 byte) nem el˝ony¨os, teh´at megvizsg´altuk mi a helyzet 16 illetve 32 bit felhaszn´ al´ asa eset´en. Azt tal´ altuk, hogy az 5 bet˝ ub˝ol kihozhat´o optimumn´al mind¨ossze 10%-kal rosszabb eredm´eny, ≈ 59.5-¨ os u ¨tk¨ oz´essz´ am el´erhet˝o m´ar 16 bitben is, m´ıg 32 bit lehet˝ov´e teszi, hogy ez els˝ o¨ ot helyett az els˝ o h´et bet˝ ut vegy¨ uk figyelembe, ami ´altal a v´arhat´o u ¨tk¨oz´essz´am ≈ 14-re cs¨okken. ¨ Osszess´ eg´eben teh´ at a program sz´ıv´et jelent˝o keres´esi algoritmus az els˝o v´altozathoz k´epest t´ızszeresen gyors´ıthat´ o fel ha line´ aris, ´es k´etszeresen ha az eleve gyorsabb (de k¨or¨ ulm´enyesebben programozhat´ o) bin´ aris keres´est haszn´ aljuk. Szerencs´es esetben a sz´ o kikeres´es´evel a nagysz´ot´ari keres´es m´ar v´eget is ´ert: ha megtal´ajuk a sz´ ot,
7
akkor a sz´ oval egy¨ utt t´ arolt ´ekezetminta alapj´an kip´otoljuk az ´ekezeteket, elt´avol´ıtjuk a sz¨ovegbeni keres´est vez´erl˝ o { } jeleket, ´es m´ ar k´eszen is vagyunk. Ha a sz´ot nem tal´aljuk, akkor tov´abbi indirekt keres´esi m´ odszereket alkalmazunk, ezekkel a 3.2 r´eszben foglalkozunk.
2.5
Ut´ ofeldolgoz´ as
Az ut´ ofeldolgoz´ ast v´egz˝ o program k´et feladatot l´at el: egyr´eszt t¨orli a nagysz´ot´ari keres´es sikertelens´eg´ere utal´ o { } jeleket, m´ asr´eszt kijav´ıt n´eh´any olyan sablonhib´at, amit az okoz, hogy a szavakat a k¨ ozpontoz´ ast´ ol elv´ alasztva vizsg´ aljuk. Gyakoris´agi megfontol´asok alapj´an teljesen egy´ertelm˝ u, hogy a k¨ ul¨ on´ all´ o o sz´ ot ˝o-re kell cser´elni. Ha viszont az o k´et pont k¨oz¨ott szerepelt, akkor az oldal sz´o r¨ovid´ıt´ese, ´es mint ilyen v´ altozatlanul kellene maradjon. De m´ıvel az el˝ofeldolgoz´o program a .o. l´ancot .{o}. form´ ara hozza, ´es m´ıvel a f˝ oprogram csak a { ´es } k¨ozti r´eszt vizsg´alja, az ut´ofeldolgoz´ora marad a .˝o. l´ anc vissza´ all´ıt´ asa a helyes .o. form´ara. Hasonl´o ehhez a -es l´anc viselked´ese: k¨ot˝ojel ut´an ez kiz´ ar´ olag az MDF-es, 1971-es stb. l´ ancok r´eszek´ent szerepel, de a gyakori szavak sz´ot´ara ut´an ezek a hib´ as MDF-´ es, 1971-´ es form´ aban szerepelne, ha az ut´ofeldolgoz´o nem jav´ıtan´a. Az ut´ofeldolgoz´o az el˝ ofeldolgoz´ ohoz hasonl´ oan kis m´eret˝ u (lex-ben ´es Perl-ben mind¨ossze 5 sorb´ol ´all´o) ´es nagyon gyors program.
3
A statisztikai m´ odszer korl´ atai
Term´eszetesen v´ arhattunk volna arra, hogy a korszer˝ ubb sz´am´ıt´og´epek ´es a kelet-eur´opai ´ekezetszabv´ any (ISO 8859-2) elterjed´es´evel az emberek el˝obb-ut´obb felhagynak az ´ekezetek n´elk¨ uli g´epel´es rossz szok´ as´ aval, ´es v´ arhattunk volna arra is, hogy a sz´am´ıt´og´epes morfol´ogia, szintaxis, szemantika, diskurzus-elm´elet, tud´ asreprezent´ aci´ o, ´es t´etelbizony´ıt´as ¨osszes probl´em´aj´at pillanatok alatt megoldj´ak. De u ´gy v´elt¨ uk, hogy hasznosabb egy korl´ atozott, de m˝ uk¨od˝o rendszert l´etrehoznunk. K´ets´egtelen¨ ul van valami cs´ ab´ıt´ o abban, hogy a fenti tudom´anyter¨ uletek m´elyebb probl´em´ait szinte teljesen ki tudjuk ker¨ ulni egy direkt, a programoz´astechnikai r´eszletekt˝ol eltekintve igen egyszer˝ u, ´ puszt´ an memoriz´ al´ ason alapul´ o s´ema felhaszn´al´as´aval. Ugy v´elj¨ uk, hogy elj´ar´asunk a nyelvtudom´anyban megszokott, egyedi p´eld´ akon alapul´ o ´ervel´essel nem is t´amadhat´o mindaddig, am´ıg valaki legal´abb ugyanilyen sikeres, de statisztika helyett szab´alyokon alapul´o rendszert nem produk´al. Teljesen jogos azonban a k´erd´es, hogy vajon tiszt´an statisztikai szemsz¨ogb˝ol mennyire tekinthetj¨ uk sikeresnek a rendszert. Az erre adott v´ alasz r´eszben a felhaszn´al´ok c´eljait´ol f¨ ugg: 3.1-ben teh´at el˝osz¨ or ezzel foglakozunk. 3.2-ben ´es 3.3-ban azt ´ırjuk le, hogy a k¨ovetkezetes statisztikai elemz´es milyen form´ aban hozza m´egis el˝ o a hagyom´ anyos nyelv´eszet, k¨ ul¨on¨osen a morfol´ogia ´es a szintaxis probl´em´ ait,
8
v´eg¨ ul 3.4-ban levonjuk a k´ın´ alkoz´ o tanuls´agokat.
3.1
A hib´ ak m´ er´ ese
Azt, hogy mit tekint¨ unk hib´ anak, els˝ osorban a felhaszn´al´o v´egc´elja szabja meg. Ha c´elunk a sz¨oveg olvas´ asa, akkor az ´ ovatos rendszer ´ altal bennhagyott ˇ ´ekezetjelek zavar´oak, val´osz´ın˝ uleg szubjekt´ıve sokkal ink´ abb zavar´ oak mint a kihagyott ´ekezetek. Ha viszont c´elunk a sz¨oveg helyes v´altozat´anak el˝ o´ all´ıt´ asa, akkor a ˇ hasznos, hiszen vezeti a szemet, m´ıg a kihagyott ´ekezet ut´an keresg´elni kell. A hib´ ak s´ uly´ at a k¨ ovetkez˝ o m´ odon sz´ amoljuk: a
a ´
e
´e
i
´ı
o
´o
u
u ´
¨o
u ¨
˝o
u ˝
0
0.4
0
0.4
0
0.2
0
0.4
0
0.3
0.5
0.5
0.5
0.5
´
0.6
0
0.6
0
0.3
0
0.6
0
0.4
0
1
1
1
1
¨
-
-
-
-
-
-
0.9
1
0.9
1
0
0
0.3
0.3
˝
-
-
-
-
-
-
1
1
1
1
0.4
0.4
0
0
ˇ
0.6
0.4
0.6
0.4
0.3
0.2
0.6
0.4
0.4
0.3
0.4
0.4
0.3
0.3
B´ ar az egyes hib´ aknak tulajdon´ıtott numerikus ´ert´ekek n´emileg ¨onk´enyesek, t´abl´azatunk u ´gy v´elj¨ uk helyesen t¨ ukr¨ ozi az ´ atlagos olvas´ o preferenci´ait: • A legzavar´ obb hib´ ak az o/´ o ´es u/´ u helyetti ˝o illetve u ˝, tov´abb´a az ¨o/˝o ´es u ¨/˝ u helyetti ´o illetve u ´. • A legkev´esb´e zavar´ o hiba az ´ı helyetti i. ´ • Ekezet hozz´ aad´ asa zavar´ obb mint ´ekezet elhagy´asa. • Azok a hib´ ak, amelyek csak a mag´anhangz´o hossz´at befoly´asolj´ak, kev´esb´e zavar´oak mint azok, melyek min˝ os´egi k¨ ul¨ onbs´eget is jelentenek. • A ˇ ´ekezet kit´etele legfeljebb ugyanakkora hiba mint az adott oszlop legkisebb hib´aja (´ovatos m´ odban ennek is csak a fel´et indokolt felsz´am´ıtani). Ig´enyesebb felhaszn´ al´ o-bar´ ats´ agi (user-friendliness) illetve pszicholingvisztikai vizsg´alatok ugyan m´eg m´ odos´ıthatj´ ak n´emileg a fenti t´ abl´ azatot, de az m´ar jelen form´aj´aj´aban megfelel annak a c´elnak, hogy a hib´ as alakok mechanikus lesz´ amol´ asa helyett egy finomabb statisztikai m´er˝osz´amot adjon. Egy tipikus elektronikus cikken (a Batthy´ any Lajos Alap´ıtv´any Napi Sajt´oszeml´ejenk okt´ober 29-i sz´am´an) ¨osszehasonl´ıtva a kett˝ ot, azt tal´ aljuk, hogy a program annak 2280 szav´ab´ol 95-ben nem tal´alja meg a helyes
9
´ekezetet, ami 4.16%-os hibaar´ any, viszont fenti t´abl´azat ´ert´ekeivel sz´amolva 5539 mag´anhangz´on 87.1 hibapontot kapunk, ami mind¨ ossze 1.58%-os hibaar´any. ´ Erdemes megeml´ıteni, hogy a hib´ ak nagyj´ab´ol fele olyan, hogy a kontextus ismerete n´elk¨ ul nem jav´ıthat´ o: szerepˇ et,vezettˇ ek stb. B´ ar az ilyesfajta ragoz´asi t¨obb´ertelm˝ us´eg el˝ofordul m´ely hangrend˝ u szavakn´ al is (pl. megrong´ altˇ ak) az ´ e/e hib´ak t¨obb mint k´etszer olyan gyakoriak mint az ´ a/a hib´ ak. Ak´ ar a t´ abl´ azat szerint s´ ulyozva sz´ amoljuk ak´ar darabsz´amra, az ´ e/e ´es ´ a/a hib´ak adj´ak az ¨osszhiba mintegy k´etharmad r´esz´et.
3.2
Morfol´ ogia ´ es indirekt keres´ es
Mint az el˝ obbi szakasz p´eld´ ai is mutatj´ ak, igen gyakran tal´alunk olyan hib´akat, amiket m´eg a helyes morfol´ ogiai elemz´es ismeret´eben sem tudunk kijav´ıtani – olyan gyakran, hogy ez a morfol´ogiai elemz´es hasznoss´ ag´ at eleve k´erd´esess´e teszi, k¨ ul¨ on¨osen annak a f´eny´eben, hogy statisztikai alapon ´ep´ıtett morfol´ ogiai elemz˝ oh¨ oz konzervat´ıv becsl´es szerint is legal´abb harmincmilli´ard sz´oalakra (teh´at a jelenleg elektronikus form´ aban el´erhet˝ o sz¨ ovegekn´el n´egy nagys´agrenddel t¨obbre) lenne sz¨ uks´eg (Kornai 1992). Ugyanakkor az is igaz, hogy a szavak t¨ obbs´ege a mint´aban csak egy- vagy k´etf´ele ragozott alakban fordul el˝ o, teh´ at a rendszernek k´epesnek kell lennie eddig m´eg nem l´atott ragozott form´ak kik¨ovetkeztet´es´ere, a sz´ ot˝ o alapj´ an val´ o indirekt keres´esre is. Rendszer¨ unk ezt egy hat´ekony, b´ ar nyelv´eszeti szempontb´ol ¨onk´enyes algoritmussal oldja meg. Ha pl. a baranyborbe sz´ oalakot nem tal´ aljuk meg a sz´ot´arban, akkor sorra megn´ezz¨ uk az baranyborb, baranybor, baranybo, baranyb kezdet˝ u alakokat (jelenleg legfeljebb 4 bet˝ u lev´ag´as´at engedj¨ uk meg, ´es megk¨ ovetelj¨ uk, hogy a marad´ek legal´abb 5 bet˝ u hossz´ u legyen). A p´eld´aban ez az elj´ar´as az els˝ o l´ep´esben sikerre vezet, ugyanis a baranyborbol alak szerepel a nagyszot´arban, ´es tudjuk hogy ennek a helyes ´ekez´ese b´ ar´ anyb˝orb˝ol. Ebb˝ ol teh´at a keresett darab b´ ar´ anyb˝orb- nek ad´odik, ´es ehhez m´eg hozz´ atessz¨ uk a (mindig ´ekezettelen¨ ul hagyott) e v´egz˝od´est, ami a helyes b´ ar´ anyb˝orbe form´at adja. Term´eszetesen az elj´ ar´ as sikere nem garant´alt, pl. az elszaporodasatol forma eset´en az algoritmus az elszaporod´ asa form´ at tal´ alja meg, ´es az ebb˝ol mechanikusan vissz´all´ıtott elszaporod´ asatol nem t¨ ukr¨ ozi sem a -t´ ol inherens hossz´ u ´ o-j´ at, sem azt, hogy ny´ılt-mag´anhangz´o-ny´ ul´as (N´adasdy-Sipt´ ar 1994:2.2.3.1) hat´ as´ ara a birtokrag a-ja helyett ´ a-t tal´alunk. A m´ odszer a nagysz´ ot´ arban nem tal´ alt szavak harmad´at tal´alja meg, ´es ezeknek kicsit t¨obb, mint fel´en ad hib´ atlan eredm´enyt. De ahol nem hib´atlan, ott is sz´amos ´ekezetet jav´ıt: alkalmaz´asa n´elk¨ ul a tesztelt anyagon az ¨ osszes´ıtett hibapontsz´am nem 87.1, hanem 106 lenne. A toldal´ekok inherens ´ekezeteinek be´ep´ıt´ese ut´ an a hibapontsz´am 78.5-re cs¨okken, a ny´ılt-mag´anhangz´o-ny´ ul´as figyelembev´etele pedig ezt 73.1-re jav´ıtja. Becsl´es¨ unk szerint ezzel a k´et kieg´esz´ıt´essel a mechanikus v´ag´o-al-
10
goritmus a teljes morfol´ ogiai elemz´essel kijav´ıthat´o hib´ak t¨obb mint 80%-´at kijav´ıtja. A jelenleg a www.hungary.org/ekito.cgi alatt fut´ o rendszerben, amely a cs.rice.edu public/andras k¨onyvt´ ar´ aban ekesit.tar.gz n´even ´erhet˝ o el ftp-vel, ezek a kieg´esz´ıt´esek m´eg nem szerepelnek.
3.3
Kitekint´ es a szintaxisra
Rendszer¨ unk jelenleg m´eg nem tartalmaz szintaktikai elemz˝ot, teh´at az ebben a szakaszban foglaltak n´emileg spekulat´ıv jelleg˝ uek. Mint eml´ıtett¨ uk, a rendszer ´altal nem jav´ıtott ´ekezethib´ak mintegy fele csak a kontextus ismeret´eben lenne biztons´ aggal jav´ıthat´o. Az ilyen hib´ak 40%-a a sz´ofaj ismeret´eben m´ ar jav´ıthat´ o lenne: pl. mˇ eg, ˇ ugy, szˇ oba. A statisztikai nyelv´eszet m´odszereivel a sz´ofaj meghat´aroz´ asa (tagging) igen nagy sikerrel megoldhat´ o, s˝ot csak ´ıgy oldhat´o meg: az u.n. rejtett Markov-l´ancokon alapul´ o sz´ ofajmeghat´ aroz´ o programok hat´ekonys´aga messze fel¨ ulm´ ulja a hagyom´anyos szab´aly-alap´ u szintaktikai sz´ ofajmeghat´ aroz´ ok hat´ekonys´ag´at. M´eg k´et nagy hibaoszt´ alyt tal´ alunk: az alanyi ´es t´argyas ragoz´as´ u ig´ek (mint´ankban pl. vettˇ ek) illetve a birtokjeles illetve jel¨ oletlen esetragos form´ak (hatalmˇ at, k¨ uld¨ ottgy˝ul´ esˇ en) a szintaktikailag jav´ıthat´ o hib´ ak u ´jabb 30-30%-´ at jelentik. Mint´ankban mind¨ossze egy olyan szintaktikailag jav´ıthat´ o hiba volt ami a fenti h´ arom oszt´ aly egyik´ebe sem sorolhat´o, ez a kor´ u/k¨ or˝u p´ar, melynek felold´as´ahoz az egyes elemek szelekci´ os megk¨ ot´eseit is figyelembe kellene venni. (Lesznek olyanok, akik ezt nem is a szintaxis, hanem a szemantika k¨ or´ebe utalj´ak). B´ar magyar v´altozat m´eg tudtunkkal nem l´etezik, a f˝ on´evi csoportok megtal´ al´ as´ aban (chunking) is hat´ekonyabbak a statisztikai m´odszerek a szab´aly-alap´ u rendszererekn´el. ¨ Osszess´ eg´eben arra sz´ am´ıthatunk, hogy statisztikai alap´ u szintaktikai elemz´essel a rendszer hib´aja a jelenlegi fel´ere cs¨ okkenthet˝ o, ´es ennek a javul´asnak a k´etharmada m´ar a legegyszer˝ ubb, a szavak helyett a sz´ op´ arok gyakoris´ ag´ at sz´ amontart´ o u.n. bigramma-elemz´essel is el´erhet˝o. Figyelembe kell venni azonban azt is, hogy a szintaktikai elemz´es a rendszer t´arig´eny´et egy nagys´agrenddel megn¨oveln´e, sebess´eg´et pedig hasonl´ o m´ert´ekben cs¨ okkenten´e.
3.4
Tanuls´ agok
Programunk els˝ o ´es legfontosabb tanuls´ aga az, hogy a gyakorlati probl´em´ak megold´as´anak nem el˝ofelt´etele az elm´eleti probl´em´ ak megold´ asa. B´ ar a m´ern¨oki elme sz´am´ara evidens, hogy a k¨onnyebb feladatot nem ´erdemes a nehezebbre visszavezetni, a tudom´anyr´ol vallott felfog´ast er˝osen ´athatja az a “fel¨ ulr˝ ol vez´erelt” (top down) modell, melyben az elm´eleti eredm´enyeket az alkalmaz´asok csak akadozva, gyakran jelent˝ os lemarad´ assal k¨ ovetik. Meglehet, hogy a matematika ´es a fizika, illetve a fizika ´es a fizik´an alapul´ o technol´ ogia eset´eben val´ oban ez a helyes modell. De az elm´eleti megismer´estan (cognitive science) 11
´es a mesters´eges intelligencia nincsenek abban a helyzetben, hogy a nyelv´eszeti jelleg˝ u alkalmaz´asoknak utat mutassanak, hiszen kulcsprobl´em´ aik nagyr´eszt megoldatlanok. Ugyan kev´esb´e ´eles form´ aban, de hasonl´o tanuls´ag vonhat´o le a szimb´olum-manipul´aci´on alapul´ o nyelv´eszet ´es a statisztikai elemz´es viszony´ar´ol is. L´atjuk, hogy a megfelel˝o eszk¨oz¨okkel az elm´eleti nyelv´eszetben r´eg´ ota sz´ amon tartott jelens´egek (pl. a toldal´ekok inherens ´es kontextu´alisan meghat´ arozott tulajdons´ againak elk¨ ul¨ on´ıt´ese, vagy a ny´ılt-mag´anhangz´o-ny´ ul´as t¨orv´enye) statisztikai alapon is relev´ ansnak bizonyulnak. De l´ atjuk azt is, hogy ezek a jelens´egek csak akkor v´alnak ´eszrevehet˝ov´e, ha az elm´eletileg esetleg ´erdektelen, de statisztikailag domin´ans jelens´egk¨orr˝ol m´ar sikerrel sz´amot adtunk. Ha valamire megtan´ıtott benn¨ unket az utols´o harminc ´ev megismer´estudom´anya, akkor ez az a felismer´es, hogy az emberi mem´ oria “olcs´ o”, a g´epi mem´ori´an´al sokkal nagyobb b˝os´egben rendelkez´esre all´ ´ o er˝ oforr´ as, az emberi szimb´ olum-manipul´aci´o pedig “dr´aga”, a sz´am´ıt´og´epes aritmetikai ´es logikai m˝ uveletekhez k´epest lass´ u ´es megb´ızhatatlan tev´ekenys´eg. Amikor teh´at egy olyan folyamat g´epi modellez´es´evel foglalkozunk mint az ´ekez´es, melyet az emberek k¨onnyen ´es hat´ekonyan v´egeznek, akkor ´erdemes olyan er˝ oforr´ asokat haszn´ alnunk amelyek az embereknek b˝os´eggel rendelkez´es¨ ukre ´allnak, ´es ´erdemes minimaliz´ alni azokat a l´ep´eseket, amelyek elv´egz´ese az embereknek neh´ezs´eget okoz. Mindennek alapj´ an teh´ at azt j´ osoljuk, hogy a szimb´ olum-manipul´aci´on alapul´o, “kem´eny mesters´eges intelligencia” jelleg˝ u nyelv´eszetet a statisztikai m´ odszereken alapul´o elemz´es egyre jobban h´att´erbe fogja szor´ıtani, nemcsak az alkalmazott, hanem az elm´eleti kutat´asok k¨or´eben is.
Felhaszn´ alt irodalom F¨ uredi Mih´ aly ´es Kelemen J´ ozsef (szerk): A mai magyar nyelv sz´eppr´ ozai gyakoris´ agi sz´ ot´ ara Akad´emiai Kiad´ o, Budapest 1989 Donald E. Knuth: A sz´ am´ıt´ og´ep-programoz´ as m˝ uv´eszete. M˝ uszaki K¨onyvkiad´o, Budapest 1988 Kornai Andr´ as: Frequency in morphology. In: Kenesei Istv´an (szerk): Approaches to Hungarian IV (1992) 246-268 Douglas B. Lenat: CYC: a large-scale investment in knowledge infrastructure Communications of the ACM 38 (1995) 32-38 ´ am ´es Sipt´ N´ adasdy Ad´ ar P´eter: A mag´anhangz´ok. In: Kiefer Ferenc (szerk): Struktur´ alis Magyar Nyelvtan 2. Fonol´ ogia 42-181 Akad´emiai Kiad´o, Budapest 1994
12