Nyelvtechnol´ogia ´es kultur´alis o¨r¨oks´eg, avagy korpusz´ep´ıt´es o´magyar k´odexekb˝ol Simon Eszter, Sass B´alint MTA Nyelvtudom´anyi Int´ezet, Budapest {simon.eszter,sass.balint}@nytud.mta.hu
Kivonat A nyelvi kultur´ alis ¨ or¨ oks´eg el´erhet˝ov´e t´etel´eben kulcsfontoss´ag´ u szerep jut a nyelvtechnol´ ogi´ anak, melynek m´odszereivel a kutat´ok egys´eges, k¨ovetkezetes, nyelvi inform´ aci´ oval ell´ atott adatb´ azisokhoz juthatnak. A nyelvt¨ort´en´eszek ´es nyelvtechnol´ ogusok egyik legfontosabb egy¨ uttm˝ uk¨od´esi terepe a t¨ort´eneti korpuszok ´ep´ıt´ese, melyek kiv´ al´ o alapanyagot szolg´ altatnak az elm´eleti kutat´asoknak. Cikk¨ unkben egy omagyar nyelvt¨ ´ ort´eneti adatb´ azis l´etrehoz´as´ar´ol sz´amolunk be, bemutatjuk a teljes korpusz´ep´ıt´esi munkafolyamatot a szkennel´est˝ol a korpuszlek´erdez˝o eszk¨ozig.
Kulcsszavak: kultur´ alis ¨ or¨ oks´eg, nyelvtechnol´ogia, t¨ort´eneti korpusz, sz¨ovegnormaliz´al´as, korpusz´ep´ıt´es
1.
Bevezet´ es: nyelvtechnol´ ogia ´ es kultur´ alis ¨ or¨ oks´ eg
A t´arsadalom- ´es b¨ olcs´eszettudom´ anyok ter¨ ulet´en t´enyked˝o kutat´ok kor´abban els˝osorban pap´ıralap´ u forr´ asokb´ ol: k´eziratokb´ ol, k¨onyvekb˝ol dolgoztak. Az elm´ ult ´evtizedek sor´an azonban az inform´ aci´ ohoz val´ o hozz´af´er´es m´odja a sz´am´ıt´og´epek ´es az internet haszn´alat´anak elterjed´es´evel mer˝ oben megv´altozott. Ma m´ar a k¨onyvt´arban sem kell katal´ogusc´edul´akat ´ atbogar´ aszni, ha meg akarjuk tudni egy k¨onyv el´erhet˝os´eg´et, hanem viszonylag k¨onnyen ´es egyszer˝ uen tudunk az interneten kereszt¨ ul keresni a k¨onyvt´ari adatb´azisokban a k¨onyvekhez tartoz´ o metaadatok (szerz˝o, kiad´o, kiad´as ideje ´es helye stb.) alapj´an. A hum´an tudom´ anyok ´es az inform´ aci´os technol´ogi´ak tal´alkoz´as´aval egyre t¨obb adat v´alik digit´alisan is el´erhet˝ ov´e, ak´ ar a nagy m´ert´ek˝ u digitaliz´aci´os t¨orekv´eseknek k¨osz¨onhet˝oen, ak´ar amiatt, hogy az adat eleve digit´alis form´aban j¨on l´etre. A nyelvi kultur´ alis ¨ or¨ oks´eg el´erhet˝ov´e ´es feldolgozhat´ov´a t´etel´eben kulcsfontoss´ag´ u szerep jut a nyelvtechnol´ ogi´ anak. Az egyszer˝ u digitaliz´al´as, ami ´altal´aban kimer¨ ul a prim´er adat k´epk´ent val´ o beszkennel´es´eben, nem ny´ ujt el´eg sz´elesk¨or˝ u ´es szofisztik´alt keres´esi lehet˝ os´eget. Az olyan sz¨ oveges adatb´azisok, melyekben az elemek k¨ ul¨onf´ele nyelv´eszeti (´es/vagy t¨ ort´eneti, paleogr´afiai stb.) inform´aci´oval vannak ell´atva, sokkal kifinomultabb kutat´ asi alternat´ıv´ akat k´ın´alnak. 1
A hum´ an tudom´ anyok ´es a nyelvtechnol´ogia ¨otv¨oz´ese mindk´et tudom´anyter¨ uletnek nagy hasznot hozhat. A kutat´ ok az egyik oldalon id˝ot nyernek a hat´ekonyabb adatel´er´essel. A sz´ am´ıt´ og´epes feldolgoz´as t´amogatja a k¨ovetkezetess´eget, az egys´egess´eget ´es a metaadatok k¨ onnyebb kezel´es´et. A digitaliz´alt adat nem helyhez k¨ot¨ott, vagyis a kutat´ok b´ arhonnan hozz´ af´erhetnek – ak´ar egy id˝oben p´arhuzamosan is. Ami a nyelvtechnol´ ogiai oldal´ at illeti: a nyelvtechnol´ogusok az elm´ ult ´evtizedekben jellemz˝oen relat´ıve kicsi, sz˝ uk domainre specializ´alt ´es sz˝ urt adathalmazokkal dolgoztak. A nyelvi kultur´ alis ¨ or¨ oks´eg ter¨ ulet´en viszont els˝osorban a sztenderdt˝ol elt´er˝o, illetve archaikus nyelvv´ altozatokkal tal´ alkozunk, amelyek sz´amos kih´ıv´ast ´all´ıtanak a nyelvtechnol´ogusok el´e. A korpusz´ep´ıt´esi munk´alatok sor´an els˝osorban m´ar digitaliz´alt sz¨ovegekb˝ol indulnak ki – de nem ez a helyzet a t¨ort´eneti dokumentumokkal. Az elektronikus form´atumok (s˝ ot az elektromoss´ ag) el˝otti korb´ol sz´armaz´o sz¨ovegekb˝ol val´o korpusz´ep´ıt´es sokkal id˝ o- ´es munkaig´enyesebb folyamat, ´es bizonyos esetekben m´as m´odszereket is ig´enyel, mint a mai sz¨ ovegek eset´eben. M´ar az alapszint˝ u sz¨ovegfeldolgoz´o l´ep´esek (szavakra ´es mondatokra bont´ as, morfol´ogiai elemz´es ´es egy´ertelm˝ us´ıt´es) sor´an az eddigiekn´el robusztusabb vagy teljesen u ´j m´ odszerekre van sz¨ uks´eg. Az ezen a ter¨ uleten kifejlesztett eszk¨ oz¨ ok a nyelvtechnol´ ogia m´as ter¨ uletein is val´osz´ın˝ uleg sikerrel alkalmazhat´oak. Vagyis a kultur´ alis ¨ or¨ oks´eg digitaliz´al´asa sor´an nem csak a m´ar bev´alt m´odszerek u ´j ter¨ uleteken val´ o alkalmaz´ asa t¨ ort´enik, hanem az u ´j m´odszerek u ´j kutat´asi k´erd´eseket is felvetnek. Ezek megold´ as´ ahoz a k¨ ul¨onb¨oz˝o tudom´anyter¨ uletek k´epvisel˝oi k¨oz¨otti szoros egy¨ uttm˝ uk¨ od´esre van sz¨ uks´eg. A nyelvt¨ ort´en´eszek ´es nyelvtechnol´ogusok egyik legfontosabb egy¨ uttm˝ uk¨od´esi terepe a t¨ort´eneti korpuszok ´ep´ıt´ese. A kilencvenes, de legf˝ok´epp a k´etezres ´evekben sorra indultak olyan projektek, melyek egy adott nyelv valamely r´egebbi v´altozat´anak digitaliz´al´as´at ´es feldolgoz´ as´ at c´elozz´ ak (Kroch and Taylor, 2000; de Sousa and Trippel, 2006; Kunstmann and Stein, 2007; Thomas et al., 2007). Ezek a korpuszok term´eszetesen sok param´eter¨ ukben k¨ ul¨ onb¨ oznek: teljes sz¨ovegeket vagy csak r´eszleteket tartalmaznak; egy korszak teljes lefed´es´ere t¨ orekszenek, vagy egy nagyobb kor sz¨ovegeib˝ol k´ıv´annak reprezentat´ıv v´ alogat´ ast adni; morfol´ ogiai ´es szintaktikai annot´aci´ot is tartalmaznak, vagy a puszta sz¨ oveget adj´ ak sz¨ ovegegys´egekre tagolva stb. Annyiban azonban megegyeznek, hogy valamilyen szint˝ u nyelvi inform´aci´ot mindenk´eppen tartalmaznak, ´es szofisztik´alt keres´eseket tesznek lehet˝ ov´e, hogy min´el ink´abb megk¨onny´ıts´ek a nyelv´eszeti, irodalmi vagy t¨ort´enelmi c´el´ u kutat´ asokat. Cikk¨ unkben egy, a fenti trendbe illeszked˝o projektet mutatunk be, melynek c´elja, hogy diakr´ on szintaktikai vizsg´ alatokat v´egezzen magyar nyelv˝ u sz¨ovegeken, melyhez els˝odleges fontoss´ ag´ u egy elektronikus nyelvt¨ort´eneti adatb´azis l´etrehoz´asa. A Magyar Generat´ıv T¨ ort´eneti Szintaxis c´ım˝ u projekt keretein bel¨ ul fel´ep´ıt¨ unk egy olyan korpuszt, amely tartalmazza az ¨ osszes fennmaradt ´omagyar kori (896–1526) sz¨ovegeml´eket, ´es amely nyelv´eszeti inform´ aci´ okat tartalmaz elektronikusan el˝oh´ıvhat´o ´es interpret´alhat´o m´odon. A cikkben a teljes korpusz´ep´ıt´esi munkafolyamatot bemutatjuk. A 2. fejezetben a korpusz anyag´ anak ¨ osszegy˝ ujt´es´et ´ırjuk le, majd a 3. fejezetben a feldolgoz´asi l´ep´eseket a szkennel´est˝ ol a bet˝ uh˝ u sz¨ oveg el˝ o´ all´ıt´as´aig. A 4. ´es az 5. fejezetek a k´ezi ´es a g´epi norma-
2
liz´al´ast mutatj´ ak be. A 6. fejezet a morfol´ogiai elemz´es ´es egy´ertelm˝ us´ıt´es feladatk¨or´et t´argyalja. A 7. fejezetben azt vizsg´aljuk, hogy hol kaphatnak helyet az automatikus, f´elautomatikus ´es manu´ alis nyelvfeldolgoz´o elj´ar´asok a korpusz´ep´ıt´esi munk´alatokban. A 8. fejezet a korpusz fel´ep´ıt´es´et, a 9. fejezet pedig a hozz´a k´esz¨ ult lek´erdez˝o eszk¨ozt mutatja be. Ugyanitt n´eh´ any p´eld´ an kereszt¨ ul azt illusztr´aljuk, hogy a korpusz seg´ıts´eg´evel milyen t´ıpus´ u nyelv´eszeti k´erd´eseket tudunk megv´alaszolni. V´eg¨ ul az ¨osszegz´es el˝ott a korpusz´ep´ıt´essel kapcsolatos tov´ abbi feladatainkr´ol esik sz´o.
2.
A korpusz anyag´ anak o ¨sszegy˝ ujt´ ese
A reprezentativit´ as, de legal´ abbis a kiegyens´ ulyozott sz¨ovegv´alogat´as a korpusz´ep´ıt´es fontos elve. Ez azonban h´ att´erbe szorul, ha eleve korl´atozott az el´erhet˝o nyelvi anyag mennyis´ege (p´eld´ aul ha egy holt nyelv vagy egy nagyon speci´alis nyelvi r´eteg adja a korpusz anyag´ at). Ez a helyzet az ´ omagyar korpusz eset´eben is, amely – c´elkit˝ uz´es´enek megfelel˝oen – az ¨ osszes ´ omagyar korb´ ol fennmaradt sz¨ovegeml´eket tartalmazza. Sz¨ovegeml´ek alatt az ¨ osszef¨ ugg˝ o mondatokat tartalmaz´o nyelveml´ekeket ´ertj¨ uk; az u ´n. sz´orv´anyeml´ekekkel, amelyekben csak sporadikusan fordulnak el˝o magyar szavak vagy nevek, jelen projektben nem foglalkozunk. Nem szerepelnek tov´abb´a a korpuszban azok a sz¨ovegek sem, amelyeket m´eg soha nem adtak ki nyomtat´asban, vagyis a nyelvt¨ort´eneti ´at´ır´asi munk´at nek¨ unk kellene elv´egezni. A fenti megszor´ıt´ asokat figyelembe v´eve a feldolgozand´o ´omagyar anyag 48 k´odexet, 27 r¨ovidebb sz¨ ovegeml´eket ´es 244 misszilist (elk¨ uld¨ott levelet) foglal mag´aban, vagyis mind¨osszesen k¨ or¨ ulbel¨ ul 2 milli´ o sz¨ovegsz´ot. A korpusz´ep´ıt´es els˝ o l´ep´ese a valamilyen elektronikus sz¨oveges form´atumban m´ar megl´ev˝o nyelvt¨ ort´eneti anyagok ¨ osszegy˝ ujt´ese. A k¨ ul¨onb¨oz˝o forr´asokb´ol (kiad´okt´ol, nyelvt¨ort´en´eszekt˝ ol) sz´ armaz´ o, v´ altozatos fontk´eszleteket haszn´al´o dokumentumokat egys´eges, UTF-8 k´ odol´ as´ u, sztenderd Unicode-karaktereket tartalmaz´o sima sz¨ovegf´ajlokk´a alak´ıtjuk (ld. 3.3. fejezet). M´asik forr´ asunk a Sz´ am´ıt´ og´epes Nyelvt¨ ort´eneti Adatt´ ar, amelyben t¨obb ´omagyar k´odex ´ab´ec´erendes adatt´ ara el´erhet˝o (Jakab and Kiss, 1994, 1997, 2001; Jakab, 2002). A k´odexfeldolgoz´ asi munk´ alatok m´eg a hetvenes ´evekben kezd˝odtek a Debreceni Egyetemen Jakab L´ aszl´ o vezet´es´evel. Az adatt´arban a k´odex c´ımszavai (a sz¨ovegszavak t¨ovei mai magyar ´ at´ır´ asban) ´ ab´ec´erendbe rendezve szerepelnek. A hozz´ajuk tartoz´o bet˝ uh˝ u sz¨ovegszavakat a lel˝ ohely (lapsz´ am, sorsz´am) megjel¨ol´es´evel k¨ozlik, mellett¨ uk sz´amokkal r¨ogz´ıtett´ek az adatra vonatkoz´ o helyes´ır´as-t¨ort´eneti, sz´ot¨ort´eneti, hangtani, sz´ofajtani, jelent´estani ´es alaktani tudnival´ okat. A sz¨ovegben sokszor el˝ofordul´o szavakat egy f¨ uggel´ekben k¨ ul¨ on´ıtett´ek el, melyeket a lel˝ohely alapj´an visszahelyez¨ unk az eredeti k´odexbeli hely¨ ukre. Az egyes sz¨ ovegszavak soron bel¨ uli sorrendj´et nem k¨ozlik, ez´ert a sorbarendez´est is elv´egezz¨ uk. Ezut´ an a t¨obbf´ele fontk´eszletet alkalmaz´o t´abl´azatot UTF-8 k´odol´as´ u sima sz¨ ovegg´e alak´ıtjuk, majd ebb˝ol ´all´ıtjuk vissza a k´odexek eredeti bet˝ uh˝ u sz¨oveg´et. Az egyes sz¨ ovegszavakhoz tartoz´o morfol´ogiai elemz´est az ´altalunk haszn´alt morfol´ogiai elemz˝ o kimeneti form´ atum´ara alak´ıtjuk, tov´abb´a a mai magyar t¨ovek ´es az elemz´es alapj´ an rekonstru´ aljuk a normaliz´alt sz´oalakot (ld. 4. fejezet). Ennek a kon3
vert´al´asi munkafolyamatnak a v´eg´en megkapjuk az adott k´odex szavainak bet˝ uh˝ u ´es normaliz´ alt alakj´ at, valamint a hozz´ajuk tartoz´o egy´ertelm˝ u morfol´ogiai elemz´est (a feldolgoz´asi szintekr˝ ol r´eszletesen ld. a 8. fejezetet). Az ´omagyar sz¨ ovegek nagy r´esz´enek azonban nincsen elektronikusan el´erhet˝o sz¨oveges v´altozata, ´ıgy ezeket a sz´ am´ıt´ og´ep ´ altal olvashat´o ´es feldolgozhat´o form´ara kell hoznunk. Ez a r¨ovidebb sz¨ ovegek eset´eben a´ltal´aban beg´epel´essel, a hosszabbak eset´eben szkennel´essel, optikai karakterfelismer˝ o (OCR) program alkalmaz´as´aval ´es k´ezi ellen˝orz´essel t¨ort´enik.
3. 3.1.
A korpusz anyag´ anak feldolgoz´ asa Szkennel´ es
N´eh´any k´ odex beszkennelt verzi´ oja megtal´alhat´o a Magyar Elektronikus K¨onyvt´arban, s˝ot ezek egy r´esze u ´n. ,,szendvics” PDF, vagyis a k´ep m¨og¨ott megtal´alhat´o az OCR-ezett sz¨oveg is. Ennek ellen´ere ezeket nem tudtuk haszn´alni: a m¨og¨ottes sz¨oveg nem esett ´at k´ezi ellen˝ orz´esen, vagyis meglehet˝ osen sok benne a hiba, a k´epek felbont´asa pedig nem el´eg j´o az OCR-ez´eshez. ´Igy minden k´ odexet, amelyet nem tudtunk sz¨oveges form´aban megszerezni, minimum 300 dpi felbont´ asban beszkennelt¨ unk.
3.2.
Optikai karakterfelismer´ es
Az ´omagyar k´ odexekben tal´ alhat´ o nagysz´am´ u k¨ ul¨onleges karakter kezel´ese miatt az OCR programmal szemben alapvet˝ o elv´ ar´asunk volt a tan´ıthat´ os´ ag. Ez ut´obbi azt jelenti, hogy a program nem z´ art karakterk´eszlettel dolgozik, hanem meg lehet neki adni b´armilyen u ´j karaktert. A sz´ oba j¨ ohet˝ o ny´ılt forr´ask´od´ u szoftverek k¨oz¨ ul a Tesseractot pr´ob´altuk ki, amelynek az a h´ atr´ anya, hogy az ¨osszes felismerend˝o dokumentum alapj´an egy eg´esz karakterk´eszletet (nyelvet) kell megtan´ıtani neki. Ez´ert v´eg¨ ul az Abbyy FineReader 9.0 Professional edition mellett d¨ ont¨ ott¨ unk. Ez ugyan nem ny´ılt forr´ask´od´ u, de karakterr˝ol karakterre, interakt´ıv m´ odon tan´ıthat´o, ´es el´eg j´o min˝os´eg˝ u kimenetet ad. Az OCR program teljes´ıtm´eny´et sz´opontoss´aggal (word accuracy, WAcc) m´ert¨ uk, amely egy dokumentumban a helyesen felismert szavak ´es az ¨osszes sz´o sz´am´anak az ar´anya. Az el˝ ozetes elv´ ar´ asoknak megfelel˝oen az eredm´enyek azt mutatj´ak, hogy a pontoss´ag nagyban f¨ ugg a k´ odexekben alkalmazott helyes´ır´ast´ol. Kniezsa (1952) az ´omagyar kori k´odexek kezeinek helyes´ır´ as´ at h´arom nagy t´ıpusba sorolja; a ki´ert´ekel´esn´el ezt a kategoriz´al´ ast k¨ ovett¨ uk. A mell´ekjel n´elk¨ uli helyes´ır´as a latinban nem szerepl˝o magyar hangokat t¨ obb bet˝ u kombin´ aci´ oj´ aval ´ırja le, p´eld´aul: cs → ch ∼ cz ∼ chy ∼ chi ∼ cy. A mell´ekjeles helyes´ır´ as egy rokonhang bet˝ uj´enek mell´ekjeles v´altozat´aval jel¨oli ezeket, p´eld´aul: cs → ˇc ∼ ´c. A harmadik t´ıpus pedig ezek kever´eke, amely egy hang jel¨ol´es´ere karakterkombin´ aci´ okat ´es diakritikus jeleket (ak´ar egyszerre is) haszn´al, p´eld´aul: cs → ch ∼ chy ∼ cyh ∼ c ∼ chi ∼ ˇc ∼ ch’. A ki´ert´ekel´eshez h´arom k´odexet v´alasztottunk a h´arom k¨ ul¨ onb¨ oz˝ o t´ıpusb´ ol, tov´ abb´ a ¨osszehasonl´ıt´asi alapk´ent egy r¨ovidebb mai magyar sz¨ovegen is ki´ert´ekelt¨ uk a szoftver teljes´ıtm´eny´et. 4
Az 1. t´ abl´ azatb´ ol kiolvashat´ o, hogy legjobban a mell´ekjel n´elk¨ uli helyes´ır´assal boldogult a program: ez nagyj´ ab´ ol megegyezik a mai magyar sz¨ovegek felismer´es´eben ny´ ujtott pontoss´aggal. A mell´ekjeles ´es kever´ek helyes´ır´as´ u k´odexekben haszn´alt speci´alis karakterek nagy sz´ ama a tan´ıt´ as ellen´ere is k¨ozel 30%-kal rontotta a pontoss´agot. A mell´ekjel n´elk¨ uli k´ odexek eset´eben a latin ´ ab´ec´e bet˝ uit kell felismerni, ez´ert itt az OCR program j´o teljes´ıtm´enyt ny´ ujt. A bonyolult, ak´ar t¨obbsz¨or¨os, illetve egym´ashoz hasonl´o ´ekezetek elk¨ ul¨on´ıt´ese viszont probl´em´ at okoz. A jelent˝os teljes´ıtm´enycs¨okken´es h´atter´eben teh´at ezeknek a diakritikus jeleknek a nem kiel´eg´ıt˝o kezel´ese ´allhat, ahogy err˝ol p´eld´aul Volk et al. (2010) is besz´ amol. k´ odex helyes´ır´ as Kulcs´ ar mell´ekjel n´elk¨ uli M¨ uncheni mell´ekjeles Czech kever´ek – mai magyar
tokensz´am felismert 36.321 35.258 74.657 50.790 11.478 7.910 5.121 5.068
WAcc (%) 97,07 68,03 68,91 98,97
1. t´ abl´ azat. Az OCR sz´opontoss´aga helyes´ır´asi t´ıpusok szerint.
3.3.
A bet˝ uh˝ u sz¨ oveg el˝ o´ all´ıt´ asa
A bet˝ uh˝ u sz¨ oveg elk´esz´ıt´esekor nem a k´odexek k´ezzel ´ırott v´altozat´at, hanem az ´altalunk haszn´alt ´ atirat szerkeszt˝ oj´enek konvenci´oit k¨ovetj¨ uk, vagyis nem felt´etlen¨ ul t¨oreksz¨ unk t¨ok´eletes paleogr´ afiai pontoss´ agra. P´eld´aul a J´okai-k´odex eset´eben a Jakab-f´ele adatt´arb´ol (Jakab, 2002) indultunk ki, amely nem jel¨oli k¨ ul¨on a korban gyakran haszn´alt, ´am a nyelvt¨ort´en´eszek nagy r´esze szerint jelent´esmegk¨ ul¨onb¨oztet˝o szereppel nem rendelkez˝o hossz´ u s-t. ´Igy ebben a k´ odexben mi sem jel¨olj¨ uk ezt a karaktert, annak ellen´ere, hogy a k´odexek jelent˝ os h´ anyad´ aban jel¨ olve van. Ahol egyedi indokkal m´egis elt´er¨ unk a szerkeszt˝o k¨ozl´es´et˝ ol, azt mindig k¨ ul¨ on jelezz¨ uk. A szabv´ anyoss´ ag el˝ onyei miatt a teljes korpuszt UTF-8 k´odol´as´ u sztenderd Unicodekarakterek kel t´ aroljuk, ´es jelen´ıtj¨ uk meg. A nemzetk¨ozi Unicode szabv´any (http://unicode.org) ´eppen az´ert j¨ ott l´etre, hogy a vil´ ag ¨osszes nyelv´enek ¨osszes karakter´et egy k´odol´asi rendszerbe foglalja, lehet˝ ov´e t´eve minden ma haszn´alatos karakter egys´eges megjelen´ıt´es´et. Mivel minden platformon el´erhet˝ o, sz´eles k¨orben elterjedt ´es elfogadott szabv´any, ´erdemes volt az ´omagyar karakterek t´ arol´ as´ ara ´es reprezent´al´as´ara is az UTF-8 k´odol´as´ u Unicodeot v´alasztani. A Unicode nagy el˝ onye, hogy az alapkaraktereket ´es a diakritikus jeleket k¨ ul¨on egys´egekk´ent (k¨ ul¨ on k´ oddal) t´arolja, ´es lehet˝os´eget ny´ ujt ezek szabad ¨ossze´ep´ıt´e´ s´ere. Igy nemcsak az a-b´ ol ´es a vessz˝ob˝ol (´) gy´arthatunk ´ a -t, hanem p´eld´aul az y-b´ol ´es az umlautb´ ol (¨) is el˝ o´ all´ıthatjuk az ´omagyar k´odexekben nagyon gyakori ¨y karaktert. A hozz´ aadott ´ekezetek halmozhat´ok is, ´ıgy ezen a m´odon a k´odexek k¨ ul¨onleges karaktereinek jelent˝ os r´esz´et szabv´ anyos k´odol´assal tudjuk reprezent´alni. Mindenk´eppen sz¨ uks´eges egy az eg´esz korpuszra kiterjed˝o szigor´ uan egys´eges form´atum, ez teszi lehet˝ ov´e, hogy a lek´erdez´eseket az eg´esz anyagra vonatkoztathassuk. A
5
korpuszok egyik haszna, hogy nem csak p´eld´akat szolg´altatnak bizonyos jelens´egekre, hanem adott lek´erdez´esre az ¨ osszes tal´alatot megadj´ak, ez´altal lehet˝ov´e teszik a jelens´egek statisztikai vizsg´ alat´ at is. A korpusz ezen fontos tulajdons´ag´at csak u ´gy biztos´ıthatjuk, ha k¨ovetkezetesen betartjuk azt az alapelvet, hogy azonos dolgokat mindig ugyan´ ugy, k¨ ul¨onb¨oz˝ oeket pedig mindig elt´er˝ oen jel¨ol¨ unk. Ugyanakkor viszonylag nagy er˝ofesz´ıt´est k´ıv´an ennek az egys´egess´egnek a megval´os´ıt´asa, mert el˝ofordulnak olyan r´egi magyar karakterek is, melyek a sztenderd k´ odt´abl´aban nincsenek reprezent´alva. Ezeket a karaktereket egy kiv´ alasztott Unicode-karakterrel helyettes´ıtj¨ uk, m´egpedig u ´gy, hogy az adott helyettes´ıt˝ o karaktert kiz´ ar´ olag az adott hi´anyz´o eredeti karakter helyett haszn´aljuk a korpuszban. J´ o p´elda erre az u ´n. huszita cs, amely megjelen´es´eben legink´abb egy kiskapit´alis L-hez hasonl´ıthat´ o, ´es amelyet Volf (1874)-et k¨ovetve rendre ˇc -vel helyettes´ıt¨ unk. ´ Eppen a Unicode-t´ abl´ aban nem szerepl˝o k¨ ul¨onleges karakterek teszik sz¨ uks´egess´e, hogy a h´ att´erben egy m´ asik fajta k´odol´ast is alkalmazzunk. Az u ´n. Pr´ osz´eky-k´ od ban a k¨ ul¨onb¨oz˝ o diakritikus jelekkel ell´ atott ´es speci´alis t¨ort´eneti karaktereket bet˝ uk ´es sz´amok kombin´aci´ oj´ aval jel¨ olj¨ uk: p´eld´ aul az ´ a -t a1, az ¨ o-t o2, az u ˝ -t u3 jel¨oli. A Magyar T¨ort´eneti Korpusz sz´ am´ıt´ og´epes adatb´azis´anak el˝o´all´ıt´asakor haszn´alt k´odt´abl´ab´ol (Kiss and Pajzs, 2001) indultunk ki, amelyet az ´omagyar kori speci´alis karakterek nagy sz´ama miatt folyamatosan b˝ ov´ıt¨ unk. Minden sz¨oveget a Unicode-v´altozat mellett Pr´osz´ekyk´odokkal is r¨ ogz´ıt¨ unk, amivel a Unicode hi´anyoss´agai ellen´ere is r¨ogz´ıteni tudunk minden inform´ aci´ ot. A bet˝ u-sz´ am kombin´aci´ok alkalmaz´asa a sz¨ovegbevitel ´es -jav´ıt´as sor´an is hasznos, mivel ´ıgy a beg´epel˝ ok ´es a nyers OCR-kimenet jav´ıt´as´at v´egz˝ok oper´aci´os rendszert˝ ol ´es sz¨ ovegszerkeszt˝ ot˝ ol f¨ uggetlen¨ ul, egyszer˝ uen be tudj´ak vinni a speci´alis karaktereket is. A bet˝ uh˝ u sz¨ ovegv´ altozat el˝ o´ all´ıt´asakor a korabeli ´ır´asjeleket, elv´alaszt´asokat (illetve azok hi´any´ at), egybe- ´es k¨ ul¨ on´ır´ ast, a mondat- ´es tulajdonn´evkezd˝o kis- ´es nagybet˝ uket megtartjuk u ´gy, ahogy a k´ odexkiad´ asban szerepelnek. Az eredeti k´odexbeli sz´ınez´eseket, bet˝ uvastag´ıt´ asokat ´es kiemel´eseket nem ˝orizz¨ uk meg, ´es a nyomtatott kiad´as sor´an beleker¨ ult sor- ´es oldalt¨ or´est jel¨ ol˝ o virgul´akat is elhagyjuk.
4.
Normaliz´ al´ as
Az ´omagyar kori sz¨ ovegeml´ekeket ´es k´odexeket a latin nyelv˝ u ´es vall´asos t´argy´ u irodalom ford´ıt´ as´ anak ig´enye h´ıvta ´eletre, de a latin ´ab´ec´e magyarra alkalmaz´asa sz´amos probl´em´ at vetett fel. A legf˝ obb gond abb´ol fakadt, hogy nyelv¨ unk hangrendszer´enek t¨obb eleme a latinban ismeretlen, ´ıgy ezek jel¨ol´es´ere u ´j jeleket kellett bevezetni. Az ´omagyar kor t¨obb mint 6 ´evsz´ azadot fog ´ at, amelynek sor´an nem volt egys´eges hangjel¨ol´esi rendszer, s˝ot egy k´ odexet ak´ ar t¨ obb k´ez is jegyezhetett, ami tov´abbi egyenetlens´egeket okoz a sz¨ovegekben. A k¨ ul¨ onb¨ oz˝ o helyes´ır´asi rendszerekben is ritka az egy hang–egy bet˝ u megfelel´es (vagyis amikor egy hang jel¨ol´es´ere mindig ugyanaz a bet˝ u haszn´alatos, ´es az adott bet˝ unek mindig egy hang´ert´eke van), de egy alakul´oban lev˝o helyes´ır´asi rendszerben ilyenfajta k¨ ovetkezetess´eg m´eg kev´esb´e van jelen. S˝ot ink´abb az a tipikus, hogy egy eml´eken bel¨ ul is ingadozik egy-egy hang jel¨ol´esm´odja (pl. HB: kinec [kinek]), vagy t¨obbes hang´ert´eke van egy-egy bet˝ unek (pl. HB: gimilc´ıctul [gy¨ um¨olcs¨okt˝ol]). Tov´abb bonyol´ıtja 6
a helyzetet, hogy n´eh´ any bet˝ u egyar´ant utalhat mag´anhangz´ora ´es m´assalhangz´ora is, p´eld´aul az u,v,w t¨ obb ´evsz´ azadon ´ at jel¨olhette az u,´ u,¨ u,˝ u,v,β hangok b´armelyik´et (Korompay, 2003). E probl´ema megold´ asa c´elj´ ab´ ol sz¨ uks´eg van egy u ´n. normaliz´ al´ asi l´ep´esre, amelynek sor´an az eredeti bet˝ uh˝ u sz´ oalakokat mai magyar helyes´ır´as´ u szavakra alak´ıtjuk ´at. A t¨obbf´ele, k¨ ul¨ onb¨ oz˝ o nyelvt¨ ort´eneti szakmai ´ervekkel al´at´amaszthat´o lehets´eges feldolgoz´asi forgat´ ok¨ onyvek egyik gyakori k¨oz¨os ´atalak´ıt´o l´ep´ese ez a fajta normaliz´al´as (pl. McEnery and Hardie (2003)). A sz¨ovegfeldolgoz´asnak ez a l´ep´ese kritikus fontoss´ag´ u, en´elk¨ ul ugyanis a (f´el)automatikus annot´aci´o hat´ekonys´aga a k¨ovetkez˝o l´ep´esekben dr´amaian visszaesik (Rayson et al., 2007). A normaliz´ al´ as sor´ an k´et alapelvet tartunk szem el˝ott. Els˝o elv¨ unk, hogy az ¨osszes ma nem l´etez˝ o sz´ ot, toldal´ekot, morfol´ ogiai konstrukci´ot megtartjuk, vagyis morf´em´at nem toldunk be, ´es nem hagyunk el. A 2. t´abl´azat utols´o sora kiv´al´o p´elda erre a jelens´egre: a -va/-ve v´eg˝ u hat´ aroz´ oi igen´ev szem´elyragozhat´o volt, s˝ot a teljes paradigm´aja megvolt ebben a korban (J´ asz´ o, 1992). Ha a normaliz´al´as sor´an ezt az alakot a ma haszn´alatos -va/-ve v´eg˝ u alakra ´ırn´ ank ´ at, nyilv´anval´oan elveszten´enk a morfol´ogiai inform´aci´ot. bet˝ uh˝ u villamik isa iesek ymaduam
normaliz´ alt villamik isa jeszek im´adv´am
´ ertelmez´ es vill´amlik/villanik bizony j¨ov¨ok im´adva E/1.
2. t´ abl´ azat. A normaliz´al´as els˝o alapelve. A normaliz´ al´ as m´ asodik alapelve, hogy elhagyunk minden fonol´ogiai ´es helyes´ır´asi esetlegess´eget, vagyis egys´eges, amennyire lehet, a mainak megfelel˝o helyes´ır´asra t¨oreksz¨ unk. Ez ut´ obbi azt is jelenti, hogy egy adott sz´ot mindig ugyan´ ugy ´ırunk le – ez is az egys´egess´eg elv´enek egy megnyilv´ anul´asa (v¨o. 3.3. fejezet). bet˝ uh˝ u m¯eden menden minden algyu agyu strumlast
normaliz´ alt minden minden minden ´agy´ u ´agy´ u ostroml´ast
3. t´ abl´ azat. A normaliz´al´as m´asodik alapelve. A normaliz´ al´ asi l´ep´es sor´ an t¨ ort´enik meg a sz¨oveg tokenekre ´es mondatokra val´o bont´asa is – mindkett˝ o manu´ alis munk´aval. Az ´omagyar sz¨ovegekben a szavak egybe´ır´asa ´es elv´alaszt´ asa nem a mai szab´ alyokat k¨oveti. Ez´ert a tokeniz´al´as, vagyis a sz¨oveg 7
szavakra szegment´ al´ asa sor´ an az o´magyar sz¨ovegben a szavakat a mai helyes´ır´asnak megfelel˝oen ¨ osszevonjuk, illetve sz´etv´alasztjuk, term´eszetesen jel¨olve a v´altoztat´asokat. A ma haszn´ alatos logikai-grammatikai ´ır´asjelez´es kibontakoz´asa csak a 17. sz´azadban kezd˝odik, vagyis a korabeli k¨ ozpontoz´asra nem t´amaszkodhatunk a mondatra bont´asn´al. Ez´ert a mai ´ertelemben vett automatikus mondatra bont´as lehetetlen v´allalkoz´asnak t˝ unik, ´ıgy ezt a sz¨ ovegfeldolgoz´ asi l´ep´est is manu´alisan v´egezz¨ uk el. Term´eszetesen a k´ezi mondatra bont´ as sem mindig egy´ertelm˝ u – k´ets´eges esetben ink´abb nem tesz¨ unk mondathat´ art, vagyis azt az elvet k¨ ovetj¨ uk, hogy a mondat legyen ink´abb hosszabb, mint r¨ovidebb. Alapesetben az al´ arendel˝o tagmondatot nem v´alasztjuk el a f˝omondatt´ol, m´ıg a mell´erendel˝ o tagmondatot igen. A feladat v´egrehajt´asa sor´an a mai k¨ozpontoz´asi alapelvekhez igazodunk. Mivel a korabeli sz¨ ovegek j´ o r´esze vall´asi t´argy´ u, nagyon sok bibliai nevet tal´alunk benn¨ uk. Az egys´egess´eg jegy´eben a k¨ ul¨onb¨oz˝o bibliaford´ıt´asokban ´es bibliai hist´ori´akban eml´ıtett tulajdonneveket is normaliz´aljuk, vagyis az adott nevek k¨ ul¨onb¨oz˝ok´eppen haszn´alt alakjait egys´eges´ıtj¨ uk. Ehhez a Szent Istv´an T´arsulat bibliaford´ıt´as´at haszn´aljuk: minden tulajdonnevet abban az alakban normaliz´alunk, ahogy ebben a kiad´asban szerepel. Term´eszetesen ez sem mentes a k¨ovetkezetlens´egekt˝ol: bizonyos neveket ebben a kiad´asban sem k¨ oz¨ olnek mindig egys´egesen. Ilyen esetekben a k´etf´ele n´evhaszn´alat k¨oz¨ ul a gyakoribbat v´ alasztjuk.
5.
G´ epi normaliz´ al´ as
Mivel a normaliz´ al´ as rendk´ıv¨ ul id˝ oig´enyes manu´alis munka, megpr´ob´altuk kiv´altani automatikus elj´ ar´ assal. A folyamat sz´ am´ıt´og´epes modellez´es´enek c´elja az volt, hogy v´alaszt kapjunk arra a nagyon fontos gyakorlati k´erd´esre, hogy a sz¨ uks´eges emberi er˝oforr´as alkalmaz´ asa lesz˝ uk´ıthet˝ o-e a teljes anyagn´al nagys´agrendekkel kisebb m´eret˝ u k´ezzel normaliz´alt r´eszkorpusz el˝ o´ all´ıt´ as´ anak feladat´ara, mely az automatikus m´odszerhez tan´ıt´ okorpuszk´ent sz¨ uks´eges. Mivel ez a sz¨ovegnormaliz´al´o konverzi´o anal´og t¨obb klasszikus nyelvfeldolgoz´ asi probl´ema sor´ an jelentkez˝o feladattal, ´ıgy ´erdemesnek t˝ unt az azokban sikerrel alkalmazott m´ odszerek adapt´al´asa ´es eredm´enyess´eg´enek vizsg´alata. F˝o k´erd´es¨ unk az volt, hogy az ´ at´ır´asi feladat mik´ent illeszthet˝o be meghat´arozott g´epi tanul´asi modellekbe, ´es melyek azok a jegyek, amelyek felhaszn´al´asa ezekben a modellekben a feladat elfogadhat´ o pontoss´ ag´ u megold´as´at eredm´enyezi. Ennek ´erdek´eben sz¨ uks´eg volt az adott modellben haszn´ alt jegyeket tartalmaz´o specifikusan annot´alt tan´ıt´o sz¨ovegekre, melyekb˝ ol korl´ atozott mennyis´eg ´all rendelkez´es¨ unkre – ´eppen a normaliz´al´as szak´ertelmet k´ıv´ an´ o, id˝ oig´enyes volta miatt. A fentebb le´ırt sz¨ovegbeli egyenetlens´egek miatt neh´ez egy´ertelm˝ u konverzi´ os szab´alyokat meghat´arozni, valamint emiatt kritikus k´erd´es az is, hogy a tanult modellek milyen m´ert´ekben ´altal´anos´ıthat´ok az elt´er˝o nyelveml´ekekre. Mindezek miatt c´elszer˝ u a probl´em´at valamilyen val´osz´ın˝ us´egi alap´ u paradigma keretei k¨ oz¨ ott vizsg´ alni. Az ´at´ır´as (transzliter´aci´o) nyelvtechnol´ogiai szempont´ u kutat´as´anak igen gazdag eszk¨ ozt´ ara van, a k¨ ul¨onf´ele m´odszerek k¨oz¨ ul mi Shannon zajos csatorna modellj´et (Shannon, 1948) v´alasztottuk. (A feladat lehets´eges megk¨ozel´ıt´eseir˝ol b˝ovebben ld. Oravecz et al. (2009, 2010).) 8
1. ´ abra. Sz¨ ovegnormaliz´al´as zajos csatorna modellben.
Az 1. ´ abr´ an l´ athat´ o modellben az eredeti sz¨oveget u ´gy tekintj¨ uk, mint a normaliz´alt v´altozat egy zajos kommunik´ aci´ os csatorn´an ´atment ,,eltorz´ıtott” v´altozat´at. M jel¨oli a normaliz´ alt sz¨ ovegv´ altozat egy r´esz´et (a p´eld´aban egy r´eszmondatot), E pedig ennek bet˝ uh˝ u ´atirat´ at. A dek´ odol´ o feladata annak az M karaktersorozatnak a megtal´al´asa, amelyre a P (M |E) felt´eteles val´ osz´ın˝ us´eg maxim´alis, vagyis a Bayes-t´etelbe behelyettes´ıtve: ˆ = argmax P (M |E) = argmax P (E|M )P (M ) M M
(1)
M
A feladat egyr´eszt a P (E|M ) csatornamodell, m´asr´eszt a P (M ) forr´asmodell meghat´aroz´asa. A csatornamodell az ,,eredeti bet˝ uh˝ u sz¨oveg → normaliz´alt v´altozat” lek´epez´esekb˝ol ´all el˝o. Ehhez sz¨ uks´eg¨ unk volt egy tan´ıt´okorpuszra, amely k´et ´omagyar kori sz¨ovegeml´ek (M¨ uncheni eml´ek, Szab´ acs viadala) nyelv´esz szak´ert˝ok ´altal k´ezzel normaliz´alt v´altozat´ab´ ol ´ allt el˝ o. A k´et nyelveml´ek tokensz´ama (a nem magyar nyelv˝ u r´eszek elhagy´as´aval) ¨ osszesen 1525. G´epi eszk¨oz¨okkel ´es k´ezi ellen˝orz´essel karakterszinten p´arhuzamos´ıtottuk a bet˝ uh˝ u ´es a normaliz´alt sz¨ovegv´altozatokat, ´ıgy a tan´ıt´okorpusz k¨or¨ ulbel¨ ul 17.000 megfeleltet´est tartalmaz. Ebb˝ol m´ar kisz´am´ıthat´o az egyes megfeleltet´esek val´osz´ın˝ us´ege. A forr´ asmodell azt modellezi, hogy a normaliz´alt sz¨ovegben milyen val´osz´ın˝ us´eggel szerepelnek bizonyos karakterszekvenci´ak. Mivel a normaliz´alt sz¨oveg a mai magyarhoz nagyon hasonl´ o, a forr´ asmodell el˝ oa´ll´ıt´as´ahoz a rendelkez´es¨ unkre ´all´o mai magyar sz¨ovegeket tartalmaz´ o korpusz megfelel˝ o. Ez´ert ezt a Magyar Nemzeti Sz¨ovegt´ar (V´aradi, 2002) egyik alkorpusz´ ab´ ol, mintegy 10 milli´o sz´ob´ol, 65 milli´o karakterb˝ol ´all´ıtottuk el˝o. ˆ ´ert´eket kellett kisz´am´ıtanunk. Ehhez Adott E sztring eset´en az (1) k´eplet szerinti M az eredeti bet˝ uh˝ u sz¨ oveg minden tokenj´eb˝ol a csatornamodell megfeleltet´esei alapj´an a lehets´eges normaliz´ alt v´ altozatokat legener´altuk, melyekhez a modell hozz´arendelte a val´osz´ın˝ us´eg¨ uket is. Ennek alapj´an kaptunk egy rangsort a lehets´eges v´altozatokra, amelyet azt´ an a forr´ asmodell seg´ıts´eg´evel u ´jrarendezt¨ unk – ´ıgy alakult ki az elj´ar´as kimenete. (Az elj´ ar´ as teljes le´ır´ as´ ahoz ld. Oravecz et al. (2009, 2010).) A kimenet minden egyes ´ omagyar sz´ohoz a legjobb n normaliz´alt alakot tartalmaz´o lista. Ennek illusztr´ aci´ oja a 2. ´ abr´ an l´athat´o. A m´odszer val´os haszna abban mutatkozik meg, hogy a manu´ alis annot´ aci´ o reduk´alhat´o a felk´ın´alt alakok k¨oz¨otti v´alaszt´asra, ami jelent˝osen felgyors´ıtja a normaliz´ al´ asi munk´at.
9
fwl (f¨ ul)=> -8,80780895229285 -10,7227286786192 -11,0558158154337 -11,2756412387919 -12,4574295350367 -12,790296695296 -13,519092302452 honneg (honn´ et)=> -19,1117218113907 -19,5230300429664 -20,8376176340216 -21,8538140705439 -22,2098585020436 -22,5639991398073
f¨ ol fel f¨ ul f} ol fol ful fely honneg honn´ eg honn´ et honyneg honyn´ eg h´ onneg
ygen (igen)=> -10,8729908279143 -11,3178857141749 -11,5989613202567 -13,4229320257043 -14,3578433608162 -14,478835649955
ig´ en igen ig´ eny igyen igin igy´ en
sabach (szab´ acs)=> -17,2582527599661 -18,1187648297282 -18,6771909747334 -19,1848409742852 -19,5520665992527 -19,9685260661797
szab´ acs sab´ acs szabacs s´ abacs szabach szab´ ach
2. ´ abra. Legjobb n list´ak k¨ ul¨onb¨oz˝o bemenetekre.
6.
Morfol´ ogiai elemz´ es ´ es egy´ ertelm˝ us´ıt´ es
A normaliz´ al´ asnak k´et f˝ o c´elja van: egyr´eszt ez teszi lehet˝ov´e, hogy a sokf´elek´eppen ´ırt szavak ¨osszes el˝ ofordul´ as´ at megtal´ aljuk, m´asr´eszt a normaliz´alt sz¨ovegv´altozat k´epezi a morfol´ogiai elemz˝ o bemenet´et. Mivel a normaliz´al´as sor´an az ´omagyar sz¨oveget mai magyarra ´ırjuk ´ at, az ez ut´ obbira kifejlesztett automatikus morfol´ogiai elemz˝ot viszonylag k¨onnyen tudjuk alkalmazni a nyelveml´ekek feldolgoz´as´ara. Jelen projektben a Humor elemz˝ot haszn´ aljuk (Pr´ osz´eky and Kis, 1999). Az egyik normaliz´al´asi alapelv¨ unk, hogy minden morfol´ ogiai konstrukci´ ot megtartunk, ez´ert term´eszetesen ki kell b˝ov´ıten¨ unk a lexikont ´es a szab´ alyhalmazt bizonyos ma m´ar nem l´etez˝o, de az ´omagyarban m´eg haszn´alt nyelvi jelens´egek le´ır´ as´ aval. A morfol´ ogiai elemz˝ o kimenet´enek egy´ertelm˝ us´ıt´es´et automatikusan v´egezz¨ uk, ut´olagos k´ezi ellen˝ orz´essel. A 2. fejezetben ismertetett Jakab-f´ele t´abl´azatok konvert´al´as´aval el˝o´allt normaliz´ alt ´es morfol´ ogiailag egy´ertelm˝ us´ıtett anyag tan´ıt´okorpuszk´ent tud szolg´alni egy g´epi egy´ertelm˝ us´ıt˝ o sz´ am´ara. Ennek a kimenet´et azt´an – a g´epi normaliz´al´o kimenet´enek kezel´es´ehez hasonl´ oan – k´ezzel ellen˝orizz¨ uk. M´ar a normaliz´ al´ as sor´ an felmer¨ ul az a probl´ema, hogy vannak olyan ´omagyar sz´oalakok, amelyeket a sz¨ ovegk¨ ornyezet alapj´an sem lehet egy´ertelm˝ uen normaliz´alni. P´eld´aul: B´ecsiK 253.o.: kic n¯e hallottac [kik nem hallottak/hallott´ak]. Mivel ebben a korban a mag´ anhangz´ o hossz´ us´ ag´ at nem jel¨olt´ek, ´es a mondat itt v´eget ´er, nem tudjuk, hogy a hallottac sz´ oalak hat´ arozott vagy hat´arozatlan ragoz´as´ u. Az ilyen esetekben a normaliz´ al´ as, valamint a morfol´ ogiai elemz´es ´es egy´ertelm˝ us´ıt´es sor´an is meg˝orizz¨ uk a sz´oalak alulspecifik´ alts´ ag´ at.
10
7.
Automatikus vagy manu´ alis?
Amint l´attuk, egy jelent˝ os m´eret˝ u korpusz el˝o´all´ıt´asa sor´an sz´amos nagy munkaig´eny˝ u feldolgoz´ o l´ep´est kell megval´ os´ıtani. Az egyik lehet˝os´eg, hogy apr´ol´ekos manu´alis munk´aval szavank´ent dolgozzuk fel, ´es ellen˝orizz¨ uk a korpuszt. Ugyanakkor a nyelvtechnol´ogia c´elja ´eppen az, hogy bizonyos feladatokat a sz´am´ıt´og´ep seg´ıts´eg´evel meggyors´ıtson, vagy eg´esz´eben automatikusan megoldjon. A modern nyelvtechnol´ogiai eszk¨oz¨ok az alapszint˝ u feldolgoz´ o l´ep´eseket (szavakra ´es mondatokra bont´as, morfol´ogiai elemz´es) nagy sebess´eggel, nagy mennyis´eg˝ u (ak´ ar milli´ard sz´onyi) sz¨oveget feldolgozva j´o min˝os´egben oldj´ak meg. Az automatikus nyelvtechnol´ ogiai m´odszerek k´et nagy csoportra oszthat´ok: szab´alyalap´ u, valamint statisztikai, g´epi tanul´asi m´odszerekre. Mindk´et esetben valamilyen m´odon a szab´ alyszer˝ us´egeket pr´ ob´ aljuk felt´erk´epezni; a k´et megk¨ozel´ıt´es k¨oz¨ott l´enyeg´eben az a k¨ ul¨ onbs´eg, hogy az ember vagy a g´ep alak´ıtja-e ki a szab´alyrendszert. A g´epi tanul´ asi m´ odszerek egy jelent˝os csoportj´aban az algoritmusok egy mintahalmaz (´ un. tan´ıt´ okorpusz) alapj´ an fedezik fel az ¨osszef¨ ugg´eseket. Ezek az algoritmusok teh´at a megfelel˝o nyelvi inform´ aci´ oval felc´ımk´ezett korpuszok seg´ıts´eg´evel tan´ıthat´ok ´es tesztelhet˝ok. Az automatikus m´ odszerek j´ o teljes´ıtm´enyt ny´ ujtanak, de nem hib´atlanok. A teljes hibamentess´eg nem ´erhet˝ o el, de bizonyos ter¨ uleteken (pl. tulajdonn´ev-felismer´es) 95% f¨ol¨otti teljes´ıtm´eny is el´erhet˝ o. Fontos l´atni, hogy az automatikus m´odszerek alkalmaz´asa sok esetben egy´ altal´ an nem jelent kompromisszumot a min˝os´eg tekintet´eben, mivel a manu´ alisan v´egzett elemz´es, c´ımk´ez´es szint´en nem hibamentes. V´eletlen¨ ul is el˝ofordulhatnak hib´ ak az elemz˝ o, annot´ator figyelmetlens´ege miatt, enn´el fontosabb azonban, hogy a manu´ alis elemz´esnek is van egy min˝os´egi hat´ara. Azokban az esetekben, amikor ugyanazt a sz¨ ovegr´eszt t¨ obb ember p´arhuzamosan annot´alja, egy´ertelm˝ uen megmutatkozik, hogy min´el nehezebb(en megfogalmazhat´o) egy annot´al´asi feladat, ann´al kisebb az egyet´ert´es az annot´ atorok k¨oz¨ott. Ilyen feladatok eset´en m´ar az emberi munka hibaszintj´et k¨ ozel´ıt˝ o automatikus megold´as is jelent˝os eredm´eny. Abban, hogy egy nyelvfeldolgoz´ asi l´ep´es megval´os´ıt´asakor automatikus vagy manu´alis megold´ashoz folyamodunk, term´eszetesen sz´am´ıt a feldolgozand´o anyag m´erete is. Kis m´eretn´el re´ alis alternat´ıva a manu´ alis munka, illetve az automatikus elemz´es manu´alis ellen˝orz´ese, nagy m´eretn´el azonban kiz´ar´olag az automatikus feldolgoz´asra hagyatkozhatunk. Bizonyos speci´ alis vagy u ´jszer˝ u feladatokn´al megb´ızhat´o automatikus eszk¨oz¨ok hi´any´aban nagyobb a manu´ alis munka l´etjogosults´aga. A fejezet tov´ abbi r´esz´eben a jelen projektben alkalmazott sz¨ovegfeldolgoz´asi l´ep´eseket tekintj¨ uk ´ at automatiz´ alts´ aguk szempontj´ab´ol (v¨o. 4. t´abl´azat). Az optikai karakterfelismer´es (ld. 3.2. fejezet) feladat´ara a mai nyelvekre kifejlesztett megb´ızhat´ o automatikus eszk¨ oz¨ok ´allnak rendelkez´esre. A f˝o neh´ezs´eget az ´omagyar anyagban tal´ alhat´ o k¨ ul¨ onleges karakterek: a kombin´alt diakritikus jelek ´es a latin ´ab´ec´en k´ıv¨ uli karakterek kezel´ese jelenti. Amint ez az 1. t´abl´azatb´ol l´athat´o, a tan´ıthat´o OCR program az alap latin karaktereket kiv´al´oan felismerte, a mell´ekjeles karakterek eset´en azonban j´ oval gyeng´ebb teljes´ıtm´enyt mutatott. Az OCR kimenet´et hibamentess´e kel-
11
lett tenn¨ unk, hogy a tov´ abbi feldolgoz´o l´ep´esek tiszta, zajmentes adatokon dolgozhassanak, ez´ert a hib´ akat k´ezi er˝ ovel jav´ıtottuk. A fenti k´et l´ep´es egy¨ uttese tekinthet˝o f´elautomatikus karakterfelismer´esnek, mely a beg´epel´esn´el (a hosszabb sz¨ovegek eset´eben) gazdas´ agosabbnak bizonyult. A normaliz´ al´ as ´ atfog´ o nyelvt¨ ort´eneti szak´ertelmet ig´enyel, ´es rendk´ıv¨ ul id˝oig´enyes, emiatt megk´ıs´erelt¨ uk a manu´ alis munk´at automatikus eszk¨ozzel seg´ıteni. A statisztikai algoritmus (ld. 5. fejezet) nehezen boldogul az egys´eges ´ır´asm´od hi´anya miatt nagyon szab´alytalan ´ omagyar sz¨ oveg kezel´es´evel, ez´ert azt a megold´ast v´alasztottuk, hogy automatikusan felk´ın´ alunk val´ osz´ın˝ u normaliz´alt alakokat, ´es az ezek k¨oz¨ ul val´o v´alaszt´as m´ar k´ezzel t¨ ort´enik. A normaliz´ al´ as teh´at szint´en f´elautomatikus. A megl´ev˝ o robusztus mai magyar morfol´ogiai elemz˝ore t´amaszkodva a morfol´ogiai elemz´es automatikusan t¨ ort´enhetett. Az elemz˝o adapt´al´as´aval megb´ızhat´o ´omagyar elemz˝oh¨oz jutottunk. Az adapt´ al´ as sor´an egyr´eszt u ´j t¨ovekkel b˝ov´ıtett¨ uk az elemz˝o sz´ot´ar´at, m´ asr´eszt pedig u ´j alakok kezel´es´ere tett¨ uk alkalmass´a az ´omagyar ragoz´asi paradigm´ aknak megfelel˝ oen. Az utols´ o feldolgoz´ asi l´ep´est, az egy´ertelm˝ us´ıt´est – melynek sor´an az egyes sz´oalakokhoz rendelt t¨ obb alternat´ıv morfol´ ogiai elemz´es k¨oz¨ ul v´alasztjuk ki a val´oban ´erv´enyeset –, az OCR-ez´eshez ´es a normaliz´ al´ ashoz hasonl´oan f´elautomatikusan v´egezz¨ uk. ¨ Osszefoglalva elmondhatjuk, hogy ha kell˝oen robusztus eszk¨oz¨ok ´allnak rendelkez´esre, akkor el˝ony¨ osebb a gazdas´ agos, automatikus megold´as v´alaszt´asa. De a k¨ ul¨onf´ele automatikus m´ odszerek megfelel˝ o eszk¨ oz¨ok hi´anya eset´en is seg´ıthetik a k´ezi munk´at, azaz ilyenkor a f´elautomatikus megold´ ast v´alasztjuk. A tiszt´an manu´alis megold´ashoz akkor folyamodunk, ha k¨ ul¨ on¨ osen fontos a hibamentess´eg, illetve nincs elegend˝o/megfelel˝o tan´ıt´oanyag az automatikus m´ odszerek tan´ıt´as´ahoz.
8.
A korpusz fel´ ep´ıt´ ese
A korpusz fel´ep´ıt´ese, vagyis az egyes sz¨ovegszavakhoz tartoz´o annot´aci´os szintek p´arhuzamosan alakulnak a sz¨ ovegfeldolgozotts´agi szintekkel, melyeket a 4. t´abl´azatban l´athatunk. Ezek alapj´ an hat annot´aci´os szintet ´es ¨ot feldolgoz´o l´ep´est k¨ ul¨on´ıthet¨ unk el. Ahhoz, hogy a korpuszban a nyelvi jelens´egek kereshet˝ok legyenek, vagyis az adatb´azis haszn´alhat´ o seg´edeszk¨ oze legyen az elm´eleti nyelv´eszeti ´es nyelvt¨ort´eneti kutat´asoknak, a relev´ans inform´ aci´ okat elektronikusan el˝oh´ıvhat´o ´es interpret´alhat´o m´odon kell t´arolni. A kifinomult, nyelv´eszetileg relev´ ans lek´erdez´esek sok esetben k¨ ul¨onf´ele nyelvi szinteken megjelen˝ o inform´ aci´ ora hivatkoznak. Hogy ezek mind el´erhet˝oek legyenek, adatb´azisunk p´arhuzamosan tartalmazza a 4. t´ abl´azatban l´athat´o sz¨ovegfeldolgozotts´agi szinteknek megfelel˝o nyelvi adatokat. Vagyis minden egyes sz¨ovegsz´ohoz a k¨ovetkez˝o adatok tartoznak: • bet˝ uh˝ u forma (3): ad¨yad • normaliz´ alt alak (4): adjad
12
(1) (2) (3) (4) (5) (6)
kiadott k´ odex szkennelve → automatikus OCR nyers OCR-kimenet → k´ezi jav´ıt´as, k´odol´as bet˝ uh˝ u elektronikus forma → f´elautomatikus normaliz´al´as normaliz´ alt forma → automatikus morfol´ogiai elemz´es sz´ ot¨ oves´ıtett ´es morfol´ogiailag elemzett forma → f´elautomatikus egy´ertelm˝ us´ıt´es egy´ertelm˝ us´ıtett korpusz 4. t´ abl´ azat. Sz¨ovegfeldolgozotts´agi szintek.
• sz´ot˝ o (6) alapj´ an: ad • morfol´ ogiai elemz´es (6): [V.Sub.S2.Def ] A korpusz anyaga vertik´ alis f´ ajlok form´aj´aban k´esz¨ ul el. Ezek .tsv form´atum´ u t´abl´azatok, melyek soronk´ent egy sz¨ovegsz´ot tartalmaznak. Az egyes sz¨ovegfeldolgozotts´agi szintekhez tartoz´ o inform´ aci´okat a megfelel˝o oszlopokban k´odoljuk, ahogy azt az 5. t´abl´ azat mutatja (a p´elda a B´ecsi k´odexb˝ol sz´armazik, amelynek a morfol´ogiai elemz´ese ´es egy´ertelm˝ us´ıt´ese m´eg nem k´esz¨ ult el, ez´ert nem szerepel benne a sz´ot˝o ´es a morfol´ogiai inform´ aci´ o). k´ ez 1 1 1 1 1 1 1 1
k¨ onyv Rut Rut Rut Rut Rut Rut Rut Rut
oldal 4 4 4 4 4 4 4 4
fejezet 2 2 2 2 2 2 2 2
vers 8 8 8 8 8 8 8 8
bet˝ uh˝ u Es monda Booz [No˙emin`ec] Rutnac
norm ´es mond´a Bo´asz
Halgassad leanom· ˙
hallgassad, le´anyom:
´ ert
megj
FAIL Rutnak:
5. t´ abl´ azat. A vertik´alis f´ajlform´atum. A korpusz a k¨ ul¨ onb¨ oz˝ o szinteken feldolgozott sz¨ovegen k´ıv¨ ul sz´amos metaadatot tartalmaz. Az els˝ odleges metaadatok az u ´n. l´ okuszjel¨ ol˝ ok (ld. az 5. t´abl´azat els˝o ¨ot oszlop´at), melyek megadj´ ak, hogy a dokumentumban hol szerepel az ´eppen aktu´alisan keresett sz¨ovegsz´ o. A l´ okuszjel¨ ol˝ ok sz¨ ovegenk´ent v´altoznak, de annyiban megegyeznek, hogy mindig az eredeti k´ odex helyeire vonatkoznak, nem a nyomtatott kiad´as´eira. A p´eld´aul hozott B´ecsi k´ odex eset´eben r¨ ogz´ıtj¨ uk a k´odexm´asol´o kezek sorsz´am´at, valamint a bib13
liai k¨onyv- ´es verssz´ amoz´ ast is, hogy m´as bibliakiad´asokban is visszakereshet˝o legyen az adott sz¨ovegr´esz. A vertik´ alis f´ ajl tartalmaz egy ´ertelmez´es mez˝ot is, amelybe a normaliz´alt alak mai magyarra val´ o ford´ıt´ asa” ker¨ ulhet, p´eld´aul az ´omagyar jonh sz´o mai magyar sz´ıv megfe” lel˝oje. Az a t´eny, hogy k¨ ul¨ on mez˝ oben r¨ogz´ıtj¨ uk az ´ertelmez´est, term´eszetesen nem jelenti azt, hogy a normaliz´ al´ as sor´ an nem t¨ort´enik ´ertelmez´es. Normaliz´al´as ´es ´ertelmez´es szo´ rosan ¨osszef¨ uggenek, az ut´ obbi felt´etele az el˝obbinek. P´eld´aul az Omagyar M´aria-siralom buthuruth szav´ at csak akkor tudjuk normaliz´alni, ha r´aj¨ov¨ unk, hogy ennek a jelent´ese ’b´ ut˝or, a f´ ajdalom t˝ ore’ (Korompay, 2003). A megjegyz´es rovat egyr´eszt szabad sz¨oveges megjegyz´esek r¨ogz´ıt´es´ere alkalmas, m´asr´eszt ide ker¨ ulnek a sz¨ oveghez tartoz´o egy´eb metaadatok is k¨ ul¨onb¨oz˝o k´odok form´aj´aban. A korpusz az al´ abbi metaadatokat tartalmazza: • Ha a c´ım a sz¨ oveg r´esze, akkor sz¨ovegk´ent k´odoljuk, ´es a megjegyz´es rovatba TITLE k´od ker¨ ul. Ha a c´ım nem a sz¨oveg r´esze, akkor l´okuszjel¨ol˝ok´ent funkcion´al, vagyis k¨ ul¨ on oszlopot kap. • A sz¨ ovegekben el˝ ofordul´ o idegen nyelv˝ u szavakat, amelyek a sz¨oveg r´esz´et k´epezik, felvessz¨ uk a korpuszba, ´es a LANG{nyelv} c´ımk´et adjuk nekik, amellyel egyben azt is jelezz¨ uk, hogy ennek a sz´ onak nem lesz morfol´ogiai elemz´ese. Ha az idegen nyelv˝ u sz´o magyarul ragoz´ odik, akkor magyar sz´ok´ent kezelj¨ uk, vagyis normaliz´aljuk, ´es elemezz¨ uk. • A bet˝ uh˝ u sz¨ ovegv´ altozat a szkriptor jav´ıt´asait is tartalmazza. Ezeket a k¨ovetkez˝ ok´eppen jel¨ olj¨ uk: szkriptor ´altali ut´olagos betold´ as (k´od: ADD), sz¨ ovegrekonstrukci´ o eredm´enyek´ent l´etrej¨ ott betold´as (k´od: RECO), az eredeti sz¨ovegben szerepl˝o ´ ath´ uzott sz¨ oveg (k´ od: STRIKE), a szkriptor ´altal el´ırt, de nem ´ath´ uzott sz´o (k´od: FAIL), t¨ ored´ekes sz´ o (k´ od: FRAG). Ha csak a sz´o egy r´esz´et ´erinti a felsorolt jelens´egek valamelyike, akkor kerek z´ar´ojellel megjel¨olj¨ uk a bet˝ uh˝ u mez˝oben – ´es lehet˝ os´eg szerint a normaliz´ alt mez˝oben is – a megfelel˝o sz´or´eszt. P´eld´aul: bet˝ uh˝ u uimagg(om)uc sumha nym kyul hyul: teun l
normaliz´ alt im´adju(n)k soha nem
megjegyz´ es ADD
FAIL h˝ ul. t˝on FRAG
A metaadatokkal ell´ atott vertik´ alis f´ajlt XML-l´e alak´ıtjuk, ´ıgy v´egezz¨ uk el a valid´aci´os l´ep´eseket, melyek az adatb´ azis konzisztenci´aj´at ellen˝orzik. Egy k¨ovetkez˝o ´atalak´ıt´o l´ep´es sor´an alakul ki az alkalmas bemenet a korpuszkezel˝o rendszer sz´am´ara. 14
3. ´abra. A korpuszlek´erdez˝ o fel¨ ulete. A felt¨ untetett p´eld´aban azokra a szavakra keres¨ unk, melyekn´el a normaliz´ alt alak kezdete a jonh sztring.
9.
A korpuszlek´ erdez˝ o eszk¨ oz
A korpusszal p´ arhuzamosan k´esz¨ ul a hozz´a tartoz´o korpuszlek´erdez˝o fel¨ ulet, amelynek seg´ıts´eg´evel a teljes ´ omagyar korpuszt kutathatjuk. Ez jelenlegi ´allapot´aban az Emdros (Petersen, 2004) korpuszkezel˝ o rendszerre ´ep¨ ul. A korpusztal´alatok megjelen´ıt´ese f¨ uggetlen a lek´erdez´est˝ ol, abban az ´ertelemben, hogy ig´eny szerint b´armilyen – a lek´erdez´esben esetleg nem is szerepl˝ o – sz¨ ovegfeldolgozotts´agi szintet is megjelen´ıthet¨ unk. Ezenfel¨ ul lehet˝ov´e tessz¨ uk a t¨ obb szintre val´o egyidej˝ u hivatkoz´ast ak´ar egy k´erd´esen bel¨ ul is. Ha p´eld´aul az a k´erd´es¨ unk, hogy milyen szavak szerepelnek egy igealak ´es egy igek¨ot˝o k¨oz¨ott, akkor az elemz´esek szintj´en (6) kell megfogalmazni a k´erd´est. Ha gyakoris´agi list´at k´esz´ıt¨ unk a korpusz egy r´esz´eb˝ol, akkor ezt megtehetj¨ uk p´eld´aul a sz´ot¨ovekb˝ol kiindulva, de r´ a lehet k´erdezni k¨ ozvetlen¨ ul az nc. v´eg˝ u szavakra is, ekkor a (3) szinthez fordulunk (v¨ o. 4. t´ abl´ azat). A lek´erdez˝ o fel¨ ulet a 3. ´ abr´ an l´athat´o. A fel¨ ulet k¨oz´eps˝o r´esz´en adhatjuk meg a lek´erdez´est, melyben hivatkozhatunk az egyes sz¨ovegfeldolgozotts´agi szintekre, ak´ar t¨obbre is egyszerre. Az itt megadott adatokb´ol az OK gomb megnyom´as´aval ´all el˝o maga a lek´erdez´es a bal oldali sz¨ ovegmez˝oben az Emdros lek´erdez˝onyelv´en. Ez ut´obbi m´eg ut´oszerkeszthet˝ o, ´es a Mehet gombbal futtathat´o. A 3. ´ abr´ an bemutatott lek´erdez´es eredm´enye a 4. ´abr´an l´athat´o. A tal´alatok felett a l´okuszjel¨ ol˝ o tal´ alhat´ o, mely a k´ odex azonos´ıt´oj´ab´ol, az oldalsz´amb´ol ´es az adott sz´o egyedi azonos´ıt´ oj´ ab´ ol ´ all. Az egyes tal´alatokat t´abl´azatos form´aban jelen´ıtj¨ uk meg: fent a bet˝ uh˝ u alakot (a fel¨ uleten z¨ olddel), alatta a normaliz´alt alakot (feket´evel), majd az ´ertelmez´est (k´ekkel). A fel¨ uleten (jobb oldalt) a konkordancia mellett alternat´ıv megjelen´ıt´esi form´ atumk´ent a gyakoris´ agi lista is be´all´ıthat´o. Az 5. ´abr´an erre l´atunk egy p´eld´at: a Sz´ekelyudvarhelyi k´ odexben kerest¨ unk r´a a nem normaliz´alt alakra, ´es az eredm´enyben a bet˝ uh˝ u alakot is megjelen´ıtett¨ uk. L´athatjuk, hogy ezen a k´odexen bel¨ ul szinte egys´eges (´es a maival egyez˝ o) ennek a sz´onak a helyes´ır´asa, de egy esetben az´ert el˝ofordul a nazalit´ ast makronnal jel¨ol˝o r´egies forma (n¯e ) is. V´eg¨ ul l´ assunk h´ arom ´ omagyar szintaxisra vonatkoz´o elm´eleti nyelv´eszeti kutat´asi k´erd´est, melynek megv´ alaszol´ as´ ahoz seg´ıts´eget ny´ ujthat a korpusz. Mindh´arom esetben a (6)-os szintre vonatkozik a lek´erdez´es, mely a sz´ot¨ovet ´es a morfol´ogiai elemz´est
15
4. ´abra. A 3. ´ abr´ an l´ athat´ o lek´erdez´es eredm´eny´enek r´eszlete: korpuszpoz´ıci´ok, ahol a normaliz´ alt alak kezdete a jonh sztring, konkordancia form´aj´aban megjelen´ıtve.
5. ´ abra. P´elda a gyakoris´agi list´as megjelen´ıt´esre.
16
tartalmazza – ennek haszn´ alat´ aval lehet a nyelv´eszetileg legink´abb relev´ans k´erd´eseket feltenni. A mai magyarban tagad´ as eset´en az igek¨ot˝o k¨oveti az ig´et (nem j¨ on be), az ´omagyar ´ viszont az igek¨ ot˝ o + tagad´ osz´ o + ige (be nem j¨ on) sorrendet haszn´alja legt¨obbsz¨or (E. Kiss, 2010). Ezt a jelens´eget mutatja az al´abbi p´eldamondat is: J´okK 69.o.: Ver touaba k¨y nem futott [V´er tov´ abb´ a ki nem futott.] A sz´ofajok sorozat´ara vonatkoz´o megfelel˝o lek´erdez´es a mai magyar sz´ orendre: [W FOCUS w_6e ~ ’Mod’] [W FOCUS w_6e ~ ’V\.’] [W FOCUS w_6e ~ ’Vpfx’] A lek´erdez´es az ´ omagyar sz´ orendre: [W FOCUS w_6e ~ ’Vpfx’] [W FOCUS w_6e ~ ’Mod’] [W FOCUS w_6e ~ ’V\.’] A w 6e jellemz˝ ovel a (6) szinten el´erhet˝o morfol´ogiai elemz´esre k´erdezhet¨ unk r´a, a tagad´osz´ o k´ odja Mod, az ige k´ odja V, az igek¨ot˝o´e pedig Vpfx. Az ´omagyarban a mai magyart´ ol elt´er˝o a n´evel˝ohaszn´alat: sok helyen nem haszn´alnak n´evel˝ot, ahol ma igen (Egedi, 2010). Hogyan tudunk al´at´amasztani egy effajta hipot´ezist korpusz seg´ıts´eg´evel, azaz hogyan tudunk r´akeresni arra, ami nincs ott? A megold´as az lehet, hogy k´et olyan sz´o kombin´aci´oj´ara keres¨ unk r´a, melyek k¨oz¨ott mai intu´ıci´oval v´ arn´ ank a n´evel˝ ot, de az ´omagyarban a k´et sz´o n´evel˝o n´elk¨ ul k¨ozvetlen¨ ul k¨oveti egym´ ast. Ilyen konkr´et helyzet lehet, mikor definit ige ut´an t´argyeset˝ u f˝on´ev ´all, mint p´eld´ aul ebben a mondatban: J´okK 140.o.: Es azert ewkewztewk zent ferencz czu´ az´ert ˝ok¨ozt¨ dalatost g¨yczer¨yuala teremtewtt [Es uk Szent Ferenc csod´alatost dics´eri vala Teremt˝ot.] Ilyen esetekre a megfelel˝o lek´erdez´es: [W FOCUS w_6e ~ ’V.*Def’] [W FOCUS w_6e ~ ’N.*Acc’] A haszn´ alt morfol´ ogiai k´ odok: ige: V; hat´arozotts´ag: Def; f˝on´ev: N; t´argyeset: Acc. A harmadik kutat´ asi k´erd´es a se-n´evm´asok tulajdons´agair´ol sz´ol. M´ıg a mai magyarban a tagad´ osz´ o hordozza a tagad´ast, a se-n´evm´asok pedig csup´an a tagad´osz´oval egyeztetett alakok, a korai ´ omagyar korban a se-n´evm´asoknak ¨onmagukban is lehetett ´ tagad´o erej¨ uk (E. Kiss, 2010). Ha a senki/semmi ut´an k¨ozvetlen¨ ul egy tagad´osz´ot´ol k¨ ul¨onb¨oz˝ o sz´ ot tal´ alunk a korpuszban akkor j´o es´ellyel erre a jelens´egre tal´altunk p´eld´at. Az al´abbi sz¨ ovegr´eszlet ´eppen ilyen: J´okK 8.o.: mendenestewlfoguan maganac sem¨ytt meg tarttuan [Mindenest¨ ul fogv´ an mag´anak semmit megtartv´an]. Ebben az esetben a lek´erdez´es a k¨ ovetkez˝ ok´eppen n´ez ki: [W FOCUS w_6s ~ ’^6s\(\(se[nm][km]i\)\)$’] [W FOCUS NOT(w_6e ~ ’^6e\(\(Mod\)\)$’)] A R´egi Magyar Konkordancia nevet visel˝o lek´erdez˝ofel¨ ulet szabadon el´erhet˝o a http://corpus.nytud.hu/rmk c´ımen. 17
10.
Tov´ abbi feladatok
Els˝odleges feladatunk a teljes ´ omagyar anyag bet˝ uh˝ u sz¨oveges form´aban val´o el˝o´all´ıt´asa ´es kereshet˝ ov´e t´etele. A normaliz´ al´ ast, valamint a morfol´ogiai elemz´est ´es egy´ertelm˝ us´ıt´est csak a korpusz egy r´esz´en fogjuk v´egrehajtani. Az ´omagyar sz¨ ovegek eleve adott heterogenit´asa mellett tov´abbi probl´em´akat okoz az is, hogy a k¨ ul¨ onb¨ oz˝ o korokban kiadott nyomtatott k´odex´atiratok tipogr´afiai k´enyszer˝ us´egek miatt azonos karaktereket elt´er˝oen jelen´ıtenek meg. Terveink k¨oz¨ott szerepel ezen esetlegess´egek kik¨ usz¨ ob¨ ol´ese, vagyis a k¨ ul¨onb¨oz˝ok´eppen jel¨olt karakterek azonos sztenderd Unicode-karakterrel val´ o lecser´el´ese. A projekt v´ allal´ asai k¨ oz´e tartozik, hogy a korpusz ar´anyos v´alogat´ast tartalmazzon a k¨oz´epmagyar kor (1526–1772) sz¨ ovegeib˝ol is. Ezen anyagok eset´eben m´ar fontos szerepet j´atszik a reprezentativit´ as k´erd´ese, ugyanis ebb˝ol a korb´ol l´enyegesen t¨obb nyelveml´ek¨ unk sz´armazik, vagyis a teljes anyag feldolgoz´as´ara ebben a projektben nem v´allalkozhatunk. A k¨oz´epmagyar sz¨ ovegeml´ekek kiv´alogat´as´an´al k´et f˝o szempontot tartunk szem el˝ott: csak a m´ ar sz¨ oveges form´ atumban el´erhet˝o dokumentumokkal foglalkozunk, ´es ezeket D¨om¨ot¨or (2006) m˝ ufaji beoszt´ as´ at k¨ovetve kategoriz´aljuk u ´gy, hogy minden regiszter k´epviselve legyen a korpuszban.
11.
¨ Osszegz´ es
A nyelvi kultur´ alis ¨ or¨ oks´eg feldolgozhat´ov´a ´es el´erhet˝ov´e t´etel´eben kulcsfontoss´ag´ u szerep jut a nyelvtechnol´ ogi´ anak, amely (f´el)automatikus m´odszereivel hozz´aseg´ıti a hum´an tudom´anyok kutat´ oit olyan adatb´ azisokhoz, melyekben a nyelv´eszeti (´es/vagy t¨ort´eneti, paleogr´afiai stb.) inform´ aci´ ok elektronikusan el˝oh´ıvhat´o ´es interpret´alhat´o m´odon vannak t´arolva. Az ilyen korpuszok sokkal kifinomultabb keres´esi lehet˝os´egeket k´ın´alnak, mint az egyszer˝ u digitaliz´ al´ as, amely ´altal´aban kimer¨ ul a prim´er adat k´epk´ent val´o beszkennel´es´eben. A nyelvtechnol´ ogiai eszk¨oz¨okkel feldolgozott t¨ort´eneti sz¨ovegeknek tov´abbi el˝ onyei k¨ oz´e tartozik, hogy a kutat´ok egys´eges, ak´ar egy eg´esz korra jellemz˝o, ´atfog´o keres´esi eredm´enyhez jutnak, mellyel elm´eleti feltev´eseik k¨onnyebben igazolhat´ov´a v´alnak. A nyelvi kultur´ alis ¨ or¨ oks´eg feldolgoz´asa a nyelvtechnol´ogusok el´e sz´amos kih´ıv´ast ´all´ıt. Az elektronikus form´ atumok el˝otti korb´ol sz´armaz´o sz¨ovegek eset´eben az eddigiekn´el robusztusabb vagy teljesen u ´j m´odszerekre van sz¨ uks´eg. Vagyis a kultur´alis ¨or¨oks´eg digitaliz´al´ asa sor´ an nem csak a m´ ar bev´alt m´odszerek u ´j ter¨ uleteken val´o alkalmaz´asa t¨ort´enik, hanem az u ´j m´ odszerek u ´j kutat´asi k´erd´eseket is felvetnek. Ezek megold´as´ahoz a k¨ ul¨onb¨ oz˝ o tudom´ anyter¨ uletek k´epvisel˝oi k¨oz¨otti szoros egy¨ uttm˝ uk¨od´esre van sz¨ uks´eg, melyb˝ol meggy˝ oz˝ od´es¨ unk, hogy hossz´ u t´avon minden r´esztvev˝o profit´alhat.
12.
K¨ osz¨ onetnyilv´ an´ıt´ as
Az ´omagyar korpusz ´ep´ıt´ese a Magyar Generat´ıv T¨ort´eneti Szintaxis projekt keret´eben val´osul meg. A projektet az OTKA NK 78074. sz´am´ u p´aly´azata t´amogatja. K¨osz¨onet18
tel tartozunk azoknak a nyelvt¨ ort´en´eszeknek ´es kiad´oknak, akik rendelkez´es¨ unkre bocs´atott´ak az ´ altaluk el˝ ok´esz´ıtett sz¨oveges k´odex´atiratokat; tov´abb´a mindazoknak, akik a manu´alis ´es/vagy automatikus sz¨ovegfeldolgoz´asban r´eszt vettek. K¨ ul¨on k¨osz¨onet Nov´ak Attil´ anak, aki a morfol´ ogiai elemz´est ´es egy´ertelm˝ us´ıt´est, valamint a Jakab-f´ele t´abl´azatok ´ atalak´ıt´ as´ at v´egzi.
Hivatkoz´ asok Maria Clara Paixao de Sousa and Thorsten Trippel. Building a historical corpus for classical Portuguese: some technological aspects. In Proceedings of the Vth International Conference on Language Resources and Evaluation (LREC 2006), Genova, 2006. ELRA. Adrienne D¨ om¨ ot¨ or. R´egi magyar nyelveml´ekek. Akad´emiai Kiad´o, Budapest, 2006. Barbara Egedi. A hat´ arozott n´evel˝ o. El˝oad´as a Mondattani jelens´egek a J´okai-k´odexben m˝ uhelykonferenci´ an, 2010. L´aszl´o Jakab. A J´ okai-k´ odex mint nyelvi eml´ek sz´ ot´ arszer˝ u feldolgoz´ asban. Sz´am´ıt´og´epes Nyelvt¨ ort´eneti Adatt´ ar 10. Debreceni Egyetem Magyar Nyelvtudom´anyi Tansz´ek, Debrecen, 2002. L´aszl´o Jakab and Antal Kiss. A Guary-k´ odex ´ ab´ec´erendes adatt´ ara. Sz´am´ıt´og´epes Nyelvt¨ ort´eneti Adatt´ ar 6. KLTE Magyar Nyelvtudom´anyi Tansz´ek, Debrecen, 1994. L´aszl´o Jakab and Antal Kiss. Az Apor-k´ odex ´ ab´ec´erendes adatt´ ara. Nyelvt¨ ort´eneti Adatt´ ar 7. KLTE, Debrecen, 1997.
Sz´am´ıt´og´epes
L´aszl´o Jakab and Antal Kiss. A Festetics-k´ odex ´ ab´ec´erendes adatt´ ara. Sz´am´ıt´og´epes Nyelvt¨ ort´eneti Adatt´ ar 9. Debreceni Egyetem, Debrecen, 2001. Anna Adamikn´e J´ asz´ o. Az igenevek. In Lor´and Benk˝o, editor, A magyar nyelv t¨ ort´eneti nyelvtana 2/1. A k´esei ´ omagyar kor. Morfematika. Akad´emiai Kiad´o, Budapest, 1992. Gabriella Kiss and J´ ulia Pajzs. An attempt to develop a lemmatiser for the Historical Corpus of Hungarian. In Proceedings of CL 2001, pages 443–451. University of Lancaster, 2001. Istv´an Kniezsa. Helyes´ır´ asunk t¨ ort´enete a k¨ onyvnyomtat´ as kor´ aig. Akad´emiai Kiad´o, Budapest, 1952. Kl´ara Korompay. Helyes´ır´ as-t¨ ort´enet (az ´omagyar korban). In Jen˝o Kiss and Ferenc Pusztai, editors, Magyar nyelvt¨ ort´enet. Osiris Kiad´o, Budapest, 2003. Anthony Kroch and Ann Taylor. The Penn-Helsinki Parsed Corpus of Middle English (PPCME2). Department of Linguistics, University of Pennsylvania, second edition, 2000. URL http://www.ling.upenn.edu/hist-corpora/. CD-ROM. 19
Pierre Kunstmann and Achim Stein. Le Nouveau Corpus d’Amsterdam. In Pierre Kunstmann and Achim Stein, editors, Le Nouveau Corpus d’Amsterdam. Actes de l’atelier de Lauterbad, 23-26 f´evrier 2006, pages 9–27, Stuttgart, 2007. Steiner. Tony McEnery and Andrew Hardie. Lancester Newsbooks Corpus, 2003. http://www.lancs.ac.uk/fass/projects/newsbooks/default.htm.
URL
Csaba Oravecz, B´ alint Sass, and Eszter Simon. G´epi tanul´asi m´odszerek ´omagyar kori sz¨ovegek normaliz´ al´ as´ ara. In Attila Tan´acs, D´ora Szauter, and Veronika Vincze, editors, VI. Magyar Sz´ am´ıt´ og´epes Nyelv´eszeti Konferencia (MSZNY2009), pages 317– 324, Szeged, 2009. SZTE. Csaba Oravecz, B´ alint Sass, and Eszter Simon. Semi-automatic normalization of Old Hungarian codices. In Proceedings of the ECAI 2010 Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2010), Lisbon, Portugal, 2010. Faculty of Science, University of Lisbon. Ulrik Petersen. Emdros – a text database engine for analyzed or annotated text. In COLING 2004, pages 1190–1193, 2004. G´abor Pr´ osz´eky and Bal´ azs Kis. A unification-based approach to morpho-syntactic parsing of agglutinative and other (highly) inflectional languages. In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics, pages 261– 268, College Park, Maryland, USA, 1999. Paul Rayson, Dawn Archer, Alistair Baron, Jonathan Culpeper, and Nicholas Smith. Tagging the bard: Evaluating the accuracy of a modern POS tagger on Early Modern English corpora. In Proceedings of Corpus Linguistics. University of Birmingham, 2007. Claude Elwood Shannon. A mathematical theory of communication. Bell System Technical Journal, 27(3):379–423, 1948. Peter Wynn Thomas, D. Mark Smith, and Diana Luft. Rhyddiaith gymraeg 1350-1425, 2007. URL http://www.rhyddiaithganoloesol.caerdydd.ac.uk. Gy¨orgy Volf. Nyelveml´ekt´ ar I. A Magyar Tudom´anyos Akad´emia K¨onyvkiad´o Hivatala, Budapest, 1874. Martin Volk, Torsten Marek, and Rico Sennrich. Reducing OCR Errors by Combining Two OCR Systems. In Proceedings of the ECAI 2010 Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2010), Lisbon, Portugal, 2010. Faculty of Science, University of Lisbon. Tam´as V´ aradi. The Hungarian National Corpus. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002), pages 385–389, Las Palmas de Gran Canaria, 2002. European Language Resources Association. 20
´ Kiss. A tagad´ Katalin E. as. m˝ uhelykonferenci´ an, 2010.
El˝oad´as a Mondattani jelens´egek a J´okai-k´odexben
21