Morfologie ˇ ceˇ stiny znovu a l´ epe Jaroslava Hlav´aˇcov´a a David Kolovratn´ık Univerzita Karlova v Praze ´ Ustav form´ aln´ı a aplikovan´e lingvistiky, Matematicko-fyzik´ aln´ı fakulta Malostransk´e n´ amˇest´ı 25 11800 Praha ˇ Cesk´ a republika Abstrakt Nov´ y syst´em pro automatickou morfologickou anal´ yzu ˇceˇstiny [1], kter´ y zde prezentujeme, vych´ az´ı ze souˇcasn´eho praˇzsk´eho syst´emu. Kromˇe nov´e implementace st´ avaj´ıc´ıho slovn´ıku pomoc´ı koneˇcn´eho automatu pˇrid´ av´ a algoritmy na rozpozn´ an´ı nezn´ am´ ych tvar˚ u. V souˇcasn´e f´ azi je to pˇredevˇs´ım vyuˇzit´ı seznamu pˇredpon, kter´e lid´e pˇripojuj´ı bez vˇetˇs´ıch omezen´ı ke slov˚ um a ˇcin´ı je tak pro automatick´e metody nerozpoznateln´ ymi. Staˇc´ı pˇredponu rozpoznat, odtrhnout a analyzovat zbyl´ y ˇretˇezec. V´ ysledky t´eto anal´ yzy lze pak jednoduˇse aplikovat na p˚ uvodn´ı tvar s pˇredponou. K rozpozn´ an´ı nezn´ am´ ych vlastn´ıch jmen pouˇz´ıv´ ame heuristiku. V pˇr´ıspˇevku struˇcnˇe pop´ıˇseme st´ avaj´ıc´ı praˇzsk´ y syst´em a novou implementaci vˇcetnˇe z´ arodku guessru.
1
´ Uvod
Automatick´ a morfologick´ a anal´ yza ˇceˇstiny jiˇz byla ˇreˇsena, dokonce nˇekolikr´ at. Nejzn´ amˇejˇs´ı n´ astroje vznikly v Praze [3] a v Brnˇe [2]. Oba syst´emy vyuˇz´ıvaj´ı rozs´ ahl´e morfologick´e slovn´ıky, na jejichˇz z´ akladˇe jsou schopny rozeznat vˇetˇsinu slovn´ıch tvar˚ u vyskytuj´ıc´ıch se v ˇcesk´ ych textech. Poˇcet nerozpoznan´ ych slov, tedy slovn´ıch tvar˚ u, kter´e nelze odvodit ze slovn´ık˚ u, ˇcin´ı 2 aˇz 3% (viz [4]). Rozˇsiˇrov´ an´ı slovn´ıku vˇetˇsinou uˇz nepom˚ uˇze, naopak zvyˇsuje homonymii, kter´a potom zp˚ usobuje probl´emy v dalˇs´ıch f´ az´ıch zpracov´ an´ı text˚ u, ˇ sen´ım je sp´ıˇse pouˇzit´ı pˇredevˇs´ım pˇri desambiguaci. Reˇ tzv. guessr˚ u, zaloˇzen´ ych na vlastnostech ˇcesk´eho tvaroslov´ı, kter´e umoˇzn ˇuj´ı s velkou pˇresnost´ı odhadnout charakteristiky (tj. lemma a hodnoty morfologick´ ych kategori´ı) nerozpoznan´ ych slovn´ıch tvar˚ u. V ˇcl´anku navrhujeme guesser pro rozpozn´ an´ı tvar˚ u odvozen´ ych pomoc´ı pˇredpony. Vyuˇz´ıv´ ame pˇri tom vysok´e pravidelnosti ˇcesk´eho jazyka pˇri tomto velice produktivn´ım zp˚ usobu odvozov´ an´ı.
2
Reprezentace morfologick´ eho slovn´ıku
Z´ akladn´ı myˇslenky implementace vych´ azej´ı z reprezentace morfologick´eho slovn´ıku pouˇzit´e J. Hajiˇcem [3]. V n´ asleduj´ıc´ım struˇcnˇe pˇredstav´ıme jeho ˇreˇsen´ı. Popis morfologie m´ a tˇri ˇc´ asti: (1) slovotvorn´e vzory, (2) tvaroslovn´e vzory a (3) vlastn´ı morfologick´ y slovn´ık. Heslo slovn´ıku obsahuje slovotvorn´ y
zaˇ c´ atek, jm´eno jeho slovotvorn´eho vzoru a spoleˇ cn´ e lemma. Pomoc´ı slovotvorn´eho vzoru se generuje seznam (nˇejak pˇr´ıbuzn´ ych) tvaroslovn´ ych zaˇ c´ atk˚ u s tvaroslovn´ ymi vzory, kter´e v dalˇs´ım kroku slouˇz´ı k vytvoˇren´ı konkr´etn´ıch slovn´ıch tvar˚ u. Kaˇzd´emu slovn´ımu tvaru je na z´akladˇe tvaroslovn´eho vzoru pˇriˇrazena morfologick´a znaˇcka a z´akladn´ı slovn´ı tvar (lemma). Uveden´e vztahy pˇribliˇzuje pˇr´ıklad na obr´azku 1. Kromˇe v´ yˇse popsan´ ych hesel slovn´ık obsahuje i konkr´etn´ı slovn´ı tvary, kter´e nelze vygenerovat pomoc´ı vzoru (napˇr. substantivum k˚ uˇ n s nepravideln´ ym skloˇ nov´an´ım), a k nim pˇr´ısluˇsn´e morfologick´e znaˇcky. Odvozov´an´ı syst´emem vzor˚ u spolu se slovn´ıkem popisuje vˇsechny moˇzn´e slovn´ı tvary a k nim pˇr´ısluˇsn´e znaˇcky a lemmata. Pomoc´ı zm´ınˇen´ ych tˇr´ı ˇc´ast´ı popisu morfologie lze tedy vˇsechny slovn´ı tvary vygenerovat. To se vˇsak nedˇel´a — bylo by to neefektivn´ı. Jiˇz p˚ uvodn´ı popis m´a dobr´e vlastnosti, kter´e umoˇzn ˇuj´ı kompaktn´ı reprezentaci, zachov´avaj´ıc´ı zvl´aˇst’ zaˇc´ atky a zvl´aˇst’ vzory, snadno vyuˇz´ıt k anal´ yze. Tvary se doplˇ nuj´ı za pomoci (upraven´ ych) vzor˚ u ze slovotvorn´ ych zaˇc´atk˚ u aˇz pˇri samotn´e anal´ yze za bˇehu.
3
Morfologick´ a anal´ yza
Morfologick´a anal´ yza je vlastnˇe funkce, kter´a kaˇzd´emu slovn´ımu tvaru pˇriˇrad´ı mnoˇzinu dvojic [lemma, morfologick´a znaˇcka]. Implementace tedy mus´ı umˇet rozpoznat slovn´ı tvar a na v´ ystup poslat mnoˇzinu vˇsech moˇzn´ ych pˇr´ısluˇsn´ ych dvojic. 3.1
Implementace analyz´ atoru
Vˇsechny slovn´ı tvary jsou v analyz´atoru uloˇzeny ve formˇe trie1 . Kdybychom vˇsak do trie uloˇzili rovnou cel´e slovn´ı tvary, bylo by to pˇr´ıliˇs neefektivn´ı. Z toho 1
Trie ch´ apeme jako (1,n)-ˇcetn´ y zakoˇrenˇen´ y strom. Hrany stromu jsou ohodnoceny znaky (pˇr´ıpadnˇe ˇretˇezcem, dojde-li je kompresi). Uzlu stromu lze pˇriˇradit slovo, kter´e vznikne sˇretˇezen´ım znak˚ u na cestˇe od koˇrene k dan´emu uzlu. Takov´ a slova oznaˇcen´ a pˇr´ıznakem tvoˇr´ı mnoˇzinu kl´ıˇc˚ u. Ke kl´ıˇci je v trie uloˇzena tak´e hodnota.
d˚ uvodu se do nˇej ukl´ adaj´ı jen slovotvorn´e zaˇc´atky pˇrevzat´e ze slovn´ıku. Z nich potom vedou dva odkazy. Jeden na sloˇzen´e schema (viz dalˇs´ı odstavec), podle kter´eho se generuj´ı slovn´ı tvary, druh´ y na ˇretˇezcovou instrukci, kter´ a ze slovotvorn´eho zaˇc´ atku odvozuje spoleˇ cn´ e lemma (to m˚ uˇze pozdˇeji slouˇzit jako z´aklad ˇ ezcov´ pro lemma analyzovan´eho tvaru). Retˇ a instrukce zde kompaktnˇe reprezentuje spoleˇcn´e lemma uveden´e spolu se slovotvorn´ ym zaˇc´ atkem ve slovn´ıku. Vyuˇz´ıv´a toho, ˇze si oba ˇretˇezce jsou ˇcasto velmi podobn´e. Slovotvorn´ y zaˇc´ atek je uloˇzen v trie cel´ y a bude pˇri anal´ yze k dispozici jako v´ ychoz´ı ˇretˇezec pro instrukci. Sloˇ zen´ e schema v sobˇe kombinuje oba stupnˇe vzor˚ u. Nahrazuje tak dvoukrokov´e (viz obr´ azek 1) odvozen´ı jednokrokov´ ym. Kaˇzd´emu slovotvorn´emu schematu odpov´ıd´ a jedno sloˇzen´e. To je organizov´ano jako heˇsovac´ı tabulka. Jej´ımi kl´ıˇci jsou spojen´ı konc˚ u pravidel slovotvorn´eho vzoru a pˇr´ısluˇsn´ ych konc˚ u vzor˚ u tvaroslovn´ ych (napˇr´ıklad -zen+ej, -zen+´eho, -zen+´emu, . . . ). Hodnotou vloˇzenou ke kl´ıˇci je opˇet dvojice odkaz˚ u. Jeden identifikuje skupinu znaˇcek, kter´e popisuj´ı morfologick´e vlastnosti tvaru, druh´ y ˇretˇezcovou instrukci, kter´ a odvozuje lemma ze z´ akladu lemmatu. Z´akladem je bud’ spoleˇcn´e lemma nebo slovotvorn´ y zaˇc´atek. Jeden kl´ıˇc m˚ uˇze b´ yt vloˇzen v´ıcekr´ at s r˚ uzn´ ymi dvojicemi odkaz˚ u. Vˇsechny v´ yskyty pˇrisp´ıvaj´ı k celkov´emu obrazu, doplˇ nuj´ı tedy bohatost tvaroslov´ı. ˇ ezcov´ Retˇ a instrukce je trojice [poˇcet, ˇretˇezec, voliˇc z´ akladu]. Slouˇz´ı ke kompaktn´ımu uloˇzen´ı ˇretˇezce, kter´ y sd´ıl´ı zaˇc´ atek s nˇejak´ ym zn´ am´ ym, zvnˇejˇsku z´ıskan´ ym, z´ akladem. Nov´ y ˇretˇezec se z´ısk´a (odvod´ı, spoˇc´ıt´ a) ze z´ akladu odmaz´ an´ım poˇctu znak˚ u od konce a pˇripojen´ım ˇretˇezce. Jednobitov´ y voliˇc z´ akladu vyb´ır´ a jeden ze dvou moˇzn´ ych z´aklad˚ u. Toho se vyuˇz´ıv´ a pro odvozen´ı lemmatu — m˚ uˇze vych´ azet ze spoleˇcn´eho lemmatu nebo slovotvorn´eho z´ akladu. Napˇr´ıklad instrukce [3, ,,zen´ı“, spoleˇcn´e lemma] uloˇzen´ a ve sloˇzen´em schematu ze spoleˇcn´eho lemmatu (zn´ am´eho z´ akladu) ,,ochladit“ odvod´ı lemma pro tvary podstatn´eho jm´ena ,,ochlazen´ı“ odtrˇzen´ım tˇr´ı znak˚ u a pˇripojen´ım konce ,,zen´ı“. Spoleˇcn´e lemma vˇsak bylo dˇr´ıve spoˇcteno ze slovotvorn´eho z´ akladu instrukc´ı [0, ,,dit“, slovotvorn´y z´ aklad]. Ta je uloˇzena v trie u slovotvorn´eho z´ akladu.
pˇreˇcten´a ˇc´ast slovotvorn´ ym z´akladem. V heˇsovac´ı tabulce se potom zjist´ı mnoˇzina znaˇcek n´aleˇz´ıc´ıch k tvaru. T´ımto zp˚ usobem se vyhledaj´ı vˇsechny moˇzn´e anal´ yzy kaˇzd´eho slovn´ıho tvaru. Lemma je sestaveno pomoc´ı ˇretˇezcov´e instrukce nalezen´e ve sloˇzen´em schematu. Ta vych´az´ı bud’ ze slovotvorn´eho zaˇc´atku (ten je urˇcen rozdˇelen´ım tvaru na ˇc´ast nalezenou v trie a na zbytek) nebo ze z´akladu lemmatu. Z´aklad lemmatu se odvozuje ze slovotvorn´eho z´akladu ˇretˇezcovou instrukc´ı nalezenou v trie. D´ale tento algoritmus naz´ yv´ame z´ akladn´ı anal´ yzou. Ta je rozˇsiˇrov´ana o schopnost rozpoznat pˇredpony.
4 4.1
Vyhled´ an´ı tvaru
Navrˇzen´e rozdˇelen´ı datov´ ych struktur umoˇzn ˇuje snadn´e nalezen´ı tvaru. Tvar se postupnˇe znak po znaku vyhled´ av´ a v trie. V kaˇzd´em uzlu se testuje, zda je v nˇem nastaven pˇr´ıznak konce slovotvorn´eho zaˇc´atku a odkaz na sloˇzen´e schema. Pokud ano, hled´a se dosud nepˇreˇcten´ y zbytek tvaru v heˇsovac´ı tabulce prodlouˇzen´ı sloˇzen´eho schematu. Najde-li se, je jiˇz
Pˇ redpony podchycen´ e ve slovn´ıku
Ve slovn´ıku nejsou pˇredpony obecnˇe nijak podporov´ any, kromˇe pˇredpon negace (ne-) a superlativu (nej-). Negov´an´ı i stupˇ nov´an´ı se prov´ad´ı pˇripojen´ım pˇr´ısluˇsn´eho morf´emu pˇred slovo. Proto lze ˇr´ıct, ˇze jist´a podpora pˇredpon ve slovn´ıku je. Je vˇsak specializovan´ a. Zvl´aˇstn´ı podpora pro morf´emy negace a superlativu ve slovn´ıku m´a sv´e opodstatnˇen´ı: (1) negace a stupˇ nov´an´ı je potˇreba i v pˇr´ıpadˇe, ˇze nen´ı k dispozici jin´a podpora pˇredpon (tˇreba ta n´ıˇze navrhovan´ a), (2) slovn´ık pˇresnˇe ˇr´ık´a, se kter´ ymi slovy lze morf´emy superlativu a negace kombinovat, zat´ımco d´ale navrhovan´e ˇreˇsen´ı pˇredpon omezuje kombinace jen podle slovn´ıch druh˚ u a nakonec (3) je to d˚ usledkem toho, ˇze o morf´emech superlativu a negace se dozv´ıd´ame jinak neˇz o ostatn´ıch pˇredpon´ach (slovn´ık versus seznam pˇredpon). Pˇredpony jsou v ˇceˇstinˇe bˇeˇznou a velmi uˇz´ıvanou souˇc´ast´ı jazyka. Analyz´ator, kter´ y by je zcela ignoroval, by byl stˇeˇz´ı pouˇziteln´ y. Jsou tedy podporov´ any i bez navrhovan´eho rozˇs´ıˇren´ı. Slova s pˇredponou jsou uvedena ve slovn´ıku jako samostatn´a hesla, bez uveden´ı slovotvorn´ ych souvislost´ı. Slova ,,ˇcistit“ a ,,vyˇcistit“ tedy nejsou nijak propojena. V´ yhodou je opˇet zejm´ena pˇresnost (spr´avnost a citlivost) popisu. 4.2
3.2
Pˇ redpony
Pˇ redpony zaveden´ e seznamem
N´ami navrhovan´e rozpozn´av´an´ı pˇredpon m´ a v mnoh´em opaˇcn´e vlastnosti. Pˇredpony jsou vyps´ any v samostatn´em seznamu zcela nez´avisle na slovn´ıku. Pˇredpona se uv´ad´ı s pˇ r´ıznaky, kter´e ˇr´ıkaj´ı, se kter´ ymi slovn´ımi druhy se m˚ uˇze pojit, napˇr. -dobro N -dolno N
-dopo NV -dovy NV
ej
zen (y)
ochla (ditd)
.. .
mu
Ø (ditd)
dit .. .
zen (stn)
Ø m ma .. .
Pˇr´ıznak N znamen´ a, ˇze uveden´ a pˇredpona dovoluje spojen´ı se substantivy a adjektivy, pˇr´ıznak V se slovesy. Mezi pˇredponou a slovn´ıkov´ ym heslem nen´ı ˇz´adn´a jin´ a vazba neˇz pˇr´ıznaky slovn´ıho druhu. Moˇznosti spojov´ an´ı nejsou nijak jinak omezeny. To se m˚ uˇze jevit jako chybn´e ˇreˇsen´ı, protoˇze s r˚ uzn´ ymi slovy lze kombinovat jen nˇekter´e pˇredpony. Nicm´enˇe to nen´ı probl´em, protoˇze morfologick´ a anal´ yza si neklade za c´ıl vymezovat slovn´ı z´ asobu jazyka (,,spr´ avn´ a“ ani aktivnˇe uˇz´ıvan´ a slova). Naopak, je snaha analyzovat co nejv´ıce slov. Seznam pˇredpon pˇrich´ az´ı na ˇradu aˇz tehdy, kdyˇz z´ akladn´ı anal´ yza pomoc´ı slovn´ıku tvar nerozpozn´a. ˇ sen´ı pomoc´ı seznamu umoˇzn Reˇ ˇuj´ı pouˇz´ıt dvˇe d˚ uleˇzit´a pozorov´ an´ı. Zaprv´e je to skuteˇcnost, ˇze tvar se pˇripojen´ım pˇredpony (vˇetˇsinou) nemˇen´ı uvnitˇr2 . Slovotvorn´ y zaˇc´ atek, tvar i lemma se zmˇen´ı pouh´ ym pˇredˇrazen´ım p´ısmen pˇredpony na zaˇc´ atek. A za druh´e se nemˇen´ı morfologick´e znaˇcky. Nemuselo by tomu tak b´ yt. Napˇr´ıklad pˇredpony mˇen´ı vid sloves, opˇet ale m˚ uˇzeme spol´ehat na to, ˇze vˇsechny bˇeˇzn´e pˇr´ıpady jsou zahrnuty ve slovn´ıku. Pouˇzit´ı pˇredpon m´ a skuteˇcnˇe jen nab´ıdnout ˇreˇsen´ı netradiˇcn´ıch a nepodchycen´ ych slovn´ıch tvar˚ u. Zpoˇc´ atku jsme chtˇeli pouˇz´ıvat anal´ yzu pomoc´ı pˇredpon i u slov, kter´ a z´ akladn´ı morfologick´ a anal´ yza rozpozn´ a. M˚ uˇze se totiˇz st´ at, ˇze nˇekter´e tvary jsou homonymn´ı s jin´ ymi, kter´e slovn´ık neobsahuje. Po prvn´ıch experimentech jsme ale od toho upustili, protoˇze vych´ azelo velk´e mnoˇzstv´ı faleˇsnˇe rozpoznan´ ych tvar˚ u. Napˇr´ıklad slovo ,,ves“ bylo rozdˇeleno 2
Tvary, kde ke zmˇenˇe doch´ az´ı, jsou jiˇz zpravidla ve slovn´ıku zachyceny.
odkazy na zna ky a lemmata
prodlou en na slovn tvar
prodlou en na tvaroslovn za tek (tvaroslovn vzor)
slovotvorn za tek (slovotvorn vzor)
Obr´ azek 1. Pˇredstava odvozov´ an´ı slovn´ıch tvar˚ u ze slovotvorn´eho zaˇc´ atku
ochlazen /adj., nom., masc., sg. | ... /adj., nom., masc., sg., hovor. | ... /adj., nom., fem., sg. | ... /adj., dat., masc., sg. | ... ochladit /imperativ, 2. os., sg. /infinitiv ochlazen /subst., nom., neutr., pl. | ... /subst., dat., neutr., pl. /subst., instr., neutr., pl., hovor.
na pˇredponu ,,v“ a substantivum ,,es“ (plur´ al od ,,eso“). V´ ysledn´a anal´ yza potom bˇeˇzn´emu tvaru ,,ves“ pˇriˇradila nav´ıc i nic neznamenaj´ıc´ı lemma ,,veso“. Podobn´ ych ,,vesel´ ych“ anal´ yz se objev´ı cel´a ˇrada. 4.3
Implementace pˇ redpon
Podm´ınkou pro rozpozn´av´an´ı pˇredpon je, ˇze se pˇri kompilaci nachystalo trie pˇ redpon (je voliteln´e). Trie se pˇripravuje ze seznamu pˇredpon pro odvozov´an´ı. Ten se zad´av´a jako zvl´aˇstn´ı textov´ y vstup kompil´atoru. Aˇckoli trie zaˇc´atk˚ u a trie pˇredpon jsou tent´ yˇz typ datov´e struktury, stav´ı a pouˇz´ıvaj´ı se nez´avisle. Spojen´ı by pˇredstavovalo pˇripojen´ı trie zaˇc´atk˚ u za vˇsechny koncov´e uzly trie pˇredpon. Protoˇze by napojen´ı bylo vˇsude stejn´e, nepˇrineslo by analyz´atoru ˇz´adnou dodateˇcnou informaci.
5 5.1
Anal´ yza krok za krokem Anal´ yza ˇ c´ısel a interpunkce
V prvn´ım kroku se morfologick´a anal´ yza vypoˇr´ ad´ av´ a s interpunkc´ı a posloupnostmi arabsk´ ych ˇc´ıslic volitelnˇe s desetinnou teˇckou. Tyto jednoduch´e pˇr´ıpady se ˇreˇs´ı pˇr´ımo, bez pouˇzit´ı slovn´ıku. Ostatn´ı slovn´ı tvary se zpracuj´ı n´asledovnˇe. 5.2
Z´ akladn´ı anal´ yza
Nejprve se ˇretˇezec tvaru pouˇzije cel´ y tak, jak je, k sestupu do trie, jak bylo pops´ano v´ yˇse. To m˚ uˇze vy´ ustit – v nalezen´ı jednoho ˇci nˇekolika lemmat spolu se znaˇckami n´aleˇzej´ıc´ımi ke tvaru, nebo
Obr´ azek 2. V´ yvojov´ y diagram pr˚ ubˇehu anal´ yzy
ano
INTERPUNKCE
start
anal za p edpon
interpunkce
a. superlativu, neg. a p edpony
ne
ano
SLICE
slice ne
z kladn anal za
V SLEDEK ANAL ZY
ano
∗
anal za nalezena ne
anal za nalezena ne
ano
V SLEDEK ANAL ZY
velk p smeno ne
ano
VLASTN JM NO
NEZN M TVAR
konec
∗ vˇcetnˇe anal´ yzy pˇr´ıpadn´ ych morf´em˚ u negace a superlativu
– v ne´ uspˇeˇsnou anal´ yzu slovn´ıho tvaru v trie).
(nenalezen´ı ˇz´adn´eho
podm´ınˇeny pˇr´ıtomnost´ı p´ısmen morf´em˚ u na zaˇc´ atku slova. V tomto pˇr´ıpadˇe uspˇeje jen posledn´ı anal´ yza, protoˇze jedinˇe komparativ ,,poˇr´adnˇejˇs´ı“ je rozpozn´ an Z´ akladn´ı anal´ yza je procedura vyuˇz´ıvan´a opako- z´akladn´ı anal´ yzou (za pˇredpokladu, ˇze ,,nepoˇr´adnˇejˇs´ı“ vanˇe v n´ asleduj´ıc´ıch kroc´ıch. nen´ı ve slovn´ıku jako samostatn´e heslo). Uspˇeje-li vyhled´av´an´ı nˇejak´eho rozdˇelen´ı, m˚ uˇze nebo nemus´ ı b´ y t uzn´ a no za platnou anal´ y zu. Z´ a leˇ z ´ ı na 5.3 Negace a stupˇ nov´ an´ı slovn´ım druhu, zda jej lze kombinovat s uvaˇzovan´ ymi Pokud tvar zaˇc´ın´ a morf´emem negace a/nebo morf´emy. Po vyhled´an´ı konce tvaru, tedy kdyˇz je zn´ am stupˇ nov´ an´ı, jsou tyto morf´emy rozpozn´ any a na slovn´ı druh a znaˇcky, se filtruj´ı v´ ysledky. zbylou ˇc´ ast tvaru je vˇzdy znovu spuˇstˇena z´akladn´ı Spojen´ı morf´em˚ u s tvarem m˚ uˇze b´ yt uzn´ano ze anal´ yza. dvou d˚ uvod˚ u. Zaprv´e takov´e spojen´ı mohou naUvaˇzuj´ı se dva morf´emy samostatnˇe a jedna jejich znaˇcovat ˇzol´ıky ve znaˇck´ach na pozic´ıch popisuj´ıc´ıch kombinace: negaci ˇci stupeˇ n a zadruh´e m˚ uˇze b´ yt obh´ajeno slovn´ım druhem, dovoluje-li danou kombinaci. Negaci lze – negativn´ı morf´em ,,ne“, kter´ y neguje, pouˇz´ıt na afirmativn´ı substantiva, adjektiva a slovesa, – morf´em ,,nej“, kter´ y tvoˇr´ı z komparativu superla- superlativa pak lze tvoˇrit z komparativu adjektiv a adtiv, a verbi´ı. – kombinace obou tvoˇr´ıc´ı negovan´e superlativum. Jsou-li rozpozn´any jak negativn´ı morf´em tak morf´em pro superlativum, musej´ı oba nal´ezt oporu v nˇeNapˇr´ıklad slovo ,,nejnepoˇr´ adnˇejˇs´ı“ je rozdˇeleno jak´em pravidle (viz pˇredchoz´ı odstavec). Kdyˇz nea analyzov´ ano ˇctyˇrmi zp˚ usoby: najdou, anal´ yza se zahod´ı. Jinak je povaˇzov´ ana za pˇrijatelnou. Znaˇcky se uprav´ı, aby odpov´ıdaly 1. 0 + nejnepoˇr´ adnˇejˇs´ı pˇr´ıtomn´ ym morf´em˚ um. 2. ne + jnepoˇr´ adnˇejˇs´ı 3. nej + nepoˇr´ adnˇejˇs´ı 4. nejne + poˇr´ adnˇejˇs´ı 5.4 Odvozov´ an´ı pˇ redponou yza, mohlo Prvn´ı rozdˇelen´ı odpov´ıd´ a algoritmu z´ akladn´ı anal´ yzy Nebyla-li dosud nalezena ˇz´adn´a platn´a anal´ a prov´ ad´ı se vˇzdy (uˇz v pˇredchoz´ım kroku). Dalˇs´ı jsou by se jednat o slovo odvozen´e pˇredponou. Dojde-li na
anal´ yzu odvozovan´ı pˇredponami, hled´ a se od zaˇc´atku tvaru pˇredpona v trie pˇredpon. Je-li nˇejak´a nalezena, pokraˇcuje se hled´ an´ım zbytku zadan´eho tvaru v trie zaˇc´ atk˚ u a d´ ale bˇeˇz´ı z´ akladn´ı anal´ yza. Najdeli se zbytek jako slovn´ı tvar, provˇeˇruje se, zda jde pˇredpona se slovn´ım druhem dohromady. Pokud ano, je anal´ yza pˇrijata, jinak je odm´ıtnuta. Kombinace zkratek s pˇredponami se nepˇripouˇst´ı. Anal´ yza pokraˇcuje hled´ an´ım delˇs´ıch pˇredpon (a kratˇs´ıch tvar˚ u). Ty by mohly pˇredstavovat jin´e dˇelen´ı (ˇci odvozen´ı) slova. Analyz´ ator pˇredpon uvaˇzuje jen jedinou pˇredponu. V´ıceˇcetn´e kombinace se nehledaj´ı. Pˇr´ıch´azej´ı-li vu ´vahu, mus´ı b´ yt zad´ any jako samostatn´ a pˇredpona v seznamu. T´ım se nav´ıc podchyt´ı spr´ avn´e uspoˇr´ad´an´ı pˇredpon. Napˇr´ıklad m˚ uˇzeme ,,dovysekat tr´ avu pˇred gar´ aˇz´ı“. Neˇr´ık´ a se ale ,,vydosekat“. Pot´e, co se vyˇcerpaj´ı moˇznosti jedn´e pˇredpony, zkouˇs´ı se jeˇstˇe jedna cesta. Slovo by totiˇz mohlo b´ yt utvoˇreno pˇredponou v kombinaci s morf´emem negace ˇci stupˇ nov´ an´ı. Morf´em superlativu m˚ uˇze pˇredch´ azet negativn´ımu morf´emu a jeden nebo oba mohou pˇredch´ azet odvozovac´ı pˇredponˇe a ta koneˇcnˇe bude n´ asledov´ana tvarem (napˇr´ıklad ,,nej—ne—dovy—sekanˇejˇs´ı“). Slovn´ı druh tvaru mus´ı korespondovat se vˇsemi nalezen´ ymi morf´emy (mohou b´ yt uzn´ any i na z´ akladˇe ˇzol´ık˚ u ve znaˇcce) i pˇredponou. Nen´ı tedy dovoleno napˇr. spojen´ı morf´emu ,,nej“ se substantivy. Opˇet se hled´a jen jedin´ a pˇredpona. 5.5
Pˇ rehled anal´ yzy
Obr´ azek 2 zn´ azorˇ nuje v´ yvojov´ y diagram pr˚ ubˇehu anal´ yzy.
6
Shrnut´ı a v´ yhledy do budoucna
Pˇredstaven´ a nov´ a verze morfologick´e anal´ yzy jiˇz byla implementov´ ana. V z´ akladn´ı formˇe poskytuje stejn´e v´ ysledky jako zmiˇ novan´ a praˇzsk´ a verze morfologick´e anal´ yzy. Je tˇreba jeˇstˇe prov´est vyhodnocen´ı v´ ysledk˚ u pˇredponov´eho guessru, tj. zda a nakolik se zlepˇs´ı rozpozn´ an´ı slovn´ıch tvar˚ u, kter´e z´ akladn´ı anal´ yza na z´ akladˇe slovn´ıku rozpoznat neum´ı. D´ ale pl´anujeme rozˇs´ıˇrit guesser na koncovky a pˇr´ıpony, kter´e jsou v ˇcesk´em jazyce tak´e velmi produktivn´ı.
7
Podˇ ekov´ an´ı
Tato pr´ ace byla podpoˇrena granty Informaˇcn´ı spoleˇcnosti ˇc. 1ET101120503 a 1ET101120413 poskyˇ a grantem tovan´ ymi Grantovou agenturou AV CR ˇc. 100008/2008 poskytnut´ ym Grantovou agenturou UK.
Reference 1. http://ufal.mff.cuni.cz/morfo/ 2. Sedl´ aˇcek R.: Morphological analyser of Czech - ajka. http://nlp.fi.muni.cz/projekty/ajka/ 3. Hajiˇc, J.: Disambiguation of Rich Inflection. (Computational Morphology of Czech) Praha, Karolinum 2004. 4. Hlav´ aˇcov´ a, J.: Morphological Guesser of Czech Words. Proc. TSD 2001, Springer-Verlag Berlin Heidelberg 2001. str. 70-75.