Automatick´ e rozpozn´ av´ an´ı pˇ redpon a pˇ r´ıpon s pomoc´ı n´ astroje ⋆ Affisix Jaroslava Hlav´aˇcov´a, Michal Hruˇseck´ y ˇ Matematicko-fyzik´ aln´ı fakulta Univerzity Karlovy v Praze, Cesk´ a Republika,
[email protected],
[email protected] ˇ anek se zab´ Abstrakt Cl´ yv´ a problematikou segmentace slov. Uk´ aˇze, k ˇcemu lze znalosti o segmentaci slov pouˇz´ıt, a pop´ıˇse nˇekolik metod pro automatickou segmentaci slov. Z´ avˇerem pˇredstav´ı open source n´ astroj Affisix implementuj´ıc´ı pˇredstaven´e metody.
1
Motivace
V pˇr´ıkladech ˇslo vˇzdy o lingvistick´e morf´emy (pˇr´ıklad 1 a 2 se t´ ykal pˇredpon, 3. pˇr´ıklad morf´em˚ u obecnˇe), pˇri automatick´em zpracov´an´ı jazyka vˇsak nemus´ı b´ yt lingvistick´a motivace dˇelen´ı slov nutn´a. Proto pro dalˇs´ı pouˇzit´ı budeme definovat pˇredpony a pˇr´ıpony bez ohledu na lingvistick´e vlastnosti. Definice 1 Posloupnost p´ısmen je pˇ redpona, pokud
Mnoho modern´ıch metod pro zpracov´an´ı pˇrirozen´eho – se vyskytuje na zaˇca ´tku mnoha slov jazyka je zaloˇzeno na statistick´em pˇr´ıstupu, kdy na– ve slovech, kde se vyskytuje, m˚ uˇze b´yt nahrazena tr´enujeme jazykov´ y model na tr´enovac´ıch datech pˇred jinou posloupnost´ ı p´ ı smen tak, ˇ z e v´ysledek tak´e tvoˇr´ı jeho pouˇzit´ım. V re´ aln´ ych u ´ loh´ ach ale nelze pˇredposlovo kl´ adat, ˇze se v tr´enovac´ıch datech objevila vˇsechna moˇzn´a slova. Zde n´ am znalost segmentace slov m˚ uˇze pomoci. V pˇr´ıpadˇe, ˇze pˇri zpracov´an´ı re´ aln´ ych dat naIlustrace definice na pˇr´ıkladˇe pˇredpony euro- (vˇsechraz´ıme na nezn´ am´e slovo, m˚ uˇzeme ho zkusit rozloˇzit a ny pˇr´ıklady jsou z korpusu SYN [4]): z´ıskat tak alespoˇ n nˇejak´e informace. Prvn´ı podm´ınku dokumentuj´ı napˇr. n´ asleduj´ıc´ı u ´ ryvky: Pˇ r´ıklad 1 Konstruujeme automatick´y tagger ˇceˇstiny. V re´ aln´ych datech se objevilo slovo rozpoznal, kter´e – Tˇrin´ act kritik˚ u evropsk´e integrace sepsalo ”konse ovˇsem nevyskytovalo v tr´enovac´ıch datech. Syst´em tra´ ustavu” Evropsk´e unie ale m˚ uˇze zjistit, ˇze segmentace tohoto slova m˚ uˇze b´yt – Hongkongsk´ a spr´ ava chce d´ al prosazovat novou miroz-poznal. M˚ uˇze tedy zkusit ve slovn´ıku nal´ezt slovo ni´ u stavu poznal. Budeme-li pˇredpokl´ adat, ˇze pˇredpony nemˇen´ı mluvnick´e kategorie, kter´e se snaˇz´ıme rozpoznat, m˚ uDruh´a podm´ınka je splnˇena existenc´ı slov: ˇzeme pouˇz´ıt tag od slova poznal. Pˇ r´ıklad 2 Konstruujeme syst´em pro automatick´e roz– europolitika, eurotrh, eurozastoupen´ı, euroexpozn´ av´ an´ı mluven´e ˇreˇci a pouˇz´ıv´ ame jazykov´y model pert pro zpˇresnˇen´ı v´ystupu. Z rozpozn´ avaˇce z´ısk´ ame, ˇze uˇzivatel pravdˇepodobnˇe ˇrekl eurostava. Druh´e nejpravdˇeObdobnˇe, jako jsme definovali pˇredpony, budeme podobnˇejˇs´ı slovo bylo euro´ ustava. Ani jedno z nich definovat i pˇr´ıpony: ovˇsem nebylo v tr´enovac´ıch datech. Pokud ale v´ıme, ˇze euro- se chov´ a jako pˇredpona, a v tr´enovac´ıch dar´ıpona, pokud tech bylo slovo ´ ustava, m˚ uˇzeme rozhodnout, ˇze v´ystup Definice 2 Posloupnost p´ısmen je pˇ euro´ ustava je lepˇs´ı. – se vyskytuje na konci mnoha slova Pˇ r´ıklad 3 Konstruujeme s´ azec´ı program a chceme, – ve slovech, kde se vyskytuje, m˚ uˇze b´yt nahrazena jinou posloupnost´ı p´ısmen tak, ˇze v´ysledek tak´e tvoˇr´ı aby umˇel automaticky dˇelit slova. Naraz´ıme-li na neslovo zn´ am´e slovo, m˚ uˇzeme se pokusit ze znalost´ı o segmentaci nal´ezt vhodn´e dˇelen´ı a navrhnout ho uˇzivateli. ⋆ Ve v´ yˇse uveden´ ych definic´ıch chyb´ı urˇcen´ı toho, koTento ˇcl´ anek prezentuje v´ ysledky v´ yzkumu podˇ ˇ lik je mnoho. To ovˇ sem nelze obecnˇe stanovit. M˚ uˇzeme porovan´eho granty GACR P202/10/1333, GACR a ˇca´st slova tuto definici odr´aˇz´ı. P406/2010/0875 a Centrem komputaˇcn´ı lingvistiky, ale ˇr´ıci, jak moc kter´ ˇ ˇ LC536. To se pokouˇs´ı postihnout n´ıˇze zmiˇ novan´e metody. MSMT CR
2
Metody
Definice 5 Mˇejme slovo w a jeho dˇelen´ı w = p :: s. Poˇ cet dopˇ redn´ ych ˇ ctverc˚ u Sf (p) je potom S (p) = |{< p, p , s , s >; < p, p2 , s1 , s2 > je ˇctverec}|. f 2 1 2 V t´eto ˇca´sti se budeme zab´ yvat nˇekolika metodami pro automatickou segmentaci. Vˇsechny popsan´e mePoˇcet dopˇredn´ ych ˇctverc˚ u tedy ˇr´ık´ a, v kolika ˇctvertody jsou jazykovˇe nez´ avisl´e. Jedin´ y poˇzadavek na jazyk je, aby se text v psan´e formˇe dˇelil na slova, a c´ıch se dan´a posloupnost p´ısmen vyskytuje jako jeden u. pˇredpony ˇci pˇr´ıpony se pˇrid´ avaly pouze na zaˇca´tek ˇci z poˇca´teˇcn´ıch segment˚ Obdobnˇe budeme definovat poˇcet zpˇetn´ ych ˇctverc˚ u konec slova. Algoritmy pro sv˚ uj bˇeh vyˇzaduj´ı pouze u, ve kter´ ych se dan´a posloupnost obs´ ahl´ y seznam slov z dan´eho jazyka. Kromˇe metody jako poˇcet ˇctverc˚ ych segment˚ u. diferenˇcn´ı entropie jsou metody pˇrevzaty z ˇcl´anku [1] p´ısmen vyskytuje jako jeden z koncov´ o vytv´aˇren´ı seznamu pˇredpon a pˇr´ıpon ve ˇspanˇelˇstinˇe Definice 6 Mˇejme slovo w a jeho dˇelen´ı w = p :: s. pomoc´ı korpusu. cet zpˇ etn´ ych ˇ ctverc˚ u Sb (p) je potom V n´ asleduj´ıc´ım textu bude Ω znaˇcit mnoˇzinu vˇsech Poˇ slov vyskytuj´ıc´ıch se v jazyce. Necht’ slovo α je sloˇzeno Sb (p) = |{< p1 , p2 , s, s2 >; < p1 , p2 , s, s2 > je ˇctverec}|. z posloupnosti p´ısmen a1 , . . . , an . Potom budeme ps´at, Vezmeme-li nyn´ı v u ´ vahu p˚ uvodn´ı definice pˇredpon ˇze α = a1 :: . . . :: an . Posloupnost p´ısmen naz´ yv´ame a pˇr´ıpon, je patrn´e jak odpov´ıd´a metoda ˇctverc˚ u t´eto tak´e ˇ retˇ ezec. ych ˇctverc˚ u n´ am ˇrekne, v kolika Oper´ator “::” budeme obdobn´ ym zp˚ usobem defi- definici. Poˇcet dopˇredn´ novat i pro ˇretˇezce. Necht’ slovo α je sloˇzeno z po- slovech se posloupnost p´ısmen vyskytovala na zaˇca´tku a z´ aroveˇ n zapoˇc´ıt´a jen slova, kde ji bylo moˇzn´e nahrasloupnosti p´ısmen a1 , . . . , an a necht’ dit nˇeˇc´ım jin´ ym. p = a1 :: . . . al ∧ s = al :: . . . :: an Obdobn´ ym zp˚ usobem lze pouˇz´ıt poˇcet zpˇetn´ ych ˇctverc˚ u pro rozpozn´av´ an´ı pˇr´ıpon. Potom budeme ps´at, ˇze α = p :: s. Definice 3 Dˇ elen´ım slova budeme naz´yvat operaci, kdy ze slova w z´ısk´ ame dvˇe posloupnosti znak˚ u p a s takov´e, ˇze w = p :: s.
2.2
Entropie
Metoda entropie je zaloˇzena na odliˇsn´em pˇr´ıstupu. Nen´ı zde jiˇz tolik patrn´a souvislost s definicemi v u ´ vodu. Je zaloˇ z ena na entropii, kter´ a je definov´ a na n´ a sleduj´ ıc´ım Jelikoˇz naˇs´ım c´ılem je nal´ezt nejvhodnˇejˇs´ı dˇelen´ı, zp˚ u sobem: vˇsechny n´ asleduj´ıc´ı metody budou zaloˇzeny na principu ohodnocov´an´ı dˇelen´ı. Pro kaˇzd´e moˇzn´e dˇelen´ı slova X H(p) = − p(si |p) log2 p(si |p) n´ am kaˇzd´a metoda vr´ at´ı ˇc´ıslo odpov´ıdaj´ıc´ı vhodnosti si ∈S tohoto dˇelen´ı. Na n´ as pot´e je stanovit mez, pˇri kter´e dˇelen´ı oznaˇc´ıme za spr´ avn´e. kde S je mnoˇzina jev˚ u, kter´e mohou nastat po jevu p. Entropie vyjadˇruje m´ıru nejistoty. Jestliˇze slovo zaˇc´ın´a ˇretˇezcem p, potom ˇc´ım je H(p) vyˇsˇs´ı, t´ım je 2.1 Metoda ˇ ctverc˚ u tˇeˇzˇs´ı pˇredpovˇedˇet, jak´ ym ˇretˇezcem si bude slovo poMetoda ˇctverc˚ u je nejjednoduˇsˇs´ı metodou zde popiso- kraˇcovat. Je zˇrejm´e, ˇze za pˇredponami bude entrovanou. Vyuˇz´ıv´ a pˇr´ımo definice pˇredpon a pˇr´ıpon, uve- pie vysok´ a, protoˇze pˇredpony stoj´ı na zaˇca´tku mnoha den´e v sekci 1. slov. Podobnˇe bude entropie vysok´ a pˇred pˇr´ıponami, nebot’ k dan´emu zaˇca´tku slova lze obvykle pˇripojit ˇ Definice 4 Ctverec je ˇctveˇrice ˇretˇezc˚ u (ˇretˇezec m˚ uˇze v´ıce pˇr´ıpon. Pro naˇse potˇreby budeme poˇc´ıtat entropii usoby. b´yt i pr´ azdn´y) < p1 , p2 , s1 , s2 > takov´ a, ˇze plat´ı vˇsechny dvˇema zp˚ n´ asleduj´ıc´ı podm´ınky: Definice 7 Dopˇ redn´ a entropie posloupnosti p´ısmen r je definov´ ana jako – p1 :: s1 ∈ Ω – p1 :: s2 ∈ Ω X – p2 :: s2 ∈ Ω Hf (r) = − pf (si |r) log2 pf (si |r) si ;r::si ∈Ω – p2 :: s1 ∈ Ω
Poˇzadavkem na vytvoˇren´ı ˇctverce tedy je, ˇze kaˇzd´ y kde pf (si |r) oznaˇcuje pravdˇepodobnost, ˇze slovo zaˇc´ıpoˇca´teˇcn´ı segment mus´ı s kaˇzd´ ym koncov´ ym segmen- naj´ıc´ı r bude konˇcit si . tem dohromady vytv´aˇret slovo.
Definice 8 Zpˇ etn´ a entropie posloupnosti p´ısmen r Nemˇeˇr´ıme tedy uˇz nejistotu, s jakou lze pˇredpoje definov´ ana jako vˇedˇet, co bude pokraˇcovat, ale n´ ar˚ ust t´eto nejistoty. Budeme-li postupovat od zaˇ c a ´ tku slova k jeho konci, X Hb (r) = − pb (si |r) log2 pb (si |r) bude dopˇredn´ a entropie obecnˇe klesat, nebot’ ˇc´ım v´ıce si ;si ::r∈Ω se pˇri zpracov´an´ı bl´ıˇz´ıme ke konci slova, t´ım m´enˇe uˇzeme oˇcek´avat. Dopˇredn´ a dikde pb (si |r) oznaˇcuje pravdˇepodobnost, ˇze slovo konˇc´ı- moˇznost´ı pokraˇcov´an´ı m˚ ferenˇcn´ı entropie zachyt´ı okamˇziky, kdy entropie oproti c´ı r bude zaˇc´ınat si . oˇcek´av´ an´ı vzroste, a to i tehdy, kdyˇz jej´ı hodnota nen´ı absolutnˇ e nejvyˇsˇs´ı. To n´ am umoˇzn´ı zachytit ta m´ısta V definici pˇredpony jsme poˇzadovali, aby ˇretˇezec ve slovˇ e , kde je nejistota pokraˇcov´an´ı neobvykle vymohl pokraˇcovat mnoha r˚ uzn´ ymi zp˚ usoby. Pokud m´asok´ a . Opˇ e t se tedy snaˇ z ´ ıme o splnˇen´ı prvn´ı podm´ınky me mnoho r˚ uzn´ ych konc˚ u, je nejistota, co bude n´ aslez definice, kdy poˇ z adujeme, aby ˇretˇezec (pˇredpona) dovat po pˇredponˇe, v´ yraznˇe vyˇsˇs´ı, neˇz pokud m´ame ˇ mˇ e l mnoho moˇ z nost´ ı pokraˇ c ov´ an´ı. V tomto pˇr´ıpadˇe jen jeden moˇzn´ y konec. C´ım vyˇsˇs´ı m´a tedy u ´ vodn´ı “mnoho” nen´ ı glob´ a ln´ ı limit, ale znamen´ a v´ıce moˇzˇretˇezec dopˇrednou entropii, t´ım v´ıce odpov´ıd´a naˇs´ı denost´ ı, neˇ z je obvykl´ e . finici pˇredpony. Dopˇredn´ a entropie ovˇsem nijak expliDruh´a podm´ınka, totiˇz moˇznost odtrhnout pˇredcitnˇe nezahrnuje druhou podm´ınku — aby pˇredponu ponu a nahradit ji jinou, nen´ı ani u t´eto metody zobylo moˇzno odtrhnout a nahradit jinou tak, aby v´ yhlednˇ e na, stejnˇe jako u metod entropie. Lze se s n´ı sledek byl tak´e slovem v dan´em jazyce. vypoˇ r ´ a dat i stejn´ ym zp˚ usobem. Podobnˇe jako u meO tom by n´ am nˇeco mohla prozradit zpˇetn´a entod entropie se dopˇ r edn´ a diferenˇcn´ı entropie hod´ı pro tropie, ale ta b´ yv´a na zaˇca´tku slov pomˇernˇe n´ızk´a. rozpozn´ a v´ a n´ ı pˇ r edpon a zpˇ etn´a diferenˇcn´ı entropie k Pro splnˇen´ı t´eto podm´ınky m˚ uˇzeme pouˇz´ıt i jin´e merozpozn´ a v´ a n´ ı pˇ r ´ ıpon. tody (napˇr´ıklad zkusit naj´ıt alespoˇ n jeden ˇctverec), nebo jen spol´ehat, ˇze kdyˇz m´a poˇca´teˇcn´ı ˇretˇezec tolik moˇzn´ ych pokraˇcov´an´ı, tak ˇze ho lze i nahradit. Pro odhalov´an´ı pˇredpon se tedy hod´ı dopˇredn´ a 3 Affisix entropie, kterou je moˇzn´e jeˇstˇe trochu vylepˇsit poastroj pro experimenty se moc´ı dodateˇcn´ ych podm´ınek. Definice pˇr´ıpony se od Affisix je open source n´ segmentac´ ı slov. Je ps´ a n v jazyce C++ a distribuov´an pˇredpony liˇs´ı jen odtrh´ av´ an´ım z druh´eho konce slova. pod licenc´ ı GPLv3. Obsahuje pouze rozhran´ı pro pˇr´ıA jelikoˇz se zpˇetn´ a entropie od dopˇredn´e liˇs´ı takt´eˇz kazovou ˇ r ´ a dku. D´ ıky tomu je ale snadno pˇrenositeln´ ya pouze opaˇcn´ ym smˇerem zpracov´an´ı slova, lze stejn´ ym umoˇ z n ˇ uje snadn´ e zaˇ c lenˇ e n´ ı do sloˇ z itˇ e jˇ s ´ ıch script˚ u pro zp˚ usobem, jak´ ym lze pouˇz´ıt dopˇrednou entropii pro rozpozn´av´ an´ı pˇredpon, pouˇz´ıt zpˇetnou entropii pro roz- zpracov´an´ı dat. Hlavn´ı v´ yhodou programu Affisix je jeho unipozn´av´ an´ı pˇr´ıpon. verz´ alnost. Implementuje nejen uveden´e metody, ale z´ aroveˇ n i jednoduch´ y interpreter. D´ıky nˇemu lze me2.3 Diferenˇ cn´ı entropie tody a jednoduch´e pomocn´e funkce libovolnˇe kombinouˇze snadno testovat r˚ uzn´e moˇznosti Pod´ıv´ ame-li se na v´ ysledky metody entropie, je patrn´e, vat. Uˇzivatel tak m˚ kombinace metod bez nutnosti rekompilace. ˇze u dopˇredn´e entropie jsou hodnoty na zaˇca´tku slova Affisix podporuje dva r˚ uzn´e m´ody. Prvn´ı m´od je v´ yraznˇe vyˇsˇs´ı neˇz na jeho konci. Aby bylo moˇzn´e rocollector, kdy jsou vstupn´ ı data pouˇzita pouze pro vyzumnˇe porovn´avat vhodnost dˇelen´ı slova na zaˇca´tku i generov´ a n´ ı seznamu rozpoznan´ y ch segment˚ u. Druh´ y na konci, je tˇreba pouˇz´ıt nˇejakou formu automatick´e m´ o d je filter. V tomto m´ o du Affisix projde vstupn´ ı normalizace. text a pouze oznaˇ c ´ ı m´ ısta vhodn´ a pro segmentaci. Tu n´ am nab´ız´ı metoda diferenˇcn´ı entropie. Definice 9 Dopˇ redn´ a diferenˇ cn´ı entropie posloupnosti p´ısmen r = rr :: r1 je definov´ ana jako Hdf (r) = Hf (r) − Hf (rr ) kde r1 je pr´ avˇe jedno p´ısmeno. Definice 10 Zpˇ etn´ a diferenˇ cn´ı entropie posloupnosti p´ısmen r = r1 :: rr je definov´ ana jako Hdb (r) = Hf (r) − Hf (rr ) kde r1 je pr´ avˇe jedno p´ısmeno.
4
V´ ysledky
Pro srovn´an´ı metod jsme provedli nˇekolik experiment˚ u. Ty spoˇc´ıvaly v pouˇzit´ı Affisixu pro rozpozn´an´ı pˇredpon existujic´ıch v ˇceˇstinˇe. Jako vstupn´ı byla pouˇzita filtrovan´a lemmata z korpusu SYN2000 [4]. Odstranili jsme vˇsechna slova zaˇc´ınaj´ıc´ı velk´ ym p´ısmenem (typicky vlastn´ı jm´ena), d´ ale slova obsahuj´ıc´ı tˇri stejn´a p´ısmena za sebou (r˚ uzn´e chyby, kter´e se dostaly do korpusu) a nakonec i slova obsahuj´ıc´ı pro ˇceˇstinu netypick´a p´ısmena “q”, “w” a
100
Cf Hdf Hf Sf
90
precision
80
70
60
50
40
30 0
50
100 pocet predpon
150
200
Obr´ azek 1. Srovn´ an´ı precision pˇri rozpozn´ av´ an´ı pˇredpon
“x”. Kaˇzd´e ze zbyl´ ych lemmat bylo zapoˇc´ıt´ ano pouze jednou. Na vstupn´ı data jsme pouˇzili zmiˇ novan´e metody v kombinaci s poˇzadavkem, ˇze pˇredpona netvoˇr´ı v´ıce neˇz polovinu slova, a z´ıskali tak kandid´aty na ˇcesk´e pˇredpony. V´ ysledn´e seznamy byly zkontrolov´any ˇclovˇekem, kter´ y stanovil, kter´e ˇretˇezce jsou skuteˇcn´ ymi pˇredponami a kter´e ne. Pro porovn´av´ an´ı metod jsme pouˇzili precision. Definice 11 Necht’ Γ je mnoˇzina pˇredpon z´ıskan´ych automatickou metodou a necht’ Ψ je mnoˇzina skuteˇcn´ych pˇredpon existuj´ıc´ıch v dan´em jazyce. Potom precision P je definov´ ana jako P =
|Γ ∩ Ψ | × 100% |Γ |
D´ale jsme pouˇz´ıvali pomocnou metodu Cf utvoˇrenou jako souˇcet normalizovan´ ych hodnot jednotliv´ ych metod: Definice 12 Necht’ p je ˇretˇezec a necht’ Υ je mnoˇzina vˇsech ˇretˇezc˚ u. D´ ale necht’: ||Hf (p)|| = Hf (p)/ max{Hf (s)} s∈Υ
||Hdf (p)|| = Hdf (p)/ max{Hdf (s)} s∈Υ
||Sf (p)|| = log(Sf (p))/ max{log(Sf (s))}
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25.
pˇ redpona super pseudo mikro sebe r´ adoby deseti mimo hyper anti roz severo jiho makro elektro jedno n´ızko mega vnitro spolu dvou euro velko auto ultra dev´ıti
Cf ||Hf || ||Hdf || 2.682 0.967 0.978 2.602 0.963 0.961 2.532 0.921 0.917 2.505 0.898 0.849 2.480 0.983 1.000 2.437 0.917 0.865 2.423 0.968 0.801 2.420 0.906 0.894 2.393 0.942 0.706 2.390 0.922 0.530 2.384 0.966 0.839 2.370 0.944 0.848 2.366 0.935 0.886 2.364 0.931 0.797 2.361 0.923 0.726 2.359 0.940 0.919 2.341 0.904 0.861 2.332 0.939 0.862 2.327 0.921 0.711 2.317 0.929 0.659 2.311 0.918 0.791 2.309 0.857 0.820 2.306 0.896 0.737 2.306 0.873 0.888 2.304 0.858 0.833
s∈Υ
Potom: Cf (p) = ||Hf (p)|| + ||Hdf (p)|| + ||Sf (p)|| V tabulce 1 je vidˇet 25 nejlepˇs´ıch rozpoznan´ ych pˇredpon, seˇrazen´ ych podle hodnoty Cf .
Tabulka 1. Uk´ azka v´ ysledk˚ u
||Sf || 0.737 0.677 0.693 0.757 0.496 0.653 0.653 0.619 0.744 0.937 0.578 0.577 0.544 0.635 0.711 0.499 0.575 0.530 0.695 0.728 0.601 0.631 0.673 0.544 0.612
V tabulce 2 je k dispozici srovn´ an´ı jednotliv´ ych metod podle precision. Precision byla poˇc´ıt´ ana pro 10, 50, 100, 150 a 200 nejlepˇs´ıch pˇredpon dle dan´e metody. Jak precision postupnˇe kles´ a pˇrid´ av´ an´ım dalˇs´ıch kandid´at˚ u na pˇredpony, je vidˇet na obr´ azku 1. metoda Cf Hdf Hf Sf
10 50 100 150 200 100% 100% 94% 84% 73% 100% 100% 92% 81% 77% 100% 82% 79% 70% 70% 100% 60% 48% 36% 31%
Tabulka 2. Srovn´ an´ı precision pˇri rozpozn´ av´ an´ı pˇredpon
Aktu´aln´ı v´ ysledky [2] ukazuj´ı, ˇze pomoc´ı kombinace metod lze dos´ ahnout dobr´ ych v´ ysledk˚ u pˇri poˇrizov´an´ı seznamu pˇredpon. Na druhou stranu praktick´e vyuˇzit´ı v´ ysledk˚ u pˇri automatick´em pˇrekladu [3] zat´ım nepˇrineslo oˇcek´avan´e v´ ysledky. V t´e dobˇe ale nebyl jeˇstˇe k dispozici m´od filter, a program mˇel tedy k dispozici m´enˇe informac´ı, neˇz by mˇel dnes. C´ılem do budoucna je pˇrid´ avat dalˇs´ı slibn´e metody a rozˇs´ıˇrit moˇznosti jejich kombinac´ı.
Reference 1. Urrea, A. M.: Automatic Discovery of Affixes by means of a Corpus: A Catalog of Spanish Affixes. Journal of Quantitative Linguistics 7 (2000) 97–114 2. Hlav´ aˇcov´ a, J., Hruˇseck´ y, M.: Affisix: Tool for Prefix Recognition. Text, Speech and Dialogue 5246 (2008) 85– 92 3. Bojar, O., Straˇ n´ ak, P., Zeman, D., Jain, G., Hruˇseck´ y, M., Richter, M., Hajiˇc, J.: English-Hindi Translation— Obtaining Mediocre Results with Bad Data and Fancy Models. Proceedings of the 7th International Conference On Natural Language Processing (ICON-2009) ´ ˇ ˇ 4. Ustav Cesk´ eho n´ arodn´ıho korpusu FF UK: Cesk´ y n´ arodn´ı korpus - SYN. http://ucnk.ff.cuni.cz 5. Hruˇseck´ y, M.: Affisix. http://affisix.sf.net