Michal Suchánek Český morfologický guesser

Univerzita Karlova v Praze Matematicko–fyzikáln´ı fakulta

´ RSK ˇ ´ PRACE ´ BAKALA A

Michal Suchánek ˇ Cesk´ y morfologick´ y guesser ´ Ustav formáln´ı a aplikované lingvistiky

Vedouc´ı bakaláˇrské práce: RNDr. Jaroslava Hlaváˇcová Studijn´ı program: Informatika, Obecná informatika

2009

Dˇekuji RNDr. Jaroslavˇe Hlaváˇcové za ochotnou spolupráci pˇri pˇr´ıpravˇe práce a zap˚ ujˇcen´ı literatury a Prof. RNDr. Janu Hajiˇcovi, Dr. za poskytnut´ı informac´ı o existuj´ıc´ım probabilistickém guesseru.

Prohlaˇsuji, ˇze jsem svou bakaláˇrskou práci napsal samostatnˇe a v´ yhradnˇe s pouˇzit´ım citovan´ ych pramen˚ u. Souhlas´ım se zap˚ ujˇcován´ım práce a jej´ım zveˇrejˇ nován´ım. V Praze dne 27.5.2009

Michal Suchánek

2

Obsah 1 Morfologick´ a anal´ yza

5

2 Morfologick´ e guessery 2.0.1 Pojmy pouˇzité v textu 2.1 Existuj´ıc´ı guessery . . . . . . 2.1.1 ,,Koncov´ y” guesser . . 2.1.2 Probabilistick´ y guesser 2.2 Slovn´ıkov´ y guesser . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

7 7 8 8 9 10

3 Implementace guesseru 3.0.1 Ukázka formátu CSTS . . . . . . . . . . . 3.1 Pomocné heuristiky pro speciáln´ı slova . . . . . . 3.1.1 Slova zaˇc´ınaj´ıc´ı velk´ ym p´ısmenem, zkratky 3.1.2 Pˇredpony . . . . . . . . . . . . . . . . . . 3.1.3 Zkrácen´ı prodlouˇzen´ ych slov . . . . . . . . 3.2 Slovn´ıkov´ y guesser . . . . . . . . . . . . . . . . . 3.2.1 Pˇr´ıprava seznamu konc˚ u . . . . . . . . . . 3.2.2 Speciáln´ı konec — lemma . . . . . . . . . 3.2.3 Postup pˇri odhadován´ı tag˚ u . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

12 13 14 14 15 15 15 15 17 17

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

18 18 20 22 22 22

jazyk . . .

25

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

4 Z´ avˇ er 4.1 Porovnán´ı s pravdˇepodobnostn´ım guesserem . . 4.1.1 Tabulka — vyhodnocen´ı guesseru . . . . 4.2 Dalˇs´ı moˇznosti zlepˇsen´ı guesseru . . . . . . . . . 4.2.1 Ladˇen´ı parametr˚ u. . . . . . . . . . . . . 4.2.2 Rozˇs´ıˇren´ı pravidel . . . . . . . . . . . . . 4.2.3 Rozˇs´ıˇren´ı porovnáván´ı zahrnut´ı vlastnost´ı specifick´ ych pro ˇcesk´ y

3

. . . . .

Literatura

27

A Pˇ r´ıloha — n´ avod k programu A.1 Poˇzadavky na prostˇred´ı . . . . . . . . . . . . . . . . . . . . . A.2 Spuˇstˇen´ı guesseru . . . . . . . . . . . . . . . . . . . . . . . . A.3 Pˇr´ıklad pouˇzit´ı guesseru . . . . . . . . . . . . . . . . . . . .

28 28 28 29

B Pˇ r´ıloha — obsah CD

33

4

ˇ y morfologický guesser Název práce: Cesk´ Autor: Michal Suchánek ´ Katedra (´ ustav): Ustav formáln´ı a aplikované lingvistiky Vedouc´ı bakaláˇrské práce: RNDr. Jaroslava Hlaváˇcová e–mail vedouc´ıho: [email protected] Abstrakt: C´ılem práce je implementace guesseru pro ˇceský jazyk, který vyuˇz´ıvá slovn´ıková data. Prvn´ım krokem pˇri analýze textu je pˇriˇrazen´ı morfologických tag˚ u jednotlivým slov˚ um v textu. Morfologické tagy popisuj´ı slovn´ı druh a tvar slova, coˇz je informace potˇrebná pro dalˇs´ı analýzu textu. Morfologické tagy se pˇriˇrazuj´ı na základˇe automatického vyhledán´ı pˇr´ısluˇsného slovn´ıho tvaru ve slovn´ıku. Morfologický guesser pˇriˇrazuje tagy slov˚ um, která ve slovn´ıku nebyla nalezena. Zde popsaný guesser vyuˇz´ıvá podobnost nerozpoznaných slov se slovy jiˇz ve slovn´ıku obsaˇzenými. Kl´ıˇcová slova: lingvistika, morfologie, guesser, ˇceský jazyk

Title: Morphological Guesser for Czech Language Author: Michal Suchánek Department: Institute of Formal and Applied Linguistics Supervisor: RNDr. Jaroslava Hlaváˇcová Supervisor’s e–mail address: [email protected] Abstract: The first step of text analysis is tagging word forms with morphological tags. These tags describe the part of speech, person (where applicable), number, etc. This information is used for further analysis of the text. Tags are automatically assigned by looking up the word form in the morphological dictionary. This gives good results for the Czech language because the word forms express the morphological categories to some extent. Unlike English words, Czech words often change their ending when their morphological category changes. Words that are not present in the dictionary can be tagged with a guesser. The guesser described here uses the similarity of unrecognized words with words already present in the dictionary. Keywords: Czech, morphology, linguistics, guesser

5

Kapitola 1 Morfologick´ a anal´ yza Morfologická anal´ yza je základn´ı lingvistická anal´ yza textu. Slova jsou analyzována jednotlivˇe, hodnoty morfologick´ ych kategori´ı jsou pˇriˇrazeny pouze na základˇe slovn´ıho tvaru bez ohledu na kontext. Napˇr´ıklad tvar staven´ı by mimo kontext mohl být povaˇzován za podstatné jméno stˇredn´ıho rodu v prvn´ım pádˇe a jednotném ˇc´ısle. Stejný tvar vˇsak m˚ uˇze v tomto pˇr´ıpadˇe vyjadˇrovat téˇz druhý pád, mnoˇzné ˇc´ıslo, atd. V takovém pˇr´ıpadˇe je pˇri morfologické analýze pˇriˇrazen´ı hodnot kategori´ı nejednoznaˇcné. Formáln´ı morfologie je bl´ıˇze popsána v [1] v kapitole 2.1 (s. 25—30). Pˇri morfologické anal´ yze textu je slovn´ı tvar vyhledán ve slovn´ıku a ve v´ ystupu oznaˇcen vˇsemi morfologick´ ymi tagy (znaˇckami) odpov´ıdaj´ıc´ımi moˇzn´ ym kombinac´ım hodnot kategori´ı. Staven´ı je podstatné jméno, tedy v poziˇcn´ım systému bude tag zaˇc´ınat NN dále N pro stˇredn´ı rod, S pro jednotné ˇc´ıslo nebo P pro mnoˇzné, ˇc´ıslice vyjadˇruj´ıc´ı pád, a -----A----, kde A znaˇc´ı, ˇze staven´ı nen´ı negováno. V ostatn´ıch kategori´ıch je -, protoˇze je podstatná jména v ˇceském jazyce nevyjadˇruj´ı — napˇr. ˇcas. Slovn´ımu tvaru staven´ı by tedy byly pˇriˇrazeny tagy NNNS1-----A----, NNNS2-----A----, NNNS3-----A----, NNNS4-----A----, NNNS5-----A----, NNNS6-----A----, NNNP1-----A----, NNNP2-----A----, NNNP4-----A----, NNNP5-----A----.

6

Podrobnˇe jsou tagy popsány v [1] v kapitolách 2.2 aˇz 2.4 (s. 31—98). Morfologická anal´ yza pˇriˇrad´ı slovn´ımu tvaru vˇsechny moˇzné hodnoty kategori´ı bez ohledu na kontext, ve kterém se slovo vyskytuje. Protoˇze moˇzn´ ych tag˚ u je zpravidla v´ıce, je v´ ystup morfologické anal´ yzy dále zpracován taggerem. Tagger provede tzv. desambiguaci — vybere z moˇzn´ ych tag˚ u ten nejpravdˇepodobnˇejˇs´ı. Bohuˇzel, ve slovn´ıku nejsou vˇsechna slova. Vybereme–li náhodné slovo z ˇceského textu, je pravdˇepodobnost 98%, ˇze je ve slovn´ıku nalezneme. Podle ˇ em národn´ım korpusu 2,3% nerozpoznan´ [2] bylo v roce 2001 v Cesk´ ych slov. Bˇeˇzná vˇeta má ale kolem deseti slov, a tak jsou vˇety obsahuj´ıc´ı nerozpoznané slovo pomˇernˇe ˇcasté. To ztˇeˇzuje desambiguaci a pˇr´ıpadné dalˇs´ı zpracován´ı textu. Je sice moˇzné slovn´ık dále rozˇsiˇrovat, ale bˇeˇzná slova jiˇz ve slovn´ıku jsou. Nav´ıc do slovn´ıku nelze zahrnout vˇsechna slova. Nˇekteré texty obsahuj´ı cizojazyˇcná jména nebo slova u ´plnˇe nová. Pro pˇriˇrazen´ı tag˚ u nerozpoznan´ ym slov˚ um se pouˇz´ıvá morfologick´ y guesser.

7

Kapitola 2 Morfologick´ e guessery 2.0.1

Pojmy pouˇ zit´ e v textu

Zde uvád´ım pro pˇrehlednost seznam pojm˚ u, které jsou specifické pro popis morfologického slovn´ıku a slovn´ıkového guesseru. Morfologick´ y guesser pˇriˇrazuje hodnoty morfologick´ ych kategori´ı slov˚ um, která nejsou nalezena ve slovn´ıku. Taková slova oznaˇc´ı morfologická anal´ yza tagem pro nerozpoznané slovo, kter´ y zastupuje vˇsech zhruba 4800 platn´ ych kombinac´ı hodnot morfologick´ ych kategori´ı. Guesser by mˇel pro neznámé slovo vybrat v´ yraznˇe menˇs´ı mnoˇzinu specifick´ ych tag˚ u. Podaˇr´ı–li se správnˇe odhadnout alespoˇ n slovn´ı druh, je ˇcasto pˇri dalˇs´ım zpracován´ı textu jiˇz moˇzné jednoznaˇcnˇe analyzovat vˇetu obsahuj´ıc´ı neznámé slovo [2]. Kofix je ˇcást slova, která je pro vˇsechny tvary slova stejná, pˇri oh´ ybán´ı slova se nemˇen´ı. V morfologickém slovn´ıku se neuvádˇej´ı jednotlivé tvary slova, ale kofix. Kofix obvykle odpov´ıdá koˇreni slova s pˇr´ıpadn´ ymi pˇredponami, ale z technick´ ych d˚ uvod˚ u se m˚ uˇze liˇsit. Napˇr´ıklad pro slovo domek je uveden kofix dom, protoˇze je to ˇcást spoleˇcná pro vˇsechny tvary slova (domek, domku, domc´ıch, atd.). Koncovka je v tomto textu ˇcást slova, jej´ımˇz pˇripojen´ım za kofix z´ıskáme nˇejak´ y tvar slova. Jak´ ykoliv tvar slova lze tedy rozdˇelit na kofix a koncovku. 8

Vzor je seznam koncovek, jejichˇz pˇripojen´ım za kofix lze z´ıskat jednotlivé tvary slova. Ve slovn´ıku je vˇzdy uveden kofix a vzor. Nepravidelná slova, která nemaj´ı ˇza´dn´ y vzor, nejsou v guesseru pouˇzita. Slovo domek má ve slovn´ıku pˇriˇrazen vzor hd1ek. Seznam koncovek pro tento vzor je následuj´ıc´ı: ek[NIS1@,NIS4@],ku[NIS2@,NIS3@,NIS5@,NIS6@],kem[NIS7@], ky[NIP1@,NIP4@,NIP5@,NIP7@],k˚ u[NIP2@],k˚ um[NIP3@], kách[NIP6@-1],c´ıch[NIP6@], kum[NIP3@-6],kama[NIP7@-6] Koncovka –ek je spoleˇcná pro prvn´ı a ˇctvrtý pád jednotného ˇc´ısla, –ku pro druhý, tˇret´ı, pátý a ˇsestý, atd. Lemma je slovo v základn´ım tvaru. Pro kaˇzdé slovo je ve slovn´ıku lemma uvedeno. Uvád´ı se téˇz ve v´ ystupu morfologické anal´ yzy. Sufix v textu znaˇc´ı vˇetˇsinou speciáln´ı koncovku, jej´ımˇz pˇripojen´ım za kofix z´ıskáme lemma. Konec v textu znaˇc´ı ˇcást slova, podle které guesser urˇcuje tagy neznám´ ych slov. Ve slovn´ıkovém guesseru konec vˇzdy obsahuje koncovku, a ˇcasto i dalˇs´ı p´ısmena z kofixu.

2.1 2.1.1

Existuj´ıc´ı guessery ,,Koncov´ y” guesser

Tento guesser byl implementován Jaroslavou Hlaváˇcovou, a je popsán v [2]. Hodnoty morfologick´ ych kategori´ı jsou urˇceny na základˇe posledn´ıch ˇctyˇr p´ısmen slovn´ıho tvaru. Databáze ˇctyˇrp´ısmenn´ ych konc˚ u slov a odpov´ıdaj´ıc´ıch ˇ tag˚ u byla z´ıskána anal´ yzou 100 milión˚ u slov z Ceského národn´ıho korpusu. Konec kaˇzdého slovn´ıho tvaru byl zaznamenán spolu s tagy, které mu byly v korpusu pˇriˇrazeny. Seznam byl poté optimalizován pro zrychlen´ı vyhledáván´ı. V pˇr´ıpadˇe, ˇze byl tag zaznamenán pro vˇsechny konce nezávisle na poˇca´teˇcn´ım p´ısmenu, byly záznamy nahrazeny jedn´ım pro kratˇs´ı konec. Byly uvaˇzovány pouze konce o dvou a v´ıce p´ısmenech. I tak mˇela z´ıskaná databáze des´ıtky tis´ıc záznam˚ u. 9

V korpusu by se mohly vyskytnout napˇr´ıklad slovn´ı tvary otc˚ uv s tagem AUIS1M--------- a soudc˚ uv se stejným tagem. Do seznamu tedy budou pˇridána pravidla pro konce –tc˚ uv a –dc˚ uv, která jim pˇriˇrazuj´ı tag AUIS1M---------. Je samozˇrejmˇe moˇzné, ˇze se pozdˇeji vyskytne stejnˇe konˇc´ıc´ı slovo (nebo dokonce totoˇzné slovo) s jiným tagem. Pro nˇej bude pˇridáno nové pravidlo. Pˇri optimalizaci seznamu pravidel by se pak pravidla pro –tc˚ uv a –dc˚ uv nahradila pravidlem pro –c˚ uv, protoˇze pˇriˇrazuj´ı stejný tag, a liˇs´ı se pouze poˇcáteˇcn´ım p´ısmenem. Pro zpˇresnˇen´ı guesseru bylo pˇridáno nˇekolik speciáln´ıch pravidel. Vˇsechna slova zaˇc´ınaj´ıc´ı velk´ ym p´ısmenem byla kromˇe pˇr´ıpadn´ ych tag˚ u odvozen´ ych z konce slova oznaˇcena téˇz jako podstatné jméno. Vˇetˇsina slov zaˇc´ınaj´ıc´ıch velk´ ym p´ısmenem jsou m´ıstn´ı nebo osobn´ı jména, která maj´ı vlastnosti podstatn´ ych jmen. I cizojazyˇcná jména, která jsou v p˚ uvodn´ım jazyce jiného slovn´ıho druhu, jsou vˇetˇsinou v ˇceˇstinˇe pouˇzita jako podstatná jména. Dalˇs´ı pravidla byla pˇridána pro stupˇ nován´ı a negaci.

2.1.2

Probabilistick´ y guesser

Guesser implementovan´ y Janem Hajiˇcem pouˇz´ıvá pravidla z´ıskaná anal´ yzou korpusu ˇc´ıtaj´ıc´ıho asi dva milióny slov. Pro kaˇzd´ y slovn´ı tvar vyskytuj´ıc´ı se v korpusu jsou vytvoˇrena pravidla, která pˇredepisuj´ı, jak odtrˇzen´ım prefixu a sufixu, a následn´ ym pˇridán´ım jiného prefixu a sufixu z´ıskáme lemma (slovo v základn´ım tvaru). Napˇr´ıklad pro slovn´ı tvar hradem (podstatné jméno muˇzského rodu neˇzivotné v sedmém pádˇe jednotného ˇc´ısla) lze vytvoˇrit pravidlo –hrad–em → –hrad–. Takové pravidlo bude znamenat, ˇze slova konˇc´ıc´ı na –em a zaˇc´ınaj´ıc´ı ˇc´ımkoliv mohou být podstatné jméno muˇzského rodu neˇzivotné v 7. pádˇe ... a lemma lze z´ıskat odtrˇzen´ım –em (a pˇridán´ım niˇceho). Jiné pravidlo by mohlo být hr–a–dem → hr–a–d — tedy odtrˇzen´ı hr– ze zaˇcátku a –dem z konce, a následnˇe pˇridán´ı hr– zpˇet na zaˇcátek a jiˇz pouze –d na konec. Pro tento algoritmus je libovolné pravidlo stejnˇe dobré. Jedin´ ym omezen´ım je maximáln´ı délka zaˇca´tku a konce (napˇr´ıklad 4 a 8), coˇz zabrán´ı 10

vytvoˇren´ı pˇr´ıliˇs mnoha pravidel, která nejsou uˇziteˇcná, protoˇze je lze pouˇz´ıt pouze na velmi dlouhá slova. Pravidla lze pouˇz´ıt na slova s pˇr´ısluˇsn´ ym zaˇcátkem a koncem. Rozliˇsuj´ı se velká a malá p´ısmena, protoˇze slova s velk´ ym poˇca´teˇcn´ım p´ısmenem jsou vˇetˇsinou vlastn´ı jména, a ta maj´ı mnoho spoleˇcného — napˇr´ıklad mezi nimi obvykle nenajdeme slovesa. Pouˇz´ıvaj´ı se pouze pravidla, která se v korpusu vyskytla alespoˇ n nˇekolikrát. Pˇr´ıliˇs ˇcasto se vyskytuj´ıc´ı pravidla jsou vˇsak také vylouˇcena. Vˇetˇsinou vznikaj´ı ze slov, která jsou velmi ˇcastá a velmi nepravidelná. Ve slovn´ıku jsou tedy obsaˇzena, a nová slova by se podle nich ˇr´ıdit nemˇela. Pro kaˇzdé neznámé slovo pak guesser vrát´ı tagy odpov´ıdaj´ıc´ı pouˇziteln´ ym pravidl˚ um, která se v korpusu vyskytovala nejˇcastˇeji.

2.2

Slovn´ıkov´ y guesser

Pˇri implementaci tohoto guesseru jsem vyuˇzil data ze slovn´ıku, kter´ y se pouˇz´ıvá pro rozpoznáván´ı slov. Slovn´ık neobsahuje vˇsechny tvary slova, ale pouze kofix1 a vzor, podle kterého lze vygenerovat jednotlivé tvary slova. Vzory neodpov´ıdaj´ı pˇresnˇe tˇem, které se uvádˇej´ı ve ˇskoln´ı gramatice. Slova jsou ˇcasto bud’ nepravidelná, a pak se jednotlivé tvary generuj´ı podle nˇekolika ˇca´steˇcn´ ych vzor˚ u, nebo se oh´ ybaj´ı pravidelnˇe, ale existuje nˇekolik variant vzoru. Napˇr´ıklad pro slovo staven´ı je ve slovn´ıku informace, ˇze se jedná o slovo podle vzoru st se základem staven´ı a lemmatem staven´ı. Vzor pak urˇcuje tagy pro jednotlivé koncovky. Jiˇz výˇse zm´ınˇené tagy pro ˇzádnou koncovku, NNNS7-----A---- a NNNP3-----A---- pro –m, NNNP6-----A---- pro –ch a NNNP7-----A---- pro –mi. M´ısto z korpusu lze tedy data pro guesser z´ıskat ze slovn´ıku. To má nˇekolik v´ yhod. Objem dat ve slovn´ıku je menˇs´ı a je v nˇem ménˇe chyb neˇz v korpusu. Je to dáno t´ım, ˇze slovn´ık se pouˇz´ıvá cel´ y, a pˇr´ıpadné nepˇresnosti se dˇr´ıve odhal´ı. Nav´ıc jsou v nˇem slova zaˇrazena právˇe jednou nezávisle na tom, jak ˇcasto se vyskytuj´ı v textu. Napˇr´ıklad nepravidelné sloveso b´ yt se v textu vyskytuje velmi ˇcasto. Pˇri vytváˇren´ı pravidel z korpusu m˚ uˇze jeho ˇcast´ y v´ yskyt vést k zavádˇej´ıc´ım 1

pˇribliˇznˇe odpov´ıd´ a koˇrenu slova s pˇr´ıpadn´ ymi pˇredponami

11

pravidl˚ um. Naopak slova, která se v textu vyskytuj´ı málo, b´ yvaj´ı pravidelná, a ve slovn´ıku je jich mnoho. A slova, která jeˇstˇe do slovn´ıku nebyla zaˇrazena, jsou právˇe taková, která se vyskytuj´ı zˇr´ıdka. Protoˇze jsou slova ve slovn´ıku organizována podle vzor˚ u, lze nˇekteré vzory pˇr´ımo vyˇradit. Napˇr´ıklad zájmena maj´ı ve slovn´ıku nˇekolik speciáln´ıch vzor˚ u, ale objeven´ı nového zájmena je ponˇekud nepravdˇepodobné. To by mˇelo usnadnit vytváˇren´ı pravidel, podle kter´ ych lze urˇcit hodnoty kategori´ı neznám´ ych slov.

12

Kapitola 3 Implementace guesseru Slovn´ıkov´ y guesser vycház´ı svou konstrukc´ı z pˇredchoz´ıch guesser˚ u. Hodnoty morfologick´ ych kategori´ı slovn´ıho tvaru jsou urˇceny pouze z tohoto tvaru, ke kontextu se nepˇrihl´ıˇz´ı. Slovo se porovnává s dˇr´ıve pˇripraven´ ymi daty po p´ısmenech. Hlavn´ı rozd´ıl je v tom, ˇze data jsou z´ıskána ze slovn´ıku, nikoliv z korpusu. Podobnˇe jako morfologická anal´ yza a pˇredchoz´ı guessery pracuje tento guesser jako filtr. Na standardn´ım vstupu ˇcte data ve formátu CSTS jiˇz oznaˇcená morfologickou anal´ yzou, a na standardn´ım v´ ystupu vyp´ıˇse text s pˇridan´ ymi tagy. Pro snadnˇejˇs´ı pouˇzit´ı guesseru je téˇz pˇripojen nástroj pro dávkové zpracován´ı v´ıce soubor˚ u. Formát CSTS je definovan´ y jako SGML, ale souˇcasné nástroje pro jeho zpracován´ı vyˇzaduj´ı, aby na kaˇzdém ˇrádku bylo zvláˇst’ jedno slovo se sv´ ymi tagy. Kdyˇz je na nˇekterém ˇrádku pouze tag, kter´ y oznaˇcuje nerozpoznané slovo, guesser jej nahrad´ı tagy urˇcen´ ymi podle seznamu konc˚ u nebo speciáln´ıch pravidel. U tag˚ u je vyznaˇcen p˚ uvod (viz ukázka formátu CSTS), takˇze lze rozeznat, které tagy pocházej´ı ze slovn´ıku, a které z guesseru. Lze také k jiˇz ruˇcnˇe oznaˇcen´ ym kontroln´ım dat˚ um pˇridat tagy z morfologické anal´ yzy a guesseru.

13

3.0.1

Uk´ azka form´ atu CSTS

Soubor mus´ı zaˇc´ınat poˇcáteˇcn´ım tagem a konˇcit koncov´ ym tagem . Zpracovávaj´ı se ˇrádky se slovy , tagger pˇr´ıpadnˇe pˇrihl´ıˇz´ı i k interpunkci . Ostatn´ı ˇra´dky (napˇr´ıklad hlaviˇcka identifikuj´ıc´ı soubor) se na v´ ystup pouze kop´ıruj´ı. Pro správné zpracován´ı mus´ı SGML tagy pro lemma (, <MMl>) a morfologické tagy (, <MMt>) následovat na ˇrádku za tagem pro slovo. Zde jsou dlouhé ˇra´dky zalomeny, aby se veˇsly na stránku. Tagy a jsou kontroln´ı tagy zanesené ruˇcnˇe, tagy <MMl> a <MMt> jsou generované automaticky morfologickou anal´ yzou. Tagy a <MMl> znaˇc´ı lemma — základn´ı tvar slova. Za nimi následuj´ıc´ı tagy a <MMt> oddˇeluj´ı jednotlivé morfologické tagy pˇr´ısluˇsné k tomuto lemmatu. Toto je ukázka ze souboru oznaˇceného ruˇcnˇe a morfologickou anal´ yzou. Atribut src automaticky generovan´ ych tag˚ u odliˇsuje tagy vygenerované r˚ uzn´ ymi programy nebo r˚ uzn´ ymi ˇcástmi programu. V této ukázce jsou pouze tagy vygenerované morfologickou anal´ yzou ze slovn´ıku — zdroj "ad". V souboru oznaˇceném guesserem by se mohly vyskytovat i tagy s jin´ ym vyznaˇcen´ ym zdrojem. Tagger pak pˇri zpracován´ı textu vyznaˇcuje desambiguované tagy pomoc´ı <MDl> a <MDt>. <mod>s inf x <med>x x x x 001
<s id="a01w-s1"> Feder´ aln´ ıfeder´ aln´ ıAANS1----1A---<MMl src="ad">feder´ aln´ ı<MMt src="ad">AAFP1----1A---<MMt src="ad">AAFP4----1A----<MMt src="ad">AAFP5----1A---<MMt src="ad">AAFS1----1A----<MMt src="ad">AAFS2----1A----

14

<MMt src="ad">AAFS3----1A----<MMt src="ad">AAFS4----1A---<MMt src="ad">AAFS5----1A----<MMt src="ad">AAFS6----1A---<MMt src="ad">AAFS7----1A----<MMt src="ad">AAIP1----1A---<MMt src="ad">AAIP4----1A----<MMt src="ad">AAIP5----1A---<MMt src="ad">AAIS1----1A----<MMt src="ad">AAIS4----1A---<MMt src="ad">AAIS5----1A----<MMt src="ad">AAMP1----1A---<MMt src="ad">AAMP4----1A----<MMt src="ad">AAMP5----1A---<MMt src="ad">AAMS1----1A----<MMt src="ad">AAMS5----1A---<MMt src="ad">AANP1----1A----<MMt src="ad">AANP4----1A---<MMt src="ad">AANP5----1A----<MMt src="ad">AANS1----1A---<MMt src="ad">AANS4----1A----<MMt src="ad">AANS5----1A---ministerstvoministerstvoNNNS1-----A---<MMl src="ad">ministerstvo<MMt src="ad">NNNS1-----A---<MMt src="ad">NNNS4-----A----<MMt src="ad">NNNS5-----A---vnitravnitroNNNS2-----A----<MMl src="ad">vnitro <MMt src="ad">NNNP1-----A----<MMt src="ad">NNNP4-----A---<MMt src="ad">NNNP5-----A----<MMt src="ad">NNNS2-----A---cit)VB-S---3P-AA--stanov´ ıstanovit :W ^(urˇ <MMl src="ad">stanovit :W ^(urˇ cit)<MMt src="ad">VB-P---3P-AA--<MMt src="ad">VB-S---3P-AA--<MMl src="ad">stanov´ y ^(pˇ r´ ıd.jm. od ’stan’) <MMt src="ad">AAMP1----1A----<MMt src="ad">AAMP5----1A----

3.1

Pomocn´ e heuristiky pro speci´ aln´ı slova

Tagy pro nˇekterá slova lze odhadnout celkem jednoduˇse a pˇresnˇe pomoc´ı speciáln´ıch pravidel. Taková pravidla jsou jednoduˇsˇs´ı, a vˇetˇsinou pˇresnˇejˇs´ı, neˇz porovnáván´ı s konci.

3.1.1

Slova zaˇ c´ınaj´ıc´ı velk´ ym p´ısmenem, zkratky

Nerozpoznaná slova zaˇc´ınaj´ıc´ı velk´ ym p´ısmenem jsou oznaˇcena tagem pro podstatné jméno bez pˇriˇrazen´ı dalˇs´ıch hodnot morfologick´ ych kategori´ı (NNXXX-----A----). Jedná ˇcasto o vlastn´ı jména, která mohou b´ yt pˇrejata z r˚ uzn´ ych jazyk˚ u. Cizojazyˇcná slova sv´ ym tvarem nemus´ı vyjadˇrovat morfologické kategorie, a proto by bez tohoto tagu ˇcasto nebyla správnˇe rozpoznána. Toto pravidlo se uplatn´ı téˇz na zkratky, tj. slova zapsaná pouze velk´ ymi p´ısmeny. Ty sv´ ym tvarem morfologické kategorie také nevyjadˇruj´ı. Pro zkratky rozepsané pomoc´ı názv˚ u p´ısmen (napˇr. u ´ es´ a = USA) je zavedeno speciáln´ı pravidlo. Jestliˇze je slovo konkatenac´ı názv˚ u p´ısmen je oznaˇceno neurˇcit´ ym 15

tagem pro podstatné jméno.

3.1.2

Pˇ redpony

ˇ Casto se vyskytuj´ı slova, která nejsou rozpoznána, protoˇze maj´ı nˇejakou bˇeˇznou pˇredponu — jako napˇr. eurookna. Delˇs´ı pˇredpony jako euro–, super–, nebo hyper– lze zjevnˇe ˇretˇezit témˇeˇr libovolnˇe. Naopak krátkou pˇredponu jako s– ˇci vz– lze obvykle pˇridat pouze jednu, protoˇze se jejich v´ yznamy vˇetˇsinou vyluˇcuj´ı. Pravidla pro oddˇelován´ı pˇredpon uvaˇzuj´ı pouze jednu pˇredponu kratˇs´ı neˇz tˇri p´ısmena a libovoln´ y poˇcet delˇs´ıch pˇredpon. Kombinace krátk´ ych pˇredpon lze pˇr´ıpadnˇe explicitnˇe pˇridat do seznamu. Kdyˇz se podaˇr´ı od slova oddˇelit nˇejakou kombinaci pˇredpon, m˚ uˇze b´ yt morfologickou anal´ yzou rozpoznána zbylá ˇcást slova bez pˇredpon. Slovo je pak oznaˇceno tagy, které morfologická anal´ yza pˇriˇradila rozpoznané ˇca´sti slova. Takto z´ıskané tagy jsou vˇetˇsinou velmi pˇresné.

3.1.3

Zkr´ acen´ı prodlouˇ zen´ ych slov

Zvláˇstˇe v beletrii se m˚ uˇzeme setkat se slovy jako pom´ oo ´´ oo ´´ oc. Ta samozˇrejmˇe ve slovn´ıku nejsou, ale podle mnoˇzstv´ı stejn´ ych samohlásek lze usoudit, ˇze slovo bylo umˇele prodlouˇzeno. Jeho zkrácen´ım lze vˇetˇsinou z´ıskat p˚ uvodn´ı slovo, které jiˇz ve slovn´ıku je.

3.2

Slovn´ıkov´ y guesser

Koncept guesseru je jako v pˇr´ıpadˇe pˇredchoz´ıch guesser˚ u jednoduch´ y. Guesser naˇcte pˇredem pˇripraven´ y seznam konc˚ u slov. Kaˇzdé nerozpoznané slovo ve zpracovávaném textu je porovnáno s konci ze seznamu. Je–li nalezen nˇejak´ y konec, kter´ y je ve slovˇe obsaˇzen, jsou na v´ ystup pˇridány tagy odpov´ıdaj´ıc´ı tomuto konci. Slovo samozˇrejmˇe m˚ uˇze obsahovat nˇekolik konc˚ u r˚ uzné délky. V tom pˇr´ıpadˇe jsou na v´ ystup pˇridány tagy odpov´ıdaj´ıc´ı vˇsem takov´ ym konc˚ um.

3.2.1

Pˇ r´ıprava seznamu konc˚ u

V morfologickém slovn´ıku nejsou zapsány vˇsechny tvary slova. Ve slovn´ıku je vˇzdy kofix1 , vzor, a lemma. Souˇcást´ı slovn´ıku je také seznam koncovek 1

pˇribliˇznˇe odpov´ıd´ a koˇrenu slova s pˇredponami

16

Seznam koncovek pro vzor zn7. zn7

a[NFS1@],y[NFS2@,NFP1@,NFP4@,NFP5@],u[NFS4@],ou[NFS7@],o[NFS5@], ´m[NFP3@],´ a ach[NFP6@],ami[NFP7@],e[NFS3@,NFS6@],0[NFP2@], ama[NFP7@-6]

0 je oznaˇcen´ı pro koncovku, která nemá ˇzádné p´ısmeno — ke kofixu se nic nepˇridává. pro vzory pouˇzité ve slovn´ıku. Pro kaˇzdou koncovku je uveden seznam odpov´ıdaj´ıc´ıch tag˚ u. Lemma ve slovn´ıku je základn´ı tvar slova, kter´ y se uvád´ı ve v´ ystupu morfologické anal´ yzy. Ve slovn´ıku je lemma uvedeno celé, ale protoˇze kofix by mˇel b´ yt prefixem lemmatu, lze lemma rozdˇelit na kofix a sufix. Napˇr´ıklad pro slovo deviza obsahuje slovn´ık ˇrádek2 scnd11a.sl:deviz zn7 =deviza Podle tohoto záznamu je kofix slova deviz, skloˇ nuje se podle vzoru zn7, a lemma je deviza. Vyskytne–li se tedy v textu napˇr´ıklad slovn´ı tvar devizou lze podle záznamu o slovu deviza a seznamu koncovek pro vzor zn7 urˇcit, ˇze se jedná o tvar slova deviza a pˇriˇradit mu tag NFS7@3 . Guesser pouˇz´ıvá data ve stejném tvaru, ve kterém je seznam koncovek ve slovn´ıku. Seznam konc˚ u pro guesser je z´ıskán ze seznamu koncovek ze slovn´ıku zaveden´ım nov´ ych ,,vzor˚ u”. Slova oh´ ybaná podle stejného vzoru jsou uspoˇrádána podle konce kofixu. Jestliˇze je pro nˇejak´ y vzor jen málo moˇznost´ı, jak m˚ uˇze konˇcit kofix, je vzor odstranˇen, a nahrazen jedn´ım nebo nˇekolika vzory, které obsahuj´ı p´ısmeno z kofixu v ,,koncovce”. T´ım se prodlouˇz´ı konec, podle kterého jsou slova rozpoznávána. Napˇr´ıklad slova skloˇ novaná podle vzoru st (staven´ı) maj´ı na konci kofixu –´ı. Pˇri zpracován´ı konc˚ u pro guesser je tedy –´ı pˇridáno na zaˇcátek koncovek, a vzor st je nahrazen vzorem st|´ ı — vzor st s koncovkami prodlouˇzenými o –´ı. 2

Takto vypad´ a z´ aznam ve slovn´ıku pouˇz´ıvaném guesserem. Historicky je slovn´ık rozdˇelen do nˇekolika ˇc´ ast´ı, a v z´ aznamu pouˇz´ıvaném guesserem je pˇred dvojteˇckou název souboru, ze kterého z´ aznam pocház´ı, a za dvojteˇckou vlastn´ı záznam z tohoto souboru. 3 V seznamu koncovek jsou uvedeny kompaktn´ı tagy, ale pro v´ ystup se tagy pˇrevádˇej´ı na poziˇcn´ı.

17

Ze seznamu vzor˚ u jsou odstranˇeny ty, které maj´ı jen málo v´ yskyt˚ u ve slovn´ıku. Takové vzory nutnˇe zachycuj´ı nˇejakou nepravidelnost, a o nov´ ych slovech pˇredpokládáme, ˇze se oh´ ybaj´ı pravidelnˇe. Nˇekteré vzory jsou odstranˇeny jiˇz pˇredem, protoˇze jsou pro pouˇzit´ı v guesseru nevhodné. Zájmen je pouze omezen´ y poˇcet, a ˇc´ıslovek je sice neomezenˇe mnoho, ale vˇsechny jsou pouze kombinac´ı znám´ ych ˇcást´ı. Je také velmi nepravdˇepodobné, ˇze by se v textu vyskytlo neznámé sloveso v pˇrechodn´ıku, ale konce pˇrechodn´ık˚ u se podobaj´ı jin´ ym slovn´ım druh˚ um, a zahrnut´ım jejich vzor˚ u by vedlo k pˇridán´ı mnoha zavádˇej´ıc´ıch tag˚ u.

3.2.2

Speci´ aln´ı konec — lemma

Pˇri pˇriˇrazen´ı tagu je potˇreba urˇcit téˇz lemma — slovo v základn´ım tvaru. Pro nˇekteré vzory by bylo moˇzné vybrat koncovku s pˇr´ısluˇsn´ ym tagem — napˇr. 1. pád jednotného ˇc´ısla. Nˇekteré vzory ale takovou koncovku v˚ ubec neobsahuj´ı, protoˇze se jedná o ˇca´steˇcn´ y vzor napˇr´ıklad pouze pro mnoˇzné ˇc´ıslo. Proto je potˇreba pro kaˇzd´ y vzor zaznamenat také sufix, jehoˇz pˇripojen´ım lze z kofixu z´ıskat lemma. Protoˇze slovn´ık vˇzdy obsahuje kofix a lemma, je moˇzné sufix lemmatu pro kaˇzd´ y vzor zaznamenat. Sufix by mˇel b´ yt pro vˇsechna slova oh´ ybaná podle stejného vzoru shodn´ y. Bohuˇzel, ve slovn´ıku se mohou vyskytnout chybná lemmata, a je proto tˇreba vybrat sufix, kter´ y je pro dan´ y vzor nejˇcastˇejˇs´ı.

3.2.3

Postup pˇ ri odhadov´ an´ı tag˚ u

Guesser oznaˇcuje pouze slova, která jsou oznaˇcena tagem pro nerozpoznané slovo, a nebyla pˇri morfologické anal´ yze oznaˇcena specifick´ ym tagem. Nejdˇr´ıve jsou odstranˇeny tagy z morfologické anal´ yzy, a poté guesser pˇridá tagy podle jednotliv´ ych pravidel. Pro slova kratˇs´ı neˇz tˇri p´ısmena pouˇz´ıvá guesser pouze jediné pravidlo — oznaˇcuje je tagem pro podstatné jméno bez urˇcen´ı dalˇs´ıch kategori´ı. Slova dlouhá alespoˇ n tˇri p´ısmena guesser oznaˇcuje vˇsemi tagy, které lze z´ıskat porovnán´ım slova se seznamem konc˚ u a morfologickou anal´ yzou slova po zkrácen´ı nebo odebrán´ı pˇredpon. Slova zaˇc´ınaj´ıc´ı velk´ ym p´ısmenem a slova, která jsou konkatenac´ı názv˚ u p´ısmen, oznaˇc´ı guesser nav´ıc tagem pro podstatné jméno bez urˇcen´ı dalˇs´ıch kategori´ı.

18

Kapitola 4 Z´ avˇ er 4.1

Porovn´ an´ı s pravdˇ epodobnostn´ım guesserem

Poziˇcn´ı tagy maj´ı vˇzdy stejn´ y poˇcet znak˚ u. Kaˇzd´ y znak po ˇradˇe odpov´ıdá jedné morfologické kategorii. Pro kaˇzd´ y slovn´ı druh maj´ı smysl vˇzdy jen nˇekteré kategorie, znaky na ostatn´ıch pozic´ıch jsou -. Prvn´ı dvˇe pozice urˇcuj´ı slovn´ı druh, dalˇs´ı dvˇe rod a ˇc´ıslo. Pˇri vyhodnocen´ı správnosti tagu se uvaˇzuje pouze správné odhadnut´ı celého zaˇcátku tagu. Kdyˇz je napˇr´ıklad správnˇe odhadnut rod, ale jiˇz ne slovn´ı druh, povaˇzuje se cel´ y v´ ysledek za chybn´ y. ˇ Pro porovnán´ı jsem pouˇzil ruˇcnˇe oznaˇcen´ y text z Ceského Akademického korpusu1 . Tento text obsahuje nˇekterá slova, která jeˇstˇe nejsou ve slovn´ıku. U kaˇzdého slova oznaˇceného guesserem jsem zjiˇst’oval, kolik kategori´ı bylo odhadnuto shodnˇe s ruˇcnˇe vyznaˇcen´ ym tagem a kolika tagy bylo slovo oznaˇceno. Na tomto textu má probabilistick´ y guesser u ´spˇeˇsnost odhadnut´ı slovn´ıho druhu (prvn´ı dvˇe pozice tagu) 97,5%, celého tagu 90,0% a pr˚ umˇernˇe oznaˇc´ı slovo 31 tagy. Slovn´ıkov´ y guesser má u ´spˇeˇsnost odhadnut´ı slovn´ıho druhu 92,1%, celého tagu 82,7% a pr˚ umˇernˇe oznaˇc´ı slovo 15 tagy. 22% slov nerozpoznan´ ych morfologickou anal´ yzou jsou r˚ uzné zkratky a oznaˇcen´ı p´ısmen — napˇr. OSNP, erv´ eh´ ap´ e, k´ a. Oba guessery maj´ı znaˇcné pot´ıˇze s rozpoznán´ım tˇechto slov. Pravdˇepodobnostn´ı guesser nˇekteré zkratky rozpozná, jiné v˚ ubec neoznaˇc´ı. Ve slovn´ıkovém guesseru bylo potˇreba pˇridat pro zkratky speciáln´ı pravidla, protoˇze zkratky sv´ ym zápisem morfologické kategorie nevyjadˇruj´ı. 1

http://ufal.mff.cuni.cz/rest/cac.html

19

Pro snadnˇejˇs´ı porovnán´ı byl slovn´ıkov´ y guesser upraven tak, ˇze zkratky a slova zaˇc´ınaj´ıc´ı velk´ ym p´ısmenem neoznaˇcuje jedn´ım obecn´ ym tagem pro podstatné jméno, ale ˇctyˇrmi obecn´ ymi tagy pro podstatná jména vˇsech ˇctyˇr rod˚ u. To zjednoduˇsuje porovnán´ı v´ ysledk˚ u, protoˇze zkratky jsou v ruˇcnˇe tagovaném textu vˇetˇsinou oznaˇceny jedn´ım z tˇechto ˇctyˇr tag˚ u a stejn´ ymi tagy je oznaˇcuje i probabilistick´ y guesser. Dalˇs´ı 3% nerozpoznan´ ych slov jsou slova jako obˇ cansko nebo elektro ve sloˇzeninách jako obˇ cansko–pr´ avn´ı nebo elekro–mechanick´ y. Tato slova je moˇzné snadno rozpoznat kontextovˇe podle následuj´ıc´ı pomlˇcky. Probabilistick´ y guesser tato slova vesmˇes rozpozná, ale ve slovn´ıku ˇza´dn´ y vzor pro pˇr´ısluˇsn´ y tag nen´ı. Probabilistick´ y guesser správnˇe rozpoznává nˇekterá ciz´ı slova — napˇr. Bibliographie, sublistatic, mituke, Jessye, Tourist, myxonomyces. Tato slova nemaj´ı ˇceskou koncovku, a proto nejsou podle pravidel pro konce ˇcesk´ ych slov správnˇe rozpoznána. Naopak slovn´ıkov´ y guesser lépe rozpozná nˇekterá slova, která maj´ı vhodn´ y konec, protoˇze byla odvozena z ˇceského slova nebo poˇceˇstˇena. V textu pouˇzitém pro porovnán´ı jsou vˇsak chybnˇe rozpoznaná nepoˇceˇstˇená slova ˇcastˇejˇs´ı.

20

4.1.1

Tabulka — vyhodnocen´ı guesseru

V tabulce na následuj´ıc´ı stranˇe je uveden poˇcet slov, která byla v textu oznaˇcena guesserem, pr˚ umˇern´ y poˇcet tag˚ u pˇripadaj´ıc´ıch na odhadnuté slovo, a pravdˇepodobnost odhadnut´ı jednotliv´ ych pozic tagu. Pravdˇepodobnosti pro posledn´ı ˇctyˇri pozice tagu byly vypuˇstˇeny, protoˇze ve v´ ystupu guesseru je na tˇechto pozic´ıch vˇzdy -. Text pouˇzit´ y pro testován´ı guesseru obsahuje 566798 slov, z toho 4820 bylo oznaˇceno tagem pro nerozpoznané slovo, 4647 pouze tagem pro nerozpoznané slovo. Kaˇzdé slovo s tagem z jiného zdroje neˇz ad (ze slovn´ıku) je zahrnuto do celkov´ ych statistik. Nav´ıc jsou zvláˇst’ spoˇc´ıtány statistiky pro tagy z jednotliv´ ych zdroj˚ u. Protoˇze jedno slovo m˚ uˇze b´ yt oznaˇceno tagy z nˇekolika zdroj˚ u, celkov´ y poˇcet oznaˇcen´ ych slov nen´ı souˇctem poˇctu slov oznaˇcen´ ych jednotliv´ ymi zdroji. Guesser nemus´ı oznaˇcit vˇsechna slova, pro nˇekterá nemá vhodné pravidlo. Probabilistick´ y guesser neoznaˇcuje nˇekteré zkratky, a z nˇejakého d˚ uvodu téˇz neoznaˇcil napˇr´ıklad slova zachce a Zprvopoˇ c´ atku. Slovn´ıkov´ y guesser neoznaˇcuje slova, která jiˇz byla oznaˇcena nˇejak´ ym specifick´ ym tagem pˇri morfologické anal´ yze (morfologická anal´ yza oznaˇcuje nˇekterá slova tagem pro nerozpoznané slovo, a nav´ıc specifiˇctˇejˇs´ım tagem).

21

zdroj

Celkem au ax

22

Celkem ad mut ad pref def end

slov

4197 2489 2

4639 3 496 2390 3669

tag˚ u

30.76 30.77 18.0

15.4 1.7 8.7 4.0 15.3

1

0.982 0.983 0.500

0.926 0.333 0.921 0.916 0.884

2

Pravdˇepodobnost odhadnut´ı jednotliv´ ych pozic tagu 3 4 5 6 7 8 9

10

11

0.975 0.975 0.500

Probabilistick´ y guesser 0.937 0.915 0.902 0.902 0.937 0.915 0.902 0.902 0.500 0.500 0.500 0.500

0.902 0.902 0.500

0.902 0.902 0.500

0.902 0.902 0.500

0.901 0.902 0.500

0.900 0.901 0.500

0.921 0.333 0.919 0.916 0.878

Slovn´ıkov´ y guesser 0.885 0.856 0.828 0.827 0.333 0.333 0.333 0.333 0.849 0.841 0.839 0.839 0.888 0.473 0.473 0.473 0.770 0.723 0.688 0.687

0.827 0.333 0.839 0.473 0.687

0.827 0.333 0.839 0.473 0.687

0.827 0.333 0.839 0.473 0.687

0.827 0.333 0.835 0.473 0.687

0.827 0.333 0.827 0.473 0.687

Zdroj v tabulce je vlastnost src v CSTS reprezentaci tagu. Pˇri automatickém oznaˇcován´ı se pomoc´ı vlastnosti src dá rozliˇsit, jestli byl tag pˇriˇrazen ze slovn´ıku nebo guesserem. Slovn´ıkov´ y guesser pomoc´ı r˚ uzn´ ych zdroj˚ u rozliˇsuje, která pravidla byla pouˇzita. ad mut Slovo bylo rozpoznáno pomoc´ı slovn´ıku po zkrácen´ı skupin stejn´ ych hlásek ad pref Slovo bylo rozpoznáno pomoc´ı slovn´ıku po odstranˇen´ı prefixu ad def Tag pro podstatné jméno pˇridan´ y pro slovo s poˇca´teˇcn´ım velk´ ym p´ısmenem end Tagy odvozené podle pravidel pro konce slov

4.2 4.2.1

Dalˇ s´ı moˇ znosti zlepˇ sen´ı guesseru Ladˇ en´ı parametr˚ u

Pˇri zachován´ı stejného konceptu lze testovat v´ ysledky guesseru na vˇetˇs´ım mnoˇzstv´ı dat v závislosti na parametrech v´ ybˇeru konc˚ u pro guesser. Zde pˇricház´ı v u ´vahu maximáln´ı délka zkouman´ ych konc˚ u slov, minimáln´ı poˇcet slov oh´ yban´ ych podle jednoho vzoru, a maximáln´ı poˇcet vzor˚ u, na které se jeden vzor rozloˇz´ı. Zv´ yˇsen´ım maximáln´ı uvaˇzované délky konce slova ze 6 p´ısmen na 7 se v´ ysledn´ y seznam konc˚ u nezmˇenil. To ale nemus´ı platit pˇri jiném nastaven´ı ostatn´ıch parametr˚ u. Zbylé parametry jsem nastavil pˇribliˇznˇe podle velikosti z´ıskan´ ych vyhledávac´ıch strom˚ u. Po porovnán´ı v´ ysledk˚ u pravdˇepodobnostn´ıho guesseru a slovn´ıkového guesseru pouˇz´ıvaj´ıc´ıho dvˇe r˚ uzné tabulky konc˚ u se zdá, ˇze obecnˇejˇs´ı a ménˇe jednoznaˇcná pravidla pˇrináˇsej´ı lepˇs´ı v´ ysledky. Obecnˇejˇs´ı pravidla urˇc´ı pro jedno slovo v´ıce tag˚ u, a mezi nimi je pak ˇcastˇeji nˇekter´ y tag, kter´ y pˇresnˇe vyjadˇruje skuteˇcné morfologické kategorie rozpoznávaného slova. Obecnˇejˇs´ı pravidla také pˇridávaj´ı v´ıce zavádˇej´ıc´ıch nesprávn´ ych tag˚ u, ale tˇem se nedá zcela vyhnout ani u slov rozpoznan´ ych morfologickou anal´ yzou podle slovn´ıku. Vyˇrazen´ı nepotˇrebn´ ych vzor˚ u je zaloˇzeno pouze na odhadu. Nemám k dispozici statistiku novˇe zaˇrazovan´ ych slov podle vzor˚ u. O nov´ ych slovech sice pˇredpokládáme, ˇze jsou pravidelná, ale lze pouze odhadovat, podle kter´ ych vzor˚ u se oh´ ybaj´ı novˇe zaˇrazená, a tedy dˇr´ıve neznámá slova. Napˇr´ıklad nové sloveso lze témˇeˇr vˇzdy vytvoˇrit pˇridán´ım –ovat. Anglické sloveso boot tak lze snadno poˇceˇstit na bootovat, ale lze se setkat téˇz s novotvarem bootit, at’ uˇz si o jeho správnosti mysl´ıme cokoliv.

4.2.2

Rozˇ s´ıˇ ren´ı pravidel

Nˇekterá slova nelze rozpoznat pouze na základˇe konce. Napˇr´ıklad slova zprvopoˇ c´ atku nebo zadruh´ e jsou pˇr´ıslovce, ale jejich konec odpov´ıdá zcela jinému slovn´ımu druhu. Podobnˇe slova jako sebelepˇ s´ı tvarem sice odpov´ıdaj´ı druhému stupni pˇr´ıdavného jména, ale v ruˇcnˇe tagovaném textu jsou vˇetˇsinou znaˇcena jako prvn´ı stupeˇ n. Je tedy moˇzné, ˇze dalˇs´ı speciáln´ı pravidla pro pˇredpony mohou guesser dále zpˇresnit. Pravidla pro nˇekterá, zvláˇstˇe hovorová slova ze slovn´ıku vytvoˇrit nelze. Napˇr´ıklad nesprávná koncovka slov u ´ˇ cast´ım (´ uˇ cast) a pˇ r´ıleˇ zitost´ıch

23

(pˇ r´ıleˇ zitost) nen´ı v seznamu koncovek pro vzor kt12 (kost), podle kterého se tato slova skloˇ nuj´ı. ´ uˇ cast´ ım´ uˇ castNNFP3-----A---Správn´ y tag odpov´ıdá slovn´ımu tvaru u ´ˇ castem, kter´ y z kofixu u ´ˇ cast z´ıskáme pˇripojen´ım konce –em. Konec slova je ale jin´ y a guesser pˇriˇrad´ı tomuto slovu tagy na základˇe srovnán´ı s konci slov ve slovn´ıku. Konec –t´ım se vyskytuje u sloves ˇcasovan´ ych podle vzor˚ u itxd a itxn (napˇr´ıklad zkr´ atit — zkr´ at´ım, kr´ atit — kr´ at´ım) nebo u sloves podle vzoru wtd kde kofix konˇc´ı na –t (zkulatˇ et — zkulat´ım). <MMl <MMt <MMl <MMt <MMl <MMt

src="end">´ uc ˇastit îtxd src="end">VB-S---1P-AA--src="end">´ uc ˇastit îtxn src="end">VB-S---1P-AA--src="end">´ uc ˇastˇ et ^wtd|t src="end">VB-S---1P-AA---

Sloveso ˇ castit (ˇ cast´ım) ve slovn´ıku je a tvar u ´ˇ cast´ım lze z´ıskat pˇripojen´ım pˇredpony u ´ -. Guesser tedy zahrne i tag podle pravidla pro odstranˇen´ı pˇredpon. uˇ castit :T ,a^´ u-ˇ cast´ ım <MMl src="ad pref">´ <MMt src="ad pref">VB-S---1P-AA--Konec –´ım se vyskytuje u slov podle vzor˚ u mho (rab´ı — rab´ım), st (staven´ı — staven´ım) a inx (legu´ an´ı — legu´ an´ım). <MMl <MMt <MMt <MMt <MMl <MMt <MMt <MMl <MMt

src="end">´ uc ˇast´ ı ^mho|´ ı src="end">NNMS6-----A---src="end">NNMS7-----A---src="end">NNMP3-----A---ı src="end">´ uc ˇast´ ı ^st|´ src="end">NNNS7-----A---src="end">NNNP3-----A---src="end">´ uc ˇast´ ı înx|´ ı src="end">AAMS6----1A----

2

Jedn´ a se o vzory, pod kter´ ymi jsou slova zaˇrazena ve slovn´ıku. Vzor kt1 je jeden ze vzor˚ u odpov´ıdaj´ıc´ıch bˇeˇznˇe známému vzoru kost. Protoˇze nˇekterá slova se neskloˇ nuj´ı zcela pravidelnˇe, je v morfologickém slovn´ıku vzor˚ u v´ıce.

24

<MMt <MMt <MMt <MMt <MMt <MMt <MMt <MMt <MMt

src="end">AAMS7----1A---src="end">AAMP3----1A---src="end">AAIS6----1A---src="end">AAIS7----1A---src="end">AAIP3----1A---src="end">AAFP3----1A---src="end">AANS6----1A---src="end">AANS7----1A---src="end">AANP3----1A----

Pravidla pro konec –m jsou odvozena ze sloves podle vzoru noutd kde kofix konˇc´ı na –m (vˇ simnout — vˇ sim(l)) a podstatn´ ych jmen podle vzor˚ u hd (ozim), mt1 (pyˇ zamo — pyˇ zam), pn (anonym) a zn (lama — lam), kde kofix konˇc´ı na –m. <MMl <MMt <MMl <MMt <MMt <MMl <MMt <MMt <MMl <MMt <MMl <MMt <MMl <MMt <MMl <MMt

src="end">´ uc ˇast´ ımnout ^noutd|m src="end">VpYS---XR-AA--6 src="end">´ uc ˇast´ ım ^hd1|m src="end">NNIS1-----A---src="end">NNIS4-----A---src="end">´ uc ˇast´ ım ^hd2|m src="end">NNIS1-----A---src="end">NNIS4-----A---src="end">´ uc ˇast´ ımo ^mt1|m src="end">NNNP2-----A---src="end">´ uc ˇast´ ım ^pn1|m src="end">NNMS1-----A---src="end">´ uc ˇast´ ım ^pn3|m src="end">NNMS1-----A---src="end">´ uc ˇast´ ıma ^zn1|m src="end">NNFP2-----A----

Nˇekteré hovorové tvary zájmen (tˇ ehletˇ ech, todlenctoho) ve slovn´ıku nejsou zahrnuty, a proto nejsou rozpoznány ani morfologickou anal´ yzou, ani slovn´ıkov´ ym guesserem. Podobnˇe slovo pivˇ co nelze podle slovn´ıku rozpoznat. Ve slovn´ıku jsou pouze dvˇe slova jejichˇz lemma konˇc´ı na –ˇ co, coˇz nen´ı dostateˇcné pro vytvoˇren´ı vhodného pravidla.

25

4.2.3

Rozˇ s´ıˇ ren´ı porovn´ av´ an´ı zahrnut´ı vlastnost´ı specifick´ ych pro ˇ cesk´ y jazyk

Dˇr´ıve popsané guessery i slovn´ıkov´ y guesser porovnávaj´ı slova prostˇe po p´ısmenech. To umoˇzn ˇuje pouˇz´ıt dobˇre známé vyhledávac´ı stromy pro porovnáván´ı slov a zaznamenán´ı v´ ysledk˚ u. Jedin´ y prvek specifick´ y pro ˇceˇstinu, kter´ y jsem pouˇzil, je zahrnut´ı ch jako zvláˇstn´ıho p´ısmene. Jinak lze stejnˇe sestavit guesser pro jak´ ykoliv flektivn´ı jazyk. V ˇceˇstinˇe ale nejsou vˇsechna p´ısmena stejná. Pˇrestoˇze vzor pˇredepisuje pouze koncovku, tu nelze pˇripojit za jak´ ykoliv koˇren a prohlásit v´ ysledek za ˇceské slovo. Mˇekké vzory s koncovkou –´ı nelze pˇripojit na koˇren konˇc´ıc´ı tvrdou souhláskou, která se pˇridán´ım –´ı nezmˇekˇc´ı. Koncovka –ˇ e je jeˇstˇe specifiˇctˇejˇs´ı. Splnˇen´ı tˇechto pravopisn´ ych zásad je ale jen nutné minimum. Slovo ˇcasto nezn´ı správnˇe, kdyˇz je na konci koˇrene krátká nebo naopak dlouhá samohláska. To je nejlepˇs´ı ukázat na pˇr´ıkladu. Samozˇrejmˇe, ˇceská slova jsou vytvoˇrena správnˇe. Vymyslet nˇejak´ y shluk hlásek, kter´ y je ,,témˇeˇr ˇcesky”, také nen´ı u ´plnˇe triviáln´ı. Proto pouˇziji pˇr´ıklad z jiného jazyka. V japonˇstinˇe3 existuj´ı adjektiva konˇc´ıc´ı na –´ı, coˇz by pro souˇcasn´ y guesser pravdˇepodobnˇe staˇcilo, aby je oznaˇcil jako mˇekká adjektiva. Pomˇernˇe ˇcastá jsou adjektiva konˇc´ıc´ı na –ˇ s´ı jako 楽しい (zábavn´ y, 4 pˇr´ıjemn´ y). Po fonetickém pˇrepsán´ı dostaneme ,,tanoˇs´ı” . Guesser oznaˇc´ı takové slovo tagy pro podstatné jméno (lemma tanoˇ s´ı podle vzoru st, lemma tanoˇ se podle vzoru ns1, atd.), sloveso (lemma tanoˇ sit nebo tanoˇ set), 5 mˇekké pˇr´ıdavné jméno (lemma tanoˇ s´ı podle vzor˚ u jnf, jnm, atd. ), pˇr´ıpadnˇe tvrdé pˇr´ıdavné jméno (lemma tanoch´ y podle vzoru yxi). Takové tagy jsou samozˇrejmˇe nesprávné, protoˇze se nejedná o ˇceské slovo, a pˇriˇrazen´ı kategori´ı podle ˇceského tvaroslov´ı nemá smysl. Na druhé stranˇe pouze ze zápisu 3

Japonˇstina nen´ı vybr´ ana u ´plnˇe náhodnˇe. V ˇceˇstinˇe se v koncovkách ˇcasto vyskytuj´ı dlouhé samohl´ asky a souhl´ asky, pro jejichˇz zápis se v ˇceˇstinˇe pouˇz´ıvá háˇcek. Podobnˇe konˇc´ıc´ı slova lze naj´ıt napˇr´ıklad i v angliˇctinˇe, ale zapisuj´ı se u ´plnˇe jinak. 4 Japonˇstina m´ a vlastn´ı slabiˇcnou abecedu, a tak nen´ı problém zapsat v´ yslovnost jako たのしい . Pro srozumitelnost je ale lepˇs´ı vyuˇz´ıt, ˇze hlásky vyskytuj´ıc´ı se v japonˇstinˇe lze zapsat pomoc´ı p´ısmen odpov´ıdaj´ıc´ıch velmi podobn´ ym hláskám v ˇceˇstinˇe. Existuje také pomˇernˇe rozˇs´ıˇren´ y ,,anglick´ y” zp˚ usob zápisu. Ten pˇr´ıliˇs správnou v´ yslovnost neinspiruje; 死ね se vyslovuje ,,ˇsine” ale ,,anglicky” se pˇrepisuje shine. 5 Tento tvar nemus´ı b´ yt na prvn´ı pohled u ´plnˇe zˇrejm´ y, ale za pˇredpokladu existence nˇejakého tanocha pak toto slovo bude znamenat ,,pˇr´ısluˇsn´ y tanochovi” nebo ,,vlastn´ı tanochovi”.

26

tohoto slova to nen´ı zˇrejmé. Jiné podobné slovo je 美味しい (chutn´ y). Po fonetickém pˇrepisu dostaneme nˇeco jako ,,oiˇs´ı” nebo ,,ojˇs´ı”. Guesser toto slovo oznaˇc´ı v obou pˇr´ıpadech podobnˇe jako ,,tanoˇs´ı”, ale konec –jˇ s´ı je pro mˇekké pˇr´ıdavné jméno pomˇernˇe nevhodn´ y. Takov´ y konec se vyskytuje bˇeˇznˇe ve stupˇ novan´ ych slovech, a pak je souˇcást´ı konce –ˇ ejˇ s´ı nebo –ejˇ s´ı. Kromˇe toho se vyskytuje ve slovech, která sice stupˇ novaná nejsou, ale jejich konec je stejn´ y — napˇr´ıklad vedlejˇ s´ı. V tomto pˇr´ıpadˇe by tedy bylo moˇzné nˇekteré tagy vyˇradit. Jiné zaj´ımavé slovo je 大きい ,,ók´ y” (velk´ y). To guesser oznaˇc´ı mimo jiné jako tvrdé adjektivum. Tvrdá adjektiva konˇc´ıc´ı na –k´ y sice najdeme snadno, ale pˇred –k´ y b´ yvá souhláska jako ve velk´ y, pˇr´ıpadnˇe krátká samohláska jako ve velik´ y nebo mandlook´ y. I zde jsou tedy nˇekteré tagy, které by mohly b´ yt vyˇrazeny pˇri pouˇzit´ı pˇresnˇejˇs´ıch pravidel. Je tedy vidˇet, ˇze ˇcasto nelze urˇcit jedno nebo nˇekolik málo p´ısmen, která koncovce mus´ı pˇredcházet, ale je moˇzné urˇcit p´ısmena, která pˇredcházet nemohou, pˇr´ıpadnˇe lze omezit druh hlásek, které pˇredcházet mohou. Pro zaznamenán´ı takov´ ych pravidel ale nestaˇc´ı jednoduch´ y formát, kter´ y je pouˇzit pro koncovky ve slovn´ıku, a nestaˇc´ı pˇr´ımé porovnán´ı jednotliv´ ych p´ısmen nasb´ıran´ ych dat s rozpoznávan´ ym slovem.

27

Literatura [1] Hajiˇc, J.: Disambiguation of Rich Inflection, Charles University — The Carolinum Press, Prague, 2004. [2] Hlaváˇcová, J.: Morphological Guesser of Czech Words. Proc. TSD 2001, Springer–Verlag Berlin Heidelberg 2001, pp. 70—75.

28

Kapitola A Pˇ r´ıloha — n´ avod k programu A.1

Poˇ zadavky na prostˇ red´ı

Protoˇze guesser vyuˇz´ıvá program pro morfologickou anal´ yzu, kter´ y mám k dispozici pouze v binárn´ı formˇe, lze guesser pouˇz´ıvat pouze v operaˇcn´ım systému GNU/Linux na platformˇe Intel (i386 nebo amd64). Vlastn´ı guesser vyˇzaduje Ruby verze 1.8 (vˇetˇsinou lze nainstalovat jako bal´ıˇcek ruby nebo ruby1.8 — napˇr´ıklad na distribuc´ıch Ubuntu nebo Debian pomoc´ı pˇr´ıkazu apt-get install ruby) a Bourne shell (sh — bash, dash, apod.). Program pro morfologickou anal´ yzu nav´ıc vyˇzaduje C shell (tcsh). Guesser je nastaven´ y pro zpracován´ı dat v kódován´ı UTF-8.

A.2

Spuˇ stˇ en´ı guesseru

Guesser se spouˇst´ı pomoc´ı skriptu run.rb. Skript by mˇel b´ yt spustiteln´ y, pˇr´ıpadnˇe je moˇzné spouˇstˇet skript pˇr´ımo pomoc´ı interpretu ruby ruby run.rb nebo ruby1.8 run.rb. Skript vyˇzaduje v pracovn´ım adresáˇri (cwd) konfiguraˇcn´ı soubor config.ini a datové soubory v podadresáˇr´ıch pracovn´ıho adresáˇre dict/ a gen/. Pro spouˇstˇen´ı morfologické anal´ yzy je potˇreba zapisovat do pracovn´ıho adresáˇre, je tedy vhodné tyto soubory zkop´ırovat na pevn´ y disk.

29

Parametry skriptu run.rb: 1. akce, která se má provést • M — morfologická anal´ yza • G — guesser • MG — morfologická anal´ yza a guesser 2. vstupn´ı soubor 3. v´ ystupn´ı soubor Kdyˇz nen´ı jméno v´ ystupn´ıho souboru uvedeno, je urˇceno automaticky ze jména vstupn´ıho souboru odtrˇzen´ım pˇr´ıpony pro vstupn´ı soubor a pˇridán´ım pˇr´ıpony pro v´ ystupn´ı soubor provádˇené akce podle nastaven´ı pˇr´ıpon v souboru config.ini. Soubor config.ini je zpracováván po ˇra´dc´ıch. Sekce souboru jsou vyznaˇceny názvy v hranat´ ych závorkách. Kaˇzdá sekce m˚ uˇze obsahovat pojmenované hodnoty. Název je od vlastn´ı hodnoty oddˇelen znakem =. Hodnoty v souboru config.ini mohou obsahovat libovolné zobrazitelné znaky kromˇe stˇredn´ıku, kter´ y oznaˇcuje zaˇcátek komentáˇre. Mezery a tabulátory ze zaˇcátku a konce hodnoty jsou odstranˇeny. Kromˇe hodnot verbose, ending verbose a LOG EXT, které lze odstranˇen´ım ze souboru config.ini vypnout, nen´ı vhodné hodnoty odstraˇ novat nebo pˇremist’ovat do jin´ ych sekc´ı. Odstranˇen´ım hodnot ze souboru m˚ uˇze doj´ıt k chybˇe programu. Podrobnˇejˇs´ı popis programu je v souboru README.txt a popis nastaven´ı v souboru config.ini na pˇriloˇzeném CD.

A.3

Pˇ r´ıklad pouˇ zit´ı guesseru

Protoˇze pˇriloˇzená data jsou v kódován´ı UTF–8, je pro prohl´ıˇzen´ı v´ ysledk˚ u vhodné pracovat v prostˇred´ı, které toto kódován´ı podporuje. Guesser je moˇzné pˇrepnout téˇz pro práci s daty v jiném kódován´ı. Vˇetˇsina souˇcasn´ ych distribuc´ı Linuxu vˇsak jiˇz pouˇz´ıvá kódován´ı UTF–8. Pro zjednoduˇsen´ı je tedy popsán pouze postup pro pouˇzit´ı tohoto kódován´ı. Znak $ v pˇr´ıkladech znaˇc´ı prompt shellu. Lze tak snadno odliˇsit zaˇcátek nového pˇr´ıkazu od pokraˇcován´ı pˇr´ıkazu, kter´ y se neveˇsel na pˇredchoz´ı ˇra´dek.

30

Nejdˇr´ıve je vhodné se ujistit, ˇze je nainstalován software potˇrebn´ y pro bˇeh programu. Napˇr´ıklad na Debian GNU/Linux nebo Ubuntu lze nainstalovat ruby a tcsh pomoc´ı správce bal´ıˇck˚ u apt. Program iconv je souˇca´st´ı základn´ıho bal´ıˇcku libc6. $ sudo apt-get install ruby tcsh Následuj´ıc´ı pˇr´ıklad je téˇz moˇzné spustit v terminálu skriptem demo.sh z CD. Pro spuˇstˇen´ı ukázky je pak vytvoˇren pracovn´ı adresáˇr guesser-demo., kde je aktuáln´ı datum a ˇcas. M´ısto potˇrebné pro pracovn´ı adresáˇr je asi 7MB, v pˇr´ıpadˇe zpracován´ı celého adresáˇre data asi 600MB. Pro tento pˇr´ıklad budu pˇredpokládat, ˇze CD s guesserem je pˇripojeno v adresáˇri /media/cdrom. Na nˇekter´ ych systémech m˚ uˇze b´ yt CD po vloˇzen´ı do mechaniky pˇripojeno s parametrem noexec, coˇz neumoˇzn ˇuje spouˇstˇen´ı program˚ u z CD. Pak je potˇreba CD pˇripojit znovu bez tohoto parametru nebo obsah CD zkop´ırovat na disk. Pro spuˇstˇen´ı guesseru je potˇreba nejprve vytvoˇrit pracovn´ı adresáˇr, protoˇze spuˇstˇen´ı morfologické anal´ yzy vyˇzaduje zápis do pracovn´ıho adresáˇre. $ mkdir /tmp/guesser.conf $ cd /tmp/guesser.conf V do pracovn´ıho adresáˇre je potˇreba zkop´ırovat nebo pˇrilinkovat nastaven´ı. $ cp /media/cdrom/program/config.ini . $ ln -s /media/cdrom/program/dict . $ ln -s /media/cdrom/program/gen .

Pro jednoduchost je lepˇs´ı pˇrilinkovat i data a program. $ ln -s /media/cdrom/nerozpoznane . $ ln -s /media/cdrom/program . $ mkdir guess Pro zkrácen´ı doby potˇrebné pro proveden´ı morfologické anal´ yzy lze vybrat jen nˇekteré soubory, napˇr´ıklad n51w a s87s. Parametrem MG se spust´ı morfologická anal´ yza spolu s guesserem. 31

$ ./program/run.rb MG nerozpoznane/n51w.csts.utf guess $ ./program/run.rb MG nerozpoznane/s87s.csts.utf guess Pro zpracován´ı vˇsech dat staˇc´ı zadat jméno adresáˇre. $ ./program/run.rb MG nerozpoznane guess Adresáˇr /tmp/guesser.conf/guess by nyn´ı mˇel obsahovat v´ ysledky shodné s /media/cdrom/guess. Slova oznaˇcená morfologickou anal´ yzou maj´ı tagy s atributem src="ad", tagy guesseru maj´ı jin´ y atribut, dle nastaven´ı v souboru config.ini. Ve standardn´ı konfiguraci maj´ı tagy vygenerované podle pravidel pro konce slov atribut src="end", tagy podle pravidel pro slova zaˇc´ınaj´ıc´ı velk´ ym p´ısmenem a zkratky src="def", tagy z´ıskané morfologickou anal´ yzou po yzou odstranˇen´ı pˇredpon src="ad pref" a tagy z´ıskané morfologickou anal´ po zkrácen´ı skupin stejn´ ych hlásek src="ad mut". Protoˇze ukázková data jsou z korpusu ruˇcnˇe oznaˇceného kontroln´ımi tagy, je moˇzné srovnat v´ ysledky guesseru s kontroln´ımi tagy a spoˇc´ıtat statistiku u ´spˇeˇsnosti odhadnut´ı tag˚ u. Pro v´ ypoˇcet statistiky je vhodnˇejˇs´ı spojit v´ıce soubor˚ u dohromady. $ cat guess/*.csts.utf > guess.csts.utf $ ./program/run.rb S guess.csts.utf Soubor /tmp/guesser.conf/output.csts.utf nyn´ı obsahuje text oznaˇcen´ y guesserem, soubor /tmp/guesser.conf/output.stats.utf seznam slov, která guesser oznaˇcil a na konci statistiku u ´spˇeˇsnosti odhadnut´ı tag˚ u. ˇ Rádky s oznaˇcen´ ymi slovy jsou popsány na konci této kapitoly. Statistika je podobná té v kapitole 4.1.1, pouze obsahuje nav´ıc téˇz hodnoty pro posledn´ı pozice tagu. Je moˇzné také srovnat v´ ysledky slovn´ıkového guesseru a probabilistického guesseru. Pro srovnán´ı je potˇreba provést anal´ yzu stejn´ ych dat probabilistick´ ym guesserem. Po u ´pravˇe konfigurace se m´ısto morfologické anal´ yzy spust´ı anal´ yza spoleˇcnˇe s probabilistick´ ym guesserem. $ sed -i s/analyze.csh/analyze g.csh/ config.ini $ mkdir prob $ ./program/run.rb M nerozpoznane/n51w.csts.utf prob 32

$ ./program/run.rb M nerozpoznane/s87s.csts.utf prob $ cat prob/*.csts.utf > prob.csts.utf $ ./program/run.rb S prob.csts.utf Porovnán´ı v´ ysledk˚ u guesser˚ u. $ ./program/statdiff.rb prob.stat.utf guess.stat.utf | less V porovnán´ı ˇrádky zaˇc´ınaj´ıc´ı – obsahuj´ı slova oznaˇcená probabilistick´ ym guesserem, ˇrádky zaˇc´ınaj´ıc´ı + slova oznaˇcená slovn´ıkov´ ym guesserem. Na zaˇcátku ˇrádku je tvar slova, kter´ y byl guesserem oznaˇcen. Poté následuje lemma a morfologick´ y tag, kter´ ymi bylo slovo oznaˇceno ruˇcnˇe. Druhé lemma a tag jsou vybrány z tag˚ u vyznaˇcen´ ych guesserem. Je vybrán tag, kter´ y se ˇ nejv´ıce shoduje s ruˇcnˇe vyznaˇcen´ ym tagem a jemu pˇr´ısluˇsné lemma. C´ıslo na konci uvád´ı, kolik pozic ze zaˇcátku vybraného tagu se shoduje s kontˇ ıslo pˇred tagem guesseru uvád´ı, kolika roln´ım ruˇcnˇe vyznaˇcen´ ym tagem. C´ tagy guesser slovo oznaˇcil. N´ıˇze je uveden pˇr´ıklad slova, které bylo guesserem oznaˇceno 24 r˚ uzn´ ymi tagy. Vybran´ y tag podle vzoru in|n|i se shoduje s kontroln´ım tagem pˇresnˇe. Ostatn´ı tagy je moˇzné dohledat v oznaˇceném textu, napˇr´ıklad podle tvaru Katerinin. Vzor je u lemmatu uveden, protoˇze data byla zpracována guesserem s nastaven´ ym parametrem ending verbose. + form: Katerinin lemma: Katˇ erinin ;Y ^(*2a) tag: AUMS1F--------alternates: 24 match: Katerinin în|n|i AUMS1F--------- accuracy: 15 V následuj´ıc´ım ˇra´dku je pˇr´ıklad slova, které bylo oznaˇceno 11 tagy a nejlepˇs´ı tag se shoduje pouze na prvn´ı pozici. + form: ted’ko lemma: ted’ko tag: Db------------- alternates: 11 match: ted’ko âdv1|o Dg-------1A---- accuracy : 1

33

Kapitola B Pˇ r´ıloha — obsah CD • demo.sh — skript pro spuˇstˇen´ı ukázky • text.pdf — tento text • text/ — zdrojové soubory k tomuto textu pro program LATEX (verze TEX Live 2007) • data/ — ukázková data v kódován´ı utf-8 • nerozpoznane/ — v´ ybˇer z ukázkov´ ych dat — obsahuje pouze vˇety, ve kter´ ych je nˇejaké nerozpoznané slovo • guess/ — v´ ybˇer z ukázkov´ ych dat — jiˇz oznaˇcené guesserem. • program/ — adresáˇr s programem • program/rdoc/index.html — dokumentace vygenerovaná systémem rdoc

34

Michal Suchánek Český morfologický guesser

Recommend Documents