<s id="a01w-s1">
14
<MMt src="ad">AAFS3----1A----<MMt src="ad">AAFS4----1A---<MMt src="ad">AAFS5----1A----<MMt src="ad">AAFS6----1A---<MMt src="ad">AAFS7----1A----<MMt src="ad">AAIP1----1A---<MMt src="ad">AAIP4----1A----<MMt src="ad">AAIP5----1A---<MMt src="ad">AAIS1----1A----<MMt src="ad">AAIS4----1A---<MMt src="ad">AAIS5----1A----<MMt src="ad">AAMP1----1A---<MMt src="ad">AAMP4----1A----<MMt src="ad">AAMP5----1A---<MMt src="ad">AAMS1----1A----<MMt src="ad">AAMS5----1A---<MMt src="ad">AANP1----1A----<MMt src="ad">AANP4----1A---<MMt src="ad">AANP5----1A----<MMt src="ad">AANS1----1A---<MMt src="ad">AANS4----1A----<MMt src="ad">AANS5----1A---
3.1
Pomocn´ e heuristiky pro speci´ aln´ı slova
Tagy pro nˇekter´a slova lze odhadnout celkem jednoduˇse a pˇresnˇe pomoc´ı speci´aln´ıch pravidel. Takov´a pravidla jsou jednoduˇsˇs´ı, a vˇetˇsinou pˇresnˇejˇs´ı, neˇz porovn´av´an´ı s konci.
3.1.1
Slova zaˇ c´ınaj´ıc´ı velk´ ym p´ısmenem, zkratky
Nerozpoznan´a slova zaˇc´ınaj´ıc´ı velk´ ym p´ısmenem jsou oznaˇcena tagem pro podstatn´e jm´eno bez pˇriˇrazen´ı dalˇs´ıch hodnot morfologick´ ych kategori´ı (NNXXX-----A----). Jedn´a ˇcasto o vlastn´ı jm´ena, kter´a mohou b´ yt pˇrejata z r˚ uzn´ ych jazyk˚ u. Cizojazyˇcn´a slova sv´ ym tvarem nemus´ı vyjadˇrovat morfologick´e kategorie, a proto by bez tohoto tagu ˇcasto nebyla spr´avnˇe rozpozn´ana. Toto pravidlo se uplatn´ı t´eˇz na zkratky, tj. slova zapsan´a pouze velk´ ymi p´ısmeny. Ty sv´ ym tvarem morfologick´e kategorie tak´e nevyjadˇruj´ı. Pro zkratky rozepsan´e pomoc´ı n´azv˚ u p´ısmen (napˇr. u ´ es´ a = USA) je zavedeno speci´aln´ı pravidlo. Jestliˇze je slovo konkatenac´ı n´azv˚ u p´ısmen je oznaˇceno neurˇcit´ ym 15
tagem pro podstatn´e jm´eno.
3.1.2
Pˇ redpony
ˇ Casto se vyskytuj´ı slova, kter´a nejsou rozpozn´ana, protoˇze maj´ı nˇejakou bˇeˇznou pˇredponu — jako napˇr. eurookna. Delˇs´ı pˇredpony jako euro–, super–, nebo hyper– lze zjevnˇe ˇretˇezit t´emˇeˇr libovolnˇe. Naopak kr´atkou pˇredponu jako s– ˇci vz– lze obvykle pˇridat pouze jednu, protoˇze se jejich v´ yznamy vˇetˇsinou vyluˇcuj´ı. Pravidla pro oddˇelov´an´ı pˇredpon uvaˇzuj´ı pouze jednu pˇredponu kratˇs´ı neˇz tˇri p´ısmena a libovoln´ y poˇcet delˇs´ıch pˇredpon. Kombinace kr´atk´ ych pˇredpon lze pˇr´ıpadnˇe explicitnˇe pˇridat do seznamu. Kdyˇz se podaˇr´ı od slova oddˇelit nˇejakou kombinaci pˇredpon, m˚ uˇze b´ yt morfologickou anal´ yzou rozpozn´ana zbyl´a ˇc´ast slova bez pˇredpon. Slovo je pak oznaˇceno tagy, kter´e morfologick´a anal´ yza pˇriˇradila rozpoznan´e ˇca´sti slova. Takto z´ıskan´e tagy jsou vˇetˇsinou velmi pˇresn´e.
3.1.3
Zkr´ acen´ı prodlouˇ zen´ ych slov
Zvl´aˇstˇe v beletrii se m˚ uˇzeme setkat se slovy jako pom´ oo ´´ oo ´´ oc. Ta samozˇrejmˇe ve slovn´ıku nejsou, ale podle mnoˇzstv´ı stejn´ ych samohl´asek lze usoudit, ˇze slovo bylo umˇele prodlouˇzeno. Jeho zkr´acen´ım lze vˇetˇsinou z´ıskat p˚ uvodn´ı slovo, kter´e jiˇz ve slovn´ıku je.
3.2
Slovn´ıkov´ y guesser
Koncept guesseru je jako v pˇr´ıpadˇe pˇredchoz´ıch guesser˚ u jednoduch´ y. Guesser naˇcte pˇredem pˇripraven´ y seznam konc˚ u slov. Kaˇzd´e nerozpoznan´e slovo ve zpracov´avan´em textu je porovn´ano s konci ze seznamu. Je–li nalezen nˇejak´ y konec, kter´ y je ve slovˇe obsaˇzen, jsou na v´ ystup pˇrid´any tagy odpov´ıdaj´ıc´ı tomuto konci. Slovo samozˇrejmˇe m˚ uˇze obsahovat nˇekolik konc˚ u r˚ uzn´e d´elky. V tom pˇr´ıpadˇe jsou na v´ ystup pˇrid´any tagy odpov´ıdaj´ıc´ı vˇsem takov´ ym konc˚ um.
3.2.1
Pˇ r´ıprava seznamu konc˚ u
V morfologick´em slovn´ıku nejsou zaps´any vˇsechny tvary slova. Ve slovn´ıku je vˇzdy kofix1 , vzor, a lemma. Souˇc´ast´ı slovn´ıku je tak´e seznam koncovek 1
pˇribliˇznˇe odpov´ıd´ a koˇrenu slova s pˇredponami
16
Seznam koncovek pro vzor zn7. zn7
a[NFS1@],y[NFS2@,NFP1@,NFP4@,NFP5@],u[NFS4@],ou[NFS7@],o[NFS5@], ´m[NFP3@],´ a ach[NFP6@],ami[NFP7@],e[NFS3@,NFS6@],0[NFP2@], ama[NFP7@-6]
0 je oznaˇcen´ı pro koncovku, kter´a nem´a ˇz´adn´e p´ısmeno — ke kofixu se nic nepˇrid´av´a. pro vzory pouˇzit´e ve slovn´ıku. Pro kaˇzdou koncovku je uveden seznam odpov´ıdaj´ıc´ıch tag˚ u. Lemma ve slovn´ıku je z´akladn´ı tvar slova, kter´ y se uv´ad´ı ve v´ ystupu morfologick´e anal´ yzy. Ve slovn´ıku je lemma uvedeno cel´e, ale protoˇze kofix by mˇel b´ yt prefixem lemmatu, lze lemma rozdˇelit na kofix a sufix. Napˇr´ıklad pro slovo deviza obsahuje slovn´ık ˇr´adek2 scnd11a.sl:deviz zn7 =deviza Podle tohoto z´aznamu je kofix slova deviz, skloˇ nuje se podle vzoru zn7, a lemma je deviza. Vyskytne–li se tedy v textu napˇr´ıklad slovn´ı tvar devizou lze podle z´aznamu o slovu deviza a seznamu koncovek pro vzor zn7 urˇcit, ˇze se jedn´a o tvar slova deviza a pˇriˇradit mu tag NFS7@3 . Guesser pouˇz´ıv´a data ve stejn´em tvaru, ve kter´em je seznam koncovek ve slovn´ıku. Seznam konc˚ u pro guesser je z´ısk´an ze seznamu koncovek ze slovn´ıku zaveden´ım nov´ ych ,,vzor˚ u”. Slova oh´ yban´a podle stejn´eho vzoru jsou uspoˇr´ad´ana podle konce kofixu. Jestliˇze je pro nˇejak´ y vzor jen m´alo moˇznost´ı, jak m˚ uˇze konˇcit kofix, je vzor odstranˇen, a nahrazen jedn´ım nebo nˇekolika vzory, kter´e obsahuj´ı p´ısmeno z kofixu v ,,koncovce”. T´ım se prodlouˇz´ı konec, podle kter´eho jsou slova rozpozn´av´ana. Napˇr´ıklad slova skloˇ novan´a podle vzoru st (staven´ı) maj´ı na konci kofixu –´ı. Pˇri zpracov´an´ı konc˚ u pro guesser je tedy –´ı pˇrid´ano na zaˇc´atek koncovek, a vzor st je nahrazen vzorem st|´ ı — vzor st s koncovkami prodlouˇzen´ymi o –´ı. 2
Takto vypad´ a z´ aznam ve slovn´ıku pouˇz´ıvan´em guesserem. Historicky je slovn´ık rozdˇelen do nˇekolika ˇc´ ast´ı, a v z´ aznamu pouˇz´ıvan´em guesserem je pˇred dvojteˇckou n´azev souboru, ze kter´eho z´ aznam poch´az´ı, a za dvojteˇckou vlastn´ı z´aznam z tohoto souboru. 3 V seznamu koncovek jsou uvedeny kompaktn´ı tagy, ale pro v´ ystup se tagy pˇrev´adˇej´ı na poziˇcn´ı.
17
Ze seznamu vzor˚ u jsou odstranˇeny ty, kter´e maj´ı jen m´alo v´ yskyt˚ u ve slovn´ıku. Takov´e vzory nutnˇe zachycuj´ı nˇejakou nepravidelnost, a o nov´ ych slovech pˇredpokl´ad´ame, ˇze se oh´ ybaj´ı pravidelnˇe. Nˇekter´e vzory jsou odstranˇeny jiˇz pˇredem, protoˇze jsou pro pouˇzit´ı v guesseru nevhodn´e. Z´ajmen je pouze omezen´ y poˇcet, a ˇc´ıslovek je sice neomezenˇe mnoho, ale vˇsechny jsou pouze kombinac´ı zn´am´ ych ˇc´ast´ı. Je tak´e velmi nepravdˇepodobn´e, ˇze by se v textu vyskytlo nezn´am´e sloveso v pˇrechodn´ıku, ale konce pˇrechodn´ık˚ u se podobaj´ı jin´ ym slovn´ım druh˚ um, a zahrnut´ım jejich vzor˚ u by vedlo k pˇrid´an´ı mnoha zav´adˇej´ıc´ıch tag˚ u.
3.2.2
Speci´ aln´ı konec — lemma
Pˇri pˇriˇrazen´ı tagu je potˇreba urˇcit t´eˇz lemma — slovo v z´akladn´ım tvaru. Pro nˇekter´e vzory by bylo moˇzn´e vybrat koncovku s pˇr´ısluˇsn´ ym tagem — napˇr. 1. p´ad jednotn´eho ˇc´ısla. Nˇekter´e vzory ale takovou koncovku v˚ ubec neobsahuj´ı, protoˇze se jedn´a o ˇca´steˇcn´ y vzor napˇr´ıklad pouze pro mnoˇzn´e ˇc´ıslo. Proto je potˇreba pro kaˇzd´ y vzor zaznamenat tak´e sufix, jehoˇz pˇripojen´ım lze z kofixu z´ıskat lemma. Protoˇze slovn´ık vˇzdy obsahuje kofix a lemma, je moˇzn´e sufix lemmatu pro kaˇzd´ y vzor zaznamenat. Sufix by mˇel b´ yt pro vˇsechna slova oh´ yban´a podle stejn´eho vzoru shodn´ y. Bohuˇzel, ve slovn´ıku se mohou vyskytnout chybn´a lemmata, a je proto tˇreba vybrat sufix, kter´ y je pro dan´ y vzor nejˇcastˇejˇs´ı.
3.2.3
Postup pˇ ri odhadov´ an´ı tag˚ u
Guesser oznaˇcuje pouze slova, kter´a jsou oznaˇcena tagem pro nerozpoznan´e slovo, a nebyla pˇri morfologick´e anal´ yze oznaˇcena specifick´ ym tagem. Nejdˇr´ıve jsou odstranˇeny tagy z morfologick´e anal´ yzy, a pot´e guesser pˇrid´a tagy podle jednotliv´ ych pravidel. Pro slova kratˇs´ı neˇz tˇri p´ısmena pouˇz´ıv´a guesser pouze jedin´e pravidlo — oznaˇcuje je tagem pro podstatn´e jm´eno bez urˇcen´ı dalˇs´ıch kategori´ı. Slova dlouh´a alespoˇ n tˇri p´ısmena guesser oznaˇcuje vˇsemi tagy, kter´e lze z´ıskat porovn´an´ım slova se seznamem konc˚ u a morfologickou anal´ yzou slova po zkr´acen´ı nebo odebr´an´ı pˇredpon. Slova zaˇc´ınaj´ıc´ı velk´ ym p´ısmenem a slova, kter´a jsou konkatenac´ı n´azv˚ u p´ısmen, oznaˇc´ı guesser nav´ıc tagem pro podstatn´e jm´eno bez urˇcen´ı dalˇs´ıch kategori´ı.
18
Kapitola 4 Z´ avˇ er 4.1
Porovn´ an´ı s pravdˇ epodobnostn´ım guesserem
Poziˇcn´ı tagy maj´ı vˇzdy stejn´ y poˇcet znak˚ u. Kaˇzd´ y znak po ˇradˇe odpov´ıd´a jedn´e morfologick´e kategorii. Pro kaˇzd´ y slovn´ı druh maj´ı smysl vˇzdy jen nˇekter´e kategorie, znaky na ostatn´ıch pozic´ıch jsou -. Prvn´ı dvˇe pozice urˇcuj´ı slovn´ı druh, dalˇs´ı dvˇe rod a ˇc´ıslo. Pˇri vyhodnocen´ı spr´avnosti tagu se uvaˇzuje pouze spr´avn´e odhadnut´ı cel´eho zaˇc´atku tagu. Kdyˇz je napˇr´ıklad spr´avnˇe odhadnut rod, ale jiˇz ne slovn´ı druh, povaˇzuje se cel´ y v´ ysledek za chybn´ y. ˇ Pro porovn´an´ı jsem pouˇzil ruˇcnˇe oznaˇcen´ y text z Cesk´eho Akademick´eho korpusu1 . Tento text obsahuje nˇekter´a slova, kter´a jeˇstˇe nejsou ve slovn´ıku. U kaˇzd´eho slova oznaˇcen´eho guesserem jsem zjiˇst’oval, kolik kategori´ı bylo odhadnuto shodnˇe s ruˇcnˇe vyznaˇcen´ ym tagem a kolika tagy bylo slovo oznaˇceno. Na tomto textu m´a probabilistick´ y guesser u ´spˇeˇsnost odhadnut´ı slovn´ıho druhu (prvn´ı dvˇe pozice tagu) 97,5%, cel´eho tagu 90,0% a pr˚ umˇernˇe oznaˇc´ı slovo 31 tagy. Slovn´ıkov´ y guesser m´a u ´spˇeˇsnost odhadnut´ı slovn´ıho druhu 92,1%, cel´eho tagu 82,7% a pr˚ umˇernˇe oznaˇc´ı slovo 15 tagy. 22% slov nerozpoznan´ ych morfologickou anal´ yzou jsou r˚ uzn´e zkratky a oznaˇcen´ı p´ısmen — napˇr. OSNP, erv´ eh´ ap´ e, k´ a. Oba guessery maj´ı znaˇcn´e pot´ıˇze s rozpozn´an´ım tˇechto slov. Pravdˇepodobnostn´ı guesser nˇekter´e zkratky rozpozn´a, jin´e v˚ ubec neoznaˇc´ı. Ve slovn´ıkov´em guesseru bylo potˇreba pˇridat pro zkratky speci´aln´ı pravidla, protoˇze zkratky sv´ ym z´apisem morfologick´e kategorie nevyjadˇruj´ı. 1
http://ufal.mff.cuni.cz/rest/cac.html
19
Pro snadnˇejˇs´ı porovn´an´ı byl slovn´ıkov´ y guesser upraven tak, ˇze zkratky a slova zaˇc´ınaj´ıc´ı velk´ ym p´ısmenem neoznaˇcuje jedn´ım obecn´ ym tagem pro podstatn´e jm´eno, ale ˇctyˇrmi obecn´ ymi tagy pro podstatn´a jm´ena vˇsech ˇctyˇr rod˚ u. To zjednoduˇsuje porovn´an´ı v´ ysledk˚ u, protoˇze zkratky jsou v ruˇcnˇe tagovan´em textu vˇetˇsinou oznaˇceny jedn´ım z tˇechto ˇctyˇr tag˚ u a stejn´ ymi tagy je oznaˇcuje i probabilistick´ y guesser. Dalˇs´ı 3% nerozpoznan´ ych slov jsou slova jako obˇ cansko nebo elektro ve sloˇzenin´ach jako obˇ cansko–pr´ avn´ı nebo elekro–mechanick´ y. Tato slova je moˇzn´e snadno rozpoznat kontextovˇe podle n´asleduj´ıc´ı pomlˇcky. Probabilistick´ y guesser tato slova vesmˇes rozpozn´a, ale ve slovn´ıku ˇza´dn´ y vzor pro pˇr´ısluˇsn´ y tag nen´ı. Probabilistick´ y guesser spr´avnˇe rozpozn´av´a nˇekter´a ciz´ı slova — napˇr. Bibliographie, sublistatic, mituke, Jessye, Tourist, myxonomyces. Tato slova nemaj´ı ˇceskou koncovku, a proto nejsou podle pravidel pro konce ˇcesk´ ych slov spr´avnˇe rozpozn´ana. Naopak slovn´ıkov´ y guesser l´epe rozpozn´a nˇekter´a slova, kter´a maj´ı vhodn´ y konec, protoˇze byla odvozena z ˇcesk´eho slova nebo poˇceˇstˇena. V textu pouˇzit´em pro porovn´an´ı jsou vˇsak chybnˇe rozpoznan´a nepoˇceˇstˇen´a slova ˇcastˇejˇs´ı.
20
4.1.1
Tabulka — vyhodnocen´ı guesseru
V tabulce na n´asleduj´ıc´ı stranˇe je uveden poˇcet slov, kter´a byla v textu oznaˇcena guesserem, pr˚ umˇern´ y poˇcet tag˚ u pˇripadaj´ıc´ıch na odhadnut´e slovo, a pravdˇepodobnost odhadnut´ı jednotliv´ ych pozic tagu. Pravdˇepodobnosti pro posledn´ı ˇctyˇri pozice tagu byly vypuˇstˇeny, protoˇze ve v´ ystupu guesseru je na tˇechto pozic´ıch vˇzdy -. Text pouˇzit´ y pro testov´an´ı guesseru obsahuje 566798 slov, z toho 4820 bylo oznaˇceno tagem pro nerozpoznan´e slovo, 4647 pouze tagem pro nerozpoznan´e slovo. Kaˇzd´e slovo s tagem z jin´eho zdroje neˇz ad (ze slovn´ıku) je zahrnuto do celkov´ ych statistik. Nav´ıc jsou zvl´aˇst’ spoˇc´ıt´any statistiky pro tagy z jednotliv´ ych zdroj˚ u. Protoˇze jedno slovo m˚ uˇze b´ yt oznaˇceno tagy z nˇekolika zdroj˚ u, celkov´ y poˇcet oznaˇcen´ ych slov nen´ı souˇctem poˇctu slov oznaˇcen´ ych jednotliv´ ymi zdroji. Guesser nemus´ı oznaˇcit vˇsechna slova, pro nˇekter´a nem´a vhodn´e pravidlo. Probabilistick´ y guesser neoznaˇcuje nˇekter´e zkratky, a z nˇejak´eho d˚ uvodu t´eˇz neoznaˇcil napˇr´ıklad slova zachce a Zprvopoˇ c´ atku. Slovn´ıkov´ y guesser neoznaˇcuje slova, kter´a jiˇz byla oznaˇcena nˇejak´ ym specifick´ ym tagem pˇri morfologick´e anal´ yze (morfologick´a anal´ yza oznaˇcuje nˇekter´a slova tagem pro nerozpoznan´e slovo, a nav´ıc specifiˇctˇejˇs´ım tagem).
21
zdroj
Celkem au ax
22
Celkem ad mut ad pref def end
slov
4197 2489 2
4639 3 496 2390 3669
tag˚ u
30.76 30.77 18.0
15.4 1.7 8.7 4.0 15.3
1
0.982 0.983 0.500
0.926 0.333 0.921 0.916 0.884
2
Pravdˇepodobnost odhadnut´ı jednotliv´ ych pozic tagu 3 4 5 6 7 8 9
10
11
0.975 0.975 0.500
Probabilistick´ y guesser 0.937 0.915 0.902 0.902 0.937 0.915 0.902 0.902 0.500 0.500 0.500 0.500
0.902 0.902 0.500
0.902 0.902 0.500
0.902 0.902 0.500
0.901 0.902 0.500
0.900 0.901 0.500
0.921 0.333 0.919 0.916 0.878
Slovn´ıkov´ y guesser 0.885 0.856 0.828 0.827 0.333 0.333 0.333 0.333 0.849 0.841 0.839 0.839 0.888 0.473 0.473 0.473 0.770 0.723 0.688 0.687
0.827 0.333 0.839 0.473 0.687
0.827 0.333 0.839 0.473 0.687
0.827 0.333 0.839 0.473 0.687
0.827 0.333 0.835 0.473 0.687
0.827 0.333 0.827 0.473 0.687
Zdroj v tabulce je vlastnost src v CSTS reprezentaci tagu. Pˇri automatick´em oznaˇcov´an´ı se pomoc´ı vlastnosti src d´a rozliˇsit, jestli byl tag pˇriˇrazen ze slovn´ıku nebo guesserem. Slovn´ıkov´ y guesser pomoc´ı r˚ uzn´ ych zdroj˚ u rozliˇsuje, kter´a pravidla byla pouˇzita. ad mut Slovo bylo rozpozn´ano pomoc´ı slovn´ıku po zkr´acen´ı skupin stejn´ ych hl´asek ad pref Slovo bylo rozpozn´ano pomoc´ı slovn´ıku po odstranˇen´ı prefixu ad def Tag pro podstatn´e jm´eno pˇridan´ y pro slovo s poˇca´teˇcn´ım velk´ ym p´ısmenem end Tagy odvozen´e podle pravidel pro konce slov
4.2 4.2.1
Dalˇ s´ı moˇ znosti zlepˇ sen´ı guesseru Ladˇ en´ı parametr˚ u
Pˇri zachov´an´ı stejn´eho konceptu lze testovat v´ ysledky guesseru na vˇetˇs´ım mnoˇzstv´ı dat v z´avislosti na parametrech v´ ybˇeru konc˚ u pro guesser. Zde pˇrich´az´ı v u ´vahu maxim´aln´ı d´elka zkouman´ ych konc˚ u slov, minim´aln´ı poˇcet slov oh´ yban´ ych podle jednoho vzoru, a maxim´aln´ı poˇcet vzor˚ u, na kter´e se jeden vzor rozloˇz´ı. Zv´ yˇsen´ım maxim´aln´ı uvaˇzovan´e d´elky konce slova ze 6 p´ısmen na 7 se v´ ysledn´ y seznam konc˚ u nezmˇenil. To ale nemus´ı platit pˇri jin´em nastaven´ı ostatn´ıch parametr˚ u. Zbyl´e parametry jsem nastavil pˇribliˇznˇe podle velikosti z´ıskan´ ych vyhled´avac´ıch strom˚ u. Po porovn´an´ı v´ ysledk˚ u pravdˇepodobnostn´ıho guesseru a slovn´ıkov´eho guesseru pouˇz´ıvaj´ıc´ıho dvˇe r˚ uzn´e tabulky konc˚ u se zd´a, ˇze obecnˇejˇs´ı a m´enˇe jednoznaˇcn´a pravidla pˇrin´aˇsej´ı lepˇs´ı v´ ysledky. Obecnˇejˇs´ı pravidla urˇc´ı pro jedno slovo v´ıce tag˚ u, a mezi nimi je pak ˇcastˇeji nˇekter´ y tag, kter´ y pˇresnˇe vyjadˇruje skuteˇcn´e morfologick´e kategorie rozpozn´avan´eho slova. Obecnˇejˇs´ı pravidla tak´e pˇrid´avaj´ı v´ıce zav´adˇej´ıc´ıch nespr´avn´ ych tag˚ u, ale tˇem se ned´a zcela vyhnout ani u slov rozpoznan´ ych morfologickou anal´ yzou podle slovn´ıku. Vyˇrazen´ı nepotˇrebn´ ych vzor˚ u je zaloˇzeno pouze na odhadu. Nem´am k dispozici statistiku novˇe zaˇrazovan´ ych slov podle vzor˚ u. O nov´ ych slovech sice pˇredpokl´ad´ame, ˇze jsou pravideln´a, ale lze pouze odhadovat, podle kter´ ych vzor˚ u se oh´ ybaj´ı novˇe zaˇrazen´a, a tedy dˇr´ıve nezn´am´a slova. Napˇr´ıklad nov´e sloveso lze t´emˇeˇr vˇzdy vytvoˇrit pˇrid´an´ım –ovat. Anglick´e sloveso boot tak lze snadno poˇceˇstit na bootovat, ale lze se setkat t´eˇz s novotvarem bootit, at’ uˇz si o jeho spr´avnosti mysl´ıme cokoliv.
4.2.2
Rozˇ s´ıˇ ren´ı pravidel
Nˇekter´a slova nelze rozpoznat pouze na z´akladˇe konce. Napˇr´ıklad slova zprvopoˇ c´ atku nebo zadruh´ e jsou pˇr´ıslovce, ale jejich konec odpov´ıd´a zcela jin´emu slovn´ımu druhu. Podobnˇe slova jako sebelepˇ s´ı tvarem sice odpov´ıdaj´ı druh´emu stupni pˇr´ıdavn´eho jm´ena, ale v ruˇcnˇe tagovan´em textu jsou vˇetˇsinou znaˇcena jako prvn´ı stupeˇ n. Je tedy moˇzn´e, ˇze dalˇs´ı speci´aln´ı pravidla pro pˇredpony mohou guesser d´ale zpˇresnit. Pravidla pro nˇekter´a, zvl´aˇstˇe hovorov´a slova ze slovn´ıku vytvoˇrit nelze. Napˇr´ıklad nespr´avn´a koncovka slov u ´ˇ cast´ım (´ uˇ cast) a pˇ r´ıleˇ zitost´ıch
23
(pˇ r´ıleˇ zitost) nen´ı v seznamu koncovek pro vzor kt12 (kost), podle kter´eho se tato slova skloˇ nuj´ı.
src="end">´ uc ˇastit ^itxd src="end">VB-S---1P-AA--src="end">´ uc ˇastit ^itxn src="end">VB-S---1P-AA--src="end">´ uc ˇastˇ et ^wtd|t src="end">VB-S---1P-AA---
Sloveso ˇ castit (ˇ cast´ım) ve slovn´ıku je a tvar u ´ˇ cast´ım lze z´ıskat pˇripojen´ım pˇredpony u ´ -. Guesser tedy zahrne i tag podle pravidla pro odstranˇen´ı pˇredpon. uˇ castit :T ,a^´ u-ˇ cast´ ım <MMl src="ad pref">´ <MMt src="ad pref">VB-S---1P-AA--Konec –´ım se vyskytuje u slov podle vzor˚ u mho (rab´ı — rab´ım), st (staven´ı — staven´ım) a inx (legu´ an´ı — legu´ an´ım). <MMl <MMt <MMt <MMt <MMl <MMt <MMt <MMl <MMt
src="end">´ uc ˇast´ ı ^mho|´ ı src="end">NNMS6-----A---src="end">NNMS7-----A---src="end">NNMP3-----A---ı src="end">´ uc ˇast´ ı ^st|´ src="end">NNNS7-----A---src="end">NNNP3-----A---src="end">´ uc ˇast´ ı ^inx|´ ı src="end">AAMS6----1A----
2
Jedn´ a se o vzory, pod kter´ ymi jsou slova zaˇrazena ve slovn´ıku. Vzor kt1 je jeden ze vzor˚ u odpov´ıdaj´ıc´ıch bˇeˇznˇe zn´am´emu vzoru kost. Protoˇze nˇekter´a slova se neskloˇ nuj´ı zcela pravidelnˇe, je v morfologick´em slovn´ıku vzor˚ u v´ıce.
24
<MMt <MMt <MMt <MMt <MMt <MMt <MMt <MMt <MMt
src="end">AAMS7----1A---src="end">AAMP3----1A---src="end">AAIS6----1A---src="end">AAIS7----1A---src="end">AAIP3----1A---src="end">AAFP3----1A---src="end">AANS6----1A---src="end">AANS7----1A---src="end">AANP3----1A----
Pravidla pro konec –m jsou odvozena ze sloves podle vzoru noutd kde kofix konˇc´ı na –m (vˇ simnout — vˇ sim(l)) a podstatn´ ych jmen podle vzor˚ u hd (ozim), mt1 (pyˇ zamo — pyˇ zam), pn (anonym) a zn (lama — lam), kde kofix konˇc´ı na –m. <MMl <MMt <MMl <MMt <MMt <MMl <MMt <MMt <MMl <MMt <MMl <MMt <MMl <MMt <MMl <MMt
src="end">´ uc ˇast´ ımnout ^noutd|m src="end">VpYS---XR-AA--6 src="end">´ uc ˇast´ ım ^hd1|m src="end">NNIS1-----A---src="end">NNIS4-----A---src="end">´ uc ˇast´ ım ^hd2|m src="end">NNIS1-----A---src="end">NNIS4-----A---src="end">´ uc ˇast´ ımo ^mt1|m src="end">NNNP2-----A---src="end">´ uc ˇast´ ım ^pn1|m src="end">NNMS1-----A---src="end">´ uc ˇast´ ım ^pn3|m src="end">NNMS1-----A---src="end">´ uc ˇast´ ıma ^zn1|m src="end">NNFP2-----A----
Nˇekter´e hovorov´e tvary z´ajmen (tˇ ehletˇ ech, todlenctoho) ve slovn´ıku nejsou zahrnuty, a proto nejsou rozpozn´any ani morfologickou anal´ yzou, ani slovn´ıkov´ ym guesserem. Podobnˇe slovo pivˇ co nelze podle slovn´ıku rozpoznat. Ve slovn´ıku jsou pouze dvˇe slova jejichˇz lemma konˇc´ı na –ˇ co, coˇz nen´ı dostateˇcn´e pro vytvoˇren´ı vhodn´eho pravidla.
25
4.2.3
Rozˇ s´ıˇ ren´ı porovn´ av´ an´ı zahrnut´ı vlastnost´ı specifick´ ych pro ˇ cesk´ y jazyk
Dˇr´ıve popsan´e guessery i slovn´ıkov´ y guesser porovn´avaj´ı slova prostˇe po p´ısmenech. To umoˇzn ˇuje pouˇz´ıt dobˇre zn´am´e vyhled´avac´ı stromy pro porovn´av´an´ı slov a zaznamen´an´ı v´ ysledk˚ u. Jedin´ y prvek specifick´ y pro ˇceˇstinu, kter´ y jsem pouˇzil, je zahrnut´ı ch jako zvl´aˇstn´ıho p´ısmene. Jinak lze stejnˇe sestavit guesser pro jak´ ykoliv flektivn´ı jazyk. V ˇceˇstinˇe ale nejsou vˇsechna p´ısmena stejn´a. Pˇrestoˇze vzor pˇredepisuje pouze koncovku, tu nelze pˇripojit za jak´ ykoliv koˇren a prohl´asit v´ ysledek za ˇcesk´e slovo. Mˇekk´e vzory s koncovkou –´ı nelze pˇripojit na koˇren konˇc´ıc´ı tvrdou souhl´askou, kter´a se pˇrid´an´ım –´ı nezmˇekˇc´ı. Koncovka –ˇ e je jeˇstˇe specifiˇctˇejˇs´ı. Splnˇen´ı tˇechto pravopisn´ ych z´asad je ale jen nutn´e minimum. Slovo ˇcasto nezn´ı spr´avnˇe, kdyˇz je na konci koˇrene kr´atk´a nebo naopak dlouh´a samohl´aska. To je nejlepˇs´ı uk´azat na pˇr´ıkladu. Samozˇrejmˇe, ˇcesk´a slova jsou vytvoˇrena spr´avnˇe. Vymyslet nˇejak´ y shluk hl´asek, kter´ y je ,,t´emˇeˇr ˇcesky”, tak´e nen´ı u ´plnˇe trivi´aln´ı. Proto pouˇziji pˇr´ıklad z jin´eho jazyka. V japonˇstinˇe3 existuj´ı adjektiva konˇc´ıc´ı na –´ı, coˇz by pro souˇcasn´ y guesser pravdˇepodobnˇe staˇcilo, aby je oznaˇcil jako mˇekk´a adjektiva. Pomˇernˇe ˇcast´a jsou adjektiva konˇc´ıc´ı na –ˇ s´ı jako 楽 し い (z´abavn´ y, 4 pˇr´ıjemn´ y). Po fonetick´em pˇreps´an´ı dostaneme ,,tanoˇs´ı” . Guesser oznaˇc´ı takov´e slovo tagy pro podstatn´e jm´eno (lemma tanoˇ s´ı podle vzoru st, lemma tanoˇ se podle vzoru ns1, atd.), sloveso (lemma tanoˇ sit nebo tanoˇ set), 5 mˇekk´e pˇr´ıdavn´e jm´eno (lemma tanoˇ s´ı podle vzor˚ u jnf, jnm, atd. ), pˇr´ıpadnˇe tvrd´e pˇr´ıdavn´e jm´eno (lemma tanoch´ y podle vzoru yxi). Takov´e tagy jsou samozˇrejmˇe nespr´avn´e, protoˇze se nejedn´a o ˇcesk´e slovo, a pˇriˇrazen´ı kategori´ı podle ˇcesk´eho tvaroslov´ı nem´a smysl. Na druh´e stranˇe pouze ze z´apisu 3
Japonˇstina nen´ı vybr´ ana u ´plnˇe n´ahodnˇe. V ˇceˇstinˇe se v koncovk´ach ˇcasto vyskytuj´ı dlouh´e samohl´ asky a souhl´ asky, pro jejichˇz z´apis se v ˇceˇstinˇe pouˇz´ıv´a h´aˇcek. Podobnˇe konˇc´ıc´ı slova lze naj´ıt napˇr´ıklad i v angliˇctinˇe, ale zapisuj´ı se u ´plnˇe jinak. 4 Japonˇstina m´ a vlastn´ı slabiˇcnou abecedu, a tak nen´ı probl´em zapsat v´ yslovnost jako た の し い . Pro srozumitelnost je ale lepˇs´ı vyuˇz´ıt, ˇze hl´asky vyskytuj´ıc´ı se v japonˇstinˇe lze zapsat pomoc´ı p´ısmen odpov´ıdaj´ıc´ıch velmi podobn´ ym hl´ask´am v ˇceˇstinˇe. Existuje tak´e pomˇernˇe rozˇs´ıˇren´ y ,,anglick´ y” zp˚ usob z´apisu. Ten pˇr´ıliˇs spr´avnou v´ yslovnost neinspiruje; 死ね se vyslovuje ,,ˇsine” ale ,,anglicky” se pˇrepisuje shine. 5 Tento tvar nemus´ı b´ yt na prvn´ı pohled u ´plnˇe zˇrejm´ y, ale za pˇredpokladu existence nˇejak´eho tanocha pak toto slovo bude znamenat ,,pˇr´ısluˇsn´ y tanochovi” nebo ,,vlastn´ı tanochovi”.
26
tohoto slova to nen´ı zˇrejm´e. Jin´e podobn´e slovo je 美 味 し い (chutn´ y). Po fonetick´em pˇrepisu dostaneme nˇeco jako ,,oiˇs´ı” nebo ,,ojˇs´ı”. Guesser toto slovo oznaˇc´ı v obou pˇr´ıpadech podobnˇe jako ,,tanoˇs´ı”, ale konec –jˇ s´ı je pro mˇekk´e pˇr´ıdavn´e jm´eno pomˇernˇe nevhodn´ y. Takov´ y konec se vyskytuje bˇeˇznˇe ve stupˇ novan´ ych slovech, a pak je souˇc´ast´ı konce –ˇ ejˇ s´ı nebo –ejˇ s´ı. Kromˇe toho se vyskytuje ve slovech, kter´a sice stupˇ novan´a nejsou, ale jejich konec je stejn´ y — napˇr´ıklad vedlejˇ s´ı. V tomto pˇr´ıpadˇe by tedy bylo moˇzn´e nˇekter´e tagy vyˇradit. Jin´e zaj´ımav´e slovo je 大 きい ,,´ok´ y” (velk´ y). To guesser oznaˇc´ı mimo jin´e jako tvrd´e adjektivum. Tvrd´a adjektiva konˇc´ıc´ı na –k´ y sice najdeme snadno, ale pˇred –k´ y b´ yv´a souhl´aska jako ve velk´ y, pˇr´ıpadnˇe kr´atk´a samohl´aska jako ve velik´ y nebo mandlook´ y. I zde jsou tedy nˇekter´e tagy, kter´e by mohly b´ yt vyˇrazeny pˇri pouˇzit´ı pˇresnˇejˇs´ıch pravidel. Je tedy vidˇet, ˇze ˇcasto nelze urˇcit jedno nebo nˇekolik m´alo p´ısmen, kter´a koncovce mus´ı pˇredch´azet, ale je moˇzn´e urˇcit p´ısmena, kter´a pˇredch´azet nemohou, pˇr´ıpadnˇe lze omezit druh hl´asek, kter´e pˇredch´azet mohou. Pro zaznamen´an´ı takov´ ych pravidel ale nestaˇc´ı jednoduch´ y form´at, kter´ y je pouˇzit pro koncovky ve slovn´ıku, a nestaˇc´ı pˇr´ım´e porovn´an´ı jednotliv´ ych p´ısmen nasb´ıran´ ych dat s rozpozn´avan´ ym slovem.
27
Literatura [1] Hajiˇc, J.: Disambiguation of Rich Inflection, Charles University — The Carolinum Press, Prague, 2004. [2] Hlav´aˇcov´a, J.: Morphological Guesser of Czech Words. Proc. TSD 2001, Springer–Verlag Berlin Heidelberg 2001, pp. 70—75.
28
Kapitola A Pˇ r´ıloha — n´ avod k programu A.1
Poˇ zadavky na prostˇ red´ı
Protoˇze guesser vyuˇz´ıv´a program pro morfologickou anal´ yzu, kter´ y m´am k dispozici pouze v bin´arn´ı formˇe, lze guesser pouˇz´ıvat pouze v operaˇcn´ım syst´emu GNU/Linux na platformˇe Intel (i386 nebo amd64). Vlastn´ı guesser vyˇzaduje Ruby verze 1.8 (vˇetˇsinou lze nainstalovat jako bal´ıˇcek ruby nebo ruby1.8 — napˇr´ıklad na distribuc´ıch Ubuntu nebo Debian pomoc´ı pˇr´ıkazu apt-get install ruby) a Bourne shell (sh — bash, dash, apod.). Program pro morfologickou anal´ yzu nav´ıc vyˇzaduje C shell (tcsh). Guesser je nastaven´ y pro zpracov´an´ı dat v k´odov´an´ı UTF-8.
A.2
Spuˇ stˇ en´ı guesseru
Guesser se spouˇst´ı pomoc´ı skriptu run.rb. Skript by mˇel b´ yt spustiteln´ y, pˇr´ıpadnˇe je moˇzn´e spouˇstˇet skript pˇr´ımo pomoc´ı interpretu ruby ruby run.rb nebo ruby1.8 run.rb. Skript vyˇzaduje v pracovn´ım adres´aˇri (cwd) konfiguraˇcn´ı soubor config.ini a datov´e soubory v podadres´aˇr´ıch pracovn´ıho adres´aˇre dict/ a gen/. Pro spouˇstˇen´ı morfologick´e anal´ yzy je potˇreba zapisovat do pracovn´ıho adres´aˇre, je tedy vhodn´e tyto soubory zkop´ırovat na pevn´ y disk.
29
Parametry skriptu run.rb: 1. akce, kter´a se m´a prov´est • M — morfologick´a anal´ yza • G — guesser • MG — morfologick´a anal´ yza a guesser 2. vstupn´ı soubor 3. v´ ystupn´ı soubor Kdyˇz nen´ı jm´eno v´ ystupn´ıho souboru uvedeno, je urˇceno automaticky ze jm´ena vstupn´ıho souboru odtrˇzen´ım pˇr´ıpony pro vstupn´ı soubor a pˇrid´an´ım pˇr´ıpony pro v´ ystupn´ı soubor prov´adˇen´e akce podle nastaven´ı pˇr´ıpon v souboru config.ini. Soubor config.ini je zpracov´av´an po ˇra´dc´ıch. Sekce souboru jsou vyznaˇceny n´azvy v hranat´ ych z´avork´ach. Kaˇzd´a sekce m˚ uˇze obsahovat pojmenovan´e hodnoty. N´azev je od vlastn´ı hodnoty oddˇelen znakem =. Hodnoty v souboru config.ini mohou obsahovat libovoln´e zobraziteln´e znaky kromˇe stˇredn´ıku, kter´ y oznaˇcuje zaˇc´atek koment´aˇre. Mezery a tabul´atory ze zaˇc´atku a konce hodnoty jsou odstranˇeny. Kromˇe hodnot verbose, ending verbose a LOG EXT, kter´e lze odstranˇen´ım ze souboru config.ini vypnout, nen´ı vhodn´e hodnoty odstraˇ novat nebo pˇremist’ovat do jin´ ych sekc´ı. Odstranˇen´ım hodnot ze souboru m˚ uˇze doj´ıt k chybˇe programu. Podrobnˇejˇs´ı popis programu je v souboru README.txt a popis nastaven´ı v souboru config.ini na pˇriloˇzen´em CD.
A.3
Pˇ r´ıklad pouˇ zit´ı guesseru
Protoˇze pˇriloˇzen´a data jsou v k´odov´an´ı UTF–8, je pro prohl´ıˇzen´ı v´ ysledk˚ u vhodn´e pracovat v prostˇred´ı, kter´e toto k´odov´an´ı podporuje. Guesser je moˇzn´e pˇrepnout t´eˇz pro pr´aci s daty v jin´em k´odov´an´ı. Vˇetˇsina souˇcasn´ ych distribuc´ı Linuxu vˇsak jiˇz pouˇz´ıv´a k´odov´an´ı UTF–8. Pro zjednoduˇsen´ı je tedy pops´an pouze postup pro pouˇzit´ı tohoto k´odov´an´ı. Znak $ v pˇr´ıkladech znaˇc´ı prompt shellu. Lze tak snadno odliˇsit zaˇc´atek nov´eho pˇr´ıkazu od pokraˇcov´an´ı pˇr´ıkazu, kter´ y se neveˇsel na pˇredchoz´ı ˇra´dek.
30
Nejdˇr´ıve je vhodn´e se ujistit, ˇze je nainstalov´an software potˇrebn´ y pro bˇeh programu. Napˇr´ıklad na Debian GNU/Linux nebo Ubuntu lze nainstalovat ruby a tcsh pomoc´ı spr´avce bal´ıˇck˚ u apt. Program iconv je souˇca´st´ı z´akladn´ıho bal´ıˇcku libc6. $ sudo apt-get install ruby tcsh N´asleduj´ıc´ı pˇr´ıklad je t´eˇz moˇzn´e spustit v termin´alu skriptem demo.sh z CD. Pro spuˇstˇen´ı uk´azky je pak vytvoˇren pracovn´ı adres´aˇr guesser-demo.
Pro jednoduchost je lepˇs´ı pˇrilinkovat i data a program. $ ln -s /media/cdrom/nerozpoznane . $ ln -s /media/cdrom/program . $ mkdir guess Pro zkr´acen´ı doby potˇrebn´e pro proveden´ı morfologick´e anal´ yzy lze vybrat jen nˇekter´e soubory, napˇr´ıklad n51w a s87s. Parametrem MG se spust´ı morfologick´a anal´ yza spolu s guesserem. 31
$ ./program/run.rb MG nerozpoznane/n51w.csts.utf guess $ ./program/run.rb MG nerozpoznane/s87s.csts.utf guess Pro zpracov´an´ı vˇsech dat staˇc´ı zadat jm´eno adres´aˇre. $ ./program/run.rb MG nerozpoznane guess Adres´aˇr /tmp/guesser.conf/guess by nyn´ı mˇel obsahovat v´ ysledky shodn´e s /media/cdrom/guess. Slova oznaˇcen´a morfologickou anal´ yzou maj´ı tagy s atributem src="ad", tagy guesseru maj´ı jin´ y atribut, dle nastaven´ı v souboru config.ini. Ve standardn´ı konfiguraci maj´ı tagy vygenerovan´e podle pravidel pro konce slov atribut src="end", tagy podle pravidel pro slova zaˇc´ınaj´ıc´ı velk´ ym p´ısmenem a zkratky src="def", tagy z´ıskan´e morfologickou anal´ yzou po yzou odstranˇen´ı pˇredpon src="ad pref" a tagy z´ıskan´e morfologickou anal´ po zkr´acen´ı skupin stejn´ ych hl´asek src="ad mut". Protoˇze uk´azkov´a data jsou z korpusu ruˇcnˇe oznaˇcen´eho kontroln´ımi tagy, je moˇzn´e srovnat v´ ysledky guesseru s kontroln´ımi tagy a spoˇc´ıtat statistiku u ´spˇeˇsnosti odhadnut´ı tag˚ u. Pro v´ ypoˇcet statistiky je vhodnˇejˇs´ı spojit v´ıce soubor˚ u dohromady. $ cat guess/*.csts.utf > guess.csts.utf $ ./program/run.rb S guess.csts.utf Soubor /tmp/guesser.conf/output.csts.utf nyn´ı obsahuje text oznaˇcen´ y guesserem, soubor /tmp/guesser.conf/output.stats.utf seznam slov, kter´a guesser oznaˇcil a na konci statistiku u ´spˇeˇsnosti odhadnut´ı tag˚ u. ˇ R´adky s oznaˇcen´ ymi slovy jsou pops´any na konci t´eto kapitoly. Statistika je podobn´a t´e v kapitole 4.1.1, pouze obsahuje nav´ıc t´eˇz hodnoty pro posledn´ı pozice tagu. Je moˇzn´e tak´e srovnat v´ ysledky slovn´ıkov´eho guesseru a probabilistick´eho guesseru. Pro srovn´an´ı je potˇreba prov´est anal´ yzu stejn´ ych dat probabilistick´ ym guesserem. Po u ´pravˇe konfigurace se m´ısto morfologick´e anal´ yzy spust´ı anal´ yza spoleˇcnˇe s probabilistick´ ym guesserem. $ sed -i s/analyze.csh/analyze g.csh/ config.ini $ mkdir prob $ ./program/run.rb M nerozpoznane/n51w.csts.utf prob 32
$ ./program/run.rb M nerozpoznane/s87s.csts.utf prob $ cat prob/*.csts.utf > prob.csts.utf $ ./program/run.rb S prob.csts.utf Porovn´an´ı v´ ysledk˚ u guesser˚ u. $ ./program/statdiff.rb prob.stat.utf guess.stat.utf | less V porovn´an´ı ˇr´adky zaˇc´ınaj´ıc´ı – obsahuj´ı slova oznaˇcen´a probabilistick´ ym guesserem, ˇr´adky zaˇc´ınaj´ıc´ı + slova oznaˇcen´a slovn´ıkov´ ym guesserem. Na zaˇc´atku ˇr´adku je tvar slova, kter´ y byl guesserem oznaˇcen. Pot´e n´asleduje lemma a morfologick´ y tag, kter´ ymi bylo slovo oznaˇceno ruˇcnˇe. Druh´e lemma a tag jsou vybr´any z tag˚ u vyznaˇcen´ ych guesserem. Je vybr´an tag, kter´ y se ˇ nejv´ıce shoduje s ruˇcnˇe vyznaˇcen´ ym tagem a jemu pˇr´ısluˇsn´e lemma. C´ıslo na konci uv´ad´ı, kolik pozic ze zaˇc´atku vybran´eho tagu se shoduje s kontˇ ıslo pˇred tagem guesseru uv´ad´ı, kolika roln´ım ruˇcnˇe vyznaˇcen´ ym tagem. C´ tagy guesser slovo oznaˇcil. N´ıˇze je uveden pˇr´ıklad slova, kter´e bylo guesserem oznaˇceno 24 r˚ uzn´ ymi tagy. Vybran´ y tag podle vzoru in|n|i se shoduje s kontroln´ım tagem pˇresnˇe. Ostatn´ı tagy je moˇzn´e dohledat v oznaˇcen´em textu, napˇr´ıklad podle tvaru Katerinin. Vzor je u lemmatu uveden, protoˇze data byla zpracov´ana guesserem s nastaven´ ym parametrem ending verbose. + form: Katerinin lemma: Katˇ erinin ;Y ^(*2a) tag: AUMS1F--------alternates: 24 match: Katerinin ^in|n|i AUMS1F--------- accuracy: 15 V n´asleduj´ıc´ım ˇra´dku je pˇr´ıklad slova, kter´e bylo oznaˇceno 11 tagy a nejlepˇs´ı tag se shoduje pouze na prvn´ı pozici. + form: ted’ko lemma: ted’ko tag: Db------------- alternates: 11 match: ted’ko ^adv1|o Dg-------1A---- accuracy : 1
33
Kapitola B Pˇ r´ıloha — obsah CD • demo.sh — skript pro spuˇstˇen´ı uk´azky • text.pdf — tento text • text/ — zdrojov´e soubory k tomuto textu pro program LATEX (verze TEX Live 2007) • data/ — uk´azkov´a data v k´odov´an´ı utf-8 • nerozpoznane/ — v´ ybˇer z uk´azkov´ ych dat — obsahuje pouze vˇety, ve kter´ ych je nˇejak´e nerozpoznan´e slovo • guess/ — v´ ybˇer z uk´azkov´ ych dat — jiˇz oznaˇcen´e guesserem. • program/ — adres´aˇr s programem • program/rdoc/index.html — dokumentace vygenerovan´a syst´emem rdoc
34