MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY
Automatická extrakce sémanticky příbuzných slov
BAKALÁŘSKÁ PRÁCE
Petr Haken
Brno, jaro 2008
Prohlášení Prohlašuji, že tato práce je mým původním autorským dílem, které jsem vypracoval samostatně. Všechny zdroje, prameny a literaturu, které jsem při vypracování používal nebo z nich čerpal, v práci řádně cituji s uvedením úplného odkazu na příslušný zdroj.
Vedoucí práce: Mgr. Pavel Rychlý, Ph.D.
ii
Poděkování Děkuji Pavlovi Rychlému za odborné a trpělivé vedení práce. Za rady, které mi dával, při mých nesčetných otázkách. Také děkuji své rodině a přátelům za důvěru a podporu při psaní práce.
iii
Shrnutí Práce pojednává o principech automatického vyhledávání sémanticky blízkých slov, jako jsou synonyma a podobně, jejich získávání z textových korpusů. Popisuje existující metody, které jsou navrženy pro anglický jazyk, a porovnává jejich úspěšnost pro češtinu. Poté zde jsou navrženy a aplikovány nové metody. Práce dále popisuje potíže přirozeného jazyka, snižující jejich schopnosti. Všechny principy jsou zhodnoceny a popsány jejich silné a slabé stránky.
iv
Klíčová slova synonymum, antonymum, hyponymum, hyperonymum, víceznačnost, korpus, syntaktická analýza, morfologie, sémantická orientace, podobnost, thesaurus, kontext
v
Obsah 1 Úvod ............................................................................................................................................................. 1 1.1 Popis práce .........................................................................................................................................................2 1.2 Sémantické vztahy ..........................................................................................................................................2 1.2.1 Synonyma ...................................................................................................................................................2 1.2.2 Antonyma ...................................................................................................................................................3 1.2.3 Hyperonyma a hyponyma ...................................................................................................................4 1.2.4 Další relace .................................................................................................................................................5 1.3 Zdroje slov ..........................................................................................................................................................6 1.3.1 Slovníky .......................................................................................................................................................6 1.3.2 WORDNET .....................................................................................................................................................8 1.3.3 Thesaurus ................................................................................................................................................ 10 1.3.4 Korpusy .................................................................................................................................................... 12 1.4 Použitý automatický přístup.................................................................................................................... 14 2 Pojmy a přístupy .................................................................................................................................. 16 2.1 Morfologické značkování v korpusech ................................................................................................ 16 2.2 Sémantická orientace .................................................................................................................................. 17 2.3 SVOMPT vs. volný slovosled..................................................................................................................... 17 2.4 Rozsah významu slova v textu ................................................................................................................ 18 3 Existující metody.................................................................................................................................. 19 3.1 Okénkové metody (Window methods) ............................................................................................... 19 3.2 Metody založené na využití větných vztahů ...................................................................................... 20 3.2.1 CASS............................................................................................................................................................. 21 3.2.2 SEXTANT ..................................................................................................................................................... 22 3.2.3 MINIPAR a RASP ....................................................................................................................................... 22 4 Vlastní metody ...................................................................................................................................... 23 4.1 Vyhledávání antonym a synonym pomocí sémantické orientace ............................................ 23 4.2 Příbuznost na základě společných slov thesauru............................................................................ 24 4.3 Fráze, určující sémantickou příbuznost a orientaci ....................................................................... 26
vi
4.4 Příbuzenské vztahy pomocí Sketch-Diff ............................................................................................. 27 5 Testování a výsledky .......................................................................................................................... 29 5.1 Vybraná slova ................................................................................................................................................. 29 5.2 Měření podobnosti ....................................................................................................................................... 31 5.3 Výsledky a zhodnocení ............................................................................................................................... 32 5.3.1 Rozbor měření ....................................................................................................................................... 32 5.3.2 Porovnání ................................................................................................................................................ 41 5.3.3 Zdokonalení přesnosti ....................................................................................................................... 44 6 Závěr ......................................................................................................................................................... 45 Literatura ..................................................................................................................................................................... 46 A Seznam vzorových slov a slov k nim příbuzných .................................................................. 50 B Morfologické značky pro češtinu................................................................................................ 61 C
Ohodnocení předložek pro sémantickou orientaci ............................................................. 70
D Seznam použitých frází pro metodu 4.3................................................................................... 71
vii
Kapitola 1
1 Úvod V současném světě plném počítačů a výpočetní techniky se stále častěji setkáváme s pojmy umělá inteligence a zpracování přirozeného jazyka (natural language processing – NLP). Snažíme se udělat techniku chytřejší, podobnější lidskému myšlení. Mluvíme na ni a chceme, aby nám rozuměla a odpovídala. Čím dál více lidí ve svých zaměstnáních musí pracovat s počítači a velkou část jejich času pro odpočinek tráví opět u počítače. V elektronické podobě se nachází obrovské množství dat a informací. Lidé si chtějí práci ulehčit a tak stále více ji nechávají dělat automaticky a roste poptávka po aplikacích, jako jsou dialogové systémy, vyhledávání dokumentů, překlad čí extrakce dat z textů. Ale v oblasti výzkumu stále nacházíme problémy, které nejsou dobře vyřešeny. Za současného stavu mohou lidé dávat hlasové příkazy, nechat si přečíst určitý text, na Internetu vyhledávat stránky v relativně přirozeném jazyce a mnoho podobných úkonů. Ale současná kvalita není ještě taková, o jaké sní. A jeden z důvodů je ten, že technika ještě nerozumí významu slov a vět. Proto když lidé hledají určité slovo, stroj už jej dokáže morfologicky skloňovat, ale pořád je to jen text, ale ne slovo. Sémantická analýza je důležitou součástí porozumění jazyku, kdy získáváme význam z výrazů přirozeného jazyka. Výzkum sémantiky je stále v počátcích, a proto se snažíme hledat možnosti, jak význam získat i jinými způsoby, kdy je možno použít analýzy nižších stupňů, jako je syntaktická či morfologická. Můžeme k tomu také využít velké množství textů, jaké se nyní shromažďují (korpusy). Během posledních let vzniklo několik metod, jak z korpusů získat příbuzná slova. Týkalo se to především anglického jazyka a úspěšnost byla relativně vysoká. Otázkou je, zda tyto metody fungují i pro češtinu. Práce se zabývá vyzkoušením těchto metod na český jazyk a porovnáním jejich úspěšností. V další části se pokusíme navrhnout nové metody a přístupy, jež budou tvořeny přímo pro češtinu, a prostudujeme, jak si stojí při aplikaci na jiný jazyk.
1
1.1 Popis práce Kapitola první uvádí do problematiky sémantické příbuznosti slov a jejich vyhledávání. Popisuje možné vztahy mezi slovy, jako jsou synonyma a podobně. Ukazuje teoretické a praktické problémy při jejich definování. Uvádí do ručně tvořených zdrojů, které slouží v oblasti zpracování přirozeného jazyka. Na jejím konci se naznačuje, jak mohou pomoci v automatickém získávání sémantické podobnosti mezi slovy. Druhá kapitola slouží k ujasnění mnoha pojmů, které budou uvedeny v následujících kapitolách a opírají se o ně mnohé metody. Také zde nalezneme popis problémů, které se objevují při převodu metod z anglického jazyka pro český. Třetí kapitola se zaměřuje na existující metody, které se v současnosti používají převážně na angličtinu. Stručně je popisuje. Slovy naznačuje princip jejich implementace a předvídá jejich úspěšnost na nasazení pro český jazyk. Kapitola čtvrtá ukazuje problémové oblasti při nasazení automatických nástrojů, přidává návrhy na zlepšení jejich činnosti. Jsou zde navrženy nové metody pro vyhledávání slovních vztahů. Jejich aplikace na různé jazyky. V páté kapitole je obsaženo samotné testování metod. Vypsána testovaná slova, jejich výběr. Znázorňuje průběh testu a použité ohodnocovací funkce. Jsou zde rozepsány výsledky jednotlivých metod a poté jsou metody porovnány mezi sebou. Po zhodnocení výsledků jsou naznačeny další možnosti, které by mohly vest ke zvýšení přesnosti určování vztahů.
1.2 Sémantické vztahy Sémantické vztahy mezi slovy jsou velmi těžké na definování. Jednotlivá slova mívají několik stupňů chápání a samotné vztahy také. Například synonymie může být úplná, částečná a podobně. Jedno slovo mívá určitý vztah k jednomu výrazu, ale u jiného je chápán jinak. Sestavit jednotnou hierarchii není jednoduché. Samotný subjektivní pocit člověka mívá velký vliv na jeho posuzování. Co se někomu může zdát, že je totéž, není pro dalšího totéž. V této podkapitole bude popsáno co nejuniverzálnější rozdělení, jak jej uvádí různé slovníky a encyklopedie.
1.2.1 Synonyma Klasická definice říká, že synonymum je slovo stejného, nebo podobného významu [1]. Ale za touto definicí se skrývá mnoho nejasností. Například ve Slovníku českých synonym [2] se píše: „Patrně jedním z hlavních důvodů, proč u nás již dříve nevznikl prakticky orientovaný slovník, který by beze zbytku mohl nést přívlastek synonymický, jsou mj. vážné teoretické problémy, jež lze shrnout do stručné otázky: které výrazy jazyka lze pokládat za synonyma a jak prezentovat jejich popis? Na tuto otázku není jednoduchá odpověď, a proto není divu, že úlohu synonymického slovníku dnes stále často supluje osmidílný Slovník
2
spisovného jazyka českého (…), v němž se významy slov často objasňují pomocí synonym či podobných výrazů.“ nebo dále: „Ne vždy lze dosáhnout zaměnitelnosti stoprocentní, v každém případě však platí možnost substituce ve vztahu heslového slova k jednotlivým členům synonymické řady s ohledem na možné kontexty. Je nicméně třeba vzít v úvahu, že plná synonyma se ve skutečnosti téměř nevyskytují a že i mezi velmi blízkými synonymy lze najít sémantický nebo pragmatický (stylový) rozdíl.“. Příklady na ukázku mohou být: kluk – hoch – chlapec (1) manželka – choť – žena (2) U příkladu (2) si můžeme všimnout problému víceznačnosti slova „žena“. Jedním smyslem je právě ona manželka, dalším – a ne posledním – je obecně osoba ženského pohlaví. Proto jen v určitých případech se jedná o synonymii, v dalších se může jednat o hypero-hyponymii mezi „žena“ a „vdaná žena“. Synonyma lze rozdělit na úplná a částečná. Jak již bylo zmíněno, úplná synonyma lze libovolně nahrazovat a jsou velmi vzácná. Mnohem častěji se lze setkat s částečnými, kde rodilý řečník cítí rozdíl mezi nimi, a jejich význam se liší v kontextech a významech. Někdy se výraz může chovat jako hyperonymum, jindy u sloves například vid mění celý význam. [3]
1.2.2 Antonyma Jak uvádí definici Wikipedie [4] nebo Urban Dictionary [5] antonymum označuje slovo opačného nebo protikladného významu. Někdy se také nazývá opozitum. Jedno slovo může mít více antonym s různými významy, podle toho, o který druh antonymie jde a v jakém kontextu a na jaké významové škále k antonymii dochází, popřípadě ke kterému z více významů slova se vztahuje. Existuje několik druhů antonymie: Polární antonyma (kontrastní) vyjadřují protilehlé body na pomyslné škále. Mezi výrazem a antonymem se ještě nachází mnoho výrazů. Příkladem může být: velký – malý teplý – studený sever – jih Již zde se naskýtá otázka, zda antonymum ke slovu malý není i obrovský, nebo ke slovu „studený“ -> „horký“. Jsou to slova na ose poměrně blízko a v určitých kontextech mohou být vhodnými slovy opačného významu. Komplementární antonyma svými významy rozdělují rozsah nadřazeného pojmu na dvě poloviny. Jde zejména o dvojice slov, z nichž druhé je z prvního odvozeno předponou „-ne“. Příklad je: přítomný – nepřítomný
3
Podobně jako v předchozím rozdělení zůstává otázkou, zda i slovo „nezúčastněný“ nepatří ke slovu „přítomný“. Úplně nebo částečně (například jen v některých kontextech) komplementární mohou být i některá další antonyma, například: život – smrt muž – žena den – noc Proto může nastat, že k některým slovům – často podstatným jménům – nenalezneme antonymum. Další kategorií jsou paralelní (případová). Mohou to být dvojice slov, která v určitém kontextu jsou vnímána jako protiklady, ačkoliv obecně jsou dvěma z více pojmů téže kategorie. Pro přiklad uveďme: jablko – hruška mluvit – zpívat mluvit – být zticha Reverzní antonyma popisují proces opačný. Snadno pochopitelné na příkladech jako: vejít – vyjít nakládka – vykládka sestavit – rozebrat Vhodné je si všimnout, že často se mění smysl na opačný (nebo podobný) změnou předpony. Zajímavou kategorií jsou antonyma vztahová, kde jedno slovo vyjadřuje vztah z hlediska jednoho subjektu a druhé slovo tentýž vztah z hlediska druhého subjektu. rodič – dítě učitel – žák prodávat – kupovat Zvláštní kategorii tvoří autoantonyma. Tato nejsou tak častá v českém jazyce, ale spíše v jazycích archaických, jako je čínština, řečtina či latina. Principem je vícevýznamové slovo, které je samo k sobě antonymem. Český příklad může být „zřejmě“ (pravděpodobně i zjevně), řecký příklad „farmakon“ (lék i jed).
1.2.3 Hyperonyma a hyponyma Mějme skupinu slov, které leží v sémanticky blízkém okruhu. Také mějme slovo, které je nadřazené této skupině slov. Hyponyma jsou slova nebo fráze, podřazená jinému slovu. Například hyponymum ke slovu „nábytek“ je „stůl“, „židle“, „skříň“,… Hyperonymum je opak hyponyma. Je to slovo nadřazené určitému slovu, slovům nebo frázi. Příklad hyperonyma je tedy ke slovu „stůl“ „nábytek“. Nebo ke slovu „kabriolet“ je hyperonymum „auto“ nebo „vozidlo“. Hypero-hyponymická struktura tvoří strom. Taxonomické rozdělení živočichů a rostlin v biologii je jeden z možných příkladů. Jak již bylo ukázáno na příkladu, každý výraz může
4
mít několik hyponym, ale může mít i více hyperonym (díky tranzitivitě, znázorněno na obrázku 1.1). Tato hyperonyma jsou mezi sebou také hierarchicky uspořádána. Někdy je toto uspořádání zřejmé, ale jindy se tvoří hůře. Problémem je zde víceznačnost slov. Byl vytvořen systém, který zachycuje právě tuto strukturu. Ale na WORDNET bude zaměřena pozdější kapitola. (čerpáno nebo inspirováno z [6], [7], [8]) vozidlo hyperonymum hyponymum
auto
hyperonymum
letadlo
hyponymum
kabriolet
limuzína
Obrázek 1.1 – Hypero-hyponymická hierarchie
1.2.4 Další relace Meronyma a holonyma Meronymie a holonymie je vztah popisující „část celku“ nebo „člen něčeho“ a „samotným celkem“. Rozšiřuje základní hierarchii, za kterou se považuje hypero-hyponymický strom. Tedy například ke slovu dům je okno meronymum a město holonymum. Celková struktura již nemá mít podobu stromu (jako hypero-hyponymie), nýbrž obecného grafu, jelikož jedno slovo může mít více holonym i meronym. (inspirováno [9], [10]) Homonyma Homonymum neboli slovo souzvučné označuje slovo, které zní stejně jako jiné slovo jiného významu i původu. Vznik homonym bývá nahodilý, třeba odvozením slov od podobných základů (vinný) nebo přijímáním z cizích jazyků (kolej). Pokud se shodují pouze v některých tvarech, jsou to homonyma částečná (pila, los). Nepravá homonyma jsou pouze výslovnostní neboli homofonní (bít a být) nebo pouze pravopisná neboli homografní (baby). V češtině jsou homonyma poměrně řídká a jejich užívání většinou nezpůsobuje nedorozumění; k jazykům s hojným výskytem homonym patří např. angličtina, francouzština nebo čínština. (částečně převzato z [11]) Příklad: Stopky – (měření času a část ovoce) správa/zpráva – (péče o věc a sdělení)
5
Ač homonyma v přirozené řeči nedělají příliš problémů, neboť v kontextu se nalezne správný význam, snižují přesnost při automatickém vyhledávání, neboť sémantická analýza textu není na takové úrovni, aby kontext správně určila. Mnohoznačnost (polysémie) Polysémie je úplně něco jiného než homonymie, ač si to mnoho lidí plete. Spojení „polysémie“ pochází ze dvou řeckých základů: „poly“, tj. „mnoho, více“ a „sémie“, čili proces odvozování významu (přechod od nějakého znaku k jeho významu). Při jazykové mnohoznačnosti můžeme popsat několik zřetelně odlišných významů slova (nejprve základních, posléze i druhotných). Polysém je slovo nebo fráze, které má několik zřetelně odlišných významů. To znamená, že šlo původně o jedno jediné základové slovo. Ale naopak u homonymie v žádném případě o původní „společné slovo“ (popř. o společný základ) nešlo. [12], [13], [14]
1.3 Zdroje slov Během mnoha století, ale hlavně v současnosti díky rozvoji informačních technologií lidé vytvořili mnoho zdrojů, které slouží k uchování a studování jazyka. Pomáhají mnoha lidem k vytvoření vhodných slovních spojení a dopomáhají k pestrosti literárních výtvorů. Všechny tyto zdroje lze využít k vyhledání příbuznosti mezi slovy. Některé k tomu byly přímo tvořeny, jiné uchovávají širší informace. Tato kapitola zkusí jednotlivé zdroje stručně popsat a nastíní, jak je v nich informace o příbuznosti uchována.
1.3.1 Slovníky Slovník je dílo, které se určitým způsobem zabývá slovy. Pracuje s jejich významem a nějak jej popisuje. Jedním druhem slovníků jsou i thesaury, o kterých se zmíníme později. Další jsou výkladové jednojazyčné. Sem patří například Slovník spisovného jazyka českého, novější Slovník spisovné češtiny, z anglických je zde Collins Cobuild, Webster či Oxford. Slovníky vícejazyčné – překladové souží k „propojení“ dvou jazyků a hlavně tedy k překladu. Problém těchto slovníků je víceznačnost slov a tudíž výběr vhodného výrazu druhého jazyka. Ukázku tvoří různé slovníky česko-anglické, anglicko-české. Další sekci tvoří slovníky frazeologické a idiomů, jako je Slovník české frazeologie a idiomatiky. Ještě existují různé slovníky terminologické, slangové a podobně. [16] Pro oblast sémantiky jsou nejzajímavější výkladové slovníky. Lidé je používají k pochopení významu slova. Některé jednotlivé významy jsou popsány synonymy (SSJČ), další tvoří definice pro každý význam (SSČ), jiné jsou rozlišeny pomocí primitivních výrazů jazyka. Historie (českých) slovníků sahá už několik století zpět. Jejich hlavní účel byl ustálení jazyka. Pro češtinu nejstarší jsou z 16. Století, kdy je vydával knižně Daniel Adam z Veleslavína. Vydal dva. První byl řazen abecedně, druhý věcně. Český výraz byl přeložen
6
do latiny, němčiny a řečtiny. Ze stejného století je také překladový latinsko-český a českolatinský překladový Tomáše Rešela. (Informace čerpány z [20]) Velký rozvoj byl také v 19. století. V dřívějších dobách si nemohli pomoci počítači, a proto většina slovníků je přejímání z jiných děl a jejich doplňování z děl dalších. Tuto úlohu dnes usnadňují korpusy, ve kterých se snadno mohou objevit jednotlivé významy slov.
Obrázek 1.2 – DEBDict – Prohlížeč slovníků
7
1.3.2 WORDNET WORDNET, neboli v překladu „síť slov“ není klasický slovník, jaký známe. Slova zde nejsou řazena podle abecedy. Pokud se pohybujeme v hledání jednoho tématu, v abecedně řazených slovnících musíme často listovat a hledání je pomalejší, i když počítače nyní umožňují prohlížení zrychlit.
Obrázek 1.3 – DEBVisDic [15] – český WordNet
8
Nejvýraznější rozdíl mezi WORDNETEM a standardními slovníky je mj. v tom, že WORDNET člení slovník do pěti kategorií: substantiva, verba, adjektiva, adverbia a funkční slova (synsémantika). Dále se WORDNET liší od standardních slovníků v tom, že jednotlivé slovní druhy jsou v něm organizovány rozdílně – přihlíží se důsledně k jejich odlišné sémantické povaze: - substantiva jsou ve WORDNETU organizována jako tematické hierarchie, - slovesa jsou organizována na základě různých vztahů vyplývání (entailment, troponymie), - adjektiva a adverbia jsou organizována jako n-dimenzionální hyperprostory Výrazným rysem WORDNETU je též pokus organizovat lexikální informace v termínech slovních významů, a nikoli slovních tvarů. V tomto ohledu se WORDNET blíží více thesaurům než standardním slovníkům. Lexikální paměť lze tedy chápat jako organizovanou stromově, kde základním vztahem ve stromové struktuře je transitivní a antisymetrický významový vztah ISA (is a kind of, je druhu) nebo jinými slovy vztah hypero-hyponymie vedoucí od specifického ke generickému, tj. vztah generalizace, k němuž opakem je vztah specializace. Substantiva mají obvykle jedno hyperonymum a řadu hyponym, která se ve standardních slovnících zpravidla neuvádějí. Proto je vhodné navrhnout lexikální databázi tak, že v ní jsou zakódovány oba vztahy, jak vztah generalizace, tak i vztah specializace. Výsledkem pak je lexikální databáze typu WORDNET, která se vyznačuje hierarchickou strukturou a umožňuje prohledávání shora dolů i zdola nahoru stejnou rychlostí. [16] Nyní je WORDNET dostupný pro obrovské množství jazyků. Jsou propojené (obzvlášť na anglický), proto není obtížné rychle přecházet mezi jazyky a používat jej jako slovník. Toto propojení ale v mnoha jazycích ještě chybí. Vznikal postupně ve vlnách pro různé jazyky a je stále rozšiřován. DEBVisDic Nástroj pro prohlížení WORDNETU. Vznikl na FI MU. Umožňuje zobrazit stromovou strukturu, vzdáleně jej editovat a upravovat. Také snadno přecházet mezi jazyky (např. češtinou a angličtinou). [17]. Viz obrázek 1.1 a obrázek 1.2.
9
Obrázek 1.4 – DEBVisDic – Stromová struktura
1.3.3 Thesaurus Typické zdroje k poskytování informace o sémantické podobnosti slov jsou manuálně konstruované zdroje. Velice rozšířeny jsou pro angličtinu, obzvlášť tři. Roget’s thesaurus, WORDNET a Moby thesaurus. O WORDNETu již bylo psáno v předcházející kapitole. Roget’s thesaurus poskytuje hierarchii synsetů. Synsety se stejným (velmi podobným) hlavním smyslem a slovním druhem jsou sloučeny do odstavců. Každý odstavec je označen souhrnným pojmenováním kategorie. A kategorie do tříd, kde na vrcholu je hlavní pojem.
10
Pokud má slovo několik významů, objeví se v několika různých synsetech. První thesaurus se objevil už v roce 1852. Postupně byl podle vývoje jazyka upravován až do současnosti. Obsahuje asi 30 tisíc podstatných jmen, 15 tisíc sloves, 13 tisíc přídavných jmen a 3 tisíce příslovcí. V porovnání s WordNetem (verze 2.1): 120 tisíc podstatných jmen, 11,5 tisíc sloves, 22 tisíc přídavných jmen a 4,5 tisíc příslovcí je mnohem menší, ale pouze u podstatných jmen.
Obrázek 1.5 – Collins Paperback Thesaurus [18]
Moby thesaurus poskytuje seznam synonym pro více než 30 tisíc hesel s celkovým počtem slov 320 tisíc. Nejsou rozděleny podle slovních druhů. Pokud by se to přepočetlo podle WordNetu, nalezli bychom 43 tisíc podstatných jmen, 12 tisíc sloves, 17 tisíc přídavných jmen a 3,5 tisíc příslovcí. [3]
Obrázek 1.6 – English Synonyms & Antonyms [19]
Čeština je v této oblasti teprve na počátcích. V letech 1969 – 1986 vznikal Český slovník věcný a synonymický, který nemá charakter příručky a prakticky není kompletní. V 1978 vznikl Slovník synonym a frazeologismů. Až v roce 1996 byl vydán slovník českých synonym [2]. Obsahuje přes 20 tisíc hesel. U každého hesla je odstavec vypsaných slov, která jsou rozdělena podle jejich významu, někdy obsahují i antonyma (vyznačeno). Místy
11
se lze setkat i s hyperonymy a hyponymy. Je vhodný pro rodilé mluvčí, kteří dokážou odlišit jemné významové a stylistické rozdíly.
Obrázek 1.7 – Slovník českých synonym
1.3.4 Korpusy Protože většina dnes dostupných jazykových dat má podobu textů (psaných nebo písemně zachycených mluvených), je možnost mít je pohromadě v elektronické podobě – tato možnost je klíčová pro další rozvoj lingvistiky a zpracování přirozeného jazyka vůbec. Korpusová lingvistika v současnosti představuje novou větev lingvistiky, v níž se pracuje s korpusy uloženými v počítačích. Už dnes se na základě korpusových dat budují nové a přesnější elektronické slovníky a robustní počítačové gramatiky. Korpusy jsou dnes v jazykovém inženýrství velice důležitým zdrojovým materiálem. (čerpáno z [16], zdroj využit i dále) V současnosti se korpusem rozumí rozsáhlý vnitřně strukturovaný a ucelený soubor textů daného jazyka elektronicky uložený a zpracovávaný. Dnes vytvářené korpusy jsou organizovány se zřetelem ke zvolenému cíli (pro potřeby lexikografů, sociologů, komunikačních odborníků) a vycházejí z následujících teoretických předpokladů: - jazyková data jsou v korpusu uložena ve své přirozené textové podobě, proto je lze všestranně a opakovaně zkoumat a vyvozovat z nich příslušné teoretické generalizace - velký rozsah dat v korpusu minimalizuje nebezpečí, že by mohlo dojít – třeba i náhodou – k převaze okrajových jevů nad základními a typickými - velký rozsah dat v korpusu je podmínkou dostatečné reprezentativnosti, což např. při budování slovníků vůbec nemusí být jednoduchá záležitost Kolem korpusů se setkáváme s několika důležitými výrazy: Token: rozumíme tím samotný výskyt slova v korpusu. Pomocí tohoto pojmu se počítá rozsáhlost korpusu. Např. BNC (British National Corpus) má přes 110 milionů tokenů. Lemma: slovo v základním tvaru. Např. pro slovo „stolem“ je lemma „stůl“ Tag: mnoho korpusů je značkovaných, to znamená, že každé slovo je morfologicky analyzováno a právě tagem se rozumí morfologická značka v určitém formátu. V prostředí češtiny se setkáváme s dvěma druhy značek. Brněnskými a pražskými. (více v kapitole 2.1)
12
Word: tímto pojmem se rozumí samotný tvar slova v korpusu. Pro ukázku uvedu „zpěvem“ nebo „spali“ Historie Přestože korpusová lingvistika je nové lingvistické odvětví, pojem korpus existoval již před 2. světovou válkou (byl však manuální a mnohonásobně menší). V 50. letech minulého století někteří američtí lingvisté (Hartus, Hill) dospěli k názoru, že korpus – dostatečně velký soubor přirozeně se vyskytujících jazykových dat – je nutným a dostačujícím empirickým základem pro vytvoření popisu daného přirozeného jazyka (jeho gramatiky). Počátkem 60. let minulého století začala vznikat korpusová lingvistika. Ve stejné době začal na Brown University v USA pod vedením H. Kučery a N. Francise vznikat první počítačový korpus současné americké angličtiny [21]. Od té doby postupně vznikalo mnoho korpusů. Z dalších anglických korpusů jmenujme BNC (British National Corpus) z první poloviny devadesátých let a BoE (Bank of English) který obsahuje texty z let 1990 a novějších. Byl několik let rozšiřován, ale v současné době je toto rozšiřování ukončeno. V prostředí češtiny je významný SYN2000 a jeho novější varianty. Stará se o něj Ústav Českého národního korpusu. V prostředí Masarykovy univerzity vznikl DESAM. Obsahuje články z novin a časopisů. Důležitý je zejména tím, že byl morfologicky označkován a toto značkování bylo ručně zjednoznačněno (odtud i jeho název – DESAMbiguovaný korpus). [22] Nástroj pro správu korpusu Pro počítač je tedy korpus jen posloupnost slov. Aby byl snadno přístupný uživatelům, je potřeba korpus uložit ve vhodném formátu a mít program nebo nějaké rozhraní, které umožní jej prohlížet, vyhledávat v něm a podobně. Jedním z nejpoužívanějších nástrojů současnosti je nástroj, vytvořený na Fakultě informatiky Masarykovy univerzity Pavlem Rychlým Manatee – Bonito [23]. Manatee je část, která dělá potřebné výpočty, vyhledávání a podobně. Bonito je naopak uživatelské rozhraní, které komunikuje s Manatee. Umožňuje různé vyhledávací dotazy i na bázi regulárních výrazů v jazyce CQL (Corpus Query Language), zobrazuje různé konkordanční seznamy, výskyty slov i s jejich kontexty, počítá statistické údaje a pokud je korpus morfologicky značkován, umožňuje i hledat podle těchto značek.
13
Obrázek 1.8 8 – Sketch Engine – Korpusový manažer – Ukázka Syn2000
1.4 Použitý automatický přístup Počítače poskytují velký výpočetní výkon, který lze využít prakticky kdekoliv. Práce, která jim před deseti lety zabrala týden, je nyní hotova během několika hodin. Proto se výborně hodí na procházení obrovských množství dat a provádění výpočtů nad nimi. V prostředí anglického jazyka existuje řada kvalitních metod, honosící se vysokou úspěšností, některé vysokou rychlostí. Jejich činnost, i když dělají totéž, je často založena na úplně odlišných přístupech. Některé jsou zaměřeny více matematicky a statisticky, jiné se snaží vydolovat maximum jazykové informace. Většina těchto metod je zaimplementována do větších balíků, které zpracovávají zprac všechno od vstupního textu až po výstupní thesaurus. Proto z těchto implementací bude vytažena základní myšlenka a ta aplikována na češtinu na existující korpus s již vytvořeným kvalitním značkováním.
14
Poté budou vytvořeny a popsány nové metody. Některé budou víceméně podobné anglickým, některé se budou specializovat na odlišnosti českého jazyka, jiné rozliší pouze určité vztahy. Nebudou někdy tak komplexní, budou se více zaměřovat na hlubší problematiku. Proto výsledné srovnání metod bude poněkud obtížnější, protože některé metody si žádají už předpřipravený vstup.
15
Kapitola 2
2 Pojmy a přístupy Před tím, než popíšu samotné metody, měli bychom si vyjasnit určité pojmy a podklady, na kterých budu stavět mnoho metod a budu je hojně zmiňovat.
2.1 Morfologické značkování v korpusech Korpus není jen sbírka textů, ale skrývá se za ním i mnoho přidaných informací. Jedno z nejdůležitějších a nejužitečnějších je kromě lemmatizace morfologické značkování. To je silně závislé na jazyku. Jazyky jako angličtina, kde je smysl slov řízen jejich pořadím ve větě, si vystačí s necelou stovkou značek. Pokrývají slovní druhy a jejich rozdělení. Pokud se analyzátor nemůže rozhodnout, vytvoří se dvojznačky (AJ0-AV0: adjective or adverb). Naopak u jazyků jako je čeština, které mají volný slovosled, je význam věty v mnohém dán ohýbáním slov a tudíž mnoha tvary slov. Proto se dostáváme k tisícovkám značek. Je proto nutné se dohodnout v implementaci těchto značek. Musí být například strojově čitelné a jejich struktura musí být vhodně složitelná. V prostředí českých korpusů se setkáváme s dvojím značkováním. Pražským a brněnským, které se od sebe naprosto liší. Vhodné je zmínit, že tyto značky mezi sebou nejsou jednoznačně převoditelné. Brněnské značky Vznikly na FI MU. Každá část značky má dva znaky. První uvádí typ gramatické kategorie a druhý hodnotu. Výhoda těchto značek je v jejich snadné rozšiřitelnosti o další druhy – kromě velikosti abecedy – maximálním počtem pozic. Druhá výhoda je, že stačí popsat pouze to, co potřebujeme, proto pokud chceme pouze slovní druh, má značka pouze 2 znaky. Je jimi označkován například korpus „all“, na kterém jsem prováděl průzkum vhodnosti frází a jiné předběžné výpočty, neboť je více než pětkrát vetší.
16
Pražské značky Již podle neoficiálního názvu tyto značky vznikly a používají se v Praze. Je jimi označkován korpus SYN2000, na kterém budu vykonávat všechna měření. Jsou to poziční značky, což znamená, že značka má pevnou délku a každá pozice označuje jeden atribut. Pevná délka znamená potíž s přidáváním dalších kategorií v případě potřeby. V současné době jsou dvě pozice vyhrazeny a ostatní obsazeny. Výhodou je rychlé nalezení požadovaného atributu – snadno se automatizuje. Podrobný popis těchto značek se nachází v příloze B.
2.2 Sémantická orientace Peter D. Turney se ve svých pracích mnohokrát opírá o sémantickou orientaci. V [24] a [25] ji definuje jako hodnocení charakteru slova. Pozitivní orientace indikuje chválu a velebení (poctivý, nebojácný) a negativní zase kritiku (rušivý, zbytečný). Sémantická orientace se mění v obou směrech (kladný, záporný) a stupních (slabý, silný). Proto může dobře sloužit například pro odlišení synonym a antonym. Obojí, synonyma i antonyma jsou typicky silně významově spojené, ale synonyma mají obecně stejnou sémantickou orientaci, zatímco antonyma mají orientaci opačnou. Například slova „milovat“ a „nenávidět“ jsou silně významově sdružené, ale mají opačnou sémantickou orientaci.
2.3 SVOMPT vs. volný slovosled Současné metody vychází často z faktu, že slovosled anglické věty je pevný. Proto je u nich mnohem snazší nalézt závislost mezi větnými členy. U češtiny je v tomto mnohem větší problém. Pokud tedy máme implementovat metodu pracující se závislostmi mezi větnými členy, tak už v samotné (syntaktické) analýze narážíme na velký problém s nejednoznačností a tím i nižší úspěšnosti této metody. V angličtině lze docela snadno odhadnout větný člen na znalosti a pozice ve větě. Existuje několik šablon, do kterých se věta vloží a podle toho se relativně přesně rozhodne. Tento přístup na češtinu nelze použít. Musíme tedy jinak zjistit větné členy. Zde se budeme hodně opírat o morfologické značky. Především to budou pády, shoda osoby a čísla a tak podobně. Podmět – budeme hledat slovo v prvním pádě. Oproti angličtině se ve větě někdy nenachází. Přísudek – sloveso, které není infinitiv, mající vyjádřenou osobu, číslo a podobně Přívlastek – nalezneme buď přídavné jméno před slovem, ke kterému patří, nebo podstatné jméno často v druhém pádě za určitým slovem
17
Předmět či příslovečné určení – bude nás zajímat hlavně pád. Mezi sebou rozlisovat nemusíme. Prakticky vše, co není přísudek, podmět nebo přívlastek, tak můžeme zařadit sem. V konečném důsledku při hledání pomocí CQL do dotazu přidáme další (and, or) podmínky. Můžeme očekávat to razantní prodloužení času výpočtu, neboť se budou procházet i morfologické značky.
2.4 Rozsah významu slova v textu Řada současných metod pracuje s kontextem slova. Platí, že slovo určuje jeho okolí a naopak. Proto i v rozpoznání přirozeného jazyka se využívá technika, že pokud je na vstupu posloupnost „p“, bude s určitou pravděpodobností následovat slovo „w“. Častá otázka proto zní, kolik slov do kontextu zvolit, aby se neztratila důležitá informace a zároveň se nepracovalo se zbytečně dlouhými slovy. Vezměme to od extrémních případů. Slovo je závislé na celém textu. Toto je pravda, neboť pokud se bavíme o určitém tématu, tak se tam vyskytne s mnohem větší pravděpodobnosti a pokud provedeme opět porovnání s rozpoznáním řeči, doslechneme se o pojmu „topic recognition“. Tento extrémní případ má ale jeden háček. Velmi nízká (mizivá) pravděpodobnost s jakou s jakou se tento úsek vyskytne víckrát v korpusu. Pokud snížíme rozsah kontextu na jednu větu (souvětí nebo pouze výsek souvětí), pravděpodobnost se nám již zvýší, ale nezískáme žádné podstatné zlepšení obzvlášť u slov, které nepatří mezi nejpoužívanější. Často se tedy zmiňuje jmenná nebo slovesná fráze. Zde získáme úsek slov, která na sobě zřejmě (podle větného rozboru) závisí. Kolik to tedy může být asi slov, pokud se chceme oprostit od syntaktické analýzy věty. V jednoduchých větách se dostáváme k jedinému slovu („Políbil milenku.“). U rozvinutých vět se můžeme dostat i desítkám slov („Významní sovětští delegáti se šli podívat v úterý dopoledne na výrobu nových nákladních automobilů v moderně vybavené továrně na kraji města Neřestín.“). Jako vhodný průměr vychází využít tři slova před výrazem a tři (nebo méně) slova za ním. Může se i lišit podle slovních druhů. Přídavná jména hrající často roli přívlastků stojí často přímo před slovem, na němž závisí, zatímco vzdálenost mezi podstatným jménem (předmět) a slovesem (přísudek) je často větší.
18
Kapitola 3
3 Existující metody V současnosti existuje řada metod v měření podobnosti. Mnoho metod se používá v různých odvětvích, ale v této kapitole se zaměříme na jejich využití při hledání sémantické podobnosti slov. Každá metoda používá různé techniky, které v sobě ukrývají různě důmyslné metody. Některé se snaží být jednoduché – bez lingvistické informace (Okénkové metody), některé se do lingvistiky zanořují (CASS, SEXTANT, MINIPAR, RASP). Sofistikovanější metody budou využívat více kontextové informace, syntaktické struktury vět a morfologie slov. Ale čím jsou tyto metody složitější, tím se snižuje dramaticky jejich rychlost práce. Mnoho z nich má také své různé varianty ať již ve funkcionalitě nebo v implementaci (rychlost vyhledávání apod.). Zde budou vypsány jejich základní principy, neboť implementace se v mnohých pro jiný jazyk musí naprosto změnit. Někdy lze zachovat právě jen základní myšlenku.
3.1 Okénkové metody (Window methods) Je to metoda, která zkoumá kontext hledaného slova. Jsou pro ni nejdůležitější okolní slova do určité limitované vzdálenosti. Toto „okno“ pevné délky se posouvá s ohledem k hledanému slovu a slouží k hledání slov, jaká se často vyskytují s hlavním slovem. Metody založené na principu okénka malí velmi nízkou složitost a tak jsou velice jednoduché na implementaci a jejich činnost probíhá velice rychle. Ve svém principu jsou jazykově nezávislé. Ale tato nezávislost zabraňuje využití jakékoliv lingvistické informace. Toto může dělat problémy často v angličtině, neboť se nerozliší, zda určité slovo je sloveso nebo podstatné jméno (například „check“, „kiss“). Je samozřejmě možné využít morfologického značkování (POS tagger), ale tím se sníží jednoduchost, rychlost a hlavně jazyková nezávislost této metody. Podstatnou roli v úspěšnosti tohoto přístupu hrají parametry okénka. Rozlišuje se jeho šířka, symetrie a hranice.
19
Šířka Symetrie
kolik slov nebo znaků bude okénko pokrývat zde se uvažuje levý a pravý kontext a pozice hlavního slova. Zda bude uprostřed, více vlevo nebo vpravo apod. Hranice bude mít okénko pevnou délku bez ohledu na obsah, nebo se budou rozlišovat hranice vět či odstavců… Nejjednodušší přístup sbírá pouze počty slov v okně. Běžně se ovšem doplňuje filtrováním určitých slov, často s vysokou frekvencí (pro angličtinu „the“, „a“ nebo „of“). Okénka, využívající znalosti o slovních druzích bývají velice malá. Běžně asi 2 až 3 slova vlevo i vpravo. Nehledá se u nich hranice vět čí odstavců, protože jen zřídkakdy je věta překročena. Byly zkoušeny i velikosti okénka do 10 až 20 slov, jež byly také relativně úspěšné. Ale také – na začátku 90. let – byly vytvořeny i testy s okénkem používajícím až 500 slov. To je přibližně rozsah článku v současných korpusech. Takto vzdálená slova nemají již příliš informativní charakter. Stávají se paměťově a časově náročnější a dostávají se tam nejčastější slova na úkor těch vyhledávaných. Mnoho okénkových vyhledávačů používá stoplist (stopword list), který obsahuje velmi frekventovaná slova, jako jsou zájmena a předložky, a odstraňuje je z kontextu. Toto mívá jen zřídka negativní dopad na výsledky, ba naopak účinnost metody zvyšuje. [12] V této práci budeme zkoušet verzi, která používá okénko pro malý kontext. Stoplist v rámci češtiny není tak podstatný, neboť zájmena nejsou tak častá a vzhledem k tomu, že se omezíme na rozlišování slovních druhů, tak nehraje podstatnou úlohu.
3.2 Metody založené na využití větných vztahů Pro anglický jazyk vzniklo několik systémů, které slouží k analýze textů a na mnohých z nich se zkoušela extrakce sémanticky příbuzných slov. Bývají to velké balíky, jejichž činnost spočívá v nalezení na sobě závislých slov v textu. Popíšeme si některé z nich. Velký problém ale může dělat volný slovosled a tím velká mnohoznačnost syntaktické analýzy věty, jak se píše v [26]. Musí silně využívat podrobných korpusových značek. Pouhé rozlišení slovních druhů nepostačí. Naštěstí korpusy, jako SYN2000 mají morfologické značky podrobné (viz kapitola 2.1 a příloha B). Předpokládá se taky velká výpočetní náročnost tohoto přístupu. Na průběhu Sextantu si ukážeme, jak po krocích tyto metody pracují [27]: I Morfologická analýza – každé slovo je morfologicky analyzováno a vyhledáno ve slovníku 100 tisíc slov aby se našel správný slovní druh II Gramatické značkování – pravděpodobnostní analyzátor označí každé slovo v textu jednou gramatickou kategorii III Rozdělení na jmenné a slovesné části – každá věta je rozdělena na jmennou část a část slovesnou pomocí jednoduché regulární gramatiky (NP a VP) IV Extrakce syntagmatických vztahů – vytvoří se označkované fráze z podstatných jmen, přídavných jmen, sloves a podobně. Vytvoří se seznam těchto frází.
20
V
(nebývá součástí metod) Porovnání podobnosti – kontexty jsou porovnány použitím podobnostních měření. měření. Dostáváme seznamy podobné obrázku 3.1. Nástroje v prostředí českých korpusů jako je SYN2000 je osvobozen od bodu I a II. Naopak od bodu 3 má velice ztíženou práci díky volnému slovosledu a obrovské syntaktické víceznačnosti. Pokud se tento problém vyřeší, může mít nástroj vysokou úspěšnost v extrakci extrakci slov.
Obrázek 3.1 3 – Sketch Engine – Word Sketch – Použití slova ve větě
3.2.1 CASS CASS parser je součástí systému SCOL [28].. Ve zpracování přirozeného jazyka se používá velice široce. Je zaměřen čistě na angličtinu a anglickou gramatiku. Vyhledává slova, jako podstatná jména, slovesa a přídavná jména a určuje vztahy mezi nimi (větné členy, gramatické relace). Nejčastější jsou například podmět, předmět (v angličtině první předmět za přísudkem), předmět2 (další za přísudkem) ale i předložky. Tento algoritmus je velice efektivní, protože využívá lexikální informaci a správně určuje vztahy mezi slovy a tím odstraňuje šum z výsledků. V angličtině mu dělají problém některé vztahy, jako nepřímé objekty.
21
3.2.2 SEXTANT SEXTANT (Semantic EXtraction from Text via Analysed Networks of Terms) byl přímo navržen pro automatickou tvorbu thesauru. Skládá se z několika součástí. Jedna část extrahuje gramatické vztahy, další slouží k lexikální a morfologické analýze, jiná ke značkování slovních druhů a rozdělení věty na sémanticky souvislé části (chunkování, chunking). Hlavní předností tohoto přístupu je jeho rychlost. Existuje více variant implementace metody a s výsledkově srovnatelnými metodami je tato nejrychlejší (pro angličtinu). Proto dokáže pracovat s velmi velkými korpusy, které dávají obvykle přesnější výsledky. Mívá – opět v angličtině – problémy se syntaktickou analýzou shluku podstatných jmen (př. „civil rights activist“), které nedokáže správně analyzovat.
3.2.3 MINIPAR a RASP MINIPAR a RASP (Robust Accurate Statistical Parsing) jsou rozsáhlé balíky, které zpracovávají holý text. Ten tokenizují, značkují, lemmatizují a poté v něm hledají gramatické relace. Nejsou to nástroje na extrakci příbuzných vztahů. Ale rozsáhlé parsery, které analyzují každé slovo textu a přiřadí mu určitou značku založenou na jeho roli ve větě. Teprve na jejich výstupu je možno postavit nějakou metodu na extrakci sémanticky příbuzných slov.
22
Kapitola 4
4 Vlastní metody Čeština má od angličtiny obrovské množství odlišností, proto nemusí být někdy nejvhodnější přejímat metody. Vyzkoušet je ale rozhodně není na škodu, protože přináší obrovské množství nápadů vycházející z mnohaleté práce mnoha odborníků. Korpusový nástroj Bonito poskytuje obrovské množství statistik slov, kolokací a výpočtů thesaurů, ze kterých lze vyčíst mnoho informací a na kterých lze postavit široká řádka nových metod. A to nejen pro češtinu. Také jazyk CQL nabízí možnosti hledání i na základě morfologických značek (SYN2000 používá podrobné „pražské“ značkování). Některé metody zde zmíněné mají určitý společný základ i s přístupy z kapitoly třetí. Snaží se ale právě vytěžit maximum z poskytnutých informací a odlišností češtiny. Jsou zde navrženy takové metody, aby pokud možno byly od sebe co nejvíce různorodé a tak ukázali, který směr přístupu je nejvhodnější. Některé neslouží jako rozsáhlé balíky z třetí kapitoly, aby z holého textu vytěžily kompletní thesaurus, ale zaměřují se na jednotlivé oblasti, kdy už máme určité tušení o podobnosti slov, ale neznáme jejich přesný vztah, jako je rozlišení antonym či hyperonym.
4.1 Vyhledávání antonym a synonym pomocí sémantické orientace Jak jsme v kapitole 2.2 zmínili sémantickou orientaci jako jednu z možností rozlišení sémantické příbuznosti, zde ji aplikujeme. Základem je tedy myšlenka, že určitá slova lze rozlišit jako kladná, jiná zase jako záporná. [29] Myšlenka je to dobrá, jen si musíme uvědomit, že tato slova musí být v příbuzenském vztahu. Jinak bychom mohli dostat, že opak k „líný“ je „bohatý“. Proto tento přístup neumí rozlišit, zda jsou slova příbuzná. Navíc by slova měla být ze stejné třídy, neboť hledáme antonyma a ne hyperonyma a hyponyma. Jak tedy tato metoda pracuje? Máme na vstupu dvě příbuzná slova, o nichž si nejsme jisti, zda jsou synonyma nebo antonyma, či i něco jiného, jak můžeme vidět na obrázku 4.1.
23
synonyma
synonyma
synonyma
negativní
pozitivní neutrální
antonyma Obrázek 4.1 – Ukázka sémantické orientace na příkladu
Kde nalézt v korpusu informaci o orientaci? První možností je využít předložek. Mnoho předložek samo o sobě tvoří dvojice. „s / bez“, „pro / proti“, „k (ke) / od“, „před / za“, „kolem / skrz“,… Pokud mám dvě slova v podobných kontextech (např. dvě podstatná jména u stejného slovesa) a liší se předložkou, můžeme podle určitých statistik ohodnotit orientaci. Jaké skóre ale přiřadit jednotlivým předložkám a jak hodnotit, pokud se i někdy vyskytují se stejnými, je největší alchymie. Vyžaduje mnoho pozorování a lingvistického zkoumání. Seznam ohodnocení je vypsán v příloze C. Při současném stupni průzkumu a studia je tato metoda vhodná pro přídavná jména. Podstatná jména a slovesa vyžadují mnohem více práce s vyhledáváním závislých slovíček. Na úrovni testů této práce prozkoumáme tuto metodu alespoň pro přídavná jména.
4.2 Příbuznost na základě společných slov thesauru Tato metoda je z velké míry čistě statistická. Skládá se ze dvou fází. První fáze je již předpřipravená. A tou je thesaurus zabudovaný ve Sketch Enginu. Je vypočítán na základě podobných slov v kontextu mezi výrazem a testovanými slovy. Výsledkem je seznam slov seřazených podle vypočítané hodnoty podobnosti. Tento seznam obsahuje příbuzná i nepříbuzná slova a není rozdělen na hyperonyma, synonyma či antonyma. Druhá fáze pracuje na podobnosti thesaurů slov seznamu. Tvoří různé průniky a nakonec vytvoří jeden nový seznam
24
Skóre Vhodné je zamyslet se, jak bude skóre vypočítáno. Musíme brát v úvahu dvě různá měření. Pořadí nalezeného slova v thesauru a počet jednotlivých nálezů. V prvním případě můžeme volit například mezi těmito variantami: I Původní ohodnocení thesauru – nemusí být objektivní, protože toto číslo vychází z poměru se slovem, o kterém nevíme správný vztah II Nepoužít žádné rozlišení pořadí – Vzhledem k předpokladu, že již vybíráme jen zlomek nejúspěšnějších slov, jsou si tato slova dosti podobná. Má to tedy svou logiku. Otázkou může být, jestli i ta trocha informace ukrytá v pořadí nemá svou důležitost. III Použít určitý druh lineární funkce – Striktně určuje rozdíly v pořadí. Slovům ze středu stupnice dává také velký vliv. Méně strmá funkce vhodně boduje jak začátek, tak konec thesauru IV Využít ohodnocení pomocí lomené funkce – tento způsob dává obrovský význam slovům z počátku thesauru. Vzdálenější již nemají velký význam. Metoda je velmi vhodná, pokud by se limita posunula dál od nuly V Další možnosti – existuje i mnoho jiných možností. Zajímavá je například náhodnostní funkce, které se v reálu chová podobně jako konstantní. Další alternativou může být funkce, která se mění podle předchozích hodnot a trochu simuluje neuronovou síť.
Porovnání metod ohodnocení 0.9 0.8
Ohodnocení
0.7
I: thesaurus
0.6
II: bez hodn,
0.5
IIIa: lineární
0.4
IIIb: lineární
0.3 IV: lomená
0.2 0.1 0 1
3
5
7
9
11 13 15 17 19 21 23 25 Pořadí
Graf 4.1 – Ohodnocovací metody
V této práci bude použito lineární ohodnocení s určitým minimálním limitem, aby byly využity všechny získané hodnoty a bylo postihnuto i pořadí.
25
Druhé hodnocení postihuje obraz celkového výsledku. Zde se jeví vhodné dvě metody. První je aritmetický průměr všech hodnot (včetně hodnot nenalezených), druhá je prostý součet všech nálezů. Výsledkově ale nejsou prakticky odlišné. Pouze s průměrem se počítá snadněji, neboť u různých testů nabývá podobných výsledků a je tedy přehlednější. Hranice Nyní máme již vypočítány hodnoty jednotlivých slov. Ještě zbývá určit příbuzenský vztah. Přístup dokáže rozlišit mezi těmito skupinami: - hyperonymum - synonymum či antonymum - slovo ve stejné třídě či hyponymum - šum Nejvyšší skóre dosahují hyperonyma, nejmenší naopak šum. Kde ale vhodně zvolit hranici mezi jednotlivými kategoriemi? Buď si předem stanovíme podle dříve vyzkoušených hodnot poměry mezi jednotlivými kategoriemi, nebo podle procentuálního výsledku budeme mít pevně stanovené hranice. Druhý přístup se stává zajímavějším, protože není ovlivněn tolik používáním slova v řeči a zvýšený poměr šumu nikam neposune hranice. Proto jej zde využijeme.
4.3 Fráze, určující sémantickou příbuznost a orientaci Princip funguje na myšlence, že i v samotném textu korpusu je napsáno, jaký vztah platí mezi určitými slovy. Proto pokud se chceme dozvědět vztah dvou slov, stačí si najít kontext, kde se obě nachází relativně u sebe a přečíst si, co je ukryto mezi nimi. Na spodní úrovni se nachází okénková metoda, která rozhoduje, jak velký kontext slova se má prohledat. Zda je užitečné procházet i mezi různými větami. Nad touto vrstvou se bude nacházet několik předem připravených slovních spojení, která určí, zda tato slova mají něco společně, nebo přímo označí tato slova za příbuzná přesným vztahem. Základem je vybrat vhodný rozsah kontextu. Diamant našel v zamčené skříni; Hordubalová nechtěla k ní vydat klíč, prý jej ztratila. Skříň vypáčil, a i klíč k ní později našel na dně vědra s ovsem. Na ukázkovém příkladu ale můžeme vypozorovat, že souvislosti překračují hranice věty. Tím získáme i větší počet nálezů. Můžeme si pomoci kontrolou morfologické informace, zda tato slova mají určitou míru podobného kontextu. Rozhodujícím faktorem je nalézt velké množství kvalitních frází, které nám řeknou hledaný vztah. Příkladem může být: [lemma="chytrý"] []{0,7} [word="nebo"] []{0,7} [lemma="hloupý"] Ten nám určí, že slova chytrý a hloupý jsou antonyma (s určitou pravděpodobností). Více požitých frází se nachází v příloze D.
26
Tato metoda je silně jazykově závislá. Pro jiný jazyk někdy stačí fráze přeložit, ale mnohem vhodnější je od lingvistů vytvořit fráze nové. Metoda je dost výpočetně náročná, neboť se pro každá dvě slova musí procházet celý korpus. Je ale možné tuto metodu přímo implementovat do nástroje spravujícího korpus a nalézt všechny výsledky na jeden průchod korpusem.
4.4 Příbuzenské vztahy pomocí Sketch-Diff Současný thesaurus v systému Sketch Engine je sestaven podle vypočítané hodnoty podobnosti mezi slovy. Počítá se z jejich společného kontextu a z množství výskytu slov, která se vyskytují pouze u jednoho ze slov. Čím shodnější mají kontext, tím si jsou podobnější. V thesauru jsou ale nyní obsaženy prakticky všechny druhy vztahů (a často i beze vztahu). My provedeme úpravy ve vyhodnocování a tím budeme schopni rozlišit určité druhy vztahů. Vztah hyperonymum – hyponymum Pokud si představíme, že vztah hypero-hyponymie tvoří strom, objevuje se zde i určitá vlastnost dědičnosti často se vyskytujících slov. To prakticky může znamenat, že nebude pro nás důležitý průnik, ale vztah nadmnožina – podmnožina. I když u hyponyma se objevují vlastnosti, které se u hyperonyma nevyskytují (příliš detailní), povětšinou se ostatní vlastnosti tak neztrácejí. Důsledkem toho je, že hyperonymum má mnoho společného se svým hyponymem, ale u hyponyma se objevuje velké množství jiných slov. Příbuznost Příbuznost je vyjádřením poměrem podobných kontextů. Proto pokud mají velmi malý poměr společných slov, nejedná se o příbuzné pojmy. Krásně je tato situace vidět na porovnání slov „kouzlo“ a „kladivo“. Sekce „kouzlo only“ a „kladivo only“ jsou mnohonásobně větší, než podobné výskyty. Patří do téže třídy Chová se podobně jako příbuznost, jen musíme být trochu striktnější a zaměřovat se na jednotlivé kategorie. Přídavné jméno – velká společná sekce „modifies“ Sloveso – významnou roli zde hrají podměty a předměty Podstatné jméno – chová se podobně jako podstatné jméno, jen se vyskytuje na opačné straně vztahu (slovo a jeho přívlastek)
27
příbuznost
třída
synonymie a antonymie
Obrázek 4.2 – Vztahy příbuznosti
Synonyma a antonyma Tento přístup neslouží k rozlišování antonym. Hledá spíše společné, než rozdílné. Opět pro rozlišení musíme zpřísnit kategorii třídy. Na Obrázku 4.2 můžeme vidět vztah mezi slovy. Prakticky nám bude vadit různorodost skupin. Každé slovo navíc snižuje pravděpodobnost synonymie.
Obrázek 4.3 – Sketch Engine – Sketch-Diff – porovnání kontextu dvou slov
28
Kapitola 5
5 Testování a výsledky Tato kapitola obsahuje to nejdůležitější, proč tato práce vznikla. Porovnání výsledků a zhodnocení jednotlivých metod. Nejprve popíši, na jakých slovech se budou zkoumat metody, dále podrobně vypíši, jak se bude podobnost zkoumat – jednotlivé metriky a porovnání. Poté už jen zhodnotím metody mezi sebou a každou samostatně. Na závěr popíšu slabá místa těchto metod a někdy i navrhnu jejich zkvalitnění.
5.1 Vybraná slova podstatná jména auto bouda kopec král nos peníze schopnost strava svoboda vítr
SYN2000 21091 919 3580 9533 4645 44053 12642 2074 16982 7034
all 121419 6815 16372 124372 16686 265736 63198 8807 159735 32978
"SYN" ku "all" 96% 74% 120% 42% 153% 91% 110% 130% 59% 117%
Tabulka 5.1 – Testovaná podstatná jména
Nejdůležitější při testování různých metod je výběr testovaných slov. Měl by být co nejrůznorodější, aby poskytoval informaci ze všech hledisek. Zastoupení slov by mělo být jak ze slov častějších, tak ze slov vyskytujících se jen zřídka. Volba proto spočívala především na náhodném vybírání slov ze Slovníku českých synonym [2]. Z každého zkoumaného slovního druhu bylo vybráno 10 slov. V tabulkách 5.1, 5.2 a 5.3 jsou tato slova vypsána. Tabulky obsahují také informace o počtu výskytů slov v korpusech
29
SYN2000c a all. Velikost korpusu SYN2000c je 114363813 tokenů a all je 629307340 tokenů. Další důležitou součástí bylo nalezení příbuzných slov a jejich rozdělení do zkoumaných kategorií. Na tuto činnost jsme opět použili kromě vlastního rozumu také Slovník českých synonym a velký podíl slov byl vybrán pomocí nástroje Morfeo [30], který je součástí internetového vyhledávače www.centrum.cz. Největší problém je s rozřazením slov do kategorií, které je silně subjektivní, a mnoho slov lze zařadit do více kategorií, jak jsme popsali v kapitole 1.2. Výsledný seznam se nachází v příloze A. přídavná jména černý hladký hloupý mlsný mokrý následující přírodní rychlý studený veselý
SYN2000
all
"SYN" ku "all"
20572 2886 2469 104 2118 11283 6793 15571 5628 4428
135866 10239 10380 454 9336 56003 33435 89102 22382 37611
83% 155% 131% 126% 125% 111% 112% 96% 138% 65%
Tabulka 5.2 – Testovaná přídavná jména
slovesa dohnat kácet nosit obdržet pálit*1 pospíchat psát rozbít vrátit zlomit
SYN2000 987 362 6063 6508
all 8057 1819 35233 36181
"SYN" ku "all" 67% 110% 95% 99%
1722 695 23312 1938 33013 2141
8737 3833 107837 9821 165892 16484
108% 100% 119% 109% 110% 71%
Tabulka 5.3 – Testovaná slovesa *1) odstraněno slovo „PAL“ z důvodu chybného označkování – chyba výrazná, jinak počet je 2071
30
5.2 Měření podobnosti Základem testování je vhodný výběr testovacích dat. U většiny metod budou testy probíhat podobně. To znamená, že máme vybráno 10 podstatných jmen, 10 přídavných jmen a 10 sloves. Pro každé slovo vezmeme 15 slov ze zabudovaného thesauru. Někdy vezmeme navíc i několik předem vybraných slov z každé kategorie a provedeme testy. Počet testů u jednotlivých metod se bude různit. Vzhledem ke skutečnosti, že budeme testovat především ručně, budeme podle složitosti vybírat počet testů. Testování metody založené na sémantické orientaci bude probíhat jinak, neboť si žádá určitý výběr slov (určitý stupeň příbuznosti nebo podobnosti). Slova budou vybrána z thesauru podle náležitosti do třídy s porovnávaným slovem a taky doplněna o některá z přílohy A. vztah
rozlišení
synonymum synonymum synonymum synonymum synonymum synonymum antonymum antonymum antonymum antonymum antonymum antonymum hyperonymum hyperonymum hyperonymum hyperonymum hyperonymum hyperonymum hyponymum hyponymum hyponymum hyponymum hyponymum hyponymum
synonymum antonymum hyperonymum hyponymum třída odpad antonymum hyperonymum hyponymum třída odpad synonymum hyperonymum hyponymum třída odpad synonymum antonymum hyponymum třída odpad synonymum antonymum hyperonymum
ohodnocení 1 0 0,5 0,5 0,5 -1 1 0 0 0,5 -0,5 0 1 0 0,5 -0,5 0,5 0 1 0,5 -0,5 0,5 0 0
31
třída třída třída třída třída třída odpad odpad odpad odpad odpad odpad
třída odpad synonymum antonymum hyperonymum hyponymum odpad synonymum antonymum hyperonymum hyponymum třída
1 -1 0,5 0,5 0,5 0,5 1 -1 -0,5 -1 -0,5 -1
Tabulka 5.4 – Bodování kategorií
Srovnání metod Výsledky testů budou porovnány s předpřipravenou databází (příloha A). Bude rozhodnuto, zda došlo ke správnému rozhodnutí nebo špatnému. Rozdělení kategorií nebude striktně dodrženo z důvodu víceznačnosti slov. Chyby a zásahy budou ohodnoceny pro různé druhy příbuznosti odlišně. Pokud například posoudí synonymum za hyperonymum, je to rozhodně menší chyba když jej posoudí za slovo, které nemá s mým nic společného. Bodování úspěšnosti Základním bodováním bude tabulka 5.4. K celkovému skóre může být připočteno určité subjektivní číslo, které srovná nejednoznačnost rozdělení slov do příbuzenských kategorií. Poté bude číslo převedeno na počet procent nejlepšího možného ohodnocení. Toto číslo bude závěrečné hodnocení. úěš
žé áí í čí %! áí žé í
5.3 Výsledky a zhodnocení Tato sekce bude zaměřena na popis testování metod a vzorců, které při tom budou použity a celkovému zhodnocení výsledků. Nastíníme zde také množství návrhů, které pomohou zvýšit úspěšnost metod.
5.3.1 Rozbor měření Dosud jsme zde nastínili značné množství metod, které se snaží využít nejodlišnější přístupy k problematice. Každá metoda si tedy žádá vlastní přístup průběhu a hodnocení.
32
Společné pojmy uváděné v postupech a rovnicích c(w) – počet výskytu slova v korpusu w1 – vybrané slovo z tabulek 5.1, 5.2 nebo 5.3 w2 – slovo porovnávané se slovem W1, získané z thesauru nebo z přílohy A wmin – slovo s menším počtem výskytů v korpusu c(a) – počet nálezů a kon(w) – kontext slova (tokenu,…) w Okénková metoda Postup I
II III IV
Zobrazíme kontexty slova w1 podle velikosti okénka. Budeme volit dva tokeny před slovem a jeden za ním. Vzhledem k menší velikosti korpusu a ohýbání slov oproti angličtině nebudeme hledat okolí slova, ale okolí pro lemma. Totéž provedeme pro porovnávané slovo w2 Vyhledáme společné kontexty slov w1 a w2 a spočítáme jejich počet Vypočítáme poměry mezi společnými kontexty slov a všemi kontexty slova wmin a podle tabulky 5.5 rozhodneme o vztahu
Výpočty
"# ! $ "% !! "&'( !
VZTAH
PARAMETR X
třída příbuzné
≥ 0,14 < 0,14 a ≥ 0,05
Tabulka 5.5 – Porovnávací parametry
Zhodnocení KATEGORIE
PŘÍBUZNOST
TŘÍDA
PODSTATNÁ JMÉNA
60 % 50 % 55 %
53 % 48 % 43 %
PŘÍDAVNÁ JMÉNA SLOVESA
Tabulka 5.6 – Window methods – úspěšnost
Vzhledem k velice nízkému počtu nálezů bylo okénko zmenšeno na dva tokeny před slovem a žádný za ním. Tato metoda si žádá co největší pracovní korpus. 100 miliónů není pro tuto metodu dostatečné. Vhodný by mohl být korpus s alespoň miliardou tokenů. Rozsáhlejší okénko zpřesňuje výsledky, ale snižuje počet shodných nálezů. Čistá metoda pracující s tokeny musela být obohacena o lingvistickou informaci lemmat, neboť česká slova se oproti anglickým rozmanitě ohýbají. Metoda by mohla pracovat i pro synonyma, ale při současné velikosti korpusu by nebyla příliš úspěšná.
33
Větné členy Postup I II
Zobrazíme Word Sketch slova w1 pro slovo w2 uděláme totéž Budeme porovnávat tyto kategorie kat(a) u jednotlivých slovních druhů: Přídavné jméno: modifies, subj_byt Podstatné jméno: a modifier, is_obj7_of, is_obj4_of, prec_verb, post_verb, gen_2, is_subj_of, is_obj2_of Sloveso: has_obj2, has_obj3, has_obj4, has_obj7, gen_2, has_subj III Nalezneme kolokace, které jsou společná pro obě slova, a spočítáme jejich počet IV Podle vzorečku zjistíme poměr a rozhodneme o vztahu podle tabulky 5.7 Výpočty
∑*+,-./0'- "# ! $ "% !! ∑*+,-./0'- "&'( !
VZTAH
PARAMETR X
příbuznost třída synonyma
< 0,09 a > 0,14 < 0,14 a > 0,2 > 0,2
Tabulka 5.7 – Rozdělení vztahů
Zhodnocení KATEGORIE
PŘÍBUZNOST
TŘÍDA
SYNONYMA
PODSTATNÁ JMÉNA
56 % 52 % 61 %
66 % 68 % 45 %
53 % 48 % 44 %
PŘÍDAVNÁ JMÉNA SLOVESA
Tabulka 5.8 – Větné členy – úspěšnost
Metoda pracuje dobře, ale problém je v současné fázi ohodnocení, neboť pro různé slovní druhy vychází různě kategorie sémantických vztahů. Vhodnější by bylo limity posunout pro každý slovní druh jinam. Hodnoty jsou velmi závislé na poměru porovnávaných slov. Pokud porovnáváme slovo hojně zastoupené v korpusu s málo zastoupeným, vypočítaná podobnost rychle roste. Sémantická orientace Postup I
Vyhledáme vhodné konkordance, skládající se podle slovního druhu z: Přídavné jméno: předložka – cokoli nebo nic – přídavné jméno Podstatné jméno: v současném stavu výzkumu nevzchází, neboť je extrémně silně ovlivněn právě přídavným jménem
34
II III
Sloveso – v současném stavu výzkumu ještě vynecháme. Podstatně složitější. Sečteme výskyty jednotlivých (pro nás zajímavých) předložek Ohodnotíme nálezy podle vzorečku a přílohy C a rozhodneme o orientaci
Výpočty pri – předložka poh(pri) – ohodnocení předložky sor(w) – sémantická orientace slova w 1"!
6
∑ 1' ! 0,1 5
1"# ! 1"% ! 9 9 5 8|1"# !| : 5 8|1"% !|6 |1"# !| |1"% !| VZTAH
KATEGORIE X
synonyma
x < 0,4 sorw# ! 5 sorw% ! ? 0 x > 1,2
antonyma
Tabulka 5.9 – Sémantická orientace – rozlišení
Zhodnocení KATEGORIE
SYNONYMA
ANTONYMA
PŘÍDAVNÁ JMÉNA
73 %
67 %
Tabulka 5.10 – Sémantická orientace – úspěšnost
Tato metoda se ukázala velice úspěšná. Vhodné je ale připomenout, že slova musí být ve společné třídě, neboť se zde posuzuje jen pozitivní a negativní přístup ke slovu. A to přispívá k její vyšší úspěšnosti. Ohodnocení předložek se jeví dobré, ale lze jej ještě optimalizovat testováním na více slovech. Také meze při rozhodování příbuzenského vztahu je vhodné upřesnit. Nižší úspěšnost byla na slovech s menším zastoupením v korpusu. Vhodné je doplnit do testů i informaci negace z morfologických značek, neboť například pod lemmatem šťastný se skrývá i slovo nešťastný. Společná slova thesauru Postup Metoda je velice mechanická. Probíhá pro každé slovo v následujících krocích: I Pro každé slovo w1 vybereme prvních N slov ze zabudovaného Thesauru ve Sketch Engine. Jejich počet záleží na nás. Se vzrůstajícím počtem vzrůstá počet testů a pravděpodobnost výskytu šumu. V našem testu 15 slov.
35
II
Pro každé vybrané slovo sestavíme thesaurus a opět vybereme M prvních slov. M by mělo být větší nebo rovno než N, protože bychom ztratili mnoho významných hodnot. Pro nás vybíráme 20 slov. III Pro každé slovo w vyhledáme jeho pozice ve všech thesaurech a sečteme přiřazená ohodnocení. IV Seřadíme slova s jejich ohodnoceními a spočítáme procentuální ohodnocení y, kde nejvyšší slovo získává 100 procent. V Rozhodneme sémantický vztah s porovnávaným slovem podle daného žebříčku. Dosažené procento rozhoduje o vztahu. Výpočty soh(w) – součet ohodnocení slova w max(soh(w)) – ohodnocení slova s největším součtem ohodnocení Ohodnocovací funkce: 0,83 : 5 0,03 kde i je pozice v thesauru (číslo 0,03 je zvoleno tak, aby se rozmezí ohodnocení x jednotlivých pozic bylo mezi 0,8 a 0,2) B
"' ! "& !!
Rozdělení kategorií vztahů: VZTAH MEZI W1 A WI
PARAMETR Y
synonymum třída příbuzné odpad
100 – 75 % 75 – 50 % 50-25 % 25 – 0 %
Tabulka 5.11 – Rozdělení vztahů
Zhodnocení KATEGORIE
PŘÍBUZNOST
TŘÍDA
SYNONYMUM
ODPAD
PODSTATNÁ JM.
75 % 55 % 75 %
80 % 45 % 70 %
75 % 77 % 67 %
80 % 35 % 35 %
PŘÍDAVNÁ JM. SLOVESA
Tabulka 5.12 – Thesaurus – úspěšnost
Výsledky se jeví jako velmi dobré. Metoda se správně chová u podstatných jmen. Největší problém zde způsobuje vhodné stanovení hranic mezi kategoriemi. Nejvýše hodnocená slova někdy nejsou synonyma, ale hyperonyma. Metoda úspěšně rozpoznává slova, která
36
nepatří mezi ostatní – nejsou ani příbuzná – ale pouze pokud se porovnává větší množství slov mezi sebou. U prvních slov z thesauru výrazně ztrácí v této kategorii. Také vůbec nerozlišuje synonymum od antonyma. Poznámka: nemusí se brát úplně všechna slova. Podle jiných (budoucích) metod můžeme objevit „odpadové slovo“ i dříve. Frázové rozlišování Postup I
Máme připraveny šablony frází (příloha D). Do těchto šablon vkládáme slova w1 a w2, kde w1 je slovo z tabulek 5.1, 5.2 nebo 5.3 a w2 je k němu hodnocené slovo. II Podle vzorců použiju vhodné šablony pro právě zkoumaný vztah a u některých i použiju frázi dvakrát s vyměněným pořadím slov. III Vždy spočítáme počet nálezů fráze v korpusu. IV Podle zkoumaného vztahu použiju vhodný vzorec, a pokud parametr x překročí stanovenou hranici, tak jsme nalezli vhodnou sémantickou příbuznost. Pokud slovo patří do více protichůdných kategorií (synonymum a zároveň antonymum), zvolíme ten vztah s větší odchylkou x od limitní hodnoty. Výpočty a1(w1,w2) … aa(w1,w2) – fráze pro zjištění antonymie mezi slovy w1 a w2 s1(w1,w2) … sa(w1,w2) – fráze pro zjištění synonymie mezi slovy w1 a w2 g1(w1,w2) … ga(w1,w2) – fráze pro zjištění hyponymie mezi slovy w1 a w2 h1(w1,w2) … ha(w1,w2) – fráze pro zjištění hyperonymie mezi slovy w1 a w2 t1(w1,w2) … ta(w1,w2) – fráze pro zjištění třídy mezi slovy w1 a w2 Antonyma
∑C ' "# , "% !D C ' "% , "# !D! "&'( !
Synonyma
∑ EC' "# , "% !D C' "% , "# !DF : ∑C ' "# , "% !D C ' "% , "# !D! "&'( !
37
Hyperonyma
∑ C' "# , "% !D ∑ CG' "% , "# !D "&'( !
∑ CG' "# , "% !D ∑ C' "% , "# !D "&'( !
Hyponyma
Příbuznost Sum(a) – součet nálezů všech frází pro antonyma (i s přehozením slov w1 a w2) Sum(s) – součet nálezů všech frází pro synonyma (i s přehozením slov w1 a w2) Sum(g) – součet nálezů všech frází pro hyponyma (bez přehození slov w1 a w2) Sum(h) – součet nálezů všech frází pro hyperonyma (bez přehození slov w1 a w2) H ! H! HG! H! "&'( ! Třída
H ! H! ∑ C' "# , "% !D ∑ C' "% , "# !D "&'( !
Porovnání VZTAH
PARAMETR X
příbuznost třída synonyma antonyma hyperonyma hyponyma
> 0,09 > 0,07 > 0,02 > 0,02 > 0,03 > 0,03
Tabulka 5.13 – Kategorie vztahů
Zhodnocení KATEGORIE
PŘÍBUZNOST
TŘÍDA
SYNON.
HYPERON.
HYPON.
ANTON.
PODSTATNÁ JM.
81 % 72 % 58 %
75 % 74 % 61 %
0% 0% 0%
55 % 52 % 45 %
55 % 52 % 45 %
73 % 71 % 48 %
PŘÍDAVNÁ JM. SLOVESA
Tabulka 5.14 – Fráze – úspěšnost
Během provádění testů jsme zjistili, že i na relativně velké množství výskytů některých slov v korpusu fráze pokryjí jen zlomek těchto výskytů. Ale tyto nálezy poskytují velice
38
směrodatné výsledky. Je tedy vhodné použít co největší množství frází. Což ale způsobí prodloužení trvání testů. Také bylo zjištěno, že synonyma se vedle sebe téměř nevyskytují, nebo jsme nezvolili správné fráze a tudíž frázemi nezískáme téměř žádné nálezy. Proto již během prvních testů jsme tuto kategorii vypustili. Většina frází (z přílohy D) je aplikovatelná na různé slovní druhy. Během výpočtů jsme porovnávali vždy jen slova stejného slovního druhu. Metoda je vhodná obzvlášť pro podstatná a přídavná jména. Sketch-Diff přepočítávání Postup I
Ve Sketch Enginu v nástroji Sketch-Diff porovnáme proti sobě slova w1 a w2. W1 je porovnávané z tabulek 5.(1,2,3), w2 je vybíráno z thesauru nebo přílohy A.
II
Podle hledaného vztahu budeme sčítat různé kategorie slov. Budeme se řídit vždy počty slova, které je méně zastoupené v korpusu. Pro podobnost počty všech výskytů slova ve všech kategoriích výskytů společných pro obě slova, pro třídu to je podobné, jen vybereme jen určité kategorie. U synonym nás budou zajímat i odlišnosti – tj. slova, která se vyskytují jen u jednoho ze slov – a to opět u méně zastoupeného slova v korpusu. U hypero-hyponymických vztahů porovnáváme velikosti množin slov, která se vyskytují jen u jednoho ze slov. Přesně to popisují vzorečky uvedené níže.
III Vypočítána hodnota x bude porovnána, zda překračuje limitní hodnotu a tím bude posouzeno o vztahu. Pokud budou splněny dva protichůdné vztahy, tak bude zvolen ten, který se více odlišuje od limitní hodnoty. Pozn.: Uvědomme si, že slovo může patřit díky víceznačnosti do obou kategorií. Výpočty sdw(ai) – sdki – kategorie ve Sketch-Diff sdki(a) – slovo v kategorii c(sdki(a)) – počet výskytů slova a v kategorii c(sdki(*)) – počet výskytů všech slov v kategorii c(sdk*(*)) – velikost celé kategorie ve Sketch-Diff w1_only – blok ve Sketch-Diff, který znázorňuje všechna slova všech kategorií slova w1, která se nevyskytují se slovem w2 (totéž i pro w2) w1_spol_w2 – jako w1_only, jen ukazuje společná slova pro w1 a w2 |w1_only| – počet všech slov v w1_only (podobně i pro w1_spol_w2) Příbuznost
|"1__"2| "&'( !
39
Třída
|"1__"2…L! !| "&'( !
*) kategorie jsou stejné, jako u metody 3.2 – větné členy Synonymum
|"1__"2…L! !| : |"&'( _B…L! !| "&'( !
Hyperonymum a hyponymum B
"&'( "&+M
|"&'( _B| |"&+M _B| 5 B
Rozdělení kategorií VZTAH
PARAMETR X
příbuznost třída synonyma
> 0,11 > 0,24 > 0,23 > 0,9
hypero-hyponyma < 0,3
wmin je hyponymum wmax je hyperonymum wmin je hyperonymum wmax je hyponymum
Tabulka 5.15 – Sketch-Diff parametry
Zhodnocení KATEGORIE
PŘÍBUZNOST
TŘÍDA
SYNON.
HYPERON.
HYPON.
PODSTATNÁ JM.
61 % 63 % 58 %
62 % 63 % 60 %
64 % 45 % 46 %
12 % 10 % 18 %
12 % 10 % 18 %
PŘÍDAVNÁ JM. SLOVESA
Tabulka 5.16 – Sketch-Diff – úspěšnost
Tato metoda je prakticky velice podobná metodě 3.2, které pracuje na větných členech. Proto trpí i podobnými potížemi. Rozlišování hyperonym a hyponym se nezdařilo, protože se zde chovají velice jako slova příbuzná anebo ze stejné třídy. Oproti metodě 3.2 má lepší úspěšnost u sloves v rozpoznání, zda patří do stejné třídy. Jinak je s ní srovnatelná.
40
5.3.2 Porovnání Na několika následujících grafech a tabulkách můžeme vidět porovnání metod mezi sebou v různých kategoriích. Globální statistika Ukazuje univerzálnost metod. Každá metoda se liší přístupem a má svá určitá zaměření. V tabulce 5.17 je snadno vidět, jaké možnosti mají jednotlivé přístupy. PŘÍB.
TŘÍDA
HYPER.
HYPO.
SYN.
ANT.
WINDOW M.
√
√
×
×
×
×
VĚTNÉ ČLENY
√
√
×
×
√
×
SÉMAN. ORIENT.
×
×
×
×
√1
√1
THESAURUS
√
√
×
×
√
×
FRÁZE
√
√
√
√
-2
√
SKETCH-DIFF
√
√
√
√
√
×
1) pracuje pro přídavná jména 2) důvodem je malý počet vhodných frází, proto testy byly zastaveny Tabulka 5.17 – Schopnosti a zaměření jednotlivých metod
Nyní na několika grafech ukážeme výsledky úspěšnosti jednotlivých metod. Každý graf zhodnotíme několika slovy a zmíníme největší problémy, jež se ukázaly v průběhu testů. Příbuznost slov
100%
Vztah příbuznosti
úspěšnost
80% 60% 40% 20% 0% window větné členy thesaurus fráze metoda methods podstatná jména přídavná jména
Sketch-Diff slovesa
Graf 5.1 – Porovnání výsledků na příbuznost
Ve srovnání metod na rozpoznání příbuzenského vztahu dominuje v kategorii přídavných jmen metoda používající fráze. Také nejlépe dopadla i u rozpoznání příbuznosti podstatných jmen. Dobře si také vede metoda používající thesaurus, založená na statistikách. Problémy měla jen s přídavnými jmény. Ostatní metody jsou srovnatelné.
41
Rozpoznání třídy
úspěšnost
Třídní vztah 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% window větné členy thesaurus metoda methods podstatná jména přídavná jména
fráze
Sketch-Diff
slovesa
Graf 5.2 – Rozpoznání stejné třídy
Jednotlivé metody v rozpoznání, zda dvě slova patří do stejné třídy, se chovaly velmi odlišně pro různé slovní druhy. Frázová metoda dopadla průměrně nejlépe, poměry ve Sketch-Diff byly vyrovnané pro všechny slovní druhy. Naopak u thesauru byl velký propad u přídavných jmen. Vyhledání synonym
úspěšnost
Vztah synonymie 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% větné členy
sém. or.
podstatná jména
thesaurus metoda
fráze
přídavná jména
Sketch-Diff slovesa
Graf 5.3 – Synonymie – srovnání metod
Na grafu 5.3 je vidět úspěšnost metod na rozpoznání synonym. Největší problémy jsme měli u frázové metody. Zjistili jsme, že synonyma se velmi zřídka vyskytují u sebe. Pokud se náhodou vyskytují, tak to nejsme příliš schopni rozlišit. Metody používající kategorie Sketch-Diff a založené na větných členech nedopadly nejlépe. Největší problém dělá
42
rozpoznávání vztahů u sloves. Velice dobré výsledky ukázala i metoda zkoumající sémantickou orientaci u přídavných jmen. Úspěšnost posouzení antonym
úspěšnost
Vztah antonymie 80% 70% 60% 50% 40% 30% 20% 10% 0% sém. or.
fráze metoda
podstatná jména
přídavná jména
slovesa
Graf 5.4 – Rozpoznávání antonym
Rozlišit antonyma je téměř nemožné pro většinu popsaných metod. Velkou sílu ukázala metoda sémantické orientace na přídavných jménech a princip porovnávání frázemi dopadl skvěle. Slabší je rozpoznání sloves, protože se nevyskytují tak často jako podstatná a přídavná jména. A snadno se tak ztrácí ve svých kontextech.
úspěšnost
Rozlišení hypero-hyponymických relací
60% 50% 40% 30% 20% 10% 0%
Vztah hypero-hyponymie
fráze podstatná jména
metoda přídavná jména
Sketch-Diff slovesa
Graf 5.5 – Hypero-hyponymie
Vztah hypero-hyponymie se ukázal jako nejvíce obtížný. Těžko se rozlišuje mezi příbuznými slovy. Jediná metoda, která jej dokáže rozlišit, je opět postavena na frázích. Důvěru jsme dávali metodě Sketch-Diff, u které se ukázalo, že v tomto ohledu selhala
43
5.3.3 Zdokonalení přesnosti Předchozí kapitola nám ukázala jednotlivé schopnosti a slabosti metod. Naše příští práce se může zabývat kombinací jednotlivých metod. Neboť správně předzpracovaná data pro metodu jsou polovinou úspěchu. Metody zde nastiňují jejich výhody. Příště můžeme jít více do hloubky a odstranit jejich slabosti. Metody založené na frázích rozšížíme o další fráze a nebo i jejich vhodné komcinace. Nahrazení ručního testování optimálně vytvořenou implementací může urychlit výpočty a použít rozsáhlejší soubory slov a nevyužité údaje současných statistik. Sémantickou orientaci doplnit o další slovní druhy, jako jsou spojky a nebo i označkovanou databázi dalších slov. Nevyužitých prostředků je ještě mnoho.
44
Kapitola 6
6 Závěr Cílem této práce bylo prozkoumat existující metody a vytvořit nové, které slouží k automatické extrakci příbuzných slov. Rozlišování sémantické příbuznosti mezi slovy. Snažili jsme se využít možnosti, které nám poskytuje Sketch Engine při práci s korpusy. Ideální stav, který bychom chtěli získat, je metoda, která správně rozpozná různé druhy příbuznosti. Pokud by se nám tento cíl podařilo získat, výrazně bychom posunuli mnoho NLP aplikací. Usnadnil by se strojový překlad, pokročilo by se v sémantické analýze. Získali jsme několik metod, které se zaměřují na určité oblasti problematiky, ale nepokrývají ji celou. Hlavní cíl, který jsme splnili, bylo ukázat různé možnosti přístupu, aby se tyto metody mohly dále rozvíjet, neboť mnoho jich má velké kvalitativní rezervy, které je možno hlubokým studiem využít. Usoudili jsme, že částečně jsou metody degradovány chybami na nižších úrovních analýzy a také obrovskou víceznačností slov, kterou nebude snadné rozhodnout. Jako velice vhodnou metodou se jeví fráze, které jsou sice těžší na sestavení a práci s jazykem, ale nejsnadněji se optimalizují. Budoucnost také dávám kombinaci větných členů a Sketch-Diff doplněnou o sémantickou orientaci. Sémantická orientace je ovšem stále v zárodcích a na jejím rozvíjení se bude muset trávit ještě mnoho času.
45
Literatura [1]
Wikipedia – The Free Encyclopedia: Synonym. 2008. Dostupné z URL http://en.wikipedia.org/wiki/Synonym (květen 2008)
[2]
Pala, K., Všianský, J.: Slovník českých synonym. Nakladatelství Lidové noviny,Praha, 1996. ISBN 80-7106-059-3.
[3]
Gorman, J.,Curran, J.R.: The Topology of Synonymy and Homonymy Networks, School of Information Technologies, University of Sydney, Australia, 2006. Dostupné z URL http://www.it.usyd.edu.au/~james/pubs/pdf/cog07topology.pdf
[4]
Wikipedie – otevřená encyklopedie: Antonymum. 2008. Dostupné z URL http://cs.wikipedia.org/wiki/Antonymum (květen 2008)
[5]
Joe. T.: Antonymous, Urban Dictionary, 2005. Dostupné z URL http://www.urbandictionary.com/define.php?term=Antonymous (květen 2008)
[6]
Wikipedia – The Free Encyclopedia: Hypernym. 2008. Dostupné z URL http://en.wikipedia.org/wiki/Hypernym (květen 2008)
[7]
Snow, R., Jurafsky, D., Ng, A. Y., Learning syntactic patterns for automatic hypernym discovery. Stanford University, 2005. Dostupné z URL http://www.stanford.edu/~jurafsky/paper887.pdf (květen 2008)
[8]
Hearst, M. A., Automatic Acquisition of Hyponyms from Large Text Corpora. Proceedings of the Fourteenth International Conference on Computational Linguistics, Nantes, France, 1992. Dostupné z URL http://people.ischool.berkeley.edu/~hearst/papers/coling92.pdf (květen 2008)
[9]
Wikipedia – The Free Encyclopedia:Meronymy. 2008. Dostupné z URL http://en.wikipedia.org/wiki/Meronymy (květen 2008)
[10]
Čapek, T.: Systém pro částečné sémantické značkování volného textu [diplomová práce]. FI MU Brno, 2006.
46
Dostupné z URL http://nlp.fi.muni.cz/~xcapek1/stuff/diplomka.pdf (květen 2008) [11]
Wikipedie – otevřená encyklopedie: Homonymum. 2008. http://cs.wikipedia.org/wiki/Homonymum (květen 2008)
[12]
Curran, J.R.: From Distributional to Semantic Similarity [dizertační práce]. University of Edinburgh, 2004. Dostupné na URL http://www.cs.usyd.edu.au/~james/pubs/pdf/phdthesis.pdf (květen 2008)
[13]
Wikipedia – The Free Encyclopedia: Polysemy. 2008. Dostupné z URL http://en.wikipedia.org/wiki/Polysemy (květen 2008)
[14]
Holub, Z.: Homonymie, polysémie… a co s nimi?. Český rozhlas Plzeň. Dostupné z URL http://www.rozhlas.cz/plzen/jazykovykoutek/_zprava/418867 (květen 2008)
[15]
Nástroj DEBVisDic. FI MU Brno. Dostupné z URL http://deb.fi.muni.cz/clients-debvisdic-cs.php (květen 2008)
[16]
Pala, K.: Počítačové zpracování přirozeného jazyka. FI MU Brno, 2001.
[17]
Horák, A., Pala, K., Rambousek, A., Povolný, M.: DEBVisDic – First Version of New Client-Server Wordnet Browsing and Editing Tool. FI MU Brno, 2006. Dostupné z URL http://nlp.fi.muni.cz/publications/gwc2006_hales_pala_etal/gwc2006_hales_pala_ etal.pdf (květen 2008)
[18]
Collins: Paperback Thesaurus. Bank of English, HarperCollins Publishers, Great Britain, 1995, ISBN 0-00-470779-6.
[19]
Fergusson, R.: The Penguin Dictionary of English Synonyms & Antonyms. Penguin Books, England, 1992, ISBN 0-14-051168-7.
[20]
Pleskalová, J.: Slovníky a gramatiky doby humanistické a Barokní gramatiky a slovníky. Ústav českého jazyka FF MU Brno, 2007. Dostupné z URL http://www.phil.muni.cz/cest/lide/pleskalova.html (květen 2008)
47
[21]
Opálková, M.: Jazykové korpusy. Ikaros [online]. 2008, roč. 12, č. 1 [cit. 2008-0518]. Dostupné z URL http://www.ikaros.cz/node/4497 (květen 2008)
[22]
Rychlý, P.: Korpusové manažery a jejich efektivní implementace [dizertační práce]. FI MU Brno, 2000. Dostupné z URL http://www.fi.muni.cz/~pary/dis.pdf (květen 2008)
[23]
Rychlý, P., Smrž, P.: Manatee, Bonito and Word Sketches for Czech. In Proceedings of the Second International Conference on Corpus Linguistics. Saint-Petersburg: Saint-Petersburg State University Press, 2004. od s. 124-132, 9 s. ISBN 5-28803531-8. Dostupné z URL http://nlp.fi.muni.cz/publications/corpora2004_pary_smrz/corpora2004_pary_s mrz.pdf (květen 2008)
[24]
Turney, P.: Semantic Orientation – Applications. 2007. Dostupné z URL http://www.apperceptual.com/ml_text_orientation_apps.html (květen 2008)
[25]
Turney, P. D.: Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, 2002, pp. 417-424. Dostupné z URL http://acl.ldc.upenn.edu/P/P02/P02-1053.pdf (květen 2008)
[26]
Kovář, V.: Algoritmy kvalitativního ohodnocení výstupu syntaktické analýzy české věty [bakalářská práce]. FI MU Brno, 2007. Dostupné z URL http://is.muni.cz/th/139915/fi_b/bakalarska_prace.pdf (květen 2008) Grefenstette, G.: SEXTANT: exploring unexplored contexts for semantic extraction from syntactic analysis. In Proceedings of the 30th annual meeting on Association for Computational Linguistics, Newark, Delaware, 1992, s. 324 – 326. Dostupné z URL http://portal.acm.org/citation.cfm?id=982020 (květen 2008)
[27]
[28]
Abney, S.: The SCOL Manual Version 0.1b. AT&T Laboratories – Research, USA, 1997 Dostupné z URL http://www.sfs.uni-tuebingen.de/~abney/ (květen 2008)
[29]
Turney, P. D.: Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews, Proceedings of the 40th Annual Meeting of
48
the Association for Computational Linguistics (ACL'02), Philadelphia, Pennsylvania, s. 417-424, 2002. Dostupné z URL http://www.apperceptual.com/ml_text_orientation.html (květen 2008) [30]
Nástroj pro vyhledávání Morfeo. NetCentrum, 2008. Dostupné z URL http://morfeo.centrum.cz (květen 2008) – přehlídka synonym
49
Příloha A
Seznam vzorových slov a slov k nim příbuzných Podstatná jména výraz
synonymum
antonymum
hyperonym.
hyponymum
třída
auto
auťák kára autíčko automobil
prostředek vůz vozidlo stroj výrobek produkt
kombi taxi ambulance sanitka pohotovost záchranka sanita džíp kupé kabriolet sporťák herka vrak limuzína
náklaďák vlak loď letadlo autobus tramvaj trolejbus kamion kolo tank letoun
bouda
budka stánek léčka podraz barabizna chatrč útulna podvod střecha kryt
dům budova přístřešek obydlí ochrana švindl podfuk neřest špatnost nepravost
krámek srub kiosk chajda chýše boudka boudička
škola bunkr chaloupka salaš chata domek chalupa baráček vilka zámeček
50
brloh zřícenina
machinace nástraha úskok přístřeší barák finta stavení stavba dolina údolí
vyvýšenina množství kvantum výšina seskupení uskupení stoupání
stodola stan kůlna altán chatka domeček ubytovna
kopec
vrch chlum svah sklon hromada kupa halda kopa stráň
kalvárie návrší pahorek vršek kopeček složka štos
král
vítěz suverén
panovník králíček monarcha hlava figura figurka mocnář vladař vůdce představitel politik reprezentant vládce
královna císař princ premiér prezident pán generál předseda kníže
nos
čich čuch čenich příď nosánek nosíček
předek
chemoreceptor tlama ucho brada ret ústa prst
frňák skoba čumák rypák zobák pršák klofák
kupečka kupička kupka sráz hora stoh vrchol úbočí stěna skála vrcholek
51
peníze
měna peníz valuty obnos finance částka suma hotovost fond
schopnost způsobilost nadání talent kapacita vloha zdatnost dispozice
strava
potrava jídlo kuchyně potravina krmě pokrm krmivo
dluh chudoba
platidlo majetek devizy kapitál bohatství vlastnictví jmění prostředek příspěvek dotace zdroj náklad příjem
nezpůsobilost vlastnost neschopnost kvalifikace možnost moc vliv
výdělek výživa poživatina obživa léčba léčení
pršinos chobot
noha zub paže čelist břicho obočí tvář
bankovky mince koruna šterlink sterling zisk výdaj
mamon milión úvěr investice miliarda rozpočet cena
vtip bystrost pohotovost důvtip síla rychlost výkonnost
potence potenciál sklon potřeba snaha zkušenost vůle postavení úsilí
pochutina žrádlo dieta snídaně oběd svačina večeře zelenina ovoce
jídelníček stravování nápoj občerstvení směs výrobek
52
svoboda
volnost samostatnost nezávislost autonomie suverenita
svázanost spoutanost závislost omezení
stav princip
soběstačnost nespoutanost prostor demokracie právo řád kontrola
vítr
poryv větry vzduch proudění plynatost větřík
bezvětří
počasí ovzduší povětří živel
vichřice monzun závan vánek orkán smršť cyklón tajfun uragán hurikán tornádo průvan vichr
déšť mráz sníh slunce mlha teplota
Přídavná jména výraz černý
synonymum tmavý temný nelegální zakázaný ilegální černošský protizákonný nelegitimní nezákonný smuteční pohřební pietní špinavý
antonymum světlý bílý bělošský legální růžový čistý
hyperon. barevný
hyponymum
třída šerý zlý pošmourný podmračený tajný nekalý klerikální fašistický neblahý nešťastný špatný pokoutní smutný chmurný červený modrý
53
zelený žlutý hnědý šedý rudý zlatý šedivý stříbrný fialový oranžový hladký
hloupý
rovný jednoduchý snadný neproblematický
povrchový drsný hrbolatý kvalitní hrubý problematický
nekomplikovaný
komplikovaný
kluzký bezstarostný klouzavý bezproblémový plochý
těžký složitý vrásčitý hranatý zvlněný
omezený nechápavý tupý zaostalý idiotský nerozumný nemoudrý neinteligentní nepatrný zbytečný
chytrý inteligentní chápavý rozumný moudrý důležitý významný vzdělaný uvážlivý prozřetelný
nepřijatelný
neuvážený nemožný naivní marný divný trapný hrozný strašný
hedvábný sametový voskový jemný nevzorovaný obratný lichotivý pohodlný vybroušeny uhlazený úlisný lesklý suchý měkký světlý pevný mastný poškozený polohrubý ubohý pomatený
šílený potrhlý absurdní bláznivý praštěný nudný nevtipný pošetilý bláhový malicherný
54
bezvýznamný přihlouplý přitroublý zabedněný natvrdlý nesmyslný neprozřetelný stupidní dutý nejapný zpozdilý nevzdělaný prostý ťuknutý jednoduchý pitomý blbý nerozvážný
popletený nicotný dětinský nepříjemný nedůvtipný otřesný nepochopitelný
ukvapený ztřeštěný střelený nepřipravený potřeštěný neobratný nevhodný mrzutý protivný
mlsný
vybíravý mlsavý chtivý požitkářský smyslný
nevybíravý
mokrý
vlhký namočený promočený deštivý pomočený
suchý
politý zmoklý nasáklý promoklý
zpocený upocený uřícený
uplakaný vodnatý navlhlý zavlhlý kluzký špinavý zasněžený namrzlý mastný
následující
další příští následný pozdější nadcházející
předcházející předchozí minulý dřívější předešlý dosavadní
konkrétní
navazující
poslední úvodní stejný aktuální původní
55
přírodní
přirozený naturální nefalšovaný pravý
nepřirozený umělý syntetický chemický
původní ekologický
biologický rostlinný živočišný živý geologický
nestrojený nelíčený bezprostřední věrný opravdový prostý nenucený ryzí zemní zemitý tradiční čistý
rychlý
kvapný chvatný čerstvý okamžitý brzký bezodkladný naléhavý pohotový rapidní prudký náhlý brzký
pomalý lenivý volný
efektivní
bleskový bleskurychlý spěšný neprodlený překotný urychlený včasný
uspěchaný pilný ukvapený hbitý bystrý mrštný letmý dynamický rázný ostrý čilý bouřlivý pružný postupný
studený
chladný bezcitný sychravý syrový mrazivý ledový
teplý horký vřelý slunečný rozpálený
nevlídný
veselý
radostný rozmarný rozveselený rozjařený legrační žertovný
smutný zkroušený vážný
usměvavý šťastný nevážný potěšený skvělý
vlhký lhostejný suchý mokrý deštivý jásavý směšný rozradostněný srandovní úsměvný
světlý rozmařilý rozpustilý rozdováděný skotačivý bouřlivý
56
humorný zábavný šprýmovný vtipný komický groteskní
nevázaný rozradovaný šaškovský bujný jarní živý jasný humoristický
Slovesa výraz
synonymum
antonymum
hyperon.
hyponym.
třída
dohnat
dohonit dostihnout přihnat zahnat donutit přimět dotlačit přinutit přivést
nedohnat uběhnout ubíhat ujíždět
nutit tlačit stimulovat povzbudit dohánět běhat běžet
dojít dojet doběhnout stihnout terorizovat dotahovat dotáhnout
vyburcovat podnítit hnát uvést vnutit zamířit pohnout pohnat vynahradit
kácet
porážet srážet odstraňovat rušit rozvracet padat
stavět sázet vysazovat vysadit nekácet postavit vzpřímit
tnout omdlévat
podtít podetnout skácet padnout klesnout spadnout pokácet vykácet
sekat bořit převracet potírat vyvracet převrhovat vytrhávat
nosit
přinášet přenášet přemisťovat mít poskytovat dávat nést držet
nenosit
vyznačovat
přestavovat stěhovat přesunovat oblékat obouvat obléci si obléct si obléknout ustrojit
vzít chodit jít vnášet zanášet snášet roznášet vozit
57
obléci obléct obdržet
dostat získat utržit utrpět dostávat
dát neobdržet nedostat neutržit udělit odevzdat dávat udělovat
přijít nabýt převzít
nabrat vzít chytit
přijmout dosáhnout žádat podat poslat přijímat koupit vyžádat
pálit
žhnout spalovat palčivě bolet mrzet trápit střílet střelit vypálit vystřelit vypalovat upalovat upálit běhat destilovat utíkat běžet kopnout kopat
chladit nepálit studit hasit
rozbořit ničit bořit zničit bolet mučit zraňovat sužovat léčit poškodit porušit bít hýbat
ostřelovat šít pražit péci opařit zakouřit udeřit praštit
štípat kousat bodat chodit hořet sežehnout vyprahnout spálit vyzařovat sálat zapálit valit
pospíchat
spěchat chvátat pádit upalovat hnát naléhat tlačit
šourat nepospíchat loudat
kvapit
uhánět běhat utíkat běžet jet létat prchat pelášit
zdrhat kmitat pobíhat šinout rázovat
psát
zapisovat zaznamenávat
nepsat netvořit
tvořit plodit
opsat drápat
klepat natočit
58
rozbít
nekomponovat oznamovat dopisovat pojednávat zabývat se spisovat skládat komponovat korespondovat nahrát napsat sepsat zkomponovat
vytvořit dělat komunikovat evidovat informovat pracovat vyjádřit sdělit
načmárat nadrápat naškrábat škrábat veršovat zbásnit obkreslit narýsovat zanést nastylizovat sestavit natisknout vypsat přepsat zapsat podepsat popisovat
nafilmovat filmovat zfilmovat zašifrovat kódovat zakódovat podepsat se dramatizovat zdramatizovat publikovat koncipovat čmárat kreslit malovat přiblížit vystavit točit
roztlouci rozbořit zmařit rozlámat postavit utábořit nabourat zkazit prolomit porouchat rozbíjet zdemolovat
separovat vydělit oddělit rozčlenit rozdělit členit poškodit porušit ničit bořit zničit rozrušit zřídit pokazit poničit zlikvidovat řádit
naťuknout zpřetrhat přervat přetnout přetít roztřískat roztřísknout nadělat zlomit rozšlápnout rozříznout zmáčknout rozseknout prorazit provrtat rozdrtit rozflákat promáčknout rozštípnout roztříštit roztrhat
tříštit lámat bourat havarovat selhat rozebrat odlámat rozvrátit rozdělat rozmontovat demontovat rozházet probourat zabít pošramotit zdolat rozmáznout rozpoltit zdrtit dorazit pohřbít probořit
spravit opravit nerozbít složit
59
pochroumat rozpadnout zachovat vrátit
navrátit odevzdat dát zpět nepřijmout odmítnout oplatit odvděčit splatit navracet obnovit vracet přicházet
dostat nevrátit vyjít brát
dopravit odvést vzít naložit donést umístit klást dát položit jet dorazit získat jít dávat
zlomit
zlámat přelomit zmařit zdolat překonat přemoci zkrušit zdrtit potlačit rozlámat lámat prolomit
nezlomit podržet nezlámat opravit
zničit rozbít zkazit porazit rozdrtit deprimovat skličovat poranit ranit přerazit zranit poškodit
nahradit navalit přinést zanést
restaurovat restituovat předělat odejít odjet zůstat odcházet ztratit opustit
ohnout zvítězit nalámat zmocnit zkřivit přerušit vymknout uříznout natáhnout utrhnout prasknout amputovat
60
Příloha B
Morfologické značky pro češtinu Pražské morfologické značky Struktura značky Každá značka je řetězcem 15 znaků (16. pozice je dostupná pouze v některých korpusech). Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). Hodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka). Tradiční lingvistické detailní rozdělení není ovšem vždy respektováno (z nejrůznějších důvodů). Například tvary minulého příčestí sloves (aktivního i pasívního) nejsou rozlišeny z hlediska rodu (ve spojení s gramatickým číslem) pro tvary končící na -l, -ly ani -la. Podobně zkratky a nesklonná substantiva nedávají na výstupu morfologické analýzy 14 značek, jak by bylo možno očekávat, ale jsou anotovány (v technickém smyslu) jednoznačně značkou, kde je pro číslo a pád uveden znak 'X', používaný převážně pro tento typ nejednoznačnosti (či spíše neurčitosti).
Popis jednotlivých pozic značky Pozice jsou v závislosti na konkrétním korpusu číslovány od 1 do 15 (16. pozice je dostupná pouze v některých korpusech). V nadpisech jsou na konci v závorce uvedeny zkratky pro jednotlivé pozice, používané v jiných programech (jen pro informaci). Pozice 1 – Slovní druh (POS) Označuje hlavní slovní druh, víceméně podle obvyklého schématu známého z českých gramatik včetně školních. Přiřazení i těchto hlavních slovních druhů je však řízeno především potřebami konzistentnosti další analýzy přirozeného jazyka. Proto je možné, že v některých případech (zejména tehdy, kdy se gramatiky a slovníky v určení slovního
61
druhu neshodují nebo uvádějí jiné rozdělení na významy slova nebo tam, kde ve slovníku najdeme slovnědruhové perly typu „zájmenné příslovce“) nemusí být zařazení zcela „tradiční“. A – adjektivum (přídavné jméno) C – numerál (číslovka, nebo číselný výraz s číslicemi) D – adverbium (příslovce) I – interjekce (citoslovce) J – konjunkce (spojka) N – substantivum (podstatné jméno) P – pronomen (zájmeno) R – prepozice (předložka) T – partikule (částice) V – verbum (sloveso) X – neznámý, neurčený, neurčitelný slovní druh Z – interpunkce, hranice věty Pozice 2 – Detailní určení slovního druhu (SUBPOS) Detailní slovní druh slouží především k určení dalších relevantních morfologických kategorií, které jsou uvedeny na dalších pozicích (ne vždy však jednoznačně). Ze znaku použitého pro detailní určení slovního druhu je možné jednoznačně vyvodit hlavní slovní druh (pozice 1). ! – zkratka jako adverbium # – hranice věty (jen u „virtuálního“ slova „###“) * – slovo „krát“ (slovní druh: spojka) , – spojka podřadicí (vč. „aby“ a „kdyby“ ve všech tvarech) . – zkratka jako adjektivum 0 – předložka s připojeným „-ň“ (něj), „proň“, „naň“, atd. (značkováno jako slovní druh: zájmeno – 'P') 1 – vztažné přivlastňovací zájmeno „jehož“, „jejíž“,… 2 – slovo před pomlčkou 3 – zkratka jako číslovka 4 – vztažné nebo tázací zájmeno s adjektivním skloňováním (obou typů: „jaký“, „který“, „čí“,…) 5 – zájmeno „on“ ve tvarech po předložce (tj. „n-“: „něj“, „něho“,…) 6 – reflexívní zájmeno „se“ v dlouhých tvarech („sebe“, „sobě“, „sebou“) 7 – reflexívní zájmeno „se“, „si“ pouze v těchto tvarech, a dále „ses“, „sis“ 8 – přivlastňovací zájmeno „svůj“ 9 – vztažné zájmeno „jenž“, „již“,… po předložce („n-“: „něhož“, „níž“,…) : – interpunkce všeobecně (ne však „virtuální“ slovo ### jako hranice věty) ; – zkratka jako substantivum
62
= – číslo psané číslicemi (značkováno jako slovní druh: číslovka – 'C') ? – číslovka „kolik“ @ – slovní tvar, který nebyl morfologickou analýzou rozpoznán (značkováno jako slovní druh: neznámý – 'X') A – adjektivum obyčejné B – sloveso, tvar přítomného nebo budoucího času C – adjektivum, jmenný tvar D – zájmeno ukazovací („ten“, „onen“,…) E – vztažné zájmeno „což“ F – součást předložky, která nikdy nestojí samostatně („nehledě“, „vzhledem“,…) G – přídavné jméno odvozené od slovesného tvaru přítomného přechodníku H – krátké tvary osobních zájmen („mě“, „mi“, „ti“, „mu“,…) I – citoslovce (značkováno jako slovní druh: citoslovce – 'I') J – vztažné zájmeno „jenž“ („již“,…), bez předložky K – zájmeno tázací nebo vztažné „kdo“, vč. tvarů s „-ž“ a „-s“ L – zájmeno neurčité „všechen“, „sám“ M – přídavné jméno odvozené od slovesného tvaru minulého přechodníku N – substantivum, obyčejné O – samostatně stojící zájmena „svůj“, „nesvůj“, „tentam“ P – osobní zájmena (vč. tvaru „tys“) Q – zájmeno tázací/vztažné „co“, „copak“, „cožpak“ R – předložka, obyčejná S – zájmeno přivlastňovací „můj“, „tvůj“, „jeho“ (vč. plurálu) T – částice (slovní druh 'T') U – adjektivum přivlastňovací (na „-ův“ i „-in“) V – předložka vokalizovaná („ve“, „pode“, „ku“,…) W – zájmena záporná („nic“, „nikdo“, „nijaký“, „žádný“,…) X – slovní tvar, který byl rozpoznán, ale značka (ve slovníku) chybí Y – zájmeno „co“ spojené s předložkou („oč“, „nač“, „zač“) Z – zájmeno neurčité („nějaký“, „některý“, „číkoli“, „cosi“, …) ^ – spojka souřadicí a – číslovka neurčitá („mnoho“, „málo“, „tolik“, „několik“, „kdovíkolik“, …) b – příslovce (bez určení stupně a negace; „pozadu“, „naplocho“, …) c – kondicionál slovesa být („by“, „bych“, „bys“, „bychom“, „byste“) d – číslovka druhová, adjektivní skloňování („jedny“, „dvojí“, „desaterý“, …) e – slovesný tvar přechodníku přítomného („-e“, „-íc“, „-íce“) f – slovesný tvar: infinitiv g – příslovce (s určením stupně a negace; „velký“, „zajímavý“, …) h – číslovky druhové „jedny“ a „nejedny“ i – slovesný tvar rozkazovacího způsobu
63
j – číslovka druhová >= 4, substantivní postavení („čtvero“, „desatero“, …) k – číslovka druhová >= 4, adjektivní postavení, krátký tvar („čtvery“, …) l – číslovky základní 1 – 4, „půl“, …; sto a tisíc v nesubstantivním skloňování m – slovesný tvar přechodníku minulého, příp. (zastarale) přechodník přítomný dokonavý n – číslovky základní >= 5 o – číslovky násobné neurčité („-krát“: „mnohokrát“, „tolikrát“, …) p – slovesné tvary minulého aktivního příčestí (včetně přidaného „-s“) q – archaické slovesné tvary minulého aktivního příčestí (zakončení „-ť“) r – číslovky řadové s – slovesné tvary pasívního příčestí (vč. přidaného „-s“) t – archaické slovesné tvary přítomného a budoucího času (zakončení „-ť“) u – číslovka tázací násobná „kolikrát“ v – číslovky násobné („-krát“: „pětkrát“, „poprvé“ …) w – číslovky neurčité s adjektivním skloňováním („nejeden“, „tolikátý“, „několikátý“ …) x – zkratka, slovní druh neurčen/neznámý y – zlomky zakončené na „-ina“ (značkováno jako slovní druh: číslovka – 'C') z – číslovka tázací řadová „kolikátý“ } – číslovka psaná římskými číslicemi ~ – zkratka jako sloveso Pozice 3 – Jmenný rod (GENDER) - – neurčuje se F – femininum (ženský rod) H – femininum nebo neutrum (tedy nikoli maskulinum) I – maskulinum inanimatum (rod mužský neživotný) M – maskulinum animatum (rod mužský životný) N – neutrum (střední rod) Q – femininum singuláru nebo neutrum plurálu (pouze u příčestí a jmenných adjektiv) T – masculinum inanimatum nebo femininum (jen plurál u příčestí a jmenných adjektiv) X – libovolný rod (F/M/I/N) Y – masculinum (animatum nebo inanimatum) Z – 'nikoli femininum' (tj. M/I/N; především u příslovcí) Pozice 4 – Číslo (NUMBER) - – neurčuje se D – duál (pouze 7. pád feminin) P – plurál (množné číslo) S – singulár (jednotné číslo) W – pouze v kombinaci se jmenným rodem 'Q' (singulár pro feminina, plurál pro neutra) X – libovolné číslo (P/S/D) Pozice 5 – Pád (CASE)
64
- – neurčuje se 1 – nominativ (1. pád) 2 – genitiv (2. pád) 3 – dativ (3. pád) 4 – akuzativ (4. pád) 5 – vokativ (5. pád) 6 – lokativ (6. pád) 7 – instrumentál (7. pád) X – libovolný pád (1/2/3/4/5/6/7) Pozice 6 – Přivlastňovací rod (POSSGENDER) Rody mužský neživotný a střední se nikdy nevyskytují samostatně. 'M' se může vyskytnout jen u přivlastňovacích adjektiv (ne u příslovcí). - – neurčuje se F – femininum (ženský rod) M – maskulinum animatum (rod mužský životný) X – libovolný rod (F/M/I/N) Z – 'nikoli femininum' (tj. M/I/N; u přivlastňovacích adjektiv) Pozice 7 – Přivlastňovací číslo (POSSNUMBER) - – neurčuje se P – plurál (množné číslo) S – singulár (jednotné číslo) Pozice 8 – Osoba (PERSON) - – neurčuje se 1 – 1. osoba 2 – 2. osoba 3 – 3. osoba X – libovolná osoba (1/2/3) Pozice 9 – Čas (TENSE) - – neurčuje se F – futurum (budoucí čas) H – minulost nebo přítomnost (P/R) P – prézens (přítomný čas) R – minulý čas X – libovolný čas (F/R/P) Pozice 10 – Stupeň (GRADE) - – neurčuje se 1 – 1. stupeň 2 – 2. stupeň
65
3 – 3. stupeň Pozice 11 – Negace (NEGATION) - – neurčuje se A – afirmativ (bez negativní předpony „ne-“) N – negace (tvar s negativní předponou „ne-“) Pozice 12 – Aktivum/pasívum (VOICE) - – neurčuje se A – aktivum nebo 'nikoli pasívum' P – pasívum Pozice 13 – Nepoužito (RESERVE1) - – neurčuje se Pozice 14 – Nepoužito (RESERVE2) - – neurčuje se Pozice 15 – Varianta, stylový příznak apod. (VAR) - – neurčuje se („základní“ tvar pro kategorie v pozicích 1 – 14) 1 – varianta, víceméně rovnocenná („méně častá“) 2 – řídká, archaická nebo knižní varianta 3 – velmi archaický tvar, též hovorový 4 – velmi archaický nebo knižní tvar, pouze spisovný (ve své době) 5 – hovorový tvar, ale v zásadě tolerovaný ve veřejných projevech 6 – hovorový tvar (koncovka standardní obecné češtiny) 7 – hovorový tvar (koncovka standardní obecné češtiny), varianta k '6' 8 – zkratky 9 – speciální použití (tvary zájmen po předložkách apod.) Pozice 16 – Vid (ASPECT) Tato pozice byla k původní sadě doplněna Miroslavem Spoustou na základě slovníku morfologické analýzy. Je dostupná pouze v korpusech SYN2005 a SYN2006PUB. P – perfektivum (dokonavé sloveso) I – imperfektivum (nedokonavé sloveso) B – obouvidé sloveso
Brněnské morfologické značky Princip konstrukce značky je dán následující konvencí: atributy jsou značeny malými písmeny, hodnoty atributů velkými písmeny nebo číslicemi. Značky tedy nejsou atomické objekty, mají svou pravidelnou strukturu, jíž se dále využívá např. v syntaktické analýze. k1 – podstatné jméno, „subs“:
66
rod: gM = mužský živ., gI = mužs. než., gF = ženský, gN = střední číslo: nS = singulár, nP = plurál pád: c1,2,3,4,5,6,7 k2 – přídavné jméno, „adj“ rod u přivlastňovacích = h adjektiva rozlišují stejné kategorie jako substantiva, tj. rod = g, číslo = n a pád = c, navíc pak klad = eA, zápor = eN a stupeň d1 = pozitiv, d2 = komparativ, d3 = superlativ k3 – zájmena, „pron“ zájmena se dále člení na osobní = P, ukazovací = D, přivlastňovací = posesivní = O, vztažná = relativní = R, tázací = Q, neurčitá = U, zvratná, reflexivní = X zájmena rozlišují stejné kategorie jako substantiva, tj. g, n, c, ovšem některá z nich, především osobní, jsou bezrodá k4 – číslovky, „num“ rozpadají se dále na základní = O, řadové = C, násobné = M, podílné = D jinak číslovky nesou stejné kategorie jako substantiva, tj. g, n, c k5 – slovesa, „verb“ nese kategorie: klad = eA, zápor = eN osoba = p1, 2, 3 (první, druhá, třetí) číslo: nS = singulár, nP = plurál čas: tP = přítomný, tM = minulý, tF = budoucí způsob: mI = indikativ, mR = imperativ, mC = kondicionál vid: aP = dokonavý, perfektivní aI = nedokonavý, imperf. k6 – příslovce, „adv“ člení se na adv. způsobu = M, času = T, místa = L, modální = D, příčiny = C, typické kategorie: klad = eA, zápor = aN stupeň = d1, d2, d3 k7 – předložka, „prep“ rozlišuje pád = c2,3,4,6,7 k8 – spojka, „conj“ člení se na souřadicí = C a podřadicí = S k9 – částice, „part“ zatím se člení na pravděpodobnostní = P, tematizační = R, měrové = Q k0 – citoslovce,“intr“ kX – zkratková slova, zkratky, „abbr“
67
Typické příklady rozvinuté a zkrácené notace: k1: tvar „počítač“: k: 1 sl. druh: substantivum g: I rod: muž. neživotný n: S číslo: singulár c: 1,4 pád: první nebo čtvrtý výsledné značky (tags): k1gInSc1, k1gInSc4 k2: tvar adjektiva „rychlý“: k: 2 sl. druh: adjektivum e: A klad (zápor N) g: M, I rod mužský živ., muž. neživ. c: 1,4 pád – nom. nebo akuzativ d1: stupeň první – pozitiv výsledné značky: k2eAgMnSc1d1, k1eAgMnSc4d1, k1eAgInSc1d1,k1eAgInSc4d1 pozn.: adjektiva se shodují se svým řídicím substantivem, u něhož stojí a od něho přebírají tzv. shodové kategorie, tj. g, n, c k3: tvar osobního zájmena „ty“: k: 3 sl. druh: zájmeno, osobní = P g: nevyjadřuje, tzv. bezrodé n: S číslo: singulár c: 1 pád: první, nominativ výsledná značka: k3xPnSc1 tvar „ty“ je však homonymní s tvarem ukazovacího zájmena, jemuž odpovídá značka: k: 3 sl. druh: zájmeno ukazovací g: M, I rod.mužs. živ., než., F žens., N stř. n: P číslo: plurál c: 1,4 pád (homonymie) výsledné značky: k3xDgMnPc4, k3xDgInPc1, k3xDgFnPc1, k3xDgNnPc1, k3xDgInPc4, k3xDgFnPc4, k3xDgNnPc4 pozn.: ukazovací, demonstrativní zájmena se shodují se svým řídicím substantivem, u něhož stojí a od něho přebírají tzv. shodové kategorie, tj. g, n, c k4: tvar číslovky „tři“: k: 4 slovní druh: číslovka x: C základní, kardinální g: X všechny rody n: P číslo: plurál c: 1, 4, 5 pád (homonymie) výsledná značka: k4xCgXnPc145
68
k5 tvar slovesa „mluvíš“: k: 5 slovní druh: sloveso e: A kladný tvar p: 2 osoba: druhá n: S číslo: singulár t: P čas: přítomný m: I způsob: indikativ, oznamovací a: I vid: imperfektivní, nedokonavý výsledná značka: k5eAp2nStPmIaI značky pro tvar „mluvil“: k5eApMnStMmPaI, k5eApInStMmPaI k6 tvar adverbia „dobře“: značka k6xMeAd1 k: 6 adverbium, příslovce x: M způsobu, modi e: A kladné d: 1 pozitiv, první stupeň k6xTeA „dnes“ k: 6 adverbium, příslovce x: T času, tempori e: A kladné k6xLeA „tady“ k: 6 adverbium, příslovce x: L místa, loci e: A kladné k7 předložka „na“: k: 7 předložka, prepozice c: 4, 6 pád k8 spojka „že“: k: 8 spojka, konjunkce x: S podřadicí, subordinační k9 částice „asi“: k: 9 částice, partikule x: P vyjadřuje pravděpodobnost kX zkratka „DOS“, „NATO“: k: X zkratka, zkratkové slovo
69
Příloha C
Ohodnocení předložek pro sémantickou orientaci předložka pro po při bez proti díky mimo včetně pomocí kvůli vůči dle oproti skrz naproti vstříc nehledě vyjma napospas via ob
počet výskytů v korpusu 43964 29740 18617 9000 5380 2443 2189 2071 1806 1659 1222 783 772 521 496 232 87 84 44 31 31
ohodnocení 0,1 0,1 0,2 -0,4 -0,6 0,2 -0,6 0,4 0,6 -1 0,5 0,6 -0,6 -0,5 -0,8 0,4 -1 -1 -1 1 -1
70
Příloha D
Seznam použitých frází pro metodu 4.3 Pro formální přesnost doporučuji doplnit do frází: Pro podstatná jména: místo [lemma=" W_1"] … [lemma=" W_2"] [lemma=" W_1" & tag="N.*"] … [lemma=" W_2" & tag="N.*"] Pro přídavná jména: [lemma=" W_1"] … [lemma=" W_2"] [lemma=" W_1" & tag="A.*"] … [lemma=" W_2" & tag="A.*"] Pro slovesa: [lemma=" W_1"] … [lemma=" W_2"] [lemma=" W_1" & tag="V.*"] … [lemma=" W_2" & tag="V.*"] Synonymie [lemma=" W_1"] []{0,6} [lemma="neboli"] []{0,6} [lemma=" W_2"] [lemma="být"] []{0,6} [lemma=" W_1"] []{0,6} [lemma="být"] []{0,6} [lemma=" W_2"] Nevhodné pro synonyma Antonymie [lemma="W_1"] []{0,3} [word="za"] []{0,3} [lemma=" W_2"] [lemma=" W_1"] []{0,3} [word="i"] []{0,3} [lemma=" W_2"] [lemma=" W_1"] []{0,5} [word="či"] []{0,5} [lemma=" W_2"] [lemma=" W_1"] []{0,5} [word="nebo"] []{0,5} [lemma=" W_2"] [word="buď"] []{0,5} [lemma=" W_1"] []{0,5} [word="nebo"] []{0,5} [lemma=" W_2"] [lemma=" W_1"] []{0,5} "," "nebo" []{0,5} [lemma="zlý"] [lemma=" W_1"] []{0,8} [word="ale"][word="ne"] []{0,8} [lemma=" W_2"] [lemma=" W_1"] []{0,8} [word="místo"][]{0,8} [lemma=" W_2"] [lemma=" W_1"] []{0,8} [word="než"][]{0,8} [lemma=" W_2"] [lemma=" W_1"] []{0,3} [word="ani"][]{0,3} [lemma=" W_2"] [lemma="kontrast"][]{0,5}[lemma=" W_1"] []{0,10} [lemma=" W_2"] [lemma=" W_1"] []{0,8} [lemma="kontrast"][]{0,8}[lemma=" W_2"]
71
[lemma=" W_1"] []{0,8} [lemma="kontrastně"][]{0,8}[lemma=" W_2"] [lemma=" W_1"] []{0,8} [lemma="jenže"][]{0,8}[lemma=" W_2"] Hyperonymie a hyponymie [lemma="W_HYPERONYMUM"] []{0,3} [lemma="jako"] []{0,3} [lemma="W_HYPONYMUM"] [lemma=" W_HYPONYMUM "] "a" []{0,2} [lemma="jiný"] []{0,3} [lemma=" W_HYPERONYMUM "] [lemma=" W_HYPERONYMUM "] []{0,5} "zejména" []{0,5} [lemma=" W_HYPONYMUM "] [lemma=" W_HYPONYMUM "] []{0,5} [word="nebo" | word="či"] []{0,2} [lemma="jiný"] []{0,5} [lemma=" W_HYPERONYMUM "] [lemma=" W_HYPONYMUM "] []{0,5} "než" []{0,5} [lemma="jiný"] []{0,5} [lemma=" W_HYPERONYMUM "] [lemma=" W_HYPONYMUM "] []{0,5} "a" [lemma="další"] []{0,5} [lemma=" W_HYPERONYMUM "] [lemma=" W_HYPONYMUM "] []{0,5} [lemma="být"] []{0,3} [lemma="jediný"] []{0,5} [lemma=" W_HYPERONYMUM "] [lemma=" W_HYPONYMUM "] []{0,8} "ani" [lemma="jiný"] []{0,8} [lemma=" W_HYPERONYMUM "] [lemma=" W_HYPONYMUM "] []{0,8} "ani" []{0,4} [lemma="jiný"] []{0,8} [lemma=" W_HYPERONYMUM "] Třída (1:[tag="R.*"] []? [lemma=" W_1"] []{0,8} 2:[tag="R.*"] []? [lemma=" W_2"]) & 1.word=2.word [lemma=" W_1"] "," []{0,2} [word="a" | word=","] []? [lemma=" W_2"] "vedle" [lemma=" W_1"] []{0,4} [lemma="a"| lemma="také"] []{0,4} [lemma=" W_2"] [lemma=" W_1"] []{0,8} [word="oproti"| word="proti"| word="naproti"] []{0,8} [lemma=" W_2"] "než" []{0,6} [lemma=" W_1"] []{0,5} [lemma="nebo"] []{0,5} [lemma=" W_2"] [lemma=" W_1"] []{0,7} "nebo" []{0,3}"alespoň" []{0,7} [lemma=" W_2"] ("v" | "ve") []{0,2} [lemma=" W_1"] []{0,12} "i" []{0,2} [lemma=" W_2"] [lemma=" W_1"] []{0,1} ","? "či" []{0,1} [lemma=" W_2"]
72