Vztah mezi tvarotvornými a slovotvornými vzory v češtině Relations between Inflectional and Derivational Patterns in Czech Karel Pala, Radek Sedláček, Marek Veber Laboratoř zpracování přirozeného jazyka Fakulta informatiky Masarykovy univerzity v Brně {pala,rsedlac,mara}@fi.muni.cz Abstrakt: Hlavním cílem tohoto příspěvku je popsat formální proceduru spojující tvarotvorné a slovotvorné procesy v češtině a ukázat, že tyto mohou být za použití adekvátních počítačových programů a reprezentativních zdrojů dat aplikovány i na ostatní slovanské jazyky. Při naší práci jsme využívali dva programy vyvíjené v Laboratoři zpracování přirozeného jazyka (LZPJ) na Fakultě informatiky Masarykovy univerzity v Brně, a sice morfologický analyzátor ajka a program i_par pro údržbu a morfologické databáze. Abstract: One of the main goals of this paper is to describe a formal procedure linking inflectional and derivational processes in Czech and indicate that they can be, if appropriate tools and resources are used, applied to other Slavonic languages. The tools developed at the NLP Laboratory FI MU, have been used, particularly the morphological analyser ajka and the program i_par for processing and maintaining morphological databases. 1 Úvod V článku se zabýváme studiem vztahů mezi flexí a derivací v češtině. Nejdříve je třeba zmínit tvarotvornou, flektivní morfologii, která se zabývá tvořením nových slovních tvarů, tj. studuje procesy, jako je skloňování podstatných jmen, přídavných jmen, zájmen a číslovek, časování sloves, ale také stupňování přídavných jmen a příslovcí. Tvarotvorná analýza češtiny je v současnosti již poměrně dobře formálně popsána (Osolsobě, 1996; Hajič, 1994) a máme k dispozici programové nástroje, které umožňují jak analýzu, tak generování všech českých slovních tvarů. Konkrétně nám jde o morfologický analyzátor ajka (Sedláček, 1999) a systém i_par (Veber, 2002) pro údržbu a správu morfologické databáze. Druhou oblastí je derivační morfologie, která popisuje procesy tvoření nových ze slov základových. Tyto procesy se uplatňují na úrovni morfémů, tzn., že vytvoření nového slova je výsledkem jistého způsobu kombinace morfémů (předpon, kořenů, přípon apod.). Podle toho pak mluvíme o prefixaci, sufixaci, případně infixaci a konverzi. Je třeba mít na paměti, že tyto formální procesy však mají sémantické důsledky. Vztahy mezi derivačními procesy a flektivní morfologií byly v české lingvistické literatuře intenzivně zkoumány (viz například díla Dokulila, 1962; Karlíka et al., 1995; Petra, 1986, Rusínové). Lze zde nalézt neformální popisy slovotvorných procesů operující s pojmy, jako je fundace, mutace, transpozice, modifikace, adaptace aj. Nejzajímavější jazykové analýzy se snaží nalézt vztahy mezi tvarotvornými a slovotvornými vzory. Například Karlík (1995) ukazuje, že činitelská podstatná jména vytvořená příponou –
tel se skloňují podle klasického tvarotvorného vzoru muž. Lze tedy vyslovit hypotézu, že některé flektivní vzory určují množinu derivačních sufixů tvořících konzistentní sémantickou skupinu. V tomto textu si klademe za cíl zmapovat vztahy mezi flektivními a derivačními vzory. V porovnání s předchozím výzkumem ovšem předkládáme analýzu založenou na rozsáhlé kolekci dat: náš slovník kmenů pro češtinu obsahuje 385 066 položek. Přiřazení vybraných tvarotvorných a slovotvorných vzorů bylo provedeno poloautomaticky s pomocí nástroje i_par a české morfologické databáze obsahující informace o flektivních vzorech. Celkem jich v současnosti pro všechny slovní druhy evidujeme 2042. Slovotvorné vztahy tak, jak se popisují v lingvistických teoriích, je možné po drobných úpravách přirovnat k sémantickým vztahům používaným v současných ontologiích a využít je v existujících inferenčních strojích jako nezbytnou část počítačového zpracování přirozeného jazyka (NLP). 2 Tvarotvorná analýza Tvarotvorná analýza je nedílnou součástí komplexního morfematické segmentace slova, ve které plní dvojí úlohu. Jednak je jejím úkolem identifikovat v zadaném slovním tvaru kmen a koncovku. V případě, že se nejedná o základní tvar slova (tzv. lemma), je třeba navíc ke kmeni připojit koncovku základního tvaru. Slovotvorná analýza totiž pracuje pouze s lemmaty. V naší práci využíváme pro tvarotvornou analýzu program ajka, který vznikl (Sedláček, Smrž, 2001) v LZPJ na FI MU. Tento program funguje zároveň jako lemmatizátor a morfologický značkovač. Analyzátor ajka je založen na algoritmickém popisu české formální morfologie (Osolsobě, 1996) a na reprezentaci strojového slovníku češtiny pomocí datové struktury trie (Knuth, 1976) implementované v podobě minimálního konečného automatu (Daciuk et al., 1998). 3 Základní slovotvorný vztah fundace Všechna slova slovní zásoby rozdělujeme ze slovotvorného hlediska na motivovaná a nemotivovaná. U motivovaných slov dovedeme vysvětlit jejich význam jiným slovem (cvičiště je místo, kde se cvičí), nemotivovaná slova takto vysvětlit nemůžeme, jejich význam je jen v označení věci, proto se také někdy nazývají slova značková (stůl, tráva). Při slovotvorném rozboru se zabýváme jen slovy motivovanými, protože jedině ona mají slovotvornou strukturu a lze rekonstruovat proces jejich vzniku. Utvoření motivovaného slova se zjišťuje podle základního slovotvorného vztahu, tzv. fundace. Ten spojuje slovo fundované se slovem fundujícím v tom smyslu, že fundující slovo je to, na kterém se slovo fundované zakládá, které je východiskem jeho vzniku. Směr fundace vyznačujeme šipkou (škola → škol-ní, les → pra-les). Je třeba zdůraznit, že fundace má svou stránku formální a významovou. Formální stránka se projevuje shodou v hláskové podobě obou slov. Někdy je shoda částí slov naprostá, jindy je společná část slova více či méně obměněna. Tyto obměny však nejsou nahodilé, ale zákonité a jejich druhy mohou být dostatečně přesně určeny. Významové stránce fundačního vztahu se budeme podrobněji věnovat dále.
Zjištěním fundačního vztahu u všech motivovaných slov získáváme komplex relací, které tvoří hierarchickou strukturu. V nauce o tvoření slov se hovoří o slovních čeledích, slovotvorných svazcích a slovotvorných řadách. Čeleď tvoří všechna příbuzná slova mající společný kořen. Jádrem čeledi je nemotivované slovo kořenné, ostatní slova v čeledi jsou z něj utvořena, a to buď přímo (led → led-ový) nebo nepřímo prostřednictvím jiného příbuzného slova. Takto se vytvářejí slovotvorné řady (led → led-ový → ledov-ec). K jednomu fundujícímu slovu se může vztahovat několik slov fundovaných nezávisle na sobě. Tato skupina se nazývá slovotvorný svazek (led → led-ní; led→ led-ový). Slovní čeleď pak sestává ze slovotvorných řad a svazků. Vhodným formálním matematickým aparátem pro zachycení výše uvedených vztahů a struktur jsou grafy. V tomto případě se jedná o speciální typy grafů, a sice stromy, které se dále sdružují v lesy. V uzlech stromů jsou základní tvary slov, následný uzel je utvořen na základě svého předchůdce. V současné době existuje v LZPJ k dispozici nástroj, který umožňuje zachytit jakékoliv vztahy mezi slovy. Jedná se o program i_par vyvíjený primárně Markem Veberem (2002). Ve spolupráci s ním jsme navrhli obecnější relační strukturu, v níž je možné realizovat i fundaci. 4 Významová stránka fundace Významová složka fundačního vztahu spočívá v tom, že se význam motivovaného slova dá odvodit z významu slova motivujícího (učitel je ten, kdo učí; zoubek je malý zub). Význam vyplývající ze slovotvorných poměrů se označuje jako slovotvorný nebo vnitřní. Motivovaná slova se společným obecným významem tvoří slovotvornou kategorii, např. názvy činitelské. Podle druhu významového vztahu motivovaného slova ke slovu motivujícímu lze rozlišovat tři základní druhy kategorií: mutační, transpoziční a modifikační. Mutační kategorie označuje jinou skutečnost než slova fundující (zeď → zed-ník). Transpoziční kategorie vyznačuje shodný obecný význam, rozdíl je jen ve slovnědruhové příslušnosti (chválit → chvál-a) a modifikační kategorie se ve významu liší jen příznakem od slov motivujících (nůž → nož-ík). Z hlediska strojového zpracování sémantiky slov považujeme vnitřní význam za jeden z podstatných faktorů. Nabízí se jako alternativa nebo další rozvinutí stávajících sémantických sítí, které jsou založeny na jiných významových vztazích, jako je synonymie, blízká synonymie, hyponymie, hyperonymie, holonymie a meronymie (Vossen, 1998). Vztah fundace totiž také dovoluje vybudovat jistý typ sémantické sítě, která je ovšem založena na vnitřních významech slov. Zpracování vnitřního významu tedy ve svém konečném důsledku rozšiřuje možnosti strojové reprezentace znalostí. 5 Slovotvorná analýza Úkolem slovotvorné analýzy je ze základního slovotvorného vztahu zjistit slovotvornou strukturu fundovaného slova, jeho slovotvorný základ a formant. Za slovotvorný základ je považována ta část fundovaného slova, kterou přejalo ze slova fundujícího. Po významové stránce je tedy nositelem jádra významu. Při srovnání obou slov je to část, kterou má fundované slovo shodnou se slovem fundujícím. Po formální stránce může mít slovotvorný základ fundovaného slova podobu hláskově shodnou se slovem
fundujícím nebo hláskově obměněnou podle pravidel hláskového střídání. Obměňuje se přitom samohláska základu nebo koncová souhláska základu nebo skupina souhlásek na konci základu. Ke slovotvornému základu slova přistupuje prvek, který z něho vytváří slovo. Ve slovotvorné teorii se obecně hovoří o formantu. Formantem může být přípona (kotel-na), která zařazuje slovo do širší významové skupiny (např. –na vytváří názvy míst), koncovka (zkáz-a), kdy gramatický morfém navíc přejímá ještě úlohu morfému slovotvorného, předpona (s-lepit), jež význam slova pouze obměňuje a nemění ani slovnědruhovou příslušnost ani tvaroslovnou charakteristiku slova, nebo složený formant, a to buď předponu s příponou (pří-ruč-ní) nebo předponu s koncovkou (před-měst-í). 6 Vztah mezi flexí a derivací Data, která lze nalézt v současných zdrojích (Karlík et al., 1995) jsou co do rozsahu omezená. Obsahují pouze vybrané příklady a základní derivační procesy. Informace o funkčním zatížení jednotlivých přípon buď chybí zcela, nebo se redukuje na vyjádření „velmi frekventovaný“, „frekventovaný“, „málo frekventovaný“ bez udání jakýchkoliv čísel. K získání adekvátnějších a přesnějších čísel proto pracujeme s reprezentativnějším souborem dat v systému i_par a se slovníkem kmenů analyzátoru ajka. Všechny kmeny jsou ve slovníku přiřazeny k příslušným flektivním vzorům, např. pro podstatná jména rozlišujeme 746 vzorů pokrývajících 131188 substantivních kmenů. Počet vzorů se může zdát velký, ale je třeba uvážit, že v algoritmickém popisu české flexe pracujeme s hierarchickou subklasifikací vzorů, která je založena na systému klasických 14 vzorů, jež se uvádějí v standardních českých mluvnicích. Současná data nám umožňují zjistit funkční zatížení definované jako počet substantiv s danou příponou a odpovídajícím sémantickým rysem, např. agent, instrument, vlastnost apod. Nejprve je nutné znát počet lemmat s danou příponou. Tabulka 1 například ukazuje, že podstatných jmen s příponou –ák je 1379. Nicméně mnohem užitečnější je informace o sémantickém rysu každého z nich. Tímto získáme všechny sémantické skupiny, ke kterým mohou náležet substantiva s danou příponou. Identifikaci sémantických skupin snadno získáme pohledem na flektivní vzory. Začneme-li s gramatickými značkami, zjistíme, že podstatná jména na –ák spadají do dvou velkých skupin: činitelé spolu s ostatními živými tvory (celkem 733) a neživé věci jako jsou nástroje apod. (celkem 633, neklasifikovaných 13). Frekvence 641 326 263 77 16 10 10 7 6 5 5 13 Celkem 1379
% 47,1 23,6 19,1 5,6 1,2 0,7 0,7 0,5 0,4 0,4 0,4 1,0
Vzor Vlk Flok Krk Štěrbák Dupák Azték Hřibák Pulčík Kozák Dubák Batak Ostatní
Tabulka 1: Substantiva rodu mužského končící na –ák
Rod muž. živ. muž. neživ. muž. neživ. muž. živ. muž. neživ. muž. živ. muž. neživ. muž. neživ. muž. neživ. muž. neživ. muž. živ.
Sém. znak agentiva neklasifikováno neklasifikováno příjmení tance názvy kmenů neklasifikováno názvy hub neklasifikováno neklasifikováno etnické skupiny neklasifikováno
Frekvence 908 15 11 8 7 5 4 4 3 2 Celkem 967
% 93,9 1,6 1,1 0,8 0,7 0,5 0,4 0,4 0,3 0,2
Vzor Učitel Bez Mocnitel Součinitel Hotel Cíl Stroj Soutěž Obyvatel strašpytel
Rod muž. živ. muž. neživ. muž. neživ. muž. neživ. muž. neživ. muž. neživ. muž. neživ. žen. muž. živ. muž. živ.
Sém. znak agentiva neklasifikováno matem. výrazy matem. výrazy hotely neklasifikováno neklasifikováno neklasifikováno obyvatelé neklasifikováno
Tabulka 2: Substantiva končící na –tel
7 Pravidla pro slovotvorné procesy Až dosud jsme hovořili o odvozování nových slov jako o procesu kombinace morfémů, tj. kořenů, předpon, přípon atd. Formálně vzato, jsou však slovotvorné procesy operacemi nad řet ězci písmen nesoucích gramatické a lexikální informace. Je snadné nahlédnout, že slovotvorné procesy jsou více méně pravidelné, a proto mohou být popsány jistým druhem pravidel. Odvozování je hierarchicky strukturovaný proces, a proto i pravidla (vzory) budeme konstruovat kaskádovitě, tj. budeme hierarchicky vytvářet složitější vzory. Na základě lingvisticky stanovené hypotézy, tedy jakéhosi vzoru definujícího změny mezi slovními tvary a dalšími omezeními na podobu značek příslušných hledaným heslům, lze ve stávající morfologické databázi vyhledat n-tice jednotek, kde: • •
všechny členy jsou v databázi obsaženy; jednotlivé členy n-tice splňují požadovanou hypotézu.
Člen
Tvar S-izace S-istický S-ista S-ismus
1. 2. 3. 4.
Podmínka Subst. Žen. Adj. Subst. Muž. Živ. Subst. Muž. Neživ.
Tabulka 3: Příklad hypotézy
Předpokládejme nyní, že existuje algoritmus, který v příslušné morfologické databázi nalezne n-tice, které odpovídají lingvisticky stanovené hypotéze. Vzor
Vzor
1. člen růže realizace centralizace humanizace idealizace komunizace ... růže romanizace spiritualizace synchronizace
2. člen otrocký_P realistický centralistický centralistický idealistický komunistický ... starořecký_P romanistický spiritualistický synchronistický
3. člen husita_P Realista Centralista Centralista Idealista Komunista ... husita_P Romanista Spiritualista Synchronista
4. člen komunismus realismus centralismus humanismus idealismus komunismus ... komunismus Romanismus spiritualismus synchronismus
kolektivizace modernizace ...
kolektivistický modernistický ...
Kolektivista Modernista ...
kolektivismus modernismus ...
Tabulka 4: Automaticky nalezené čtveřice splňující hypotézu
Nyní v nalezeném seznamu n-tic uživatel určí, které n-tice jsou správné a které nikoliv. Vznikne tak seznam pozitivních příkladů a seznam výjimek ze stanovené hypotézy. Zde je třeba si uvědomit, že jednotky jsou již přiřazeny ke stávajícím tvarotvorným vzorům, které pravděpodobně od jednotek generují další tvary. Pro pozitivní příklady je možné vytvořit vzory, které dokáží z jednoho členu n-tice generovat ostatní jednotky. Hierarchickým spojením nového vzoru s původními vzory pro jednotlivé členy n-tice lze z jediného hesla odvodit nejen v n-tici sousední jednotky, ale i další tvary, které jsou generované od jednotek obsažených v n-tici pomocí příslušných původních vzorů. Pokud změny ve slovním tvaru realizované novým vzorem vyjadřují jasnou sémantickou relaci, pak lze jednotky „virtualizovat“, tj. v lexikonu neudržovat všechny jednotky, ale pro každou z nalezených n-tic pouze ty jednotky, které jsou základními (či spíše motivujícími) tvary pro jednotky hesla sousední. Jednotky, které takto ze slovníku vyřadíme, jsme schopni sestavit podle nového vzoru z příslušného motivujícího tvaru. Algoritmicky lze určit jak původní slovní tvary, které se od odvozené jednotky dříve generovaly, tak i odvodit původní lexikální význam. Zredukujeme tedy lexikon s využitím popisu slovotvorného procesu, který přináší prediktabilní změny v sémantice odvozovaných jednotek. Tento proces lze ilustrovat následujícím grafem.
Obrázek 1: Hierarchie slovotvorných vzorů
Je zde vidět, že podjednotky humanizace, humanisticky, humanistický, humanistčin, humanistka, humanistův, humanista, humanismus mohou být přiřazena buď k příslušným tvarotvorným vzorům: humanizace: růže humanisticky: otrocky humanistický: otrocký humanistčin: matčin humanistka: matka humanistův: otcův
humanista: husita humanismus: komunismus
nebo:
humanizace: růže humanistický: otrocký_P humanista: husita_P humanismus: komunismus
nebo k slovotvornému vzoru, resp. metavzoru: humanismus: komunismus_P
Ve druhém a třetím případě je patrná redukce lexikonu. Vzor komunismus_P odvozuje tvary výměnou řetězců na konci základního tvaru a příslušnou změnou atributů konstruované značky: smus→ zace, sticky, sta, smus Zde se nám přímo nabízí paralela s konečnými překladovými automaty (FST). Velmi dobře můžeme využít především vlastnosti řetězení FST (Roche, 1997). Tato vlastnost nám umožní konstruovat vzory jako hierarchické moduly, což je výhodné především pro omezení duplicity ukládaných informací a ke zvýšení přehlednosti. 8 Získávání slovotvorných vztahů V předchozím oddíle jsme se zabývali rozšiřováním morfologické databáze na základě pravidelných změn tvarů, které lze pozorovat ve slovotvorných procesech (Osolsobě et al., 2002). Ukázali jsme, že pokud slovotvorné procesy popíšeme pravidly, lze dosáhnout redukce slovníku kmenů a případně získat dokonce slovník kořenů. Abychom proces hledání diskrétního popisu slovotvorných procesů zjednodušili, implementovali jsme algoritmus, který hledá vztahy mezi řetězci odpovídajícími jednotlivým heslům ze slovníku morfologické databáze. Vstupem pro tento algoritmus je popis variací jednotlivých slovních tvarů spolu s podmínkami pro atributy příslušných značek. Pro popis variací slovních tvarů použijeme: • • • • •
proměnné $1, $2, … konstanty (odpovídající afixům) A11, operátor zřetězení + řet ězce Si podmínky, tj. omezení pro hodnoty daných atributů C1,C2,…
Vstup Jako zadání úlohy předpokládáme: • •
n…počet hledaných členů n-tici (S1,C1)…(Sn,Cn)
Vstup lze zapsat tak, že vedle sebe nebudou stát ani dvě konstanty, ani dvě proměnné, neboť: • dvě sousední konstanty lze spojit do jedné, • dvě proměnné lze oddělit konstantou pro řetězec nulové délky, • pokud požadujeme proměnnou na začátku, resp. konci řetězce, pak položíme Ai,1, resp. Ai,m rovno konstantě pro řetězec nulové délky. Každý řetězec Si lze tedy vždy zadat bez újmy na obecnosti takto:
Si = Ai,1 + $1 + Ai,2 + $2 + Ai,3 + …+ $m + Ai,m+1 Víme, že Ai,j jsou konstanty a $j jsou proměnné. Pro libovolný řetězec Si lze tedy napsat regulární gramatiku: S → Ai,1 $1 N1 $1|…|$m → E
N1 → Ai,2 $2 N2 E → a|aE|b|bE|…
…
Nm → Ai,m+1
Je zřejmé, že lze pro každý řetězec Si sestavit nedeterministický překladový automat, který na vstup dostane slovní tvar a na výstup dá množinu všech přípustných ohodnocení proměnných $1…$m, tj.množinu (i prázdnou) m-tic prvků. 9 Algoritmus Při hledání výsledku nejprve vybereme ty dvojice (Si,Ci), které mají v podmínce zakotven požadavek, aby jim odpovídající tvary byly v databázi. Těmto tvarům, řetězcům a dvojicím říkejme hledané. Tvary, které umíme algoritmicky určit z nalezených na základě dosazení hodnot za proměnné v řetězcích, označíme jako dedukované. Podobně jako v logickém programování (viz unifikaci v jazyce Prolog) i zde lze svým způsobem hovořit o volných a vázaných výskytech proměnných. Při přijetí daného slovního tvaru překladovým automatem (pro řetězec Si) je výstupem příslušné ohodnocení proměnných, které jsou obsaženy v Si. Pokud se stejné proměnné vyskytují i v dalších řetězcích, je možné je nahradit (často užívaný termín je instanciovat} hodnotami. Pro hledané řetězce Si tedy sestavíme postupně příslušné konečné překladové automaty s využitím instanciování proměnných. Pokud již v automatu nejsou žádné volné proměnné, pak je zřejmé, že příslušná dvojice je dedukovaná. (Současně může být i hledaná, to označíme jako dedukovaná+hledaná). Pořadí, ve kterém se budou jednotlivé automaty aplikovat, je předmětem optimalizací. Jistou část prohledávaného stavového prostoru můžeme předem vyloučit na základě podmínek Ci, tj. stačí prohledávat/vyloučit hesla přiřazená u vzorů, které zaručují/vylučují některé atributy značky. Předpokládáme, že pomocí hledaných řetězců lze instanciovat všechny proměnné použité v dedukovaných řetězcích tak, abychom mohli přesně určit dedukované tvary pouze ze znalosti hledaných tvarů, tj. že dedukované řetězce neobsahují volné proměnné. V opačném případě musíme algoritmus předčasně ukončit. Optimalizace určí pořadí aplikace jednotlivých automatů, které obsahují volné proměnné. Začneme s prohledáváním databáze, vezmeme první automat podle pořadí daného optimalizací. Postupně projdeme všechny jednotky a pro každou jednotku, kterou automat akceptuje, pak postupně pro všechna možná ohodnocení provedeme instanciaci proměnných a pokračujeme ve vyhledávání jednotek přípustných pro další (dle stanoveného uspořádání) automat, tj. hledáme další prvek výsledné n-tice. Pokud instanciujeme všechny proměnné, určíme všechny dedukované tvary a pokud jsou všechny dedukované+hledané tvary v databázi, pak na výstup můžeme odeslat aktuálně určenou n-tici. 10 První výsledky Obrázek 2 zobrazuje jednotlivé kroky při vytváření příslušné slovotvorné sítě. První krok reprezentuje tvoření mužských přivlastňovacích přídavných jmen příponou –ův. Je zřejmé, že
tvoření je pravidelné, paradigmatické, neboť počet lemmat se nezměnil; všechna byla přiřazena k flektivnímu vzoru otcův. V kroku A dochází ke tvoření přechýlených názvů příponou –ka. Je možné si všimnout, že vzory neumětel a Kocáb_nM byly odstraněny. Také počet lemmat přiřazených ke vzoru učitel se zredukoval na polovinu, konkrétně z 908 na 454. To znamená, že v naší morfologické databázi polovina činitelských názvů na –tel netvoří ženský protějšek. U tohoto výsledku očekáváme, že se potvrdí analýzou rozsáhlejšího korpusu. Krok B je opět pravidelný, představuje totiž tvoření ženských přivlastňovacích přídavných jmen příponou –in. V kroku C se vytvářejí přídavná jména příponou –ský a je vidět, že jde o proces mnohem méně pravidelný. Ze 454 možných lemmat přiřazených ke vzoru učitel tvoří pouze 113+21+16=150 příslušná přídavná jména. Tato adjektiva jsou navíc rozdělena do tří tvarotvorných vzorů pražský, společenský a kremžský podle toho, zda tvoří druhý stupeň, negaci a příslovce či nikoliv. Další krok D je opět pravidelný, jedná se o tvoření příslovcí z přídavných jmen zkrácením koncového -ý na –y. Tabulka 5 demostruje, že například z adjektiv přiřazených ke vzoru kremžský příslušná příslovce vytvářet nelze. Poslední krok E je nepravidelný, reprezentuje odvození podstatného jména příponou –ství z příslušného přídavného jména na –ský.
Obrázek 2: Slovotvorné hnízdo –tel, -ův, -ka, -in, -ský, -sky, -ství
11 Závěr Cílem článku bylo ukázat, jak mohou být popsány slovotvorné vztahy v češtině s pomocí morfologického analyzátoru ajka a systému i_par pro správu morfologické databáze. Data nezbytná pro relevantní popis obsahují: slovník kmenů analyzátoru čítající 385066 položek. Tyto kmeny pokrývají všechny slovní druhy. Dále využíváme 2042 flektivních vzorů a množinu přípon vybraných pro účely této práce. Jedná se o přípony: -tel, -ák, -ův, -ka, -in, ský, -cký, -sky, -cky, -ství, -ismus, -ista, -izace. V rámci článku jsme rovněž na vybraných příkladech demonstrovali, jak lze tvarotvorných vzorů využít při vytváření obecnějších, ale méně pravidelných vzorů slovotvorných. Předvedli jsme, jak jsou tyto dva typy vzorů vzájemně propojeny a naznačili aplikaci slovotvorných vzorů při algoritmickém popisu derivačních procesů v češtině. Zejména tento výsledek považujeme za přínos k současné teorii. Podle našeho názoru jsou vybrané příklady dostatečně obecné na to, abychom byli schopni tvrdit, že tímto způsobem lze popsat český slovotvorný systém v celé jeho šíři. V příspěvku jsme pracovali pouze s českými daty, nicméně věříme, že pokud by byla k dispozici podobná data pro ruštinu, slovenštinu, srbštinu nebo chorvatštinu atd., bylo by možné dojít ke stejným výsledkům. Je samozřejmé, že by bylo nutné formulovat jiné typy derivačních procesů pro ostatní slovanské jazyky, ale při využití podobného systému
flektivních vzorů a příslušných skupin derivačních přípon by systémy ajka a i_par jistě umožnily zjištění slovotvorných vztahů i v tomto případě naprosto spolehlivě a adekvátně. Pokračování tohoto výzkumu s integrovanými slovotvornými analyzátoru češtiny.
povede k vybudování českého derivačního slovníku pravidly a k následné implementaci slovotvorného
Poděkování Tento výzkum byl podporován finančními prostředky z výzkumného záměru CEZ:J07/98:143300003 Ministerstva školství České republiky.
číslo
Literatura 1. Daciuk, J. et al. 1998. Incremental Construction of Acyclic Finite-State Automata and Transducers, In Finite State Method in NLP, Bilknet University, Ankara. 2. Dokulil, M. 1962. Tvoření slov v češtině I, Nakladatelství ČSAV, Praha. 3. Hajič, J. 1994. Unification Morphology Grammar. Disertační práce, Matematickofyzikální fakulta UK, Praha. 4. Karlík, P. et al. 1995. Příruční mluvnice češtiny. Nakladatelství Lidové noviny, Praha. 5. Knuth, D. 1976. The Art of Computer Programming, díl 1., Addison Wesley. 6. Osolsobě, K. 1996. Algoritmický popis české formální morfologie a strojový slovník češtiny. Disertační práce, Filozofická fakulta MU, Brno 7. Osolsobě, K. et al. 2002. A procedure for Word Derivation Processes Concerning Lexicon Extension in Highly Inflected Languages. In: Proceedings of LREC 2002, ELRA, Las Palmas. 8. Petr, J. 1986. Mluvnice češtiny II. Academia, Praha. 9. Roche, E., Schabes, Y. 1997. Finite-State Language Processing, MIT Press. 10. Sedláček, R. 1999. Morfologický analyzátor češtiny. Diplomová práce, Fakulta informatiky MU, Brno. 11. Sedláček, R., Smrž, P. 2001. A New Czech Morphological Analyser Ajka. In: Proceedings of TSD 2001, Springer, Berlin. 12. Veber, M. 2002. Nástroje pro textové korpusy a morfologické databáze. Disertační práce, Fakulta informatiky MU, Brno 13. Vossen, P. 1998. Set of Common Base Concepts in EuroWordNet-2. Technická zpráva 2D001, Department of Computational Linguistics, Amsterodam.