}w !"#$%&'()+,-./012345
M ASARYKOVA UNIVERZITA FAKULTA INFORMATIKY
K poˇcítaˇcové morfologické analýze cˇ eštiny ˇ D ISERTA CNÍ PRÁCE
Pavel Šmerk
Školitel: doc. PhDr. Karel Pala, CSc. Brno, 2010
Prohlášení Prohlašuji, že tato disertaˇcní práce je mým puvodním ˚ autorským dílem, které jsem vypracoval samostatnˇe. Všechny zdroje, prameny a literaturu, které jsem pˇri vypracování používal nebo z nich cˇ erpal, v práci rˇ ádnˇe cituji s uvedením úplného odkazu na pˇríslušný zdroj.
iii
Podˇekování Svému školiteli Karlu Palovi dˇekuji nejen za trpˇelivé vedení v prubˇ ˚ ehu celého mého dlouhého studia, ale, a to zejména, za vytvoˇrení prostˇredí, které se dnes nazývá Centrum zpracování pˇrirozeného jazyka FI MU a které už dlouhou rˇ adu let umožnuje ˇ velkému množství lidí vzájemnˇe sdílet a rozvíjet své nápady, rˇ ešení a programové nástroje. Mimo takové prostˇredí by pˇredkládané výsledky vubec ˚ nebyly možné. Muj ˚ vdˇek samozˇrejmˇe patˇrí i všem ostatním, kteˇrí se na práci CZPJ podílejí. Tato stránka není dostateˇcnˇe dlouhá, abych je zde vyjmenoval, jistˇe ale i bez toho vˇedí, že spolupráce s nimi pro mˇe byla nenahraditelným pˇrínosem. Michalu Brandejsovi dˇekuji za to, že mˇe pˇred dávnými lety pˇrijal na CVT FI MU, a umožnil mi tak rozvoj v dalším velmi podnˇetném prostˇredí a navíc i výborném kolektivu. Pavlu Cahovi, Mojmíru Doˇcekalovi, Petru Karlíkovi, Tobiáši Scheerovi, a zejména Markétˇe Zikové jsem vdˇecˇ ný za to, jakým zpusobem ˚ mˇe nauˇcili pˇremýšlet o jazyce. Za trpˇelivost a podporu dˇekuji své manželce Veronice a holˇciˇcce Martince, ale v tomto pˇrípadˇe jsou všechna slova málo. Zvláštní dík patˇrí Karlu Palovi, Kláˇre Osolsobˇe a Lud’kovi Matyskovi za jejich podnˇetné poznámky k textu práce. Nakonec chci zduraznit, ˚ že výsledky dosažené v této práci by nebyly myslitelné bez nezmˇerné a cˇ asto mravenˇcí práce lidí, kteˇrí se podíleli na tvorbˇe dat morfologického analyzátoru ajka.
v
Shrnutí Práce se zabývá problematikou strojové morfologické analýzy cˇ eštiny. Nejprve jsou pˇredstaveny v souˇcasnosti používané zpusoby ˚ organizace zdrojových dat morfologického analyzátoru a na pˇríkladech doloženy nevýhody, které jsou s nimi nevyhnutelnˇe spojeny. V následující cˇ ásti práce je navržen zcela nový formát dat, který umožní výraznˇe snížit stávající vysokou redundanci, nabídne lepší prostˇredky pro zachycení derivaˇcních vztahu˚ a sémantických informací, dovolí rozlišit jevy produktivní od okrajových a v neposlední rˇ adˇe umožní i lingvisticky pˇrijatelnˇejší popis dat. Další cˇ ást práce se stejným zpusobem ˚ zabývá samotným morfologickým analyzátorem: nejprve jsou popsány nevýhody souˇcasného rˇ ešení a poté je pˇredstaven analyzátor nový, pro cˇ eštinu poprvé využívající algoritmu˚ pro práci s minimálními deterministickými acyklickými koneˇcnˇe stavovými automaty Jana Daciuka. Vytvoˇrený analyzátor je oproti existujícím nˇekolikrát rychlejší a zárovenˇ výraznˇe jednodušší, což je, jak ukazuje praxe, velmi podstatná vlastnost pro další údržbu a rozvoj.
vii
Abstract The thesis is concerned with computational morphology of Czech. Current approaches to organization of the morphological dictionary as well as to implementation of the morphological analyser have some serious drawbacks, which are described in the thesis. Hence the main goal of this work is to design a new format of the morphological data and to implement a new analyser. The proposed data format allows to decrease high redundancy of the current data, offers better means for distinguishing regularity and idiosyncrasy, and, last but not least, offers better interpretable data from the linguistic point of view. The new analyser uses Jan Daciuk’s algorithms for minimal deterministic acyclic finite state automata. It is several times faster than the current ones, although its code is much more simple.
ix
Klíˇcová slova morfologická analýza, morfologický analyzátor, formální morfologie, formální slovotvorba, strojový popis jazyka, strojový slovník, deterministické acyklické koneˇcnˇe stavové automaty morphological analysis, morphological analyser, formal morphology, formal word formation, computer based language description, machine dictionary, deterministic acyclic finite state automata
xi
Obsah 1 2
3
4
Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Nˇekolik poznámek k formˇe . . . . . . . . . . . . . . . . . . Stávající formáty dat morfologického analyzátoru . . . . . . . 2.1 Princip organizace dat . . . . . . . . . . . . . . . . . . . . . 2.2 Pˇríklad konkrétního formátu dat . . . . . . . . . . . . . . . 2.3 Nevýhody stávajícího formátu . . . . . . . . . . . . . . . . 2.3.1 Redundance popisu . . . . . . . . . . . . . . . . . . 2.3.2 Obsahová nekonzistence jako dusledek ˚ redundance Nový formát na pˇríkladu životných maskulin . . . . . . . . . . 3.1 Obecná charakteristika nového formátu . . . . . . . . . . . 3.2 Životná maskulina jako pˇríklad realizace . . . . . . . . . . 3.3 Základní podoba dat . . . . . . . . . . . . . . . . . . . . . . 3.4 Grafické zmˇeny na konci slovního základu . . . . . . . . . 3.5 Stˇrídání vokálu˚ s nulou . . . . . . . . . . . . . . . . . . . . . 3.6 Zmˇeny konce slovního základu v kontextu koncovky -i . . 3.7 Výbˇer koncovky podle vlastností slovního základu . . . . 3.8 Odvozené vzory . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.1 Systémovost oproti nahodilosti . . . . . . . . . . . . 3.8.2 Vzor soudce . . . . . . . . . . . . . . . . . . . . . . . 3.9 Omezené vzory . . . . . . . . . . . . . . . . . . . . . . . . . 3.10 Alternativa k odvozeným vzorum ˚ . . . . . . . . . . . . . . 3.11 Hovorové a nespisovné tvary . . . . . . . . . . . . . . . . . 3.12 Nepravidelné tvary . . . . . . . . . . . . . . . . . . . . . . . 3.12.1 Více slovních základu˚ . . . . . . . . . . . . . . . . . 3.12.2 Stˇrídání dlouhých a krátkých vokálu˚ . . . . . . . . . 3.12.3 Poznámka ke stˇrídání hlásek obecnˇe . . . . . . . . . 3.13 Minivzory . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.14 Rozdílnost psané a vyslovované podoby . . . . . . . . . . . 3.15 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Od slovníku vzoru˚ ke slovníku rysu˚ . . . . . . . . . . . . . . . 4.1 Homonymie a totožnost . . . . . . . . . . . . . . . . . . . . 4.2 Ztotožnˇení pravidelnˇe shodných koncovek . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 4 5 5 6 8 9 10 13 13 15 16 18 18 20 21 23 25 26 27 28 31 33 34 36 37 38 39 40 41 41 43 1
4.2.1 Ztotožnˇení jednotlivých shodných koncovek . . . . . Tvorba znaˇcky . . . . . . . . . . . . . . . . . . . . . . . . . . . Rozšíˇrení tvorby znaˇcek i na slovník . . . . . . . . . . . . . . 4.4.1 Sklonování ˇ slov typu despota . . . . . . . . . . . . . . 4.4.2 Sklonování ˇ slov typu gigolo a výbˇer podle znaˇcky . . 4.5 Implicitní znaˇcka a implicitní vzory v rámci definice slova . 4.5.1 Poznámka k nepravidelným tvarum ˚ . . . . . . . . . . 4.6 Deklinace urˇcovaná slovotvornými pˇríponami . . . . . . . . 4.6.1 Adjektivní deklinace . . . . . . . . . . . . . . . . . . . 4.7 Smˇerem ke slovníku rysu˚ . . . . . . . . . . . . . . . . . . . . 4.7.1 Základní formát implicitních pravidel . . . . . . . . . 4.7.2 Formát podmínky a pˇridání rysu˚ . . . . . . . . . . . . 4.7.3 Omezení vzoru˚ a optimalizace podmínek . . . . . . . 4.7.4 Vyhodnocování implicitních pravidel . . . . . . . . . 4.8 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Diskuse vlastností a možností navrhovaného formátu . . . . . . 5.1 Vztah formátu k souˇcasným mluvnicím cˇ eštiny . . . . . . . . 5.2 Vztah k Internetové jazykové pˇríruˇcce . . . . . . . . . . . . . 5.2.1 Obecnˇe o Internetové jazykové pˇríruˇcce . . . . . . . . 5.2.2 Pˇrípadová studie životných maskulin konˇcících na or 5.3 Srovnání s aktuální podobou pražského formátu . . . . . . . 5.3.1 Slovotvorba . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Lemmatizace . . . . . . . . . . . . . . . . . . . . . . . 5.3.3 Zlaté pravidlo morfologie . . . . . . . . . . . . . . . . 5.4 Srovnání s dalšími existujícími pˇrístupy . . . . . . . . . . . . 5.5 Pˇredpokládaný další rozvoj navrhovaného formátu . . . . . 6 Nový morfologický analyzátor . . . . . . . . . . . . . . . . . . . . 6.1 Puvodní ˚ morfologický analyzátor ajka . . . . . . . . . . . . 6.2 Reprezentace dat deterministickými koneˇcnými automaty . 6.3 Tvorba dat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4 Nový morfologický analyzátor . . . . . . . . . . . . . . . . . 6.5 Výhody nového analyzátoru . . . . . . . . . . . . . . . . . . . 7 Závˇer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A Pˇríklad souboru vzoru˚ pro životná maskulina . . . . . . . . . . . ˇ A.1 Cást specifická pro životná maskulina . . . . . . . . . . . . . ˇ A.2 Cást sdílená s jinými rody cˇ i slovními druhy . . . . . . . . . A.3 Nˇekolik poznámek ke vzorum ˚ . . . . . . . . . . . . . . . . . B Obsah elektronické pˇrílohy . . . . . . . . . . . . . . . . . . . . . . C Regulární výrazy použité v práci . . . . . . . . . . . . . . . . . . . 4.3 4.4
2
45 46 48 49 50 52 54 54 56 57 58 59 60 62 64 65 66 69 69 70 75 76 77 79 81 83 85 85 87 89 91 93 95 103 103 105 107 109 110
Kapitola 1
Úvod Puvodním ˚ zámˇerem mého doktorského studia bylo navázat na diplomovou práci a vytvoˇrit co nejlepší morfologický desambiguátor cˇ eských textu. ˚ Na otázky svého okolí, cˇ ím se vlastnˇe zabývám, jsem vždy vysvˇetloval, že morfologická analýza, tedy urˇcení, jakých všech gramatických významu˚ muže ˚ urˇcitý slovní tvar nabývat, je problém v podstatˇe koneˇcný, a tedy již dávno uspokojivˇe vyˇrešený. Zato morfologická desambiguace, rˇ íkal jsem, tedy urˇcení, jakého gramatického významu nˇejaký slovní tvar nabývá v konkrétní vˇetˇe, je problém výraznˇe složitˇejší, a právˇe k jeho rˇ ešení že se snažím pˇrispˇet. Postupem cˇ asu se ale ukazovalo, že kvalitní desambiguace vyžaduje kromˇe morfologického analyzátoru i dobrý guesser, „hadaˇc “ pro slova, která analyzátor nezná. Pˇri jeho tvorbˇe se dále projevilo, že pˇri takovém hádání by bylo dobré vˇedˇet, které slovotvorné a tvarotvorné prostˇredky jsou produktivní a které už pˇrípadnˇe nikoli. Užiteˇcné pro desambiguaci, ale ostatnˇe i pro guesser, se zdály být i derivaˇcní vztahy mezi slovy. Stejnˇe tak pˇrínosné by mohly být i nˇejaké základní sémantické tˇrídy jednotlivých slov. Pˇridání všech tˇechto informací do dat morfologického analyzátoru bylo ale bud’to nemožné, nebo pˇrinejmenším nepˇrijatelnˇe komplikované. A teprve pˇri snaze o rˇ ešení tˇechto problému˚ jsem poznal, jak jsem se mýlil v puvodním ˚ pˇresvˇedˇcení, že k souˇcasnému pojetí automatické morfologické analýzy už není moc co pˇridat. Má disertaˇcní práce se tedy nakonec vˇenuje pouze problematice morfologické analýzy cˇ eštiny. Nejprve pˇredstavím stávající formát zdrojových dat a ukážu nevýhody, které jsou s ním nevyhnutelnˇe spojeny. Poté navrhnu nový formát dat, který umožní snížit stávající vysokou redundanci, nabídne lepší prostˇredky pro zachycení derivaˇcních vztahu˚ a sémantických informací, dovolí rozlišit jevy produktivní od okrajových a v neposlední rˇ adˇe umožní i lingvisticky pˇrijatelnˇejší popis dat. Navržený formát bude dokladem, že dosavadní rozdíl mezi poˇcítaˇcovým a mluvnickým popisem morfologie není nezbytný, ale že je naopak možné, a navíc i výhodné poˇcítaˇcový popis významnˇe pˇriblížit tomu lingvistickému. 3
1. Ú VOD V další cˇ ásti práce pˇredstavím nový morfologický analyzátor, který pro cˇ eštinu poprvé využívá algoritmu˚ pro práci s minimálními deterministickými acyklickými koneˇcnˇe stavovými automaty Jana Daciuka (1998), kdy analýza slovního tvaru znamená pouhý pruchod ˚ automatem reprezentujícím data. Oproti stávajícím analyzátorum ˚ je tak nový analyzátor nˇekolikanásobnˇe rychlejší, zárovenˇ je ale i výraznˇe jednodušší, což je, jak ukazuje praxe, velmi podstatná vlastnost pro jeho další údržbu a rozvoj.
1.1
Nˇekolik poznámek k formˇe
Konkrétní slovní tvary cˇ i jejich cˇ ásti, jména vzoru˚ a podobnˇe budu pro pˇrehlednost psát odlišným druhem písma. Pokud budu chtít akcentovat jejich rˇ eknˇeme fungování v jazykovém systému, budu je zapisovat kurzívou. Strojopisnému písmu dám pˇrednost v pˇrípadˇe, že je budu v dané chvíli chtít vnímat spíše jako rˇ etˇezce znaku, ˚ se kterými nˇejakým zpusobem ˚ operuji. Hranice mezi tˇemito dvˇema variantami ovšem nebude nijak ostrá. Pro oznaˇcení gramatických pádu˚ a cˇ ísel budu po vzoru Mluvnice cˇ eštiny 2 (Petr a kol., 1986b) používat Nsg, Gsg atd., protože je to úspornˇejší než jiné varianty.1 Pro nemožnost vyjádˇrit takovými zkratkami pád je navíc budu používat i v pozici shodného pˇrívlastku, tedy napˇríklad psát sice tvar genitivu singuláru, ale Gsg tvar. V práci hojnˇe využívám poznámek pod cˇ arou. Do tˇechto poznámek odsunuji doplnující ˇ cˇ i upˇresnující ˇ informace, které nemají zásadní význam pro hlavní text. Ten by mˇel být srozumitelný i bez nich. Jednotlivé cˇ ásti práce jsou provázané pomˇernˇe velkým množstvím odkazu. ˚ Na pˇriloženém CD je kromˇe jiného i text práce ve formátu PDF, kde jsou všechny tyto odkazy aktivní, takže se jimi lze pˇri použití vhodného prohlížeˇce pˇresunovat v textu. Protože je práce z velké cˇ ásti založena na kontrastu s existujícími rˇ ešeními, pˇredpokládám u cˇ tenáˇre základní obeznámenost s problematikou poˇcítaˇcového zpracování morfologie cˇ eštiny. Nebudu tedy napˇríklad definovat obecnˇe používané termíny jako tˇreba lemmatizace cˇ i znaˇcka. * Problematika morfologické analýzy cˇ eštiny touto prací samozˇrejmˇe není ani v nejmenším vyˇcerpána. Na stránce http://nlp.fi.muni.cz/ma/ budu udržovat aktuální informace související s touto prací i ( „brnˇenskou“) morfologickou analýzou obecnˇe. 1. N, G, D, A, V, L a I znaˇcí postupnˇe první až sedmý pád, sg znamená jednotné cˇ íslo, pl je cˇ íslo množné.
4
Kapitola 2
Stávající formáty dat morfologického analyzátoru V oblasti poˇcítaˇcové morfologické analýzy cˇ eštiny dnes v akademickém svˇetˇe1 výraznˇe dominují dva systémy, podle míst svého vzniku cˇ asto oznacˇ ované jako pražský a brnˇenský.2 Zájemce o podrobnˇejší informace o pražském systému odkazuji zejména na habilitaˇcní práci Jana Hajiˇce (2004) a nedávnou disertaˇcní práci Jaroslavy Hlaváˇcové (2009). Brnˇenský systém vychází z disertaˇcní práce Kláry Osolsobˇe (1996), další informace, zejména o aktuální podobˇe dat a implementaci analyzátoru, je pak možné najít v diplomové a disertaˇcní práci Radka Sedláˇcka (1999; 2004) a v disertaˇcní práci Marka Vebera (2005). V této kapitole ukážu, jakým zpusobem ˚ jsou ve zmínˇených systémech organizována jejich zdrojová data a jak tento zpusob ˚ nutnˇe vede k vysoké redundanci informace. Poté na pˇríkladech doložím nevyhnutelné negativní dusledky ˚ této redundance, z cˇ ehož vyvodím, že má smysl hledat jiný zpusob ˚ popisu jazykových dat.
2.1
Princip organizace dat
Organizace zdrojových dat morfologického analyzátoru je u obou systému˚ v principu shodná. Obsahují slovník základu˚ a k nˇemu nˇejaký soubor vzoru, ˚ tedy množin koncovek3 opatˇrených znaˇckami. Pro každý základ je ve 1. Toto vymezení je pˇrevzato z (Hlaváˇcová, 2009). Lze se domnívat, že napˇríklad velké komerˇcní spoleˇcnosti, které pracují s textovými daty, nˇejakým zpusobem ˚ rˇ eší pˇrinejmenším otázku lemmatizace, pravdˇepodobnˇe ale i morfologické analýzy a syntézy, nebo dokonce slovotvorných vztahu. ˚ Pˇríkladem muže ˚ být zadávání tvaru˚ cˇ eských slov do internetového vyhledávaˇce Google, kdy je na výsledcích patrné, že vyhledávací program zvládá i nˇekteré derivaˇcní vztahy. Je ale obtížné získat o takových systémech bližší informace. 2. Oba systémy realizují i syntézu, tedy generování tvaru˚ slova podle zadaných parametru, ˚ v rámci analýzy provádˇejí lemmatizaci, nˇejakým zpusobem ˚ pracují s nˇekterými slovotvornými vztahy atp. V celé práci používám slova (morfologická) analýza cˇ i (morfologický) analyzátor i v širším slova smyslu, tedy zahrnujícím všechny tyto jednotlivé cˇ innosti. 3. Za koncovky jsou v tˇechto systémech pokládány rˇ etˇezce, které se mohou, ale nemusejí shodovat s mluvnickými koncovkami.
5
2. S TÁVAJÍCÍ FORMÁTY DAT MORFOLOGICKÉHO ANALYZÁTORU slovníku specifikován vzor tak, že pˇripojením jeho koncovek k danému základu lze získat správné slovní tvary spolu s jejich znaˇckami. Samozˇrejmˇe, mezi obˇema systémy je množství rozdílu˚ ve zpusobu, ˚ jak konkrétnˇe je tento obecný princip realizován. V pražském systému tak napˇríklad mohou být tvary téhož slova tvoˇreny od více základu˚ a/nebo vzoru, ˚ v brnˇenském v souˇcasnosti popisuje tvary jednoho slova vždy jen jedna dvojice základ a vzor. V Brnˇe je dále každý slovní tvar výsledkem pˇripojení koncovky definované vzorem ke slovnímu základu, což ve spojení s pˇredchozím v dusledku ˚ znamená nutnou existenci samostatného vzoru pro každé slovo, které se ohýbá unikátnˇe vzhledem k ostatním. V Praze oproti tomu jsou tvary slov, pro která neexistuje alesponˇ devˇet stejným zpuso˚ bem ohýbaných lemmat, rˇ azeny pˇrímo do slovníku4 , pˇrípadnˇe je dokonce možné cˇ ást tvaru˚ popsat pomocí vzoru a cˇ ást explicitním uvedením celých slovních tvaru. ˚ V Brnˇe musí být lemmatem jeden ze slovních tvaru, ˚ v Praze nikoli nutnˇe. Slovní tvar se ve skuteˇcnosti v Brnˇe skládá nejen ze základu a koncovky, ale vždy je mezi nimi ještˇe takzvaný intersegment. A tak dále. Dalo by se takto pokraˇcovat, ale tyto ani další rozdíly ted’ nejsou podstatné. Duležité ˚ je, že základy a koncovky jsou pojímány jako rˇ etˇezce, které se pouze skládají k sobˇe, aniž by pˇri tom byly nˇejak modifikovány.
2.2
Pˇríklad konkrétního formátu dat
Bližší pˇredstavu o aktuálnˇe používaných zpusobech ˚ popisu jazykových dat se pokusím cˇ tenáˇri poskytnout uvedením a okomentováním pˇríkladu˚ z datových souboru˚ brnˇenského morfologického analyzátoru ajka (Sedláˇcek, 2004). Protože se v další cˇ ásti práce budu vˇenovat zejména podstatným jménum ˚ mužského rodu životného, budu jen mezi nimi vybírat pˇríklady i v této kapitole. Podobu formátu tedy demonstruji na vzoru Luděk. Data strojového popisu morfologie cˇ eštiny jsou rozdˇelena do dvou souboru, ˚ slovníku a souboru vzoru. ˚ Ve slovníku jsou na jednotlivých rˇ ádcích lemmata a jejich vzory spolu s cˇ ísly pˇrípadných poznámek. Na pˇríkladu 2.1 (všech) lemmat zaˇrazených ke vzoru Luděk lze vidˇet konkrétní formu, kdy pˇred dvojteˇckou je lemma, za dvojteˇckou jméno vzoru a volitelnˇe za svislítkem seznam cˇ ísel poznámek. 4. Hranici 10 lemmat uvádí Jan Hajiˇc (2004). Naproti tomu ale Jaroslava Hlaváˇcová (2009) napˇr. na stranˇe 109 navrhuje cˇ ást názvu vzoru Du (jména vzoru˚ nesou význam), jíž ale, jak sama v poznámce uvádí, vyhovuje jediné slovo. Na podstatˇe rozdílu mezi systémy, tedy (ne)možnosti zaˇradit výjimky pˇrímo do slovníku, ovšem konkrétní podoba kritéria výjimeˇcnosti nic nemˇení.
6
2. S TÁVAJÍCÍ FORMÁTY DAT MORFOLOGICKÉHO ANALYZÁTORU
Luděk:Luděk|180.1 Vladěk:Luděk|180.1 hlemýžděk:Luděk|180.1 ˇ Pˇríklad 2.1. Cást slovníku ajky.
=rs-mluv-NEWES204 {_, k1gMnSc1} =rs-mluv-NEWES99 {i, k1gMnPc1} =rs-mluv-NEWES102 {i, k1gMnPc5} =rs-mluv-NEWES386 {ů, k1gMnPc2} =rs-mluv-NEWES499 {ovi, k1gMnSc3} {ovi, k1gMnSc6} ... +Luděk
rs-mluv-NEWES204 <ďc> rs-mluv-NEWES99, rs-mluv-NEWES102, rs-mluv-NEWES385 <ďk> rs-mluv-NEWES386, rs-mluv-NEWES499, rs-mluv-NEWES460, rs-mluv-konc12, rs-mluv-NEWES510, rs-mluv-NEWES74, rs-mluv-NEWES71, rs-mluv-NEWES294, rs-mluv-NEWES521, rs-mluv-NEWES522, rs-mluv-NEWES163, rs-mluv-NEWES171, rs-mluv-NEWES299, rs-mluv-konc08, rs-mluv-konc09 ˇ Pˇríklad 2.2. Cást souboru vzoru˚ ajky.
7
2. S TÁVAJÍCÍ FORMÁTY DAT MORFOLOGICKÉHO ANALYZÁTORU Soubor vzoru˚ má dvˇe cˇ ásti. V první jsou definovány takzvané koncovkové množiny, v druhé potom samotné vzory. Vzor je definován seznamem intersegmentu˚ 5 , kdy je ke každému z nich dále uveden nˇejaký seznam koncovkových množin. Koncovková množina je pak seznam dvojic koncovka a znaˇcka.6 Pˇríklad 2.2 ukazuje definice vzoru Luděk a nˇekterých tímto vzorem používaných koncovkových množin; jakým zpusobem ˚ tato konkrétní forma odpovídá právˇe popsanému významu, je pˇredpokládám zˇrejmé (znak _ zastupuje prázdnou koncovku, pˇrípadnˇe prázdný intersegment). Interpretace dat je následující: pro každé lemma se vezme z jeho vzoru první intersegment, z jeho seznamu koncovkových množin první množina a z ní první koncovka.7 Vybraná koncovka a po ní i vybraný intersegment jsou odtrženy od konce zpracovávaného lemmatu, pˇriˇcemž zbylý rˇ etˇezec (muže ˚ být i prázdný) je spoleˇcný všem jeho tvarum. ˚ Lze jej tedy vzít jako základ a postupnˇe k nˇemu pˇripojovat jednotlivé intersegmenty a pro každý z nich dále jednotlivé koncovky jemu pˇríslušejících koncovkových množin, a získávat tak slovní tvary daného lemmatu zárovenˇ s jejich znaˇckami. Na uvedených pˇríkladech by to tedy vypadalo následovnˇe: k lemmatu Vladěk by byly podle vzoru Luděk vybrány intersegment děk a koncovka _. Spoleˇcný základ všech tvaru˚ by tedy byl Vla a pˇripojováním intersegmentu˚ a koncovek by byly postupnˇe získávány tvary Vladěk se znaˇckou k1gMnSc1, Vlaďci se znaˇckou k1gMnPc1 a pak i se znaˇckou k1gMnPc5 atd.
2.3
Nevýhody stávajícího formátu
Tím menším z problému˚ je formální nekonzistence, kterou pˇredstavený formát pˇripouští.8 Tedy skuteˇcnost, že tentýž výsledek, tutéž množinu slovních tvaru˚ odvozených z urˇcitého lemmatu, lze popsat ruznými ˚ zpusoby ˚ 5. V souˇcasnosti je intersegment cˇ istˇe technický prostˇredek, který lze ve slovních tvarech vymezit libovolnˇe. K významu v puvodní ˚ podobˇe brnˇenského systému viz (Osolsobˇe, 1996). 6. Znaˇcky jsou v brnˇenském systému posloupnosti dvojic symbolu˚ pro gramatické kategorie a jejich hodnoty. Popis možných kategorií a hodnot lze najít v (Sedláˇcek, 2006). Protože v další cˇ ásti práce budu mluvit zejména o substantivech, významy jejich znaˇcek pˇripomenu pˇrímo zde: k1 znaˇcí první slovní druh, tedy substantiva, g znamená gramatický rod a mu˚ že nabývat hodnot M pro mužský životný, I pro mužský neživotný, F pro ženský a N pro stˇrední, n je cˇ íslo s hodnotami S pro singulár a P pro plurál a koneˇcnˇe c odpovídá kategorii pádu s hodnotami 1 až 7. Za poznámku ještˇe stojí, že puvodnˇ ˚ e byly znaˇcky koncipovány jako množiny takových dvojic, v nichž by tedy nezáleželo na poˇradí, ale protože to je obecnˇe implementaˇcnˇe nároˇcnˇejší, vˇetšina aplikací pˇredpokládá pevné, zaužívané poˇradí. 7. Je tedy zˇrejmé, že oznaˇcení koncovková množina není zcela adekvátní, protože v tomto (jediném) pˇrípadˇe záleží na poˇradí dvojic koncovka a znaˇcka. 8. Tento odstavec se týká jen brnˇenských dat, o pražských nemám dostateˇcné informace.
8
2. S TÁVAJÍCÍ FORMÁTY DAT MORFOLOGICKÉHO ANALYZÁTORU — a že se tak v datech skuteˇcnˇe dˇeje, aniž by ale taková ruznost ˚ nesla nˇejaký význam. Napˇríklad uspoˇrádání koncovek do koncovkových množin je arbitrární, jak je vidˇet i na pˇríkladu 2.2: ve všech pˇrípadech pro Npl a Vpl stejné9 i je popsáno dvˇema koncovkovými množinami, stejnˇe tak vždy stejné ovi pro Dsg a Lsg ovšem naproti tomu tvoˇrí jednu množinu. Podobnˇe arbitrární je i hranice mezi intersegmentem a koncovkou: v datech je napˇríklad vzor Jiří, u nˇehož jsou mluvnické koncovky souˇcástí intersegmentu. ˚ Takto by bylo možné pokraˇcovat10 , podstatné ale je, že v datech jsou takové nekonzistence pˇresto, že je do nich jistˇe nikdo z editoru˚ nechtˇel vnášet.11 Nanejvýš možná nevynakládali dostateˇcné úsilí pˇri snaze jejich vzniku brᡠceno jinak: udržení formální konzistence bylo zˇrejmˇe pˇríliš „drahé“. nit. Reˇ 2.3.1
Redundance popisu
Pˇrinejmenším ve svých dusledcích ˚ je huˇ ˚ re rˇ ešitelným problémem stávajícího pˇrístupu k popisu dat jeho vysoká redundance. Skuteˇcnost, že rˇ etˇezce ze zdrojových dat, z nichž jsou sestavovány slovní tvary, nejsou nijak modifikovány, ale pouze spojovány dohromady, vynucuje pro takto pojatý formální popis jazyka tvorbu velkého poˇctu vzoru. ˚ V pˇríkladu 2.2 uvedený vzor Luděk lze použít jen pro (pouhá tˇri, viz pˇríklad 2.1) slova konˇcící v Npl na děk a v Gpl na ďka. Jak pro slovo Staněk, tak pro tˇreba slovo medvídek budou potˇreba vzory odlišné, a nadto i vzájemnˇe ruzné, ˚ pˇrestože asi i jen prumˇ ˚ erný žák základní školy by potvrdil, že všechna zmínˇená slova se sklonují ˇ úplnˇe stejnˇe. Protože ovšem vzory nemohou být od této 9. Tedy že neexistuje životné maskulinum, které by v jednom z tˇechto pádu˚ mohlo konˇcit na -i a v druhém nikoli. 10. Aktuálnˇe jsou problémem tohoto druhu i souˇcasné kryptické názvy koncovkových množin vytvoˇrené pˇred lety Radkem Sedláˇckem pˇri pˇridávání nespisovných tvaru. ˚ Podobnˇe je problematická i skuteˇcnost, že až na první intersegment, první koncovkovou množinu a první koncovku formát pˇripouští libovolné poˇradí, takže dva vzory lišící se navzájem v jediné koncovce mohou pˇri prvním pohledu vypadat zcela odlišnˇe (a skuteˇcnˇe k tomu dochází). Nejsou výjimkou totožné koncovkové skupiny, napˇríklad k první skupinˇe z pˇríkladu 2.2 existují dvˇe další odlišující se jen jménem. A tak podobnˇe. Toto jsou ale nesrovnalosti, které by šlo pomˇernˇe nejsnáze napravit a stejnˇe tak by je bylo možné relativnˇe snadno i dále udržovat. I zde jsem ostatnˇe mohl pro vˇetší pˇrehlednost koncovkové množiny v pˇríkladu 2.2 vhodnˇe pˇrejmenovat, ale protože kompletní aktuální vzory pro mužský rod životný pˇrikládám pro srovnání v elektronické podobˇe (viz dále podkapitolu 3.2 a pˇrílohu B), nechal jsem ukázky dat v originálním tvaru. 11. Jak cˇ ásteˇcnˇe plyne už z poznámky 5, v puvodních ˚ datech (Osolsobˇe, 1996), byt’ tehdy ještˇe v jiném formátu, samozˇrejmˇe takové nekonzistence nebyly: hranice mezi intersegmenty a koncovkami odpovídaly mluvnicím a do koncovkových množin byly koncovky organizovány podle pevných a v práci detailnˇe popsaných pravidel (tˇrebaže pˇresnou motivaci tˇechto pravidel se mi z práce nepodaˇrilo vyˇcíst).
9
2. S TÁVAJÍCÍ FORMÁTY DAT MORFOLOGICKÉHO ANALYZÁTORU reality odtržené, budou se cˇ asto lišit jen minimálnˇe, aby zachytily drobné odlišnosti ve stˇrídání hlásek, nebo dokonce i jen rozdíly v grafickém zápisu tˇechto tvaru˚ (napˇr. se budou odlišovat ruznými ˚ intersegmenty, u kterých ovšem budou uvedeny stejné koncovkové množiny). V brnˇenském systému se k tomu ještˇe pˇripojuje už v podkapitole 2.1 zmínˇená nutnost ruzných ˚ vzoru˚ pro každá dvˇe slova, která se ohýbají roz12 dílným zpusobem. ˚ Takže napˇríklad pˇridání vokativu˚ typu Pavli, Peti, Káji cˇ i Marti k osobním jménum ˚ Pavel, Petr, Kája, resp. Martin, které bylo potˇrebné pro práci s Korpusem soukromé korespondence (Hladká a kol., 2005), si vynutilo vznik cˇ tyˇr nových vzoru, ˚ pro každé jméno jeden. Tyto nové vzory se ale od vzoru, ˚ ke kterým byla zmínˇená jména zaˇrazena pˇred pˇridáním alternativních vokativu, ˚ liší právˇe jen tímto novˇe pˇridaným tvarem, zbytek ˇ vzoru je vždy nutnˇe stejný. Ctenᡠre v této chvíli už asi pˇríliš nepˇrekvapí, že aktuální poˇcet vzoru˚ v brnˇenských datech je 1839. 2.3.2
Obsahová nekonzistence jako dusledek ˚ redundance
Udržovat takové množství vzoru˚ je nároˇcné, takže v praxi pak v datech postupem cˇ asu pˇribývá nekonzistencí nejruznˇ ˚ ejšího druhu, zejména u ménˇe obsazených vzoru˚ nebo pˇri pˇridávání nových slov. Pro ilustraci uvedu nˇekolik ruznorodých ˚ pˇríkladu˚ (z brnˇenských dat), pˇriˇcemž budu opˇet vybírat jen ze substantiv mužského rodu životného.13 Množství nekonzistencí bylo zpusobeno ˚ pˇridáváním nespisovných tvaru˚ (Hlaváˇcková a Sedláˇcek, 2006). Napˇríklad vˇetšinˇe vzoru˚ pro slova sklonovaná ˇ podle školního vzoru muž byla pro Gsg tvar pˇridána nespisovná koncovka a. Nestalo se tak ale u vzoru˚ pro slova konˇcící na ď, ň nebo ť, tedy ve výsledku data pˇripouštˇejí napˇr. (nespisovný) tvar muža, nikoli ale tˇreba tvar tuleňa.14 Odlišné povahy je nekonzistence vzniklá plošným pˇri12. Pˇri nejasnostech v interpretaci tohoto slova lze jako mˇerˇ ítko vzít napˇríklad soubory nutných rˇ etˇezcových nahrazení pro pˇremˇenu lemmatu na jednotlivé slovní tvary. 13. K práci pˇrikládám v elektronické podobˇe soubory, které dokumentují zmˇeny provedené v datech. V nich je možné v pˇrípadˇe zájmu dohledat další pˇríklady nekonzistencí (soubory nejsou urˇceny primárnˇe k tomuto úˇcelu, ale komentáˇre v nich by mˇely k orientaci postaˇcit). Viz dále podkapitolu 3.2 a pˇrílohu B. 14. Bližší pohled do dat odhaluje pravdˇepodobnou pˇríˇcinu této konkrétní nesrovnalosti. Vznikla nejspíš tak, že vzory byly mˇenˇeny nˇejakým skriptem, který plošnˇe pˇridával nespisovnou Gsg koncovku a všem vzorum ˚ slov v tradiˇcních mluvnicích rˇ azených k paradigmatu muž. Vzory, které vyžadují zamýšlenou úpravu, skript zˇrejmˇe rozpoznával podle toho, že v Gsg mˇely spisovnou koncovku e (a patrnˇe ještˇe podle nˇejakého dalšího omezujícího kritéria vyluˇcujícího vzory jako napˇr. kníže, kteréžto kritérium se mi ale nepodaˇrilo zpˇetnˇe rekonstruovat). Takový pˇrístup byl ovšem chybný. Autor skriptu si neuvˇedomil, že v pˇrípadech vzoru˚ pro slova konˇcící v Nsg na ď, ň nebo ť bude v Gsg místo e koncovka ě.
10
2. S TÁVAJÍCÍ FORMÁTY DAT MORFOLOGICKÉHO ANALYZÁTORU dáváním nespisovných Ipl koncovek ama. U vzoru˚ pro antická jména, jako tˇreba Aeolus, editor pˇridal i koncovku usama, aniž by ale pˇridal i analogické koncovky jako tˇreba usa pro Gsg, usovi pro Dsg atd. Takže napˇríklad od lemmatu Oidipus lze podle tohoto vzoru vytvoˇrit tvar Oidipusama, nikoli ale tvary Oidipusa, Oidipusovi atp. Zkusí-li ovšem cˇ lovˇek takové tvary zadávat internetovému vyhledávaˇci Google, nalezne právˇe jen tyto singulárové tvary, pˇrípadnˇe ještˇe Npl, zatímco tvar Oidipusama nezná. Pˇríklady nekonzistencí je možné nalézt i mezi spisovnými tvary. Data napˇríklad pˇripouštˇejí Dsg a Lsg tvar Sysifu, ne tak ale Oidipu.15 A kupˇríkladu blázni a přišelci jsou podle aktuálních dat pouze Npl, nikoli i Vpl, tˇrebaže rozdílné tvary pro Npl a Vpl cˇ eština vubec ˚ nepˇripouští. Další nekonzistence lze pozorovat ve slovotvorných vztazích. Napˇríklad ke slovu úchylák neexistuje posesivum16 , na rozdíl od naprosté vˇetšiny ostatních životných maskulin. Jindy je (prostˇrednictvím poznámek) vyznaˇcen jen jeden smˇer slovotvorného vztahu, takže tˇreba zatímco vztah mezi lemmaty koník a koníček je zaznamenán u obou, tentýž vztah mezi kůň a koník je zachycen pouze u lemmatu kůň. K takovým nekonzistencím jsou samozˇrejmˇe nejnáchylnˇejší v prubˇ ˚ ehu cˇ asu pˇridávaná jednotlivá nová slova. Mohlo by se zdát, že to prostˇe autor skriptu udˇelal špatnˇe a že to pˇrece není nic, co by stálo za rˇ eˇc (jde ostatnˇe o 10 vzoru˚ z 217 celkem, takže to opravdu prozrazuje nepˇríliš dukladnou ˚ kontrolu výsledku). Budiž. Pˇredpokládejme, že by si byl svého omylu všiml a opravil jej. Pˇri ještˇe pozornˇejším pohledu do dat zjistíme, že ani tak by svuj ˚ zámˇer neprovedl správnˇe. U vzoru˚ neumětel a strašpytel jsou totiž v Gsg pˇrípustné obˇe koncovky, a i e, ovšem autor nehlídal, jestli vzor, který má v Gsg e, nemá zárovenˇ tamtéž i skriptem pˇridávané a. Po úpravˇe tedy tyto vzory mˇely Gsg koncovku a dvakrát, jednou (správnˇe) bez pˇríznaku, podruhé s pˇríznakem nespisovnosti. Všimnout si takové chyby už je nároˇcnˇejší. Ted’ koneˇcnˇe, proˇc vlastnˇe zacházím do takových detailu: ˚ sám jsem se tˇechto úprav dat neúˇcastnil, ale mám velmi podobnou, a zárovenˇ i velmi podrobnou zkušenost s úpravami elektronických podob Pˇríruˇcního slovníku jazyka cˇ eského a Slovníku spisovného jazyka cˇ eského. Byl jsem v pˇresnˇe stejné situaci: vˇecí, které vyžadují opravu, je pˇríliš mnoho, než aby bylo možné to dˇelat ruˇcnˇe. Zárovenˇ jsou data vždy ruznorodˇ ˚ ejší, než mohu pˇredpokládat v nˇejaké generalizaci, jíž by se mohl rˇ ídit skript realizující hromadné opravy. Když zobecním prvních deset výskytu˚ chyby, v další stovce jistˇe bude nˇekolik výjimek, pˇri jejichž „opravˇe “ naopak nˇejakou chybu pˇridám. Zobecním-li prvních sto výskytu, ˚ jistˇe se nˇejaké neoˇcekávané výjimky najdou v dalším tisíci. Je nakonec nutné všechny provedené zmˇeny kontrolovat mnohem dukladnˇ ˚ eji, než cˇ lovˇek puvodnˇ ˚ e cˇ ekal. Což je ale velmi pracné — opˇet cˇ ti „drahé“. Pˇrestože tedy jsem se sám na úpravách morfologické databáze nepodílel, jak ze znalosti charakteru dat, tak z pozorování chyb (nejen této konkrétní) ve výsledcích úprav soudím, že jde o principiálnˇe stejný problém. Že totiž i tyto úpravy jsou z principu bud’to velmi pracné, nebo jsou jejich prostˇrednictvím do dat vnášeny chyby a nekonzistence. 15. Pˇritom podle vyhledávaˇce Google se to dokonce pˇred slovy králi cˇ i vladaˇri zdá být o nˇeco cˇ astˇejší varianta než tvar Oidipovi. 16. V brnˇenském systému v souˇcasnosti nejsou posesiva souˇcástí vzoru, jako je tomu v Praze a jako tomu bylo i v jeho puvodní ˚ podobˇe (Osolsobˇe, 1996).
11
2. S TÁVAJÍCÍ FORMÁTY DAT MORFOLOGICKÉHO ANALYZÁTORU Aby ale nevznikl mylný dojem: samozˇrejmˇe to neznamená, že morfologická databáze je plná chyb. Na všechny tyto i jiné nesrovnalosti jsem pˇrišel až ve chvíli, kdy jsem se snažil data nˇejakým zpusobem ˚ pˇreuspoˇrádat, nepamatuji si, že by nˇekdo nedostatky tohoto druhu „reklamoval“. Lze si proto dokonce myslet, že praktickému využití nijak zvlášt’ nepˇrekážejí, jde ostatnˇe vždy o pomˇernˇe okrajové nebo rˇ ídce využívané tvary cˇ i jevy. Je také možné namítat, že tyto nekonzistence nejsou nutné, že pˇrece nic nebrání vytvoˇrení vhodných skriptu, ˚ které budou v datech kontrolovat konzistenci ve všech možných smˇerech, nic nebrání sestavení „manuálu“, na co vše je potˇreba pamatovat pˇri pˇridávání nových slov, nic nebrání editorum ˚ poctivˇe dokumentovat každou provedenou zmˇenu17 a tak dále. Taková námitka je oprávnˇená, problém ale spoˇcívá v tom, že i kdyby se toto všechno poctivˇe dˇelalo, a skuteˇcnˇe se tak daˇrilo bránit vzniku nekonzistencí v datech, praktické výsledky by se velmi pravdˇepodobnˇe (právˇe proto, že jde vesmˇes o okrajové jevy) zlepšily jen minimálnˇe. Jinými slovy, do údržby dat by bylo nutné dlouhodobˇe investovat nemalé úsilí, aniž by se to pak úmˇernˇe projevilo na výsledcích použití tˇechto dat. Bylo by to tedy horší než drahé, bylo by to pˇríliš drahé. Jsem pˇresvˇedˇcen, že toto dilema mezi postupným pˇribýváním nekonzistencí v datech a neadekvátními náklady na udržení jejich konzistence je nevyhnutelným dusledkem ˚ pˇredstaveného principu organizace dat morfo18 logického analyzátoru. V dalších kapitolách práce tedy navrhnu a na cˇ ásti dat i realizuji a pˇredvedu zpusob ˚ popisu tˇechto dat, který umožní redundanci, a tedy i její negativní dusledky ˚ co možná nejvíce potlaˇcit.
17. Ve výjimeˇcných pˇrípadech jsem si totiž ani nebyl úplnˇe jist, jestli nalezená zdánlivá nekonzistence je skuteˇcnˇe chybou cˇ i opomenutím, nebo jestli jde o zámˇer, že se napˇríklad nˇejaká konkrétní nespisovná koncovka pˇri urˇcitém hláskovém zakonˇcení kmene skuteˇcnˇe nevyskytuje dostateˇcnˇe cˇ asto, aby bylo žádoucí to zachytit v datech. V déledobém horizontu je to problém, pokud autor zmˇeny bud’ není znám, nebo není k dispozici pro nˇejaké tázání. 18. Mluvil jsem v této podkapitole jen o brnˇenském systému a brnˇenských datech, protože s nimi mám detailní zkušenost, kterou u pražských dat pochopitelnˇe postrádám. Je zˇrejmé, že (brnˇenský) popis, který muže ˚ pro pˇridání jediného tvaru vyžadovat i pˇridání celého nového vzoru (viz podkapitolka 2.3.1), je z dlouhodobého pohledu jen stˇeží udržitelný. Konkrétnˇe tento problém v Praze rˇ ešit nemusejí, naopak lze ale oˇcekávat obtíže napˇríklad s udržením konzistentní podoby všech výjimek, které ostatnˇe umožnují ˇ mimo jiné právˇe popis takových unikátních tvaru˚ bez zásahu do systému vzoru. ˚ A protože, jak jsem zmínil už na zaˇcátku kapitoly, v principu organizují data oba systémy stejnˇe, i bez podrobnˇejších informací pˇredpokládám, že obecnˇe musela i Praha nutnˇe rˇ ešit totéž dilema: bud’to se budou postupem cˇ asu v datech množit nesrovnalosti, nebo bude potˇreba zaplatit nemalou cenu. Dosud rˇ eˇcené ovšem platí jen pro systém Jana Hajiˇce (2004), realizace zmˇen navržených Jaroslavou Hlaváˇcovou (2009) nepochybnˇe povede k významnému snížení redundance pražských dat. K tomu viz dále podkapitola 5.3.
12
Kapitola 3
Nový formát na pˇríkladu životných maskulin V pˇredchozí kapitole jsem ukázal, že vysoká redundance morfologické databáze pˇrináší problémy pˇri její údržbˇe a rozšiˇrování. V následující cˇ ásti práce navrhnu nový zpusob ˚ organizace dat morfologického analyzátoru, který umožní redundanci významnou mˇerou snížit. Pokud budu dále používat slovo formát, budu tím spíše než formu myslet zpusob ˚ organizace, princip popisu. Jinými slovy, duležitý ˚ bude smysl cˇ i smˇerˇ ování toho, co budu ukazovat, nikoli konkrétní formální podoba, pˇrípadnˇe dokonce její realizace v uvádˇených pˇríkladech. Nový formát budu pˇredstavovat postupnˇe, abych mohl každou jeho jednotlivou vlastnost motivovat a pˇredvést na vhodném pˇríkladu. To ale na druhou stranu znamená, že budu nucen svá tvrzení postupnˇe doplnoˇ vat cˇ i zpˇresnovat. ˇ Tedy to, co budu popisovat v jedné podkapitole, muže ˚ být hned v té další nˇejak modifikováno. Pokud budu kupˇríkladu dále tvrdit, že slovník bude posloupnost rˇ ádku˚ ve tvaru slovní_základ:vzor, neznamená to nutnˇe, že v koneˇcné podobˇe formátu to budou stále jen takovéto rˇ ádky — v tomto konkrétním pˇrípadˇe budou nakonec v datech rˇ ádky tohoto druhu spíše výjimkou než pravidlem. Popis nového formátu bude rozdˇelen do dvou kapitol. Pujde ˚ ale o rozdˇelení do jisté míry umˇelé, aby délky jednotlivých kapitol práce nebyly pˇríliš nevyrovnané.
3.1
Obecná charakteristika nového formátu
Stejnˇe jako u aktuální podoby morfologické databáze bude i v novém formátu popis dat rozdˇelen do dvou souboru, ˚ které budou stávajícím zhruba odpovídat i obsahovˇe. I nadále je budu nazývat slovník a soubor vzoru. ˚ Formát budu navrhovat tak, aby umožnil oddˇelení pravidelného a nepravidelného. Pravidelné budu chtít popisovat prostˇrednictvím souboru vzoru˚ a pravidel obsažených v programu (skriptu) vyhodnocujícím data. Nepravidelné budu ukládat do slovníku, podobnˇe jako jsou ve slovníku 13
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
výjimky v souˇcasném pražském systému. Protože ale cˇ eské mluvnice (viz následující podkapitola) ani žádné další mnˇe známé relevantní zdroje neposkytují jednoznaˇcné vodítko, co by mˇelo být považováno za pravidelnost a co za výjimku, bude takové rozdˇelení nutnˇe do znaˇcné míry subjektivní. Princip tvorby slovních tvaru˚ nebude založen pouze na spojování nemˇenitelných rˇ etˇezcu, ˚ jako tomu bylo doposud, ale bude pˇredpokládán nˇejaký repertoár segmentu˚ ruzných ˚ druhu, ˚ které budou pomocí urˇcitých pravidel (nemˇenˇené) spojovány do jakoby „hloubkové“ struktury. Z té teprve bude pomocí úprav podle dalších pravidel tvoˇren „povrchový“ slovní tvar. Na rozdíl od existujících popisu˚ morfologických dat budu chtít navrhnout nový formát tak, aby byl „interpretovatelný“. Na zaˇcátku podkapitoly 2.3 jsem ukazoval, jak lze ve stávajících brnˇenských datech zachytit tutéž vˇec více ruznými ˚ zpusoby. ˚ Bylo to tak proto, že v pˇrípadˇe intersegmentu, ˚ hranic mezi intersegmenty a koncovkami, uspoˇrádání koncovek do koncovkových množin a podobnˇe šlo vždy svým zpusobem ˚ pouze o technické rˇ ešení, pˇrinejmenším v souˇcasné podobˇe formátu, respektive dat. Naproti tomu v novém formátu se budu snažit, aby v co nejvyšší míˇre platilo, že každá cˇ ást formy má nˇejaký význam. Aby tedy, bude-li možné popsat jednu a tutéž skuteˇcnost více ruznými ˚ zpusoby, ˚ bylo možné tyto ruzné ˚ popisy i ruznˇ ˚ e interpretovat. Pochopitelnˇe jde pouze o obecný zámˇer, netvrdím, že se mi to podaˇrí ve všech pˇrípadech. Pˇredchozí dva odstavce ovšem dohromady znamenají jednu vážnou potíž: popisy cˇ eštiny reprezentované souˇcasnými mluvnicemi žádnou dichotomii „hloubka“ — „povrch“ neobsahují. Kdykoli tedy budu výše zmínˇené „hloubkové“ struktuˇre, pˇrípadnˇe i mezikrokum ˚ mezi ní a výsledným slovním tvarem, pˇrikládat nˇejaký význam, kdykoli se budu chovat, jako by ty segmenty, struktury a mezikroky nebyly jen technickým rˇ ešením, ale namísto toho opravdu nˇejakým zpusobem ˚ odpovídaly „realitˇe “ (at’ už to znamená cokoli), a mˇelo tedy smysl o jejich podobˇe a uspoˇrádání uvažovat, budu se tím dostávat mimo teoretický rámec souˇcasných mluvnic. To by mohlo být vnímáno jako problém zejména v situaci, kdy neumím odkázat cˇ i nabídnout alternativní ucelený teoretický popis cˇ eštiny, jemuž by takový pˇrístup odpovídal. Protože ale zpusob, ˚ jakým mi pˇripadá rozumné nad daty uvažovat, nelze skloubit s teoretickými východisky mluvnic, budu nadále skuteˇcnˇe pˇredpokládat, že zminované ˇ struktury a další odpovídají nˇejaké realitˇe a je vhodné se k nim podle toho chovat. Pokud je pro nˇekoho taková pˇredstava nepˇrijatelná, muže ˚ to vnímat jen jako technické rˇ ešení, a budu-li takovými úvahami nˇekde motivovat nˇejaké rozhodnutí, muže ˚ to chápat jako náhodný výbˇer z rovnocenných variant. Více k tomu viz ještˇe i zaˇcátku následujících kapitol, konkrétnˇe podkapitoly 4.1 a 5.1. 14
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
3.2
Životná maskulina jako pˇríklad realizace
Pˇri návrhu nového formátu nebudu uvádˇet jednotlivé nesouvisející pˇríklady, ale budu pro jeho demonstraci postupnˇe vytváˇret popis podstatných jmen mužského rodu životného.1 Životná maskulina jsou v souˇcasných datech morfologického analyzátoru ajka popsána 217 vzory2 a celkem 20 054 lemmaty. Pro bližší pˇredstavu, tˇri nejobsazenˇejší vzory jsou akcionář (2633 lemmat), vlk (2298 lemmat) a Austrálec (1778 lemmat). Naopak vzoru, ˚ ke kterým je zaˇrazeno pouze jedno lemma, je 45 (napˇr. vzor stařec), vzoru˚ se dvˇema lemmaty je 32 (napˇr. kolega) a vzoru˚ se tˇremi lemmaty je 19 (napˇr. archón). Kompletní definice všech stávajících 217 vzoru˚ a všech užitých koncovkových množin pˇrikládám pro srovnání k práci v elektronické podobˇe, viz pˇríloha B. Nebude mým cílem data pro životná maskulina nˇejak zásadnˇeji pˇrepracovávat, pujde ˚ pˇrevážnˇe o pˇrevod existující informace do nového formátu. Na druhou stranu samozˇrejmˇe nebudu chtít otrocky zachovávat všechny nesrovnalosti, které v souˇcasných datech jsou, takže se popis životných maskulin v novém formátu nebude shodovat s popisem reprezentovaným souˇcasnými daty morfologického analyzátoru ajka. Protože jednotlivých drobných odlišností bude hodnˇe, nebudu je explicitnˇe zminovat ˇ v textu. Aby ale bylo možné dohledat, co pˇresnˇe jsem s daty dˇelal, pˇrikládám k práci seznam všech tˇechto zmˇen v elektronické podobˇe. Opˇet viz pˇríloha B. Zdrojem informací o cˇ eštinˇe mi budou, tˇrebaže v nestejné míˇre, následující jazykové pˇríruˇcky a zdroje: ∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙
ˇ MC2) ˇ Mluvnice cˇ eštiny 1, 2 (Petr a kol., 1986a,b, MC1, ˇ ˇ ˇ ˇ Ceština — rˇ eˇc a jazyk (Cechová a kol., 2000, CRJ) ˇ Pˇríruˇcní mluvnice cˇ eštiny (Karlík a kol., 1997, PMC) ˇ Encyklopedický slovník cˇ eštiny (Karlík a kol., 2002, ESC) Internetová jazyková pˇríruˇcka (http://prirucka.ujc.cas.cz, IJP) ˇ Slovník spisovného jazyka cˇ eského (Havránek a kol., 1960–1971, SSJC) ˇ Slovník spisovné cˇ eštiny (Filipec a kol., 1994, SSC) ˇ Ceský národní korpus — SYN2005 (http://www.korpus.cz, SYN2005)
Nadále se na nˇe budu odkazovat pouze jejich jménem, pˇrípadnˇe dokonce jen v závorce uvedenou zkratkou. 1. Výbˇer byl uˇcinˇen celkem náhodnˇe: podstatná jména bývají mezi slovními druhy zminoˇ vána jako první a stejnˇe tak výˇcet jejich „školních“ vzoru˚ zaˇcíná mužským rodem životným. 2. Pro úplnost je potˇreba dodat, že k jednomu ze vzoru˚ není ve slovníku pˇriˇrazeno žádné lemma a že vˇetšina vzoru˚ pro pˇríjmení je duplicitní, tedy existuje k nim shodný vzor pro ne-pˇríjmení.
15
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
3.3
Základní podoba dat
Už bylo rˇ eˇceno, že data budou rozdˇelena do dvou souboru, ˚ slovníku a souboru vzoru. ˚ Položky ve slovníku budou, jak už bylo také zmínˇeno, rˇ ádky tvaru slovní_základ:vzor. V souboru vzoru˚ bude ke každému vzoru uvedena jeho definice v podobˇe seznamu znaˇcek s možnými koncovkami pro každou znaˇcku. Nebudu zde ani dále popisovat pˇresný formát datových souboru. ˚ Hrubá podoba bude zˇrejmá z pˇríkladu˚ a technické detaily nejsou podstatné. Je napˇríklad potˇreba zajistit, aby program zpracovávající data poznal, kde zaˇcíná a konˇcí definice vzoru, není ale duležité, ˚ jak pˇresnˇe to bude udˇeláno (zde konkrétnˇe libovolným odsazením seznamu znaˇcek s koncovkami), takže do takových podrobností nebudu pˇri popisu formátu zacházet. Pˇríklad 3.1 ukazuje základní podobu vzoru˚ pán a muž3 v novém formátu. Pro struˇcnost a pˇrehlednost vynechávám nespisovné koncovky, více k nim viz podkapitolu 3.11. Vzory lze chápat jako formalizované pˇredpisy, co se má se slovním základem udˇelat, abychom získali pˇríslušné slovní tvary spolu s jejich znaˇckami. Interpretace tedy bude následující: budeme-li4 mít ve slovníku slovní základ zaˇrazený k nˇejakému vzoru, pro každou znaˇcku tohoto vzoru a pro každou její koncovku pˇripojíme znakem - tuto koncovku ke slovnímu základu a vytvoˇríme tak strukturu5 odpovídající dané znaˇcce. Z této struktury pak dalšími úpravami dostaneme slovní tvar. Pokud napˇríklad budeme mít ve slovníku uvedeno slon:pán, budeme pˇripojováním koncovek vzoru pán ke slovnímu základu slon dostávat postupnˇe struktury slon-0 odpovídající znaˇcce k1gMnSc1 (znak 0 vyznaˇcuje nulovou koncovku), slon-a se znaˇckou k1gMnSc2, slon-ovi se znaˇckou k1gMnSc3, slon-u s toutéž znaˇckou atd. Poté na všech tˇechto strukturách udˇeláme dvˇe triviální úpravy, kterými dostaneme samotné slovní tvary: odstraníme všechny znaky - a stejnˇe tak i všechny 0. Pochopitelnˇe si mužeme ˚ zárovenˇ zapamatovat i neupravené struktury, a mít tak ke každému slovnímu tvaru i jeho segmentaci na slovní základ a koncovku. 3. Ponechávám tradiˇcní školní vzory, je ale pravda, že motivace k výbˇeru jejich reprezentantu˚ mi není úplnˇe jasná: samotné slovo pán má ve Vsg naprosto unikátní krácení pane. Žádný jiný vokativ nevykazuje podobné chování (napˇr. tchána bychom podle vzoru pán oslovovali *tchane), takže jako pˇríklad použití vzoru budu muset vzít jiné slovo. A dokonce to není jediná zvláštnost mezi (pouhými cˇ tyˇrmi) tradiˇcními vzory pro životná maskulina: v Npl mužeme ˚ rˇ íct páni i pánové, muži i mužové, soudci i soudcové — ale pouze pˇredsedové, pˇrestože existují napˇr. despoti i despotové. 4. Laskavému cˇ tenáˇri snad nebude nepˇríjemné, když se jej od této chvíle pokusím trochu více vtahovat do dˇení používáním první osoby množného cˇ ísla. 5. Slovo „struktura“ budu nadále v tomto významu používat jako termín.
16
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
pán k1gMnSc1 k1gMnSc2 k1gMnSc3 k1gMnSc4 k1gMnSc5 k1gMnSc6 k1gMnSc7 k1gMnPc1 k1gMnPc2 k1gMnPc3 k1gMnPc4 k1gMnPc5 k1gMnPc6 k1gMnPc7
0 a ovi, u a e ovi, u em i, ové ů ům y i, ové ech y
k1gMnSc1 k1gMnSc2 k1gMnSc3 k1gMnSc4 k1gMnSc5 k1gMnSc6 k1gMnSc7 k1gMnPc1 k1gMnPc2 k1gMnPc3 k1gMnPc4 k1gMnPc5 k1gMnPc6 k1gMnPc7
0 e i, ovi e i i, ovi em i, ové ů ům e i, ové ích i
muž
Pˇríklad 3.1. Základní podoba vzoru˚ pán a muž.
17
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
3.4
Grafické zmˇeny na konci slovního základu
V pˇredchozí kapitole zminované ˇ slovo tulenˇ se v rˇ eˇci sklonuje ˇ stejnˇe jako slovo muž. V psané cˇ eštinˇe ale není pˇrípustný výskyt d’, nˇ cˇ i t’ pˇred znaky eˇ, i cˇ i í, takže kdybychom toto slovo do slovníku zaˇradili jako tuleň:muž, dostali bychom nekorektní tvary tuleňe, tuleňi a tuleňích místo správných tvaru˚ tuleně, tuleni, resp. tuleních. Pˇridáme tedy pravidla, která ve vytvoˇrených tvarech nahradí všechna ďe, ďi a ďí za dě, di, resp. dí a analogicky i pro ň a ť. Pak bude možné mít ve slovníku tuleň:muž cˇ i zeť:muž6 , aniž bychom riskovali tvoˇrení nesprávných tvaru. ˚ Je zˇrejmé, že takto formulovaná pravidla lze smysluplnˇe aplikovat teprve po odstranˇení znaku˚ - a 0 popsaném v pˇredchozí podkapitole. Ze struktury tuleň-e bude tedy výsledný tvar tuleně získán pˇres mezitvar tuleňe. Ke stejným výsledkum ˚ by ale vedlo i nahrazování ď-e, ď-i atd. za d-ě, resp. d-i atd., které by naopak probíhalo pˇred odstranováním ˇ - a 0, tedy v našem pˇrípadˇe tuleň-e → tulen-ě → tuleně. Duvodem ˚ pro preferenci zvoleného rˇ ešení muže ˚ být napˇríklad obtížnˇejší interpretace mezitvaru tulen-ě oproti mezitvaru tuleňe, kde druhý mezitvar odpovídá vyslovované podobˇe, která je dále už jen upravována podle pravidel grafického zápisu cˇ eštiny.
3.5
Stˇrídání vokálu˚ s nulou
Podle vzoru muž se sklonuje ˇ i slovo vˇezen, ˇ kde se ale, na rozdíl od slova tulen, ˇ v jednotlivých tvarech vokál e pˇred koncovým konsonantem stˇrídá s nulou, a to tak, že v kontextu nulové koncovky je vždy e, zatímco v kontextu ostatních koncovek se toto e ve slovním tvaru neobjevuje. Pˇríklady slov Ábel a d’ábel s Gsg tvary Ábela, resp. d’ábla ovšem ukazují, že z hláskového okolí nelze urˇcit, které e se bude s nulou stˇrídat a které nikoli.7 Markéta Ziková ve své disertaˇcní práci (Ziková, 2008) vˇenované právˇe analýze vokálu˚ stˇrídajících se v souˇcasné cˇ eštinˇe s nulou argumentuje, že rozdíl mezi slovy jako Ábel a d’ábel musí být specifikovaný lexikálnˇe (cit. d., s. 20). 6. Nemohu v tomto okamžiku nabídnout pˇríklad slova konˇcícího na d’, protože v datech morfologického analyzátoru ajka není žádné slovo, které by konˇcilo na d’ a zárovenˇ se sklonovalo ˇ stejnˇe jako slovo muž: hlemýžd’ a sled’ mají v Npl pouze -i, jméno Lebed’ naopak pouze -ové. K rˇ ešení takových pˇrípadu˚ viz dále podkapitola 3.8. 7. Leda bychom napˇríklad pˇripustili, že stˇrídání je výsledkem hláskových procesu, ˚ které mají pˇrekvapivˇe velký „rozhled“ okolo místa, kde ke stˇrídání dochází. O takovém rˇ ešení jsem ale nikdy ani náznakem neslyšel.
18
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
Toho se pˇridržíme a slovo vˇezenˇ od slova tulenˇ odlišíme ve slovníku tak, že pˇred e stˇrídající se s nulou vložíme teˇcku. Budeme tedy psát
tuleň:muž věz.eň:muž a pˇridáme pravidlo, které bude takové vokály pˇredcházené teˇckou vhodnˇe zpracovávat. Zatím postaˇcí, když je bude rušit vždy, pokud nebude následovat C-0, kde C je libovolný konsonant. Je nasnadˇe, že takové pravidlo musí být aplikováno pˇred pravidly z podkapitoly 3.3 odstranujícími ˇ znaky - a 0, a tedy jako zatím první z pravidel pˇrevádˇejících struktury na slovní tvary. Na podporu právˇe tohoto rˇ ešení oproti na první pohled stejnˇe tak dobˇre možnému nahrazení nˇejakým (jedním) znakem mimo cˇ eskou abecedu lze uvést dva duvody: ˚ ∙
Jednak e není jediný vokál, který se stˇrídá s nulou, ale ve slovech pˇrejatých z jiných slovanských jazyku˚ se s nulou mohou stˇrídat i jiné vokály. Slovenská mˇesta Kežmarok a Ružomberok mají i v cˇ eských ˇ (a podle nˇej i davˇetách Gsg tvary Kežmarku, resp. Ružomberku. SSJC ta brnˇenského analyzátoru) dále uvádí pˇrejímku ze srbštiny momak s Gsg momka.8 Vložení teˇcky pˇred vokál stˇrídající se s nulou nám umožní všechny tyto pˇrípady zachytit jednotným zpusobem. ˚
∙
Zárovenˇ tato forma respektuje rˇ ešení Markéty Zikové, která vokály stˇrídající se s nulou a odpovídající vokály, které se s nulou nestˇrídají, analyzuje jako totožné segmenty, které jsou pouze ruzným ˚ zpuso˚ bem zapojené ve fonologické struktuˇre (cit. d., od s. 90 dále). A stejnˇe tak i ve výše navrhovaném zápisu jsou vokály stˇrídající se s nulou „kvalitativnˇe “ totožné s tˇemi vokály, které se s nulou nestˇrídají, rozdíl je jen v jejich reakci na kontext. Podstatné je, že jsou totožné už ve vytváˇrených strukturách (pokud bychom si je napˇríklad chtˇeli také
8. Lze si ale pˇredstavit i tvrzení, že cˇ eština sice umožnuje ˇ pravidelné stˇrídání e s nulou, ale neumožnuje ˇ takové stˇrídání pro libovolný vokál. A že tedy v tˇechto pˇrípadech nedochází (pˇrípadnˇe dokonce ani nikdy nedocházelo) ke stˇrídání vokálu s nulou ve smyslu dvojí realizace téhož slovního základu, ale jde o jeho dvˇe ruzné ˚ formy pravidelnˇe neodvoditelné ani vzájemnˇe, ani z nˇejakého spoleˇcného základu (napˇríklad momak- a momk-, podobnˇe jako je tˇreba pán- a pan- cˇ i pˇrí-(tel-) a pˇrá-(tel-) atp., o takových pˇrípadech viz dále podkapitola 3.12). Podotýkám, že takové tvrzení by nutnˇe pˇredpokládalo, že rozdíl mezi strukturou a z ní odvozovaným slovním tvarem odpovídá nˇejaké reálné skuteˇcnosti. Z pohledu pouhé deskripce samotných výsledných slovních tvaru, ˚ kdy by tato struktura byla jen technickým rˇ ešením, jako jsou tˇreba intersegmenty ve stávajících datech analyzátoru ajka, samozˇrejmˇe ke stˇrídání vokálu s nulou evidentnˇe dochází a uvedené tvrzení vlastnˇe ani není možné formulovat.
19
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
uchovávat), a nikoli jen ve slovních tvarech z tˇechto struktur získávaných, jako by tomu bylo v pˇrípadˇe, kdybychom vokály stˇrídající se s nulou reprezentovali nˇejakým jedním znakem, který by byl nˇekdy zmˇenˇen na pˇríslušný vokál a jindy naopak odstranˇen. Pozorný cˇ tenáˇr Mluvnice cˇ eštiny 2 by ještˇe mohl pˇripomenout touto mluvnicí nabízený duvod ˚ stˇrídání, totiž vkládání e vynucené artikulaˇcní nároˇcností puvodní ˚ konsonantické skupiny na konci slovního základu.9 V takovém pˇrípadˇe by mohlo být vhodnˇejší mít slovo vˇezenˇ ve slovníku jako vězň:muž a pˇridat pravidla, která by do urˇcitých (nˇejak vymezených) konsonantických skupin pˇridávala e. Proti takové interpretaci Markéta Ziková argumentuje m. j. dokladem 15 ruzných ˚ konsonantických skupin, pro které vysvˇetlení pˇredkládané Mluvnicí cˇ eštiny nelze použít (cit. d., s. 20). Mezi slovními základy konˇcícími tˇemito skupinami jsou totiž jak ty, kde se uvnitˇr skupiny stˇrídá e s nulou, tak ty, kde se e neobjevuje ani pˇred nulovou koncovkou.10 Z množství a charakteru dokladu˚ je zˇrejmé, že nejde o nahodilé výjimky, ale skuteˇcnˇe o jev obecnˇe nezávislý na hláskovém okolí.11
3.6
Zmˇeny konce slovního základu v kontextu koncovky -i
Slovo vezír se sklonuje ˇ podle vzoru pán s výjimkou koncovky -i v Npl a Vpl, kde je místo *vezíri správným tvarem vezíˇri. Pokud je tedy chceme pˇresto zaˇradit ke vzoru pán, musíme pˇridat pravidlo, které zmˇení r pˇred i na ř. Protože ale takto nemužeme ˚ modifikovat napˇríklad tvary slova princ, budeme nahrazovat pouze taková r, která bude od následujícího i oddˇelovat znak -, tedy zamˇeníme každé r-i za ř-i. Opˇet lze snadno vidˇet, že toto pravidlo musí být aplikováno pˇred odstranˇením znaku˚ - a 0, naopak ale nezáleží na poˇradí vzhledem k vyhodnocení vokálu˚ následujících po teˇcce. Budeme tedy r-i na ř-i pˇrepisovat napˇríklad až poté, tedy po vyhodnocení vokálu˚ stˇrídajících se s nulou. 9. „Tvar Gpl je u feminin I. typu jediným pádem s koncovkou nulovou. Tato skuteˇcnost má dosah pro jména s obtížnˇe vyslovitelnou souhláskovou skupinou na konci základu: meˇ s. 325). Je ale potˇreba dodat, že v ostatních zi cˇ leny nˇekterých skupin se vsouvá -e-“ (MC2, ˇ stˇrídání pouze zminuje, pˇrípadech téhož jevu u podstatných jmen MC2 ˇ aniž by vysvˇetlovala jeho duvody, ˚ a že i v tomto pˇrípadˇe sama uvádí pˇríklady, které dokládají nemožnost vysvˇetlit veškeré toto „vsouvání“ pouze výslovnostními obtížemi. 10. K na zaˇcátku podkapitoly zminovaným ˇ slovum ˚ Ábel a d’ábel lze pˇridat slovo konstábl s Gsg konstábla — nutno ale pˇriznat, že nebylo jednoduché najít hláskové okolí, které Markéta Ziková nezminuje ˇ (cit. d., s. 20) a u kterého jsou zárovenˇ v rámci životných maskulin realizovány všechny tˇri možnosti, tedy normální e, e stˇrídající se s nulou i absence vokálu. 11. K možnému využití cˇ ásteˇcné pravidelnosti nicménˇe viz dále podkapitolku 4.7.4.
20
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
V tomtéž kontextu budeme chtít nahrazovat i g, h, ch a k za z, z, š, resp. c, budeme tedy mít analogická pravidla pro nahrazení každého g-i za z-i atd. Abychom byli konzistentní, budeme pˇred -i nahrazovat dokonce i d, n a t za ď, ň, resp. ť.12 Takto vzniklá ď, ň a ť sice vzápˇetí nahradíme zpˇet za d, n, resp. t (viz dˇríve podkapitola 3.4), ale umožní nám to zachytit zmˇenu, která se projevuje ve výslovnosti, aniž by se ovšem jakkoli odrážela v grafickém zápisu. Geneze napˇr. tvaru sloni tedy projde stádii slon-i, sloň-i, sloňi a sloni. Toto samozˇrejmˇe nijak neovlivní vytváˇrené slovní tvary, které by byly stejné i v pˇrípadˇe, že bychom d, n a t pˇred -i nenahrazovali, umožní to ale napˇríklad získat podobu, která odpovídá výslovnosti daného slovního tvaru.
3.7
Výbˇer koncovky podle vlastností slovního základu
Ke vzoru pán se tradiˇcnˇe rˇ adí i slova mág, vrah, mnich cˇ i vnuk, která ale mají ve Vsg a Lpl odlišné koncovky: -u a -ích místo -e a -ech. V obou pˇrípadech je distribuce koncovek až na výjimky závislá na zakonˇcení slovního základu. Koncovky -u a -ích se použijí právˇe tehdy, pokud slovní základ konˇcí na g, h, ch nebo k. Od výjimek jako tˇreba buh, ˚ bozích, ale bože v tuto chvíli abstrahujeme (jejich rˇ ešení viz dále podkapitola 3.12). Potˇrebujeme tedy umˇet popsat, že urˇcitá koncovka se muže ˚ pˇripojit pouze ke konkrétním zpusobem ˚ zakonˇceným slovním základum. ˚ Budeme to vyjadˇrovat pomocí lomítka (/) za koncovkou, po kterém bude následovat regulární výraz popisující pˇrípustný konec slovního základu.13 Konkrétní úprava dˇríve uvedeného vzoru pán bude vypadat takto:14
k1gMnSc5 ... k1gMnPc6
e, u/[ghk]|ch ech, ích/[ghk]|ch
Tato omezení v seznamu koncovek budeme vyhodnocovat následujícím zpusobem: ˚ pro daný slovní základ vezmeme všechny koncovky ze seznamu odpovídajícího urˇcité znaˇcce a pro všechna specifikovaná omezení zjis12. Stále je to ovšem jen rˇ ešení konkrétního pˇrípadu zmˇen v kontextu urˇcitého typu koncovek. K obecnému rˇ ešení viz dále podkapitolku 3.12.3. 13. Protože data budou zpracovávána skriptem v jazyce Perl, budou v datech akceptovány regulární výrazy jazyka Perl 5.10, které jsou vesmˇes kompatibilní s regulárními výrazy jak v jiných programovacích jazycích, tak napˇríklad v klientech korpusových manažeru. ˚ Budu tedy dále pˇredpokládat obecnou znalost jejich syntaxe, pˇrehled a vysvˇetlení v textu práce použitých konstrukcí nicménˇe uvádím v pˇríloze C. 14. Místo [ghk]|ch by staˇcilo psát pouze [ghk], ch je pˇridáno spíše pro názornost.
21
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
tíme, jestli konec slovního základu vyhovuje regulárnímu výrazu.15 Pokud budou v seznamu koncovek takové, jejichž omezením bude slovní základ vyhovovat, použijí se pouze tyto koncovky. Když takové koncovky nalezeny nebudou, použijí se všechny koncovky, které nemají specifikováno žádné omezení. Pro lepší názornost nˇekolik dusledk ˚ u, ˚ které plynou z rˇ eˇceného: ∙ ∙
∙ ∙
∙
nemá-li žádná z koncovek žádné omezení, použijí se všechny; když je potˇreba popsat, že koncovka a se má použít v každém pˇrípadˇe, a že navíc za podmínky x je pˇrípustná i koncovka b, lze použít prázdný regulární výraz, tedy psát a/, b/x; jestliže se má za podmínky x použít koncovka a a jinak koncovka b, je nejkratším zpusobem ˚ zápisu a/x, b16 ; pokud budou mít všechny koncovky neprázdné omezení, muže ˚ se stát, že nˇejaký slovní základ nebude vyhovovat žádnému omezení, v kterémžto pˇrípadˇe k nˇemu nebude pˇripojena žádná z koncovek; bylo by možné mít jednu koncovku bez omezení a druhou s prázdným omezením (tedy nˇejaké a, b/), ale nedávalo by to pˇríliš dobrý smysl, protože první koncovka by se nikdy nepoužila.
Pˇridáme-li tedy nyní do slovníku napˇr. vrah:pán, budeme vytváˇret struktury vrah-u a vrah-ích. Pokud platnost pravidel z pˇredchozí podkapitoly rozšíˇríme z kontextu -i i na kontext -í, dostaneme z tˇechto struktur správné slovní tvary vrahu a vrazích. Díky tˇemto pravidlum ˚ (i v jejich puvodní ˚ podobˇe) bude navíc v poˇrádku i tvar vrazi pro Npl a Vpl. Souhru všech doposud popsaných pravidel lze ukázat na jménech jako Ludˇek, Stanˇek a Zítˇek. Do slovníku je pˇridáme v podobˇe Luď.ek:pán atd. a budeme tvoˇrit napˇr. struktury Luď.ek-0 pro Nsg a Luď.ek-ích pro Lpl, kdy pˇri tvorbˇe druhé struktury uplatníme právˇe zavedený výbˇer podle zakonˇcení slovního základu. Aplikace pravidel pro pˇrevod struktur na slovní tvary pak bude probíhat v krocích Luď.ek-0 → Luďek-0 → Luďek 15. Konkrétnˇe budeme slovní základ testovat proti regulárnímu výrazu (?:omezení)$. 16. Tímto pˇrípadem je právˇe provedená úprava vzoru pán, tedy e, u/[ghk]|ch. Za poznámku stojí, že co do výsledku je to samozˇrejmˇe symetrické: lze stejnˇe tak dobˇre psát i nˇeco na zpusob ˚ e/[bdflmnprstvzaeio], u (pˇrípadnˇe seznam hlásek vymezit negativnˇe: [ˆghk], u). Je tedy možné dát najevo, kterou z koncovek považujeme za základní a kterou za pˇríznakovou, at’ už by pro nás tyto pojmy znamenaly cokoli. Naopak explicitním omezením obou koncovek, napˇr. e/[bdflmnprstvzaeio], u/[ghk]|ch, bychom mohli takovou interpretaci znemožnit. A pochopitelnˇe to také lze psát libovolnˇe a žádný význam tomu nepˇrikládat. Nicménˇe motivací k rozlišení koncovek bez explicitnˇe uvedeného omezení a koncovek s prázdným omezením, tedy explicitnˇe neomezených, je právˇe umožnit rozlišení základní a pˇríznakové varianty.
22
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
→ Luděk, respektive Luď.ek-ích → Luďk-ích → Luďc-ích → Luďcích. Analogicky by se pravidla použila i pro Staň.ek:pán a Zíť.ek:pán. Pˇripomínám, že v dosavadních rˇ ešeních by každé z nich vyžadovalo vlastní, nepˇríliš obsazený vzor.17 A stejnˇe tak i zminovaní ˇ mág, vrah, mnich cˇ i vnuk, ale i další slova jako napˇr. orel, lev, pes, medvídek, nezmar, blázen a ostatnˇe i samotný pán — žádná dvˇe z nich by nemohla být u spoleˇcného vzoru. Naproti tomu v navrhovaném formalismu je už po zavedení nˇekolika málo pravidel lze všechna jednoduše zaˇradit k témuž vzoru pán. Ještˇe ale musíme vyˇrešit jednu drobnou nesrovnalost: od slova mág je v Npl a Vpl spisovný tvar pouze mágové, nikoli *mázi, kterýžto tvar bychom ale v tuto chvíli vytváˇreli z pˇrípadného mág:pán ve slovníku. Pohledem do dat morfologického analyzátoru lze ovˇerˇ it, že žádné životné maskulinum netvoˇrí v Npl (a Vpl) oba tvary -zi i -gové, vždy pouze jen -gové.18 To nám umožnuje ˇ upravit definici vzoru pán následujícím zpusobem: ˚
k1gMnPc1 ... k1gMnPc5
3.8
i/[^g], ové/ i/[^g], ové/
Odvozené vzory
Nˇekterá slova rˇ azená tradiˇcnˇe ke vzoru pán pˇripouštˇejí v Npl a Vpl jen jednu z koncovek -i a -ové. Jsou tak napˇríklad ve spisovné cˇ eštinˇe na jedné stranˇe pouze filozofové, na stranˇe druhé pouze doktoˇri. Jiná slova v tˇechto pádech mohou mít i koncovku -é, takže tˇreba kromˇe akrobati mohou být i akrobaté, nikoli však *akrobatové. A ještˇe jiná tvoˇrí spisovné Npl a Vpl tvary dokonce výhradnˇe s koncovkou -é, kupˇríkladu obˇcané. Ve všech ostatních pádech obou cˇ ísel se všechna zminovaná ˇ slova i mnoho dalších sklonují ˇ podle vzoru pán. Na rozdíl od slov z pˇredchozí podkapitoly je ale nelze vymezit podle konce slovního základu cˇ i nˇejakých jiných kritérií, nebo alesponˇ ne obecnˇe (viz ovšem i dále podkapitola 4.7). 17. Tak alesponˇ v Brnˇe, viz i pˇríklady 2.1 a 2.2 a související text. V Praze by kvuli ˚ nízké cˇ etnosti byly nˇekteré z nich jen výjimkami uvedenými pˇrímo ve slovníku. 18. Pro úplnost je potˇreba dodat, že žádné životné maskulinum konˇcící v Npl a Vpl na -zi ˇ Nicménˇe ani IJP (výklad „Sklonování i -gové neznají ani IJP a MC2. ˇ mužských živ. jmen — ˇ (s. 296) neˇríkají, že ta1. p. mn. cˇ .“, http://prirucka.ujc.cas.cz/?id=226), ani MC2 ková slova neexistují, jenom vyjmenovávají jednotlivá zakonˇcení (-log, -urg, ...) cˇ i konkrétní slova (mág, mustang, ...), která pˇripouštˇejí pouze koncovku -ové. Protože jim ale ve zobecnˇení tˇechto dat nic nebránilo, lze si myslet, že je nezobecnili zámˇernˇe, a že tedy omezení i/[ˆg] ˇ sporné, pokud by mˇelo vyjadˇrovat právˇe takovou generalizaci. by bylo z pohledu IJP a MC2 Alternativní rˇ ešení pro takový pˇrípad viz dále v podkapitolkách 3.8.1 a 4.7.3.
23
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
Potˇrebujeme tedy už na úrovni slovníku rozlišit, která slova budou mít jaké Npl a Vpl koncovky. Dosavadním rˇ ešením takové situace (v Praze i v Brnˇe) je zavedení nových vzoru, ˚ z výše uvedených dat ale nutnˇe plyne, že by byly vzájemnˇe témˇerˇ totožné. Abychom se takové redundanci vyhnuli, budeme tyto vzory definovat pouze odlišností od nˇejakého již existujícího vzoru. Formálnˇe bude definice takového odvozeného vzoru vypadat tak, že za jménem vzoru bude dvojteˇcka a jméno vzoru, z nˇehož chceme nový vzor odvodit. Mezi znaˇckami pak budou uvedeny pouze ty, jejichž seznamy koncovek chceme nahradit. Vzory pro slova z pˇredchozího odstavce budou tedy vypadat takto:19
filozof:pán k1gMnPc1 k1gMnPc5 doktor:pán k1gMnPc1 k1gMnPc5 akrobat:pán k1gMnPc1 k1gMnPc5 občan:pán k1gMnPc1 k1gMnPc5
ové ové i i é, i é, i é é
Bude-li slovní základ ve slovníku zaˇrazen k odvozenému vzoru, získají se pˇríslušné slovní tvary tak, že se nejprve vytvoˇrí všechny tvary podle vzoru, z nˇehož je odvozováno. Poté se pˇridají tvary podle nových seznamu˚ koncovek, pˇrípadnˇe se jimi nahradí dˇríve vytvoˇrené tvary shodných znacˇ ek, pokud existují. Bude-li tedy ve slovníku napˇríklad agronom:filozof, vytvoˇrí se od daného slovního základu nejprve všechny tvary podle vzoru pán, zejména tedy tvary agronomi a agronomové pro znaˇcky k1gMnPc1 a k1gMnPc5. Pak se pro tyto znaˇcky vytvoˇrí tvary agronomové, kterými budou dˇríve vytvoˇrené tvary nahrazeny.20 19. Vzory jsou stejnojmenné, ale nikterak na tom nezáleží. Podobnˇe jako ve stávajících (brnˇenských) datech je i zde jméno vzoru jen nálepka, kterou lze volit zcela libovolnˇe, na tvoˇrení slovních tvaru˚ nemá žádný vliv. Zejména jsou ale tyto konkrétní vzory jen ilustrací obecného principu na jednoduchých pˇríkladech, pozdˇeji se ukáže, že tato slova bude lépe rˇ ešit ještˇe trochu jinak. Viz dále podkapitola 3.10. 20. Nenulovost pruniku ˚ mezi množinou puvodních ˚ tvaru˚ a množinou nových tvaru˚ je obecnˇe irelevantní a jde zde jen o shodu okolností — napˇríklad pro slovní základy zaˇrazené ke vzoru občané budou puvodní ˚ dva tvary nahrazeny tˇretím, odlišným tvarem.
24
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
Pozornˇejší cˇ tenáˇr by v tuto chvíli mohl vznést námitku, že pˇrece stejnˇe tak dobˇre bychom mohli napˇríklad mít jako základ vzor filozof a od nˇej odvozovat vzor pán. A že by pak byla otázka, co by mˇely jednotlivé možnosti (pán → filozof, resp. filozof → pán) znamenat, a v pˇrípadˇe, že by jim nebylo možné dodat nˇejakou interpretaci, jestli je vubec ˚ v poˇrádku to tímto zpusobem ˚ popisovat. Jak zminuji ˇ už v poznámce 19, pˇriznávám, že je to zde takto jen pro ilustraci, jako v tuto chvíli vhodný jednoduchý pˇríklad možné motivace zavedení odvozování vzoru. ˚ Ve skuteˇcnosti budou tyto vˇeci nakonec rˇ ešeny jinak, vesmˇes bez takovéto nesnadno interpretovatelné symetrie. Viz dále podkapitoly 3.10 a 3.11. 3.8.1
Systémovost oproti nahodilosti
Na tomto místˇe musím pˇriznat drobounký faul, kterého jsem se pˇred chvílí na cˇ tenáˇri dopustil (kdo si ho povšiml, zaslouží obdiv, že cˇ te opravdu dukladnˇ ˚ e). Nový formát, který zde popisuji, vznikal pˇribližnˇe tak, že jsem zaˇcal od základních, „školních“ vzoru˚ a mezi jednotlivými v souˇcasných datech existujícími vzory životných maskulin hledal ty nejménˇe odlišné. Jejich odlišnost jsem po pˇrípadném vhodném zobecnˇení popsal pravidlem, takže z pohledu nového popisu splynuly tyto vzory se základními a mohl jsem takto postupnˇe hledat opˇet další a další.21 Je možná patrné, že zhruba tímto zpusobem ˚ postupuji i pˇri motivaci nového formátu v této kapitole. Proto jsem napˇríklad v podkapitole 3.4 zobecnil grafickou zmˇenu nˇ a t’ pˇred e, i cˇ i ích i na d’, pˇrestože jsem pro nˇe v tu chvíli nemˇel žádný pˇríklad, jak ostatnˇe zminuji ˇ v poznámce 6. Stejným pˇrípadem je ve skuteˇcnosti i slovo mág z pˇredchozí kapitoly: pokud by bylo zaˇrazeno ke vzoru pán a slovní tvary byly vytváˇreny podle do té chvíle popsaných pravidel, nelišily by se od správných tvaru˚ jen v koncovkách Vsg a Lpl jako u ostatních zmínˇených slov, tedy slov vrah, mnich cˇ i vnuk, ale lišily by se i v koncovkách Npl a Vpl. Jestliže jsem tedy tato cˇ tyˇri slova v tu chvíli uvedl vedle sebe, nebylo to úplnˇe konzistentní. Všechna slova konˇcící na g mˇela být až u vzoru filozof pˇridaného teprve v této podkapitole. Z tohoto pohledu by tedy bylo konzistentní místo pˇríkladu slova konˇcícího na g jen napsat poznámku podobnou výše pˇripomínané poznámce 6. Využil jsem ale toho, že to nejenže lze vyˇrešit pomocí právˇe pˇredstavované cˇ ásti formalismu — ale že navíc, a proto tomu zde vubec ˚ vˇenuji takovou pozornost, bude takový popis umožnovat ˇ zásadnˇe odlišnou interpretaci oproti zaˇrazení všech tˇechto slov ke vzoru filozof. 21. Nepovažuji tyto informace za podstatné, proto nebyly uvedeny už na zaˇcátku kapitoly.
25
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
Tato odlišnost už byla zmínˇena v poznámce 18. Omezením koncovky
i/[ˆg] lze totiž vyjádˇrit pˇresvˇedˇcení, že kombinace slovního základu zakonˇceného na g s koncovkou i je z nˇejakého duvodu ˚ zásadnˇe nemožná. Naproti tomu zaˇrazení všech slov konˇcících na g ke vzoru filozof vyjadˇruje názor, že aktuálnˇe sice všechna taková slova pˇripouštˇejí v Npl jen koncovku -ové, že ale nejde o žádný systémový jev, nýbrž o pouhou nahodilost, podobnˇe jako napˇríklad ze samotné neexistence slova obsahujícího posloupnost hlásek kremš nelze usuzovat na obecnou nemožnost výskytu takové posloupnosti hlásek v cˇ eských slovech. Nebo podobnˇe, abych využil již dˇríve uvádˇený pˇríklad, jako když aktuální neexistence životného maskulina konˇcícího na d’ a pˇripouštˇejícího v Npl koncovky -i i -ové nebude asi pro nikoho znamenat systémovou nemožnost napˇríklad vzniku takového slova. Kromˇe dvou výše popsaných možností nabídnu v podkapitolce 4.7.3 ještˇe další, do jisté míry kompromisní rˇ ešení. 3.8.2
Vzor soudce
Doposud jsme mluvili pouze o slovech, která mají v Nsg nulovou koncovku, takže na první pohled je slovní základ totožný s tvarem Nsg, kterým je obvykle referováno i ke všem tvarum. ˚ 22 To mohlo vzbuzovat zdání, že do slovníku pˇridáváme jakoby pˇrímo tyto „základní“ tvary, lemmata, tím spíše, že jsem se pro jednoduchost ani nesnažil toto výslovnˇe rozlišovat a mluvil jen o zaˇrazování slov ke vzorum. ˚ Na pˇríkladu slov rˇ azených tradiˇcnˇe ke vzoru soudce si ale pˇripomeneme, že ve slovníku jsou v tuto chvíli opravdu jen slovní základy. Sklonování ˇ slova soudce se od sklonování ˇ slova muž liší jen minimálnˇe. Mužeme ˚ tedy zavést následující vzor:
soudce:muž k1gMnSc1 k1gMnSc5
e e
Pokud ted’ uvážíme napˇríklad samotné slovo soudce, je zˇrejmé, že musí být do slovníku zaˇrazeno jako soudc:soudce, aby mohly být tvoˇreny struktury soudc-e, soudc-i atp. a z nich dále získávány správné slovní tvary slova soudce. 22. K celému systémovému slovu jako souboru textových slov, respektive slovních tvaru, ˚ ˇ (s. 253). rˇ eˇceno terminologií MC2
26
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
3.9
Omezené vzory
Zustává ˚ jediný tradiˇcní vzor, který zatím nebyl zmínˇen, a to pˇredseda. Protože ale samotné slovo pˇredseda pˇripouští v Npl a Vpl pouze koncovku -ové, budeme vycházet ze vzoru despota (viz i poznámka 3 v podkapitole 3.3). Jeho základní podoba vypadá takto:
despota k1gMnSc1 k1gMnSc2 k1gMnSc3 k1gMnSc4 k1gMnSc5 k1gMnSc6 k1gMnSc7 k1gMnPc1 k1gMnPc2 k1gMnPc3 k1gMnPc4 k1gMnPc5 k1gMnPc6 k1gMnPc7
a y ovi u o ovi ou i, ové ů ům y i, ové ech y
Stejnˇe jako u slov rˇ azených ke vzoru soudce nebudou ani zde slovní základy ve slovníku shodné s tvarem Nsg, ale bude potˇreba psát napˇríklad despot:despota (viz ovšem dále podkapitolky 4.4.1 a 4.7.4). Podobnˇe jako v pˇredchozí podkapitole mužeme ˚ dále pˇridat odvozené vzory předseda a izraelita:
předseda:despota k1gMnPc1 k1gMnPc5 izraelita:despota k1gMnPc1 k1gMnPc5
ové ové é é
A stejnˇe jako v podkapitole 3.7 i zde platí, že pokud bude slovní základ konˇcit na g, h, ch nebo k (napˇríklad kolega, sluha, monarcha cˇ i vozka), bude v Lpl vždy koncovka -ích a nikdy -ech. Bude tedy i zde možné udˇelat tutéž úpravu a pˇrímo ve vzoru despota mít:
k1gMnPc6
ech, ích/[ghk]|ch 27
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
Po takové úpravˇe se vzory pán a despota budou v plurálu lišit pouze jedním detailem, a to omezením Npl a Vpl koncovky i/[ˆg] (viz konec podkapitoly 3.7 a podkapitolka 3.8.1). Pˇritom ale neexistuje cˇ eské slovo, které by v Nsg konˇcilo na ga a v Npl a Vpl pˇripouštˇelo zakonˇcení zi. Muže˚ me tedy takové omezení pˇridat i do vzoru despota, aniž by to mˇelo dopad na slovní tvary získávané podle vzoru˚ pˇridaných v této podkapitole. Pak budou vzory pán a despota v plurálu shodné, a budeme tedy chtít umˇet vyjádˇrit právˇe toto, že despota je jako pán, ale jen v plurálu.23 To zobecníme na možnost použít ze vzoru pouze znaˇcky odpovídající urˇcitému regulárnímu výrazu: napíšeme-li vzor_RE, bude to znamenat znaˇcky vzoru vzor odpovídající regulárnímu výrazu RE. Vzor despota tak bude možné specifikovat jen pro singulár, plurál bude odvozen od vzoru pán:
despota:pán_nP k1gMnSc1 ... k1gMnSc7
a ou
3.10 Alternativa k odvozeným vzorum ˚ Zaˇrazení slova k odvozenému vzoru filozof z podkapitoly 3.8 rˇ íká, že slovo se sklonuje ˇ podle vzoru pán s výjimkou Npl a Vpl, kde je pˇrípustná pouze koncovka -ové. Samo o sobˇe se to muže ˚ jevit jako rozumné rˇ ešení. Pokud se ale podíváme na vzor předseda, zjistíme, že rˇ íká nˇeco podobného: slova k nˇemu zaˇrazená se sklonují ˇ podle vzoru despota — s toutéž výjimkou. A stejnˇe tak i k tradiˇcnímu vzoru muž je rˇ azeno množství slov, která v Npl a Vpl pˇripouštˇejí pouze koncovku -ové, napˇr. plebej, a která by vyžadovala zavedení vzoru obdobného významu jako filozof a předseda. Pˇresnˇe stejná situace jen s jinou koncovkou je u vzoru˚ občan, izraelita a tˇreba učitel. Kˇríží se tu tedy dvˇe relativnˇe nezávislé vˇeci, totiž zaˇrazení k jednomu z tradiˇcních vzoru˚ a pˇrípustné koncovky v Npl a Vpl, kdy ale zaˇrazení slova k dˇríve uvedeným vzorum ˚ neumožnuje ˇ tuto nezávislost vyjádˇrit. ˇ 23. Ctenᡠr zde muže ˚ namítat, že pˇrece nejen kolega, ale ani sluha, monarcha cˇ i vozka a obecnˇe žádná životná maskulina zakonˇcená v Nsg na ha, cha cˇ i ka nemají v Npl a Vpl koncovku -i. A že dokud vzor despota popisoval i plurálové koncovky, bylo tuto skuteˇcnost možné vyjádˇrit vhodným omezením koncovky i, ovšem není možné patˇriˇcnˇe omezit tuto koncovku u vzoru pán, protože existuje mnoho slov jako napˇríklad potomek, která v Npl a Vpl -i pˇripouštˇejí. Je to pravda: tento pˇríklad je zde opˇet jen jako motivace k zavedení omezených vzoru˚ a nakonec to bude rˇ ešeno odlišnˇe (viz podkapitolka 4.7.4).
28
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
Doposud definované vzory vždy popisovaly všechny kombinace pádu a cˇ ísla, at’ už se tak dˇelo pˇrímo, nebo prostˇrednictvím odvození od jiného vzoru.24 Abychom dokázali adekvátnˇe vyjádˇrit právˇe zmínˇenou obecnou nezávislost tradiˇcního vzoru a koncovek v Npl a Vpl, pˇridáme vzory, které budou popisovat jen tyto konkrétní koncovky. A protože na jménˇe nezáleží, zvolíme mnemotechnické pojmenování:
-ové k1gMnPc1 k1gMnPc5
ové ové
k1gMnPc1 k1gMnPc5
i i
k1gMnPc1 k1gMnPc5
é é
-i
-é
Formalismus dále obohatíme o možnost specifikovat pro slovní základ ve slovníku více vzoru˚ prostˇrednictvím jejich seznamu oddˇeleného cˇ árkami. Tím nám odpadne potˇreba vzoru˚ filozof, izraelita atp. Místo toho bude možné ve slovníku psát
filozof:pán,-ové doktor:pán,-i občan:pán,-é předsed:despota,-ové izraelit:despota,-é Interpretace takových dat bude podobná odvozeným vzorum: ˚ pokud bude u slovního základu uveden seznam vzoru, ˚ vytvoˇrí se nejprve tvary podle prvního z nich. Pak se pro každý další vzor ze seznamu postupnˇe vytvoˇrí tvary i podle nˇej a pˇridají se k již dˇríve vytvoˇreným. Pokud mezi nimi budou tvary se stejnou znaˇckou, budou novˇe vytvoˇrenými tvary nahrazeny (to je pˇrípad všech uvedených pˇríkladu). ˚ Jediný z dˇríve popsaných odvozených vzoru, ˚ který takto nemužeme ˚ nahradit, je vzor akrobat. Musíme udˇelat ještˇe jednu drobnou zmˇenu formátu: u jednotlivých vzoru˚ v seznamu bude možné znakem + vyjádˇrit, že nemají pˇrípadné dˇríve vytvoˇrené tvary stejných znaˇcek nahrazovat, ale doplnovat ˇ (ovšem bez vzniku duplicit). Je zˇrejmé, že takové + bude mít smysl 24. Formalismus to ovšem nijak nevyžadoval, pouze jsme si právˇe takto vzory definovali.
29
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
jen u druhého a dalších vzoru˚ v seznamu, u prvního by se nijak neprojevilo. Mužeme ˚ ted’ tedy psát nejen
akrobat:pán,-i,+-é ale i napˇríklad
dřevokaz:pán,+muž Za poznámku stojí, že popsané rˇ ešení je principiálnˇe shodné s rˇ ešením téhož problému, které ve své práci navrhuje Jaroslava Hlaváˇcová (2009). Na životných maskulinech to není tolik patrné, ale pˇri pohledu na tabulku 9.2 (cit. d., s. 87) pˇríkladu˚ lemmat ohýbaných podle vzoru hrad je shoda základní myšlenky zˇrejmá: je stanoven základní vzor a k nˇemu pˇridána informace o pˇrípustných koncovkách v tzv. kritických kombinacích, tedy kombinacích pádu a cˇ ísla umožnujících ˇ obecnˇe více zakonˇcení, ale ne pro všechna lemmata (cit. d., s. 82). Kosmetické odlišnosti jsou spíše podružné, pˇrestože si troufám tvrdit, že mluví jednoznaˇcnˇe ve prospˇech mého rˇ ešení: ∙
Stanovuji implicitní, základní koncovky a popisuji pouze odlišnost od nich. Tedy v pˇrípadˇe vzoru hrad bych mˇel v tomto vzoru koncovku u pro Gsg i Lsg a koncovky ech, ích/[ghk]|ch pro Lpl a ve slovníku pak popisoval pouze odchylky.25 Napˇríklad pro slova z tabulky 9.2 (cit. d., s. 87) by to tedy bylo nˇeco na zpusob ˚
problém:hrad hotel:hrad,+-ích kurs:hrad,+-ě oceán:hrad,+-ě srp.en:hrad,-a ... ∙
Navíc ale rˇ ešení Jaroslavy Hlaváˇcové vyžaduje program, který ví, jak je informace o koncovkách pro kritické kombinace tradiˇcního vzoru zakódována do názvu vzoru uvedeného u kofixu. V mém formalismu je toto transparentnˇe pˇrímo v datech, program všechny vzory 26 zpracovává stejným, triviálním zpusobem. ˚
25. Takže samotné slovo hrad by pak muselo být ve slovníku jako nˇejaké hrad:hrad,+-ě. 26. Pro úplnost je potˇreba dodat, že podobné rˇ ešení by bylo myslitelné (leˇc nepoužité) i v puvodním ˚ pražském systému (Hajiˇc, 2004) zaˇrazením téhož kofixu k více k takovému úˇcelu navrženým vzorum. ˚ A v puvodní ˚ verzi brnˇenského systému (Osolsobˇe, 1996) bylo toto svým zpusobem ˚ dokonce i realizováno prostˇrednictvím vhodnˇe sestavených koncovkových množin, které ovšem nebylo možné specifikovat pˇrímo ve slovníku pro konkrétní lemmata, ale byly zaˇrazeny v jednotlivých vzorech u pˇríslušných intersegmentu. ˚
30
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
3.11 Hovorové a nespisovné tvary V brnˇenských datech jsou kromˇe spisovných tvaru˚ zachyceny i tvary nespisovné.27 Tyto tvary mají na konci znaˇcky navíc atribut w s hodnotou H. Tedy napˇríklad tvar občani by mˇel znaˇcku k1gMnPc1wH. Bylo by možné rozporovat konkrétní výsledky výbˇeru, které typy nespisovných tvaru˚ jsou do databáze zaˇrazeny a které nikoli28 , ale obecnˇe není cílem mé práce se tˇemito tvary jakkoli blíže zabývat, pokud to nebude nutné. Doposud nebylo zˇrejmé, proˇc u vzoru˚ pro slova sklonovaná ˇ podle tradiˇcních vzoru˚ pán, muž a pˇredseda vybírám jako základní vzor ten, který má v Npl a Vpl koncovky -i i -ové. Duvodem ˚ jsou právˇe možné nespisovné tvary. Pro Npl a Vpl životných maskulin totiž existují tˇri koncovky, -i, -ové a -é, ale jen první dvˇe z nich lze pˇripojit ke kterémukoli životnému maskulinu. Ne vždy tak vzniknou spisovné tvary, je ale zˇretelný rozdíl v pˇrijatelnosti tvaru˚ jako ?obˇcani, ?obˇcanové, ?blbcové cˇ i ?filozofi a v pˇrijatelnosti tvaru˚ jako ˇ ceno jinak, ?uˇcitelové je možná tvar hod*sloné, *mužé nebo tˇreba *soudcé. Reˇ nˇe zvláštní, *pokrytcé je ale tvar prostˇe nesrozumitelný. Kromˇe introspekce, která ovšem muže ˚ v okrajových pˇrípadech poskytovat individuálnˇe odlišné výsledky, to lze empiricky potvrdit napˇríklad vyhledáváním tˇechto tvaru˚ ve vyhledávaˇci Google. Obecnˇe tedy platí, že odhlédnuto od spisovnosti lze koncovky -i a -ové pro tvary Npl a Vpl použít vždy. Navíc je možné mít dvˇe informace: ∙ ∙
že lze použít i koncovku -é a které z koncovek -i a -ové jsou spisovné (a které tedy nespisovné).
27. Stejnˇe tak jsou samozˇrejmˇe stylovˇe ruznou ˚ mˇerou pˇríznakové tvary zachyceny i v pražských datech, viz ale dále v podkapitole 5.2 polemiku s jejich aktuálním zpracováním. 28. Nemám v tomto pˇrípadˇe na mysli nekonzistence zminované ˇ v podkapitolce 2.3.2, tedy že nˇekteré nespisovné koncovky nejsou u všech vzoru, ˚ u nichž by je bylo možné oprávnˇenˇe oˇcekávat. Pˇríkladem zˇrejmˇe ne zcela vhodného výbˇeru, které typy nespisovných tvaru˚ zaˇrazovat a které ne, je právˇe Npl tvar občani, který aktuální podoba brnˇenských dat nepopisuje ani jako nespisovný. Naproti tomu data znají Lpl tvar občanách, pˇrestože napˇríklad SYN2005 nedokládá vubec ˚ žádný tvar maskulina zakonˇceného na an, které by pˇrijímalo Lpl koncovku -ách, a nepodaˇrilo se mi takový tvar nalézt ani prostˇrednictvím vyhledávaˇce Google. Je tedy patrné, že jde o systémovou záležitost, že totiž cˇ eští mluvˇcí, at’ už z jakéhokoli duvodu, ˚ takové tvary netvoˇrí dokonce ani v neformálních projevech. Protože ale obecnˇe není žádoucí, aby data popisovala neexistující tvary (z duvod ˚ u˚ rizika náhodné homonymie s existujícími, zbyteˇcného zvyšování šumu z pohledu korektoru pˇreklepu˚ atp.), je zˇrejmé, že bude vhodné tˇemto tvarum ˚ ještˇe vˇenovat pozornost, aby skuteˇcnˇe odpovídaly reálným jazykovým datum. ˚ To je ovšem zcela mimo rámec této práce. Jen poznamenám, že v tomto konkrétním pˇrípadˇe mohu odkázat na podkapitolu 3.7, kdy v ní pˇredstavené prostˇredky umožnují ˇ jednoduše popsat pozorovanou nekompatibilitu zakonˇcení an a koncovky -ách.
31
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
Abychom mohli vyjádˇrit právˇe toto, obohatíme formát o znak <, který bude možné používat ve stejných kontextech, jako v pˇredchozí podkapitole pˇridaný znak +. Bude-li v seznamu vzoru˚ pˇred jménem nˇekterého vzoru tento znak, nebudou pˇri shodˇe znaˇcek (viz obecnˇe vyhodnocení seznamu vzoru˚ v pˇredchozí podkapitole) dˇríve vytvoˇrené tvary nahrazeny tvary tvoˇrenými podle právˇe zpracovávaného vzoru, ale bude tˇemto dˇríve vytvoˇreným tvarum ˚ ke znaˇcce pˇripojen pˇríznak wH, pokud jej už ovšem znaˇcka nebude mít, a nové tvary budou prostˇe pˇridány. Pˇrípadné duplicitní tvary, které by mˇely stejnou znaˇcku až na pˇrítomnost cˇ i nepˇrítomnost wH, budou zredukovány ve prospˇech znaˇcky bez tohoto pˇríznaku. Pokud tedy budeme mít ve slovníku následující data:
filozof:pán,<-ové doktor:pán,<-i občan:pán,<-é akrobat:pán,<-i,+-é předsed:despota,<-ové izraelit:despota,<-é získáme napˇríklad tvary slova pˇredseda tak, že ke slovnímu základu předsed vytvoˇríme všechny tvary podle vzoru despota, zejména tedy tvary předsedi a předsedové pro znaˇcky k1gMnPc1 a k1gMnPc5. Pak od téhož slovního základu vytvoˇríme i tvary podle vzoru -ové, totiž pro tytéž znaˇcky tvar předsedové. Ke znaˇckám puvodních ˚ tvaru˚ pˇripojíme pˇríznaky wH a pˇridáme k nim právˇe vytvoˇrené tvary podle vzoru -ové. Ve výsledku tedy bude mít tvar předsedi znaˇcky k1gMnPc1wH a k1gMnPc5wH a tvar předsedové bude mít kromˇe tˇechto znaˇcek navíc i znaˇcky k1gMnPc1 a k1gMnPc5. Nakonec odstraníme duplicitní tvary předsedové se znaˇckami k1gMnPc1wH a k1gMnPc5wH. Podotýkám, že zavedený znak < nejen umožnuje ˇ lépe zachytit dˇríve v podkapitole popsané chování pozorovaných jazykových dat, ale dovoluje také výraznˇe úspornˇejší zápis. Bez nˇej bychom totiž museli koncovky s pˇríznakem wH definovat pˇrímo v jednotlivých vzorech -i, -ové a -é. Museli bychom tedy napˇríklad psát:
-é k1gMnPc1 k1gMnPc5 k1gMnPc1wH k1gMnPc5wH
32
é é i, ové i, ové
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
3.12 Nepravidelné tvary Nˇekterá slova mají v nˇekterých kombinacích cˇ ísla a pádu tvary, které jsou i v mluvnicích uvádˇeny jako nepravidelné výjimky. Jsou tak napˇríklad od slov pán a syn Vsg tvary pane a synu namísto pravidelných *páne a *syne. Podobnˇe plurálové tvary slova pˇrítel nejsou *pˇrítelé, *pˇrítelu˚ atd., ale nepravidelnˇe pˇrátelé, pˇrátel atp. Tyto výjimeˇcné tvary jsou skuteˇcnˇe nepravidelné v tom smyslu, že stejnou hláskovou zmˇenou slovního základu a (nebo) stejnou koncovkou není utvoˇren tvar téhož cˇ ísla a pádu pro žádné jiné slovo, pˇrípadnˇe jen pro nˇekolik málo. Pokud tedy chceme mít ve slovníku to, co je jedineˇcné, a v souboru vzoru˚ to, co je pravidelné, je zˇrejmé, že informace o tˇechto výjimeˇcných tvarech musí být ve slovníku, jako je tomu ostatnˇe v pražském systému už ted’. ˇ s. 253) slovo ve slovníku popsáDoposud bylo ( „systémové“, viz MC2, no jedním rˇ ádkem, na kterém byl uveden slovní základ a seznam vzoru. ˚ Abychom ale mohli zachytit zmínˇené výjimeˇcné tvary, umožníme popsat tvary urˇcitého slova na více rˇ ádcích. Protože by obecnˇe nemuselo být jasné, které rˇ ádky takto patˇrí k témuž slovu, budeme pˇri víceˇrádkovém popisu všechny rˇ ádky kromˇe prvního odsazovat. Výjimeˇcné tvary tedy do slovníku napíšeme na samostatné rˇ ádky a uvedeme k nim znaˇcky, napˇríklad:
pán:pán pan-e syn:pán,<-ové syn-u
k1gMnSc5 k1gMnSc5
Interpretace bude opˇet podobná jako u seznamu vzoru: ˚ nejprve od slovního základu vytvoˇríme tvary podle uvedeného vzoru cˇ i seznamu vzoru. ˚ Pak postupnˇe pˇridáme každý samostatnˇe uvedený tvar, pˇrípadnˇe jím pˇri shodˇe znaˇcek nahradíme dˇríve získané tvary se stejnou znaˇckou.29 Je zˇrejmé, že pro rozumné fungování i zde potˇrebujeme znak + zavedený v podkapitole 3.10 a stejnˇe tak povolíme i znak < podkapitoly 3.11. Budeme tedy napˇríklad moci do slovníku psát
obyvatel:muž,<-é +obyvatel-0
k1gMnPc2
cˇ ímž zajistíme, že tvarem obyvatel nebude pravidelný tvar obyvatelů nahrazen, ale bude k nˇemu pˇridán. 29. At’ už vytvoˇrené podle seznamu vzoru, ˚ nebo se stejnou znaˇckou dˇríve uvedené na samostatném rˇ ádku, kdy ovšem druhá varianta by pochopitelnˇe nedávala smysl, kdyby byla v datech skuteˇcnˇe použita.
33
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
3.12.1 Více slovních základu˚ Kdybychom ale takto chtˇeli popsat tvary slova pˇrítel, museli bychom samostatnˇe vyjmenovat všechny plurálové tvary. To by ovšem nevystihovalo skuteˇcnost, že se až na Gsg pravidelnˇe sklonují ˇ podle vzoru muž. Proto formalismus ještˇe zobecníme a umožníme na samostatných rˇ ádcích mít kromˇe hotových tvaru˚ i pouhé slovní základy se seznamem vzoru. ˚ Slovo pˇrítel tedy bude moci být ve slovníku zachyceno takto:
přítel:muž,<-é
nejprve zpracuje první rˇ ádek, a to tak, že – – –
∙
pak se podobnˇe zpracuje druhý rˇ ádek, a to konkrétnˇe tak, že – – –
34
podle vzoru muž se vytvoˇrí tvary od slovního základu přítel, podle vzoru -é se vytvoˇrí tvary od téhož slovního základu, tedy tvary přítelé pro Npl a Vpl, vytvoˇrené tvary přítelé se pˇridají ke dˇríve vytvoˇreným tvarum, ˚ pˇriˇcemž znaˇckám Npl a Vpl tvaru˚ příteli a přítelové bude pˇridán pˇríznak wH, podle vzoru muž se vytvoˇrí tvary od slovního základu přátel, ovšem pouze pro množné cˇ íslo, podle vzoru -é se vytvoˇrí tvary od téhož slovního základu, tedy tvary přátelé pro Npl a Vpl, vytvoˇrené tvary přátelé se pˇridají ke dˇríve vytvoˇreným tvarum, ˚ pˇriˇcemž znaˇckám Npl a Vpl tvaru˚ přáteli a přátelové bude pˇridán pˇríznak wH,
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
∙
∙
poté budou tvary vytvoˇrené podle druhého rˇ ádku pˇridány k tvarum ˚ vytvoˇreným podle prvního rˇ ádku, pˇriˇcemž znaˇckám plurálových tvaru˚ (protože tvary právˇe tˇechto znaˇcek jsou vytváˇreny na obou rˇ ádcích) bude pˇridán pˇríznak wH, pokud jej už ovšem nebudou obsahovat (protože druhý rˇ ádek je uvozen znakem <), nakonec bude pˇridán tvar ze tˇretího rˇ ádku, pˇriˇcemž bude znaˇckám dosud vytvoˇrených tvaru˚ Gpl pˇridáno wH, pokud jej už nemají.
Výsledné tvary tak budou obsahovat napˇríklad Npl a Vpl tvary příteli, přítelové, přítelé, přáteli, přátelové a přátelé, kromˇe posledního všechny s pˇríznakem wH, dále pro Gpl budou vytvoˇreny tvary přítelů a přátelů s pˇríznakem wH a k nim spisovný tvar přátel a tak podobnˇe pro další pády. Podotýkám, že tvary přítelové, přítelé, přátelové, přítelů, přátelů atp. lze bez problému˚ doložit prostˇrednictvím vyhledávaˇce Google, proto ukazuji, že je lze v mnou navrhovaném formátu systematicky popsat. Kdybychom ale chtˇeli popisovat jen spisovné tvary slova pˇrítel, mohl by popis vypadat úplnˇe stejnˇe, jen bychom nepoužili znak <. Takto podrobnˇe rozebírám možný popis tvaru˚ slova pˇrítel proto, že jej považuji za vhodný pˇríklad podstatné odlišnosti od existujících pˇrístupu˚ k popisu dat morfologického analyzátoru. Dosud byla informace neusporˇ ádaná, protože všechny její cˇ ásti téhož druhu, pˇrípadnˇe navíc v témže kontextu, si byly rovnocenné. V brnˇenském systému (viz pˇríklad 2.2) nijak nezáleží na poˇradí intersegmentu˚ ve vzoru, na poˇradí koncovkových množin u jednotlivých intersegmentu˚ nebo na poˇradí koncovek v koncovkových množinách.30 Naproti tomu v mém návrhu se muže ˚ zmˇena poˇradí rˇ ádku˚ popisujících jedno slovo nebo zmˇena poˇradí vzoru˚ v seznamu vzoru˚ výrazným zpusobem ˚ odrazit na vytvoˇrených tvarech. Zejména ale tímto poˇradím umožnuji ˇ vyjádˇrit, že nˇejaká koncovka cˇ i forma slovního základu je základní, v principu s neomezenými nebo ménˇe omezenými možnostmi použití, zato jiná koncovka cˇ i forma že je specifická, použitelná jen v omezenˇejším spektru situací. A nadto umožnuji ˇ dále vyjádˇrit i vztah specifiˇctˇejších tvaru˚ k pravidelnˇejším: bud’to mohou stát rovnocennˇe vedle sebe jako Gpl obyvatelů a obyvatel, nebo muže ˚ být pravidelnˇejší tvar pˇrijatelný, ale v menší míˇre než tvar specifiˇctˇejší, jako je tomu u Gpl přítelů, přátelů a přátel, kde lze dokonce prostˇrednictvím vyhledávaˇce Google pozorovat rozdíl i mezi dvˇema nespisovnými tvary, kdy první, nejpravidelnˇejší, je pro mluvˇcí zˇretelnˇe nejménˇe pˇrijatelný. A to 30. Jedinou výjimkou je první intersegment, jeho první koncovková množina a její první koncovka, viz podkapitola 2.2, ale to je pouze technické rˇ ešení.
35
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
pˇresto, že muže ˚ vyjadˇrovat (a vˇetšinou vyjadˇruje) i odlišný význam než ménˇe pravidelné tvary. Totéž lze ale pozorovat i u slova nepˇrítel, kde tvary množného cˇ ísla od slovního základu nepřítel žádný odlišný význam nevyjadˇrují. Umožnuji ˇ vyjádˇrit i to, že pravidelný tvar bude specifickým bez náhrady nahrazen, ale jasný pˇríklad nemám a ve skuteˇcnosti si nejsem jistý, jestli je nˇeco takového vubec ˚ možné. Nicménˇe, kdybychom napˇríklad chtˇeli popisovat jen spisovnou podobu jazyka, potˇrebovali bychom právˇe toto. 3.12.2 Stˇrídání dlouhých a krátkých vokálu˚ Slovo vul ˚ bychom v tuto chvíli mohli ve slovníku popsat následovnˇe:
vol:pán vůl-0
k1gMnPc1
Mezi životnými maskuliny takto dochází jen ke stˇrídání u˚ a o, a to navíc pouze u nˇekolika málo slov. Totéž stˇrídání a v tomtéž kontextu nulové koncovky Nsg lze ale pozorovat i jinde mezi substantivy, je tak napˇríklad stul, ˚ ale stolu nebo sul, ˚ ale soli. A dokonce to není omezeno jen na substantiva: je otcuv, ˚ ale otcova nebo muj, ˚ ale moje. Navíc u˚ a o není jediná dvojice dlouhé a krátké samohlásky, která se v tomto kontextu stˇrídá. Je tak tˇreba mráz, ale mrazu, chléb, ale chleba, sníh, ale snˇehu cˇ i líh, ale lihu. Abychom tuto zjevnou pravidelnost nemuseli u všech tˇechto a mnoha dalších slov popisovat ve slovníku dvˇema ruznými ˚ slovními základy, použijeme podobné rˇ ešení, jakým jsme popsali stˇrídání vokálu˚ s nulou v podkapitole 3.5. Do slovního základu pˇred vokál, u nˇehož dochází ke stˇrídání délky, pˇripíšeme znak %. Dále pˇridáme pravidlo, které bude pˇred C-0, kde C bude libovolný konsonant, mˇenit %a na á, %e na é, %ě a %i na í a %o na ů, pˇriˇcemž v ostatních pˇrípadech bude znak % prostˇe odstranovat. ˇ Na poˇradí tolik nezáleží, budeme ho provádˇet tˇreba jako první ze všech. Postaˇcí pak tedy do slovníku napsat jen
v%ol:pán Lze namítat, že toto stˇrídání je zˇretelnˇe neproduktivní, že nevznikají žádná nová slova, ve kterých by k nˇemu docházelo, ovšem takové situaci že by odpovídal spíše první popis. Je to možné.31 Považuji ale za výhodnˇejší 31. Lze si ale také myslet, že to nemusí znamenat, že by vznik takových slov byl v souˇcasné cˇ eštinˇe nemožný nˇejak systémovˇe, ale že jen není pˇríležitost: jednak jde vždy o jednoslabiˇcné koˇreny (nebo pˇrípony v pˇrípadˇe -uv, ˚ výjimkou by mohl být kámen, ale neznám vícesla-
36
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
popisovat jako pravidelné vše, co tak vypadá32 , už jen proto, že je výraznˇe jednodušší rozložit pravidelný popis nˇejakého jevu na vzájemnˇe nezávislé, nesouvisející popisy jednotlivých slov, na nichž se projevuje, než se snažit o proces opaˇcný. 3.12.3 Poznámka ke stˇrídání hlásek obecnˇe Kdybychom ted’ chtˇeli pˇridat do slovníku slovo buh, ˚ mohli bychom psát napˇríklad
b%oh:pán b%ož-e
k1gMnSc5
což by ale nevyjadˇrovalo možnost, že v pˇrípadˇe stˇrídání h a ž jde o pravidelnost (viz ovšem dále podkapitolu 4.5.1), protože jednak se totéž stˇrídání objevuje pˇred e i u jiných slov, napˇríklad roh a rožek, jednak se v tˇechto kontextech pravidelnˇe stˇrídají i jiné hlásky, napˇríklad cˇ lovˇek, cˇ lovˇecˇ e a hák, háˇcek. Toto stˇrídání je ovšem odlišné od stˇrídání popsaného v podkapitole 3.6 a zárovenˇ tˇreba r se i v tˇechto kontextech chová jinak: je mistr, mistˇre, ale motor, motorek (a také doktor, doktore). Až budu mít zpracována všechna data morfologického analyzátoru, budu mít pˇresnˇejší pˇredstavu, k jakým stˇrídáním a v jakých kontextech muže ˚ docházet, která stˇrídání je rozumné popisovat pravidlem a která bude lépe biˇcný koˇren, kde by se takto chovala jeho poslední slabika), jednak napˇríklad pˇri pˇrípadné pˇrejímce takového slova bude chybˇet motivace ke stˇrídání. Zajímavá by tedy byla pˇrejímka slova z jazyka, ve kterém také dochází k takovému stˇrídání. Pak by bylo možné pozorovat, jestli bude slovo pˇrejato i vˇcetnˇe stˇrídání. To ovšem bohužel není pˇríliš reálný scénáˇr. Nicménˇe náznakem ve prospˇech pravidelnosti by mohlo být i to, co jsem zminoval ˇ na konci pˇredchozí podkapitolky (3.12.1), že se mi totiž nepodaˇrilo nalézt dobrý pˇríklad, kde by specifiˇctˇejší tvar nahradil pravidelný tak, že by pravidelný nebylo možné použít ani jako nespisovný. Mohlo by se zdát, že Nsg tvary *moj chleb cˇ i *otcov lih jsou hledaným pˇríkladem. Protože ale u všech tˇechto slov jsou pˇrinejmenším pro muj ˚ idiolekt tyto tvary stejnˇe nepˇrijatelné jako tˇreba dˇríve zminovaní ˇ *mužé cˇ i *soudcé, je pro mˇe tato pravidelná nepˇrijatelnost naopak argumentem, že jde v tomto pˇrípadˇe o výsledek nˇejakého pravidla, a nikoli o dva ruzné ˚ slovní základy cˇ i jiný druh nepravidelnosti uvedené ve slovníku a (patrnˇe) obecnˇe vedoucí i k pˇrijatelnosti odpovídající pravidelnˇe utvoˇrené obdoby nepravidelného tvaru. Na druhou stranu, kdyby nˇekdo toto stˇrídání chtˇel pˇrecejen interpretovat ne jako pravidelnost, ale jako dva ruzné ˚ slovní základy, bylo by konzistentní, aby se stejným zpusobem ˚ zamyslel i nad stˇrídáním vokálu˚ s nulou z podkapitoly 3.5: nakolik v jazyce pˇribývají nové koˇreny s takovým stˇrídáním (nikoli tedy slova tvoˇrená pˇríponami -ek/0k ap.) a jaký je pˇrípadnˇe jejich charakter, tedy jestli je to nezávislé na hláskovém okolí, co u takových nových slov ovlivnuje, ˇ jestli ke stˇrídání bude nebo nebude docházet atp. 32. Pochopitelnˇe jen do urˇcité míry, dostateˇcným množstvím dostateˇcnˇe detailních pravidel by jistˇe bylo možné popsat „pravidelnˇe “ cokoli. Jde ovšem o subjektivní rozhodování, žádné objektivní mˇerˇ ítko toho, co je pravidelné a co nepravidelné, mi není známo.
37
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
zaˇradit do slovníku v podobˇe více slovních základu˚ nebo která stˇrídání lze popsat stejným zpusobem ˚ (jako tˇreba stˇrídání pˇred Nsg -i a Lsg -ích) a která nikoli. Protože by nebylo rozumné navrhovat nˇejaký obecný, systematický zpusob ˚ popisu jen na základˇe cˇ ásti dat, prozatím takové vˇeci jen znaˇcím nˇejakou vhodnou diakritikou (pochopitelnˇe zárovenˇ s pˇridáním pˇríslušných pravidel), spíše ovšem jako technické rˇ ešení, pouze abych zachytil pozorované pravidelnosti. Napˇríklad v tomto pˇrípadˇe tedy budu do slovníku psát b%oh-’e a člověk-’e. Obecnˇe ale dále takovým jednotlivostem nebudu vˇenovat speciální pozornost.
3.13 Minivzory Zavedení možnosti pˇridávat do slovníku nepravidelné tvary, pˇrípadnˇe variantní slovní základy bylo v pˇredchozí kapitole motivováno snahou deklarovanou už na zaˇcátku kapitoly, totiž zachytit ve slovníku to, co je jedineˇcné, a prostˇrednictvím pravidel a vzoru˚ popsat to, co je pravidelné. Mezi jedineˇcným a pravidelným ovšem pˇrinejmenším na první pohled není žádná zˇretelná dˇelící cˇ ára, naopak je mezi nimi pomˇernˇe rozsáhlá a obtížnˇe hodnotitelná „šedá zóna“. Tak napˇríklad stejným zpusobem ˚ jako slovo pˇrítel se ohýbá i slovo nepˇrítel, ovšem už žádné další. Stejnˇe jako slovo pán je v datech analyzátoru ajka popsáno dalších 16 složenin typu pul˚ pán, jemnostpán atp. Nejde ale jen o složeniny, unikátnˇe a zárovenˇ stejnˇe se sklonují ˇ tˇreba slova Anakreón, Faethón a archón. Aby bylo možné tuto stejnost popsat, pamatuje si skript zpracovávající data každé slovo, které je popsáno na více rˇ ádcích. Na toto slovo se pak lze dále ve slovníku odkázat tak, že místo seznamu vzoru˚ uvedeme první slovní základ z popisu tohoto slova a pˇripojíme k nˇemu znak $. Mužeme ˚ tedy psát napˇríklad
nepřítel:přítel$ půlpán:pán$ archón:Anakreón$ pochopitelnˇe vždy jen za pˇredpokladu, že ve slovníku pˇredchází popis odkazovaných slov a zárovenˇ je tento popis víceˇrádkový. Vyhodnoceno to bude tak, že se nejprve z obou slovních základu˚ odtrhne jejich nejdelší spoleˇcný pravý podˇretˇezec (v pˇríkladech postupnˇe přítel, pán a ón). Pak se budou tvoˇrit všechny tvary odkazovaného slova, pˇriˇcemž v každém bude nahrazen zbytek odkazovaného slovního základu (v prvních dvou pˇríkladech prázdný rˇ etˇezec, ve tˇretím Anakre) zbytkem slovního základu popisovaného slova (v pˇríkladech postupnˇe ne, půl a arch). 38
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
Podotýkám, že minivzory jsou cˇ istˇe technické rˇ ešení. Nechci ztratit informaci o tom, že se nˇejaká konkrétní slova ohýbají shodným, tˇrebaže výji33 Nejsem ale v tuto chvíli rozhodnut, meˇcným a nepravidelným zpusobem. ˚ jak takovou informaci optimálnˇe popsat, proto to prostˇrednictvím minivzoru odkládám na pozdˇeji. Že jde jen o technické rˇ ešení, se projevuje i v tom, že nestanovuji žádné kritérium, které by umožnovalo ˇ rozhodnout, co lze popsat minivzory a co je potˇreba popisovat normálními vzory.
3.14 Rozdílnost psané a vyslovované podoby Ohýbání nˇekterých pˇrejatých slov se rˇ ídí podle vyslovované podoby slovního základu, pˇriˇcemž jeho psaná podoba je odlišná. Napˇríklad jméno „Mackbeth se tradiˇcnˇe v cˇ eštinˇe vyslovuje s -t na konci a sklonuje ˇ se podle tvrdého vzoru“34 , zejména tedy je Vsg Mackbethe a Lpl Mackbethech. Pokud bychom je ale do slovníku skuteˇcnˇe zaˇradili ke vzoru pán nˇejakým
Mackbeth:pán,<-ové, rˇ ídil by se výbˇer koncovek (viz podkapitola 3.7) podle h na konci slovního základu, takže by se vytvoˇrily nežádoucí tvary Mackbethu pro Vsg a Mackbetzích pro Lpl. Chceme tedy umˇet pro slovní základ alesponˇ cˇ ásteˇcnˇe zaznamenat i výslovnost. Potˇrebnou informaci budeme do slovníku zapisovat tak, že na konec slovního základu pˇripojíme znakem [ relevantní cˇ ást konce jeho vyslovované podoby. Budeme tedy napˇríklad psát
Mackbeth[t:pán,<-ové Bush[š:muž,<-ové May[j:muž,<-ové Senec[k:despota,<-ové Pokud zárovenˇ pˇred odstranování ˇ - a 0 pˇripojíme pravidlo, které z vytvoˇreného slovního tvaru odstraní vše mezi znaky [ a -, bude výsledkem pˇresnˇe takové chování, jaké potˇrebujeme. Tvorba tvaru se bude rˇ ídit vyslovovanou podobou, výsledné slovní tvary ale budou respektovat specifický pravopis. 33. Zde je potˇreba pˇripomenout, že vycházím z brnˇenských dat, kde mám tuto informaci „zadarmo“, protože taková (a právˇe jen taková) slova budou sdílet spoleˇcný vzor. V datech pražského systému by to bylo o nˇeco nároˇcnˇejší, protože bych musel nejprve detekovat, která slova se ohýbají stejnˇe. 34. Internetová jazyková pˇríruˇcka, výklad „Osobní jména mužská zakonˇcená ve výslovnosti na souhlásku“, http://prirucka.ujc.cas.cz/?id=320#nadpis5.
39
ˇ 3. N OVÝ FORMÁT NA P RÍKLADU ŽIVOTNÝCH MASKULIN
Jsou nicménˇe mezi životnými maskuliny slova, pro která toto nebude staˇcit. Napˇríklad ve výslovnosti jména Steve se nerealizuje koncové e, takže se jméno sklonuje ˇ podle vzoru pán. Doposud popsané prostˇredky ovšem nenabízejí možnost zapsat jméno do slovníku tak, aby se vytváˇrely správné tvary.35 Budeme tedy taková slova zapisovat takto:
Stev[e|v:pán,<-ové a obohatíme právˇe pˇridané pravidlo tak, že v kontextu -0 se ke slovnímu základu pˇridá rˇ etˇezec uvedený mezi znaky [ a |, je-li ovšem uveden.36 U nˇekterých cizích jmen se ve výslovnosti pˇrípouští více podob, a v du˚ sledku toho nˇekdy i více zpusob ˚ u˚ ohýbání. Tak napˇríklad na konci jména Smith lze ve výslovnosti pˇredpokládat s i t, pˇriˇcemž v prvním pˇrípadˇe bude jméno sklonováno ˇ podle vzoru muž, v druhém podle vzoru pán (zdroj viz poznámka 34). Tuto situaci nám umožní zachytit více slovních základu˚ popsaných v podkapitolce 3.12.1:
Smith[s:muž,<-ové +Smith[t:pán,<-ové
3.15 Shrnutí Pomocí prostˇredku˚ v této kapitole pˇredstavených lze významnˇe redukovat redundanci obsaženou ve stávajících popisech. Sklonování ˇ slov rˇ azených mluvnicemi k tradiˇcním vzorum ˚ životných maskulin lze v navrženém formalismu vyjádˇrit pomocí tˇechto vzoru, ˚ pˇrípadnˇe s doplnˇením nˇejakých upˇresnujících ˇ informací, bez kterých (tˇrebaže ne nutnˇe vždy stejných) se ovšem neobejdou ani zminované ˇ mluvnice. S tradiˇcním mluvnickým popisem se navíc neshodují jen vzory, ale i použité koncovky. 35. Bylo by je samozˇrejmˇe možné zadat pˇrímo, ovšem to není žádoucí, jde-li o systematický, pravidelný jev. 36. Toto rˇ ešení bude postaˇcující pro životná maskulina, pˇrinejmenším jistˇe pro ta, která jsou popsána v datech analyzátoru ajka. Obecnˇe ale bude potˇreba zachytit i jiné zpusoby ˚ korespondence mezi vyslovovanou a psanou podobou. Komplikovanˇejší situace je napˇríklad u nˇekterých feminin. Je tˇreba Martha, Marthy, Marthu, ..., ale Martˇe, Martin (posesivum), podobnˇe je Andorra, Andorry, Andorru, andorrský, ..., ale Andoˇre, Andoˇran nebo Concha, Conchy, ..., ale Conše (vše dle IJP, místo Conše by asi mˇelo být Conˇce, alesponˇ vzhledem k uvádˇené výslovnosti konˇca). Obecné rˇ ešení není ve výkladech IJP nikde explicitnˇe formulované. Zdá se ale, že je nutné uvážit jak problematickou skupinu znaku˚ v psané podobˇe, tak i její výslovnostní ekvivalent (pro daný pˇrípad) a sklonovat ˇ jakoby podle obou zaráz. Pokud pˇri tvorbˇe urˇcitého tvaru nedojde ke zmˇenám psané podoby základu, ponechá se puvodní ˚ zápis, v opaˇcném pˇrípadˇe bude správným tvarem ten s výslovnostním ekvivalentem. I takové (a mnohé jiné) jevy tedy bude nutné umˇet pravidelnˇe popsat a popis správnˇe vyhodnotit.
40
Kapitola 4
Od slovníku vzoru˚ ke slovníku rysu˚ V pˇredchozí kapitole jsem se zamˇerˇ il na odstranování ˇ redundance, jejímž typickým projevem byly (zejména v brnˇenském systému) témˇerˇ shodné vzory lišící se jen v nˇejaké maliˇckosti. Mým cílem bylo popsat pravidly vˇeci, které bylo možné, resp. rozumné považovat za pravidelné. V této kapitole se svým zpusobem ˚ budu i nadále snažit o odstranˇení redundance, bude to ale už ponˇekud subtilnˇejší. V první cˇ ásti kapitoly bude mým hlavním cílem ztotožnit koncovky, které mohou být považovány za totožné. Kromˇe toho nabídnu ještˇe nˇekolik drobnˇejších možností optimalizace popisu dat. V druhé cˇ ásti mˇe bude zajímat, podle jakých informací je možné urˇcit konkrétní zpusob ˚ sklonování ˇ urˇcitého slova. Za optimální výsledek budu považovat slovník, kde jednotlivé slovní základy nejsou rˇ azeny ke vzorum, ˚ ale kde jsou výsledné tvary slov urˇceny hláskovou podobou slovního základu a nˇejakými obecnými, nearbitrárními rysy, které mu lze pˇripsat. Bude mˇe zajímat, co lze pro ruzné ˚ kombinace hláskové podoby slovního základu a zmínˇených rysu˚ stanovit jako základní zpusob ˚ sklonování ˇ a jak nˇeco takového vhodnˇe formalizovat.
4.1
Homonymie a totožnost
ˇ Cást minulé kapitoly jsem vˇenoval ruzným ˚ možnostem, jak vhodnˇe popsat, která životná maskulina pˇripouštˇejí které ze tˇrí možných koncovek pro Npl a Vpl jako spisovné, pˇrípadnˇe které z tˇechto tˇrí navíc pˇripouštˇejí jako možné, tˇrebaže nespisovné. Koncovky pro Npl a koncovky pro Vpl jsem pˇritom musel v dosud pˇredstaveném formalismu pokaždé popisovat samostatnˇe, pˇrestože vždy zcela shodnˇe. V cˇ eštinˇe totiž neexistuje žádné životné maskulinum, které by mˇelo v Npl a Vpl ruzné ˚ tvary. Dokonce neexistuje ani žádné jiné substantivum a vubec ˚ jakékoli slovo, jehož tvary mohou vyjadrˇ ovat pád a cˇ íslo, které by se lišilo v Npl a Vpl. Je zˇrejmé, že tato shoda není náhodná, ale je daná systémovˇe. Na první pohled by se tedy zdálo logické považovat tyto koncovky za totožné, a mít tak pro nˇe jen jeden popis. 41
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ Pˇrístup reprezentovaný souˇcasnými mluvnicemi cˇ i Encyklopedickým slovníkem cˇ eštiny ale nic takového neumožnuje. ˇ Koncovka je vždy morfem, tedy realizací morfému, totiž „znaku ve smyslu jednoty oznaˇcujícího ˇ s. 273, heslo morfém). Oznaˇcovaným, tedy význaa oznaˇcovaného“ (ESC, ˇ s. 177–180, MC2, ˇ s. 258).1 mem, je (u substantiv) pád a cˇ íslo (napˇr. MC1, Je zjevné, že takový pohled žádným zpusobem ˚ nepˇripouští jakékoli úvahy o možné totožnosti napˇríklad koncovek Npl a Vpl. Ty jsou totiž navzájem triviálnˇe odlišné tím, že oznaˇcované prvních zahrnuje nominativ, zatímco oznaˇcované druhých vokativ, cˇ ímž každá taková úvaha ihned konˇcí a je pak lhostejné, jestli se oznaˇcující shoduje, tˇrebas i systematicky. Odlišný pˇrístup nabízejí Markéta Ziková a Pavel Caha (2006)2 , kteˇrí dokonce naopak vycházejí z pˇredpokladu, že totožnost formy implikuje totožnost funkce (tedy v pˇrípadˇe koncovek v dusledku ˚ totožnost koncovky). Z jejich pohledu koncovka do struktury gramatický význam nepˇrináší, jako je tomu zhruba rˇ eˇceno v pˇrístupu zminovaném ˇ v pˇredchozím odstavci, ale jen formálnˇe realizuje cˇ ást dˇríve derivované gramatické struktury slova. V této struktuˇre je gramatický význam reprezentován nˇejakými rysy, na které jsou rozloženy hodnoty tradiˇcních gramatických kategorií, zde zejména pádu. Jednotlivé formy (koncovky) pak mohou realizovat ruzné ˚ kombinace tˇechto rysu. ˚ Podstatné je, že forma muže ˚ být podspecifikována, tedy kombinace rysu˚ muže ˚ být urˇcena jen cˇ ásteˇcnˇe, pˇriˇcemž taková forma pak muže ˚ realizovat libovolnou nadmnožinu množiny (kombinace) rysu, ˚ pro které byla specifikována. Pˇri realizaci konkrétní cˇ ásti struktury se pak z inventáˇre forem vybere nejspecifiˇctˇejší vyhovující forma.3 ˇ a MC1 ˇ drobný rozdíl: podle ESC ˇ (heslo morfém) je morf 1. Ve skuteˇcnosti je mezi ESC ˇ (s. 177) má morf výraz i význam. pouze formou, tedy oznaˇcujícím morfému, podle MC1 ˇ (s. 258) „nˇekdy jeden a týž S tím je na druhou stranu ponˇekud v rozporu formulace MC2 tvarotvorný formant slouží k vyjádˇrení ruzných ˚ mluvnických významu. ˚ ... Napˇr. deklinaˇcní formant -y v paradigmatu „žena“ slouží k vyjádˇrení Gsg a N, A, V pl.“, pˇriˇcemž ale zárovenˇ (s. 255) „U vˇetšiny tvaru˚ substantivních ... není však tˇreba cˇ init rozdíl ... mezi tvaˇ s. 180). rotvorným formantem a koncovkou“, kdy ovšem koncovka je morf (napˇr. MC1, Pokud by nicménˇe tvarotvorný formant jakožto morf znamenal nejen formu, ale i význam, nebylo by možné tvrdit, že formanty vyjadˇrující ruzné ˚ významy jsou „jeden a týž“. 2. Tento konkrétní cˇ lánek odkazuji proto, že je každému dostupný na internetu, ve skuteˇcnosti jde ale o první takový rozbor cˇ eské deklinace z pera autoru. ˚ Pozdˇeji svou analýzu pˇrepracovali (Ziková a Caha, 2007, volnˇe dostupný je handout k pˇrednášce na konferenci, v jejímž sborníku cˇ lánek vyšel) a Markéta Ziková posléze stejným zpusobem ˚ analyzovala i plurál substantiv (Ziková, 2006). Za poznámku koneˇcnˇe stojí, že pˇrinejmenším druhý z autoru˚ by se se svou tehdejší analýzou, zejména s dekompozicí pádu˚ na gramatické rysy, v souˇcasnosti už jistˇe neztotožnoval: ˇ svou disertaˇcní práci (Caha, 2009) vˇenoval právˇe pádu, relevantní analýzu cˇ eských dat lze doporuˇcit pozornosti na stranách 244–267. 3. Detaily a odkazy na relevantní literaturu viz úvodní cˇ ást cˇ lánku (Ziková a Caha, 2006).
42
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ V tomto pˇrístupu je tedy (systematická) homonymie koncovek v systému cˇ eské deklinace jen zdánlivá. Ve skuteˇcnosti jde v jednotlivých pˇrípadech „homonymie“ o totožnost umožnˇenou skuteˇcností, že pády, v nichž se daná „homonymie“ projevuje (napˇr. Dsg a Lsg), sdílejí nˇejaké rysy. Pokud je pak v inventáˇri koncovek k dispozici taková, která je specifikována pro spoleˇcné rysy tˇechto pádu˚ a zárovenˇ není specifikována pro žádný z rysu, ˚ které dané pády odlišují, muže ˚ tato jedna a tatáž koncovka realizovat oba pády. Na analýze substantivní deklinace popsané v (Ziková a Caha, 2006) je zajímavé i to, že odmítá apriorní organizaci deklinaˇcních paradigmat podle rodu, ˚ ale namísto toho rˇ adí jména k pouhým cˇ tyˇrem deklinaˇcním tˇrídám4 . Tradiˇcní deklinaˇcní paradigmata pak jsou až teprve výsledkem interakce informací o tˇrídˇe, rodu a hláskové podobˇe slovního základu, dostupných koncovek a navržených pravidel. Takový pˇrístup pak napˇríklad umožnuje ˇ považovat za totožné shodné singulárové koncovky tradiˇcních vzoru˚ pˇredseda a žena atp. Ztotožnování ˇ koncovek v následujících podkapitolách tedy bude inspirováno právˇe popsaným pˇrístupem. Je ale potˇreba zduraznit, ˚ že budu-li urˇcité koncovky popisovat jako totožné, bude to vlastnˇe vždy odstranování ˇ nˇejaké, tˇrebas jen malé redundance. Rozdíl nastane teprve ve chvíli, kdy by chtˇel nˇekdo nabízený popis nˇejakým zpusobem ˚ interpretovat. Pokud bude jeho pohled na jazyk v souladu s pohledem reprezentovaným souˇcasnými mluvnicemi, bude pro nˇej jakékoli ztotožnování ˇ jen technickým rˇ ešením, které popis od modelované reality v podstatˇe vzdaluje. Naproti tomu pro toho, kdo je ochotný pˇrijmout principy, ze kterých v odkazovaných cˇ láncích vycházejí Markéta Ziková a Pavel Caha, se bude takový popis pˇredpokládané realitˇe naopak pˇribližovat.
4.2
Ztotožnˇení pravidelnˇe shodných koncovek
Kromˇe shody Npl a Vpl je u životných maskulin nápadná i shoda Dsg a Lsg a dále Gsg a Asg. Na rozdíl prvních dvou, které lze pozorovat u všech žiˇ s. 285), Gsg a Asg se liší votných maskulin (substantivních typu, ˚ viz MC2, 5 u slov rˇ azených k tradiˇcnímu vzoru pˇredseda. 4. V odkazovaném cˇ lánku jsou oznaˇcené I–IV, v dalších cˇ láncích je už pˇríslušnost slovního základu ke tˇrídˇe specifikována dvˇema binárními pˇríznaky, což systém dále zjednodušuje. ˇ popisuje „typické homomorfie“ u substantiv na s. 283 v odstavci 0.2.5.1. 5. Obecnˇe MC2 Právˇe shoda Npl a Vpl tam nicménˇe není uvedena, zmínku o ní je nutné hledat v poznámce na s. 259.
43
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ Pro reprezentaci tˇechto pravidelných shod pˇridáme do souboru vzoru˚ speciální „vzor“ pojmenovaný $shoda, kdy místo koncovek pro jednotlivé znaˇcky budou na rˇ ádcích dvojice regulární výraz a rˇ etˇezec. Po vytvoˇrení všech slovních tvaru˚ urˇcitého slova (viz podkapitola 3.12) bude u všech znaˇcek pro všechny rˇ ádky „vzoru“ $shoda proveden pokus o nahrazení regulárního výrazu za rˇ etˇezec. Jestliže nahrazení uspˇeje a slovní tvar cˇ i tvary pro znaˇcku získanou nahrazením nebudou definovány, budou zkopírovány od puvodní ˚ znaˇcky. Konkrétnˇe tedy, pokud možné shody popíšeme 6: následujícím zpusobem ˚
$shoda c1 k1gMnS\Kc3 k1gMnS\Kc2
c5 c6 c4
bude moci napˇríklad vzory muž cˇ i -é popsat pouze takto:
muž k1gMnSc1 k1gMnSc2 k1gMnSc3 k1gMnSc5 k1gMnSc7 k1gMnPc1 k1gMnPc2 k1gMnPc3 k1gMnPc4 k1gMnPc6 k1gMnPc7
0 e i, ovi i em i, ové ů ům e ích i
k1gMnPc1
é
-é Budeme-li pak ve slovníku mít kupˇríkladu učitel:muž,<-é, vytvoˇrí se všechny tvary podle vzoru˚ muž a -é, pˇriˇcemž budou chybˇet takto definovanými vzory nepopsané tvary Asg, Lsg a Vpl. Tvary pro tyto kombinace pádu a cˇ ísla budou kopiemi tvaru˚ pro Gsg, Dsg a Npl. Protože regulárním výrazum ˚ vždy vyhovují i znaˇcky obsahující pˇríznak wH, budou zkopírovány i jim odpovídající tvary. Tedy napˇríklad tvary učiteli a učitelové 6. \K je rozšíˇrení regulárních výrazu˚ jazyka Perl 5.10. Regulární výraz a\Kb odpovídá regulárnímu výrazu (?<=a)b, tedy uspˇeje jen tehdy, pokud testovaný rˇ etˇezec obsahuje b pˇredcházené a, pˇriˇcemž ale pˇri nahrazování bude nahrazeno jen b. Na rozdíl od konstrukce (?<=a)b ale v konstrukci a\Kb nemusí být a pevné délky.
44
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ pro znaˇcku k1gMnPc1wH budou zkopírovány i ke znaˇcce k1gMnPc5wH. Naopak tvary Vsg nebudou nijak ovlivnˇeny: u znaˇcky k1gMnSc1 sice pokus o nahrazení c1 za c5 uspˇeje, ale protože tvary pro k1gMnSc5 už budou vytvoˇreny, protože jsou popsány vzorem, k žádnému kopírování nedojde.7 4.2.1
Ztotožnˇení jednotlivých shodných koncovek
Jméno Marcel se sklonuje ˇ stejnˇe jako pán, kromˇe ovšem Vsg, kde je pˇrípust8 ný pouze tvar Marceli. Pokud uvážíme i nespisovný tvar Marcelu a zárovenˇ pˇredpokládáme u vzoru muž i nespisovné koncovky (které jinak pro struˇcnost neuvádím), mužeme ˚ tvary jména Marcel ve slovníku popsat dvˇema zpusoby: ˚
Marcel:pán,<-ové Marcel-i Marcel-u
k1gMnSc5 k1gMnSc5wH
Marcel:pán,<-ové,muž_nSc5 Druhý zpusob ˚ není jen úspornˇejší. Zárovenˇ vyjadˇruje, že -i a -u jsou tytéž koncovky jako u všech slov rˇ azených k tradiˇcnímu vzoru muž — a že tedy napˇríklad není jen náhodnou shodou okolností, že jak muž, tak Marcel umožnují ˇ ve Vsg vedle tvaru˚ s -i i nespisovné tvary s -u.9 7. Ve skuteˇcnosti nejsou tvary doplnovány ˇ vždy až na konci, po vytvoˇrení všech tvaru. ˚ Pokud ve chvíli, kdy jsou k doposud vytvoˇreným tvarum ˚ pˇridávány nové, jsou bud’to mezi dosud vytvoˇrenými, nebo mezi novˇe pˇridávanými tvary definovány tvary pro obˇe znaˇcky popsané nˇejakým pravidlem o shodˇe, musí být podle tohoto pravidla doplnˇena i druhá skupina tvaru. ˚ Napˇríklad jméno André lze sklonovat ˇ podle vzoru pán i adjektivní (resp. zájmennou) deklinací, v níž je ale Dsg ruzný ˚ od Lsg. Pokud by tedy ve slovníku bylo nˇejaké André:pán,+adj (vzor adj viz podkapitola 4.6.1), vytvoˇrily by se tvary podle vzoru pán, mezi nimiž by chybˇel tvar pro Lsg, a k nim by byly pˇridávány tvary podle vzoru adj, kde by byly tvary pro Dsg i Lsg. Je zˇrejmé, že pro korektní výsledek je potˇreba tvar Lsg podle vzoru pán doplnit pˇred tímto pˇridáváním. Opaˇcná, ale v principu stejná situace by nastala, kdyby ve slovníku bylo André:adj,+pán. Toto jsou už ale spíše implementaˇcní detaily, které navíc v budoucnu pravdˇepodobnˇe podlehnou nˇejakým zmˇenám, protože v nˇekterých okrajových pˇrípadech toto vyhodnocování nutí k urˇcité neeleganci, která, není-li vynucena daty, zákonitˇe musí vést k podezˇrení, že návrh není správný. 8. A pochopitelnˇe ještˇe kromˇe Npl a Vpl, kde lze spisovnˇe jen Marcelové, a nikoli *Marceli, což je ale dáno jen tím, že jde o osobní jméno, viz druhá cˇ ást této kapitoly. 9. Mohlo by se zdát, že je-li koncovka realizací znaku, jehož oznaˇcovaným jsou konkrétní hodnoty cˇ ísla a pádu, bylo by z takového pohledu možné považovat -i v Marceli za totožné ˇ musíme konstatovat, že to tak s -i v muži. Vezmeme-li ale vážnˇe definice nabízené MC2, není. Na s. 283 v odstavci 0.2.5.2 jsou had-i a muž-i dáváni jako pˇríklad meziparadigmatické homomorfie. A podle odstavce 0.2.3 na s. 282 se paradigmata „od sebe navzájem odlišují podobou koncovky alesponˇ v jednom pádovém tvaru“. Tˇežko z toho udˇelat jiný závˇer,
45
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚
4.3
Tvorba znaˇcky
Doposud jsem znaˇcky uvádˇel výhradnˇe u koncovek v jednotlivých vzorech v souboru vzoru˚ nebo u hotových tvaru˚ ve slovníku. Se znaˇckami zadanými v datech jsem navíc vždy pracoval jako s celkem a až na pˇridávání pˇríznaku wH je nijak nemˇenil. Pokud si ale prohlédneme napˇríklad definici vzoru muž (viz pˇríklad 3.1 nebo podkapitola 4.2), vidíme, že ve všech znaˇckách se opakuje k1gM. Je zˇrejmé, že by bylo praktické tuto spoleˇcnou cˇ ást nˇejakým zpusobem ˚ „vytknout pˇred závorku“.10 Bylo by to vhodné i proto, že není mnoho duvod ˚ u˚ se domnívat, že informace, kterou k1gM reprezentuje, je skuteˇcnˇe vlastní jednotlivým koncovkám — napˇríklad Dpl koncovka ům je spoleˇcná nejen maskulinum ˚ životným i neživotným, ale sdílejí ji dokonce i s neutry. Jako první se nabízí možnost pˇrenést k1gM ke slovním základum, ˚ tím bychom si ale pˇrinejmenším z praktického hlediska pˇríliš nepomohli, protože by to muselo být uvedeno u všech životných maskulin, cˇ ímž by se redundance nesnížila, ale naopak zvýšila.11 Budeme tedy k1gM uvádˇet u vzoru a budeme tomu nadále rˇ íkat znaˇcka vzoru:
pán k1gM nSc1 nSc2 ...
0 a
Vyhodnocování bude takové, že pˇri pˇripojení koncovky ke slovnímu základu (napˇr. slon-0) bude odpovídající znaˇcka sestavena ze znaˇcky vzoru (zde k1gM) a znaˇcky koncovky (zde nSc1). V pˇrípadˇe kolize ruzných ˚ než že Marcel, pán a muž patˇrí ke tˇrem rozdílným paradigmatum, ˚ a že tedy v pˇrípadˇe formálnˇe shodných koncovek jde o meziparadigmatickou homomorfii — pˇriˇcemž homomorfie jistˇe nemuže ˚ znamenat totožnost. Pro úplnost je potˇreba dodat, že slovo „totožnost“ se vyskytuje jen rˇ ádek pˇred zavedením termínu meziparadigmatická homomorfie, kde je ovšem zˇrejmˇe myšlena pouze forma, jinak by to nedávalo smysl (viz podobnˇe i poznámku 1). 10. Takové rˇ ešení navrhuje a realizuje už i (Hlaváˇcová, 2009). Na stranˇe 76 lze cˇ íst: „[vzor] kóduje pouze flektivní kategorie. Globální kategorie jsou totiž stejné pro celé paradigma (tak byly definovány), není tedy tˇreba je kódovat pro každý slovní tvar zvlášt’.“ 11. Navíc není zcela jisté, jestli je skuteˇcnˇe oprávnˇené chápat slovní druh a rod jako v podstatˇe vlastnost slovního základu. Pokud uvážíme slova modr-o, modr-ý, modˇr-it a modˇr-e, lze si napˇríklad myslet, že slovní základ modr (modˇr je vynucené kontextem, ve struktuˇre je modr) není v (reálném) slovníku nijak specifikovaný a až teprve výsledkem jeho vložení do gramatické struktury slova (viz podkapitolu 4.1) bude v tom kterém pˇrípadˇe substantivum, adjektivum, verbum, resp. adverbium. Z takového pohledu by pak bylo potˇreba peˇclivˇe zvažovat, jestli vubec ˚ a kdy je nutné informaci o slovním druhu a pˇrípadnˇe rodu substantiv pˇredpokládat už ve slovníku a kdy a odkud je získávána jiným zpusobem. ˚
46
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ hodnot téže kategorie bude mít pˇrednost hodnota ze znaˇcky koncovky.12 Takové kolize tedy nebudou vyhodnocovány vzhledem k celým v datech uvedeným cˇ ástem znaˇcek, ale po jednotlivých gramatických kategoriích. Totéž mužeme ˚ udˇelat u všech vzoru, ˚ ale pokud se podíváme na seznamy vzoru˚ u jednotlivých slov (viz obecnˇe dosud uvádˇené pˇríklady), vidíme, že vzory -i, -ové a -é mají rozumné použití jen v rámci seznamu˚ vzoru, ˚ a to navíc nikoli na prvním místˇe. V jejich pˇrípadˇe je tedy k1gM duplicitní a pˇri jejich vyhodnocování už známá informace.13 Budeme si proto v rámci seznamu vzoru˚ pamatovat znaˇcku vzoru, u nˇehož bude uvedena, a použijeme ji jako implicitní znaˇcku i pro dále v seznamu následující vzory, u nichž uvedena nebude. Budeme tak moci napˇríklad vzor -i definovat pouze takto:
-é nPc1
é
Bude-li pak ve slovníku tˇreba občan:pán,<-é, zapamatuje se pˇri vyhodnocování k1gM jakožto znaˇcka vzoru pán a použije se pˇri tvorbˇe tvaru˚ podle vzoru -é. Kdyby nicménˇe ve znaˇcce vzoru -é slovní druh nebo rod definován byl, mˇel by pˇri pˇrípadné kolizi pˇrednost.14 Podobné pˇrejímání znaˇcky vzoru umožníme i pˇri odvozování vzoru. ˚ Pokud bude mít ve znaˇcce vzoru urˇcitou kategorii uvedenou pouze vzor, 12. Což zde nenastane a konkrétnˇe v tomto kontextu to nepotˇrebuji ani nikde jinde, rˇ íkám to jen proto, aby bylo definované, co by se v pˇrípadˇe kolize stalo. 13. Z formálního hlediska samozˇrejmˇe je možné tyto vzory použít samostatnˇe a mít ve slovníku tˇreba slon:-i, ale nevidím pro nˇeco takového rozumné využití. Ovšem i kdyby existovalo, pokud tyto vzory takto používat nebudeme, lze se na to dívat tak, že pˇri jejich vyhodnocování pro konkrétní slovní základ už informaci o slovním druhu a rodu máme. 14. Pro úplnost je potˇreba rˇ íct, co se stane v pˇrípadˇe, že bude v seznamu vzoru˚ následovat vzor bez znaˇcky po více vzorech s uvedenými znaˇckami: vždy se bude brát (prubˇ ˚ ežnˇe vytváˇret a pamatovat) jakoby sjednocení znaˇckami nesené informace. Pokud by napˇríklad první dva vzory mˇely znaˇcku k1gM, bude implicitní znaˇckou pro tˇretí vzor v seznamu také k1gM. Pokud by mˇely jeden znaˇcku k1 a druhý gM, bude implicitní znaˇcka pro tˇretí vzor opˇet k1gM. Kdyby ale mˇely tˇreba jeden k1gM a druhý k1gI, byla by implicitní znaˇcka pro tˇretí vzor k1gMgI, tedy pokud by tˇretí vzor ani jeho koncovky nemˇely explicitnˇe definovaný rod, byly by tvoˇreny nekorektní znaˇcky (brnˇenské znaˇcky kumulaci hodnot rodu neumožnují). ˇ Slovo mikrob by tedy muselo být ve slovníku zadáno jako mikrob:pán,<-i,+hrad, a nikoli tˇreba mikrob:hrad,+pán,<-i, kdy by se pro tvar mikrobi poskládala znaˇcka k1gMgInPc1. Pokud je ovšem životnost/neživotnost slova mikrob symetrická (rovnocenná), což pˇredpokládám, ale formát neumožnuje ˇ oba dva zápisy, je zˇrejmé, že není v tomto ohledu dobˇre navržený. Protože jde ale o pomˇernˇe okrajovou záležitost, nevˇenoval jsem se zatím pˇríliš hledání dostateˇcnˇe elegantního rˇ ešení (nˇejak, neelegantnˇe to samozˇrejmˇe lze rˇ ešit triviálnˇe, napˇríklad pˇridáním znaku, který v seznamu vzoru˚ vymaže dosud vytvoˇrenou implicitní znaˇcku, kupˇríkladu mikrob:hrad,|+pán,<-i), kdy | bude mít tento význam.
47
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ z nˇehož je odvozováno, ale nikoli vzor odvozovaný, použije se tato informace (odpovídající cˇ ást znaˇcky, tedy napˇr. gM) i pro nˇej. Analogicky se bude postupovat i v opaˇcném pˇrípadˇe. Pokud by byla znaˇcka uvedena u odvozeného vzoru i u vzoru, z nˇehož je odvozováno, a nˇejaké hodnoty by kolidovaly, uplatní se hodnota ze znaˇcky odvozeného vzoru (pˇríklady analogického použití tohoto principu viz dále v podkapitolkách 4.4.1 a 4.4.2). Pokud tedy napˇríklad uvážíme vzor pán uvedený dˇríve v této podkapitole, postaˇcí vzor despota (viz podkapitola 3.9) definovat takto:
despota:pán_nP nSc1 nSc2 ...
a y
Informace o slovním druhu a rodu (tedy k1gM) se pˇri takovémto zápisu pˇrevezme ze vzoru pán. Zduraz ˚ nuji, ˇ že pˇrestože jsou v datech cˇ ásti znaˇcek zapisovány jako souvislé rˇ etˇezce, pˇri vyhodnocování se s nimi pracuje jako s množinami dvojic atribut (symbol pro gramatickou kategorii) a hodnota15 , pˇriˇcemž tyto dvojice se zpracovávají jednotlivˇe.16 Intuitivní analogie muže ˚ být taková, že bˇehem vyhodnocování slovníkových údaju˚ o slovˇe se postupnˇe kumuluje informace o vlastnostech spoleˇcných všem jeho tvarum, ˚ pˇrípadnˇe nˇejaké jejich cˇ ásti, takže tuto informaci pak není nutné explicitnˇe opakovat v datech (na druhou stranu tomu ale nic nebrání). V pˇrípadˇe kolize, nekompatibility informace je definováno, který údaj má pˇrednost — nebo že v daném kontextu není kolize pˇrípustná, což se projeví vznikem nekorektních znaˇcek.
4.4
Rozšíˇrení tvorby znaˇcek i na slovník
Abychom mohli ztotožnit nˇekteré další koncovky, umožníme znaˇcku specifikovat i ve slovníku pro jednotlivé slovní základy (dále znaˇcka slovního základu). Vyhodnocovat se bude stejným zpusobem, ˚ jako znaˇcka vzoru: pˇri kolizi znaˇcky slovního základu a znaˇcky nˇekterého ze seznamu vzoru˚ bude mít pˇrednost znaˇcka slovního základu. Opˇet pˇripomínám, že nejde o znaˇcku jako celek, ale o jednotlivé dvojice atribut a hodnota. 15. Je ale definováno zaužívané poˇradí atributu, ˚ kategorií, takže ve výsledných znaˇckách jsou dvojice uvádˇeny v pevném poˇradí. 16. Kdyby tedy mˇel výše uvedený vzor despota na prvním rˇ ádku despota:pán_nP k2 (je to ovšem nesmysl, jen pro pˇríklad), mˇel by tˇreba tvar despotové znaˇcku k2gMnPc1, protože k2 vzoru despota by mˇelo pˇrednost pˇred k1 vzoru pán, zatímco gM vzoru pán by se použilo beze zmˇeny.
48
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ 4.4.1
Sklonování ˇ slov typu despota
Pˇríkladem využití takového chování bude ztotožnˇení singulárových koncovek vzoru˚ despota a žena. Uvažme, že bychom mˇeli vzor žena pro jednotné cˇ íslo definovaný takto17 :
žena k1gF nSc1 nSc2 nSc3 nSc4 nSc5 nSc7
a y ě u o ou
a že bychom zárovenˇ nemˇeli ve slovníku slovo despota, tedy slovní základ
despot, zaˇrazené ke vzoru despota (viz pˇredchozí podkapitola a podkapitola 3.9), ale popsané následovnˇe:
despot:žena_nS,pán_nP gM V takovém pˇrípadˇe by se ke slovnímu základu despot postupnˇe pˇripojovaly koncovky vzoru žena, pˇriˇcemž pˇríslušné znaˇcky by se tvoˇrily tak, že by se znaˇcka slovního základu spojila se znaˇckou koncovky (viz ještˇe dále konec podkapitoly 4.5) a doplnila o nekonfliktní informaci ve znaˇcce vzoru. Zejména by tedy v tomto konkrétním pˇrípadˇe mˇelo pˇri tvorbˇe znaˇcky gM specifikované ve slovníku pˇrednost pˇred gF specifikovaným u vzoru žena. Tvary i znaˇcky by takto byly v poˇrádku až na jedinou výjimku: pro Dsg a Lsg bychom místo despotovi dostali despotě. Pˇridáme-li ale vzor
-ovi nSc3
ovi
postaˇcí místo vzoru despota psát
despot:žena_nS,-ovi,pán_nP gM V tuto chvíli to muže ˚ vypadat, že jsme sice „ušetˇrili“ vzor, ale zato budeme potˇrebovat komplikovanˇejší popis tˇechto slov ve slovníku. Je otázkou, jestli by ušetˇrený vzor nestál i za to, v každém pˇrípadˇe ale toto není 17. Lsg je u feminin systematicky shodný s Dsg, takže staˇcí tuto skuteˇcnost formulovat prostˇrednictvím „vzoru“ $shoda. Dsg (a Lsg) koncovka ě by dále vyžadovala rozšíˇrení pravidel pro zmˇeny koncových konsonantu˚ slovního základu, a to nejen zmˇeny k na c, d na ď atp., ale zárovenˇ i zmˇenu ě na e po l-, s-, z- atd. Protože se to netýká životných maskulin, nebudu to tu více rozebírat, jen zmíním, že tutéž koncovku jsem použil už na konci podkapitoly 3.10 v kurs:hrad,+-ě, kdy by se provedla právˇe zmˇena ě na e po s-.
49
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ koneˇcná podoba popisu slov — v ní zbude z hlediska popisu jen výhoda ušetˇreného vzoru (viz dále podkapitola 4.7.4).18 Za zmínku ještˇe stojí, že odvození vzoru despota od vzoru pán_nP v podkapitole 3.9 bylo vlastnˇe pˇresnˇe totéž, tedy ztotožnˇení koncovek dvou ruzných ˚ vzoru, ˚ tˇrebaže tam nedocházelo k žádnému „pˇrebíjení“ informací ˇ jsou paradigmata slov pán a despota o gramatickém rodu. Z pohledu MC2 odlišná v principu stejnˇe jako paradigmata slov despota a žena (viz i poznámku 9). 4.4.2
Sklonování ˇ slov typu gigolo a výbˇer podle znaˇcky
Slovo gigolo se sklonuje ˇ stejnˇe jako slovo pán, až na to, že v Nsg a Vsg má koncovku -o a v Npl a Vpl má pouze -ové. Mohli bychom je tedy ve slovníku popsat takto:
gigol:pán,<-ové gigol-o k1gMnSc1 gigol-o k1gMnSc5 Tento zápis lze interpretovat jako informaci, že gigolo má (kromˇe Npl a Vpl) tvary jako pán, ale navíc ve Vsg není oˇcekávatelné *gigole, ale také gigolo jako v Nsg — což ovšem není dusledek ˚ nˇejakého pravidla, nˇejaké zákonitosti, ale jen jeden z údaju˚ ve slovníku. Kdyby tomu tak skuteˇcnˇe bylo, bylo by možné oˇcekávat, že nˇekteˇrí mluvˇcí tuto informaci nebudou mít kompletní, že jim tato cˇ ást bude chybˇet, a budou tedy tvoˇrit Vsg tvary s -e. Takové tvary se mi nepodaˇrilo dohledat (ani od nˇekterých jiných slov tohoto typu), což ovšem muže ˚ být výsledkem jak špatného hledání, tak skuteˇcnosti, že Vsg takových slov budou obecnˇe mimoˇrádnˇe rˇ ídké. Navíc ale jsou pro muj ˚ idiolekt stejnˇe nepˇrijatelné jako tˇreba *mužé. Proto soudím, že je potˇreba poˇcítat i s možností, že Vsg tvary typu gigolo jsou pravidelné, a že takovou možnost musí mnou navrhovaný formalismus umˇet zachytit. Mohu nabídnout podobné rˇ ešení jako pro slova typu despota. Uvažme vzor město definovaný pro singulár následovnˇe:
město k1gN nSc1 nSc2
o a
18. Opˇet je potˇreba pˇripomenout, že v principu podobný pˇrístup používá i Jaroslava Hlaváˇcová (2009), když vzory pro adjektivní deklinaci definuje obecnˇe, bez vazby na konkrétní slovní druh. Ten je teprve parametrem vzoru, takže jeden a týž vzor lze využít pro nˇekolik slovních druhu. ˚ Viz konkrétní pˇríklady na stranˇe 112 její práce.
50
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚
nSc3 nSc6 nSc7
u u, ě em
a slovo gigolo popsané ve slovníku takto:
gigol:město_nS,+-ovi,pán_nP gM V takovém pˇrípadˇe se projeví síla popisu systematických shod prostˇrednictvím „vzoru“ $shoda. V nˇem by totiž bylo definováno, že tvary Asg i Vsg jsou pro neutra totožné s tvarem Nsg, proto také nemusejí být ve vzoru město popsány. Pokud se ale podle tohoto vzoru vytvoˇrí tvary pro slovní základ gigol, budou mít znaˇcku obsahující gM, takže se na nˇe budou vztahovat pravidla pro shodu životných maskulin, nikoli pro shodu neuter. Bude tedy Vsg kopií Nsg (implicitní pravidlo nezávislé na hodnotách dalších gramatických kategorií), ale Asg bude kopií Gsg, a nikoli Nsg. Jediným nesprávným tvarem bude pˇri tomto popisu Lsg tvar gigole (resp. struktura gigol-ě, viz poznámka 17). Je možné si všimnout, že ě je v Lsg pˇrípustné u všech rodu˚ právˇe kromˇe životných maskulin. Lze si myslet, že to není náhoda, ale nˇejaká vlastnost té koncovky. Doposud jsme pˇripouštˇeli výbˇer koncovky jen podle hláskové podoby slovního základu, k nˇemuž má být pˇripojována (viz podkapitola 3.7). Pˇridáme tedy možnost vybírat i podle znaˇcky. Protože ale potˇrebujeme snadno odlišit, jestli konkrétní omezení urˇcité koncovky platí pro znaˇcku, nebo pro hláskovou podobu slovního základu, nemužeme ˚ pro omezování podle znaˇcky používat regulární výrazy. Využijeme toho, že jednotlivé dvojice atribut a hodnota mají ve znaˇcce obecnˇe podobu malé písmeno následované nˇecˇ ím, co není malé písmeno. Pokud tedy omezení bude mít takovýto tvar, bude zˇrejmé, že jde o omezení podle znaˇcky, a nikoli podle hláskové podoby slovního základu.19 Protože bez regulárních výrazu˚ navíc nemužeme ˚ vyjádˇrit negaci nebo alternativu, pˇridáme ještˇe speciální znaky ! pro negaci následujícího omezení, | pro alternativu (logické or)20 a pro úplnost také & jako logické and (napˇríklad pro popis omezení jak znaˇcky, tak zárovenˇ i hláskové podoby). „Operátory“ se budou vyhodnocovat se standardní prioritou: ! > & > |. Zbývá už jen upˇresnit, že omezení podle 19. V datech se mohou vyskytovat napˇríklad zkratky, kde po malém písmenu následuje velké (tˇreba PhDr.), ovšem není pravdˇepodobné, že by bylo nˇekdy potˇreba cˇ ásti takových „slov“ zminovat ˇ v omezeních na koncovky, takže nemuže ˚ dojít k zámˇenˇe. 20. To mimo jiné znamená, že napˇríklad první podmínka uvedená v podkapitole 3.7, tedy [ghk]|ch, ve skuteˇcnosti nebude pˇri této interpretaci znaku | vyhodnocována jako jedna podmínka, jako jeden regulární výraz, ale jako dvˇe samostatné podmínky na hláskovou podobu slovního základu spojené logickým or. Prakticky to ovšem vyjde úplnˇe nastejno.
51
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ znaˇcky se bude vyhodnocovat vzhledem ke znaˇcce právˇe tvoˇreného tvaru. Pokud po takovém obohacení formalismu ke koncovce ě ve vzoru město pˇridáme omezení !gM, tedy celkem ě/!gM, budou všechny tvary slova gigolo tvoˇrené podle výše uvedeného popisu v poˇrádku.21 * Možnou pravidelnost „-o v Nsg ⇒ -o ve Vsg“ (pro životná maskulina) by samozˇrejmˇe šlo vyjádˇrit i jinak, napˇríklad nˇejakým explicitním pravidlem (formalismus nic takového aktuálnˇe neumožnuje, ˇ nicménˇe nebyl by problém jej vhodnˇe rozšíˇrit). Pˇriˇrazení ke vzoru město je ale výhodné právˇe tím, že takový popis nevyžaduje žádné pravidlo navíc22 , ale vystaˇcí si s tím, co už v systému stejnˇe je. Je potˇreba jen pˇripustit, jak navrhují Markéta Ziková a Pavel Caha v cˇ láncích odkazovaných v podkapitole 4.1, že deklinaˇcní systém substantiv není rˇ ízen primárnˇe rodem. Zduraz ˚ nuji ˇ ale, že toto je zejména demonstrace možností mnou navrhovaného popisu. Já pochopitelnˇe nevím, jak to „ve skuteˇcnosti“ je. Podstatné je, že formát umožnuje ˇ obˇe varianty, jak sklonování ˇ podle vzoru pán se dvˇema výjimeˇcnými tvary, tak sklonování ˇ podle vzoru město, tˇrebaže implicitnˇe neutrálního. Obdobným zpusobem ˚ by šlo popsat i slova typu hrabˇe podle vzoru kuˇre nebo tˇreba i singulár vzoru soudce podle vzoru moˇre.
4.5
Implicitní znaˇcka a implicitní vzory v rámci definice slova
V podkapitole 3.12 jsem jako pˇríklady nepravidelných tvaru˚ uvádˇel Vsg pane a synu, kdy slova pán a syn jsem ve slovníku popisoval takto:
pán:pán pan-e syn:pán,<-ové syn-u
k1gMnSc5 k1gMnSc5
Analogicky k úvahám v pˇredchozích podkapitolách i v tˇechto pˇrípadech je ve chvíli zpracování rˇ ádku˚ s výjimeˇcnými tvary známa informace 21. Za poznámku stojí, že takto popsané slovo gigolo bude pˇrípadem zminovaným ˇ v poznámce 7. Ve chvíli pˇridávání tvaru˚ podle vzoru -ovi budou už mezi dˇríve vytvoˇrenými tvary jak Dsg, tak Lsg, pˇrestože oba stejné. Aby byl výsledek korektní, musí se Lsg tvar gigolovi doplnit podle pravidel popsaných „vzorem“ $shoda pˇred tímto pˇridáním. 22. Pˇridali jsme omezení koncovky podle znaˇcky, to ale využijeme i jinde. Navíc není du˚ vod se domnívat, že by nekompatibilita Dsg a Lsg ě se životnými maskuliny souvisela s Nsg a Vsg tvary slov typu gigolo, takže toto omezení jsme použili k popisu nezávislého jevu.
52
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ o slovním druhu a rodu, takže její uvádˇení je redundantní. Zavedeme tedy, že pˇri vyhodnocování víceˇrádkové definice slova se zapamatuje informace o znaˇcce slovního základu, k níž bude pˇripojena znaˇcka nasbíraná vyhodnocením seznamu vzoru˚ (viz prostˇrední cˇ ást podkapitoly 4.3 a poznámka 14), pˇriˇcemž znaˇcka slovního základu bude mít pˇri kolizi pˇrednost. Potom pro všechny další rˇ ádky se tato znaˇcka použije jako implicitní, tedy pokaždé se slouˇcí se znaˇckou uvedenou na daném rˇ ádku (bude-li ovšem pˇrítomna), pˇriˇcemž pˇrednost pˇri kolizi bude mít znaˇcka na daném rˇ ádku. Bude tedy možné psát
pán:pán pan-e syn:pán,<-ové syn-u
nSc5 nSc5
Lze si dále povšimnout, že ve Vsg tvaru pan-e je pravidelná koncovka. Kdybychom chtˇeli vyjádˇrit, že nejde o shodu náhod (jako když tˇreba koncovka u ve tvaru syn-u je formálnˇe shodná napˇríklad s Dsg koncovkou vzoru pán), ale že je to Vsg koncovka vzoru pán, mohli bychom psát
pán:pán pan:pán_nSc5 V takovém pˇrípadˇe bychom ovšem opˇet opakovali informaci, kterou lze pˇrevzít z pˇredchozího rˇ ádku, že se totiž slovo pán sklonuje ˇ podle vzoru pán (nezávisle na konkrétní variantˇe slovního základu). Zavedeme proto, že kromˇe implicitní znaˇcky se u víceˇrádkových popisu˚ slov budou pamatovat i implicitní vzory, což budou vzory uvedené na prvním rˇ ádku. Použijí se v pˇrípadˇe, že u varianty slovního základu na nˇekterém z dalších rˇ ádku˚ žádné vzory uvedeny nebudou a že zárovenˇ nepujde ˚ o hotový slovní tvar, tedy že nebude obsahovat znak -. Budeme tak moci psát:
pán:pán pan syn:pán,<-ové syn-u
nSc5 nSc5
Aby to ale fungovalo, je potˇreba ještˇe rˇ íct, co se stane pˇri kolizi znaˇcky slovního základu a znaˇcky koncovky ve vzoru (kteroužto možnost jsem zatím zamlˇcoval). Pokud totiž budeme druhý rˇ ádek popisu slova pán vyhodnocovat jako pan:pán k1gMnSc5, tedy s použitím implicitních vzoru˚ i implicitní znaˇcky, bude pˇri pˇripojování koncovek vzoru pán docházet ke 53
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ konfliktu znaˇcky k1gMnSc5 jakožto znaˇcky slovního základu pan a znaˇ cˇ ek jednotlivých koncovek vzoru pán (kromˇe ovšem Vsg). Rešení je prosté, koncovky vzoru budou filtrovány znaˇckou slovního základu a koncovky s kolidujícími znaˇckami budou ignorovány. 4.5.1
Poznámka k nepravidelným tvarum ˚
U tvaru˚ s nepravidelnými koncovkami (napˇríklad zmínˇený tvar syn-u), které jsou ve slovníku uvedeny celé, je otázka, jestli skuteˇcnˇe dává smysl segmentovat je na slovní základ a koncovku. Stejnˇe tak dobˇre by totiž mohly být ve slovníku uvedeny bez této segmentace, tedy napˇríklad jen synu s pˇríslušnou znaˇckou. I pokud bychom pˇrijali pˇredstavu, že slovník odpovídá nˇejaké realitˇe v našich hlavách, není mi znám žádný test, který by umožnil rozlišit, v jaké podobˇe v nˇem (v nich) tyto tvary jsou, jestli jako slovní základ a koncovka, nebo jako hotový tvar bez vnitˇrní struktury. Podobný problém je s tvary typu přátel-0, kdy je sice nulová koncovka v Gpl bˇežná, nikoli ovšem pro životná maskulina. V takovém pˇrípadˇe lze tedy kromˇe možností přátel a přátel-0 uvažovat i možnost nˇejakého odkazu na tuto koncovku, tedy nˇeco na zpusob ˚ přátel:žena k1gMnPc2, což by zajistilo vytvoˇrení struktury přátel-0 a zárovenˇ vyjádˇrilo, že jde o tutéž nulovou koncovku, jaká je v Gpl vzoru žena. Tyto vˇeci ale poznamenávám jen na okraj. Veden praktickými ohledy budu slovní tvary s nepravidelnými koncovkami ve slovníku segmentovat, tˇrebaže spíše jen jako technické rˇ ešení umožnující ˇ mít ke všem slovním tvarum ˚ i jejich rozˇclenˇení na slovní základ a koncovku.23 Vzhledem ke zpuso˚ bu zavedení implicitních vzoru˚ aktuální podoba formátu ani neumožnuje ˇ uvedení hotového nesegmentovaného tvaru: bylo by to vyhodnoceno jako slovní základ, jemuž je tˇreba pˇripojit pravidelnou koncovku podle implicitního seznamu vzoru. ˚ Nebyl by ale v pˇrípadˇe potˇreby žádný zásadní problém formát modifikovat tak, aby ve slovníku nesegmentované slovní tvary umožnoval. ˇ
4.6
Deklinace urˇcovaná slovotvornými pˇríponami
Slovo uˇcitel se sklonuje ˇ stejnˇe jako slovo muž, jen v Npl a Vpl je spisovný tvar pouze uˇcitelé. Stejným zpusobem ˚ se sklonuje ˇ slovo rˇeditel, školitel atp. — témˇerˇ všechna slova utvoˇrená pˇríponou -tel se sklonují ˇ totožným zpu˚ 23. Kdybych tyto ohledy nemˇel, preferoval bych ve slovníku tvary bez vyznaˇcené segmentace. Nemám pro to ale žádný jasný argument, byla by to spíše jen intuitivní volba.
54
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ sobem. A není to jediný pˇrípad, kdy se urˇcitým zpusobem ˚ utváˇrená slova sklonují ˇ stejnˇe, nanejvýš až na nepoˇcetné výjimky (pro pˇríponu -tel již na více místech zminovaná ˇ slova obyvatel a pˇrítel). Naopak, jde o typickou situaci. Zustaneme-li ˚ u slov odvozených pˇríponou -tel, je zˇrejmé, že jejich sklonování ˇ je urˇceno právˇe touto pˇríponou, nikoli nˇejakou arbitrární pˇríslušností k nˇejakému vzoru. To ovšem aktuální podoba formalismu neumožnuje ˇ vyjádˇrit. Pokud u všech slov odvozených pˇríponou -tel ve slovníku uvedeme :muž,<-é, dostaneme sice správné tvary (abstrahuji od výjimek pˇrítel a obyvatel), ale jen jsme si tím ta slova utˇrídili na nˇejakou hromádku s nálepkou muž,<-é. Žádným zpusobem ˚ to nevyjadˇruje, že se takto sklonuˇ jí právˇe kvuli ˚ pˇríponˇe -tel. To je ovšem zásadní nedostatek, který je potˇreba napravit. Obohatíme tedy formát o znak =, kterým budeme vyznaˇcovat pˇrípony, takže místo učitel budeme moci psát uči=tel. Dále pˇridáme možnost popsat, jak se konkrétní pˇrípona chová. Formát bude (asi nikoli pˇrekvapivˇe) zcela shodný s popisem slova ve slovníku, popisy pˇrípon ovšem budeme pro lepší pˇrehlednost pˇridávat do souboru vzoru. ˚ Aby byly pˇrípony snadno odlišitelné od vzoru, ˚ budeme znak = považovat za jejich souˇcást. Pˇrípona -tel tedy bude popsána takto:
=tel:muž,<-é Ve slovníku pak postaˇcí uvést jen uči=tel. Další informace není potˇreba, staˇcí vˇedˇet, že tel v daném slovˇe je pˇrípona =tel. Vyhodnocení je pˇredpokládám zˇrejmé, snad s jedinou výjimkou: vzniklá struktura bude obsahovat znak =, který budeme odstranovat ˇ zárovenˇ se znaky - a 0. Mohlo by se zdát, že takový zápis bude sice struˇcnˇejší, ale jinak stejný jako nˇejaký vzor tel:muž,<-é (bez koncovek), ke kterému by byla zaˇrazena všechna slova odvozená pˇríponou -tel. Rozdíl je ale právˇe v tom, co píšu výše: pˇríslušnost ke vzoru je v principu arbitrární (viz ještˇe dále podkapitolu 4.7), vyznaˇcením pˇrípony =tel se naopak v jistém slova smyslu odkazuji na totéž =tel, které se pochopitelnˇe sklonuje ˇ stále stejnˇe. Za zmínku stojí, že napˇríklad jako slovníkový zápis slova pˇrítel ted’ postaˇcí pouze následující:
pří=tel
nP nPc2
Z formálního hlediska nic nebrání specifikaci seznamu vzoru˚ i u slovního základu, tedy nˇeco na zpusob ˚ uči=tel:+pán,+-ové (nesmyslný pˇrí55
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ klad). Zatím jsem ale nenarazil na pˇríponu cˇ i vubec ˚ slovo, kde by nˇeco takového bylo k užitku. 4.6.1
Adjektivní deklinace
Právˇe zavedené formální prostˇredky použijeme i pro popis životných maskulin, která mají adjektivní sklonování. ˇ Pˇríponou budeme reprezentovat to, ˇ oznaˇcuje jako kmenotvornou pˇríponu (napˇríklad s. 381). Zárovenˇ co MC2 využijeme, co jsme zavedli v podkapitole 4.4, totiž že pˇri tvorbˇe znaˇcky má znaˇcka slovního základu pˇri kolizích vždy pˇrednost. Rozšíˇrení platnosti tohoto pravidla i na pˇrípony umožní, aby adjektivnˇe sklonovaná ˇ substantiva mˇela s adjektivy totožné koncovky. Pˇredpokládejme vzor adj popisující potˇrebné koncovky (pro popis životných maskulin postaˇcí jen cˇ ásteˇcná definice):
adj gMnSc1 gMnSc2 gMnSc3 gMnSc6 gMnSc7 gMnPc1 gMnPc2 gMnPc3 gMnPc4 gMnPc6 gMnPc7
0 ho mu m m 0 ch m 0 ch mi
Pˇridáme-li navíc pˇríponu =í:adj k2, bude pro životná maskulina sklonoˇ vaná dle vzoru jarní staˇcit do slovníku psát napˇríklad krejč=í k1gM. Popis tvrdého adjektivního sklonování ˇ bude o nˇeco ménˇe elegantní, pˇrí24 ponu =ý budeme muset zavést takto :
=ý:adj k2 =é:adj_gMnSc[236]|gMnPc4 =’í:adj_gMnPc1 Do slovníku pak opˇet postaˇcí psát jen hajn=ý k1gM. 24. Na posledním rˇ ádku by bylo možné psát i =’í:adj gMnPc1, nikoli ale na prostˇredním rˇ ádku, tak volím jednotný zápis. Apostrof vyznaˇcuje specifické hláskové zmˇeny slovního základu. Je možné, že by staˇcilo rozlišovat -i a =i, jak jsem ale psal v podkapitole 3.12.3, v této fázi tyto otázky neˇreším.
56
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ Vzoru adj využijeme napˇríklad i pro životná maskulina typu grizzly, která ted’ do slovníku mužeme ˚ zavést jako grizzly:adj,+muž_nP gM. Pˇekným pˇríkladem použití v této kapitole zavedených vlastností mohou být i pluralia tantum typu pˇredožábˇrí. Ve slovníku je mužeme ˚ popsat jako předožábr=ý k1gMnP. Pˇri tvorbˇe tvaru˚ se tedy jednak pro znaˇcku použije k1 specifikované u slovního základu místo k2 specifikovaného u pˇrípony, jednak se použijí pouze koncovky, jejichž znaˇcka nekoliduje se znaˇckou slovního základu (viz konec podkapitoly 4.5).
4.7
Smˇerem ke slovníku rysu˚
Na zaˇcátku pˇredchozí kapitoly jsem si vytkl cíl mít ve slovníku, co je nepravidelné, a v souboru vzoru, ˚ co je pravidelné. Ve slovníku by tedy mˇelo být jen to, co by v principu mohlo být i jinak, k cˇ emu není (pˇrinejmenším synchronnˇe) žádný další duvod, ˚ než právˇe ten, že je to zrovna takto uvedeno ve slovníku. Udˇelal jsem v této a pˇredchozí kapitole už mnoho kroku˚ smˇerem k tomuto cíli, pˇresto obecnˇe slovník tak, jak jsem jej tu zatím pˇredstavoval, tuto poˇcáteˇcní ideu stále zdaleka nenaplnuje. ˇ Pˇríklady slovníkových popisu, ˚ které umožnuje ˇ doposud navržená podoba formátu dat, vypadají napˇríklad takto:
slon:pán korýš:muž Martin:pán,<-ové tchoř:muž,<-i Lze se ale domnívat, že mluvˇcí se v dˇetství nemuseli nauˇcit, že slon patˇrí ke vzoru pán, korýš ke vzoru muž, Martin že se také sklonuje ˇ podle vzoru pán, ale v Npl a Vpl má pouze -ové nebo že tchoˇr je také podle vzoru muž, ale v Npl a Vpl má pouze -i. Staˇcilo jim totiž nauˇcit se obecná pravidla typu tvrdá samohláska na konci slovního základu (a pˇri nule v Nsg) implikuje pro životná maskulina vzor pán, mˇekká v tomtéž pˇrípadˇe vzor muž, osobní mužské jméno implikuje v Npl a Vpl nezávisle na vzoru pouze -ové nebo rˇ na konci slovního základu implikuje v Npl a Vpl pouze -i. Potom jim totiž ke správnému sklonování ˇ slov slon, korýš, Martin cˇ i tchoˇr staˇcí pouze takové informace, které už tak jako tak mají, totiž že slon, resp. odpovídající slovní základ konˇcí na tvrdou samohlásku, korýš na mˇekkou, Martin že je osobní jméno cˇ i tchoˇr že konˇcí na rˇ. Nepotˇrebují ještˇe navíc informaci o zaˇrazení jména ke vzoru. Ta by byla vzhledem k ostatním informacím redundantní. Je ovšem pravda, že do hlavy se zatím moc dobˇre dívat neumíme, takže o tom, co tam ve skuteˇcnosti mluvˇcí mají, si lze myslet leccos. V každém 57
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ pˇrípadˇe ale nesporným faktem zustává, ˚ že informace o vzoru je v tˇechto a mnoha dalších pˇrípadech redundantní. Potˇrebujeme tedy pˇridat do formalismu prostˇredky, které nám umožní tyto pravidelnosti zachytit. Zárovenˇ ale potˇrebujeme ponechat i možnost nepravidelností: naprostá vˇetšina životných maskulin s nulovou Nsg koncovkou, jejichž slovní základ konˇcí na rˇ, má v Npl a Vpl pouze -i. Kromˇe toho ale mohou být i napˇríklad císaˇrové, rychtáˇrové a nˇekolik dalších (viz IJP). Musíme tedy umˇet vyjádˇrit právˇe takové informace, že pro slovní základy konˇcící na rˇ je v Npl a Vpl implicitní koncovka -i, pˇriˇcemž ale pro nˇekterá konkrétní slova je pˇrípustná i koncovka -ové. Nezdá se, že by synchronnˇe existoval nˇejaký duvod, ˚ proˇc je koncovka -ové pˇrípustná zrovna u slov císaˇr cˇ i rychtáˇr. Jde o jednotlivé informace, které se musí každý rodilý mluvˇcí spisovné cˇ eštiny nauˇcit. Je tedy zˇrejmé, že takové informace budeme chtít ponechat ve slovníku. Naopak informace o implicitním sklonování ˇ v závislosti na hláskové podobˇe slovního základu cˇ i jeho morfologicky relevantních sémantických rysech budeme chtít popisovat v souboru vzoru. ˚ 4.7.1
Základní formát implicitních pravidel
Zavedeme možnost obohacení slovníku vzoru˚ o falešné vzory podobné vzoru $shoda. Názvy tˇechto vzoru˚ budou také zaˇcínat znakem $ a samotný název bude cˇ ást znaˇcky. Jednotlivé rˇ ádky takových falešných vzoru˚ budou obsahovat vždy podmínku a seznam vzoru. ˚ Napˇríklad tedy
$k1gM ř
muž,<-i
Pˇri vyhodnocování dat ve slovníku se pak bude postupovat tak, že pokud bude u slovního základu uvedena znaˇcka zaˇcínající shodnˇe jako jméno tohoto falešného vzoru (bez znaku $ ovšem), zárovenˇ slovní základ nebude utváˇren pˇríponou (nebude tedy uvnitˇr obsahovat znak =) a zárovenˇ slovní základ bude odpovídat podmínce, bude uvedený seznam vzoru˚ pˇripojen k tomuto slovnímu základu, pˇrípadnˇe pˇredsunut pˇred explicitnˇe uvedený seznam vzoru˚ ve slovníku. Pak teprve se zaˇcne seznam vzoru˚ vyhodnocovat, tedy pak teprve se zaˇcnou tvoˇrit jednotlivé tvary. Konkrétnˇe tak nebude nadále nutné mít ve slovníku tchoř:muž,<-i, ale postaˇcí mít tchoř k1gM. To totiž bude na základˇe informací (pravidel) obsažených ve „vzoru“ $k1gM interpretováno právˇe jako tchoř:muž,<-i. A zároven, ˇ pokud bude ve slovníku císař:+-ové k1gM, dostaneme pˇresnˇe ten výsledek, který potˇrebujeme, totiž vˇcetnˇe tvaru císařové, proto58
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ že se to bude vyhodnocovat stejnˇe, jako kdybychom do slovníku napsali císař:muž,<-i,+-ové.25 Takový popis tedy nabízí pˇresnˇe to, co jsme potˇrebovali: umožnuje ˇ popsat implicitní sklonování ˇ za urˇcitých podmínek, ale zárovenˇ dovoluje snadno popsat nˇejakým zpusobem ˚ výjimeˇcná slova. Ve zbytku podkapitoly budeme tento zpusob ˚ popisu už jen v detailech obohacovat cˇ i upˇresnovat. ˇ 4.7.2
Formát podmínky a pˇridání rysu˚
Podobnˇe jako jinde v datech (viz podkapitola 3.7, ovšem viz i poznámka 29 dále v podkapitole 4.7.4) bude podmínkou regulární výraz vyhodnocovaný vuˇ ˚ ci konci slovního základu. Musíme ale ještˇe nˇejakým zpusobem ˚ zachytit informace toho typu, že Martin je osobní jméno. Využijeme skuteˇcnosti, že brnˇenský formát znaˇcky je v podstatˇe neomezenˇe rozšiˇritelný a zavedeme dosud neobsazenou kategorii q. Vlastní jména pak budeme znaˇcit napˇríklad qJ, takže budeme moci do slovníku psát Martin k1gMqJ. To ale stále nestaˇcí, protože ruzné ˚ druhy vlastních jmen se chovají ruznˇ ˚ e, napˇríklad od pˇríjmení budeme chtít tvoˇrit pˇrechýlené tvary, specifickým zpusobem ˚ se mohou chovat etnonyma atp. Kdybychom chtˇeli takové vˇeci rozlišovat, museli bychom tˇemto ruzným ˚ skupinám dávat ruzné ˚ pˇríznaky, tˇreba qP cˇ i qN. Jindy ale zase budeme chtít rˇ íct, že všechna mužská osobní jména mají v Npl i Vpl jen -ové, nezávisle ˇ na tom, jestli jde tˇreba o kˇrestní jména cˇ i pˇríjmení. Cím podrobnˇejší dˇelení bychom ale mˇeli, tím komplikovanˇejší by byly takové obecné podmínky. Rozšíˇríme tedy formát znaˇcky tak, že umožníme jako hodnotu nikoli jeden znak mimo malých písmen, ale libovolný nenulový poˇcet takových znaku. ˚ To nám umožní pˇríznaky hierarchizovat a mít tak napˇríklad qJ jako vlastní jména obecnˇe, qJO jako osobní jména, qJN jako etnonyma, qJOP jako pˇríjmení atd., pˇriˇcemž zárovenˇ bude možné jednoduše mluvit o nˇekteré vˇetvi takového pomyslného stromu pˇríznaku, ˚ napˇríklad qJO, což bude zahrnovat i qJOP. 25. Pˇripomínám, že v podkapitole 3.11 jsme < zavedli tak, že pokud je mezi vytvoˇrenými tvary tentýž tvar se dvˇema znaˇckami lišícími se jen pˇrítomností pˇríznaku wH, je tato duplicita odstranˇena ve prospˇech tvaru se znaˇckou bez tohoto pˇríznaku. Zde tedy bude výsledkem vyhodnocení vzoru <-i pˇridání pˇríznaku wH znaˇcce tvaru císařové vytvoˇreného podle vzoru muž, ovšem vyhodnocení následujícího vzoru +-ové tentýž tvar pˇridá i bez tohoto pˇríznaku, takže tvar s pˇríznakem bude nakonec odstranˇen. Ještˇe je potˇreba upˇresnit, že kdybychom nemˇeli „vzor“ $k1gM, popisovali bychom ve slovníku slovo císaˇr jen jako císař:muž, a nikoli císař:muž,<-i,+-ové. Výsledek bude ovšem stejný a data bude vyhodnocovat program, takže z tohoto pohledu není tento komplikovanˇejší mezikrok na závadu.
59
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ Podmínky ve „vzorech“ typu $k1gM pak budeme psát tak, že regulární výraz vyjadˇrující podmínku na znaˇcku budeme od regulárního výrazu popisujícího vyhovující konec slovního základu oddˇelovat lomítkem. To uvedeme i v pˇrípadˇe, že regulární výraz nebude specifikován. Jméno Martin tedy ve slovníku popíšeme jako Martin k1gMqJO a do „vzoru“ $k1gM pˇridáme napˇríklad (opravdu jen pˇríklad):
n/qJO
pán,<-ové
Protože obˇe podmínky jsou splnˇeny, vytvoˇrí se stejné tvary, jako kdybychom ve slovníku mˇeli Martin:pán,<-ové. Jediný rozdíl bude v tom, že všechny znaˇcky budou obsahovat qJO, to se samozˇrejmˇe nikde neztratí. Není pochopitelnˇe žádný problém to na výstupu ze znaˇcky odstranit — nebo naopak v pˇrípadˇe zájmu ponechat. 4.7.3
Omezení vzoru˚ a optimalizace podmínek
Pˇredpokládejme26 , že bychom chtˇeli jako implicitní sklonování ˇ pro životná maskulina zakonˇcená na mˇekkou souhlásku a s nulou v Nsg stanovit vzor muž a dále vyjádˇrit, že taková slova zakonˇcená na j mají v Npl a Vpl pouze -ové a slova zakonˇcená na cˇ , rˇ mají v Npl a Vpl pouze -i. Mohli bychom do „vzoru“ $k1gM pˇridat následující:
j muž,<-ové [čř] muž,<-i [ďňšťšž] muž Tyto rˇ ádky ovšem tak úplnˇe nevyjadˇrují to, co jsem výše napsal. Kdybychom postupnˇe aplikovali všechna pravidla s vyhovující podmínkou (viz následující podkapitolka), mohli bychom napsat i toto:
j <-ové [čř] <-i [čřjďňšťšž] muž To už odpovídá úvodnímu odstavci, ovšem obecnˇe by takový pˇrístup vedl k hodnˇe rozsáhlému „vzoru“ $k1gM. Umožníme tedy omezení, která jsme dosud kladli na koncovky (viz podkapitola 3.7 a podkapitolka 4.4.2), klást i na celé vzory. Vystaˇcíme si tak v $k1gM pro daný pˇrípad jen s
[čřjďňšťšž] muž,<-ové/j,<-i/[čř] 26. V tuto chvíli nechci rozebírat, jestli je to takto rozumné, potˇrebuji to jen jako pˇríklad.
60
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ Abychom se navíc v datech vyhnuli cˇ astému opakování výˇctu˚ ruzných ˚ druhu˚ hlásek, zavedeme si promˇenné, které budou zastupovat napˇríklad mˇekké konsonanty. Promˇenné budou definovány pˇrímo v datech v dalším speciálním vzoru $proměnné, a to tak, že na jednotlivých rˇ ádcích bude vždy název promˇenné a regulární výraz, který jí má odpovídat. Tedy napˇríklad takto:
$proměnné V C T O M
(?i:ou|[.%]?[aáeéěiíoóuúůyý]) (?i:ch|[bcčdďfghjklmnňpqrřsštťvwxzž]) (?i:ch|[dghknrt]) (?i:[bflmpsvz]) (?i:[čďjňřšťž])
Takové promˇenné pak budeme moci využít jak v pravidlech, tak v jednotlivých omezeních vzoru˚ cˇ i koncovek v rámci celého souboru vzoru. ˚ Pro odkaz na konkrétní promˇennou použijeme její jméno, pˇred nímž uvedeme znak $. Napˇríklad implicitní pravidla z úvodního odstavce pak mužeme ˚ ve „vzoru“ $k1gM popsat jen jako
$M
muž,<-ové/j,<-i/[čř]
Pokud navíc zavedeme, že definice promˇenných mohou využívat dˇríve definované promˇenné, mužeme ˚ si udˇelat promˇennou tˇreba i pro slabiku27 : S (?:(?!$C+[rl]$C)$C*$V(?!$C+[rl](?:$C|$))$C*|$C+[rl]$C*(?!$V))
Mohlo by se zdát, že rozdíl mezi v této podkapitolce uvedenými variantami formální reprezentace úvodního odstavce je minimální. Svým zpuso˚ bem ano. Na druhou stranu, pˇridání omezení vzoru˚ a promˇenných umožnuje ˇ nejen kompaktnˇejší popis, ale také vyjadˇrování v zavedených termínech, jako tˇreba mˇekký konsonant atp. Kdyby navíc byly takové vˇeci vždy popisovány výˇctem hlásek, nebylo by na první pohled jasné, jestli jde v konkrétním výˇctu napˇríklad o tyto mˇekké konsonanty, nebo jestli nˇejaká hláska pˇrebývá cˇ i chybí, takže použitím promˇenných se také zvyšuje cˇ itelnost a pˇrehlednost. V podkapitolce 3.8.1 jsem ukazoval dva zpusoby, ˚ jakými lze popsat skuteˇcnost, že neexistuje žádné životné maskulinum, jehož slovní základ by 27. Je to bez odsazení, aby se to vešlo na rˇ ádek. Za | je slabika bez vokálu, v cˇ eštinˇe mu˚ že být (ne)hl, ale nikoli rt jako tˇreba v srbštinˇe. Pochopitelnˇe taková slabika nebude dˇelat správné hranice slabik, nerozliší proudit od proudit a vubec ˚ bude její použití omezené. Ale tˇreba ˆ$S mohou být jednoslabiˇcná slova, což muže ˚ být morfologicky relevantní záležitost, zvlášt’ co se týˇce nˇejakých obecných tendencí, které se v této podkapitole snažíme zachytit.
61
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ konˇcil na g a které by v Npl a Vpl pˇripouštˇelo spisovnou kocovku -i. Jednou možností bylo omezit pˇríslušnou koncovku i/[ˆg], což mohlo vyjadˇrovat, že tato koncovka je v daném kontextu prostˇe nemožná. Druhou možností bylo zaˇradit všechna taková slova ke vzoru filozof, resp. pozdˇejšímu ekvivalentu pán,<-ové, což mohlo naopak znamenat, že aktuální neexistence slova pˇripouštˇejícího i -i je vlastnˇe jen shoda okolností. Implicitní pravidla nabízejí tˇretí možnost, totiž pˇridání následujícího pravidla:
$T
pán,-ové/g
Volbou takové možnosti lze rˇ íct, že je sice pro tato slova možné oˇcekávat pouze koncovku -ové, ale nelze zcela vylouˇcit jednotlivé výjimky.28 Pˇresnˇe toto rˇ ešení použijeme napˇríklad pro slova konˇcící na f, kdy všechna pˇriˇ možným tvarem pouštˇejí jen -ové, jenom pro slovo gróf je podle IJP i SSJC i grófi. 4.7.4
Vyhodnocování implicitních pravidel
Už nˇekolikrát jsem na ruzných ˚ místech mluvil o slovech typu despota. At’ už jsem jejich sklonování ˇ popisoval jakkoli, jedno mˇely jejich slovníkové popisy spoleˇcné: slovnímu základu oproti Nsg chybˇelo koncové a. Jinými slovy, když jsme chtˇeli takové slovo zaˇradit do slovníku, odebrali jsme mu koncové a a ke zbytku nˇejak pˇridali informaci, že se má sklonovat ˇ podle vzoru despota. Mohli bychom si to ale zjednodušit a jako pˇríznak toho, že slovo patˇrí ke vzoru despota, ponechat ve slovníku právˇe to a. Samozˇrejmˇe, nejpozdˇeji pˇred tvorbou jednotlivých tvaru˚ se toho a nˇejak zbavit musíme, jinak bychom dostávali nesmyslné tvary. Ale pokud mohou implicitní pravidla mˇenit seznamy vzoru, ˚ mohly by stejnˇe tak mˇenit i slovní základy. Zavedeme tedy, že v podmínce na hláskovou podobu slovního základu bude v implicitních pravidlech možné symbolem \K (viz i poznámka 6) vyznaˇcit, co se má pˇri úspˇechu regulárního výrazu ve slovním základu ponechat a co se z nˇej má odstranit.29 Pokud tak do $k1gM pˇridáme 28. Ve skuteˇcnosti to, jak jsem dosud popisoval vzory pán a -i, tyto výjimky také nevylucˇ uje. Je možné do slovníku zadat tˇreba biolog:pán,+-i a výsledkem bude i tvar biolozi. To je ale zpusobeno ˚ jen tím, že vzory pán a -i popisují tutéž koncovku na dvou ruzných ˚ místech, takže jim nic nebrání ji popsat nekonzistentnˇe, jednou jako i/[ˆg] a jednou jen jako i. Z toho plyne, že je potˇreba vzor pán odvozovat (mimo jiné) od vzoru -i, aby tato koncovka byla v celém systému jen jednou. 29. Protože zde muže ˚ docházet ke zmˇenˇe slovního základu, vyhodnocuji to odlišnˇe než omezení na znaˇcky a na vzory. Navíc jsem mˇel za to, že bude užiteˇcné zde mít | v puvod˚ ním významu regulárních výrazu, ˚ a nikoli jako logické or mezi dvˇema podmínkami. Zatím jsem to ale takto nepotˇreboval, takže to zˇrejmˇe bylo špatné rozhodnutí. Pokud to nebudu
62
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚
$T\Ka
žena_nS,-ovi,pán_nP,<-ové
budeme moci do slovníku psát napˇríklad30
předseda k1gM pˇriˇcemž budeme dostávat stejné tvary, jako kdybychom napsali
předsed:žena_nS,-ovi,pán_nP,<-ové k1gM Dokonce bychom mohli chtít specifikovat, cˇ ím se má nahradit to, co bylo ze slovního základu (pˇresnˇeji v tomto pˇrípadˇe z rˇ etˇezce, který jsme zadali do slovníku a z nˇehož slovní základ teprve vznikne) odstranˇeno. Pokud pˇred seznam vzoru˚ pˇredsuneme dvojteˇckou oddˇelený rˇ etˇezec, pˇrípadnˇe takový rˇ etˇezec ukonˇcený pro odlišení dvojteˇckou uvedeme namísto seznamu vzoru, ˚ bude tento rˇ etˇezec pˇripojen na konec slovního základu (ˇretˇezce ve slovníku). Je to ale zatím jen zobecnˇení úprav slovního základu, nemám pro to žádné využití.31 * Poslední vˇec, kterou musíme urˇcit, je zpusob ˚ vyhodnocování implicitních pravidel v kontextu celého „vzoru“ $k1gM. Pokud právˇe zmínˇená pravidla zmˇení předseda k1gM na předsed:... k1gM, mohla by být na takto upravenou slovníkovou položku aplikována i další pravidla, napˇríklad nˇejaké pravidlo vyjadˇrující, že finální d implikuje pro životná maskulina vzor pán atp. To by samozˇrejmˇe nebylo žádoucí. 32 potˇrebovat ani u jiných slovních druhu, ˚ sjednotím výhledovˇe jak formát, tak vyhodnocování tˇechto podmínek implicitních pravidel a omezujících podmínek na vzory a znaˇcky. 30. Je to opˇet jen pˇríklad. Nebude to pochopitelnˇe fungovat pro všechna životná maskulina konˇcící v Nsg na $Ta: jednak bude potˇreba extra zachytit zakonˇcení -ita, -ista a -asta, jednak bude potˇreba u nˇekterých slov mít ve slovníku navíc :+-i. To bude nakonec pˇrípad i samotného slova despota, protože jak pro zakonˇcení ota, tak pro zakonˇcení ta (vyjma pˇred chvílí uvedených) je v souˇcasných datech analyzátoru ajka výraznˇe víc slov, která -i v Npl a Vpl nepˇripouštˇejí, cˇ emuž je pochopitelnˇe vhodné pˇrizpusobit ˚ popis. 31. Napˇríklad si lze povšimnout, že kromˇe jednoslabiˇcných slov (pˇrípadnˇe jejich složenin) se u všech životných maskulin, které v Nsg konˇcí na $Cek, toto e stˇrídá s nulou. Našel jsem jen dvˇe výjimky, Uzbek a australopitek. Takže by mohlo být výhodné dˇelat nˇejaké nahrazení $C\Kek za .ek, ale zatím nemám žádný elegantní zpusob, ˚ jak to u zmínˇených dvou výjimek zablokovat, takže jsem to ještˇe nevyužil. Napˇríklad z hlediska pˇridávání nových slov by to ale mohlo být užiteˇcné. 32. Pro jistotu upozornuji, ˇ že vzhledem k tomu, jak jsou tato implicitní pravidla navržená, by nebyl (resp. správnˇe nemˇel být, opomíjím nˇekteré technické detaily) problém v tom, že bychom takto dostávali nekorektní tvary. V tomto hypotetickém pˇrípadˇe by totiž výsledkem pravidel bylo předsed:pán,žena_nS,-ovi,pán_nP,<-ové k1gM — ovšem vzory následující po vzoru pán definují všechny tvary, takže by se všechny tvary podle vzoru pán pˇrepsaly novými. Ale obecnˇe nˇeco takového zbyteˇcnˇe zvyšuje nepruhlednost ˚ systému a riziko dlouhého dohledávání pˇrípadné chyby, takže je rozumné se tomu vyhnout.
63
4. O D SLOVNÍKU VZOR U˚ KE SLOVNÍKU RYS U˚ Na druhou stranu v jiných pˇrípadech mužeme ˚ chtít aplikovat více pravidel. Mužeme ˚ tak napˇríklad chtít prostˇrednictvím implicitního pravidla /qJO <-ové rˇíct, že pro osobní jména má být v Npl a Vpl spisovná jen koncovka -ové, a to nezávisle na tom, podle kterého vzoru se budou sklonovat. ˇ V takovém pˇrípadˇe bychom tedy potˇrebovali, aby se kromˇe tohoto pravidla uplatnilo i pravidlo urˇcující (napˇríklad podle zakonˇcení slovního základu) vzor — a navíc je nutné, aby se toto pravidlo uplatnilo až po prve zmínˇeném pravidle, aby totiž takto urˇcený vzor byl v koneˇcném seznamu vzoru˚ pˇred <-ové. Stanovíme tedy, že jednotlivá pravidla se budou procházet v tom poˇradí, v jakém jsou zadána ve „vzoru“ $k1gM. Pokud bude podmínka pravidla vyhovovat, ale nebude zaˇcínat pomocným znakem &, pravidlo se uplatní a skonˇcí se, podmínky následujících pravidel se už kontrolovat nebudou. Pokud bude podmínka zaˇcínat znakem &, bude se po aplikaci pravidla pokraˇcovat hledáním dalších použitelných pravidel, dokud se neprojdou všechna, nebo se nenalezne nˇejaké vyhovující, ale bez &. V pˇredchozím odstavci zmínˇené pravidlo by tedy vypadalo takto:
&/qJO
4.8
<-ové
Shrnutí
V této kapitole jsem popis dat ve formátu pˇredstaveném v kapitole pˇredchozí umožnil dále zjednodušit výrazným snížením potˇreby opakovat tutéž informaci, at’ už cˇ ást znaˇcky, nebo seznamu vzoru. ˚ Navrhl jsem dále prostˇredky, které dovolují ztotožnit koncovky, jež mohou být považovány za identické, a to jak v rámci jednoho tradiˇcního vzoru, tak napˇríˇc tˇemito vzory, dokonce i bez ohledu na mluvnický rod cˇ i slovní druh. Zejména jsem ale nabídl prostˇredky, jak popsat implicitní sklonování ˇ urcˇ ené hláskovou cˇ i strukturní (pˇrípony) podobou slovního základu a, resp. nebo, jeho morfologicky relevantními sémantickými vlastnostmi. Ve výsledku tedy mohou být pravidelnˇe (pˇrípadnˇe i jen vˇetšinovˇe, protože hranice pravidelného je obtížnˇe objektivnˇe stanovitelná) se chovající slovní základy ve slovníku uvedeny bez explicitního pˇriˇrazení ke vzoru cˇ i seznamu vzoru, ˚ kterýžto bude doplnˇen automaticky. Plný seznam vzoru˚ není navíc potˇreba uvádˇet ani u slovních základu˚ slov nˇejakým zpusobem ˚ nepravidelných, staˇcí jen ve slovníku popsat rozdíl oproti tomu, co je urˇceno implicitními pravidly. Pro zpˇrehlednˇení slovníku a zjednodušení práce s ním dokonce umožnuji ˇ v nˇekterých pˇrípadech uvádˇet místo slovních základu˚ pˇrímo tvary Nsg vˇcetnˇe pozitivní koncovky. 64
Kapitola 5
Diskuse vlastností a možností navrhovaného formátu V pˇredchozích dvou kapitolách jsem navrhl nový zpusob ˚ organizace dat morfologického analyzátoru. Tuto kapitolu vˇenuji diskusi nˇekterých jeho obecných vlastností a možností, zejména prostˇrednictvím porovnání s dalšími existujícími pˇrístupy k popisu morfologických dat. Nejprve chci ale zduraznit, ˚ co jsem už cˇ ásteˇcnˇe zminoval ˇ na zaˇcátku tˇretí kapitoly. Tím hlavním pˇri popisu formátu ani tak nebyla jeho konkrétní podoba, a tím spíše ne jeho konkrétní použití pro popis urˇcitých jazykových dat. Za nejduležitˇ ˚ ejší považuji, že jsem prokázal vubec ˚ možnost data takto popisovat. Že totiž dosavadní „opozice“ mluvnického a komputaˇcního popisu1 není v žádném pˇrípadˇe nezbytná, ale že naopak je velmi dobˇre možné popisovat data lingvisticky interpretovatelným zpusobem. ˚ Proto není souˇcástí práce žádná „referenˇcní pˇríruˇcka“ navrhovaného formátu. Stejnˇe tak jsem se nesnažil vždy rozebrat všechny kombinatorické možnosti interakcí jednotlivých prvku˚ formátu, nelze tedy napˇríklad vylouˇcit, že nˇekteré okrajové možnosti kolizí pˇri tvorbˇe znaˇcky v pˇredchozí kapitole mohly zustat ˚ nevyjasnˇeny. Nechtˇel jsem zabíháním do technických podrobností rozbíjet výklad, protože to jednoduše nepovažuji za duležité, ˚ nehledˇe k tomu, že popisovaná podoba formátu témˇerˇ jistˇe není definitivní. Pˇrikládám nicménˇe v elektronické podobˇe (viz pˇríloha B) skript, který data vyhodnocuje, takže detaily aktuální interpretace formátu lze pˇrípadnˇe vidˇet v nˇem. Relativnˇe nejménˇe podstatné jsou pak konkrétní zpusoby ˚ popisu jednotlivých jevu˚ prostˇrednictvím navrhovaného formátu. Na mnoha místech jsem se snažil ukázat, že pokud lze urˇcitý jev interpretovat více ruznými ˚ zpusoby, ˚ umím tyto jednotlivé možnosti odlišit i prostˇrednictvím popisu. A duležitá ˚ je právˇe tato schopnost, nikoli to, kterou z tˇechto variant jsem pˇrípadnˇe zvolil pro další pˇríklady. I zde ale pˇrikládám v pˇríloze A ucelený soubor vzoru˚ pro životná maskulina. 1. Pˇrinejmenším ústnˇe tradovaná v mém okolí. Dále naopak ukážu, že dosavadní pˇrístup je svým zpusobem ˚ docela adekvátní implementací popisu obsaženého v mluvnicích.
65
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU
5.1
Vztah formátu k souˇcasným mluvnicím cˇ eštiny
Abych mohl ukázat vztah nového formátu k souˇcasným cˇ eským mluvnicím, pokusím se nejprve rekonstruovat model tvarosloví, který tyto mluvnice nabízejí. Vyjdu z Mluvnice cˇ eštiny2 , protože je nejpodrobnˇejší a zároˇ nebo C ˇ RJ ˇ byly v tomto v rozporu.3 venˇ mi není známo, že by s ní PMC ˇ MC cˇ lení slovní tvary na ruzné ˚ cˇ ásti, kterým ale nepˇriznává samostatnou existenci. Jednak to o nˇekterých rˇ íká explicitnˇe: „tvarotvorný základ, popˇr. tvarotvorný kmen je však abstraktní pojem, teoretický konstrukt. Reálnˇe je tento pojem (sic) pˇrítomen pouze v konkrétních tvarech slova“4 ˇ s. 183) — a je steží pˇredstavitelné, že by tˇreba tvarotvorný základ (MC1, byl abstraktní, zatímco tvarotvorný formant nikoli. Plyne to ale tˇreba i z toho, že tvary jsou vždy cˇ lenˇeny, nikdy ne skládány ve smyslu nˇejakého reálného procesu.5 Není uvažován žádný inventáˇr kmenu˚ cˇ i podobných cˇ ástí slov, slovník nebo nˇeco takového, alesponˇ ne v tom smyslu, že by kupˇríkladu bylo nutné rˇ ešit otázky, co a v jaké podobˇe do nˇej ještˇe patˇrí a co už ne. Není tedy ani co skládat, takže zákonitˇe neexistuje napˇríklad ani žádná „hloubková“ struktura (což ovšem zˇrejmˇe nutnˇe plyne už ze znakové povahy morfu: tˇežko uvažovat o nˇejaké „hloubkové“ podobˇe oznaˇcujícího, ˇ od s. 173 dále) a IV 2 2. A to konkrétnˇe z kapitol II.b Morfonologie a morfémika (MC1, ˇ od s. 251 dále). Formální tvarosloví (MC2, ˇ je pí3. Pˇresnˇeji, pokud se odlišují, odlišují se spíše zmateˇcnˇe. Tak napˇríklad podle PMC sen/písni ˇ zániková alternace (s. 260), zatímco hra/her vzniková (s. 256), obecnˇe viz i s. 31, ˇ jde v obou pˇrípadech o alternaci vznikovou (s. 186), což vypadá pˇrecepˇriˇcemž podle MC1 jen o nˇeco logiˇctˇeji. ˇ RJ ˇ napˇríklad v obecné cˇ ásti o stavbˇe slovních tvaru˚ rˇ íká, že kmenotvorná pˇrípona A C „u substantiva vˇetšinou chybí, pˇresnˇeji je nulová (i když i tu ji lze ještˇe v nˇekterých tvarech vyˇclenit, napˇr. had-0, had-a, ale had-o-vi, had-e-ch ve srovnání s žen-á-ch, ruž-í-ch ˚ atp.“ ˇ cˇ lení (s. 175). Jednak není zˇrejmé, proˇc muže ˚ být had-0, ale nemuže ˚ být had-0-0 (tak MC2 napˇríkla tvar žen na s. 256), jednak je nejasná motivace k segmentaci had-o-vi, a nikoli hadov-i (zvlášt’ pˇri uvážení nejen posesiv hadova, hadovo a naopak Dsg/Lsg koncovky -i atp., ale také tˇreba „varianty“ -ovský sufixu -ský, kdy je mužský, ale tˇreba putinovský cˇ i klackovský). Zejména pak ale v cˇ ásti vˇenované popisu deklinaˇcních typu˚ není konzistentní ani sama se sebou, když uvádí pro Lpl v tabulkách vždy -ích, pouze pro vzor stavení -í-ch (s. 188), s vysvˇetlením, že jde o kmenotvornou pˇríponu (s. 189), jako kdyby se to nˇejak lišilo od napˇr. dˇríve zminovaného ˇ tvaru ruž-í-ch. ˚ ˇ rˇ íká: „podstatou tvoˇrení tvaru je utváˇrení 4. Pozoruhodné je, že v pˇredchozí vˇetˇe MC1 jednotlivých tvaru˚ od tvarotvorného základu“, jinými slovy, tvary se utváˇrejí od nˇecˇ eho, co je ve skuteˇcnosti pˇrítomno jen v tˇechto tvarech. Je zˇrejmé, že nˇeco takového se komputaˇcnˇe modeluje dost obtížnˇe. ˇ s. 177: „Cleníme-li ˇ 5. Napˇríklad vymezení morfu v MC1, postupnˇe slovo ...“ nebo celá ˇ ˇ s. 254. Ale konzistentnˇe s tím tˇreba i formulace kapitolka 2.2 Clenˇ ení slovního tvaru v MC2, ˇ kmen je „ˇcást slovního tvaru“, tvarotvorný základ je „složka jednoduchého slovního v ESC: tvaru“, stejnˇe tak i tvarotvorný formant (vše ve stejnojmenných heslech) atp.
66
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU ˇ popisuje pˇrinejmenším, pokud by se mˇela lišit od té „povrchové“).6 MC tvarosloví jako abstraktní jazykový systém, pˇriˇcemž se nijak nestará o to, jak pˇresnˇe tento systém mluvˇcí jazyka realizují cˇ i používají. ˇ je proto zcela statický, neobsahuje žádné procesy, Model nabízený MC které by nˇejak pracovaly se slovními tvary cˇ i jejich cˇ ástmi: „ohebné (flektivˇ s. 253), ní) slovo existuje tedy v jazyce jako soubor slovních tvaru“ ˚ (MC2, „slovní tvary v paradigmatu obecnˇe interpretujeme jako prostˇe koexistujíˇ s. 183). Ani alternace cí, a nikoli jako odvozené jeden od druhého“7 (MC1, v tvarosloví, pˇrestože je u nich urˇcován smˇer, nereprezentují žádný dˇej, ale pouze stav, urˇcitý typ rozdílu mezi cˇ ástmi dvou rovnocenných tvaru. ˚ 8 Termíny jako „mˇekˇcení“ cˇ i „dloužení“ neznamenají proces, ale pomˇer mezi alternantami poté, co byla jedna z nich zvolena za základní. Z hlediska implementace takového modelu je tedy irelevantní naprostá vˇetšina úvah, které jsem provádˇel v pˇredchozích dvou kapitolách. Vyˇclenˇení nepravidelností do slovníku, sestavování slova ze slovního základu a koncovky vybírané podle jeho vlastností i následná realizace hláskových zmˇen na takto získané struktuˇre jsou z tohoto pohledu nutnˇe pouze technická rˇ ešení. Zajímavé jsou teprve výsledné soubory hotových slovních tvaru˚ se znaˇckami, které (soubory) mohou být interpretovány jako reprezentace souboru˚ textových slov, jimiž jsou realizována jednotlivá abstraktní ˇ s. 253). A dále muže systémová slova (MC2, ˚ být zajímavé, nakolik popis umožnuje ˇ reprodukci mluvnicí postulovaného cˇ lenˇení na tvarotvorný základ a tvarotvorný formant, pˇrípadnˇe kmen a koncovku (rozdíl mezi tˇemito dvˇema cˇ lenˇeními se projeví napˇríklad u tvaru hajn=ý-m). Mnou navrhovaný popis umožnuje ˇ jak reprezentaci slova jako souboru slovních tvaru, ˚ textových slov, tak i obˇe zminovaná ˇ cˇ lenˇení (jak dokládá pˇred chvílí zmínˇený ˇ v poznámce na s. 176. Vzhledem k oje6. Jedna zmínka o hloubkové struktuˇre je v MC1, dinˇelosti ovšem tˇežko soudit, co pˇresnˇe tím autoˇri mysleli v kontextu zbytku mluvnice. 7. Možnost odvození od nˇejakého spoleˇcného základu patrnˇe není ani uvažována. ˇ a MC1 ˇ zmínˇený v poznámce 3 — tˇežko 8. Což muže ˚ vysvˇetlovat nesoulad mezi PMC objektivnˇe urˇcovat smˇer mezi dvˇema „prostˇe koexistujícími“ tvary, zejména pokud takové urˇcení slouží jen jako dále k niˇcemu nepoužitá škatulka, a nikoli napˇríklad k tvrzením typu „je vzniková, a proto/protože je možné X a není možné Y“. Tento pˇrístup lze ilustrovat i dalˇ s. 184) je u vul/vola ším pˇríkladem: podle vˇetšinového principu (MC1, ˚ základní alternanta o, u kráva/krav je to á. Ovšem napˇríklad odvozená slova neobsahují základní alternantu, ale krátkou, tedy volský a kravský a dále tˇreba (dle SYN2005) kraviˇcka, kravka, kravín, kraví, kravina, kravˇenec/kravinec, snad spíše krávin a jistˇe krávovina. Není zˇrejmé, jestli z urˇcení základní alternanty plyne nˇejaká další informace, nebo jestli je to jen škatulkování. I to je duvod, ˚ proˇc se v této práci vyhýbám tˇreba právˇe termínu „alternace“: je v mluvnicích asociován se škatulkami, jejichž smysl mi není jasný, ovšem kdybych mluvil napˇríklad o tom, že prostˇredky svého formátu popisuji alternace, byla by oprávnˇená otázka, jak tedy reprezentuji základní alternanty, pˇrípadnˇe, proˇc jsem na jejich popis rezignoval.
67
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU tvar), ovšem je potˇreba pˇripomenout, že toto není žádné novum, protože totéž umožnoval ˇ už popis navržený v (Osolsobˇe, 1996).9 Aby nedošlo k nedorozumˇení: výše uvedené skuteˇcnosti v žádném pˇrípadˇe nepovažuji za nedostatek navrhovaného formátu, protože implementovat popis reprezentovaný mluvnicemi nebylo mým cílem. Pouze vyjasnuji, ˇ že z pohledu tˇechto mluvnic nepˇrináším nic systémovˇe nového. Je ale potˇreba zduraznit, ˚ že i v pˇrípadˇe, že by šlo jen o slovní tvary a jejich základní segmentaci, nabízím oproti Kláˇre Osolsobˇe popis výraznˇe kompaktnˇejší, a tedy snáze udržovatelný a ménˇe náchylný k nekonzistencím. Ještˇe chci pˇripomenout jednu citaci z (Osolsobˇe, 1996, s. 9–10): „... je nutné pˇredpokládat, že rodilý mluvˇcí má ve své pamˇeti uloženy informace o systému cˇ eské flexe, z nichž pˇri realizaci jednotlivých textových slov pˇri promluvovém aktu vychází. Algoritmus, který je základem programu pro automatickou morfologickou analýzu cˇ eštiny, se v oblasti morfologie snaží tento systém simulovat. Vytváˇrí modely ohýbání slov v pˇrirozeném jazyce.“ Troufám si tvrdit, že i takto definovanému cíli jsem výraznˇe blíž. Není sice pˇríliš známo, co pˇresnˇe mají mluvˇcí v pamˇeti, lze se ale domnívat, že spíš budou mít se slovními základy spojeny informace, jejichž popis umožnuji ˇ v podkapitole 4.7, než že by si ke každému slovnímu základu museli pamatovat informaci o pˇríslušnosti k jednomu ze 43 vzoru˚ pro životná maskulina, které ve své práci navrhuje Klára Osolsobˇe. Pˇrestože jsem se ale v jednotlivých cˇ ástech popisu snažil — a vˇerˇ ím, že úspˇešnˇe — o nˇeco, co jsem nazýval lingvistickou interpretovatelností, z pohledu celku není možné navržený popis oznaˇcit jako formalizaci nˇejaké konkrétní lingvistické teorie, nˇejakého existujícího popisu cˇ eštiny. Duvod ˚ jsem zminoval ˇ už v podkapitole 3.1: vhodný popis není k dispozici.10 9. Ten navíc dokonce z urˇcitého pohledu lépe odpovídá mluvnicím svou vnitˇrní strukturou. Jak jsem zmínil už v podkapitolce 3.12.1, prvky popisu téhož druhu na téže úrovni jsou vždy rovnocenné, at’ už jde o poˇradí intersegmentu˚ ve vzoru, koncovkových množin v intersegmentu, nebo koncovek v koncovkové množinˇe — tuto neuspoˇrádanost lze chápat jako paralelu „prostˇe koexistujících“ tvaru. ˚ Podobnˇe princip, že každá formální odlišnost mezi soubory tvaru˚ musí být popsána samostatným vzorem, v podstatˇe (až na alternace kmene) odpovídá již poznámkou 9 v podkapitolce 4.2.1 zmínˇenému chápání paradigmatu ˇ s. 258), kdy se tato paradigmata „od sebe navzájem jako úplného souboru jeho tvaru˚ (MC2, ˇ s. 282). odlišují podobou koncovky alesponˇ v jednom pádovém tvaru“ (MC2, 10. Zde ještˇe ocituji v tomto kontextu zajímavou poznámku z (Hlaváˇcová, 2009, s. 2): „obˇcas jsme ... použili lingvisty neoblíbené ,technické‘ rˇ ešení“. Docela by mˇe zajímalo, jak vlastnˇe obecnˇe vypadá opak, tedy lingvisty oblíbená rˇ ešení. Nejsem si totiž jistý, jestli ve svých preferencích v této oblasti tvoˇrí lingvisté nˇejakou jednolitou masu, nebo jestli naopak nemuže ˚ nastat situace, že nˇekterými „oblíbené“ rˇ ešení bude pro jiné pˇrijatelné ještˇe huˇ ˚ re než rˇ ešení „technické“, které lze alesponˇ omluvit tím, že jinak to z technických duvod ˚ u˚ nešlo.
68
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU
5.2
Vztah k Internetové jazykové pˇríruˇcce
Jaroslava Hlaváˇcová pˇri zavádˇení kategorie mutace odlišující variantní tvary shodné lemmatem i hodnotami ostatních gramatických kategorií píše: „... stylové pˇríznaky nejsou pˇrijímány celou lingvistickou komunitou jednoznaˇcnˇe. ... Morfologický slovník by mˇel být na subjektivních názorech jednotlivých badatelu˚ nezávislý. Z toho duvodu ˚ bychom se nemˇeli snažit hodnoty morfologických kategorií, tedy ani mutací, nijak hodnotit. ... pˇrirˇ azujeme kategoriím Flektivní mutace a Globální mutace nezávislou sadu hodnot, prostou jakéhokoli hodnocení.“ (Hlaváˇcová, 2009, s. 19) Obecnˇe je takový pˇrístup jistˇe rozumný, pˇresto v jednom konkrétním pˇrípadˇe musím velice nesouhlasit. Po zpˇrístupnˇení slovníkové cˇ ásti Internetové jazykové pˇríruˇcky11 lze totiž pro všechna v ní obsažená slova považovat rozdíl mezi jejich spisovnými a nespisovnými tvary za výslovnˇe stanovený, tedy objektivní. Má to navíc i praktický aspekt: pˇredpokládám, že uživatelé budou (a oprávnˇenˇe) oˇcekávat, že morfologické analyzátory jsou s informacemi poskytovanými IJP v souladu. V této podkapitole tedy nebudu rˇ ešit otázku jestli, ale jak. 5.2.1
Obecnˇe o Internetové jazykové pˇríruˇcce
Internetová jazyková pˇríruˇcka vznikla jako výsledek projektu Jazyková poˇ a Faradna na internetu spoleˇcnˇe rˇ ešeného Ústavem pro jazyk cˇ eský AV CR kultou informatiky MU. Pˇríruˇcka se skládá ze dvou cˇ ástí. Výkladová cˇ ást obsahuje pˇres 150 jednotlivých obecných výkladu˚ pˇrevážnˇe pravopisných a gramatických jevu, ˚ které mohou uživatelum ˚ jazyka pusobit ˚ potíže. Slovníková cˇ ást popisuje pˇres 60 000 hesel, pˇriˇcemž se od ostatních, tištˇených ˇ SSJC, ˇ Pravidel cˇ eského pravopisu atp.) zdroju˚ informací o tvarosloví (SSC, liší zejména uvádˇením všech tvaru˚ jednotlivých slov.12 Kromˇe tˇechto tvaru˚ obsahuje slovníková cˇ ást pro jednotlivá slova i vybrané pravopisné cˇ i tvarotvorné informace, pˇríklady užití a, což ji také odlišuje, cˇ asté vazby na relevantní výklady ve výkladové cˇ ásti. ˇ ji Autoˇri obsahu IJP, tedy pracovníci Oddˇelení jazykové kultury ÚJC, 13 sami za kodifikaˇcní nepovažují. Zárovenˇ ale v odpovˇedi na „dotaz týd11. Je ovšem potˇreba zmínit, že slovníková cˇ ást IJP byla veˇrejnosti zpˇrístupnˇena bud’to až poté, nebo nanejvýš tˇesnˇe pˇred tím, než Jaroslava Hlaváˇcová dokonˇcila svou disertaˇcní práci. Nicménˇe ani obecnˇe není kodifikace v cˇ eském jazykovém prostˇredí nic nového. 12. Pˇresnˇeji, všech podstatných tvaru: ˚ pokud mluvˇcí zásadnˇe nemají problémy s pravidelným tvoˇrením napˇríklad tvaru˚ adjektiv, bylo by zbyteˇcné je v IJP všechny vypisovat. 13. Zdrojem je osobní komunikace, na samotných stránkách IJP toto není nijak zmínˇeno.
69
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU ne“ cˇ . 26/200814 uvádˇejí, že sice striktnˇe vzato lze za kodifikaˇcní považovat jen ty pˇríruˇcky, které jako takové jejich autoˇri sami deklarují, ovšem ve skuteˇcnosti že hraje velkou roli i to, jak je daná pˇríruˇcka vnímána veˇrejností, at’ už laickou, nebo odbornou. Nemám k dispozici žádný relevantní pru˚ zkum, nicménˇe skuteˇcnost je taková, že návštˇevnost IJP se pohybuje mezi 15 až 20 tisíci jednotlivých pˇrístupu˚ za pracovní den, je pravidelnˇe používána napˇríklad redakcemi celostátních deníku˚ 15 a kromˇe nemalé mediální publicity se jí dostalo i nejvyššího resortního ocenˇení Ministerstva školství. Troufám si tedy tvrdit, že pˇrestože IJP pˇresnˇe vzato kodifikaˇcní není, její prestiž je natolik vysoká, že ji není možné pˇri úvahách o datech pro morfologický analyzátor opomenout. 5.2.2
Pˇrípadová studie životných maskulin konˇcících na or
Mým puvodním ˚ zámˇerem tedy bylo zárovenˇ s pˇrevodem dat do nového formátu opravovat veškeré rozdíly puvodních ˚ dat analyzároru ajka oproti informacím obsaženým v IJP.16 Jakmile jsem mˇel data pˇrevedena z puvod˚ ních vzoru˚ na tradiˇcní školní vzory doplnˇené o pˇrípadné odlišnosti (napˇríklad mistr:pán,-i), hledal jsem možnosti generalizací ve smyslu podkapitoly 4.7, tedy jestli konkrétní odchylka od základního vzoru (zde -i) je v dostateˇcnˇe významné korelaci s nˇejakými vlastnostmi slovních základu, ˚ u nichž je uvedena. Pˇri vˇedomí nekonzistencí v datech (viz podkapitolka 2.3.2) jsem samozˇrejmˇe nehledal jen stoprocentnˇe platné generalizace, ale pˇripouštˇel relativnˇe velký šum. Když jsem pak nˇejakou možnou generalizaci našel (napˇríklad Nsg zakonˇcený na konsonant a r implikuje pouze -i v Npl a Vpl), snažil jsem se ji ovˇerˇ it i v datech IJP, a to jednak na konkrétních slovech ze slovníku analyzátoru ajka, které se generalizaci vymykaly, jednak obecnˇe na relevantních slovech ze slovníku IJP. Postupnˇe se ovšem takto ukazovalo, že IJP trpí v principu týmiž neduhy jako data analyzátoru ajka. Pro jednotlivé možné generalizace jsem totiž nacházel výjimky, u kterých nebyl k výjimeˇcnosti žádný zˇretelný du˚ vod, takže se nutnˇe nabízelo podezˇrení, že jde prostˇe jen o nekonzistence. Napˇríklad generalizaci zmínˇené v pˇredchozím odstavci odporovala v IJP 4 slova (z 65 možných): arbitr, lotr, ludr a poštmistr.17 Kromˇe slova lotr ale není zˇrejmé žádné kritérium, které by oduvod ˚ novalo ˇ jejich nepravidelný 14. http://www.ujc.cas.cz/oddeleni/index.php?page=dottyd2008 15. To lze mimo jiné vystopovat ze záznamu˚ o pˇrístupech. 16. Protože jsem realizoval programovou cˇ ást IJP a dosud ji spravuji, mám výhodu pˇrímého pˇrístupu k veškerým datum. ˚ 17. Veškeré údaje o datech IJP, které zde budu uvádˇet, se vztahují k zaˇcátku bˇrezna 2010.
70
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU popis.18 Porovnáváním dat IJP s tvary tvoˇrenými podle systematického popisu pˇredstaveného v pˇredchozích kapitolách jsem našel pˇres 600 nekonzistencí. Nˇekteré jednotlivé z nich jistˇe budou mít nˇejaký duvod, ˚ a chybami tedy nebudou, ale troufám si tvrdit, že z celkového poˇctu 5445 životných maskulin jsem odhalil chybu pˇrinejmenším v jedné desetinˇe.19 Pro lepší pˇredstavu o povaze problému nabízím dvˇe tabulky srovnávaˇ i IJP pro nˇe obecnˇe stanovují koncovku -i.20 jící slova zakonˇcená na or. MC2 ˇ ajka, SSC ˇ V tabulce 5.1 jsou slova, kterým alesponˇ jeden ze zdroju˚ SSJC, a IJP pˇrisuzuje v Npl a Vpl -i i -ové, pˇriˇcemž - znamená, že zdroj slovo nepopisuje, a 0 znamená, že se k Npl nevyjadˇruje (muže ˚ nastat jen u slovníku). ˚ Další sloupeˇcky jsou po rˇ adˇe poˇcet výskytu˚ tvaru s -i v korpusu SYN2005 (Ki), poˇcet výskytu˚ tvary s -ové tamtéž (Ko), poˇcet dokladu˚ tvaru s -i nalezených vyhledávaˇcem Google (Gi) a koneˇcnˇe poˇcet takto nalezených tvaru˚ s -ové (Go).21 V tabulce 5.2 jsou potom pro srovnání tytéž údaje pro nˇekterá ze slov, která mají podle všech cˇ tyˇr zdroju˚ v Npl a Vpl jen -i. Srovnání posledních dvou sloupcu˚ obou tabulek ukazuje, že na základˇe tˇechto dat není možné stanovit žádné (rozumné) kritérium, které by umožnovalo ˇ rˇ íct, že napˇríklad senior cˇ i primátor mají mít v Npl a Vpl i -ové, zatímco tˇreba junior nebo prokurátor mohou mít pouze -i. ˇ i SSJC ˇ a tvar lotrové je skuteˇcnˇe 18. Pro slovo lotr jsou koncovky -i i -ové zmínˇeny v SSC bˇežný i v úzu. Ostatní tvary ve slovnících oporu nemají, pˇriˇcemž tvar Npl ludrové nelze doložit ani vyhledávaˇrem Google. Npl arbitrové sice najít lze, ale napˇríklad tvar kmotrové je relativnˇe cˇ astˇejší (toto se projevuje i v SYN2005). Stejnˇe tak lze najít, byt’ rˇ ídce poštmistrové, ale opˇet napˇríklad mistrové se zdají být relativnˇe cˇ astˇejší. Pokud by tedy byla mˇerˇ ítkem frekvence v úzu, mˇela by IJP pˇripouštˇet i tvary kmotrové a mistrové. 19. Vˇetšina nesrovnalostí je ve tvarech pádu, ˚ které by mˇely být shodné, napˇríklad Npl a Vpl, protože takové nekonzistence se hledají výraznˇe snadnˇeji než slova typu poštmistr. Na druhou stranu to jistˇe není koneˇcný poˇcet, je to jen to, na co jsem zatím narazil, nemá totiž smysl srovnávat všechna slova, dokud tyto vˇeci nebudou opraveny. Pro bližší pˇredstavu pˇrikládám v elektronické podobˇe e-maily (viz pˇríloha B), jimiž jsem nesrovnalosti reportoval. Od té doby už byly mnohé opraveny (takže tˇreba zminovaný ˇ poštmistr má v Npl a Vpl už jen -i), ale protože editoˇri dat mají hesla rozdˇelena podle poˇcáteˇcních, a nikoli koncových písmen a protože opravy stále probíhají, nelze pˇríliš usuzovat z toho, že z nekonzistencí téhož druhu byly opraveny jen nˇekteré (napˇr. arbitr stále pˇripouští i -ové). ˇ s. 295; IJP, výklad „Sklonování 20. MC2, ˇ mužských živ. jmen – 1. p. mn. cˇ .“, odstavec 2.1.5 (http://prirucka.ujc.cas.cz/?id=226#nadpis8). 21. Je zˇrejmé, že stomilionový SYN2005 na taková hledání nestaˇcí. V SYN2006pub jsem našel pro tvary s -i celkem jen o sedm dokladu˚ více, což je také málo. Zásadní nevýhoda použití Google ovšem je, že výsledky nejsou spolehlivˇe reprodukovatelné, vícekrát se mi stalo, že na tentýž dotaz jsem po cˇ ase dostal odlišný výsledek. Pˇresto uvedu, jak jsem postupoval: tvary jsem vyhledával v uvozovkách a „jen cˇ esky“. Po vyhledání jsem obecnˇe klikal na poslední „o“, protože Google nezˇrídka odhad poˇctu výskytu˚ nadsazuje. Tvary s -ové jsem se snažil projít a zkontrolovat (kromˇe ovšem profesorové z tabulky 5.2, kde bylo nálezu˚ pˇríliš mnoho, cˇ ást z udávaného poˇctu tedy tvoˇrí tvary slova profesorová).
71
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU
alfabetizátor amor censor cenzor defensor defenzor imperátor inaugurátor kapeador konsenior konspirátor mumifikátor mystifikátor nestor pastor pišišvor polyhistor primátor rechtor rektor rétor senior senor ˇ subrektor tambor toreador vivisektor
ˇ SSJC 0 i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové 0 i/ové ové/i -
ajka i i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i i i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové i/ové
ˇ SSC 0 0 i/ové i/ové i/ové i/ové i/ové 0 i/ové 0 0 -
IJP i/ové i/ové i/ové i/ové i/ové i/ové i/ové i i i/ové i/ové i/ové i i/ové i/ové i/ové i/ové i/ové i/ové i/ové -
Ki 0 0 0 37 0 0 1 0 0 0 3 2 3 0 29 0 0 23 0 22 4 109 1 0 1 11 0
Ko 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 0 0 0 0 0 0 0 0 0 0
Gi 0 59 1080 38200 34 24 2510 0 0 8 7180 80 1870 4170 10300 1330 40 37100 13 38700 1500 376000 37 0 1410 1170 66
Go 0 40 16 18 15 3 4 0 0 2 0 0 0 19 45 32 26 53 0 17 33 53 26 0 0 4 0
Tabulka 5.1: Slova zakonˇcená na or pˇripouštˇející dle nˇekterého zdroje -ové
72
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU
exekutor diktátor junior prétor orátor profesor redaktor mentor synátor prokurátor efor senátor
Ki 54 53 110 0 1 428 329 3 0 42 0 504
Ko 0 0 0 0 0 0 0 0 0 0 0 0
Gi 52000 72500 286000 67 44 132000 180000 22700 2880 26300 76 152000
Go 14 20 21 5 8 2010 67 44 41 17 67 39
Tabulka 5.2: Slova zakonˇcená na or pˇripouštˇející jen -i Tyto výjimky samozˇrejmˇe nepˇredstavují technický problém ve smyslu možnosti zachytit výjimeˇcnosti jednotlivých slov ve slovníku. To mnou navrhovaný formát bez potíží umožnuje. ˇ Ovšem tyto dvˇe skupiny slov (-Cr a -or) jsou jen dvˇema pˇríklady z mnoha. Kdybych tedy skuteˇcnˇe „slepˇe “ upravil tvary v datech analyzátoru podle tvaru˚ v IJP, vnesl bych do dat velké množství nepravidelností (o pár odstavcu˚ dˇríve zmínˇených 10 % v tomto kontextu není málo), které by z dlouhodobého pohledu komplikovaly jejich údržbu. Ale i pokud si tˇechto nekonzistencí všimnu22 , nemám cˇ asto k dispozici žádný zpusob, ˚ jak poznat, jestli jde v konkrétním pˇrípadˇe o chybu23 , nebo dané informace v IJP skuteˇcnˇe popisují nˇejakou realitu. Považoval bych tedy za obecnˇe užiteˇcné, kdyby i referenˇcní zdroj informací o tvarosloví, jako je IJP, vycházel ze systematického popisu orga22. A zde je potˇreba zduraznit, ˚ že to je umožnˇeno právˇe porovnáváním dat se systematickým popisem, kdybych takto chtˇel s IJP sladit data analyzátoru ajka v puvodní ˚ podobˇe, mohl bych si toho všimnout jen náhodou. Pro nˇekterá slova bych sice musel vytvoˇrit nové vzory, to by ale nebyl žádný duvod ˚ k nˇejaké zvýšené ostražitosti, množina vzoru˚ se muže ˚ mˇenit dle potˇreby (viz tˇreba i konec podkapitolky 2.3.1). A stejnˇe tak bych nemˇel žádný duvod ˚ zkoumat pˇrípadné pˇresuny mezi vzory cˇ i „obsazenost“ novˇe pˇridaných vzoru˚ atp., protože všechny vzory jsou v principu rovnocenné, není duvod ˚ k nˇejakým apriorním pˇredpokladum ˚ o pˇríslušnosti slova ke vzoru, jejichž nenaplnˇení by mohlo být hodno pozoru. Takové opravy dat analyzátoru ajka podle dat IJP by tedy mohly probˇehnout zcela automaticky a nebyl by duvod ˚ kontrolovat výsledek po obsahové stránce (nemluvím pochopitelnˇe o kontrole, jestli skuteˇcnˇe správnˇe probˇehlo samotné zamýšlené sladˇení dat). 23. Z pohledu dat pro morfologický analyzátor je samozˇrejmˇe rozdíl jen v hodnocení: chci rozpoznávat jak tvary s -i, tak tvary s -ové, jen u tˇech druhých budu mít u slov zakonˇcených v Nsg na Cr cˇ i or navíc informaci, že jsou nˇejakým zpusobem ˚ nestandardní.
73
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU nizovaného zpusobem, ˚ jaký navrhuji pro popis dat morfologického analyzátoru. A kdyby kromˇe urˇcení základního, implicitního sklonování ˇ pro ruzné ˚ hláskové podoby koncu˚ slovních základu, ˚ pˇrípadnˇe navíc v kombinaci s relevantními sémantickými kategoriemi, byla zárovenˇ stanovena pokud možno mˇerˇ itelná kritéria, která musejí splnovat ˇ výjimky z takového základního sklonování. ˇ Nebo kdyby alesponˇ byla každá taková výjimka v popisu hesla (slova) oduvodnˇ ˚ ena.24 Takový pˇrístup by mˇel nˇekolik výhod. Velké množství nekonzistencí, nebo i jen pˇreklepu˚ by pomohl eliminovat samotný systematický popis dat, který by napˇríklad neumožnil tvar alfabetizátorové, pˇriˇcemž bez jakýchkoli dokladu˚ by jej do dat editor jistˇe nedoplnoval. ˇ Pokud by navíc uvedená kritéria výjimeˇcnosti a obecnˇe postupy pro tvorbu tˇechto dat byly zveˇrejnˇeny tˇreba v odborném tisku, byla by snáze ovˇerˇ itelná korektnost, správnost dat i v situacích, kdy napˇríklad doklady výjimeˇcného tvaru existují, ale editor muže ˚ udˇelat chybu v jejich vyhledání cˇ i hodnocení. Zárovenˇ by toto bylo užiteˇcné i z dlouhodobého pohledu (protože na rozdíl od nemˇenitelných tištˇených slovníku˚ musí IJP odrážet vývoj jazyka), protože by to poskytovalo objektivní kritéria, kdy nˇejaký posun úzu reflektovat v datech IJP. Svým zpusobem ˚ by se jednalo o formalizaci pˇríslušných cˇ lánku˚ o tvarosloví ve výkladové cˇ ásti. K takové formalizaci ale stejnˇe musí dˇrív nebo pozdˇeji dojít, protože výhledovˇe by mˇel poˇcítaˇc umˇet nejen zprostˇredkovávat informace z výkladové cˇ ásti IJP uživateli, jako je tomu už ted’, ale mˇel by se podle tˇechto informací a pravidel umˇet pˇri zpracování textu i sám rˇ ídit. A kromˇe toho, že by taková formalizace mohla být zajímavá i zcela obecnˇe, z lingvistického pohledu, lze pˇredpokládat její užiteˇcnost i konkrétnˇe pˇrímo pro uživatele IJP. Umožnila by totiž mít ve výkladech pro každé jednotlivé „pravidlo“ (ne ted’ v doslovném smyslu, snad spíš pravidelnost) vazbu na slova, která se podle nˇej chovají, a zejména pak i na slova, která je porušují, což by byla komplexnˇejší informace než stávající vybrané pˇríklady. 24. Z osobního kontaktu vím, že editoˇri dat mají rozsáhlý soubor zásad, jak zpracovávat hesla. Pˇrestože neznám detaily, pˇredpokládám, že je ve výsledku podobný systematickému popisu, o kterém mluvím. Zásadní rozdíl je ovšem v tom, že tyto zásady musejí aplikovat lidé, jednotliví editoˇri, kdyby ale ta jejich cˇ ást, která popisuje tvarosloví, byla formalizována, mohl by je vyhodnocovat poˇcítaˇc. Je zˇrejmé, že konzistentnˇe zpracovat pˇres 60 000 hesel, navíc v mnoha lidech a podle nˇejakého rozsáhlejšího „manuálu“, je úkol vpravdˇe nadlidský. Tato podkapitolka tedy rozhodnˇe není myšlena jako kritika autoru˚ IJP (nemluvˇe o tom, že bych tím do jisté míry kritizoval i sám sebe). Naopak jsem pˇresvˇedˇcen, že taková nekonzistence je nutným a nevyhnutelným dusledkem ˚ „mnohosti“: stejnˇe tak byla nekonzistentní data analyzátoru ajka (viz podkapitolka 2.3.2) a stejnˇe tak lze snadno nacházet nekonzistenˇ a to nejen formální, ale právˇe i obsahové. Mám ale za to, že tato mnohost ce i tˇreba v SSJC, by mohla být spoutána a ujaˇrmena vhodnou formalizací.
74
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU
5.3
Srovnání s aktuální podobou pražského formátu
Nejnovˇejším rozsáhlým pˇríspˇevkem k poˇcítaˇcovému zpracování morfologie cˇ eštiny je už vícekrát odkazovaná disertaˇcní práce Jaroslavy Hlaváˇcové (2009). Zmˇeny touto prací navrhované budu považovat za aktuální stav pražského systému, byt’ fakticky zˇrejmˇe ještˇe není vše plnˇe realizováno.25 Nejprve chci znovu na jednom místˇe pˇripomenout tˇri už dˇríve zminovaˇ né principy, které mnou navrhovaný formát sdílí s jejím systémem vzoru. ˚ Jde konkrétnˇe o parametrizovatelnost tradiˇcních vzoru˚ (více viz konec podkapitoly 3.10), vyˇclenˇení nemˇenných, „globálních“ kategorií mimo vzor (viz podkapitola 4.3) a v souvislosti s tím i možnost parametrizovat vzor hodnotou takové globální kategorie (viz podkapitolka 4.4.1). Ve všech tˇrech pˇrípadech jsem pˇresvˇedˇcen, že moje rˇ ešení je výraznˇe obecnˇejší, a tím zárovenˇ i systémovˇe „ˇcistší“. Program vyhodnocující data o nich totiž nepotˇrebuje žádnou speciální informaci, jako to nutnˇe je v systému Jaroslavy Hlaváˇcové, v mnou navrhovaném popisu je vše pˇrímo v datech. Také v mém formátu nejde jen o technická zjednodušení, ale vždy mám k zavedení tˇechto jednotlivých prvku˚ nezávislou motivaci: jednak stanovení základního sklonování ˇ a odlišnosti od nˇej v prvním pˇrípadˇe, jednak ztotožnˇení shodných koncovek v druhých dvou pˇrípadech. I pˇresto, že moje rˇ ešení vzniklo zcela nezávisle, faktem zustává, ˚ že prvenství v aplikaci tˇechto myšlenek patˇrí jí — pˇritom je potˇreba zduraznit, ˚ že zejména ta první umožnuje ˇ zjednodušit systém vzoru˚ naprosto zásadním zpusobem. ˚ V práci Jaroslavy Hlaváˇcové je pochopitelnˇe mnohem více nových myšlenek než jen popsané tˇri. Nˇekteré z nich rozeberu v dalších cˇ ástech této podkapitoly, dvˇe další zmíním hned ted’. Autorka v práci vˇenuje nemalou pozornost „složeninám“, cˇ ímž oznacˇ uje slova typu zaˇc, rˇíkals atp. Ve svém návrhu taková slova žádným zpuso˚ bem neˇreším a ani v budoucnu to nemám v úmyslu. Mám za to, že pˇrestože jde formálnˇe o souvislé rˇ etˇezce a pˇrestože tato slova mohou být homonymní s ne-složeninami, mˇela by být zpracovávána na jiné úrovni, tˇrebaže jistˇe za asistence morfologické analýzy. Opaˇcným pˇrípadem jsou úpravy systému znaˇcek, tedy zmˇeny popisovaných gramatických kategorií cˇ i jejich hodnot, napˇríklad zavedení kategorie duál cˇ i nová hodnota kategorie stupenˇ pro slova typu sebekrásnˇejší. Do systému znaˇcek jsem zatím nezasahoval, ale na rozdíl od složenin poˇcítám v tomto smˇeru s postupným sbližováním pražského a brnˇenského systému. 25. Analyzátor Morfo (http://ufal.mff.cuni.cz/morfo/) v poslední verzi ze 6. 5. 2010 vrací znaˇcky ve starém formátu (Hajiˇc, 2004), tedy napˇríklad bez mutací.
75
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU 5.3.1
Slovotvorba
V puvodním ˚ brnˇenském systému (Osolsobˇe, 1996) byly vybrané derivaˇcní vztahy (napˇríklad posesiva) souˇcástí flektivních vzoru. ˚ Principiálnˇe stejné rˇ ešení je zvoleno i v novém pražském systému vzoru˚ (Hlaváˇcová, 2009). Je nasnadˇe, že by bylo škoda využívat pˇrípon zavedených v podkapitole 4.6 jen jako signalizace urˇcitého zpusobu ˚ sklonování, ˇ obecnˇe je potˇreba jimi slova skuteˇcnˇe tvoˇrit. I v mnou navrhovaném formátu je pravidelná slovotvorba v podstatˇe souˇcástí vzoru. ˚ Vhodné prostˇredky mám pˇripravené ve skriptu, který vyhodnocuje data, tˇrebaže je zatím nevyužívám v popisu jazykových dat, protože detailnˇe mám v tuto chvíli zpracovaná jen životná maskulina. Konkrétní slovotvorný vztah lze v navrhovaném formátu popsat zaˇrazením pˇrípony do seznamu vzoru. ˚ Pˇri vyhodnocování seznamu vzoru˚ se pˇrípona vyhodnotí tak, že se pˇripojí ke slovnímu základu a toto spojení bude vzato jako nový slovní základ pro tvorbu tvaru˚ podle seznamu vzoru˚ uvedeného v definici (popisu) pˇrípony v souboru vzoru, ˚ pˇriˇcemž se nebude brát v úvahu znaˇcka slovního základu.26 Takto vytváˇrené tvary budou oddˇelené od tvaru˚ puvodního ˚ slovního základu, takže nedojde ke kolizi (napˇríklad pˇrepsání) ani pˇri pˇrípadných stejných znaˇckách. Kdybychom tedy napˇríklad mˇeli vzory pán a muž odvozené od nˇejakého spoleˇcného vzoru, rˇ eknˇeme k1gM (jméno, nikoli znaˇcka), který bychom zárovenˇ uvádˇeli i v seznamech vzoru˚ realizujících sklonování ˇ podle tradiˇcních vzoru˚ pˇredseda (viz podkapitolka 4.7.4) a soudce, staˇcilo by do seznamu vzoru˚ tohoto vzoru k1gM pˇridat =%ov. Za pˇredpokladu správného popisu posesivního sufixu =%ov v souboru vzoru˚ 27 bychom touto jedinou zmˇenou popsali posesiva od všech slov ve slovníku, která jsou mluvnicemi rˇ azena k tradiˇcním cˇ tyˇrem vzorum ˚ životných maskulin, pˇriˇcemž bychom zárovenˇ mohli mít vždy k dispozici i vazbu mezi jménem a pˇríslušným posesivem. Pochopitelnˇe i pˇrípona muže ˚ mít ve svém seznamu vzoru˚ pˇríponu, takže je možné tímto zpusobem ˚ odvozovat celé trsy slov vˇcetnˇe všech tvaru. ˚ 28 26. To mimo jiné znamená, že hajn=ý k1gM není totéž co hajn:=ý k1gM, protože v prvním pˇrípadˇe je znaˇcka pˇrisuzována celému hajn=ý, zatímco v druhém platí jen pro hajn a pˇripojením pˇrípony platit pˇrestane, takže se vytvoˇrí tvary (neexistujícího) adjektiva *hajný. 27. A ovšem za pˇredpokladu, že pravidla pro hláskové zmˇeny fungují nejen pˇres -, ale i pˇres =, což se takto samozˇrejmˇe vyhodnocuje, jen zatím nebyl duvod ˚ to zminovat. ˇ 28. Pˇrístup vedoucí k takové hierarchii odvozených slov nabízí i popis derivaˇcních vztahu˚ v (Osolsobˇe a kol., 2002) a (Pala a kol., 2003). Stromy vztahu˚ v cˇ láncích ale ukazují, že sufixy jsou brány cˇ istˇe formálnˇe, bez snahy respektovat mluvnicemi pˇredpokládané hranice. Za pozornost v této souvislosti stojí i derivaˇcní vzory skupin (tˇríd) deverbativních adjektiv popsané v (Spoustová, 2007).
76
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU U nˇekterých pˇrípon muže ˚ být potˇreba umˇet vyjádˇrit, že pˇrípona neruší znaˇcku slovního základu. Napˇríklad deminutivní sufix =.ek zachovává rod i životnost, takže pokud by sufix rušil znaˇcku vždy, museli bychom mít tentýž sufix pro každou kombinaci rodu a životnosti zvlášt’. Zavádím proto speciální znaˇcku (ˇcást znaˇcky) qT, kterou lze vyjádˇrit, že znaˇcka slovního základu má být pˇri derivaci danou pˇríponou zachována.29 Navržené (a implementované, byt’ zatím nevyužité) prostˇredky mohou být bez dalšího použity k popisu pravidelných derivací. Skuteˇcnost bude cˇ asto komplikovanˇejší. Lze napˇríklad oˇcekávat potˇrebu vyjádˇrit, že ruzné ˚ pˇrípony slouží pro vyjádˇrení téhož derivaˇcního vztahu, kdy bude navíc žádoucí mít derivací vzniklou vazbu mezi slovy reprezentovanou nˇejakou vhodnou nálepkou. Bude pak vhodné chovat se k takové nálepce podobnˇe jako ke znaˇcce, tedy urˇcit nˇejakou základní podobu a umožnit popsat výjimky, nepravidelnosti. Tak napˇríklad pro názvy vlastností bude základní odvozovací pˇríponou =ost, ale u nˇekterých slovních základu˚ bude pro tento derivaˇcní vztah uvedena pˇrípona =ota cˇ i =oba, pˇrípadnˇe zcela nepravidelný tvar jako tˇreba dél.eka.30 I v tomto pˇrípadˇe budou symboly + a < užiteˇcné pro vyznaˇcení, že pravidelný tvar je pˇrijatelný (napˇr. hluchost) nebo jen substandardní (napˇr. dobrost). Uspokojivý popis zatím nemám pro homonymní pˇrípony, napˇríklad =í ve staven=í a hověz=í k1gN, resp. jarn=í. Technicky by samozˇrejmˇe nebyl problém je napˇríklad cˇ íslovat a tato cˇ ísla pak ve vhodnou chvíli odstranovat, ˇ ale to by jednak nevypadalo moc hezky a jednak by si editor dat musel pamatovat ta cˇ ísla, takže ještˇe hledám nˇejaké elegantnˇejší rˇ ešení (napˇríklad vhodné rozdˇelení dat na více cˇ ástí). 5.3.2
Lemmatizace
Hned pátá vˇeta práce Jaroslavy Hlaváˇcové rˇ íká, že „jednou ze základních vlastností každého slova je jeho základní tvar, neboli lemma, a slovní druh“ (cit. d., s. 1). Kapitola o lemmatizaci pak zaˇcíná tvrzením, že „základní jednotkou morfologického slovníku je lemma, které zastupuje celé paradigma slovních tvaru“ ˚ (cit. d., s. 7). V mnou navrhovaném formátu lemma naopak žádnou úlohu nehraje, protože nepˇredpokládám, že by odpovídalo nˇejaké „realitˇe “.31 Chápu 29. Jde o jednu z mála situací, kde vyhodnocující program musí vˇedˇet, co znaˇcka znamená. 30. Koncové a pochopitelnˇe není souˇcástí slovního základu, ale jak pˇrípony, tak nepravidelné tvary by mˇely znaˇcku k1gF, takže odstranˇení a by mohlo zaˇrídit vhodné implicitní pravidlo ze „vzoru“ $k1gF, viz rˇ ešení slov typu pˇredseda v podkapitolce 4.7.4. 31. Kdybychom napˇríklad skuteˇcnˇe chtˇeli popis vnímat jako snahu o aproximaci systému
77
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU lemma jen jako v podstatˇe arbitrárnˇe zvolený reprezentativní tvar slova, resp. urˇcitého souboru slovních tvaru. ˚ Lemmata tedy nejsou žádným zpu˚ sobem souˇcástí popisu dat, ale vybírám je vždy až teprve z hotové množiny slovních tvaru˚ urˇcitého slova. K tomuto pˇrístupu mˇe vede i skuteˇcnost, že uživatelé nejsou jednotní v názoru, jak by mˇela lemmatizace fungovat. Napˇríklad pro indexaci dat za úˇcelem vyhledávání (tˇreba Seznam.cz) nebo pro syntaktickou analýzu jsou požadována ruzná ˚ lemmata pro jednotlivé stupnˇe adjektiv a pˇríslovcí, pˇrípadnˇe navíc i ruzná ˚ lemmata pro pozitivní a negativní tvary. Konkrétnˇe postupuji tak, že vytváˇrené slovní tvary pro jednotlivé derivaˇcní pˇrípony (viz pˇredchozí podkapitolka) a pro puvodní ˚ slovní základ uchovávám navzájem oddˇelenˇe. Jakmile jsou všechny tvary hotové, pro každou z tˇechto „hromádek“ vyberu podle urˇcitého poˇradí znaˇcek32 první vyhovující tvar.33 Protože druhý stupenˇ je typicky realizován pˇríponou, dostal bych takto pro tvary obou stupnˇ u˚ ruzná ˚ lemmata. Pokud chci zárovenˇ umˇet vyjádˇrit, že lemma je na hodnotˇe kategorie stupenˇ nezávislé, potˇrebuji další pomocnou znaˇcku. Tedy znaˇckou qL u urˇcité pˇrípony dávám skriptu zpracovávajícímu data na vˇedomí, že tvary odvozené touto pˇríponou nemá dávat na novou „hromádku“. Takže pokud chci zmˇenit lemmatizaci stupnovaných ˇ tvaru, ˚ staˇcí mi pˇridat nebo ubrat tuto znaˇcku.34 Držím se tedy tradice brnˇenského systému, kdy lemma je jeden z tvaru. ˚ To dovoluje mít stejné lemma pro ruzná ˚ slova (tˇreba životný a neživotný jeˇráb), kdyby to nebylo žádoucí, mohl bych v takových pˇrípadech mít lemma napˇríklad ve znaˇcce slovního tvaru nebo za ní. Vícenásobná lemmata (cit. d., s. 7) pro pravopisné varianty by bylo možné v mém formátu realizovat tak, že bych z nich udˇelal variantní slovní základy
diskuse
k1gF +diskuze k1gF
a jako lemma pak bral oba (obecnˇe všechny) Nsg tvary (jako je to ostatnˇe implementované ted’, viz poznámka 33). reálnˇe existujícího v hlavách mluvˇcích, viz citace (Osolsobˇe, 1996) ke konci podkapitoly 5.1, mˇelo by v nˇem být pˇrítomno jen (právˇe) to, co pˇredpokládáme i v tˇech hlavách. 32. Nsg bez wH, Nsg s wH (nespisovné slovní základy), Npl bez wH (pluralia tantum), ... 33. Nebo (aktuálnˇe) tvary v pˇrípadˇe dublety. Nebyl by samozˇrejmˇe problém urˇcit pravidla, kterým tvarum ˚ má být dávána pˇrednost, kdyby mˇelo být lemma v rámci tvaru˚ jednoho slova vybráno jednoznaˇcnˇe. V pˇrípadˇe životných maskulin toto nenastává, detailnˇeji to budu rˇ ešit, až budu zpracovávat data, která to budou vyžadovat (napˇríklad slovesa). 34. Protože pˇredpony nej- a ne- je zˇrejmˇe nejsnazší zpracovávat pˇrímo ve vyhodnocujícím skriptu, musel bych ještˇe vhodnˇe upravit pˇríslušnou cˇ ást kódu.
78
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU Tedy souhrnem: pro mnou navrhovaný formát nehrají lemmata žádnou roli. Naopak jsem ale pˇresvˇedˇcen, že formát umožnuje ˇ naplnit veškeré rozumnˇe oˇcekávatelné pˇredstavy uživatelu˚ o konkrétní podobˇe lemmatizace. 5.3.3
Zlaté pravidlo morfologie
Jedním z hlavních témat diskutované práce, ne-li tématem vubec ˚ ústˇredním, je „Zlaté pravidlo morfologie“, které rˇ íká, že „každý slovní tvar by mˇel být v systému popsán jednoznaˇcnˇe “.35 Jako motivace pro zavedení takového pravidla jsou uvádˇeny automatické aplikace využívající generování slovních tvaru. ˚ Pˇríkladem „je tˇreba strojový pˇreklad do cˇ eštiny, který v urcˇ ité fázi musí vybírat v cílovém jazyce správný slovní tvar. Jestliže lemma i morfologická znaˇcka jsou pro dva tvary stejné, zodpovˇedný výbˇer je prakticky nemožný“ (cit. d., s. 6). Aby bylo pravidlo naplnˇeno, je potˇreba tvary shodné lemmatem i znaˇckou rozlišit nˇejakou další hodnotou, v práci nazvanou mutace (cit. d., s. 15 a dále). Jsou rozlišeny mutace globální, které se projevují ve všech tvarech paradigmatu, a to navíc stejným zpusobem ˚ (cit. d., s. 35 a dále), a mutace flektivní, které se týkají jen nˇekterých tvaru˚ (cit. d., s. 47 a dále). Ve svém popisu dat mutace nerozlišuji, protože tento pˇrístup nemá v brnˇenském systému tradici a ani uživatelé zatím nic takového nepožadují.36 35. Pˇrebírám formulaci ze Shrnutí (cit. d., s. iv), protože dále je ZPM vyjádˇreno jen schematicky „lemma + morfologická znaˇcka + mutace = jednoznaˇcný slovní tvar“ (cit. d., s. 6). 36. Duvodem ˚ proti pˇrejetí navrhovaného popisu mutací je ale i pochybnost, nakolik odpovídá potˇrebám, jimiž bylo zavedení Zlatého pravidla morfologie, a tedy i kategorie mutace motivováno. Jak i sama autorka podotýká (cit. d., s. 18), pravidlo jako takové je totiž naplnˇeno napˇríklad i jakýmkoli oˇcíslováním variantních tvaru. ˚ Takové hodnoty by ovšem uvažovaným automatickým aplikacím ten bez rozlišování mutací nemožný „zodpovˇedný výbˇer“ jistˇe nijak neusnadnily. Je tedy zˇrejmé, že je nezbytné rozlišovat mezi možnými zpusoby ˚ naplnˇení Zlatého pravidla morfologie, protože ne každý nutnˇe odpovídá reálným potˇrebám. Toto ovšem v práci není nijak rˇ ešeno, duraz ˚ je kladen pouze na dodržení pravidla za všech situací (nˇekdy i výslovnˇe: „Na konkrétní hodnotˇe nezáleží, podstatné je mutace pouze odlišit“, cit. d., s. 108), jako kdyby to bylo postaˇcující samo o sobˇe. Je jistˇe správné, jsou-li hodnoty mutací nezávislé na „subjektivních názorech jednotlivých badatelu“ ˚ (cit. d., s. 19), je ale otázka, jestli je rozumná i nezávislost na objektivních požadavcích aplikací. Výsledkem takto vyhranˇenˇe formalistického pˇrístupu je totiž popis, jehož praktické využití není pˇríliš jasné. V tabulce 3.1 (cit. d., s. 19) je jako pˇríklad uvedena dvojice hodnot t a m, které mají kódovat variantu s tvrdou, resp. mˇekkou hláskou. Pˇríkladem jsou tvary student a mazám pro hodnotu t a študent a mažu pro m. Je pro mˇe obtížnˇe pˇredstavitelná aplikace, která by vyžadovala právˇe takové dˇelení, tedy použití bud’to prvních dvou tvaru˚ (napˇríklad by generovala jen tvary s mutací t), nebo naopak druhých dvou (odpovídajících mutaci m). Naopak oˇcekávám, že typickým požadavkem tˇreba pˇri zminovaném ˇ strojovém pˇrekladu bude generování stylovˇe neutrálních, nepˇríznakových tvaru, ˚ tedy student a mažu, to ovšem navržené hodnoty mutace neumožnují. ˇ Pˇresnˇe stejný problém je s hodnotami d a k kódujícími
79
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU Protože ale pro pražský systém jde zˇretelnˇe o vˇec zásadního významu, rozeberu zde, jakým zpusobem ˚ lze mutace popsat v navrhovaném formátu. Je ovšem nutno pˇripomenout, že pro naplnˇení Zlatého pravidla morfologie by v brnˇenském systému nestaˇcilo samotné doplnˇení mutací, ale musela by také být zjednoznaˇcnˇena lemmata, protože ta aktuálnˇe jednoznaˇcná nejsou (viz pˇredchozí podkapitolka). Globální mutace by bylo možné prostˇe37 vyznaˇcit do slovníku doplnˇením vhodných pˇríznaku˚ do znaˇcek jednotlivých variantních slovních základu, ˚ takže tˇreba pˇred chvílí zmínˇené diskuse a diskuze by se lišily právˇe takovým pˇríznakem, který by byl zachován ve všech vytvoˇrených tvarech.38 Flektivní mutace by bylo potˇreba uvádˇet v souboru vzoru˚ u jednotlivých koncovek, pˇriˇcemž po vytvoˇrení všech slovních tvaru˚ urˇcitého slova39 by se odpovídající pˇríznaky ponechaly jen u dublet a odstranily ze znaˇcek ostatních tvaru. ˚ Takže tˇreba kvuli ˚ existenci slov jako grizzly, které v plurálu umožnují ˇ jak koncovky vzoru pán, tak koncovky vzoru adj (viz podkapitolka 4.6.1), by bylo potˇreba stanovit hodnotu cˇ i obecnˇe hodnoty flektivní mutace u pˇríslušných koncovek obou tˇechto vzoru, ˚ pˇrestože by pak pro vˇetšinu slov byly po vytvoˇrení všech tvaru˚ tyto hodnoty zase odstranˇeny, protože by nic nerozlišovaly. varianty s dlouhou, resp. krátkou samohláskou (v téže tabulce): hodnota d spojuje tvary musím a zavˇríno, hodnota k tvary musim a zavˇreno. Nicménˇe i kdyby takový formální popis mutací byl pro nˇejaký úˇcel pˇrecejen žádoucí, bylo by možná vhodnˇejší nemít hodnoty explicitnˇe v datech, a tedy nezvyšovat tak zbyteˇcnˇe redundanci popisu, ale poˇcítat je (na požádání) až teprve pˇri samotné analýze cˇ i generování. Tˇretí pˇríklad mutace ve výše zmínˇené tabulce, který kóduje delší cˇ i kratší variantu podle poˇctu písmen, k takovému rˇ ešení pˇrímo vybízí, bylo by to ale možné udˇelat i obecnˇe. 37. Ve smyslu technicky jednoduše, bylo by to pochopitelnˇe velké množství práce. 38. Bylo by ještˇe potˇreba, aby se pˇríznaky tohoto druhu zachovávaly i pˇri derivacích pˇríponami, kdy je znaˇcka obecnˇe zahazována (viz podkapitolka 5.3.1), aby pˇríznak zustal ˚ tˇreba i odvozeným slovním základum ˚ diskus=n=í a diskuz=n=í. Ve skuteˇcnosti mám toto dokonce už i implementováno a zachovává se takto pˇríznak wH, protože napˇríklad tˇežko oˇcekávat spisovnou odvozeninu od nespisovného slovního základu. 39. V pˇredchozích dvou kapitolách jsem za tvary jednoho slova oznaˇcoval tvary získané z jednoho slovního základu, tedy jednoho rˇ ádku ve slovníku, pˇrípadnˇe od podkapitoly 3.12 z více variantních slovních základu, ˚ a tedy více rˇ ádku˚ ve slovníku, jejichž sounáležitost byla vyjádˇrena odsazením. Pˇridáním slovotvorby (viz podkapitolka 5.3.1) se tato množina slovních tvaru˚ vytvoˇrených z jednoho cˇ i více sdružených rˇ ádku˚ naopak muže ˚ rozdˇelit na nˇekolik, odpovídajících ruzným ˚ „slovum“, ˚ kdy navíc toto dˇelení muže ˚ být rˇ ízeno pˇríznakem qL (viz podkapitolka 5.3.2). Muže ˚ se tedy zdát, že výrazy jako „tvary urˇcitého slova“ používám v práci lehce nekonzistentnˇe. Úmyslnˇe nic takového ale nedefinuji jako termín, protože to odpovídá tomu, jak tyto vˇeci popisuji ve svém formátu: co má být považováno ˇ za rˇ eknˇeme soubor textových slov, slovních tvaru˚ jednoho systémového slova (viz MC2, s. 253), je v mém formátu urˇceno daty, není to nic apriorního, co by bylo možné popsat nˇejakými nezávislými termíny.
80
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU Stejným zpusobem ˚ by byly vyznaˇceny mutace i u pˇrípadných variantních podob pˇrípon v souboru vzoru, ˚ pˇriˇcemž na konkrétní pˇríponˇe by záleželo, jestli pujde ˚ o mutaci globální nebo flektivní. Napˇríklad podoba =ej by se tak od spisovné podoby pˇrípony =ý odlišovala flektivní mutací.
5.4
Srovnání s dalšími existujícími pˇrístupy
Kromˇe pražského a brnˇenského systému existují cˇ i existovaly i další, principiálnˇe zcela odlišné pˇrístupy k poˇcítaˇcové morfologické analýze cˇ eštiny. Tˇri z nich struˇcnˇe zmíním v této podkapitole. Nejstarší je disertaˇcní práce Jana Hajiˇce (1994), která k popisu morfologie používá unifikaˇcní gramatiky. Protože zvolený formalismus neumožnuje ˇ popis morfonologických alternací40 , je nutné tyto zachytit prostˇrednictvím jednotlivých množin zakonˇcení (jakoby vzoru), ˚ cˇ ímž dochází ke znaˇcné redundanci (cit. d., s. 70, pˇríloha A). Tato redundance se pak zákonitˇe pˇrenáší i do systému pravidel, která popisují vazby jednotlivých zakonˇcení na hodnoty gramatických kategorií. Takže tˇreba pro zakonˇcení covi (Dsg a Lsg slov tradiˇcnˇe rˇ azených ke vzoru muž a v Nsg zakonˇcených na c) je v systému následující pravidlo (cit. d., s. 43): <_>$ := [key=<_>ec, x=(mz5|mz5i|mz5x), cat=[pos=n], morf=[infl=[pf=[gender=a, num=sg, case=(dat|loc)]]]];
Systém jako celek je tedy pomˇernˇe komplikovaný (viz i pˇrílohy citované práce obecnˇe; za povšimnutí v tomto kontextu stojí i explicitní zmínka tˇrí množin zakonˇcení v uvedeném pravidle) a jeho údržba a rozvoj se ukázaly být pˇríliš nároˇcnými, takže byl posléze opuštˇen ve prospˇech souˇcasného pražského systému (Hajiˇc, 2004, s. 117–118). O nˇeco mladší je popis cˇ eské morfologie a cˇ ásteˇcnˇe i slovotvorby prostˇredky tzv. dvouúrovnové ˇ morfologie vypracovaný Hanou Skoumalovou (1997a; 1997b). Výhodou tohoto formalismu je možnost popsat morfonologické alternace, což umožnuje ˇ celý potˇrebný systém výraznˇe zjednodušit. Bohužel samotný formalismus je nepˇríliš transparentní a obtížnˇe cˇ itelný. Systém pracuje na tˇrech úrovních, mezi nimiž jsou dva koneˇcnˇe stavové pˇrevodníky. První úrovní je reprezentace gramatické formy jakožto slovníkové položky a konkrétních hodnot gramatických kategorií, druhou úrovní je zˇretˇezení odpovídajících morfému˚ a pomocných symbolu˚ a koneˇcnˇe tˇretí 40. Pˇresnˇeji, nemohu toto tvrdit o unifikaˇcních gramatikách obecnˇe, nejsem s nimi natolik obeznámen, nicménˇe pokud to umožnují, ˇ v práci to není využito.
81
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU úrovní je slovní tvar odpovídající použitým hodnotám gramatických kategorií. Jednotlivé úrovnˇe si navíc musejí vzájemnˇe pˇresnˇe odpovídat, což vede k místy ponˇekud protintuitivnímu modelu, mimo jiné i díky inflaci nulových symbolu˚ potˇrebných pro správné zarovnání, jak ukazuje pˇríklad pˇrevzatý ze (Skoumalová, 1997b):
m o k r ý +Adj +Comp 0 0 0 +Neut +Pl +Acc m o k r ý ^1P1 ě j š í ^2P1 í 0 m o k ř 0 0 e j š í 0 0 0 Nechci zde zacházet do detailu, ˚ podrobnosti lze najít v odkazovaných cˇ láncích, podstatné je, že ze všech mnˇe známých popisu˚ cˇ eštiny je tento zˇrejmˇe nejblíž mnou navrhovanému formalismu, tˇrebaže to na první pohled nemusí být pˇríliš zˇretelné. Nejsem si ale vˇedom žádné výhody, kterou by tento pˇrístup oproti mému pˇrinášel. Naopak výhodami mého formátu jsou podle mého soudu jak lepší cˇ itelnost dat a obecnˇe jednodušší práce se systémem, tak i napˇríklad snazší interpretace vytváˇrených struktur. Nelze pochopitelnˇe vylouˇcit, že toto mé hodnocení je do urˇcité míry subjektivní, nicménˇe za zmínku z tohoto pohledu stojí, že pˇrestože formalismus umožnuje ˇ mnohem kompaktnˇejší popis než systémy stovek redundantních vzoru, ˚ nebyla mu pro cˇ eštinu dána pˇrednost.41 Z toho lze usuzovat, že vysoká nároˇcnost práce v tomto formalismu je pocit’ována i obecnˇe. Nejnovˇejší alternativní popis morfologie (primárnˇe slovenské, ale data jsou v souˇcasnosti pˇripravována i pro cˇ eštinu) navrhuje diplomová práce Marka Gráce (2006). Umožnuje ˇ definovat nejruznˇ ˚ ejší hláskové zmˇeny (vˇcetnˇe napˇríklad slovenského rytmického krácení) a pro jednotlivé koncovky pak popsat, které z tˇechto zmˇen vyvolávají. Zárovenˇ umožnuje ˇ definovat ruzné ˚ tˇrídy hlásek a pomocí nich a dalších pravidel obecnˇe popisovat, jaká slova mohou náležet k jednotlivým vzorum ˚ — jedním z cílu˚ celého systému totiž bylo a je usnadnˇení a cˇ ásteˇcná automatizace doplnování ˇ slovníku morfologického analyzátoru. Systém i data jsou dosud ve vývoji a nedošlo zatím ani k nˇejaké souhrnné publikaci dosud dosažených výsledku, ˚ takže nemohu poskytnout nˇejaké podrobnˇejší srovnání. Stejnˇe jako v pˇredchozím odstavci si nejsem vˇedom žádné vlastnosti, kterou by muj ˚ systém neumožnoval ˇ nebo jejíž realizace by v nˇem byla obtížnˇe proveditelná (pochopitelnˇe, napˇríklad pravidla pro rytmické krácení bych musel doplnit). Nevýhodou pˇrístupu je v mých oˇcích použití formátu XML, protože zvyšuje náklady na údržbu a rozvoj. 41. Výsledek práce Hany Skoumalové není volnˇe dostupný, jednalo se o projekt pro firmu Xerox, muselo by to tedy být vypracováno znovu.
82
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU
5.5
Pˇredpokládaný další rozvoj navrhovaného formátu
I pˇres bohatost vyjadˇrovacích prostˇredku˚ navrženého formátu nepˇredpokládám, že by v práci prezentovaná podoba byla definitivní verzí. Je možné, že pˇri zpracování dalších slovních druhu, ˚ zejména sloves, vyvstanou nˇejaké nové potˇreby, byt’ pro tvarosloví to ve vˇetší míˇre už neoˇcekávám. Jistˇe bude naopak nutné detailnˇeji rozpracovat popis slovotvorby. Derivaˇcním vztahum ˚ vˇenují velkou pozornost Klára Osolsobˇe (napˇríklad (Osolsobˇe, 2008, 2009)) a Dana Hlaváˇcková (Pala a Hlaváˇcková, 2007) a pod jejich vedením i pregraduální studenti (napˇríklad (Rišianová, 2008), (Koláˇrová, 2009), mnoho dat ale bylo studenty zpracováno i mimo rámec závˇereˇcných prací). Vesmˇes je využíváno webové rozhraní Deriv42 (Hlaváˇcková a kol., 2009a,b), které umožnuje ˇ podle zadaných podmínek vyhledávat v datech morfologického analyzátoru ajka kandidáty na slovotvorné vztahy a nálezy dále ruˇcnˇe zpracovávat (tˇrídit, opatˇrovat poznámkami a podobnˇe). Pˇripravených dat je tedy k dispozici pomˇernˇe velké množství, otázkou bude, jak je vhodnˇe zachytit. Bylo by samozˇrejmˇe možné mít prostý seznam vztahu˚ mezi slovy, ale stejnˇe jako u tvarotvorby je i u slovotvorby žádoucí hledat a popisovat pravidelnost, jakkoli je to podstatnˇe nároˇcnˇejˇ ší úkol. Cásteˇ cnˇe jsem o tom mluvil na konci podkapitolky 5.3.1, mnohé slovotvorné vztahy jsou ale ještˇe ménˇe pravidelné — bude potˇreba vhodnˇe popsat jak skuteˇcnost, že se pˇrípona pˇripojuje jen k nˇekterým slovním základum ˚ (od každého životného maskulina lze vytvoˇrit posesivum, ne ale deminutivum: je tˇreba soudcuv, ˚ ale zdrobnˇelina by se tvoˇrila obtížnˇe), tak i situaci, že tentýž vztah je vyjadˇrován více ruznými ˚ pˇríponami (ˇcinitelská jména lze tvoˇrit pˇríponami -tel, -ˇc, -c(e) a dalšími). Bude také nutné najít vhodnou hranici, co všechno má být pˇredmˇetem zájmu: pokud by kupˇríkladu nˇejaká aplikace potˇrebovala informaci, že kdo uˇcí, je uˇcitel, a kdo topí, je topiˇc, bude zˇrejmˇe žádoucí také vˇedˇet, že kdo vraždí, je vrah43 — bude pak ale rozumné odmítnout informaci, že kdo krade, je zlodˇej, jen proto, že nejde o slovotvorbu? Podobnˇe bude otázka, jak detailnˇe rozlišovat rozdíly 42. http://deb.fi.muni.cz/deriv, pˇrístupové údaje poskytnu na požádání. Rozhraní umožnuje ˇ pomocí regulárních výrazu˚ a pˇredpˇripravených operací (mˇekˇcení, krácení, ...) definovat pravidla popisující formální zmˇeny slovních tvaru˚ odpovídající urˇcitému slovotvornému vztahu a následnˇe takové „hypotézy“ ovˇerˇ ovat na datech morfologického analyzátoru ajka (vyhledává se mezi 65 miliony trojic tvar, lemma a znaˇcka). Autory dˇrívˇejší podoby rozhraní byli Radek Sedláˇcek a Jan Pomikálek, protože se ale ukázalo, že potˇrebné podstatné rozšíˇrení funkˇcnosti a zrychlení vyhledávání by bylo pˇríliš nároˇcné, vytvoˇril jsem nakonec akutální podobu rozhraní zcela nezávisle na puvodním ˚ kódu. ˇ exis43. Mimo jiné bude potˇreba nˇejak rˇ ešit i pˇrípady, kdy je odvozenin více: v úzu i SSJC tuje i vraždiˇc, je dále napˇríklad opraváˇr, opravovatel, oprávce, opravce atp.
83
5. D ISKUSE VLASTNOSTÍ A MOŽNOSTÍ NAVRHOVANÉHO FORMÁTU v sémantice derivaˇcních vztahu: ˚ napˇríklad slova mincovna a strojovna jsou ˇ (s. 284) uvedena vedle sebe, ale pˇritom se vztah mincovny k mincím v MC1 liší od vztahu strojovny ke strojum. ˚ * Po zpracování všech dat bude vhodné uspoˇrádat jednotlivé druhy hláskových zmˇen (viz podkapitolka 3.12.3) a pokusit se o nˇejaký systematický popis. Dále se ukazuje, že bude potˇreba rozmyslet nˇejaký jiný zpusob ˚ práce s pˇríznakem wH. Aktuálnˇe je wH souˇcást znaˇcky, takže substandardní koncovky jsou ve vzoru zapisovány tak, jak ukazuje tˇreba pˇríklad vzoru -e na konci podkapitoly 3.11. Protože jsou ale tvary organizovány právˇe podle tˇechto znaˇcek, vede to k tomu, že v pˇrípadˇe slovníkového zápisu základ:vzor1,vzor2_nP a za pˇredpokladu, že vzor1 obsahuje v plurálu koncovku znaˇcky s pˇríznakem wH, pro kteroužto znaˇcku vzor2 žádnou koncovku nespecifikuje, by nebylo tvar s koncovkou prvního vzoru cˇ ím pˇrepsat, takže by zustal ˚ mezi výslednými tvary. To je ovšem ponˇekud protiintuitivní chování. Zdá se, že rozumnˇejší by bylo mít wH jako pˇríznak patˇrící ke koncovce, a mít tak v seznamech koncovek pro jednotlivé znaˇcky spisovné i substandardní koncovky. Pokraˇcováním myšlenky pˇríznaku˚ koncovek muže ˚ být otázka, jestli se koncovky od pˇrípon liší nˇejak principiálnˇe, nebo jestli jejich odlišnost nemuže ˚ být chápána i jako jen vyplývající z toho, že stojí na konci slova, resp. struktury. V druhém pˇrípadˇe by stálo za úvahu pokusit se systém dále zjednodušit tím, že by s nimi skuteˇcnˇe bylo nakládáno jako s pˇríponami, takže se ke všem segmentum ˚ v datech pˇristupovalo shodným zpusobem. ˚ * Pˇredmˇetem zájmu bude i možnost využití implicitních pravidel (viz podkapitola 4.7) pro usnadnˇení cˇ i automatizaci pˇridávání nových slov do slovníku — lze oˇcekávat, že nová slova budou vesmˇes pravidelná a bude pro pˇridání staˇcit specifikovat slovní druh a pˇrípadnˇe rod, bez dosud nezbytného zaˇrazování ke vzoru, ale bude nutné to provˇerˇ it experimentálnˇe. Data chci využít i pro konstrukci guesseru nabízejícího možná lemmata a znaˇcky pro slovní tvary, které morfologický analyzátor nezná. Dosavadní guesser pro brnˇenský systém (Šmerk, 2008a) pˇredpokládá, že u neznámých (tedy vesmˇes nových) slov lze oˇcekávat pravidelné chování, kdy se pravidelné od nepravidelného rozlišuje podle cˇ etností v datech morfologické analýzy. S apriorní znalostí pravidelného lze oˇcekávat jak zpˇresnˇení výsledku, ˚ tak i zjednodušení tvorby dat potˇrebných pro guesser. Takto vylepšený guesser spolu s informacemi o slovech, které plynou z derivaˇcních vztahu˚ ( „valence“ deverbativ a podobnˇe), nakonec pˇrispˇejí i k dalšímu zlepšování morfologické desambiguace (Šmerk, 2008b). 84
Kapitola 6
Nový morfologický analyzátor V úvodu práce jsem mezi problémy stávajícího pˇrístupu k poˇcítaˇcové morfologické analýze cˇ eštiny zminoval ˇ kromˇe redundance dat i ruzné ˚ druhy informací (derivaˇcní vztahy, produktivita cˇ i relevantní sémantické údaje), které bylo obtížné, pokud ne pˇrímo nemožné do systému morfologické analýzy doplnit. V další kapitole, kde jsem konkrétnˇe rozebíral nedostatky stávajících formátu˚ dat morfologického analyzátoru, jsem už ale mluvil pouze o vysoké redundanci používaného popisu. Duvodem ˚ byla skuteˇcnost, že problém v ostatních pˇrípadech nespoˇcíval v datech, nebo pˇrinejmenším nikoli primárnˇe v nich, ale v analyzátoru. V této kapitole struˇcnˇe zmíním nˇekteré vlastnosti a jeden, zato ovšem bohužel zásadní nedostatek brnˇenského analyzátoru. Ukážu zpusob, ˚ jak analyzátor nahradit jednoduchým, ale zárovenˇ i výraznˇe rychlejším vyhledáváním napˇríklad ve vhodnˇe reprezentovaném seznamu trojic tvar, lemma a znaˇcka. Dále ukážu možnosti tvorby dat pro nový analyzátor, srovnám jeho výkonnost s analyzátory ajka a Morfo a nakonec rozeberu nˇekteré výhodné vlastnosti nového analyzátoru.
6.1
Puvodní ˚ morfologický analyzátor ajka
Morfologická analýza je v brnˇenském systému realizována analyzátorem ajka, jehož autorem je Radek Sedláˇcek. Detailnˇejší informace o analyzátoru lze získat z jeho diplomové a disertaˇcní práce (Sedláˇcek, 1999, 2004), zde budu zminovat ˇ jen vˇeci, které považuji podstatné pro další výklad. Analyzátor ajka pracuje s daty, jejichž zdroj je ve formátu popsaném a vysvˇetleném v podkapitole 2.2. Taková data jsou pˇrevedena do binární podoby, ve které hraje duležitou ˚ roli slovník kmenu, ˚ což jsou poˇcáteˇcní cˇ ásti lemmat ze slovníku, které z lemmat zbudou po odtržení prvního intersegmentu a první koncovky definovaných vzorem, k nˇemuž je lemma zaˇrazeno (kmen tedy muže ˚ být i prázdný). Souˇcástí binární podoby dat jsou samozˇrejmˇe i informace o vzorech a koncovkových množinách. 85
6. N OVÝ MORFOLOGICKÝ ANALYZÁTOR Pˇri analýze se postupuje tak, že se postupnˇe ve slovníku kmenu˚ vyhledávají levé podˇretˇezce vstupního slova, od prázdného rˇ etˇezce až pˇrípadnˇe po celé slovo.1 Pokud je kandidát na kmen ve slovníku nalezen, testuje se, jestli pokraˇcování slova odpovídá nˇekterému z intersegmentu˚ vzoru, k nˇemuž kmen náleží. Pro všechny vyhovující intersegmenty se stejným zpu˚ sobem provˇerˇ í i všechny koncovky v koncovkových množinách tˇechto intersegmentu. ˚ Pro každou takto nalezenou kombinaci kmen + intersegment + koncovka, která po zˇretˇezení pokrývá celé vstupní slovo, je jako platná analýza vrácena znaˇcka odpovídající koncovce a lemma odpovídající kmenu (tedy tvar, který je získán pˇripojením prvního intersegmentu a první koncovky jeho první koncovkové množiny podle vzoru, k nˇemuž kmen náleží). Toto je ovšem jen základní kostra algoritmu. Ve skuteˇcnosti se napˇríklad musejí pˇri takovémto rozkladu slova uvažovat i prefixy ne- a nej- cˇ i postfixy jako tˇreba -s. Dále je potˇreba si uvˇedomit, že tatáž data slouží jak pro analýzu, tak i pro generování, a že navíc praktické potˇreby vyžadovaly pokud možno co nejvyšší rychlost. Toto všechno a mnohé další muselo být vzato v úvahu pˇri konstrukci analyzátoru: musel být navržen co nejefektivnˇeji, ale zárovenˇ musely být použité struktury víceúˇcelové. Analyzátor navržený Radkem Sedláˇckem všechny na nˇej kladené požadavky splnil. Cenou byl ovšem pomˇernˇe komplikovaný kód, jehož složitost se ještˇe dále zvyšovala v prubˇ ˚ ehu cˇ asu, kdy bylo tu a tam potˇreba nˇeco zmˇenit cˇ i doplnit, ale samozˇrejmˇe nebyl vždy prostor na promyšlené a koncepˇcní rˇ ešení respektující celkový návrh. Ve výsledku byl analyzátor ajka výbornˇe použitelný v praxi, ale bylo cˇ ím dál obtížnˇejší provádˇet v kódu nˇejaké opravy cˇ i zmˇeny, protože jednotlivé cˇ ásti kódu, jednotlivé použité struktury byly navzájem pomˇernˇe hodnˇe provázané, takže bylo obtížné nˇekde nˇeco zmˇenit tak, aby tím cˇ lovˇek zárovenˇ „nerozbil“ nˇeco jiného. Takže informace, o kterých jsem mluvil na zaˇcátku kapitoly, by možná nebylo úplnˇe jednoduché pˇridat do dat analyzátoru ajka, ale zásadní problém by nastal ve chvíli, kdy by bylo potˇreba upravit analyzátor, aby s takovými informacemi umˇel rozumnˇe nakládat. Dokonce si troufám rˇ íct, že tato vnitˇrní složitost byla pˇríˇcinou nˇekolikaleté stagnace analyzátoru — jakékoli zásadnˇejší zmˇeny byly jednoduše pˇríliš nároˇcné. 1. Slovník kmenu˚ si lze pˇredstavit jako prefixový strom s hranami ohodnocenými písmeny, kdy v uzlech jsou seznamy vzoru, ˚ k nimž jsou ve zdrojovém slovníku zaˇrazena lemmata, jejichž kmen odpovídá zˇretˇezení ohodnocení hran na cestˇe mezi koˇrenem a uzlem (více lemmat muže ˚ mít stejný kmen). Strom je procházen od koˇrene podle jednotlivých písmen vstupního slova, pˇriˇcemž pochopitelnˇe pro nˇekterá vstupní slova nemusí v takovém stromu existovat celá odpovídající cesta. Prohledávání slovníku kmenu˚ je tedy pomˇernˇe efektivní.
86
6. N OVÝ MORFOLOGICKÝ ANALYZÁTOR
6.2
Reprezentace dat deterministickými koneˇcnými automaty
Pro implementaci nového analyzátoru jsem zvolil pˇrístup popsaný v disertaˇcní práci Jana Daciuka (1998).2 Morfologická analýza je realizována prostým vyhledáváním v seznamu trojic tvar, lemma a znaˇcka. Mít všechny potˇrebné trojice v pamˇeti napˇríklad jako rˇ etˇezce tvar:lemma:značka by samozˇrejmˇe nebylo vzhledem k velikosti takových dat pˇríliš praktické (pro konkrétní cˇ ísla viz dále tabulka 6.2). Jejich seznam lze ale intepretovat jako koneˇcný formální jazyk reprezentovatelný deterministickým acyklickým koneˇcnˇe stavovým automatem (dále DAFSA). Vzhledem k vysoké redundanci jazykových dat v této podobˇe muže ˚ mít minimální automat popisující takový jazyk (po drobné úpravˇe dat, jak ukážu hned v zápˇetí) pˇrijatelnou velikost srovnatelnou s daty stávajících analyzátoru. ˚ Práce Jana Daciuka nabízí algoritmy pro inkrementální konstrukci minimálních DAFSA, kdy bˇehem pˇridávání jednotlivých slov formálního jazyka je u tvoˇreného automatu zachováván invariant minimality, takže pamˇet’ová nároˇcnost tvorby odpovídá nanejvýš velikosti tvoˇreného automatu (plus pochopitelnˇe nˇejaké konstantní nároky programu tvoˇrícího automat). Aby byl minimální automat skuteˇcnˇe rozumnˇe malý, je obecnˇe potˇreba, aby pro co nejvˇetší poˇcet rˇ etˇezcu˚ (slov formálního jazyka) platilo, že se shodují co nejvˇetším pravým podˇretˇezcem s co nejvíce jinými rˇ etˇezci.3 Kdybychom data skuteˇcnˇe reprezentovali rˇ etˇezci tvar:lemma:značka, byl by výsledný automat zbyteˇcnˇe velký. Uvažme následující pˇríklad: 2. Za nasmˇerování vdˇecˇ ím Pavlu Rychlému. 3. Pˇresnˇeji, použití automatu jako reprezentace dat bude tím výhodnˇejší, cˇ ím cˇ astˇeji se bude v datech opakovat situace, že v nich budou rˇ etˇezce 𝑎1 𝑏𝑐1 , . . . 𝑎1 𝑏𝑐𝑛 i 𝑎2 𝑏𝑐1 , . . . 𝑎2 𝑏𝑐𝑛 (kde 𝑏 je znak a 𝑎𝑖 a 𝑐𝑖 rˇ etˇezce), aniž by pˇritom v datech byl rˇ etˇezec 𝑎1 𝑏𝑥 cˇ i 𝑎2 𝑏𝑥 pro nˇejaký rˇ etˇezec 𝑥 ruzný ˚ od 𝑐1 . . . 𝑐𝑛 . V takových pˇrípadech budou totiž cesty v automatu odpovídající rˇ etˇezcum ˚ 𝑎1 𝑏𝑐1 , . . . 𝑎1 𝑏𝑐𝑛 , resp. 𝑎2 𝑏𝑐1 , . . . 𝑎2 𝑏𝑐𝑛 sdílet stavy odpovídající sdíleným podˇretˇezcum ˚ 𝑎1 , resp. 𝑎2 (protože automat je deterministický) a zárovenˇ budou cesty odpovídající všem tˇemto rˇ etˇezcum ˚ sdílet cˇ ást automatu odpovídající sdíleným podˇretˇezcum ˚ 𝑐1 , . . . 𝑐𝑛 (protože automat je minimální). Rozdíl mezi neformálním popisem v textu a formálním popisem zde v poznámce se ale projeví jen u jazyku, ˚ které neodpovídají realitˇe pˇrirozeného jazyka. Pˇríkladem muže ˚ být tˇreba formální jazyk {𝑎𝑖 𝑏𝑗 | 𝑖, 𝑗 ∈ 1..𝑛, 𝑖 ̸= 𝑗}, kde by za pˇredpokladu vzájemné ruznosti ˚ 𝑎𝑖 a stejnˇe tak i vzájemné ruznosti ˚ 𝑏𝑖 nemˇely žádné dva ruzné ˚ „kmeny“ 𝑎 stejnou množinu „koncovek“ 𝑏. Formulace typu cˇ ím ..., tím ... se muže ˚ zdát ponˇekud vágní, nicménˇe odpovídá realitˇe. Minimální DAFSA pochopitelnˇe existuje pro každý koneˇcný jazyk, není žádná podoba dat, která by jeho vytvoˇrení mohla zabránit. Jde jen o to, že pokud budeme schopni reprezentovat tatáž data ruznými ˚ zpusoby ˚ (ˇretˇezci, formálními jazyky), budeme chtít preferovat takový zpusob, ˚ pˇri jehož použití bude výsledný minimální automat co nejmenší. Výše uvedené formulace lze pˇri takovém rozhodování použít pro predikci, která podoba dat bude z tohoto pohledu vhodnˇejší.
87
6. N OVÝ MORFOLOGICKÝ ANALYZÁTOR
ježek:ježek:k1gMnSc1 ježka:ježek:k1gMnSc2 ježka:ježek:k1gMnSc4 krtek:krtek:k1gMnSc1 krtka:krtek:k1gMnSc2 krtka:krtek:k1gMnSc4 Pokud dále v datech tohoto druhu uvážíme pravé podˇretˇezce jednotlivých rˇ etˇezcu˚ (trojic) zahrnující celé lemma, je zˇrejmé, že se mohou mezi jednotˇ livými rˇ etˇezci opakovat pouze u vnitroparadigmatické homomorfie (MC2, s. 283, tentýž tvar i lemma pro ruzné ˚ znaˇcky). Porovnejme to s následujícím zápisem týchž dat:
ježek:A:k1gMnSc1 ježka:Cek:k1gMnSc2 ježka:Cek:k1gMnSc4 krtek:A:k1gMnSc1 krtka:Cek:k1gMnSc2 krtka:Cek:k1gMnSc4 Zde je lemma popsáno prostˇrednictvím potˇrebné úpravy slovního tvaru, kdy abecední poˇradí velkého písmena udává, kolik písmen je nutné odstranit z konce tvaru (A = 0, B = 1, ...), a zbylý rˇ etˇezec rˇ íká, co se má poté naopak pˇripojit. Tedy kupˇríkladu pro tvar ježka se odstraní poslední dvˇe písmena, pˇridá se ek a výsledkem je lemma ježek. Je zˇretelné, že pˇri takovémto zápisu bude shoda mezi rˇ etˇezci výraznˇe vˇetší. Tak napˇríklad všechny rˇ etˇezce popisující Gsg životných maskulin zakonˇcených v Nsg na ek, kdy e alternuje s nulou, se budou shodovat nejen v pravém podˇretˇezci zahrnujícím lemma, tedy Cek:k1gMnSc2, ale dokonce i v podˇretˇezci zahrnujícím i cˇ ást jednotlivých tvaru, ˚ totiž ka:Cek:k1gMnSc2. Odpovídající rˇ etˇezce v pˇredchozí podobˇe dat by se pˇritom shodovaly jen v ek:k1gMnSc2, tedy shodná cˇ ást by nezahrnovala ani celé lemma.4 Data, z nichž bude tvoˇren minimální DAFSA, budeme mít právˇe v tomto formátu. Po vytvoˇrení minimálního automatu bude analýza znamenat pouhý pruchod ˚ tímto automatem. Pro pˇríklad pˇredpokládejme, že máme analyzovat tvar ježka. Ke tvaru pˇridáme oddˇelovaˇc a zaˇcneme automat procházet cestou odpovídající takto vzniklému rˇ etˇezci (tedy ježka:). Protože je automat deterministický, existuje nanejvýš jedna taková cesta (nemusela by pˇrípadnˇe existovat žádná, kdyby daný tvar nebyl v datech, pak 4. Podˇretˇezec popisující lemma ovšem nemá žádný speciální význam, jen se na nˇej lze díky vymezení znaky : snadno odkázat.
88
6. N OVÝ MORFOLOGICKÝ ANALYZÁTOR by analýza skonˇcila bez výsledku). Z uzlu, do nˇehož se takto dostaneme, projdeme všechny možné cesty do koncového stavu, pˇriˇcemž si budeme pamatovat ohodnocení hran. Každá z tˇechto cest (zˇretˇezení ohodnocení hran tvoˇrících cestu) reprezentuje jednu analýzu vstupního tvaru. Pro rˇ etˇezec ježka bychom tedy dostali Cek:k1gMnSc2 a Cek:k1gMnSc4. Jediné, co zbývá udˇelat, je z tvaru a informace Cek získat lemma ježek, jak bylo popsáno v pˇredchozím odstavci.5
6.3
Tvorba dat
Automat popsaný v pˇredchozí podkapitole bude možné použít jen pro vlastní morfologickou analýzu, tedy urˇcování lemmat a znaˇcek pro slovní tvary. Pro další cˇ innosti oˇcekávatelné od morfologického analyzátoru budeme potˇrebovat odlišné automaty, jejichž tvorba ale bude velmi jednoduchá. Napˇríklad data pro pouhou lemmatizaci by šlo získat triviálním oˇrezáním dat pro analýzu poskytující lemmata i znaˇcky:
ježek:A ježka:Cek krtek:A krtka:Cek Podobnˇe jednoduše by bylo možné vytvoˇrit data pro generování všech tvaru˚ zadaného lemmatu zárovenˇ s jejich znaˇckami:
ježek:A:k1gMnSc1 ježek:Cka:k1gMnSc2 ježek:Cka:k1gMnSc4 krtek:A:k1gMnSc1 krtek:Cka:k1gMnSc2 krtek:Cka:k1gMnSc4 5. Pro názornost ještˇe jednou, struˇcnˇe a jinými slovy popíšu, co vlastnˇe dˇeláme. Popis dat prostˇrednictvím trojic slovo, lemma a znaˇcka je prostorovˇe výraznˇe nároˇcnˇejší než popis týchž dat napˇríklad prostˇrednictvím lemmat zaˇrazených ke vzorum ˚ (viz kapitola 2). Ale i kdybychom prostoru (pamˇeti) nelitovali, museli bychom rˇ ešit otázku, jak v takových rozsáhlých datech efektivnˇe vyhledávat. Reprezentace seznamu takových trojic minimálním DAFSA rˇ eší oba tyto problémy. Jednak umožnuje ˇ významnou „kompresi“ dat na úrovenˇ ostatních popisu˚ (konkrétní cˇ ísla viz dále tabulka 6.1), zárovenˇ ale umožnuje ˇ i jednoduché vyhledávání potˇrebné informace. Dusledkem ˚ je naprosto triviální, a tedy rychlý a zárovenˇ snadno udržovatelný analyzátor, který vstupní tvar nijak neanalyzuje ve smyslu provádˇení nˇejakých operací, pouze ve svých datech (v automatu) vyhledá požadovanou odpovˇed’.
89
6. N OVÝ MORFOLOGICKÝ ANALYZÁTOR A kdybychom v takových datech prohodili druhé dva údaje:
ježek:k1gMnSc1:A ježek:k1gMnSc2:Cka ježek:k1gMnSc4:Cka ... mohli bychom tentýž automat používat jak pro generování tvaru˚ se znaˇckami pro zadané lemma (vstup by byl napˇríklad ježek), tak i pro generování tvaru˚ podle zadaného lemmatu a znaˇcky (vstup tˇreba krtek:k1gMnSc2). Výše uvedené podoby dat mužeme ˚ snadno získávat z dat popsaných ve formátu navrženém v pˇredchozích kapitolách práce. Mužeme ˚ z nich ale generovat i data pro ponˇekud odlišné druhy analýz. Napˇríklad pokud si pˇri tvorbˇe tvaru˚ zapamatujeme i struktury, z nichž jsou slovní tvary získávány (pro pˇripomenutí viz podkapitola 3.3), mužeme ˚ je využít napˇríklad k tvorbˇe dat pro automat, který by analyzoval slovní tvary na slovní základ a koncovku:
ježek:C.ek-0 ježka:C.ek-a Pˇrípadnˇe by bylo také možné obecnˇe reprodukovat segmentaci vyznaˇcenou znaky = a -, tedy napˇríklad:
mužův:C=%ov-0 mužova:D=%ov-a Je potˇreba poznamenat, že uschovat k takovému použití si lze kterýkoli krok mezi strukturou a slovním tvarem. Kdyby tedy napˇríklad nˇekdo stál o takovouto segmentaci, nicménˇe nechtˇel v ní mít „hloubkové“ podoby .e cˇ i %o, mohl by si strukturu schovat až po jejich vyhodnocení a mít v datech:
ježek:Cek-0 ježka:Ck-a mužův:C=ův-0 mužova:D=ov-a tedy dostávat analýzy ježek-0, ježk-a, muž=ův-0 nebo muž=ov-a místo jež.ek-0, jež.ek-a, muž=%ov-0, resp. muž=%ov-a.6 Obdobnˇe by šlo zkonstruovat data i pro automat, který by poskytoval informace o derivaˇcních vztazích mezi slovy. 6. Je zˇrejmé, že stejnˇe tak by bylo možné schovávat si segmentaci až tˇesnˇe pˇred odstranˇením znaku˚ = a -, aby odpovídala cˇ lenˇení v mluvnicích, tedy napˇr. sluz-ích cˇ i rac-i místo sluh-ích, resp. rak-i. Nˇekterá pravidla pro tvorbu tvaru˚ ze struktur by pak bylo nutné
90
6. N OVÝ MORFOLOGICKÝ ANALYZÁTOR
6.4
Nový morfologický analyzátor
S využitím knihoven Jana Daciuka pro práci s minimálními DAFSA7 jsem vytvoˇril morfologický analyzátor majka.8 Kromˇe výše popsaného jednoduchého vyhledávání procházením automatu, k nˇemuž využívám právˇe knihovny Jana Daciuka, jsem ještˇe pˇridal mechanismus analýzy (pˇrípadnˇe generování, podle dat) složených slov a cˇ íslovek, kdy je v automatu nˇekolik speciálních podstromu˚ ( „podautomatu“) ˚ s tvary, které mohou tvoˇrit složeniny s ruznými ˚ slovními druhy, a program s využitím urˇcitých jednoduchých pravidel analyzuje vstupní slova i proti nim. Tabulka 6.1 obsahuje základní srovnání puvodního ˚ analyzátoru ajka a nového analyzátoru majka. Srovnání bylo provedeno na prvním miliónu slov z korpusu SYN2000, pˇriˇcemž byl poˇcítán celkový cˇ as vypsaný unixovým pˇríkazem time (položka „real“).9 Pˇrestože se zatím snažím, aby nový analyzátor poskytoval pˇresnˇe stejné informace jako puvodní ˚ ajka10 , v nˇekterých detailech se výstupy liší, napˇríklad právˇe u složených slov, ovšem nepˇredpokládám, že by to mohlo mít vliv na prezentovaná cˇ ísla. V tabulce jsou pouze operace, které pˇrímo podporuje analyzátor ajka. Nový analyzátor pochopitelnˇe není omezen jen na nˇe, ale jiné by nebylo s cˇ ím srovnávat. První rˇ ádek je vlastní morfologická analýza, tedy vrácení lemmat a znaˇcek k zadanému slovnímu tvaru. Druhý rˇ ádek je lemmatizace, tˇretí je vygenerování všech slovních tvaru˚ k zadanému slovnímu tvaru (ne nutnˇe jen lemmatu) a koneˇcnˇe cˇ tvrtý rˇ ádek je doplnování ˇ diakritiky.11 formulovat podle toho, jaký výsledek by byl žádoucí. Tˇreba k=stv v lišák=stv=í-0 by ˇ s. 297). se mohlo mˇenit bud’to na c-tv (Šiška, 2005, s. 12), -c-tv, nebo -ctv (obojí MC1, Pˇrípadnˇe by bylo potˇreba dˇelat nˇejaké úpravy jen pro úˇcely segmentace, napˇríklad pro vydˇelení morfu sovj ve tvaru sově (Šiška, 2005) — tento zdroj je zárovenˇ další ukázkou vítˇezství mnohosti nad konzistencí (viz poznámka 24 v podkapitolce 5.2.2): zná alomorf rac(i), ale nezná sluz(i), zná sovj(e), ale nezná d’evj(e), zná ruc(e), ale nezná desc(e) atp. I takováto data, pokud by tedy mˇela být k nˇecˇ emu užiteˇcná, by bylo lépe generovat strojovˇe za pomoci prostˇredku˚ navrhovaných v této práci, aby k popisovaným nekonzistencím nedocházelo. 7. www.eti.pg.gda.pl/~jandac/fsa.html 8. Puvodnˇ ˚ e jsem jej pojmenoval ajka2, ale to bylo zamítnuto jako nevhodné, když nejde o další verzi, ale zcela odlišné a nesouvisející rˇ ešení. Uznávám nicménˇe, že názvem majka, morfologický analyzátor jazyka, jsem žádnou nevšední kreativitu neprojevil. 9. Výstup jsem pˇresmˇerovával do /dev/null (tedy zahazoval), aby cˇ as nebyl ovlivnˇen pˇrípadnými pomalými zápisy výsledných dat na disk. Všechny cˇ asy jsou prumˇ ˚ erem ze tˇrí bˇehu, ˚ pˇred kterými pˇredcházel ještˇe jeden nemˇerˇ ený bˇeh, aby mezi prvním a druhým bˇehem nebyl rozdíl v tom, že napoprvé vstupní soubor nebyl v nˇejaké cache pamˇeti. 10. Data pro analyzátor majka jsou puvodní ˚ data analyzátoru ajka, pouze rozgenerovaná do formy popisované v pˇredcházejících dvou podkapitolách. 11. Výrazné zrychlení v doplnování ˇ diakritiky není až tak zásluha nového analyzátoru, ale dusledek ˚ skuteˇcnosti, že v analyzátoru ajka toto bylo realizováno znaˇcnˇe neefektivnˇe.
91
6. N OVÝ MORFOLOGICKÝ ANALYZÁTOR velikost dat v MB analýza lemmatizace tvary diakritika
ajka
majka
3.1
4.4 4.0 6.1 3.3
cˇ as v sekundách majka pomˇer 18.22 2.88 6.3x 16.76 1.57 10.7x 55.33 8.42 6.6x 8698.80 1.61 5403x
ajka
Tabulka 6.1: Srovnání analyzátoru˚ ajka a majka. Srovnání ukazuje, že data jsou zhruba stejnˇe velká. Nový analyzátor sice potˇrebuje pro každou operaci samostatná data, na druhou stranu v praxi je vˇetšinou potˇreba v jednu chvíli jen jedna urˇcitá cˇ innost, takže zpravidla nebude nutné mít ta data v pamˇeti všechna zaráz. Na pevném disku samozˇrejmˇe budou dohromady zabírat vˇetší prostor, ovšem pˇri velikosti dnešních pevných disku˚ jde o zcela zanedbatelné objemy dat.12 Nový analyzátor jsem stejným zpusobem ˚ srovnal i s morfologickou analýzou poskytovanou aktuální verzí pražského analyzátoru Morfo13 (Hlavácˇ ová a Kolovratník, 2008), oproti nˇemuž je analyzátor majka rychlejší 4.6x, pˇriˇcemž pˇríslušná data analyzátoru Morfo mají velikost 10.9 MB. Tabulka 6.2 podává pˇredstavu o „kompresi“ dat umožnˇené minimálními DAFSA. Jde o slovníky pro operace porovnávané v tabulce 6.1, jen jinak uspoˇrádané. Na prvním rˇ ádku je slovník samotných slovních tvaru˚ pro doplnování ˇ diakritiky. Na druhém rˇ ádku je slovník dvojic tvar:lemma pro lemmatizaci, na tˇretím je slovník s rˇ etˇezci ve tvaru tvar:lemma:značka pro vlastní morfologickou analýzu a koneˇcnˇe na cˇ tvrtém rˇ ádku je slovník všech dvojic tvar1 :tvar2 , které patˇrí ke spoleˇcnému lemmatu. První sloupec udává poˇcet rˇ ádku˚ slovníku, druhý jeho velikost v bytech, tˇretí velikost souboru s výsledným minimálním DAFSA a cˇ tvrtý sloupec rˇ íká, kolik bytu˚ je ve výsledku v prumˇ ˚ eru potˇreba k reprezentaci jednoho rˇ ádku vstupu. Hodnoty ve cˇ tvrtém sloupci ale uvádím jen pro pˇredstavu, je zˇrejmé, že vyjadˇrují pouze míru redundance dat slovníku a nebyl by technický problém toto cˇ íslo umˇelým zvˇetšováním slovníku snižovat dle libosti. Mohlo by se zdát, že tvorba automatu˚ vyžaduje netriviální diskový prostor, ale není tomu tak: data lze programu vytváˇrejícímu minimální DAFSA pˇredávat rovnou ze skriptu, který je generuje, není nutné je ukládat na disk. Zde zminované ˇ výsledky byly publikovány v (Šmerk, 2007, 2009). Analyzátor majka je využíván nejvˇetším cˇ eským internetovým vyhledávaˇcem 12. Což tedy do jisté míry platí i o operaˇcní pamˇeti, alesponˇ pro normální poˇcítaˇce. 13. http://ufal.mff.cuni.cz/morfo/, verze z 6. 5. 2010.
92
6. N OVÝ MORFOLOGICKÝ ANALYZÁTOR slovník w w→l w → l+t w→w
rˇ ádku˚ 13,609,590 14,101,767 80,303,929 957,464,060
vel. zdroje 186,154,068 239,578,702 2,477,786,062 19,993,465,213
vel. slovníku 3,263,374 4,042,839 4,353,616 6,105,429
bytu/ˇ ˚ rádek 0.240 0.287 0.054 0.006
Tabulka 6.2: Statistické informace o slovnících analyzátoru majka. Seznam.cz14 a vývojovým týmem Informaˇcního systému Masarykovy Uniˇ verzity15 , který nejen zajišt’uje potˇreby druhé nejvˇetší univerzity v Ceské republice, ale také vyvíjí a provozuje Národní registr závˇereˇcných prací spojený s úložištˇem pro vyhledávání plagiátu˚ a obdobný projekt pro odhalování plagiátu˚ v seminárních pracích16 .
6.5
Výhody nového analyzátoru
Naprosto zásadní výhodou nového analyzátoru, zvlášt’ ve srovnání s analyzátorem ajka (viz podkapitola 6.1), je jeho jednoduchost. Pruchod ˚ automatem je zcela nezávislý na jeho obsahu (tedy s výjimkou analýzy složených slov). Jak jsem ukázal v podkapitole 6.3, funkcionalitu analyzátoru lze rozšiˇrovat pouze vhodnˇe navrženými daty. Pokud chci derivaˇcní vztahy, udˇelám slovník (automat) popisující derivaˇcní vztahy. Pokud chci segmentaci, udˇelám slovník pro segmentaci. V kódu analyzátoru pˇritom není tˇreba mˇenit ani písmenko, pruchod ˚ jednotlivými automaty je stále stejný. To je naprosto nesrovnatelné s analyzátorem ajka kde pˇridání nˇejaké nové vlastnosti typicky znamená velké množství práce a obtížného ladˇení.17 14. Ve skuteˇcnosti bylo používání analyzátoru ajka pro indexaci dat vyhledávaˇce Seznam.cz jedním z hlavním impulsu˚ k tvorbˇe nového analyzátoru: analyzátor ajka byl pro jejich potˇreby pˇríliš pomalý. 15. http://is.muni.cz 16. http://theses.cz a http://odevzdej.cz 17. Pro ilustraci zmíním rˇ ešení jednoduchého požadavku ze strany Seznam.cz, aby analyzátor vracel pro posloupnosti cˇ íslic znaˇcku k4 a jako lemma samotné vstupní cˇ íslo. Pˇriˇcemž nešlo o úpravu analyzátoru jakožto programu, kdy by bylo triviálnˇe možné produkovat pˇri takovém vstupu požadovaný výstup, ale o úpravy knihovny funkcí, kterou využíval jak analyzátor ajka, tak indexaˇcní stroje vyhledávaˇce Seznam.cz. Bylo tedy nutné nasimulovat analýzu, jejíž výsledky pak využívaly ostatní knihovní funkce. Musely být naplnˇeny pˇríslušné pamˇet’ové struktury, mimo jiné i položka cˇ íslo vzoru. Pˇritom ale cˇ ísla vzoru˚ nebyla ve zdrojových datech, ale generovala se až pˇri tvorbˇe jejich binární podoby, takže pro ruzné ˚ verze dat mohlo totéž cˇ íslo odpovídat zcela jiným vzorum. ˚ Vzor ovšem ovlivnoval ˇ napˇríklad tvorbu lemmatu, takže bud’to bylo nutné nˇejak v konkrétních datech zjišt’ovat cˇ íslo
93
6. N OVÝ MORFOLOGICKÝ ANALYZÁTOR Pro práci s konkrétním slovníkem, s konkrétním typem dat staˇcí nˇekolika rˇ ádky kódu definovat, jak mají být výsledky analýzy interpretovány a vypisovány uživateli.18 Tyto jednotlivé cˇ ásti kódu jsou navíc vzájemnˇe zcela nezávislé, což znamená, že pokud bude v jedné chyba, ovlivní to jen práci s konkrétním typem slovníku. To je opˇet velký rozdíl oproti analyzátoru ajka, kde se mohlo naopak snadno stát, že zmˇena kódu bude mít nezamýšlené vedlejší efekty. Praxe ukázala, že jednoduchost je z dlouhodobého pohledu zcela klíˇ cˇ ová vlastnost. Cím jsou vˇeci jednodušší, tím menší jsou náklady na jejich údržbu a další rozvoj. Zejména pˇri omezených zdrojích to muže ˚ být podstatnˇejší problém, než by se mohlo zdát na první pohled: analyzátor ajka byl samozˇrejmˇe udržován plnˇe funkˇcní, ale vinou své vnitˇrní složitosti se v poslední dobˇe nerozvíjel tak, jak se rozvíjet mohl a jak by bylo žádoucí. Pozitivem plynoucím z jednoduchosti je ovšem i rychlost, kdy je nový analyzátor nˇekolikrát rychlejší než dosavadní dostupná rˇ ešení. Výhodou prezentovaného pˇrístupu je také naprosté oddˇelení (struktury) dat a samotného analyzátoru. Zdrojová data lze mít popsána libovolným formalismem a nijak nezáleží na tom, jak efektivnˇe jsem schopen s ním pracovat, analyzátoru se to nijak nedotýká.19 Toho ostatnˇe plnˇe využívám: skript, který vyhodnocuje v první cˇ ásti práce navržený formát (tedy generuje z nˇej seznamy trojic slovo, lemma a znaˇcka ve formátu vhodném pro tvorbu minimálního DAFSA), je napsán naprosto neefektivnˇe. Tytéž vˇeci se vyhodnocují poˇrád dokola, pˇrípadnˇe jiné zcela zbyteˇcnˇe, pˇrestože by první bylo možné pˇredpoˇcítat a druhé vynechat. Tím bych ale zkomplikoval kód, což by byla zbyteˇcnˇe vysoká cena — i tento kód je potˇreba udržovat co nejjednodušší, zejména když na dobˇe generování dat pˇríliš nezáleží. vhodného vzoru, nebo naopak modifikovat kód generující lemma. V novém analyzátoru staˇcí k rˇ ešení téhož zadání právˇe jen zmínˇený triviální pˇrístup: pro cˇ íslice je vrácena požadovaná odpovˇed’, ostatní vstupy jsou vyhledány v datech, tedy automatu. Nejsou žádné pamˇet’ové struktury, které by bylo potˇreba konzistentnˇe naplnovat, ˇ není ani zapotˇrebí souhra více knihovních funkcí atd. 18. Zejména se aktuálnˇe jedná o pˇridávání cˇ i odebírání prefixu˚ nej- a ne-, pokud nejsou pˇrímo v datech. 19. Je ale potˇreba rˇ íct, že toto bylo v podstatˇe možné už i doted’, jen to nebylo využito. Napˇríklad mi v principu nic nebrání generovat z dat ve formátu navrženém v pˇredchozích kapitolách této práce data ve formátu analyzátoru ajka. To je možná vhodné vyjasnit: z dat v navrhovaném formátu samozˇrejmˇe generuji data v podobˇe popsané v podkapitolách 6.2 a 6.3, tedy v podobˇe vhodné pro tvorbu minimálních DAFSA. Nicménˇe mezi touto prací navrhovaným novým formátem a zde popisovaným novým analyzátorem není žádná nutná souvislost. Mohl bych z nového formátu generovat data pro analyzátor ajka a stejnˇe tak lze (a aktuálnˇe to i dˇelám) generovat z dat analyzátoru ajka data pro tvorbu automatu˚ analyzátoru majka.
94
Kapitola 7
Závˇer Pˇredkládaná práce se vˇenuje poˇcítaˇcové morfologické analýze cˇ eštiny. * Nejprve jsem popsal stávající pˇrístup k organizaci dat morfologického analyzátoru a ukázal jeho vysokou redundanci. Vysvˇetlil jsem, proˇc jsem pˇresvˇedˇcen, že jejím nutným dusledkem ˚ jsou bud’to velké náklady na údržbu dat, nebo postupný rust ˚ míry jejich nekonzistence. Následnˇe jsem navrhl formalismus pro popis dat morfologického analyzátoru, který umožnuje ˇ tuto redundanci významným zpusobem ˚ zredukovat. Zárovenˇ jsem nový formát navrhoval tak, aby byl lingvisticky pˇrijatelný. Lze tak napˇríklad slova rˇ adit k tradiˇcním vzorum, ˚ hranice mezi koncovkou a slovním základem (kmenem) muže ˚ odpovídat mluvnickým popisum, ˚ formát umožnuje ˇ zachytit pravidelné hláskové zmˇeny, resp. alternace, dovoluje získat ke slovním tvarum ˚ jejich cˇ ásteˇcnou morfematickou analýzu cˇ i elegantnˇe vyjádˇrit pravidelné slovotvorné vztahy a mnoho dalšího. Navrhovaný formát navíc poskytuje prostˇredky jak pro odlišení pravidelného a nepravidelného, tak díky implicitním pravidlum ˚ i pro odlišení jevu˚ základních, pˇrevažujících oproti jevum ˚ menšinovým cˇ i výjimeˇcným. Na rozdíl od existujících popisu˚ dat, kde bylo možné tutéž skuteˇcnost rovnocennˇe vyjádˇrit ruznými ˚ zpusoby, ˚ v novém formátu je zpravidla možné formálnˇe odlišné popisy téže skuteˇcnosti i odlišnˇe interpretovat. Podstatnou vlastností navrhovaného formátu také je, že jednotlivé možnosti, které pro popis dat nabízí, jsou vesmˇes vzájemnˇe nezávislé. Zejména tedy lze kteroukoli z nich nepoužívat, kdyby napˇríklad nˇekomu pˇripadala špatnˇe motivovaná nebo tˇreba pˇríliš komplikující výsledný popis. V pˇríkladech jsem nˇekdy schválnˇe zacházel do extrému, ˚ abych co nejlépe ukázal všechny možnosti nového formátu, je ale dobˇre možné k popisu dat využívat jen nˇejakou jejich podmnožinu. Za hlavní pˇrínos této cˇ ásti práce považuji skuteˇcnost, kterou se mi podaˇrilo ukázat, že totiž pro popis morfologických dat není nutné používat nˇejaká „technická“ rˇ ešení, ale že lze data popisovat lingvisticky interpretovatelným zpusobem. ˚ Že tedy není nutný žádný zásadní rozdíl mezi po95
ˇ 7. Z ÁV ER
pisem potˇrebným pro morfologický analyzátor a popisem lingvistickým, mluvnickým. A že je navíc dokonce žádoucí pˇriblížit poˇcítaˇcový popis lingvistickému, protože to umožní výraznˇe snížit dosavadní redundanci dat. * V poslední cˇ ásti práce jsem ukázal pro cˇ eštinu zcela novou konstrukci morfologického analyzátoru, kdy analýza spoˇcívá jen v pruchodu ˚ deterministickým koneˇcným automatem reprezentujícím data jako seznam rˇ etˇezcu. ˚ Pˇrestože je pˇríslušná kapitola nepomˇernˇe kratší než zbytek práce vˇenovaný novému formátu pro popis dat — fungování analyzátoru je natolik triviální, že jednoduše nevyžaduje detailnˇejší rozbor — považuji tuto cˇ ást pˇrinejmenším z praktického pohledu za nejvˇetší pˇrínos své práce. Jednak jsou v tomto pˇrípadˇe dosažené výsledky exaktnˇe zmˇerˇ itelné, kdy nový analyzátor majka je nˇekolikrát rychlejší než konkurenˇcní rˇ ešení (pˇriˇcemž se ovšem nejedná o nˇejaký okrajový problém, jehož efektivnímu rˇ ešení by tˇreba jen dosud nebylo vˇenováno patˇriˇcné úsilí, ale jde o jeden ze základních nástroju˚ pro zpracování pˇrirozeného jazyka), jednak je použitelnost a spolehlivost analyzátoru ovˇerˇ ena praxí v podobˇe produkˇcního nasazení ve velkých systémech, jako je napˇríklad internetový vyhledávaˇc Seznam.cz nebo systémy pro detekci plagiátu. ˚ Významným praktickým pˇrínosem je vzhledem k pˇredchozímu stavu nesrovnatelné usnadnˇení pˇridávání nových vlastností, což ted’ znamená jen vygenerování vhodných dat bez nutnosti zasahovat do analyzátoru jako takového. Pokud je napˇríklad potˇreba, aby analyzátor poskytoval informace o derivaˇcních vztazích, segmentaci slova, nebo je tˇreba žádoucí i jen omezit poskytované znaˇcky pouze na urˇcité vybrané kategorie, staˇcí vytvoˇrit vhodná data, analyzátor muže ˚ být ponechán beze zmˇeny, nanejvýš postaˇcí jen malé úpravy pro správnou interpretaci výsledku. ˚ Z hlediska dlouhodobé údržby a rozvoje je dále podstatné, že nový analyzátor pracuje na zcela jednoduchém principu, jehož implementace vyžaduje jen relativnˇe krátký kód, zejména jsou ale krátké, a navíc i vzájemnˇe nezávislé obslužné kódy pro jednotlivé druhy slovníku, ˚ u kterých jediných lze oˇcekávat potˇrebu doplnˇení cˇ i úprav. Soudím ale, že pˇrínos lze vidˇet i na teoretické rovinˇe: prokazuji totiž, že pro realizaci poˇcítaˇcové morfologické analýzy (ˇceštiny, ale tvrzení lze zobecnit na všechny jazyky tvoˇrící tvary slov modifikacemi jejich konce) nejsou potˇreba žádné speciální algoritmy cˇ i datové struktury pˇrítomné ve stávajících analyzátorech, ale že k celé problematice lze pˇristupovat velmi jednoduchým zpusobem. ˚ To ovšem, nutno podotknout, není myšlenka zcela nová, ale jde z cˇ ásti o využití pˇrístupu˚ existujících už více než deset let, jimž se jen zatím nedostávalo takové pozornosti, kterou by zasluhovaly. 96
Literatura ˇ ˇ Ceský národní korpus – SYN2000, SYN2005. Ústav Ceského národního korpusu, Filozofická fakulta Univerzity Karlovy, 2000, 2005. URL http: //www.korpus.cz. ˇ Internetová jazyková pˇríruˇcka. Ústav pro jazyk cˇ eský, Akademie vˇed Ceské republiky, 2008–2010. URL http://prirucka.ujc.cas.cz. Pavel Caha. The nanosyntax of case. Disertaˇcní práce, Center for Advanced Study in Theoretical Linguistics (CASTL), University of Tromsø, Tromsø, 2009. URL http://hdl.handle.net/10037/2203. ˇ Marie Cechová, Miloš Dokulil, Zdenˇek Hlavsa, Josef Hrbáˇcek a Zdenka ˇ ˇ Hrušková. Ceština — rˇ eˇc a jazyk. ISV nakladatelství, Praha, 2. vydání, 2000. Jan Daciuk. Incremental Construction of Finite-State Automata and Transducers, and their Use in the Natural Language Processing. Disertaˇcní práce, Technical University of Gdansk, ´ Gdansk, ´ 1998. URL http: //www.pg.gda.pl/~jandac/thesis.ps.gz. Josef Filipec a kol. (editoˇri). Slovník spisovné cˇ eštiny pro školu a veˇrejnost. Academia, Praha, 2. vydání, 1994. URL http://deb.fi.muni. cz/debdict/index-cs.php. Elektronická verze firmy LEDA. Marek Grác. Tvorba morfologické databáze z neoznaˇckovaného korpusu. Diplomová práce, Fakulta informatiky Masarykovy univerzity, Brno, 2006. URL http://is.muni.cz/th/50728/fi_m/. Jan Hajiˇc. Unification Morphology Grammar. Disertaˇcní práce, Institut formální a aplikované lingvistiky, Matematicko-fyzikální fakulta Univerzity Karlovy, Praha, 1994. URL http://ufal.mff.cuni.cz/pdt/ Morphology_and_Tagging/Morphology/Doc/References. Jan Hajiˇc. Disambiguation of Rich Inflection (Computational Morphology of Czech). Karolinum, Praha, 2004. 97
L ITERATURA Bohuslav Havránek a kol. (editoˇri). Slovník spisovného jazyka cˇ eskˇeho. Academia, Praha, 1960–1971. URL http://deb.fi.muni.cz/ debdict/index-cs.php. ˇ Zdenka ˇ Hladká a kol. Ceština v souˇcasné soukromé korespondenci. Dopisy, e-maily, SMS. Masarykova univerzita, Brno, 2005. URL http://www. korpus.cz/dopisy.php. Dana Hlaváˇcková a Radek Sedláˇcek. Morfologické znaˇckování korpusu soukromé korespondence. In Marcel Olšiak (editor), Varia XIV. Zborník materiálov zo XIV. kolokvia mladých jazykovedcov, Slovenská jazykovedná spoloˇcnost’ pri Slovenskej akadémii vied, Bratislava, 2006. Dana Hlaváˇcková, Klára Osolsobˇe, Karel Pala a Pavel Šmerk. Relations between Formal and Derivational Morphology in Czech. In Mojmír Doˇcekal a Markéta Ziková (editoˇri), Czech in Formal Grammar, Lincom, München, 2009a. Dana Hlaváˇcková, Klára Osolsobˇe, Karel Pala a Pavel Šmerk. Exploring Derivational Relations in Czech with the Deriv Tool. In Jana Levická a Radovan Garabík (editoˇri), NLP, Corpus Linguistics, Corpus Based Grammar Research, Jazykovedný ústav L’udovíta Štúra, Slovenská akadémia vied, Bratislava, 2009b. URL http://korpus.juls.savba.sk/~slovko/ 2009/Proceedings_Slovko_2009.pdf. Jaroslava Hlaváˇcová. Formalizace systému cˇ eské morfologie s ohledem na automatické zpracování cˇ eských textu. ˚ Disertaˇcní práce, Filozofická fakulta Univerzity Karlovy, Praha, 2009. URL http://ufal.mff.cuni. cz:8080/bib/?section=publications. Jaroslava Hlaváˇcová a David Kolovratník. Morfologie cˇ eštiny znovu a lépe. In Peter Vojtáš (editor), Informaˇcné technológie — aplikácie a teória, ITAT 2008, Univerzita Pavla Jozefa Šafárika, Košice, 2008. URL http://ufal.mff.cuni.cz:8080/bib/?section=publications. Petr Karlík, Marek Nekula a Zdenka Rusínová (editoˇri). Pˇríruˇcní mluvnice cˇ eštiny. Nakladatelství Lidové noviny, Praha, 2. vydání, 1997. Petr Karlík, Marek Nekula a Jana Pleskalová (editoˇri). Encyklopedický slovník cˇ eštiny. Nakladatelství Lidové noviny, Praha, 2002. Zuzana Koláˇrová. Možnosti a meze automatické derivace (poˇcítaˇcové zpracování deverbativ na -ce a na -ec). Diplomová práce, Filozofická fakul98
L ITERATURA ta Masarykovy univerzity, Brno, 2009. URL http://is.muni.cz/th/ 104381/ff_m/. Klára Osolsobˇe. Algoritmický popis cˇ eské formální morfologie a strojový slovník cˇ eštiny. Disertaˇcní práce, Filozofická fakulta Masarykovy univerzity, Brno, 1996. Klára Osolsobˇe. Formální pravidla derivace deverbativ na -ˇc. Linguistica Brunensia, 56, 2008. ISSN 1803-7410. Klára Osolsobˇe. Deriváty na -ˇcí: gramatika, slovník a korpus. Linguistica Brunensia, 57, 2009. ISSN 1803-7410. Klára Osolsobˇe, Karel Pala, Radek Sedláˇcek a Marek Veber. A Procedure for Word Derivational Processes Concerning Lexicon Extension in Highly Inflected Languages. In Manuel González Rodríguez a Carmen Paz Suarez Araujo (editoˇri), Proceedings of the Third International Conference on Language Resources and Evaluation, LREC, ELRA, Las Palmas, 2002. URL http://nlp.fi.muni.cz/publications/ lrec2002_osolsobe_pala_rsedlac_veber/paper.pdf. Karel Pala a Dana Hlaváˇcková. Computer Processing of Derivational Relations in Czech. In Jana Levická a Radovan Garabík (editoˇri), Computer Treatment of Slavic and East European Languages, Jazykovedný ústav L’udovíta Štúra, Slovenská akadémia vied, Bratislava, 2007. URL http://korpus.juls.savba.sk/~slovko/2007/Slovko _2007_proceedings.pdf. Karel Pala, Radek Sedláˇcek a Marek Veber. Relations between Inflectional and Derivation Patterns. In Tomaž Erjavec a Duško Vitas (editorˇ i), Proceedings of the Workshop on Morphological Processing of Slavic Languages, ACL, Budapest, 2003. URL http://www.aclweb.org/ anthology/W/W03-2901. Jan Petr a kol. (editoˇri). Mluvnice cˇ eštiny 1. Academia, Praha, 1986a. Jan Petr a kol. (editoˇri). Mluvnice cˇ eštiny 2. Academia, Praha, 1986b. Hana Rišianová. Poˇcítaˇcové zpracování vybraných slovotvorných typu. ˚ Bakaláˇrská oborová práce, Filozofická fakulta Masarykovy univerzity, Brno, 2008. 99
L ITERATURA Radek Sedláˇcek. Morfologický analyzátor cˇ eštiny. Diplomová práce, Fakulta informatiky Masarykovy univerzity, Brno, 1999. URL http: //nlp.fi.muni.cz/projekty/ajka/ajka.pdf. Radek Sedláˇcek. Morphemic Analyser for Czech. Disertaˇcní práce, Fakulta informatiky Masarykovy univerzity, Brno, 2004. Radek Sedláˇcek. ajka tagset. Fakulta informatiky Masarykovy univerzity, Brno, 2006. URL http://nlp.fi.muni.cz/projekty/ajka/tags. pdf. Hana Skoumalová. A Czech Morphological Lexicon. In John Coleman (editor), Proceedings of the Third Meeting of the ACL Special Interest Group in Computational Phonology, ACL, Madrid, 1997a. URL http: //xxx.lanl.gov/abs/cmp-lg/9707020. Hana Skoumalová. Czech lexicon by two-level morphology. In Ruta Marcinkeviciene a Norbert Volz (editoˇri), Proceedings of the Second European Seminar of TELRI — Language Applications for a Multilingual Europe, IDS/VDU, Mannheim/Kaunas, 1997b. Drahomíra Spoustová. Kombinované statisticko-pravidlové metody znaˇckování cˇ eštiny. Disertaˇcní práce, Institut formální a aplikované lingvistiky, Matematicko-fyzikální fakulta Univerzity Karlovy, Praha, 2007. URL http://atrey.karlin.mff.cuni.cz/~johanka/epos.pdf. Marek Veber. Nástroje pro textové korpusy a morfologické databáze. Disertaˇcní práce, Fakulta informatiky Masarykovy univerzity, Brno, 2005. Zbynˇek Šiška. Bázový morfematický slovník cˇ eštiny. Univerzita Palackého v Olomouci, Olomouc, 2. vydání, 2005. Podle elektronické podoby na www. morfemy.cz. Pavel Šmerk. Morphemic Analysis: A Dictionary Lookup Instead of Real Analysis. In Petr Sojka a Aleš Horák (editoˇri), Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2007, Masarykova univerzita, Brno, 2007. URL http://nlp.fi.muni.cz/ raslan/2007/papers/8.pdf. Pavel Šmerk. Towards Czech Morphological Guesser. In Petr Sojka a Aleš Horák (editoˇri), Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2008, Masarykova univerzita, Brno, 2008a. URL http://nlp.fi.muni.cz/raslan/2008/papers/ 10.pdf. 100
L ITERATURA Pavel Šmerk. K morfologické desambiguaci cˇ eštiny. Rigorózní práce, Fakulta informatiky Masarykovy univerzity, Brno, 2008b. URL http: //is.muni.cz/th/3880/fi_r. Pavel Šmerk. Fast Morphological Analysis of Czech. In Petr Sojka a Aleš Horák (editoˇri), Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2009, Masarykova univerzita, Brno, 2009. URL http://nlp.fi.muni.cz/raslan/2009/papers/13. pdf. Markéta Ziková. (Systematický) synkretismus vs. (náhodná) homonymie: plurál cˇ eských jmen, 2006. URL http://www.phil.muni.cz/cest/ lide/zikova/Olomouc_06_hdt.pdf. Handout k pˇrednášce na VII. mezinárodním setkání mladých lingvistu, ˚ Olomouc. Markéta Ziková. Alternace vokálu˚ s nulou v souˇcasné cˇ eštinˇe — laterální autosegmentální analýza. Disertaˇcní práce, Filozofická fakulta Masarykovy univerzity, Brno, 2008. URL http://www.phil.muni.cz/cest/ lide/zikova/Disertace_definitivni_verze.pdf. Markéta Ziková a Pavel Caha. Princip synkretismu aneb Augiášuv ˚ chlév cˇ eské deklinace. Linguistica ONLINE, roˇc. 1, cˇ . 1–2, 2006. ISSN 18015336. URL http://www.phil.muni.cz/linguistica/art/zikcah/ zic-001.pdf. Markéta Ziková a Pavel Caha. The Czech Declension and Syncretism Principle. In Peter Kosta a Lilia Schürcks (editoˇri), Linguistics Investigations into Formal Description of Slavic Languages, Peter Lang, Frankfurt am Main, 2007. URL http://www.phil.muni.cz/cest/lide/zikova/ FDSL6_05_hdt.pdf. Odkaz vede na handout k pˇrednášce autoru˚ na FDSL 6. Abych pˇrípadným zájemcum ˚ ušetˇril námahu, uvádím, je-li to možné, odkazy, kde lze získat mnou použité zdroje, nebo alesponˇ další související informace. Odkazy byly funkˇcní k datu vyhotovení práce.
101
Pˇríloha A
Pˇríklad souboru vzoru˚ pro životná maskulina Pˇríliš dlouhé rˇ ádky zalamuju znakem \. Na rozdíl od pˇríkladu˚ v textu práce se zatím tato data snažím udržovat co nejpodobnˇejší puvodním ˚ datum ˚ analyzátoru ajka. Témˇerˇ zde tedy nepoužívám znak <, naopak ale mám ve vzorech znaˇcky s pˇríznakem wH, které jsem v práci pro struˇcnost neuvádˇel.
A.1
ˇ Cást specifická pro životná maskulina
$shoda c1 c5 k1gMnS\Kc3 c6 k1gMnS\Kc2 c4 $k1gM $Cc\Ke soudce [^=][eyií] muž_nP,+adj &/qJO -ové &*ita|*ista|*asta|+krat -i,+-é \Ka žena_nS,+-ovi,pán_nP,muž_nP/$M|c, \ žena_nPc4,-ové,+předseda-wH \Ko město_nS,+-ovi,pán_nP,muž_nP/$M|i,-ové \K-as pán,muž_nP/i,-ové,-as \K-es pán,muž_nP/i,-ové,-es \K-os pán,muž_nP/i,-ové,-os \K-us pán,muž_nP/i,-ové,-us &l -ové,+-i/qA &+fob|+nom -ové &+kaz +muž [sxz]/qJO muž,
ˇ ˚ PRO ŽIVOTNÁ MASKULINA A. P RÍKLAD SOUBORU VZOR U
k1gM:-ovi,-ové,+-i k1gM nSc1 0 nSc7 em nPc2 ů nPc3 ům nPc3wH um nPc6wH ách nPc7wH ama pán:k1gM nSc2 +nSc3 nSc5 nPc4 nPc6 nPc7 muž:k1gM nSc2 nSc2wH +nSc3 nSc5 nSc5wH nPc4 nPc6 nPc7 +nPc7wH předseda-wH nSc4wH nSc7wH nPc4wH soudce:muž nSc1 nSc5 nSc5wH
a u e, u/ch|[ghk], ’e/[^aeiouyáéěíóúůýj]r, \ e/[^aeiouyáéěíóúůýj]r&qJOP y ech, ích/ch|[ghkeo], ech/e y
e a i i, ’e/.ec u/!.ec e ích i ema
y/!$MC em ě/$MC e e ’e
-ovi nSc3 104
ovi
ˇ ˚ PRO ŽIVOTNÁ MASKULINA A. P RÍKLAD SOUBORU VZOR U
-ové nPc1
ové
nPc1
i/[^eégiíuy]
nPc1
é
nSc1
us
nSc1
es
nSc1
os
nSc1
as
-i -é -us -es -os -as
=ač:-i k1gM =an:-é k1gM =tel:muž,-é
A.2
ˇ Cást sdílená s jinými rody cˇ i slovními druhy
$proměnné V C T O M MC S
žena k1gF nSc1 nSc2 nSc3 nSc4 nSc5 nSc7 nSc7wH
(?i:ou|[.%]?[aáeéěiíoóuúůyý]) (?i:ch|[bcčdďfghjklmnňpqrřsštťvwxzž]) (?i:ch|[dghknrt]) (?i:[bflmpsvz]) (?i:[čďjňřšťž]) (?i:[čďjňřšťžc]) (?:(?!$C+[rl]$C)$C*$V(?!$C+[rl](?:$C| \ $))$C*|$C+[rl]$C*(?!$V))
a y, i/$MC ě/!gM u o ou ó 105
ˇ ˚ PRO ŽIVOTNÁ MASKULINA A. P RÍKLAD SOUBORU VZOR U
nPc1 nPc4
y, i/$MC y, i/$MC
město k1gN nSc1 nSc2 nSc3 nSc6 nSc7
o a u u, ě/!gM em
adj gMnSc1 gMnSc2 gMnSc3 gMnSc6 gMnSc7 gMnPc1 gMnPc2 gMnPc3 gMnPc4 gMnPc6 gMnPc7 gMnPc7wH
0 ho mu m m 0 ch m 0 ch mi ma
nSc1 nSc2 nSc3 nSc7 nPc1 nPc2 nPc3 nPc4 nPc6 nPc7
0 0 0 0 0 0 0 0 0 0
neskl
=ý:adj
=í:adj 106
k2 =é:adj_gMnSc[236]|gMnPc4 =’í:adj_gMnPc1 k2
ˇ ˚ PRO ŽIVOTNÁ MASKULINA A. P RÍKLAD SOUBORU VZOR U
A.3
Nˇekolik poznámek ke vzorum ˚
Následující poznámky jsou jen vzájemnˇe nesouvisející komentáˇre k jednotlivostem v uvedených vzorech. Formát komentáˇre samozˇrejmˇe umožnuje, ˇ zbyteˇcnˇe by ale znepˇrehlednovaly ˇ výpis vzoru, ˚ takže je takto vyˇclenuji. ˇ ∙ ∙
∙
∙
∙ ∙
∙
V [ˆ=][eyií] (ve „vzoru“ $k1gM) je podmínka [ˆ=] pro odlišení slov muftí od průvodč=í. Znakem + znaˇcím hranice slov ve složených slovech, mám tedy napˇríklad ve slovníku dřevo+kaz. Znakem * znaˇcím zakonˇcení, u kterých zatím nevím, jak se k nim chovat, jestli jde o pˇrípony, nebo nˇeco jiného. Mám tak ve slovníku napˇríklad gymn*asta, ale ochlasta. Implicitní pravidla \Ka a \Ko popisují sklonování ˇ slov typu pˇredseda a gigolo, pˇriˇcemž v plurálu se podle vzoru muž sklonují ˇ napˇríklad paňáca cˇ i rikša, resp. gaučo cˇ i Antonio. U puvodem ˚ rˇ eckých a latinských slov zakonˇcených v Npl na -us, -os, -as a -es mám ve slovníku Npl podobu s vyznaˇceným zakonˇcením, napˇríklad cerber-us (abych to odlišil od slov jako Bělorus). Implicitní pravidla zajistí odtržení tohoto zakonˇcení a posléze pro Npl ˇ i naopak pˇripojení odpovídající koncovky. Držím se tak popisu MC2 (s. 337), která to oznaˇcuje za „cizí pádovou koncovku“ (naproti tomu (Šiška, 2005, s. 11) to oznaˇcuje za „periferní deklinaˇcní složku“ a Npl segmentuje cerber(us)-0). Místo vyznaˇcení koncovky ve slovníku by bylo možné mít nˇejaký pˇríznak ve znaˇcce, který by zajistil odtržení zakonˇcení [aeou]s, aniž by bylo explicitnˇe vyznaˇceno. Zakonˇcení, která jsou na konci „vzoru“ $k1gM podmínkou pro vzor -i vesmˇes respektují informace v IJP.1 Poslední tˇri rˇ ádky „vzoru“ $k1gM popisují implicitní sklonování ˇ životných maskulin, tedy tendenci, kterou jsem pozoroval v datech a kterou pˇredpokládám u nových slov. U osobních jmen zakonˇcených na s, z cˇ i x se zdá v plurálu v úzu pˇrevažovat tvrdé sklonování ˇ (mluvnice ani IJP se k plurálu nevyjadˇrují), u obecných jmen zakoncˇ ených na l, s, z a x se zdá pˇrevládat sklonování ˇ podle vzoru pán. Výjimky, jako napˇríklad slovo král, mám uvedeny pˇrímo ve slovníku v podobˇe král:muž — v podstatˇe skuteˇcnˇe jakožto výjimky. Ve vzoru pán poslední koncovka nSc5 popisuje skuteˇcnost, že od pˇríjmení zakonˇcených v Npl na konsonant a r lze tvoˇrit Vsg tvary
ˇ Clánek „Sklonování ˇ mužských živ. jmen — 1. p. mn. cˇ .“, http://prirucka.ujc. cas.cz/?id=226. 1.
107
ˇ ˚ PRO ŽIVOTNÁ MASKULINA A. P RÍKLAD SOUBORU VZOR U
∙
zakonˇcené -ˇre i -re (napˇríklad Richtˇre i Richtre).2 Ve vzoru žena bude zˇrejmˇe lépe místo y, i/$MC psát jen -y (jako /i/ nevyvolávající hláskové zmˇeny, resp. alternace) a pˇridat pravidlo, které zmˇení -y na -i po pravopisnˇe mˇekkých konsonantech.
Z puvodních ˚ 20054 lemmat životných maskulin uvedené vzory v tuto chvíli popisují 19975. Zbytek jsou ruzné ˚ okrajové výjimky, které jsem dosud nezpracoval. V tabulce A.1 jsou poˇcty slov, která mají stejnou znaˇcku, seznam vzoru˚ a nepravidelné tvary, pokud se jich takto shodovalo alesponˇ deset. Jsou-li uvedeny nepravidelné tvary, jde o minivzory (je pak tedy ve slovníku napˇríklad půlpán:pán$). Konkrétní pˇríklady jsou vybírány náhodnˇe. V prostˇredním sloupci je procentuální podíl mezi všemi životnými maskuˇ liny. Císla v tabulce dokládají, že v novém formátu staˇcí ve slovníku u více než devadesáti procent životných maskulin uvést pouze cˇ ást znaˇcky, pˇrípadnˇe dokonce jen vyznaˇcit pˇríponu. 13871 2207 1654 683 440 321 146 90 90 58 52 41 35 22 17 16
69.17 11.01 8.25 3.41 2.19 1.60 0.73 0.45 0.45 0.29 0.26 0.20 0.17 0.11 0.08 0.08
12 10
0.06 0.05
gaučo k1gM Ionesc[ko k1gMqJOP Severo+evrop=an Mario k1gMqJO kok.eš:-ové k1gM sob.ěk:-i k1gM uniat:-é k1gM invalida:-é,+-i k1gM košer:+-ové k1gM dutoroh=ý k1gMnP tatí:neskl k1gM pterosaur-us:+-i k1gM v%ol k1gMqA příchoz:muž,-ové Ferrari:neskl k1gMqJOP pán k1gM pane nSc5 Řek k1gMqJN Ciceron k1gMqJO Cicero nSc1
Tabulka A.1: Nejˇcastˇejší popisy slov ve slovníku. 2.
IJP, cˇ lánek „Osobní jména mužská zakonˇcená ve výslovnosti na souhlásku“, cˇ ást 1.1.c,
http://prirucka.ujc.cas.cz/?id=320#nadpis2.
108
Pˇríloha B
Obsah elektronické pˇrílohy K práci pˇrikládám nˇekolik souboru˚ v elektronické podobˇe. U tištˇené verze práce budou na pˇriloženém CD, u elektronické podoby práce v Národním registru vysokoškolských kvalifikaˇcních prací (http://theses.cz) by mˇely být zkomprimovány do jednoho archívu priloha.zip a dostupné stejným zpusobem ˚ jako práce samotná (za to ovšem nemohu žádným zpusobem ˚ ruˇcit). Pokud byl soubor zmínˇen v textu práce, odkazuji zde na pˇríslušnou cˇ ást práce. ∙
∙ ∙
∙ ∙ ∙ ∙
readme.txt — obdoba této pˇrílohy. Sem kopíruji tyto informace proto, aby si cˇ tenáˇr mohl o obsahu udˇelat pˇredstavu dˇrív, než (pˇrípadnˇe beztoho, aniž) by vložil CD do mechaniky nebo zaˇcal hledat a stahovat soubor priloha.zip vzory.txt — definice všech vzoru˚ životných maskulin z dat analyzátoru ajka (podkapitola 3.2) jinak.vzory.txt a jinak.slova.txt — odlišnosti nového popisu oproti puvodním ˚ datum, ˚ zejména tedy ruzné ˚ nekonzistence v pu˚ vodních datech (podkapitola 3.2) par.txt — soubor vzoru˚ (pˇríloha A a kapitola 5) skript.pl — skript vyhodnocující data v novém formátu (kapitola 5) mail.txt — maily s nekonzistencemi v IJP (podkapitolka 5.2.2) prace.pdf — PDF soubor s textem práce a aktivními odkazy, v adresáˇri prace je TEXový zdroj
109
Pˇríloha C
Regulární výrazy použité v práci V práci pˇredpokládám, že je cˇ tenáˇr obeznámen s fungováním regulárních výrazu, ˚ pro jistotu zde ale uvádím pˇrehled a struˇcný popis konstrukcí, které jsem nˇekde v práci použil. Kompletní dokumentaci regulárních výrazu˚ lze najít napˇríklad na http://perldoc.perl.org/perlre.html.
[ghk] [ˆghk] ˆ $
(?:RE)
x?
x* x+ RE1|RE2
(?!RE)
\K
odpovídá kterémukoli z vyjmenovaných znaku˚ odpovídá kterémukoli kromˇe vyjmenovaných znaku˚ odpovídá zaˇcátku rˇ etˇezce odpovídá konci rˇ etˇezce (zárovenˇ použito pro vyznaˇcení promˇenných k nahrazení, viz podkapitolka 4.7.3 — protože jméno promˇenné následuje po $, nemuže ˚ dojít k zámˇenˇe s $ znamenajícím konec rˇ etˇezce) vyznaˇcení, ohraniˇcení cˇ ásti regulárního výrazu RE, napˇr. (?:abc), možné využití viz další konstrukce. Varianta (?i:abc) znamená, že v závorkami ohraniˇcené cˇ ásti se nebere ohled na velikost písmen na daném místˇe v rˇ etˇezci se muže, ˚ ale nemusí vyskytovat x, což muže ˚ být znak, výˇcet znaku˚ cˇ i cˇ ást regulárního výrazu ohraniˇcená závorkami jako x?, navíc se x muže ˚ libovolnˇekrát opakovat jako x*, ale x se musí vyskytovat alesponˇ jednou odpovídá bud’to regulárnímu výrazu RE1, nebo regulárnímu výrazu RE2. V rámci vˇetšího regulárního výrazu nutné ohraniˇcit závorkami, tedy psát (?:RE1|RE2) to, co v rˇ etˇezci následuje, nesmí odpovídat regulárnímu výrazu RE (na rozdíl od [ˆa], což odpovídá cˇ emukoli kromˇe znaku a, výraz (?!a) neodpovídá žádnému znaku, jen se vyjadˇruje ke kontextu) pˇri nahrazování bude nahrazena pouze cˇ ást za \K
Znaky + a * (a znak . standardnˇe odpovídající libovolnému znaku) je aktuálnˇe možné použít pouze v promˇenných. 110