K některým otázkám závislostní gramatiky* EVA HAJIČOVÁ On some issues of dependency grammar ABSTRACT: The popularity of dependency-based syntax has grown in the last thirty years, in spite of the fact that phrase-structure-based descriptions have prevailed in so-called mainstream linguistics. Two factors are important here: (i) a growing interest in semantics, which results in the penetration of dependency-based notions into the original phrase-structure-based grammars, (ii) dependency offers a more perspicuous view of the sentence structure and as such has played an important role in computational linguistics. We first summarize the basic tenets of both theories mentioned above (Section 2) and point out the reasons for the growing interest in dependency-based grammars (Section 3). In Section 4, attention is focused on one of the issues often quoted as problematic in dependency-based analysis, namely cases in which the surface order of words is not in accordance with the condition of projectivity. The analysis, based on material from the Prague Dependency Treebank, supports the claim made by Functional Generative Description that this issue can be adequately solved by postulating a dependency-based underlying (tectogrammatical) syntactic structure that meets the condition of projectivity and by describing the relationship between this structure and the surface word order on the basis of certain contextual conditions. Key words: theoretical description of language, dependency grammar, projectivity, computational linguistics, Prague Dependency Treebank Klíčová slova: teoretický popis jazyka, závislostní gramatika, projektivita, komputační lingvistika, Pražský závislostní korpus
1. Úvod V teoretické lingvistice spolu soupeří teorie založené na syntaxi závislostní a na syntaxi složkové (frázové). Závislostní syntax nemá silnou pozici v tzv. hlavních proudech formálně zaměřené teorie, ale v poslední době svou pozici posiluje. Její rozšíření je dáno jednak tím, že je oblíbena v lingvistice komputační, a jednak tím, že její podstatné prvky jsou přijímány i v koncepcích založených složkově. V naší stati nejprve stručně shrneme základní východiska obou přístupů (odd. 2) a ukážeme, jaké důvody vedou k postupnému pronikání závislostní syntaxe do popisů založených na analýze složkové (odd. 3). V poslední části příspěvku věnujeme pozornost jednomu z problémů, o kterém se často v souvislosti se závislostní gramatikou diskutuje, totiž případům, kdy povrchový slovosled není v souladu s podmínkou projektivity; probereme je na materiálu získaném značkováním Pražského závislostního korpusu (odd. 4). 2. Základní východiska syntaktické koncepce složkové a závislostní 2.1. Syntaktický popis na základě rozkladu na bezprostřední složky je vlastní strukturnímu směru amerického deskriptivismu a zpracovává především povrchovou struktuccccccccccccccccccccccccccccccccccccccccccc
* Tento článek vychází u příležitosti autorčina životního jubilea (srov. J. Panevová: Životní jubileum Evy Hajičové. Slovo a slovesnost, 66, 2005, s. 315–317). Pozn. red.
Slovo a slovesnost, 67, 2006
3
ru věty. Věta se člení na část podmětovou a přísudkovou, každá z těchto částí se dělí na své vlastní složky atd., až po elementární jednotky morfématické. V původní koncepci šlo o dělení větší složky na dvě menší; od tohoto binárního členění se později ustupuje a složky mohou být i vícečlenné (tak se například postupuje v Chomského tzv. teorii X‘ („X s pruhem“)); v současných popisech vycházejících z Chomského školy lze však sledovat návrat k zásadě dvojčlennosti (dodržování takové zásady ovšem přináší četné problémy a vede k neadekvátnímu popisu některých syntaktických konstrukcí, srov. např. Göbbelovu, 2003, kritiku Larsonovy, 1988, analýzy anglických vazeb s přímým a nepřímým objektem). Ve formálním přístupu založeném na analýze na bezprostřední složky je struktura věty zachycena složkovým stromem, v němž je třeba pro složky, které patří k sobě těsněji, vytvořit zvláštní uzel, čímž se celá struktura věty stává méně přehlednou; tento problém přetrvává i v koncepci minimalismu a v různých dalších dnešních teoriích vzniklých na základě Chomského původní formulace frázových a transformačních gramatik. Jako kritérium „bezprostřednosti“ složek se uvádí těsnost vztahu mezi složkami: které členy věty jsou v těsnějším vztahu, patří k jedné složce. To je ovšem kritérium dosti vágní, zvláště pokud setrváme na zásadě binárnosti – jak např. určit, zda ve větě Dnes táta pracoval celý den na zahradě patří ‚těsněji‘ k sobě (pracoval) (na zahradě), (dnes) (pracoval) nebo (pracoval) ((celý) (den)) – složky tu naznačujeme závorkami. Proto se v novějších pracích uvažuje o formulaci testů pro zjišťování, které složky patří k sobě, srov. např. Adger (2003, s. 63–69). 2.2. Na rozdíl od stanovení vztahů mezi prvky věty na základě těsnosti je koncepce závislostní založena na vztahu mezi členem řídícím a členem závislým. V evropské syntaxi je známá už od počátku novodobé lingvistiky, ať už uplatňovaná v úplnosti (tedy s větnou strukturou odpovídající závislostnímu stromu, s podmětem závislým na slovese, viz zejm. K. Becker, 1837) nebo v kombinaci s větným členěním na část podmětovou a přísudkovou (jako u jiných členů německé adelungovské tradice v 19. století, nebo později, včetně českých školních gramatik a syntaxe Šmilauerovy). Soustavné zpracování takto založené syntaxe je dílem francouzského lingvisty Luciena Tesnièra (1959). Za hlavní kritérium pro rozlišení členu řídícího a závislého (tedy pro určení orientace závislostního vztahu) je možné považovat v prototypickém případě syntaktickou vypustitelnost závislého členu v endocentrických konstrukcích; tak např. ve výše uvedené větě Dnes táta pracoval celý den na zahradě je možné vynechat slova dnes, celý, den, na zahradě, aniž by věta ztratila svou gramatickou správnost. Jsou ovšem i dvojice jako najít něco, ve kterých nelze vypustit žádný člen, tj. kde uvedená metoda vypouštění sama o sobě nepomůže zjistit, který člen je řídící a který závislý. Tam je třeba se řídit principem analogie na úrovni slovních druhů: na základě existence sloves, která nemají objekt, lze určit, že i v dvojici najít něco je řídícím slovem sloveso, viz Sgall et al. (1986, s. 136n.); konec konců potvrzují potřebu takového postupu i Lopatková et al. (připr.). 4
Slovo a slovesnost, 67, 2006
Ve formálním přístupu k závislostní syntaxi se za syntaktickou reprezentaci věty (s výjimkou vztahů koordinace a apozice) pokládá závislostní strom, tj. takový graf, který má jeden vrchol a kde každý jiný uzel (větný člen) má jediného otce (matku, tj. uzel bezprostředně nadřízený), takže z každého uzlu vede jediná cesta k vrcholu stromu. Závislost je vztah binární, ovšem na jednom členu věty může záviset prvků několik; na druhé straně však každý člen může záviset jen na jednom členu řídícím (vztah doplňku k substantivu, se kterým se shoduje, nepovažujeme za vztah závislostní). Uzly ve stromu jsou uspořádány jednak strukturně (vztah otec/matka – syn/dcera), jednak lineárně (slovosledné uspořádání uzlů zleva doprava). Vedle stanovení závislostního vztahu jako takového se určují také typy závislosti, tedy syntaktická funkce (hloubkového) subjektu, přímého i nepřímého objektu, různých okolnostních určení atd. (z matematického hlediska můžeme mluvit o množině závislostních relací). Určení typu vztahu má právě velký význam pro pronikání závislostní gramatiky: čím blíže má popis k zachycení významu, tím spíš se používá popis závislostní nebo aspoň s prvky závislostní koncepce. Výhodou závislostní syntaxe je, že nepotřebuje vyznačení složek (frází); pracuje se závislostním stromem a jeho podstromy. Výhodné je i spojení gramatiky s lexikem na základě pojmů jako valence, viz dál v odd. 3.2. Jako nevýhoda závislostní syntaxe se uvádí, že závislostní strom nerozliší postupně rozvíjený přívlastek. Ve funkčním generativním popisu však postupné rozvíjení zachycujeme na základě stupňů výpovědní dynamičnosti uvnitř podstromu (hloubkový slovosled). Někdy se též argumentuje, že je obtížné pro danou dvojici stanovit, který člen je členem řídícím a který členem závislým. Pracujeme-li však s kritériem analogie a přikloníme-li se k názoru – z hlediska sémantického jistě oprávněnému –, že jádrem věty je sloveso, takový argument ztrácí platnost. Pro takový názor svědčí i pozorování opřené o sledování shod a neshod anotátorů při syntaktickém značkování Pražského závislostního korpusu: stanovení strukturních vztahů ve větě, tedy určení členů řídících a závislých, nedělalo vcelku anotátorům potíže; více se lišili v rozhodnutích o hodnotě (typu) závislostního vztahu mezi členy dvojice (viz Hajičová – Pajas – Veselá, 2002). Mezi problémy sdílené oběma přístupy patří (i) vztahy takových typů jako koordinace nebo apozice – diskuse o této otázce jde za rámec naší stati, a proto se o ní jen zmiňujeme, a (ii) nekontaktní složky (při složkovém rozboru) nebo porušení členské sounáležitosti (závislostní syntax), jak o tom pojednáváme v části 4. 3. Důvody pronikání závislostní syntaxe do teoretického popisu jazyka i jeho počítačového zpracování 3.1. Závislost poskytuje jednodušší aparát, ekonomičtější popis, a tedy přehlednější zachycení větné stavby než koncepce složková. Proto zejména tam, kde se pracuje s velkými soubory dat, se uplatňuje závislostní teorie. Tím je způsobeno, že závislostní rozbor textů je běžný při počítačových aplikacích spojených s modelováním určitého stupně porozumění, ovšem paralelně s přístupy složkovými a často ve vzájemném Slovo a slovesnost, 67, 2006
5
spojení obojích koncepcí. Od dat (od vnější podoby věty, ať už mluvené nebo psané) se tu co nejpříměji postupuje k reprezentaci struktury, a to se týká i struktury hloubkové, tj. významové stavby věty. Už B. Vauquois (viz např. Vauquois, 1975; srov. též Vauquois – Chappuy, 1985), jeden ze zakladatelů komputační lingvistiky (zejména ve spojení se strojovým překladem), pracoval vedle struktury složkové i s úrovní analýzy závislostní. S tou pracoval i v Japonsku M. Nagao (jako Vauquoisův žák, srov. Nagao, 1989) a jeho pokračovatelé. Někteří badatelé, jako Kunze (1975), Starosta (1993), Sleator (Sleator – Temperley, 1991), se soustřeďují na tzv. strukturu povrchovou, jiní postupují až k významové (hloubkové) stavbě věty. Významné postavení mezi představiteli závislostních teorií zaujímá (přes určité nejasnosti spojené zejm. s jeho pojetím monostratálního popisu) Hudson (1984, 2000). Ke známým závislostním koncepcím patří i přístup P. Hellwiga, který se autorsky podílel i na velké příručce Agel et al. (2003). Příklon k závislostní syntaxi lze dokumentovat nárůstem četnosti takto koncipovaných projektů, které se zejména od počátku devadesátých let představují na reprezentativních mezinárodních konferencích věnovaných komputační lingvistice a počítačové analýze věty, jako jsou COLING nebo výroční a další konference Association of Computational Linguistics. K zajímavým příkladům patří např. koncepce založená na tzv. constraint grammar F. Karlssona (viz např. Karlsson, 1990), ze které vycházejí i Voutilainen a Tapanainen (1993), Järvinen a Tapanainen (1998), podobně jako výzkum na univerzitě ve Freiburgu (srov. Bröker – Hahn – Schacht, 1994) a v Turíně (srov. např. Lombardo – Lesmo, 1996), i další přístupy zastoupené u Kahana (2000). Významné místo v této řadě zaujímá tzv. lexikalizovaná gramatika připojování stromů (Lexicalized tree-adjoining grammar, LTAG), navazující na originální koncepci tree-adjoining grammar (TAG) A. K. Joshiho z poloviny osmdesátých let (např. Joshi, 1985), která se stala podkladem řady studií z oblasti formální gramatiky i z oblasti aplikační (důležité místo tu zaujímá např. popis francouzštiny z pohledu koncepce TAG u Abeillé – Candito, 2000). Podobnost mezi LTAG a závislostní gramatikou se zkoumá v rámci modelu disambiguace tzv. supertagů, v nichž je zakódována závislostní syntaktická informace (Joshi – Srinivas, 1994). Tzv. tagy (podstromy, jejichž skládáním – připojováním, odtud název této teorie – vzniká strukturní zápis celé věty) jsou v tomto modelu lexikalizované, tzn. každý elementární strom je přiřazen jedné lexikální jednotce. Proto je možné chápat disambiguaci supertagů jako zjištění vztahů mezi slovy podobné tomu, jak pracují závislostní analyzátory. V mechanismu skládání lexikálně založených podstromů je tedy možné spatřovat zachycení souhry mezi složkovou a závislostní gramatikou. Zajímavé srovnání, jak lze propojit koncepci TAG s prvky přístupu tzv. minimalismu v rámci Chomského koncepce, přináší Frank (2002), a to právě především s přihlédnutím ke vztahu mezi složkovou strukturou a slovosledem. 3.2. Pronikání závislostního přístupu do komputační lingvistiky souvisí také se vznikem velkých počítačových korpusů jazykových dat a se snahou o jejich využití a zpracování. Tady ke slovu přichází uplatnění statistických přístupů v lingvistice: statistiky se využívá nejen (ani především) pro zjištění kvantitativního rázu, ale statistické postupy 6
Slovo a slovesnost, 67, 2006
umožňují i využití metod automatického učení. Johnson (2005) dokonce hovoří o „statistické revoluci“ v lingvistice, kterou lze vysledovat v polovině devadesátých let. Jako jednu z příčin extenzivního využití statistických metod uvádí skutečnost, že statistika umožňuje optimální inferenci tam, kde je přítomná nejistota (v jazyce daná např. četným výskytem víceznačností). Podobně argumentuje i Steedman (2005), který vychází ze tří ostře formulovaných vzájemně navazujících tvrzení: (a) jedinou cestou, jak bylo dosud možné automaticky vyvodit gramatiku se širokým pokrytím jazykových jevů založenou na reálných korpusech, je cesta pomocí tzv. řízeného učení (Supervised Learning) založeného na datech velkého korpusu značkovaného lidskými anotátory; (b) využití statistických jazykových modelů je jedinou cestou, jak bylo dosud možné vytvořit počítačový program, který automaticky rozbírá věty na základě široce založených gramatik (s ohledem na jazykové víceznačnosti), jako jsou např. gramatiky závislostní nebo gramatiky vyznačující řídící členy; (c) takové modely mohou dobře pracovat proto, že odrážejí spojení sémantické informace a informace založené na znalostech světa. Tvrzení (a) dokládá Steedman příkladem anotovaného pennsylvánského korpusu angličtiny (tzv. Penn Tree Bank). Pro nás je potěšitelné, že hned po angličtině je čeština druhým jazykem, pro nějž podobně široce koncipovaný a morfologicky i syntakticky označkovaný počítačový korpus existuje v podobě Pražského závislostního korpusu (ve Slově a slovesnosti o něm psali již Hajič et al., 1998). Tvrzení (b) lze doložit dvěma v současné době nejúspěšnějšími (a nejvíce citovanými) statisticky založenými automatickými systémy syntaktické analýzy, jejichž autory jsou M. Collins (2003) a E. Charniak (2001). Oba autoři své analyzátory nejprve vyvíjeli a testovali na korpusech angličtiny značkovaných na základě složkové gramatiky, ovšem s vyznačením řídících členů, což vlastně jejich přístup řadí k přístupům využívajícím vztahů závislostních. To se potvrzuje i tím, že jejich přístup bylo možno použít na češtinu a využít tak dat z Pražského závislostního korpusu (srov. Collins et al., 1999). Závislostně založených dílčích statistických analyzátorů je v literatuře popsáno víc a pro různé jazyky: namátkou uvádíme práce Eisnera (1996), stať Meyerse et al. (1996) popisující závislostní rozbor vět v dvoujazyčných paralelních korpusech a závislostní formalismus pro syntaktické značkování čínštiny autorů Ming Zhou a Changning Huang (1994), v němž autoři pracují se 44 typy závislostní relace, Oflazera (2003) aj. V novějších pracích se autoři automatické syntatické analýzy soustřeďují i na systémy počítající s porušením podmínky projektivity v povrchové stavbě věty (k této podmínce srov. podrobněji v odd. 4 níže); pro češtinu formalismus pro takto orientovanou analýzu povrchové podoby věty popisují na základě tzv. mezer Holan et al. (2000); obecněji se těmito otázkami zabývají McDonald – Crammer – Pereira (2005), Nivre – Nilsson (2005) a McDonald et al. (2005), v Sársku pak Dienes (2005). 3.3. Vývoj od popisu syntaktické stavby jazyka založeného výhradně na složkové teorii k popisu, v němž jsou zachyceny prvky koncepce závislostní, lze sledovat i v rámci teoretických a formálních přístupů. Už u Bloomfielda (1933) najdeme termín head (tedy ‚hlavní člen‘) v souvislosti s výkladem o pojmenování základních složek věty NP (noSlovo a slovesnost, 67, 2006
7
minal phrase, přesněji substantivní fráze, hlavním členem je N, substantivum) a VP (verbal phrase, hlavním členem je V, verbum). V rámci Chomského přístupu, původně se opírajícího o čistě složkovou koncepci, se pojem hlavního členu (head) fráze stává základem syntaktického komponentu koncem sedmdesátých let v tzv. teorii X s pruhem (X-bar theory): v jejím původním návrhu se pracuje se čtyřmi kategoriemi, které mohou být hlavními (neboli řídícími) členy „své“ fráze, totiž substantivum (N), sloveso (V), předložka (P) a adjektivum (A); každá z těchto kategorií stojí v čele své maximální projekce, totiž nejvyšší složky, v níž je řídícím členem (po řadě NP, VP, PP, AdjP). Tato složka se charakterizuje jako složka se dvěma pruhy, tedy jakési „nejvyšší“ patro dané struktury, pod nímž může ještě být vloženo jedno patro, složka s jedním pruhem. Tak např. sloveso jako hlavní kategorie může být spojeno v jednu složku ‚V s jedním pruhem‘ s (těsněji připojeným) objektem, a spolu s tímto objektem pak se spojuje s adverbiálním určením ve složku nejvyšší, tedy ‚V s dvěma pruhy‘ (VP). Jak upozornil James McCawley (osobní sdělení, kolem roku 1990), taková teorie může být zajímavá (byť s výhradami), pokud je vymezení množiny základních kategorií přesné a konzistentní a pokud počet těchto kategorií neroste nad rozumné meze. J. McCawley tím kriticky narážel na tendenci, která se postupně ve vývoji teorie X s pruhem uplatňovala, že totiž podle potřeby analýzy té či oné konstrukce se (kterýkoli člen věty) mohl stát hlavní kategorií více méně libovolný symbol pro gramatickou hodnotu. O charakteristiku pojmu head se pokusil Adger (2003, s. 75) v monografii shrnující syntaktickou teorii v rámci tzv. minimalismu (tedy současného stadia Chomského teorie popisu jazyka, zpracovávaného od začátku devadesátých let). Zmiňuje dvě, bohužel ne příliš jednoznačná, kritéria: (i) řídící slovo složky podmiňuje distribuci celé složky, a (ii) řídící slovo složky je sémanticky nejdůležitějším prvkem složky, protože určuje jeho referenci (jako příklad uvádí spojení adjektiva jako atributu se substantivem, v němž substantivum určuje referenci celé konstrukce). Vlastnosti řídící složky se pak promítají do všech nadřazených složek, jichž je řídící složka součástí (s. 96). Vlivnou teorií kombinující složkový popis s prvky koncepce závislostní je Head-Driven Phrase Structure Grammar, vypracovaná Pollardem a Sagem (1987, 1994). Pracuje se tu s vyznačením hlavního slova složky i s pojmem valence (1994, s. 23) a s lexikálně založenou teorií X s pruhem (s. 362). Autoři upozorňují (s. 9n.), že pojem složkové struktury je sice velmi rozšířený, ale nezakládá se na dost přesvědčivé přímé evidenci. Připomínají, že Hudsonova teorie patří k výjimkám, které nepřeceňují složkové uspořádání prvků ve větě. Při zavedení pojmu řídícího členu vystupuje do popředí spojení gramatiky s lexikem; zcela zřejmá je nutnost takového propojení už v pracích Ch. Fillmora zavádějících tzv. pádovou gramatiku (1968); ta výslovně navazuje na Tesnièrovo pojetí valence. Termín ‚pád‘ tu neodkazuje k pádu jako morfologické kategorii, ale k jeho významu (významem dativu je v prototypickém případu adresát, významem nominativu konatel apod.). Je také obecně známo, že Fillmorova teorie (a nezávisle, ale ve stejnou dobu navržené tematické role J. Grubera, 1967) se stala podnětem k zavedení tzv. theta-rolí (a theta-mřížek, theta grids). Theta-teorie se stala součástí Chomského modelu řízení a vázání (government and binding, GB; Chomsky, 1981), později vhodněji nazvaného model principů a parametrů. 8
Slovo a slovesnost, 67, 2006
Fillmore výslovně zmiňoval, že při návrhu pádové gramatiky neuvažoval primárně, do jaké teoretické syntaktické koncepce (složkové, závislostní či jiné) ji zařadit; svá východiska považoval (právem) za důležitá pro kteroukoli syntaktickou teorii. Uvádí však příklad, jak by se sémantickými rolemi mohl pracovat popis založený na bezprostředních složkách: větu (S) lze rozložit na dvě základní složky, tzv. modalitu a propozici; propozice se dále člení na sloveso a na řadu substantivních frází, které jsou charakterizovány jedním z „pádových“ příznaků (tedy K1NP, K2NP … KnNP). Každá z takto vyznačených substantivních frází se pak dále člení na vlastní substantivní frázi a daný příznak k (konatel, adresát, zasažený objekt atd.). Vztahem mezi Fillmorovou koncepcí a transformační gramatikou se podrobně zabývá J. J. Robinsonová (1969, 1970); její úvahy ozřejmují jednoduchý přechod od přístupu složkového k závislostnímu, který je ekonomičtější a průhlednější: Pádové funkce, tj. vztahy substantivní fráze ke slovesu, jsou ve Fillmorově frázovém stromu zaznamenány dvakrát (jako příznak k a jako charakteristika dané fráze, KiNP). Je proto možné uvažovat o čistě závislostní struktuře, kde sloveso je vrcholem stromu a substantiva (popř. jiné slovní kategorie) jsou k tomuto vrcholu vázána jako závislé členy v určitém typu závislosti. Pokračováním pádové gramatiky je Fillmorova koncepce rámcových sítí (frame nets), dnes už velmi podrobně rozpracovaná a v komputační lingvistice široce užívaná především pro popis syntakticko-sémantických vlastností sloves, popř. i jiných slovních druhů z hlediska počítačové lexikologie (srov. Fillmore et al., 2003). Je třeba podotknout, že Fillmorovy práce jsou nejen východiskem výzkumu zaměřeného na angličtinu, ale i projektů opírajících se o analýzu bohatého materiálu jiných jazyků (němčiny, italštiny, španělštiny, ale i japonštiny, srov. Tanaka, 1994, apod.). Je příznačné, že prvky závislostního přístupu se odedávna uplatňují v těch teoriích, které se orientují na vztah větné stavby a sémantiky. Výrazně se nutnost pracovat při popisu syntakticko-sémantické struktury věty s jinými než složkovými schématy projevuje v tzv. lexikálně-funkční gramatice J. Bresnanové (1978, 1982). Zatímco Chomsky a mnozí jeho žáci zdůrazňovali, že popis věty na všech jazykových syntaktických rovinách (tedy podkladové, povrchové i na rovině tzv. logické formy) musí být reprezentován strukturou téhož typu (tzv. projekční princip), Bresnanová (byť také Chomského žačka) postuluje struktury dvojí: složkovou (založenou na teorii X s pruhem) pro popis povrchové podoby věty a funkční, tj. s predikátem a jeho argumenty, pro popis podkladové, významové struktury věty (v té se tedy sloveso chápe jako jádro struktury). V osmdesátých a devadesátých letech byla lexikálně-funkční gramatika často podkladem počítačových zpracování přirozeného jazyka, především proto, že tento model klade velký důraz na zachycení co největšího množství gramatických údajů ve slovníku (k němuž se automatické zpracování přirozeně obrací jako k prvnímu zdroji jazykové informace), ale také proto, že nabízí vhodnou strukturu pro zachycení významové stavby. Sémantickými úvahami je zřejmě motivována i koncepce tzv. kombinatorní kategoriální gramatiky M. Steedmana (1996, 2000, 2002). U vědomí toho, že aktuální členění věty (information structure) je důležitou součástí větné stavby, autor ukazuje, že syntaktický rozbor na základě složkové gramatiky (tedy rozkladu na bezprostřední složky jako NP, VP a složky těmto dvěma základním podřazené) není pro popis aktuálního Slovo a slovesnost, 67, 2006
9
členění adekvátní. (Poznamenejme v této souvislosti, že na tuto skutečnost jsme upozornili již ve statích Hajičová – Sgall, 1975; Hajičová, 1972; a v řadě statí následujících; své výhrady ilustrujeme příkladem vět jako Letos strávíme dva týdny na Malorce v kontextu Jak strávíte letos svou dovolenou?, kde ohnisko věty, tedy spojení dva týdny na Malorce nemůže podle tehdejších koncepcí složkové gramatiky tvořit jednu složku; jedinou složkou není ostatně ani základ věty, tedy spojení letos (my) strávíme.) Steedman zavádí pojem pohyblivých složek (floating constituents): hranice mezi složkami není pevně dána, ale je pohyblivá právě v závislosti na rozkladu věty daném aktuálním členěním; takový přístup tedy umožňuje dobře zachytit aktuální členění věty uvedené výše, a stejně tak obdobné věty užité v kontextu Kde letos strávíte dva týdny dovolené?, která má dvě části: Letos strávíme dva týdny (základ) a na Malorce (ohnisko). Steedman, na rozdíl od mnoha jiných badatelů v oblasti aktuálního členění, se soustavně zabývá i těsným vztahem mezi aktuálním členěním a prozodickým průběhem věty; v tomto směru jsou průkopnické i jím vedené práce na značkování korpusu angličtiny (Calhoun et al., 2005). Jedním z předních reprezentantů závislostní syntaxe je Mel‘čuk (1988), který ve své detailně zpracované koncepci chápe i koordinační vztah jako jeden z druhů závislosti (s. 26nn.). Prvky souřadné konstrukce nevidí syntakticky na stejné úrovni a počítá spojku k druhé složce, kterou bere jako závislou. Tento postup nesdílíme, mj. proto, že souřadných členů může být víc než dva, což podporuje tradiční české chápání koordinace jako vztahu svébytného, odlišného od závislosti. Důležité je, že Mel‘čuk upozorňuje i na to, že závislost a morfologická shoda můžou jít v opačném směru (s. 33). Jeho systém rovin zahrnuje nejen povrchovou a hloubkovou syntax (viz zejm. s. 59), ale tomu, co se v české lingvistice rozbírá jako vztah mezi jazykovým významem a obsahem, odpovídá i jeho rozdíl mezi povrchovou a hloubkovou sémantikou. 4. Závislosti „na dlouhou vzdálenost“, jejich charakteristika a výskyt v Pražském závislostním korpusu 4.1. Jak už jsme se zmínili výše v odd. 2.2., kritici závislostního přístupu k syntaktické struktuře věty poukazují na některé domnělé nedostatky tohoto přístupu. Tam jsme poukázali na to, že nejsou oprávněné dvě z těchto námitek, týkající se zachycení postupného rozvíjení přívlastku a stanovení směru závislosti. S jinými, jako je zachycení koordinace (a apozice) a podmínky projektivity (ve složkově založených přístupech nazývané závislostí na dlouhou vzdálenost), se musejí tak či onak vypořádat oba přístupy, jak složkový, tak i závislostní. V tomto oddílu se zaměříme na druhý z těchto problémů; naším cílem není prověřovat zmíněné přístupy z hlediska toho, nakolik jsou schopny reflektovat daná jazyková data, ale pokusit se na materiálu, který poskytuje Pražský závislostní korpus, doložit, že konstrukce projevující se v povrchovém slovosledu jako neprojektivní lze alespoň předběžně dobře charakterizovat a že hypotéza, která počítá se splněním podmínky projektivity v hloubkové (podkladové, tektogramatické) reprezentaci věty, je nosná a reálná. Tato část naší stati vychází z úvah obsažených v rukopisu Hajičová (v tisku). 10
Slovo a slovesnost, 67, 2006
4.2.1. V Encyklopedickém slovníku češtiny (Karlík – Nekula – Pleskalová, 2002) projektivitu specifikuje L. Uhlířová takto: „(závislostní) strom, větvící se směrem od složek řídících ke složkám závislým…, je projektivní tehdy, jestliže se neprotínají dvě větve ani žádná svislá … čára vedená z každého uzlu stromu s žádnou z větví stromu“ (s. 346).1 Graficky lze neprojektivní konstrukce znázornit obr. 1, kde uzel b závisí (ať přímo nebo nepřímo) na uzlu a a závisí na něm uzel c. Svislá čára vedená z uzlu a protíná hranu vedoucí z uzlu b do c, a to v obou případech znázorněných na tomto schématu. a
a
b
b c
c
Obr. 1: Grafické znázornění neprojektivní části stromu O podmínce projektivity jako vlastnosti slovosledu důležité pro formální popis jazyka se zmiňují již v šedesátých letech Hays (1960, 1964) a Lecerf (1960). Ve formální gramatice byla podmínka projektivity (v různých podobách, které byly charakterizovány jako ekvivalentní) definována Marcusem (1965) a využita v řadě publikací především ruských matematiků a lingvistů (např. u Mel‘čuka, u nás srov. Nebeský, 1972, 1976, 1989), ale i jinde (srov. např. výše uváděnou knihu Kunzeho, i Hudsonův pojem adjacency). V novější době se objevuje řada studií o slovosledu nejrůznějších jazyků, v nichž se diskutuje o tzv. discontinuous constituents (nespojitých složkách) nebo o unbounded dependencies (termín zavedený Gazdarem, 1981, a užívaný např. i u Pollarda a Saga, 1994, s. 157nn., a jinde) nebo long-distance dependencies, tedy závislosti na dlouhou vzdálenost (tito autoři nepracují soustavně s pojmem závislosti jako základním vztahem větné stavby, ale užívají tento termín v podstatě ve smyslu „členské sounáležitosti“, jak o tom píšeme v pozn. 3 níže). Poznamenejme, že v těch složkově založených popisech, ve kterých se subjekt začleňuje mimo slovesnou složku, je takových příznakových případů daleko víc než tam, kde je subjekt do slovesné složky začleněn (srov. analýzu vět jako Marii Jirka viděl: podmět tu přerušuje slovesnou složku, pokud není chápán jako její část). 4.2.2. Pokud jde o češtinu, v pracích o slovosledu se obvykle konstatuje, že neprojektivní konstrukce tvoří periferní složku syntaktického systému češtiny (viz Uhlířová, 1987; i Mluvnice češtiny 3, Daneš – Grepl – Hlavsa, 1987) a že jen některé ustálené konstrukce tohoto typu se jako příznakové necítí. Podobně uvádí i Petkevič (2001, s. 204), že „většina vztahů v české větě je sice strukturně i slovosledně lokálních“ (neccccccccccccccccccccccccccccccccccccccccccc 1 Tato charakteristika projektivity se shoduje se specifikací v Mluvnici češtiny 3 (Daneš – Grepl – Hlavsa, 1987, s. 610n.), od níž se liší se jen užitím přesnějšího termínu „závislostní strom“. Je třeba dodat, že schéma na obr. 1 ilustruje jen dva (byť obecně nejznámější) z případů neprojektivity; srov. Havelka (2005).
Slovo a slovesnost, 67, 2006
11
projektivní konstrukce v češtině jsou příkladem struktur, které jsou svou povahou nelokální), ale podotýká, že je třeba těmto konstrukcím věnovat při automatické analýze češtiny patřičnou pozornost. Ve funkčním generativním popisu češtiny (FGP) jako vícerovinném závislostním popisu jazyka byla podmínka projektivního závislostního stromu postulována Sgallem (Sgall et al., 1969, s. 62; srov. též Sgall et al., 1986, s. 238n.; Sgall, 1998). Odchylky povrchového slovosledu od této podmínky jsme studovali na základě jejich přehledu u Uhlířové (1972), ke kterému jsme přidali typ s (kontrastivním) objektem infinitivu předsunutým před řídící sloveso (příklad: Karla plánujeme poslat na rok do Anglie), viz Sgall et al. (1986, s. 240n.). Petkevič (2001) uvádí tři typy neprojektivních konstrukcí: A. sloveso jako řídící člen je od závislého předmětu odděleno v povrchovém slovosledu nadřazeným slovesem (to je právě případ ve větě Karla plánujeme poslat na rok do Anglie uvedené výše), B. syntaktické spojení substantiva jako řídícího členu a adjektiva jako členu závislého je slovosledně přerušeno řídícím slovesem daného substantiva (Jaké máš úkoly?), C. větný člen z vedlejší věty je slovosledně extraponován do věty nadřazené (Koho si myslíš, že mám rád?). Rozboru tohoto typu se věnuje už Petkevič (1998), kde navazuje na Štíchu (1996). Oliva (2001) spojuje druhý a třetí typ do jedné skupiny; povrchové porušení projektivity charakterizuje jako „porušení souvislosti domény řídícího slova“ (s. 164) a jako příklady takového porušení dodává tzv. šplhání klitik (clitic climbing); jeho příklady dokládají jen ‚šplhání‘ klitika patřícího k infinitivu, ale tento případ je obecnější. Jako další skupinu uvádí porušení podmínky projektivity v povrchovém slovosledu dané aktuálním členěním věty (srov. Petkevičovu třídu A a výše uvedený příklad u Sgalla et al.); připomíná, že porušení domény může jít i za hranici klauze (Písemka nevím ještě, jak dopadla), a to v případě, že hlavní klauze obsahuje slovesa jako myslet, říkat, domnívat se, vědět apod., nebo že může jít i o několikanásobné (autor uvádí, že nanejvýš trojnásobné, soudě podle výskytu v Českém národním korpusu) porušení domény (Heleně se Petr ten norkový kožich rozhodl raději nekupovat). Přirozený jazyk je komplexní systém a jeho popis se může ubírat jednou ze dvou možných cest: buď se snažit popsat všechny jevy „najednou“, tedy uvažovat jazyk jako celek a popisovat jednotlivé jevy „na jedné úrovni“, nebo postupovat od jádra systému k jeho periferii (k této důležité metodologické otázce srov. Sgall, 2001). Druhý z uvedených postupů je velmi vhodný i při popisu českého slovosledu: lze vycházet od jádra, tedy hloubkového slovosledu splňujícího podmínku projektivity a neprojektivní struktury chápat jako odchylky od projektivity (tedy chápat je jako řadu příznakových případů a výjimek), které je možné popsat jako příznakový vztah mezi hloubkovým slovosledem (stupnicí výpovědní dynamičnosti J. Firbase) a morfématickou strukturou věty (řetězem slov, ve kterém se podmínka projektivity ovšem jakožto v řetězu uplatňovat nemůže). Možnost specifikace takového přechodu od stromu k řetězu s příkladem tzv. přemisťovacích pravidel je naznačena u Sgalla (1997) a ve stati Hajičové a Sgalla (2003). Jde ovšem o silnou hypotézu, kterou je třeba empirickým výzkumem ověřovat a dále zpřesňovat. Připomeňme jen, že pojem příznakovosti (angl. markedness) je jedním ze základních pojmů Pražské školy, který zdůrazňoval zejména Roman Jakobson; 12
Slovo a slovesnost, 67, 2006
tento pojem patřil k těm aspektům pražské lingvistické teorie, které v té či oné podobě převzala i Chomského škola (viz Battistella, 1995). Důvody, které vedou k postulování podkladových (tektogramatických) větných struktur splňujících podmínku projektivity, mají jak formální tak i empirické opodstatnění. Z formálního hlediska je vhodné, aby popisný rámec splňoval velmi omezující podmínky: čím jsou tyto podmínky silnější, tím zajímavější (poučnější, přesnější, kontrolovatelnější) je daný popis. Projektivní závislostní stromy také umožňují jednoznačnou linearizaci, tedy přepis do lineární podoby. Z lingvistického hlediska umožňuje taková reprezentace interpretovat pořadí uzlů ve stromě zleva doprava jako firbasovské stupně výpovědní dynamičnosti a zachytit aktuální členění věty na podkladové (tektogramatické) rovině na základě opozice kontextového zapojení jako členění na základ a ohnisko, představující dvě spojité části věty. Naší snahou proto je utřídit odchylky povrchového slovosledu od projektivity tak, aby bylo možné specifikovat podmínky, za kterých k nim dochází. 4.3. Značkování PZK na tzv. analytické a na tektogramatické rovině Pražský závislostní korpus (PZK; Prague Dependency Treebank, viz Hajič, 1998; Hajič et al., 1998; Hajič et al., 2001) je morfologicky a syntakticky označkovanou podmnožinou náhodně vybraných souvislých textů obsažených v Českém národním korpusu. Věty jsou analyzovány na třech anotačních úrovních (na všech těchto úrovních je značkováno 3 168 textů obsahujících celkem 49 442 vět): (i) morfématické (s využitím přibližně 2000 značek pro hodnoty morfématických kategorií; zápis na této rovině má podobu řetězu, takže podmínka projektivity se ho netýká), (ii) na pomocné tzv. rovině analytické (ATS, z angl. analytical tree structure, s přiřazením závislostních stromových struktur a vyznačením základních závislostních vztahů na povrchové podobě věty) a (iii) na rovině tektogramatické, tedy podkladové stavby věty (TGTS, z angl. tectogrammatical tree structure), s přiřazením závislostní struktury věty na podkladové rovině a s přiřazením hodnot podkladových syntaktických závislostních vztahů mezi autosémantickými jednotkami věty včetně gramatémů, tj. hodnot morfologických kategorií, a vyznačení aktuálního členění věty pomocí hodnot kategorie kontextové zapojenosti. Kromě toho je v dalším kroku anotace využito TGTS k vyznačení základních koreferenčních vztahů uvnitř věty i mezi větami v souvislém textu. Hlavním cílem autorů koncepce Pražského závislostního korpusu i jeho značkování (anotování) je poskytnout lingvisticky analyzovaný jazykový materiál pro studium nejrůznějších jazykových jevů v češtině, a to jak na úrovni povrchové podoby věty, tak především na úrovni její syntaktické stavby hloubkové. Důležité jsou především dva zásadní rozdíly mezi analytickou a tektogramatickou reprezentací vět v PZK: (i) Zatímco v ATS jsou zachyceny všechny prvky vyskytující se v povrchové psané podobě věty, tedy všechna slova i interpukční znaménka, TGTS obsahuje jen autosémantická slova; funkce synsémantik (funkčních slov) a interpunkce je zachycena v rámci podrobného vyznačení syntaktických funkcí autosémantik, k nimž se synsémantika vážou, popř. v rámci vyznačení modality větné či slovesné apod. Zároveň však jsou Slovo a slovesnost, 67, 2006
13
v TGTS rekonstruovány ty členy, které do významové struktury věty patří, ale v povrchové struktuře jsou vypuštěny. (ii) Analytická reprezentace zachycuje povrchový slovosled věty, který někdy porušuje podmínku projektivity, zatímco TGTS (a tedy větná stavba jako taková) podmínku projektivity splňují. Pro ilustraci tu uvádíme velmi zjednodušenou analytickou (obr. 2) a tektogramatickou (obr. 3) stromovou strukturu věty (1). Na obou obrázcích jde o reprezentace velmi zjednodušené, znázorňující jen strukturu stromu a lexikální jednotky, jimž odpovídají dané uzly; vedle toho jsou uvedeny hodnoty analytických (obr. 2), respektive podkladových funkcí (funktorů, obr. 3). (1) Pro podnikatele by tu mohl být ráj
could
Cond.
here
be
paradise
For
businessmen
Obr. 2: Analytická reprezentace věty (1)
be
businessman
here
paradise
Obr. 3: Tektogramatická reprezentace věty (1) 14
Slovo a slovesnost, 67, 2006
4.4. Typy povrchových neprojektivit 4.4.1. Analýza materiálu V tomto článku vycházíme z materiálu, který poskytuje značkování PZK na tzv. analytické rovině (v ATS). Nalezené konstrukce porušují podmínku projektivity v povrchovém slovosledu; mluvíme-li v dalším o „neprojektivních konstrukcích“ nebo „neprojektivnosti“, jsme si vědomi, že se to týká ATS, tedy nikoli některé z rovin teoretického popisu jazyka. Jednotlivé kategorie ilustrujeme příklady z PZK a označujeme je zkratkou K. Pokud autentické doklady z PZK byly příliš složité (dlouhé, nebo obsahující řadu dalších, s naším tématem nesouvisejících jevů, které by vyžadovaly další výklad), nahrazujeme je buď příkladem zjednodušeným nebo daný případ ilustrujeme běžně citovaným dokladem. Frekvenční údaje o rozložení jednotlivých skupin vycházejí z doktorské dizertace D. Zemana (2004); tento materiál obsahuje 73 088 vět rozebraných a anotovaných na analytické úrovni; celkový počet slov v těchto větách je 1 255 590, z tohoto počtu je u 23 691 dvojic slov porušena podmínka projektivity (1,9 %). Celkový počet vět, v nichž je alespoň jednou porušena podmínka projektivity, je 16 920 (23,2 % všech vět). Podívejme se nyní na jednotlivé skupiny podrobněji (pokud jde o příklady a komentář k nim, opíráme se o stať Hajičová et al., 2004). Skupiny I až VI je možné vymezit na tektogramatické rovině na základě gramatických vlastností, popř. omezených lexikálních skupin; skupina VII je primárně podmíněna kontrastivním postavením části základu v aktuálním členění věty (srov. i skupiny III, IV a V); skupiny VIII až XI (ale i skupina II a část skupiny I) nemají hlubší význam pro charakteristiku větné stavby, protože se projevují jen v technickém zachycení pomocných struktur na tzv. analytické úrovni. I. Předsunutí vztažného nebo tázacího zájmena Tato skupina, kterou lze charakterizovat příklady jako (2) a (3), patří k často uváděným příkladům neprojektivit; řadí se k ní i případy tzv. zkříženého souvětí, srov. příklady jako Kam jsi to říkal, že pojedeš? u Štíchy (1996). Podobné příklady jsou známé pro angličtinu, srov. např. diskuse v rámci Chomského teorie o omezeních na uplatnění tzv. přemisťovacího pravidla ve větách jako the man who I think that you said that you had seen, které procházejí celým vývojem této teorie, od Rossových (1967) ‚constraint islands‘ až po postulování tzv. derivační kaskády (Uriagereka, 1999) a tzv. fází (Chomsky, 2001); podobnými příklady v rámci svého (závislostního) přístupu se zabývá i Hudson (2000). (2) Koho jsi říkal, že Alena pozvala? (3) Potkal jsem přítele, kterého Jirka říkal, že pozval na svatbu.
Umístění tázacího či vztažného zájmena do počáteční pozice klauze v povrchovém slovosledu je v podstatě i v češtině gramaticky obligatorní, až na tázací věty se slovosledem emfatickým (A ty jsi přišel KDY?), při kterém je tázací slovo vlastním ohniskem (srov. o aktuálním členění otázek u Hajičové, 1976). Slovo a slovesnost, 67, 2006
15
V našem materiálu tvoří tento typ 1,47 % všech neprojektivit ve zkoumaném souboru. Někdy ovšem jde o souhru několika faktorů;2 neprojektivita může být dána tím, že v ATS odpovídá každému slovu z povrchové podoby věty jeden uzel, takže je složený tvar slovesný zachycen prostřednictvím více uzlů a závislý člen je pak zavěšen „neprojektivně“ na jednom z nich. Podobné je to u složeného predikátu, který můžeme chápat jako jeden prvek významové stavby věty (viz skupina V). V ATS příkladu (4) (na rozdíl od jeho náležitého tektogramatického zápisu) závisí vztažné zájmeno na jmenné části predikátu; spona je členem řídícím a (popř. s dalšími závislými členy) zaujímá v povrchové struktuře místo mezi vztažným zájmenem a touto jmennou částí. (4) K: …nejvyšší rychlost, jaké je přístroj schopen
II. Věty s odkazovacími částicemi Do této skupiny patří věty s částicemi odkazujícími k předchozí větě nebo segmentu (kontextu): (5) K: V běžném provozu však telefonní linky nemají takovou kvalitu
Částice jako však, proto, ovšem se v ATS chápou jako řídící členy, na nichž závisí hlavní sloveso (to proto, aby se zachytilo, že částice v tomto významu patří k celé větě a nejen k jejímu predikátu nebo k jinému členu). Z hlediska četnosti jde o typ, který zahrnuje zhruba 17 % porušení projektivity v povrchovém slovosledu, přičemž nejfrekventovanější částice v této pozici je však (2897 krát, tj. 12,2 %), sice (434 krát, tj. 1,8 %) a proto (370 krát, tj. 1,6 %). III. Přemístěné členy závisející na infinitivu Příklady (6) a (7), popř. jejich obměny, jsou často citovány jako typické případy porušení projektivity v povrchové podobě věty. Tvoří však jen méně než jednu desetinu všech neprojektivit na analytické úrovni PZK (8,45 %); jedním z příkladů z PZK je (8). (6) Karla plánujeme poslat na rok do Anglie (7) Soubor se nepodařilo otevřít. (8) K: …kdy si zajímavé klienty začnou zvát do své pražské pobočky
Je zajímavé, že často jde o konstrukce s predikáty (slovesy, frazémy, adjektivy), které mají modální nebo podobný, „kvazimodální“, charakter: plánovat, zamýšlet, dařit se, nechat, potřebovat, odmítat, mít možnost (čas), ochotný, schopný, povinný apod. ccccccccccccccccccccccccccccccccccccccccccc 2 Ve vztažných klauzích je snad povrchová neprojektivita vždycky způsobena i jiným faktorem; zájmeno je tu kontextově zapojené, tedy má nízký stupeň výpovědní dynamičnosti i v tektogramatické reprezentaci a jeho povrchové umístění samo o sobě projektivitu neporušuje. Věta (3) obsahuje roztrženou závislostní dvojici podobně jako např. věta Toho přítele Jirka říkal, že pozval na svatbu. Otevřenou otázkou je vztah mezi větami jako (3) a Potkal jsem přítele, o kterém Jirka říkal, že ho pozval na svatbu. Připomeňme, že jak je známo z různých diskusí, vztažná klauze je někdy specifickým způsobem propojena s jinou závislou klauzí (např. To je kniha, kterou když přečteš, budeš vědět, jak se máš zachovat), viz i Lešnerová a Oliva (2003).
16
Slovo a slovesnost, 67, 2006
(srov. poznámku u Uhlířové, 1987, s. 94, o tendenci současného úzu rozšiřovat okruh sloves v širokém slova smyslu modálních i o další, nemodální slovesa, před nimiž, tj. na druhém místě, stojí příklonky). V nalezených konstrukcích se vyskytují na „druhé“ pozici (popř. po řadě klitik), tedy podobně jako vlastní modální slovesa (která lze považovat za pomocná slova a na tektogramatické rovině je chápat ne jako uzly stromu, ale jako gramatémy). Patří sem ovšem i konstrukce s jinými slovesy, zejm. s fázovými nebo kvazifázovými jako začít, přestat, a několik sloves dalších (za upozornění na ně děkuji A. Rosenovi), zaznamenaných u Šmilauera (1947, s. 236–239); ten uvádí 170 sloves vyskytujících se v této konstrukci, z nichž lze u 157 vysledovat způsobový odstín (modalitu) děje, u 10 fázi děje a mimo tuto významovou příbuznost stojí pomáhat, znemožnit, znamenat, z nichž první dvě je asi možné přiřadit ke kvazimodálním, a u posledního je předsunutí (jako např. ?Mirka si to znamenalo představit jako…) nepravděpodobné; další omezení podrobně rozebírá Dotlačil (2004), viz pozn. 5 níž. Někdy je takový kvazimodální predikát (popř. i se členy, které na něm závisejí) neprojektivně umístěn mezi klitikem a řídícím slovem, viz pozici klitického se závisejícího na infinitivu připravit v příkladu (9). (9) K: Předem se v Kábulu o jeho návštěvě … nemluvilo, aby se teroristé neměli čas náležitě připravit.
Často má přesouvaný (kontextově zapojený) člen kontrastivní platnost, nebo má podobu příklonky (klitika), popř. podobně se chovajícího zájmenného výrazu, např. Včera nám zamýšleli věnovat ten obraz. Včera pro nás plánovali koupit ten obraz. Je třeba dále zkoumat, za jakých podmínek se v takové (nekontrastivní) pozici vyskytují i nekontrastivní substantiva, adjektiva aj. IV. Frazémy V některých případech jde o „roztržení“ frazémů (jiných než složené přísudky); ovšem rozhodnout, kdy je možné danou konstrukci považovat za frazém, a kdy jde o rozdělené syntagma (viz odd. VII. níže), je často obtížné, můžeme vidět i přechodné pásmo mezi nimi, srov. např. (10); přesunutí členu do počáteční pozice je při obou pohledech motivováno stejně, totiž umístěním kontrastivního základu na začátek věty. (10) K: Se zuby jsem měl v minulosti jen problémy
Neprojektivita povrchového slovosledu tu může být vyložena tak, že výraz se zuby ve frazému mít problémy s… je tu přesunut do počáteční pozice ve větě v důsledku kontrastu, jde o kontrastivní část základu výpovědi; druhá část frazému, problémy, na které v ATS uvedený výraz závisí, je součástí ohniska věty (spolu s rematizátorem jen) a obsazuje slovoslednou pozici typickou pro ohnisko, tedy vpravo od slovesa. Obdobné vysvětlení se ovšem může opírat o to, že jde o přerušení syntagmatu problémy se zuby, pokud bychom mít problémy s… nechápali jako frazém. I tady může být v neprojektivní pozici příklonka ap., jako u skupiny III. Výskyt frazémů tohoto typu činí 2,44 %. Slovo a slovesnost, 67, 2006
17
V. Konstrukce se složenými predikáty I v konstrukcích se složenými predikáty, které chápeme jako specifický druh frazémů, dochází k předsunutí jednoho členu frazému do pozice základu. Předsunutí jedné části frazému s porušením podmínky projektivity je také tady možné i v případě, že tato část není kontrastivní, jak ukazuje užití slabého tvaru zájmena v příkladu (19); kdyby šlo o kontrastivní člen, pak by bylo užito silného tvaru: …, že jeho je třeba přesvědčit, … (11) …že ho je třeba přesvědčit, …
Výskyt takto rozdělených složených predikátů činí 0,6 %. VI. Porovnávací konstrukce Tento typ se v literatuře ilustruje příkladem větší město než Praha na rozdíl od projektivního slovosledu město větší než Praha. Částice než závisí v ATS na komparativu, ale tato závislostní hrana je „přeťata“ řídícím substativem město. Je potřeba dále zkoumat, zda je posun komparativu podmíněn tím, že jeho řídící člen (v našem případě město) je kontextově zapojený. Pro takový výklad by svědčilo např. to, že ve větě Na své dovolené si prohlédl mnoho větších měst než Praha se vyrozumívá, že šlo o návštěvu měst, a sděluje se, že byla větší než Praha. Uveďme příklad z PZK: (12) K: …, protože doba přenosu více závisí na stavu telefonní linky než na rychlosti přístroje
Podobné povrchové pořadí porušující podmínku projektivity bývá i ve větách, v nichž srovnávací konstrukce obsahují pozitiv nebo superlativ, jako (13). (13) podobný pes jako sousedův
Celkem se v PZK vyskytlo 1477 příkladů tohoto typu (tj. 6,23 % všech případů neprojektivit). Poznamenejme, že podobně jako porovnávací konstrukce se někdy chovají i více méně ustálená spojení typu plné kapsy peněz. VII. Rozdělená syntagmata Řídící člen bývá oddělen od závislého (tj. je narušená tzv. členská sounáležitost)3 tam, kde z hlediska aktuálního členění jde o konstrukce rozdělené na kontrastivní část základu výpovědi, která je předsunuta vlevo, a kontextově nezapojený výraz. Tento typ konstrukcí je v současné době středem našeho zájmu, protože poskytují materiál pro ccccccccccccccccccccccccccccccccccccccccccc 3 K zásadě „členské sounáležitosti“, totiž „vnitřní příbuznosti v mluvnické stavbě věty“, jako jednomu z činitelů českého pořádku slov viz Mathesius (1941) s odkazem na Václava Ertla (Mathesius, 1947, zvl. s. 350) a jeho zpracování Gebauerovy Mluvnice české pro školy střední a ústavy učitelské (II. Skladba, V. vyd. 1914) a Šmilauer (1947, s. 55). V kapitole o slovosledu v Mluvnici češtiny 3 (Daneš – Grepl – Hlavsa, 1987) se pojmu sounáležitost neužívá, ale je tam pojem ‚projektivita slovosledu‘.
18
Slovo a slovesnost, 67, 2006
studium, formulaci a kontrolu kontextových podmínek určujících výskyt i slovoslednou realizaci takových konstrukcí. (Někdy se doleva neposouvá kontrastivní člen základu, ale naopak vlastní ohnisko, srov. příklad Holana et al., 2000: BOHATOU rodiče našli synovi nevěstu; předpokládáme tu možnou pozici intonačního centra na prvním slově. Na druhé straně příklad Uhlířové, 1972, s. 172, měl plné kapsy peněz dokládá, že tu přicházejí v úvahu i jiné faktory.) Podrobněji se těmito otázkami zabýváme v pracích týkajících se kontrastivního základu v češtině a operativních kritérií pro jeho určení (srov. nejnověji Hajičová – Sgall, 2004). V našem materiálu se rozdělených syntagmat vyskytlo 4,01 %. Patří sem především rozdělené substantivní skupiny (ale nejen ty, viz pozn. 2 výše), jako korpusové příklady (14) až (16). (14) K: S normální hranicí se Slovenskem očekává moravské hnutí potíže (15) K: Společnou máme především tuto odpovědnost. (16) K: Ale záruky nemám žádné.
Počáteční pozice ve větě je pro kontrastivní základ typická. V příkladech (14) a (15) je řídící člen celé substantivní skupiny (potíže, odpovědnost) kontextově nezapojený, závisí přímo na hlavním slovese a zůstává tedy v pozici obvyklé pro ohnisko věty. V příkladu (16) je naopak řídící člen celé skupiny kontextově zapojený, stojící v kontrastu, zatímco jeho člen rozvíjející je ohniskem věty (v mluvené podobě by byl nositelem intonačního centra).4 VIII. Výrazy vyjadřující kvantitu s odděleným závislým členem (17) K: Běžně je jich k dispozici deset.
V tomto příkladu je v ATS spojení jich deset přerušeno předložkovou skupinou k dispozici, která závisí na slovese; v tektogramatickém zápisu však chápeme jich jako konatele a deset jako patiens, takže tu o neprojektivitu nejde (srov. věty jako Přátelé byli tři, Přátelé byli mladí). V PZK se tento typ porušení projektivity vyskytuje pouze v 1,16 % celkového počtu neprojektivit. IX. Číselné výrazy s genitivem substantiva Ve spojeních číselných výrazů s genitivem substantiva, viz (18), je v ATS číselný výraz chápán jako řídící. Je-li substantivní skupina rozvitá, jeví se pak jako „roztržená“. V našem souboru jde o 0,59 % výskytů. (Poznamenejme, že na tektogramatické úrovni je číselný výraz v takové skupině chápán jako závislý na substantivu, takže o porušení podmínky projektivity na této rovině nejde.) (18) K: …dalších pět miliónů dolarů ccccccccccccccccccccccccccccccccccccccccccc 4 Srov. u Uhlířové (1987, s. 45n.) o odtržení neshodného přívlastku, především vyjadřujícího míru, množství nebo část. Jako možný důvod takového „odtržení“ Uhlířová uvádí, že mluvčí chce každou z obou složek sdělení vyzdvihnout samostatně (s. 46).
Slovo a slovesnost, 67, 2006
19
X. Konstrukce obsahující pomocná (funkční) slova Pomocná slovesa (včetně modálních) a jiná funkční slova jsou na analytické úrovni značkování z převážně technických důvodů chápána jako samostatné uzly a jsou jim přiřazeny kategorie neodpovídající jejich podkladovému charakteru, viz např. (19) – (21). (19) Bude to muset udělat hned.
Pomocné sloveso bude v (19) závisí v ATS na muset a toto modální sloveso na slovese udělat; na tomto slovese rovněž závisí jako objekt slovo to, v povrchovém slovosledu umístěné neprojektivně mezi obě funkční slova. Neprojektivit způsobených umístěním pomocných sloves v povrchovém slovosledu je téměř čtvrtina ze všech neprojektivních konstrukcí vyskytujících se v našem materiálu (22,4 %). Jiným příkladem je spojka -li jako klitikum připojené ve své specifické pozici za slovesem, které je na začátku věty; pokud za slovesem následuje nějaký člen závislý na tomto slovese, dochází v ATS (kde je spojka charakterizována jako řídící člen) k porušení podmínky projektivity (takových případů je 4,6 %): (20) K: Pohlédnem-li pak na celou problematiku z tohoto úhlu, je zřejmé…
Početnější skupinou jsou konstrukce, kde je povrchové porušení podmínky projektivity způsobeno umístěním tzv. fokalizátoru (rematizátoru v terminologii Firbasově), závislého na substantivu, před předložku (chápanou v ATS jako řídící); neprojektivních předložkových skupin je 25,85 % všech neprojektivit: (21) K: …až k nečitelnosti
XI. Rozvíjení koordinačního spojení Z technických důvodů bylo pro anotování ATS i u těchto spojení přijato řešení, které bylo v dané etapě analýzy na místě, ale které v některých případech vedlo k neprojektivnímu stromu. Na tektogramatické rovině jsou v koordinačním spojení doplněny (rekonstruovány) uzly v případě povrchového vypouštění, viz (22). (22) Přinesli včera mámě kytici a mně knížku.
Příslovečné určení včera je kontextově zapojené a rozvíjí celou kontextově nezapojenou koordinační skupinu mámě kytici a mně knížku (s elipsou slovesa ve druhém členu konjunkce), a proto je v ATS zachyceno jako závislé na spojce stejně jako sloveso přinesli. (Je třeba poznamenat, že toto řešení koordinace jistě není jediné možné, příslovečné určení by např. mohlo být chápáno jako závislé přímo na slovese a v druhé části koordinace spolu se slovesem elidované.) V povrchovém slovosledu toto příslovečné určení stojí mezi slovesem a prvním z jeho závislých členů, tedy v pozici zdánlivě porušující větněčlenskou sounáležitost (včera je mezi přinesli a mámě). Ve sledovaném souboru jde o 5,57 % ze všech neprojektivit. V TGTS, kde je ve druhém konjunktu sloveso vynechané v povrchové podobě věty doplněno, problém s projektivitou nenastává. 20
Slovo a slovesnost, 67, 2006
4.5. Shrnutí Předběžné hypotézy o vztahu slovosledu a projektivity lze formulovat tak, že do povrchově neprojektivního postavení (které bude třeba přesněji specifikovat zejm. z hlediska fakultativního nebo obligatorního přechodu přes hranice klauzí) se může dostat: (a) obligatorně vztažné zájmeno nebo příslovce, které stojí na začátku své klauze (s omezením u spojení jako o plášť jehož matky), popř. klauze vyšší, (b) podobně i tázací slovo, s výjimkou emfatického zdůraznění (např. Ty myslíš, že přijde kam? vedle Kam ty myslíš, že přijde?), (c) fakultativně se příklonka dostává před řídící slovo infinitivu, na kterém závisí (Včera se ho rozhodli poslat do Francie),5 (d) před takové řídící slovo se (na začátek klauze, popř. i na začátek její klauze řídící) může dostat i kontrastivní slovo (Karla jsem se dověděl, že zamýšleli poslat do Francie), snad i slovo nekontrastivní, viz skupina III výš, (e) podobně se chová i kontrastivní (popř. snad i jiný) kontextově zapojený přívlastek oddělený od svého slova řídícího, kterým je vlastní ohnisko věty, (nebo je naopak kontrastivní řídící slovo odděleno od přívlastku), v případech jako Od komory se ztratil klíč nebo Sportovec on je dobrý, (f) složený přísudek bývá podobně rozdělen i tam, kde o kontrastivní platnost nejde (srov. výše uvedený příklad …že ho je třeba přesvědčit…), (g) u ostatních frazémů dochází k takovému rozdělení zpravidla (ale nejen) při kontrastu, (h) podobný posun u porovnávacích konstrukcí má specifické podmínění. V dalších případech (celkem je to podle dosavadních zjištění více než 77 %) jsou neprojektivity v ATS dány jen popisným aparátem dnešních anotací, jednak zachycováním pomocných slov jako samostatných uzlů a jednak pracovním vymezením řídícího členu (spojky a částice), i tím, že nejsou zachyceny elidované členy. Tady nejde o žádný posun mezi tektogramatikou a slovosledem; teoretický popis češtiny ovšem musí zachytit postavení předložek, spojek a jiných pomocných slov v povrchovém slovosledu (na morfématické rovině). 5. Závěr Vývoj syntaktických teorií dokládá, že popis větné stavby může být adekvátně založen na syntaktické závislosti. Takový popis, popř. aspoň některé z jeho hlavních prvků, je v teoretické i komputační lingvistice na postupu. K hlavním důvodům patří to, že umožňuje (a) bezprostřednější zachycení vztahů mezi jednotkami věty, a (b) začlenění sémantiky do popisu jazyka, což je dnes aktuální i ve vztahu k logické analýze jazyka, ccccccccccccccccccccccccccccccccccccccccccc 5 K obtížím spojeným s popisem postavení příklonek v závislostní syntaxi, o kterých píše Dotlačil (2004), poznamenejme jen, že při přechodu od hloubkového pořadí uzlů (blízkého k Firbasově stupnici výpovědní dynamiky) k povrchovému slovosledu je asi možné pracovat s kontextovou podmínkou danou přítomností slova přímo závislého na slovesu dané klauze. Protějšky příklonek na tektogramatické rovině mají různou povahu; pokud jsou hodnotami uzlů závislostního stromu (což se týká zejména zájmen), mají společné to, že jsou nekontrastivní a kontextově zapojené (to ovšem platí i o mnoha dalších slovech).
Slovo a slovesnost, 67, 2006
21
tj. k jeho sémanticko-pragmatické interpretaci ve smyslu intenzionální logiky nebo podobně, se základním vztahem predikátu a jeho argumentů, k němuž v každém případě patří i analýza aktuálního členění věty. Viděli jsme také, že jeden z problémů, se kterými se musejí vyrovnat všechny koncepce, totiž vztah slovosledu k podmínce projektivity (popř. k nespojitým složkám), je v závislostní syntaxi řešitelný. Je totiž možné hloubkovou (významovou, tektogramatickou) stavbu věty považovat za projektivní a vztah mezi ní a povrchovým slovosledem popsat se zahrnutím podmínek uvedených v odd. 4. Tím se jen potvrzuje i reálnost a vhodnost závislostní syntaxe obecně a jejího uplatnění ve funkčním generativním popisu. P o z n á m k a. Při úvahách, které se odrážejí v tomto příspěvku, vycházím především z mnohaleté spolupráce s Petrem Sgallem a Jarmilou Panevovou, jimž vděčím za mnohem víc než jen podnětné náměty k přemýšlení a připomínky k vlastním závěrům; tím samozřejmě nechci říci, že odpovídají za mezery či nesrovnalosti, které čtenář ve stati najde. Výzkum syntaktického značkování Pražského závislostního korpusu, z něhož vychází odd. 4 tohoto příspěvku, byl zčásti podporován projektem MŠMT LN00A063 a zčásti projektem MSM0021620838. Jsem vděčná všem pracovníkům Centra komputační lingvistiky a Ústavu formální a aplikované lingvistiky MFF UK, kteří se na koncepci a anotování PZK podíleli, a to jak na lingvistickém zpracování, tak na vývoji a implementaci počítačových nástrojů, díky nimž bylo možné provést složitou analýzu stromových struktur a její frekvenční vyhodnocení, především pak D. Zemanovi za poskytnutí údajů zpracovaných v jeho doktorské dizertační práci. Zároveň děkuji oběma anonymním recenzentům za pečlivé přečtení rukopisu této stati a za jejich připomínky, z nichž mnohé jsem v konečné podobě textu ráda uplatnila.
LITERATURA ABEILLÉ, A. – CANDITO, M.-H. (2000): FTAG: A lexicalized tree adjoining grammar for French. In: A. Abeillé – O. Rambow (eds.), Tree Adjoining Grammars. Stanford: CSLI, s. 305–330. ADGER, D. (2003): Core Syntax: A Minimalist Approach. Oxford: Oxford University Press. AGEL, V. – EICHINGER, L. M. – EROMS, H. W. – HELLWIG, P. – HERINGER H. J. – LOBIN, H. (eds.) (2003): Dependenz und Valenz: Ein internationales Handbuch der zeitgenössischen Forschung / Dependency and Valency: An International Handbook of Contemporary Research, 1. Berlin – New York: Walter de Gruyter. BATTISTELLA, E. (1995): Jakobson and Chomsky on markedness. In: E. Hajičová – M. Červenka – O. Leška – P. Sgall (eds.), Travaux de Cercle Linguistique de Prague n. s. / Prague Linguistic Circle Papers, 1. Amsterdam – Philadelphia: John Benjamins, s. 55–72. BECKER, K. F. (1837): Ausführliche deutsche Grammatik als Kommentar der Schulgrammatik. Frankfurt am Main: G. F. Kettembeil. Český překlad výňatků in: P. Sgall – O. Leška (eds.): Principy strukturní syntaxe, III: U pramenů moderní syntaxe. Praha: Univerzita Karlova, 1984, s. 12–26. BLOOMFIELD, L. (1933): Language. New York: Holt, Rinehart and Winston. BRESNAN, J. (1978): A realistic transformational grammar. In: M. Halle – J. Bresnan – G. A. Miller (eds.), Linguistic Theory and Psychological Reality. Cambridge: The MIT Press, s. 1–59. BRESNAN, J. (ed.) (1982): The Mental Representation of Grammatical Relations. Cambridge: The MIT Press.
22
Slovo a slovesnost, 67, 2006
BRÖKER, N. – HAHN, U. – SCHACHT, S. (1994): Concurrent lexicalized dependency parsing: The ParseTalk model. In: Proceedings of the COLING 1994 conference, 1. Kyoto, s. 379–385. CALHOUN, S. – NISSIM, M. – STEEDMAN, M. – BREINIER, J. (2005): A framework for annotating information structure in discourse. In: A. Meyers (ed.), Pie in the Sky: Proceedings of the workshop, ACL 2005. Ann Arbor, s. 45–52. COLLINS, M. (2003): Head-driven statistical models for natural language parsing. Computational Linguistics, 29, s. 589–637. COLLINS, M. – HAJIČ, J. – RAMSHAW, L. – TILLMAN, Ch. (1999): A statistical parser for Czech. In: Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics. Maryland, s. 505–512. DANEŠ, F. – GREPL, M. – HLAVSA, Z. (eds.) (1987): Mluvnice češtiny, 3: Skladba. Praha: Academia. DIENES, P. (2005): Statistical Parsing with Non-Local Dependencies. PhD Dissertation. Saarbrücken: Universität des Saarlandes. DOTLAČIL, J. (2004): Jedno syntaktické omezení u neprojektivních konstrukcí s klitikami. In: P. Karlík (ed.), Korpus jako zdroj dat o češtině. Brno: Masarykova univerzita, s. 175–187. EISNER, J. (1996): Three new probabilistic models for dependency parsing: An exploration. In: Proceedings of the COLING 1996, 1. Copenhagen, s. 340–345. FILLMORE, Ch. J. (1968): The case for case. In: E. Bach – R. Harms (eds.), Universals in Linguistic Theory. New York: Holt, Rinehart and Winston, s. 1–88. FILLMORE, Ch. J. – ROBINSON, Ch. R. – PETRUCK, M. L. R. (2003): Background to FrameNet. International Journal of Lexicography, 16, s. 235–250. FRANK, R. (2002): Phrase-Structure Composition and Syntactic Dependencies. Cambridge: The MIT Press. GAZDAR, G. (1981): Unbounded dependencies and coordinate structure. Linguistic Inquiry, 12, s. 155–184. GÖBBEL, E. (2003): Syntactic and Focus-Structural Aspects of Triadic Constructions. Frankfurt am Main – Berlin – Bern – Bruxelles – New York – Oxford – Wien: Peter Lang. GRUBER, J. S. (1967): Functions of the Lexicon in Formal Descriptive Grammar. Tech. Rep. (TM)3770/00, Systems Development Corporation, Santa Monica. HAJIČ, J. (1998): Building a syntactically annotated corpus: The Prague Dependency Treebank. In: E. Hajičová (ed.), Issues of Valency and Meaning: Studies in Honour of Jarmila Panevová. Prague: Karolinum, s. 106–132. HAJIČ, J. – HAJIČOVÁ, E. – PAJAS, P. – PANEVOVÁ, J. – SGALL, P. – VIDOVÁ-HLADKÁ, B. (2001): The Prague Dependency Treebank. CDROM LDC2001T10. Linguistic Data Consortium. Philadelphia: University of Pennsylvania. HAJIČ, J. – HAJIČOVÁ, E. – PANEVOVÁ, J. – SGALL, P. (1998): Syntax v Českém národním korpusu. Slovo a slovesnost, 59, s. 168–177. HAJIČOVÁ, E. (1972): Aktuální členění větné a nejnovější vývoj transformační gramatiky. Slovo a slovesnost, 33, s. 229–239. HAJIČOVÁ, E. (1976): Struktura doplňovací otázky a odpovědi z hlediska aktuálního členění. Slovo a slovesnost, 37, s. 300–307. HAJIČOVÁ, E. (v tisku): K tzv. závislostem na dlouhou vzdálenost očima Pražského závislostního korpusu. In: F. Štícha (ed.), Možnosti a meze české gramatiky. Praha: Academia. HAJIČOVÁ, E. – HAVELKA, J. – SGALL, P. – VESELÁ, K. – ZEMAN, D. (2004): Issues of projectivity in the Prague Dependency Treebank. Prague Bulletin of Mathematical Linguistics, 81, s. 5–22. HAJIČOVÁ, E. – PAJAS, P. – VESELÁ, K. (2002): Corpus annotation on the tectogrammatical layer: Summarizing the first stages of evaluation. Prague Bulletin of Mathematical Linguistics, 77, s. 5–18. HAJIČOVÁ, E. – SGALL, P. (1975): Topic and focus in transformational grammar. Papers in Linguistics, 8, s. 3–58. HAJIČOVÁ, E. – SGALL, P. (2003): Dependency syntax in Functional Generative Description. In: V. Agel – L. M. Eichinger – H. W. Eroms – P. Hellwig – H. J. Heringer – H. Lobin (eds.), Dependenz und
Slovo a slovesnost, 67, 2006
23
Valenz: Ein internationales Handbuch der zeitgenössischen Forschung / Dependency and Valency: An International Handbook of Contemporary Research, 1. Berlin – New York: Walter de Gruyter, s. 570–592. HAJIČOVÁ, E. – SGALL, P. (2004): Degrees of contrast and the topic-focus articulation. In: A. Steube (ed.), Information Structure: Theoretical and Empirical Aspects. Berlin – New York: Walter de Gruyter, s. 1–13. HAVELKA, J. (2005): Projectivity in totally ordered rooted trees. Prague Bulletin of Mathematical Linguistics, 84, s. 13–30. HAYS, D. G. (1960): Grouping and dependency theories. Research Memorandum RM-2646, The Rand Corporation. Přetištěno in: Proceedings of the National symposium on Machine Translation. Englewood Cliffs, 1961, s. 258–266. HAYS, D. G. (1964): Dependency theory: A formalism and some observations. Language, 40, s. 511–525. HOLAN, T. – KUBOŇ, V. – OLIVA, K. – PLÁTEK, M. (2000): On complexity of word order. In: S. Kahane (ed.), Les grammaires de dépendance. Paris: Hermes Science Publications, s. 273–300. HUDSON, R. (1984): Word Grammar. Oxford: Blackwell. HUDSON, R. (2000): Discontinuity. In: S. Kahane (ed.), Les grammaires de dépendance. Paris: Hermes Science Publications, s. 15–56. CHARNIAK, E. (2001): Immediate-head parsing for language models. In: Procedings of the 39th Annual Meeting of the Association of Computational Linguistics. Toulouse, s. 116–123. CHOMSKY, N. (1981): Lectures on Government and Binding: The Pisa Lectures. Dordrecht: Foris. CHOMSKY, N. (2001): Derivation by phase. In: M. Kenstowicz (ed.), Ken Hale: A Life in Language. Cambridge: The MIT Press, s. 1–52. JÄRVINEN, T. – TAPANAINEN, P. (1998): Towards an implementable dependency grammar. In: Proceedings of COLING/ACL-98 Workshop on Processing Dependency-Based Grammars. Montréal, s. 1–10. JOHNSON, M. (2005): Statistics and the scientific study of language. 17th European Summer School in Logic, Language and Information, Edinburgh, 9. 8. 2005. JOSHI, A. (1985): Tree-Adjoining Grammars: How much context-sensitivity is required to provide reasonable structural descriptions? In: D. Dowty (ed.), Natural Language Processing. Cambridge: Cambridge University Press, s. 206–250. JOSHI, A. K. – SRINIVAS, B. (1994): Disambiguation of super parts of speech (or supertags): Almost parsing. In: Proceedings of COLING 1994. Kyoto, s. 154–160. KAHANE, S. (ed.) (2000): Les grammaires de dépendance. Paris: Hermes Science Publications. KARLÍK, P. – NEKULA, M. – PLESKALOVÁ, J. (eds.) (2002): Encyklopedický slovník češtiny. Praha: Nakladatelství Lidové noviny. KARLSSON, F. (1990): ENGCG – Constraint grammar parser of English. In: Proceedings of COLING 1990. Helsinki. KUNZE, J. (1975): Abhängigkeitsgrammatik. Berlin: Akademie-Verlag. LARSON, R. (1988): On the double object construction. Linguistic Inquiry, 19, s. 335–391. LECERF, Y. (1960): Programme des conflits, modèle des conflits. Traduction Automatique, 1 (4), s. 11–18; 1 (5), s. 17–36. LEŠNEROVÁ, Š. – OLIVA, K. (2003): Česká vztažná souvětí s nestandardní strukturou. Slovo a slovesnost, 33, s. 241–252. LOMBARDO, V. – LESMO, L. (1996): An Earley-type recognizer for dependency grammar. In: Proceedings of COLING 1996. Copenhagen, s. 723–728. LOPATKOVÁ, M. – PLÁTEK, M. – KUBOŇ, V. (připr.): Závislostní redukční analýza přirozených jazyků. MARCUS, S. (1965): Sur la notion de projectivité. Zeitschrift für mathematische Logik und Grundlagen der Mathematik, 11, s. 181–192. MATHESIUS, V. (1941): Základní funkce pořádku slov v češtině. Slovo a slovesnost, 7, s. 169–180. Přetištěno in: V. Mathesius, 1947. MATHESIUS, V. (1947): Základní funkce českého pořádku slov. In: V. Mathesius, Čeština a obecný jazykozpyt. Praha: Melantrich, s. 327–352.
24
Slovo a slovesnost, 67, 2006
MCDONALD, R. – CRAMMER, K. – PEREIRA, F. (2005): Online large-margin training of dependency parsers. In: Proceedings of the 44th Annual Meeting of the Association for Computational Linguistics. Ann Arbor, s. 91–98. MCDONALD, R. – PEREIRA, F. – RIBAROV, K. – HAJIČ, J. (2005): Non-projective dependency parsing using spanning tree algorithms. In: Proceedings of the Conference on Human Language Technologies – NAACL. Vancouver, s. 523–530. MEL‘ ČUK, I. A. (1988): Dependency Syntax: Theory and Practice. Albany: State University of New York Press. MEYERS, A. – YANGARBER, R. – GRISHMAN, R. (1996): Alignment of shared forests for bilingual corpora. In: Proceedings of the COLING 1996, 1. Copenhagen, s. 460–465. NAGAO, M. (1989): Machine Translation: How Far Can It Go. Oxford: Oxford University Press. (Angl. překlad z japonského originálu vyd. 1986, Tokyo: Iwanami Shoten Publishers.) NEBESKÝ, L. (1972): A projectivity theorem. In: P. Sgall – M. Těšitelová – J. Vachek (eds.), Prague Studies in Mathematical Linguistics, 3. Praha: Academia, s. 165–169. NEBESKÝ, L. (1976): Projectivity in linguistics and planarity in graph theory. In: J. Horecký – P. Sgall – M. Těšitelová (eds.), Prague Studies in Mathematical Linguistics, 5. Praha: Academia, s. 251–256. NEBESKÝ, L. (1989): Kombinatorické vlastnosti větných struktur. Praha: Univerzita Karlova. NIVRE, J. – NILSSON, J. (2005): Pseudo-projective dependency parsing. In: Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics. Ann Arbor, s. 99–106. OFLAZER, K. (2003): Dependency parsing with an extended finite-state approach. Computational Linguistics, 29, s. 515–544. OLIVA, K. (2001): Některé aspekty komplexity českého slovního nepořádku. In: Z. Hladká – P. Karlík (eds.), Čeština – univerzália a specifika, 3. Brno: Masarykova univerzita, s. 163–172. PETKEVIČ, V. (1998): Special cases of non-projective constructions in the syntax of Czech sentence. In: Česká slavistika 1998: České přednášky pro XII. mezinárodní sjezd slavistů v Krakově. Praha: Euroslavica, s. 61–66. PETKEVIČ, V. (2001): Neprojektivní konstrukce v češtině z hlediska automatické morfologické disambiguace českých textů. In: Z. Hladká – P. Karlík (eds.), Čeština – univerzália a specifika. Brno: Masarykova univerzita, s. 197–205. POLLARD, C. – SAG, I. A. (1987): Information-Based Syntax and Semantics, 1: Fundamentals. Stanford: Center for Study of Language and Information. POLLARD, C. – SAG, I. A. (1994): Head-Driven Phrase Structure Grammar. Chicago – London: University of Chicago Press. ROBINSON, J. J. (1969): Case, category and configuration. Journal of Linguistics, 6, s. 57–80. ROBINSON, J. J. (1970): Dependency structures and transformational rules. Language, 46, s. 259–285. ROSS, J. J. (1967): Constraints on Variables in Syntax. PhD Thesis. Cambridge: MIT. Otištěno jako: Infinite Syntax. Norwood, New Jersey: Ablex, 1986. SGALL, P. (1997): On the usefulness of movement rules. In: B. Caron (ed.), Actes du 16e Congrès International des Linguistes (Paris 20–25 juillet 1997). Oxford: Elsevier. SGALL, P. (1998): Teorie valence a její formální zpracování. Slovo a slovesnost, 59, s. 15–29. SGALL, P. (2001): Volnost jako univerzální vlastnosti jazyka. In: Z. Hladká – P. Karlík (eds.), Čeština – univerzália a specifika, 3. Brno: Masarykova univerzita, s. 49–57. SGALL, P. – HAJIČOVÁ, E. – PANEVOVÁ, J. (1986): The Meaning of the Sentence in its Semantic and Pragmatic Aspects. Dordrecht – Prague: Reidel – Academia. SGALL, P. – NEBESKÝ, L. – GORALČÍKOVÁ, A. – HAJIČOVÁ, E. (1969): A Functional Approach to Syntax in Generative Description of Language. New York: American Elsevier. SLEATOR, D. – TEMPERLEY, D. (1991): Parsing English with a Link Grammar. Technical Report CMU-CS-91-196. Computer Science Department, Carnegie-Melon University. STAROSTA, S. (1993): Word order and focus in constrained dependency grammar. In: E. Hajičová (ed.), Functional Description of Language. Prague: Charles University, s. 237–252. STEEDMAN, M. (1996): Surface Structure and Interpetation. Cambridge: The MIT Press.
Slovo a slovesnost, 67, 2006
25
STEEDMAN, M. (2000): Information structure and the syntax-phonology interface. Linguistic Inquiry, 31, s. 649–689. STEEDMAN, M. (2002): The surface grammar of intonation and information structure. Workshop on information structure, Leipzig, February 2002. STEEDMAN, M. (2005): Grammar acquisition by child and machine. 17th European Summer School in Logic, Language and Information, Edinburgh, 11. 8. 2005. ŠMILAUER, V. (1947): Novočeská skladba. Praha: Ing. Mikuta. ŠTÍCHA, F. (1996): Křížení vět v češtině. Naše řeč, 79, s. 26–31. TANAKA, H. (1994): Verbal phrase frame acquisition from a bilingual corpus: Gradual knowledge acquisition. In: Proceedings of COLING 1994, 2. Kyoto, s. 727–731. TESNIE` RE, L. (1959): Éléments de syntaxe structurale. Paris: Klinksieck. UHLÍŘOVÁ, L. (1972): On the non-projective constructions in Czech. In: P. Sgall – M. Těšitelová – J. Vachek (eds.), Prague Studies in Mathematical Linguistics, 3. Praha: Academia, s. 171–181. UHLÍŘOVÁ, L. (1987): Knížka o slovosledu. Praha: Academia. URIAGEREKA, J. (1999): Multiple spell-out. In: S. D. Epstein – N. Horstein (eds.), Working Minimalism. Cambridge: The MIT Press, s. 217–250. VAUQUOIS, B. (1975): La traduction automatique à Grenoble. Paris: Dunod. VAUQUOIS, B. – CHAPPUY, S. (1985): Static grammars: A formalism for the description of linguistic models. In: Proceedings of the Conference on Theoretical and Methodological Issues in Machine Translation Hamilton: Colgate University, s. 298–322. VOUTILAINEN, A. – TAPANAINEN, P. (1993): Ambiguity resolution in a reductionistic parser. In: Proceedings of the 6th Conference of the European Chapter of the Association for Computational Linguistics. Utrecht, s. 394–403. ZEMAN, D. (2004): Parsing with a Statistical Dependency Model. Doktorská disertace. Praha: Matematicko-fyzikální fakulta Univerzity Karlovy. ZHOU, M. – HUANG, Ch. (1994): An efficient syntactic tagging tool for corpora. In: Proceedings of COLING 1994, 1. Kyoto, s. 949–955.
Ústav formální a aplikované lingvistiky MFF UK Malostranské nám. 25, 118 00 Praha 1
26
Slovo a slovesnost, 67, 2006