SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 Jarmila Panevová, Markéta Lopatková
[email protected] [email protected]
Valence a Pražský závislostní korpus (PDT) 1. Teorie valence v teoretickém plánu (ve FGP – funkčním generativním popisu) – pro slovesa: 1. 1 Třídění slovesných doplnění (srov. Přílohu, seznam „funktorů“) podle způsobů jejich spojování se slovesy: (i) jednou x víckrát u jednoho slovesa (ii) omezený seznam sloves x každé sloveso Levá strana (i) a (ii) – aktanty (partcipanty) Pravá strana (i) a (ii) – volná doplnění Aktanty: Konatel (ACTor), Patient (PAT), Adresát (ADDR), Původ (ORIGo), Výsledek (EFFektum) Volná doplnění: lokální, směrová, temporální, způsobová, kauzální,… (viz Přílohu) 1.2 Závaznost spojení slovesa s valenčním členem: Aktanty: obligatorní – fakultativní (ale v obou případech jsou součástí valenčního rámce slovesa v lexikonu) Volná doplnění: obligatorní – fakultativní (jen obligatorní jsou součástí valenčního rámce slovesa v lexikonu) 1.3 (a) Kritérium pro stanovení (sémantické) obligatornosti: „Dialogový test“ – (ne)přijatelnost odpovědi „Nevím“ při otázce po valenčním členu. (b) Přístupy k vymezení počtu aktantů: (ba) Kognitivní role jako Původce, Procesor, Nositel, Kauzátor, …, Stimul, Destruktiv, Beneficient,… (bb) 1. aktant, 2. aktant, 3. aktant Kompromis mezi (ba ) a (bb): jazyková strukturace (posouvání) Sloveso má 1 aktant = ACT (místo ACT je vždy obsazeno): (1) (2) (3) (4) (5) (6) (7)
Jan běží. Jan otevřel (dveře). Jan spí. Slunce/kniha vychází. Komín kouří. Klíč/vítr otevřel (dveře). Jan upustil/rozbil (vázu).
1
Sloveso má 2 aktanty = ACT, PAT (valenční místo ACT a PAT u slovesa s více než jedním aktantem je ve (valenčním) rámci vždy přítomno): (8) Jan otevřel dveře. (9) Jan potkal listonoše. (10) Náhle ho oslovil neznámý člověk. (11) Chlapec vyrostl/vyspěl v muže. (12) Hrobník vykopal hrob. Slovesa se 3 a více aktanty – sémantické hodnocení (fakultativní aktanty jsou v závorce): (13) Švadlena ušila šaty (zákaznici) (z nemačkavé látky). (14) Švadlena přešila (zákaznici) šaty (na župan). (15) Matka předělala (dětem) loutku z Kašpárka na čerta. 2. Uplatnění navržené valenční teorie na další slovní druhy: (i) (ii)
vystačíme u substantiv a adjektiv se stejným souborem doplnění (funktorů) nebo potřebujeme další jednotky? uplatňuje se tu princip „posouvání“ jako u sloves?
2.1 Adjektiva A. Deverbativní: odvozená z tvarů činných – „pohlcení“ pozice ACT; odvozená z tvarů trpných – „pohlcení“ pozice PAT, popř. ADDR, (EFF?) (16) digestoř pohlcující kuchyňské pachy … = digestoř, která pohlcuje … (17) Odevzdal náramek nalezený na ulici … = náramek, který nalezl/byl nalezen na ulici (18) Studenti informovaní o formách studia reagovali na anketu lépe = studenti, které (ADDR) informovali/kteří byli informováni o formách … B. Primární: sdílení doplnění (funktorů) se slovesy i substantivy plný – čeho (obligatorní „partitiv“ – MAT(eriál)) hrdý – na koho/co (PAT – fakultativní nebo obligatorní?, odpověď spojena s řešením lexikálních vlastností, polysémie adjektiva) 2.2 Substantiva A. Deverbativní: sdílejí rámec zdrojového slovesa (změny formální, změny v „povrchové vypustitelnosti“ – vše je vypustitelné) B. Primární: specifická doplnění substantiv (vedle doplnění slovesných): MAT(eriál) – partitiv – aktant oblig. nebo fakult. (?) – část národa, skupina dětí, košík hub, talíř polévky,… APP(urtenance) – přináležitost – volné doplnění, u některých substantiv (zejm. relačních) obligatorní – bratr Josefa Čapka, povrch zeměkoule,… ID(entity) – „nominativ jmenovací“ – (fakultativní) aktant – hrad Trosky, parník Hradčany,… Odpovědi na otázky: 2
(i) viz výše (ii) zatím otevřeno, ale srov. poradce prezidenta.ADDR, asistent primáře.ADDR (ACT u konatelských jmen „pohlcen/zabudován“, PAT je všeobecný?) 3. Otázky a problémy 3.1 Sémantická obligatornost a povrchová vypustitelnost A. Přijít – kam, odejít – odkud, vrátit se – kam – sémanticky obligatorní na povrchu nepřítomné směrové doplnění je buď známo z kontextu, nebo je to místo totožné s místem, kde je mluvčí nebo posluchač (telefonický dialog) B. Zevšeobecnění aktantu (volného doplnění?) – Gen(eral) – fungování dialogového testu (19) Moje vnučka už čte. Gen.PAT *Co čte? (20) Otec sedí u stolu a čte. Gen.PAT Co čte? – To, co má v ruce, přesně nevím. (21) Věra prodává v supermarketu. Gen.PAT Gen.ADDR *Co prodává? *Komu prodává? (22) Student mluví na chodbě s učitelem (ADDR). O čem? Nevím – PAT je fakultativní (23) Syn vzrušeně mluvil o maturitní zkoušce. Gen.ADDR ?S kým? S přítomným(i) posluchačem(i)/s kýmkoli – ADDR je obligatorní (24) Jan (už to) auto prodal. Gen.ADDR Komu? Někomu určitě, přesně nevím. (25) Dcera dostala k narozeninám krásné dárky. Gen.ORIG Od koho? Od dárců, přesně nevím od kterých. (26) Věra si koupila nové boty. Od koho? Nevím – fakultativní ORIG (27) Jan pojede do Šlapanic na konferenci. Čím? Nevím – volný MEANS (prostředek) Dialogový test - pro aktanty (oblig/fakult) není vždy naprosto spolehlivý (smysluplnost otázky, možnost přesné odpovědi, otázka po doplňující informaci). Interpretace: „Gen cokoliv, co je vhodné pro tu činnost“/ „něco konkrétního, co není přesně specifikováno, ale v situaci je přítomno“. 3.2 Vydělení další skupiny – kvazivalenční doplnění 3.2.1 Překážka – OBST(acle) (nově zavedený funktor) (28) Matka se píchla nůžkami vs. o nůžky. (29) Růženka se píchla o trn. (30) Jan zakopl (nohou) o stůl. (31) Jan zavadil o roh stolu (nohou). oblig. OBST 3.2.2 Mediátor – MEDIAT (nově zavedený funktor) (32) Otec přitáhl kluka (levou rukou) za ucho. (33) Když jsem odcházel, zatahal mě soused za rukáv. 3
(34) Jan přivedl psa za obojek . 3.2.3
Rozdíl – DIFF(erence) (modifikovaný funktor, dříve volné určení)
(35) Inflace se zvýšila proti roku 2000 o několik procent. (36) Náš tým zvítězil o dvě branky. (37) Jan zvítězil v závodě o prsa. (38) Postupte o dva schody výš. Shody OBST, MEDIAT a DIFF s aktanty: (i) vyskytují se s omezenou třídou řídících slov (ii) jsou vazebné (rekce) (iii) nemohou se opakovat (u jednoho řídícího slova). Shoda s volnými doplněními: (iv) jsou sémanticky vyhraněné (přestože jsou vazebné) Na „kvazivalenčnost“ aspirují i další doplnění, např. Záměr (INTT – intence) – šel nakupovat, odešel z domova hledat práci. 4. Vztah lexikálního významu (polysémie slovesa) a valence Jedna (lexikální) jednotka má více valenčních rámců – je to (minimálně) tolik lexií, kolik je valenčních rámců (jednostranná implikace, srov. chovat králíky, chovat dítě – shoda ve valenčním rámci, ale nesporný rozdíl v lexii). (39) hrát1 karty PAT [4; obl] (= provozovat nějakou hru) hrát2 na housle MEANS [;obl] (= vyluzovat hudbu pomocí hudebního nástroje) (40) bát se1 matky/čerta PAT [2;obl] (= mít strach z …) bát se2 o matku PAT [o+4, vv; obl] (= obávat se o…/že…) (41) odpovídat1 komu na co PAT [na+4, vv; obl] ADDR [3; obl] odpovídat2 čemu PAT [3; obl] odpovídat3 za co PAT [za + 4; obl] (42) poslat1 dopis příteli (do Brna) poslat1 žádost městskému úřadu PAT [4; obl] ADDR [3; obl] (= adresovat) poslat2 žádost na úřad poslat2 studentku do podatelny PAT [4; obl] DIR3 [ ; obl] (= vypravit)
4
5. Výstavba valenčních slovníků pro účely PDT jádro anotace na tektogramatické rovině problém udržení konzistence valenční slovník slovesa – dvě větve seznamy valenčních rámců využívaných anotátory PDT (PDT-VALLEX) komplexní valenční slovník (VALLEX) substantiva zpracovávání teoretických aspektů a metodologie (Panevová, KolářováŘezníčková) seznamy substantiv a jejich doplnění (PDT-VALLEX) adjektiva seznamy adjektiv a jejich doplnění Valenční slovník sloves – PDT-VALLEX seznamy valenčních rámců vytvářených a využívaných anotátory PDT valenční rámce sloves v jejich jednotlivých významech (jak se objevují v průběhu anotace) lexém jako celek není zpracováván valenční rámec – soubor slovesných doplnění charakterizován příkladem/příklady pro jednotlivá slovesné doplnění specifikován: „funktor“ – charakterizuje valenční vztah mezi slovesem a doplněním typ doplnění – obligatorní / fakultativní možné povrchové vyjádření Valenční slovník sloves – VALLEX komplexní informace o celém slovesném lexému (Lopatková et al., 2002) valenční rámce sloves typicky odpovídají jednotlivým významům charakterizovány glosami a příklady užití valenční rámec – soubor valenčních doplnění pro jednotlivá slovesné doplnění specifikován: „funktor“ – charakterizuje valenční vztah mezi slovesem a doplněním typ doplnění – obligatorní / fakultativní / typické možné povrchové vyjádření doplňující syntaktické informace: vid a odkaz na odpovídající vidový protějšek kontrola syntakticko-sémantická třída (pracovní rozdělení) idiomy rozpracováno: reciprocita reflexivita možné diateze, způsoby pasivizace odkazy na odpovídající synsety české větve WordNetu obligatorní
fakultativní
aktanty kvazivalenční volná
typická
typická doplnění „obvykle“ užívaná fakultativní volná doplnění obvykle rozvíjejí celou skupinu sloves s „podobným“ významem „slovesa pohybu“ jít do kina / přes les / jít z domova – směrová určení „slovesa výměny“ dát / dostat / získat / brát něco.PAT za něco.RCMP
5
Proč dvě větve valenčního slovníku? PDT-VALLEX ~ „extenzivní“ přístup cca 5 200 sloves se 7 800 valenčními rámci (tj. 1,5 rámce na sloveso) nutné pro anotaci, 100% pokrytí na PDT VALLEX ~ „intenzivní“ přístup 1 450 sloves s 3 860 valenčními rámci (tj. 2,7 rámce na sloveso) slovesa podle frekvence v ČNK, PDT pokrytí cca 85% na „běžícím textu“ v PDT (se slovesem být a modálními slovesy – zatím nezpracováno) PDT-VALLEX a VALLEX budou sloučeny dokončení anotace TR PDT, kontroly Využití valenčního slovníku dosažení konzistence při anotování valenční struktury na TR PDT (PDT-VALLEX) automatická syntaktická analýza („shallow parsing“) (Žabokrtský) (VALLEX) automatický „tektogramatický“ parser - automatický systém pro budování podkladové reprezentace českých vět (Honetschlager) (PDT-VALLEX, VALLEX) data pro (poloatomatické) vytváření valenčního slovníku českých substantiv (KolářováŘezníčková) (VALLEX) Jazykové zdroje teoretické články o valenci (Panevová) Manuál pro tektogramatické značkování (Hajičová et al., 2001) seznamy valenčních rámců využívaných anotátory PDT electronický valenční slovník povrchových realizací ve formátu BRIEF (FI MU Brno, Pala, Ševeček, 1997) tištění slovníky: Slovesa pro praxi (SPP, 1997), valenční specifikace 767 nejčastějších českých sloves Slovník spisovného jazyka českého (SSJČ, 1964) Slovník spisovné češtiny pro školu a veřejnost (SSČ, 1978) Slovník českých synonym (SČS, 1994) Slovník české frazeologie a idiomatiky (SČFI, 1983) Český národní korpus (ČNK) EuroWordNet, česká větev WordNetu Literatura Sgall, P. et al. (1986) The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Dordrecht: Reidel, Prague: Academia Hajičová, E. et al. (2001) Manuál pro tektogramatické značkování. UFAL TR Panevová, J. (1980) Formy a funkce ve stavbě české věta. Praha: Academia Panevová, J. (1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff (ed.) The Prague School of Structural and Functional Linguistics, John Benjamins, pp. 223-243. Panevová, J. (1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14. Panevová, J. (2000) Poznámky k valenci podstatných jmen. Čeština – univerzália a specifika 2, MU, Brno, pp. 173180. Panevová, J., Řezníčková, V. (2001) K možnému pojetí všeobecnosti aktantu. Čeština - univerzália a specifika 3, MU, Brno, pp. 139-146. Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In: Proceedings of MTT 2003, Paris. (in press) Lopatková, M. et al. (2002) Tektogramaticky anotovaný valenční slovník českých sloves. UFAL/CKL TR-2002-15. Lopatková, M. (2003) Valency in the Prague Dependency Treebank: Building the Valency Lexicon. PBML 79-80. (in press) Pala, K., Ševeček, P. (1997) Valence českých sloves. In: Sborník prací FFUB, Brno.
6
PŘÍLOHA: Seznam „funktorů“ u sloves (někdy i u subst.): AKTANTY (argumenty, participanty, vnitřní doplnění) actor/bearer *ACT agens, hloubk. subjekt addressee *ADDR adresát, komu effect *EFF výsledek (zvolí kým, zač) origin *ORIG původ, z čeho (ne odkud) patient *PAT patiens, hloubk. objekt prošli celý les (ale prošli lesem.DIR2) KVAZIVALENČNÍ DOPLNĚNÍ difference *DIFF mediator MEDIAT obstacle *OBST
rozdíl (oč) přivést psa za obojek překážka (zavadit o stůl)
VOLNÁ DOPLNĚNÍ (adjuncts, free modifications) accompaniment *ACMP doprovod (s, bez) aim *AIM účel (aby, pro něco) attitude ATT postojové (s radostí, vhodně, právem) benefactive *BEN benefaktiv (pro koho, proti komu) cause *CAUS příčina comparison CPR porovnání (než, jako, stejně jako) complement *COMPL doplněk concession CNCS přípustka (ačkoli) condition COND podmínka reálná ((jest)-li, jestliže, když, až) counterfactual CTERF irreálná podmínka (kdyby) criterion CRIT kritérium, měřítko („podle jeho slov“) dir(ectional)-from *DIR1 odkud? (ale: udělat co z čeho.ORIG) dir-which way *DIR2 kudy? prošli lesem (ale: prošli les.PAT) dir-where to *DIR3 kam? (ale změnit nač.EFF) dependent part *DPHR část frazému, pro niž se nehodí prav. funktor of phraseme (křížem krážem.DPHR, nechat se slyšet.DPHR) ethical dative ETHD volný dativ, dativ sdílnosti (Děti nám nechodí včas, Já ti mám knih!) extent *EXT míra (velmi, trochu) foreign phrase FPHR cizí fráze heritage *HER dědictví (po otci) intensification INTF navazovací element, „falešný podmět“ (To Karel ještě nepřišel? To prší.) intent *INTT záměr (šel se koupat, poslali ho nakoupit) locative *LOC místo kde (jednání uvnitř koalice) manner *MANN způsob (ústně; psát česky) means *MEANS prostředek (psát rukou, na stroji, tužkou) (adverbial of) modality MOD asi, možná, To je myslím zlé. norm *NORM norma („podle pravidla“) recompense *RCMP odplata (dal mu peníze za nákup.RCMP) reference to PREC např. tedy, naopak, tudíž, totiž, také, preceding text protože, když, jenže, taky a aj. regard *REG se zřetelem, bez ohledu na rhematizer RHEM i, také, jenom, nejen, vůbec, zároveň(-i) restriction RESTR omezení (kromě, mimo) result *RESL účinek (opálen do hněda, prsty ztuhlé, že je nenarovná) substitution *SUBS zastoupení (místo koho-čeho) temp(oral)-when *TWHEN kdy? loni, vstupuje v platnost dnem podpisu
7
temp-since when *TSIN temp-till TTILL temp-how long *THL temp-for how long *TFHL temp-how often THO temp-parallel, TPAR contemporaneous temp-from when *TFRWH temp-to when jen u substantiv: appurtenance descriptive
*TOWH APP DES
identity ID material MAT restrictive adjunct RSTR vokativ aponovaný VOCAT
odkdy? od_té_doby_co, platí ode dne podpisu dokdy? až_do, dokud ne, než jak dlouho? četl půl hodiny, celou zimu na jak dlouho? na dva dny, na věky jak často? často, mnohokrát během, zatímco, za celý večer, mezitím_co ze kdy (Zbylo od Vánoc cukroví. Z dětství si nepamatuji nic. Vstupenka z pátku...) na kdy? Přelož výuku na pátek. Demonstrace je svolána na šestou hodinu. přináležitost (čí, čeho) nerestriktivní přívlastek (zlatá Praha; kočky, patřící k savcům,...) totožnost (pojem čas(u), parník Hradčany) 'partitiv' (hrnek čaje) restriktivní přívlastek Pojď sem, Jirko!
Tento seznam je převzat z Manuálu pro tektogramatické značkování (Hajičová et al., 2001) a doplněn o nově zaváděné funktory MEDIAT, OBST a RCMP. Funktory, které se vyskytují ve VALLEXu jsou označeny *.
8