Masarykova univerzita Filozofická fakulta Kabinet informačních studií a knihovnictví Informační studia a knihovnictví
Specifikace sémantických rolí s nízkou frekvencí ve VerbaLexu Bakalářská diplomová práce
Vedoucí práce: Mgr. Dana Hlaváčková, Ph. D.
Pavlína Habrovanská
2010
Moje upřímné poděkování patří vedoucí Mgr. Daně Hlaváčkové, Ph. D. za cenné rady a připomínky při vzniku této práce.
Prohlašuji, že jsem bakalářskou diplomovou práci vypracovala samostatně s využitím uvedených pramenů a literatury.
V Brně dne 7. 5. 2010
........................................................... Pavlína Habrovanská
Obsah 1
Úvod
6
2
Základní pojmy
7
2.1
Pojmy z oblasti lingvistiky . . . . . . . . . . . . . . . . .
7
2.1.1 Valence . . . . . . . . . . . . . . . . . . . . . . . .
7
2.1.2 Valenční doplnění
. . . . . . . . . . . . . . . . . . .
7
. . . . . . . . . . . . . . . . . . . .
8
2.1.4 Hyperonymum, hyponymum, kohyponymum . . . . . . .
8
2.1.5 Morfologie
. . . . . . . . . . . . . . . . . . . . . .
8
. . . . . . . . . . . . . . . . . . . . . . . .
9
2.1.3 Valenční rámec
2.1.6 Syntax 2.2
Pojmy na pomezí různých oborů
2.2.1 Sémantika
. . . . . . . . . . . . . .
9
. . . . . . . . . . . . . . . . . . . . . .
9
2.2.2 Sémantická role 3
. . . . . . . . . . . . . . . . . . . .
9
2.2.3 Pojem ontologie . . . . . . . . . . . . . . . . . . . .
9
Vybrané oblasti využití NLP
11
3.1
Přirozený jazyk . . . . . . . . . . . . . . . . . . . . . . 11
3.2
Přirozený jazyk vs. umělý jazyk
3.3
Počítačové zpracování přirozeného jazyka . . . . . . . . . . 11
3.4
Umělá inteligence v souvislosti s NLP
3.5
Testy umělé inteligence a přirozeného jazyka
3.5.1 Turingův test
. . . . . . . . . . . . . . 11
. . . . . . . . 13
. . . . . . . . . . . . . . . . . . . . . 13
3.5.2 Argument čínského pokoje
. . . . . . . . . . . . . . . 14
3.6
Vytváření rozsáhlých jazykových zdrojů
3.7
Strojový překlad
3.8
Sémantický web . . . . . . . . . . . . . . . . . . . . . . 15 . . . . . . . . . . . . . 16
Počítačová analýza přirozeného jazyka 4.1
. . . . . . . . . . 14
. . . . . . . . . . . . . . . . . . . . . 14
3.8.1 Sémantický web a vyhledávání 4
. . . . . . . . . . . 12
17
Typy analýzy přirozeného jazyka . . . . . . . . . . . . . . 17
4.1.1 Morfologická analýza
. . . . . . . . . . . . . . . . . 17
4.1.2 Syntaktická analýza
. . . . . . . . . . . . . . . . . . 17
4.1.3 Sémantická analýza
. . . . . . . . . . . . . . . . . . 18
4.2 5
Ontologie . . . . . . . . . . . . . . . . . . . . . . . . . 18
VerbaLex 5.1
19
Základní výchozí zdroje
5.1.1 BRIEF 5.1.2 VALLEX
. . . . . . . . . . . . . . . . . . . . . . . . 19 . . . . . . . . . . . . . . . . . . . . . . . 19
5.1.3 Český WordNet 5.2
. . . . . . . . . . . . . . . . . . 19
. . . . . . . . . . . . . . . . . . . . 20
Obsah VerbaLexu . . . . . . . . . . . . . . . . . . . . . 20
5.2.1 Komplexní valenční rámec 5.2.2 Základní valenční rámec
. . . . . . . . . . . . . . . 21 . . . . . . . . . . . . . . . . 21
5.3
Sémantické role dvou úrovní . . . . . . . . . . . . . . . . 22
5.4
Využití valenčních rámců pro jiné jazyky
. . . . . . . . . . 22
5.4.1 Mohou být komplexní valenční rámce univerzální? 5.5 6
Další projekty zabývající se slovesnou valencí
Praktická část 6.1
. . . . . . . . 24 25
Práce s jazykovými daty . . . . . . . . . . . . . . . . . . 25
6.1.1 Postup práce
. . . . . . . . . . . . . . . . . . . . . 25
6.1.2 Výsledky výzkumu 6.1.3 Ponechané role
7
. . . . 23
. . . . . . . . . . . . . . . . . . 25
. . . . . . . . . . . . . . . . . . . . 26
6.1.4 Struktura zápisu
. . . . . . . . . . . . . . . . . . . 28
6.1.5 Role s frekvencí 1
. . . . . . . . . . . . . . . . . . . 28
6.1.6 Role s frekvencí 2
. . . . . . . . . . . . . . . . . . . 39
Závěr
49
Literatura
50
Příloha 1: Seznam sémantických rolí
52
Příloha 2: Seznam použitých nástrojů
57
1 Úvod Tato bakalářská diplomová práce svým zaměřením náleží do oblasti počítačového zpracování přirozeného jazyka = Natural Language Processing (dále NLP). V dnešní době můžeme počítačovou techniku (ve velké míře vyspělou) využívat i v lingvistice a tím efektivně přispívat k výsledkům v oblastech jejího bádání. Počítačová lingvistika je obor, který spojuje lingvistiku, kognitivní vědu a směry zabývající se vývojem umělé inteligence. Rozvíjí se od 60. let. Jsou k dispozici rozsáhlé elektronické jazykové korpusy, které zahrnují empirická data a jsou významným „pomocníkemÿ při výzkumu současného i historického jazyka. Kromě korpusů však vznikají i další jazykové projekty. Některé z nich souvisejí například s využitím NLP v oblasti sémantického webu, a to tím, že směřují k tvorbě dotazů na Internetu v přirozeném jazyce. Jedná se například o elektronické valenční databáze; jednou z nich je i VerbaLex (kapitola 5 VerbaLex), který úzce souvisí s praktickou částí práce. Tato databáze slovesných valenčních rámců je vyvíjena v Centru zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity v Brně (dále CZPJ FI MU). Mým cílem je efektivní uspořádání sémantických rolí s nízkou frekvencí ve VerbaLexu a případná redukce jejich počtu (v současné době je těchto rolí příliš mnoho). Výsledky výzkumu pak budou využity pro úpravu databáze. Rozdělení kapitol. Samotná práce začíná objasněním základních pojmů nezbytných pro další výklad. Třetí kapitola nejprve krátce vysvětluje specifika přirozeného jazyka, s čímž souvisí příčiny jeho obtížné algoritmizovatelnosti a schopnosti formálního popisu. Poté se zabývá vybranými oblastmi využití NLP – umělou inteligencí, strojovým překladem a sémantickým webem. V kapitole čtvrté jsou popsány tři nejčastější typy počítačové analýzy přirozeného jazyka (tzn. jeho převod do strojově čitelné podoby) – morfologická, syntaktická a sémantická. Pátý oddíl se věnuje samotné databázi VerbaLex , jejím výchozím zdrojům, obsahu a možnostem využití valenčních rámců v ní obsažených i pro jiné jazyky než češtinu. Šestá – a poslední – kapitola obsahuje samotné výsledky mého zkoumání.
6
2 Základní pojmy V této kapitole uvádím základní pojmy, se kterými dále pracuji. Jde o pojmy užívané v oblasti lingvistiky a dále termíny vyskytující se na pomezí několika oborů. Pro účely této práce jsou nezbytné, a proto vyžadují hned na začátku přesné vymezení. Případné další termíny z ostatních oborů budou pak zařazeny do příslušných kapitol.
2.1 Pojmy z oblasti lingvistiky V českém prostředí se v souvislosti s tématem této práce můžeme setkat především s těmito termíny: • valence, valenční doplnění, valenční rámec • hyperonymum, hyponymum, kohyponymum • morfologie • syntax
2.1.1 Valence Valence je termín užívaný v oblasti jazykové syntaxe (užitý analogicky podle chemie, kde znamená schopnost atomů vázat na sebe určitý počet elementárních částic). Vysvětluje se jako schopnost slovesa (či jiné lexikální jednotky) vázat na sebe jistý počet syntaktických pozic, neboli valenčních doplnění [6, s. 517, 518]. Tato schopnost hraje velmi důležitou roli v oblasti NLP. Automatické zpracování je však obtížně popsatelné, vyžaduje tedy řízení lidskými zdroji, tj. lingvistický přístup a manuální editaci [2, s. 8].
2.1.2 Valenční doplnění Dle definice valence jsou valenčním doplněním jazykové jednotky syntakticky závislé (především) na slovese. Mohou být trojího druhu. Obligatorní valenční doplnění. Je nutné je použít, aby byla věta gramaticky správná; např. Maminka dostala květiny. je úplná, má obsazeny všechny nutné pozice, které sloveso vyžaduje. Na druhé straně věta *Maminka dostala.1 není gramaticky správná, chybí jí pozice předmětu ve 4. pádě [1, s. 61]. Potenciální valenční doplnění. Nejsou nutně povinná, tyto pozice tedy můžeme obsadit, nebo nemusíme. V české větě je to např. podmět, který může být nevyjádřený [2, s. 9]. 1
Negramatická struktura se v lingvistice označuje symbolem *.
7
2 Základní pojmy
Fakultativní valenční doplnění. Nejsou povinná. Používáme je především pro upřesnění vyjadřované události nebo situace (čas, místo, způsob atp.) [1, s. 65].
2.1.3 Valenční rámec Valenční doplnění se zapisují do větného vzorce (jeho reprezentací je v elektronických slovnících (ale nejen v nich), tzv. valenční rámec – dále viz 5.2.2 Základní valenční rámec). Obsahuje v sobě gramatickou a sémantickou složku, na jejichž základě rozlišujeme: • gramatické větné vzorce (GVV) • sémantické větné vzorce (SVV)
GVV obsahuje elementy, které po obsazení lexikálními jednotkami vytvoří gramaticky správnou výpověď, např. vzorcem pro výpověď Maminka koupila mléko. je Snom – VF – Sacc (S = podstatné jméno, VF = určitý slovesný tvar, nom = 1. pád, acc = 4. pád) [1, s. 41]. SVV je sémantickým protějškem GVV. Oba typy vzorců jsou založeny na tom, že centrální postavení ve větě zaujímá sloveso. Sloveso přiděluje výrazům jednotlivých pozic GVV (větným členům) určité role – větněsémantické funkce [1, s. 43]. Př.: sloveso darovat přiděluje role: • AGENS (AG) – činitel děje, tj. ten, kdo někomu něco dává • PATIENS (PAT) – kdo je dějem zasažen, tj. ten, komu je něco dáváno • OBJECT (OBJ) – předmět, tedy to, co je dáváno
Složku formálně gramatickou a sémantickou od sebe nemůžeme oddělovat, naopak je potřeba zjišťovat jejich zákonité vztahy [1, s. 44].
2.1.4 Hyperonymum, hyponymum, kohyponymum Hyperonymem označujeme pojem nadřazený nějakému významově podřazenějšímu pojmu – hyponymu. Určíme-li za hyperonymum např. „zvířeÿ, pak je jeho hyponymem např. „rybaÿ. Vedle toho má „zvířeÿ další hyponyma, jež jsou s „rybouÿ na stejné úrovni, nazývají se pak kohyponyma: „plaziÿ, „obojživelníciÿ, „ptáciÿ, „savciÿ. „Rybÿ je také několik druhů – hyponymum „sladkovodníÿ, odtud „pstruhÿ, a tak můžeme pokračovat v hierarchii pořád níž a níž. Hovoříme pak o vztazích hypero-hyponymických, které jsou využity např. ve WordNetu (viz 5.2.1 Český WordNet).
2.1.5 Morfologie Morfologie je jednou z disciplín lingvistiky, česky označovaná jako tvarosloví. Tvoří součást gramatiky a „studuje všechny typy morfémů z hlediska jejich formy a funkceÿ [6, s. 273]. Morfém je „nejmenší na sémantické úrovni dále nedělitelná jednotka jazyka mající povahu znaku ve smyslu jednoty označujícího a označovanéhoÿ [6, s. 273]. 8
2 Základní pojmy
Tradičně se tedy pod pojmem morfologie chápe nauka o slovních druzích a jejich gramatických kategoriích; zabývá se také vznikem nových pojmenování a slovotvorbou [6, s. 273].
2.1.6 Syntax Syntax, v lingvistice též označovaná jako skladba, je lingvistická disciplína, která se zabývá vztahy mezi slovy ve větě, slovosledem a tvořením větných konstrukcí. Do této roviny spadá také valence a s ní související valenční rámce a valenční doplnění.
2.2 Pojmy na pomezí různých oborů • sémantika • sémantická role • ontologie
2.2.1 Sémantika Sémantika je dalším a velice důležitým pojmem v této práci. Je to nauka studující významy výrazů přirozeného jazyka. Tento interdisciplinární obor se pohybuje na pomezí lingvistiky, logiky, částečně filozofie a kognitivních věd. Má své široké uplatnění také v informatice a programování [6, s. 384].
2.2.2 Sémantická role Každé valenční doplnění vyžadované slovesem plní ve větě určitou roli . Vzhledem k tomu, že se pohybujeme na významové rovině věty, nazýváme tyto role sémantické [10, s. 8]. Pojem pochází od amerického lingvisty C. J. Fillmora, jenž je v současné době vedoucím projektu FrameNet 2 – rozsáhlé elektronické databáze založené na sémantických rámcích.
2.2.3 Pojem ontologie Klasická ontologie je filozofická disciplína zabývající se významem bytí, jsoucnem a dalšími příbuznými pojmy. Do terminologie počítačové vědy přešel tento pojem s poněkud změněným významem. Ontologie slouží k definování významů – popisuje okolní svět a snaží se uspořádat pojmy do kategorií = konceptů [4, s. 53]. Mezi nejznámější ontologie patří např. [4, s. 53]: • SUMO (Suggested Upper Merged Ontology) – ontologie zaměřená všeobecně
na celou oblast lidského bytí 2
http://framenet.icsi.berkeley.edu/
9
2 Základní pojmy • MILO (Mid-Level Ontology) – střední ontologie, „mostÿ mezi SUMO a de-
tailnějšími ontologiemi • SBO (Systems Biology Ontology) – specializovaná ontologie popisující jen vymezenou část světa (konkrétně počítačové modely v biologii) • Top-Ontology – v Euro WordNetu (lze ji využít i pro češtinu), viz 4.2 Ontologie V současné době mají výzkumy v oblasti ontologie uplatnění v informatice – především v aplikacích NLP, umělé inteligence a sémantického webu (více viz 3.8 Sémantický web).
10
3 Vybrané oblasti využití NLP 3.1 Přirozený jazyk Jazyk je prostředek komunikace, přičemž jednou z jeho funkcí je dorozumívání s ostatními. Je chápán jako kód, do kterého je informace zakódována mluvčím, a příjemcem poté dekódována. Nezbytným předpokladem je tedy znalost kódu oběma účastníky komunikace. Pro komunikaci s ostatními lidmi se používá přirozeného jazyka jako nástroje nezbytného pro život ve společnosti [18].
3.2 Přirozený jazyk vs. umělý jazyk Podle Encyklopedického slovníku češtiny se pod umělými jazyky rozumějí: „. . . tzv. univerzální jazyky (např. esperanto) v zjednodušené podobě imitující systémy přirozeného jazyka, popř. formální jazyk, v nichž se má odstranit vágnost a víceznačnost přirozeného jazyka. Jde tedy o „ jazykÿ matematických a logických kalkulů, který definovaným způsobem používá výrazů přirozeného jazykaÿ [6, s. 194]. Z této definice vyplývá, že umělý jazyk se po své genezi (tedy konstrukci na předem vymyšlených základech) dál přirozeně nevyvíjí. Svoje uplatnění našly umělé jazyky hlavně v oblasti informačních technologií. Jsou to převážně jazyky programovací, které umožňují komunikaci člověka s počítačem, v tomto případě můžeme říct spíše programátora s počítačem. Běžný uživatel onomu kódu většinou nerozumí, a tak si musí pomoci jazykem přirozeným, který mu nabízí tzv. uživatelském rozhraní [6, s. 194].
3.3 Počítačové zpracování přirozeného jazyka Jazyk je pro člověka přirozenou cestou, jak se dorozumívat se svým okolím, a proto se nabízí užití tohoto prostředku i ke komunikaci lidí s počítači. Zřetelným úskalím pro dosažení takového výsledku je fakt, že přirozený jazyk není snadné jednoznačně formálně popsat a algoritmizovat. Algoritmus. Je to systém jednoznačných pravidel, umožňujících řešit problém z jisté třídy problémů v konečném počtu kroků. Tato definice zachycuje tři základní vlastnosti algoritmu, a to 1. determinovanost, 2. hromadnost a 3. rezultativnost [7]. Důvodem, proč není snadné přirozený jazyk algoritmizovat, je množství odchylek, výjimek a nejednoznačností. Tyto aspekty jsou dány vývojem jazyka a poukazují na jeho neustálou živost a dynamiku. NLP se využívá v několika oblastech a aplikacích, jmenujme např.: • vyhledávání informací 11
3 Vybrané oblasti využití NLP • strojový překlad • opravy pravopisu a gramatiky • jazykové modelování pro rozpoznávání a syntézu řeči • dialogové systémy (např. u počítačových her) • slovníky, encyklopedie, tezaury • sémantický web
Základním krokem, který povede k možnosti vytvoření výše uvedeného, je zpracování tohoto přirozeného jazyka do strojově čitelné podoby – počítačová analýza (viz kap. 4 Počítačová analýza přirozeného jazyka).
3.4 Umělá inteligence v souvislosti s NLP Zpracování přirozeného jazyka je proces, který má v oblasti umělé inteligence své nezastupitelné místo. Důvodem je hlavně fakt, že přirozený jazyk je pro lidské bytosti nejlepším prostředkem vzájemné komunikace a pokud chceme uměle simulovat inteligenci lidí, pak je jazykové chování na prvním místě. Pro člověka je nejpřirozenějším způsobem komunikace (nejen) se strojem použití přirozeného jazyka. [8, s. 244]. Přirozený jazyk je univerzální a otevřený systém, nabízí tvůrčí možnosti stálého doplňování. Přesto v zásadě zůstává systémem, nikoli nahodilou směsicí množin jednotek a pravidel jejich užívání. Má své zákonitosti, které se po staletí snaží zachytit lingvistika. Tato věda zkoumá jazykový systém a jeho strukturu, součásti, pravidelnosti i nepravidelnosti a v neposlední řadě jeho fungování jako hlavního prostředku mezilidské komunikace. Za pomoci lingvistických objevů se můžeme pokusit vytvořit systém určený pro dorozumívání s počítači [8, s. 244]. Při této činnosti se setkáme s několika obtížnými problémy, které musíme překonat. Jedním z klíčových je nejednoznačný vztah mezi výrazem (např. lexikální jednotkou) a jeho významem. Na rozdíl od formálních jazyků je struktura přirozeného jazyka mnohem méně průhledná. Existují dvě odchylky od jednoznačného vztahu mezi výrazem a významem: homonymie (víceznačnost) – jedna jazyková forma odpovídá dvěma nebo více různým významům; synonymie – jeden význam může být vyjádřen dvěma nebo více jazykovými formami. Vztah víceznačnosti představuje jeden z nejobtížnějších problémů automatického zpracování textů. Jakou roli zastávají „kuřataÿ ve větě Kuřata jsou připravena k jídlu.? Myslí se ve větě Michael se chce oženit s Američankou. konkrétní žena, nebo jen obecně osoba americké národnosti [8, s. 244]? Víceznačností slovního vyjádření může být vícero druhů [19]: 1) referenční – Ta přednáška bude pozítří. – jedná se o anaforu. Při procházce se psem se k němu zakutálel míč. Odkopl ho. 2) slovní – Rád platím za vtipného člověka. 3) strukturální – Všichni kandidáti přednesou své volební programy. vs. Volební programy budou předneseny všemi kandidáty. Problémy, které jazyk přináší při počítačovém zpracování, jsou však v jistém smyslu chápány jako jeho přednosti, zvláště ve sféře lidského dorozumívání. Tak 12
3 Vybrané oblasti využití NLP
jsme schopni velice rozmanitou skutečnost (nikoliv však omezenou a konečnou) popsat pomocí „konečnéhoÿ souboru symbolů. Další předností je to, že živý jazyk je dynamický, tedy vyvíjí se a mění (např. vznikají nová slova). V neposlední řadě dává jazyk možnost pracovat s implicitními informacemi, a tak má sdělení pro různé osoby rozdílný obsah, tedy Kdo hodně ví, může si mnoho domyslet [19]. Porozumění můžeme chápat jako proces úpravy vstupních informací do tvaru, který je možno lépe využít pro další zpracování. Kontext je v tomto případě značně důležitý. A z důvodu, že tatáž věta může mít více významů, je porozumění v oblasti zpracování přirozeného jazyka tak obtížné [19]. Systémy pro zpracování přirozeného jazyka si kladou za cíl zpracovat vstupní text v přirozeném jazyce (věta, souvětí, odstavec) a ve výstupním jazyce k němu přiřadit určitou strukturu – tj. reprezentace její syntaktické nebo syntaktickosémantické struktury, logické reprezentace, reprezentace znalostí nebo jiný druh formální reprezentace. Tato formální reprezentace slouží jako základ pro sémantickou interpretaci, případně pro další porovnávací – překladové procedury, tzn. ve strojovém překladu nebo v koncových systémech databází nebo znalostních systémů [8, s. 245].
3.5 Testy umělé inteligence a přirozeného jazyka Zde si ukážeme, v jakých testech se využívá přirozený jazyk jako takový. Jedná se hlavně o „Turingův testÿ a dále „Argument čínského pokojeÿ, jenž testu oponuje.
3.5.1 Turingův test Britský matematik Alan Turing představil v roce 1950 test, na jehož základě by bylo možné rozpoznat, zda je nějaký stroj inteligentní (tedy zda je schopen myšlení na té úrovni, na které to dokáže člověk). Test je založen na imitační hře, kdy je do jedné místnosti umístěna osoba s libovolným pohlavím (O) a do vedlejší místnosti muž (M) a žena (Ž). Zvolenou neutrální formou (např. na lístečcích) klade osoba O otázky v přirozeném jazyce a na tyto odpovídá vždy jeden z vybraných – buďto M nebo Ž, přičemž M napodobuje způsob odpovídání Ž. Úkolem O je rozpoznat, který ze dvou dotazovaných právě odpovídal [17]. Turingův test pak namísto dvou osob opačného pohlaví umístí do druhé místnosti člověka a stroj, který člověka napodobuje. Pokud osoba O není schopna poznat, zda na danou otázku odpovídal stroj, nebo člověk, pak je tento stroj možno prohlásit za inteligentní [17]. Ačkoliv byl Turingův test dlouho považován za směrodatný při určování umělé inteligence u strojů, dnes je překonán z důvodu nepokrytí všech aspektů, které očekáváme od inteligentních entit. Jedním z argumentů proti němu je např. Argument čínského pokoje. 13
3 Vybrané oblasti využití NLP
3.5.2 Argument čínského pokoje Tzv. Argument čínského pokoje je myšlenkový pokus, který má za cíl poukázat na fakt, že samostatná schopnost smysluplně odpovídat na zadané otázky (což je v podstatě hlavním principem Turingova testu) není dostatečně silnou motivací pro prohlášení nějakého stroje inteligentním.Argument byl předložen filozofem Johnem Searlem v roce 1980 [15]. Při tomto pokusu si představíme uzavřenou místnost, ve které se nachází člověk neznalý čínštiny. Má u sebe k dispozici soubor všech možných a smysluplných čínských vět. Dostává otázky (v písemné formě), na něž je schopen odpovídat na základě tohoto kompletního souboru, ačkoli nerozumí jejich významu ani nezná gramatická pravidla pro sestavování vět v čínštině. Jeho práce je čistě mechanického charakteru s (pro něj) neznámými symboly, mohl by ji tedy stejně tak dobře vykonávat i nemyslící stroj [15]. Argument tedy předpokládá kompletní databázi všech vět, to znamená, že je celý soubor obrovský, ale jeho princip je platný a je často aplikován na počítačové systémy umělé inteligence [15].
3.6 Vytváření rozsáhlých jazykových zdrojů V rámci počítačové lingvistiky vznikají rozsáhlé elektronické korpusy textů, bez nichž se v současné době práce lingvistů při pokusech o detailnější poznání jazyka neobejde. Díky tomu, že se o daném jazyce dozvědí co nejvíce, jsou pak schopni tyto informace využít i v oblasti počítačového zpracování. Tyto korpusy by tedy měly obsahovat nejen velké množství textů (psaného i mluveného jazyka), ale i z hlediska obsahového by měly být co nejbohatší. Nemůžeme se však spokojit s „pouhýmÿ shromážděním jazykového materiálu; důležité je opatřit taková data značkami – anotací, tzn. přiřadit hodnoty gramatické i jiné (např. sémantické) kategorie jednotlivým prvků věty [8, s. 247]. V současné době existuje řada anotovaných korpusů u nás i ve světě. Anotování jazykového korpusu přináší důležité výsledky v lingvistice a umožňuje také vypracovat procedury, které by se mohly na základě dat vytvořených lingvisty (a za pomoci přívětivého počítačového prostředí) „naučitÿ analyzovat běžný text, a to i text neznámý, tedy systémem dosud neviděný. Na tomto základě by se pak daly tyto procedury pro porozumění textu daného jazyka rozšiřovat [8, s. 248]. Možným testem, zda počítačový systém „rozumíÿ textu, jenž je mu předložen, je přikázat mu, aby vstupní text přeložil do jiného jazyka [9, s. 276].
3.7 Strojový překlad Strojový překlad je jedním z nejsložitějších a nejkomplexnějších úkolů počítačové lingvistiky. V Evropě se v poslední třetině 20. století strojový překlad zaměřil na tvorbu syntaktických pravidel a využívání překladových slovníků obsahujících sémantické informace. V posledních letech se zájem o tuto problematiku zvýšil a hledaly se jiné cesty, jak dojít k rychlému a adekvátnímu strojovému překladu. 14
3 Vybrané oblasti využití NLP
Začalo se využívat metod matematické statistiky. Výhodou statistického přístupu je jeho univerzálnost, ta totiž umožňuje relativně snadno použít metody vyvinuté pro určité ekvivalenty i pro další jazyky [9, s. 276]. Důležitým předpokladem pro použití statistických metod je dostatečně rozsáhlá jazyková základna, zde konkrétně paralelní korpus3 . Ten je tvořen texty ve dvou nebo více jazycích, přičemž si tyto texty odpovídají svým obsahem a strukturou, tj. pořadím odstavců a vět. Jeden text je „lidskýmÿ překladem druhého – užívají se pro strojové učení (aby se na nich počítač nacvičil). V ideálním paralelním korpusu by kromě jednoznačného párování odstavců a vět byla spárována i jednotlivá slova a sousloví. Skutečnost je ale taková, že existuje jednoznačné párování mezi celými dokumenty a párování odstavců a vět je nutné provést dodatečně, zpravidla automaticky. K tomuto automatickému párování vět se využívají statistické metody, které jsou založeny na porovnávání délek příslušných pasáží; pomáhají při tom i jiné jevy, jako například číslice, jména nebo přejatá slova (tedy shodné či podobné části textu v obou jazycích) a také informace z překladových slovníků. Paralelní korpus slouží jako trénovací data pro překladový model [9, s. 276]. Tento základní překladový model v podstatě odpovídá automatickému sestavení (tedy natrénování) pravděpodobnostního překladového slovníku slov, jež jsou obsažena v paralelním korpusu – ve slovníku je každému překladu přiřazena pravděpodobnost, s jakou odpovídají příslušnému heslu. Vznikají tak pravděpodobnosti párů heslo – překlad. Tyto páry se pak pomocí algoritmu zpřesňují a na základě určitých vztahů nakonec získáme pravděpodobnostní překladový slovník [9, s. 276, 277]. Z výše uvedeného vyplývá, že další práce v oblasti NLP nemůže být efektivní, bude-li probíhat izolovaně. V dalším výzkumu i při tvorbě aplikací je třeba propojit výzkumnou činnost lingvistů, informatiků, matematiků, odborníků v oblasti reprezentace znalostí a v oblasti metod a nástrojů umělé inteligence [9, s. 283].
3.8 Sémantický web Sémantický web je vize, jak by mohla vypadat síť za několik let. Podle Tima Berners-Lee, který počátkem 90. let navrhl webovou koncepci, je sémantický web rozšířením toho současného, v němž mají informace definován význam, umožňující lepší spolupráci člověka s počítačem. Jde o myšlenku mít data na webu definovaná a prolinkovaná tak, že si s nimi stroje lépe „poradíÿ, tedy že je automaticky zpracují a využijí napříč různými aplikacemi [21]. Aby mohla být tato vize v budoucnu uskutečněna, je nutno provést, jakožto základní krok, konceptualizaci dat dostupných na Internetu. Nástrojem konceptualizace jsou ontologie, které slouží k definování významů v sémantickém webu. Popisují okolní svět a snaží se tyto pojmy uspořádat do kategorií, tzv. konceptů, které zachycují jejich vlastnosti a vzájemné vztahy. Ontologie umožňují, aby pojmy (v podobě symbolů) byly jednak srozumitelné pro člověka, jednak strojově zpracovatelné. [16, s. 3] 3
Viz např. http://ucnk.ff.cuni.cz/intercorp/.
15
3 Vybrané oblasti využití NLP
3.8.1 Sémantický web a vyhledávání Vyhledávání v sémantickém webu znamená přechod od vyhledávání explicitní informace k získávání implicitních poznatků. Nebudeme již vyhledávat stránky obsahující klíčová slova, ale podobné pojmy (tedy nikoli informace). Na dotaz „učitelÿ se nám zobrazí i stránky, které obsahují pojmy jako „kantor, lektor, pedagogÿ apod. [16]. Nové možnosti vyhledávání v sémantického webu [16, s. 8]: • tvorba dotazů v přirozeném jazyce • inteligentní pojmové vyhledávání – identifikace relevantních dokumentů a je-
jich řazení podle míry vhodnosti • zodpovídání jednoduchých otázek – např. „Jaké je hlavní město České republiky?ÿ • zodpovídání složitých otázek – např. „Jaká je současná situace v Iráku?ÿ
16
4 Počítačová analýza přirozeného jazyka 4.1 Typy analýzy přirozeného jazyka Automatickou analýzou přirozeného jazyka rozumíme zpracování vstupních dat v přirozeném jazyce. Mezi nejčastější typy analýzy patří [5, s. 2]: 1. morfologická (lexikální) analýza 2. syntaktická analýza 3. sémantická analýza
4.1.1 Morfologická analýza Zpracování textu v přirozeném jazyce na lexikální úrovni se zabývá slovem, což je nejmenší smysluplná jednotka z hlediska morfologické analýzy. Tomuto slovu morfologická analýza určuje jeho základní slovní tvar, slovní druh a příp. další gramatické kategorie. Tato první část analýzy je z oněch tří nejlépe algoritmizovatelná a popsaná v odborné literatuře; v současné době existují programy, jejichž úspěšnost je vyšší než 90 % [5, s. 2, 3]. Pro příklad uveďme morfologický analyzátor ajka vyvinutý na FI MU v Brně R. Sedláčkem; a morfologický analyzátor J. Hajiče užívaný při značkování Českého národního korpusu.4 U víceznačných slov (v češtině je jich asi 50 %) je nutno provést proces zjednoznačnění morfologických značek (tzv. desambiguace), přičemž jednou z metod je syntaktická analýza.
4.1.2 Syntaktická analýza Základním prvkem zpracování jsou zde větné celky. Syntaktická analýza má za úkol formálně popsat strukturu věty – uvést závislostní vztahy mezi větnými členy. Jde tedy o větněčlenský rozbor věty a s tím spojenou konstrukci závislostních nebo složkových stromů, kde je zachycena podmětná a přísudková část a na nich závislé větné členy (jako např. předmět, přívlastek, příslovečné určení, doplněk) [5, s. 3]. Možná úskalí představuje čeština v tom, že nemá striktní pravidla pro uspořádání členů ve větě, tj. má volný slovosled. 4
http://http://ucnk.ff.cuni.cz/
17
4 Počítačová analýza přirozeného jazyka
Mezi syntaktické analyzátory patří např. Synt5 a Zuzana6 , které jsou vyvíjeny na FI MU v Brně. Výsledkem syntaktické analýzy je závislostní korpus, např. PDT7 , jenž je dílem Ústavu formální a aplikované lingvistiky Univerzity Karlovy.
4.1.3 Sémantická analýza Tato část analýzy je zdokumentována v mnohem menší míře než předchozí dvě. Může se zaměřit na výraz, dále na větší úseky textu i na text promluvy jakožto celku [5, s. 4]. Podle rozšířené definice sémantiky můžeme odvodit, že úkolem sémantického analyzátoru je zachytit význam vstupního textu. Protože však nelze zcela přesně definovat sémantiku výrazu přirozeného jazyka a potažmo tedy ani výsledky sémantické analýzy, volíme její slabší definici – sémantická analýza má za úkol přiřadit výrazům přirozeného jazyka značky, kterými je významově specifikuje. Více viz [5, s. 6]. Součástí sémantické analýzy jsou ontologie (viz 4.2 Ontologie).
4.2 Ontologie Ontologie popisují okolní svět a snaží se tyto pojmy uspořádat do kategorií, tzv. konceptů. Top-Ontology. Tato „vrcholová ontologieÿ byla vytvořena v rámci projektu Euro WordNet a navržena jako hierarchie 63 jazykově nezávislých konceptů. Umožnila sémantickou klasifikaci základních konceptů (Base Concepts) ve WordNetu [12, s. 21]. Top-Ontology zahrnuje v jednoduché struktuře základní významy, jež jsou rozděleny na entity 1., 2. a 3. řádu. V hierarchické struktuře jsou uspořádány entity 1. a 2. řádu; entity 3. řádu jsou pouhým seznamem propozičních pojmů (např. idea, though, information, theory, plan atd.) [12, s. 21]. • entity 1. řádu – konkrétní fyzické objekty (podstatná jména) • entity 2. řádu – stavy a procesy (podstatná a přídavná jména, slovesa) • entity 3. řádu – abstraktní pojmy propoziční povahy (podstatná jména).
5 6 7
http://nlp.fi.muni.cz/projekty/wwwsynt/ http://nlp.fi.muni.cz/projekty/zuzana/ http://ufal.mff.cuni.cz/pdt2.0/
18
5 VerbaLex Elektronická valenční databáze slovesných rámců VerbaLex 8 je v praktické části mé práce zásadním projektem. Zpracovává valenci českých sloves a kromě dalších vytyčených cílů směřuje k tvorbě dotazů na Internetu v přirozeném jazyce, čímž se dotýká i oblasti sémantického webu. Elektronická valenční databáze VerbaLex je projekt, který vyvíjejí pracovníci CZPJ FI MU v Brně9 od roku 2005 pod vedením D. Hlaváčkové a A. Horáka.
5.1 Základní výchozí zdroje VerbaLex vychází ze tří základních zdrojů: • BRIEF • VALLEX • Český WordNet
5.1.1 BRIEF Tento český valenční slovník byl vybudován taktéž na FI MU, a to roku 1997 pod vedením K. Paly. Obsahuje 15 000 slovesných lemmat a 50 000 valenčních rámců, pro VerbaLex je základním zdrojem dat. Více viz [4, s. 21, 22].
5.1.2 VALLEX Valenční slovník českých sloves (VALency LEXicon – VALLEX ) byl pro VerbaLex inspirací při výběru formátu zápisu a způsobu převodu do verzí XML, HTML a PDF. Autoři VerbaLexu ale již od počátku usilovali o jemnější klasifikaci sémantických rolí a dalších náležitostí. Každá z těchto databází má tedy různou strukturu a pracuje s různými daty. Více viz [4, s. 22–24].
8 9
VerbaLex přístupný na adrese
po přidělení hesla. http://nlp.fi.muni.cz
19
5 VerbaLex
Obr. 1: HTML prohlížeč Vallexu
5.1.3 Český WordNet WordNet (dále WN ) je lexikální databáze, ve které jsou jednotlivé elementy provázány sémantickými vztahy, jde o tzv. sémantickou síť. Vznikl v 90. letech 20. století pod vedením amerického psychologa a psycholingvisty G. A. Millera, jenž se zabýval lexikální sémantikou z hlediska tzv. psycholexikologie. Dospěl k závěru, že významy jsou v naší paměti organizovány hierarchicky. Právě na tomto principu byla vybudována první slovní sémantická síť Princeton WN na Princetonské univerzitě v USA v letech 1990–1995 [4, s. 15, 16]. Základním stavebním kamenem WN je synset (set of synonyms), což je synonymická řada složená ze slov – tzv. literálů, k nimž jsou připojena čísla významu. Tento synset je pak doprovázen definicí a příkladem použití. WN zaznamenává vztahy hypero-hyponymické a také vztahy v rámci jednotlivých slovních druhů – např. antonymie [4, s. 16, 17]. CzWN neboli Český WordNet je budován od roku 1998. Tento i další národní WN zachycují překladové ekvivalenty a díky mezijazykovému indexu jsou navzájem provázány, a tak je (s přihlédnutím na potřeby konkrétního jazyka) možné sdílení synsetů [4, s. 17, 18].
5.2 Obsah VerbaLexu Základním prvkem VerbaLexu jsou komplexní valenční rámce, které v sobě zahrnují základní valenční rámce a další informace o slovesech. V následující sekci si tyto rámce popíšeme a ukážeme konkrétní příklad z databáze. 20
5 VerbaLex
5.2.1 Komplexní valenční rámec
Obr. 2: Komplexní valenční rámec • synset – synonymická řada sloves, uváděna s číslem konkrétního významu
• • • •
• • • • • •
slovesa podle CzWn a doplněna o vidy: pf = dokonavé sloveso, impf = nedokonavé sloveso, biasp = obouvidé sloveso definition – definice daného významu sloves uvedených v synsetu class – sémantická třída (je-li uvedena) passive – možnost tvoření pasivního tvaru (yes/no) English equivalent – podle sítě Princeton WN , pokud může být český synset v konkrétním významu přiřazen k anglickému ekvivalentu, s tím souvisí English literals – příslušný literál a English definition – definice subsynset – ta část synsetu, pro kterou platí níže uvedený valenční rámec frame – základní valenční rámec (5.2.2 Základní valenční rámec) example – příklad použití slovesa dle uvedeného „frameÿ v kontextu synonym – část synsetu, pro kterou „frameÿ neplatí use – užití: prim = doslovný význam (primární), fig (figurative) = přenesený význam, idiom = frazém (ustálené spojení) reflexivity – reflexivita
5.2.2 Základní valenční rámec Základní valenční rámec (frame) zachycuje dvě roviny, a to morfologickosyntaktickou (např. čísla pádů valenčních doplnění) a sémantickou (sémantické role). Valenční doplnění slovesa jsou v databázi členěna na sémantické role první úrovně (v příkladu uvedeném níže to jsou AG, COM, OBJ) a druhé úrovně (zde person:1, document:1, object:1). 21
5 VerbaLex
Doplňujícím údajem je označení druhu valenčního doplnění (obl = obligatorní, opt = fakultativní) a nepředložková či předložková vazba společně s určením pádu. Příklad synset: pečetit, zapečetit (zapečeťovat) obl frame: AG
obl COM<document:1>obl co4 kdo1 VERB OBJobl v+čem6
Základní valenční rámec je pak následován příkladem (či příklady) použití daného významu slovesa – example.
5.3 Sémantické role dvou úrovní Jedním z cílů autorů databáze VerbaLex byla podrobnější klasifikace sémantických rolí jednotlivých valenčních doplnění slovesa. Bylo zavedeno jejich dvouúrovňové členění. V současné době obsahuje VerbaLex 30 hlavních rolí (1. úroveň), které jsou vybrány z Euro WordNet Top-Ontology (s jistými modifikacemi). Role 2. úrovně jsou literály z Princeton WN a ve VerbaLexu je jich přes 1 000 – jsou specifičtější a mohou být chápány jako subkategorie specifikující 1. úroveň. Důvodem pro tento výběr byl fakt, že WN zachovává hierarchickou strukturu a obsahuje přibližně 110 000 synsetů. Pak je možné použít ve valenčním rámci nejobecnější roli a jít níž v hyperonymně/hyponymní struktuře, dokud není nalezena ta nejspecifičtější [11, s. 43]. Anotátoři postupovali následujícím způsobem: 1. Vybrali z WN vhodné literály (vždy včetně čísla jejich významu). 2. Z těchto literálů byly sestaveny tabulky,10 z nichž anotátoři u konkrétního významu slovesa zvolili vhodný literál jakožto roli druhé úrovně. Když jej zde nenašli → 3. vyhledali ve WN vhodný synset a vybrali z něj jiný literál. Vzhledem k faktu, že počet sémantických rolí druhé úrovně je tak vysoký, je žádoucí jejich eliminace. V praktické části se tedy zabývám sémantickými rolemi druhé úrovně s nízkou frekvencí v databázi a hledám možnosti, jak jejich počet efektivně snížit.
5.4 Využití valenčních rámců pro jiné jazyky V současné době se ověřuje, zda mohou být valenční rámce univerzální, tedy zda mohou být využity i pro další jazyky, nejen češtinu. V následující sekci ukazuji, k jakým výsledkům se prozatím dospělo. Přiřazování sémantických rolí je obvykle spojeno s tím, jak je vhodné použití dané role v souvislosti s konkrétním významem slovesa. Můžeme si všimnout, že různé projekty využívají různé seznamy rolí (Vallex , VerbNet, FrameNet, Corpus Pattern Analysis – blíže jsou popsány v [2, s. 11–16]). S ohledem na tuto skutečnost vyvstává otázka, zda je sémantika empirických lexikálních dat dostupných 10
http://nlp.fi.muni.cz/verbalex/doc/Semantrole.html – dostupné pod heslem
22
5 VerbaLex
v korpusu dostatečně popsána. Jestliže budujeme slovesné valenční rámce s cílem popsat skutečné sémantické vlastnosti sloves, musíme jít hlouběji, tj. dál za rovinu syntaktickou. Např. u sloves „ jístÿ a „pítÿ je jasné, že každé se dále pojí s jinými výrazy; „pítÿ s „nápojiÿ, zatímco „ jístÿ s „ jídlemÿ [11, s. 41]. Důkladnějšího popisu sémantických vlastností slovesa dosáhneme, pokud provedeme detailnější členění rolí, tzv. subkategorizaci. V ostatních projektech (např. ve VerbNetu a Vallexu 1.0 ) je subkategorizace používána jen částečně [11, s. 41]. Tyto skutečnosti vedly pracovníky CZPJ na FI MU k definování sémantických rolí dvou úrovní. Zodpovězme si otázku, jaký je rozdíl mezi „povrchovýmiÿ rolemi, jako jsou např. agens (činitel děje), patiens (člověk dějem zasažený), substance a „hloubkovýmiÿ rolemi, např. SUBS ve VerbaLexu. „Povrchovéÿ role se zdají být podobné sytagmatickým funkcím ve větě. Oproti tomu informace, že se jedná o „substanciÿ a v jejím rámci o „ jídloÿ, není jen syntagmatická, ale jde tu o konkrétní doplnění ke slovesu. To byl hlavní důvod zahrnutí těchto specifičtějších rolí do seznamu. Hovoří se zde o rolích dvou úrovní vycházejících z ontologie, např. SUBS (substance) je dále členěna např. na , což je literál v Princeton WN 2.0 [11, s. 42]. V současné době nejsou uvedené definice dostatečně formálně popsány pro počítačové účely. Je třeba pracovat na tvorbě seznamů sémantických rolí, tato činnost probíhá postupně s budováním potřebné ontologie. Proto se databáze VerbaLex ustálila na rolích dvou úrovní, které v současné době obsahuje [11, s. 42]. Design VerbaLexu byl zvolen hlavně za účelem popsat rysy valenčního rámce ve strojem čitelné podobě, který může být použit i při automatické syntaktické a sémantické analýze. Komplexní valenční rámec tedy obsahuje [11, s. 42]: • morfologické a syntaktické rysy členů věty • dvě úrovně sémantických rolí • odkazy na hypero/hyponymní hierarchii Princeton WN a Czech WN • pozice slovesa ve valenčním rámci • valenční rámce spjaté s konkrétními významy slovesa • sémantické třídy sloves
5.4.1 Mohou být komplexní valenční rámce univerzální? Budování databáze VerbaLex začalo během projektu Balkanet (2002). České slovesné valenční rámce byly propojeny s anglickým Princeton WN a dalšími jazyky v rámci tohoto projektu (pomocí Interlingual Index, dále ILI). Byla testována hypotéza, že české komplexní valenční rámce mohou být použity také u sloves v jiných jazycích, obzvláště v bulharštině a rumunštině. Výsledky experimentů byly pozitivní, a proto můžeme učinit závěr, že tyto rámce mohou být využity i pro další jazyky [11, s. 44, 45]. Otázkou však zůstává, zda rámce vyvinuté pro češtinu mohou být použity stejně dobře i na angličtinu. Když využijeme ILI a podíváme se na valenční rámce pro česká slovesa jako např. „ jístÿ a „pítÿ a anglická „eatÿ a „drinkÿ a následně 23
5 VerbaLex
jim přiřadíme anglické ekvivalenty, dojdeme k závěru, že česká hloubková valence dobře popisuje svou sémantiku. VerbaLex je zabudován do českého WN a přes ILI také do PWN 2.0 , takže máme k dispozici nezbytné překladové páry. A to může být použito pro další WN připojené k PWN 2.0 . Tím pádem se spoléhá na princip přeložitelnosti, což znamená, že hloubková valence českých sloves může být přijatelně využita také pro angličtinu (více viz příklad v [11, s. 45, 46]). Vyvstává zde problém s povrchovou valencí, protože stavba věty v angličtině je založena na principu SVOMPT [11, s. 44]: 1. 2. 3. 4. 5. 6.
Subject – podmět Verb – přísudek Object – předmět Manner – příslovečné určení způsobu Place – příslovečné určení místa Time – příslovečné určení času
Dalším problémem jsou mluvnické pády v češtině. Tyto problémy jsou zde však pro přehlednost chápány spíše jako technické záležitosti [11, s. 44].
5.5 Další projekty zabývající se slovesnou valencí Existují další projekty, které se zabývají slovesnou valencí. Jsou to především tyto: • VALLEX • VerbNet • FrameNet • Corpus Pattern Analysis
Dostatečný vhled do jejich problematiky představuje práce [2, s. 11–16].
24
6 Praktická část 6.1 Práce s jazykovými daty Hlavním cílem praktické části je kontrola sémantických rolí druhé úrovně s frekvencemi 1 a 2 ve VerbaLexu a případná redukce jejich počtu.
6.1.1 Postup práce Nejprve jsem si ve VerbaLexu vyhledala role druhé úrovně (2nd level roles) s frekvencemi 1 a 2, tedy s jediným a dvojím výskytem v databázi. Rolí s jediným výskytem je v databázi 211, se dvěma výskyty 144, celkem tedy 355 rolí. (Seznam všech rolí druhé úrovně vyskytujících se v této práci je společně s českými ekvivalenty uveden v Příloze 1). Potom jsem každou roli zvlášť ověřovala v anglickém WN , abych zjistila, zda její význam souhlasí s číslem významu převzatým z této databáze. Následně bylo nutno zhodnotit, zda má daná role ve VerbaLexu své jednoznačné opodstatnění, nebo je možno ji nahradit nadřazeným pojmem, tedy hyperonymem – k tomu mi pomáhala hierarchická struktura uvedená ve WN . Díky náhradě za obecnější roli, která je již zastoupena ve VerbaLexu, dosáhneme toho, že se sníží počet sémantických rolí s nízkou frekvencí. V některých případech bylo potřeba ověřit daný význam slovesa v českých výkladových slovnících11 . Dále jsem využívala české jazykové korpusy a s nimi propojený nástroj Word Sketch Engine 12 . Ten umožňuje zobrazení kontextu hledaného výrazu a jednotlivé slovní druhy, které se vyskytují v okolí tohoto výrazu, setřídí do přehledných tabulek. Pro stručnou orientaci v použitých zdrojích dat a nástrojích viz [2, s. 25–30]. (Seznam použitých nástrojů je uveden v Příloze 2.)
6.1.2 Výsledky výzkumu Při specifikaci rolí docházelo vždy k jednomu z těchto sedmi případů13 : 1. role je oprávněná, nelze ji vyjádřit jinak; nahrazením hyperonymem bychom ztratili cennou informaci o významovém doplnění slovesa 11
Využívala jsem elektronickou verzi slovníků přístupnou přes prohlížeč DEBDict – více na adrese
http://nlp.fi.muni.cz/projekty/deb2/ 12 http://www.sketchengine.co.uk/ 13 Shrnutí viz tabulky níže – v hlavičce je číslo (příp. písmenné označení) případu, pod ním počet jeho výskytů – zvlášť pro frekvenci 1 a 2
25
6 Praktická část
2. role je zbytečně specifická, může být nahrazena hyperonymem: a) s vyšší frekvencí ve VerbaLexu b) vybraným z WN , který dosud není uveden ve VerbaLexu 3. role je oprávněná, měla by být použita i v dalších případech – pomáhá bližší specifikaci příliš obecného významu 4. role je špatně zvolena, neodpovídá významu z WN a bude nahrazena jinou: a) ve VerbaLexu již použitou b) zcela novým literálem z WN c) jiným číslem významu – literálu z WN 5. je již použita synonymní role, došlo k duplikaci literálů z WN 6. role je navíc, není v rámci nutná a bude vyškrtnuta 7. role je součástí frazému a bude tak v databázi zaznamenána Typ 1 Typ 2 Typ 3 Typ 4 Typ 5 Typ 6 Typ 7 Celkem rolí 141 a b 5 a b c 3 3 1 211 20 1 20 7 10 Tab. 1: Role s frekvencí 1 Typ 1 Typ 2 Typ 3 Typ 4 Typ 5 Typ 6 Typ 7 Celkem rolí 85 a b 28 a b c 3 2 1 144 11 2 7 0 5 Tab. 2: Role s frekvencí 2
6.1.3 Ponechané role Jedná se o sémantické role, které ponechávám v databázi byť s jediným nebo dvojím výskytem, protože v ní mají své opodstatnění. Často se jedná o takové případy, jimiž se už někdo zabýval, a rozhodl, že specifický význam nelze nahradit za obecnější. Role s frekvencí 1. ankle:1 blood vessel:1 boxing:1 canvas:2 commerce:1 cross:1 cuckoo clock:1 development:1 dream:1 facial gesture:1 film:5 freezer:1
antler:1 basket:3 blow:1 boiler:1 branch:2 brow:1 card game:1 cell:2 common denominator:2 consciousness:1 crumb:3 crying:1 defect:1 dentist:1 disappointment:1 disorder:2 drinking:2 drinking water:1 farewell:1 fencing:3 filter:1 firefly:2 frog:1 gap:2 26
Typ 1
beard:1 book:1 bulbous plant:1 cock:4 couple:2 cuckoo:2 destiny:1 division:4 expert:1 fiction:1 fireplace:1 greeting:1
6 Praktická část
grouse:2 heating system:1 honor:1 chemical element:1 keyboard:1 legislative assembly:1 mamma:2 moon:1 order:15 paint:1 paw:1 photo:1 possession:1 poverty:1 rein:1 respiratory organ:1 sail:1 sign:2 species:1 stroke:10 team:2 treatment:1 varnish:1 yarn:2
hair spray:1 hockey puck:1 hurry:3 ice:1 kiss:1 ligament:1 manner:1 musical composition:1 order:7 parasite:1 penis:1 pipe:2 postal service:1 prayer:4 religious ceremony:1 rest:2 salt:2 smoking:1 steel:1 sunset:3 theory:1 type:5 verb:1
Role s frekvencí 2. ability:2 ammunition:1 bottom:3 box office:2 cat:1 cinder:1 danger:1 deer:1 edge:1 education:3 fever:1 figure:6 gargle:1 goose:1 chain:3 channel:1 liner:2 loss:2 means:1 mode:2 nest:1 original:1 physical property:1 plastic:1 powder:3 queue:1 round dance:2 row:7 scream:1 sensory system:2 side:1 size:1 snow:1 solder:1 subjection:1 sword:1 text:1 ticket:1
headdress:1 holy water:1 chamber:1 ideal:1 knitting needle:1 light item:1 method:1 nail polish:1 oyster:1 parcel:3 people:1 plankton:1 pot:1 record player:1 repertory:2 rubber:1 seed:1 sparrow:1 strainer:1 swathes:1 tissue:1 unconsciousness:1 washboard:1
heap:1 honey:1 chemical:1 joint:1 knock:5 lipid:1 millstone:3 notebook:1 padding:1 parent:1 perspiration:1 pole:1 poultry:1 refill:2 resistance:1 rubbish:1 sheep:1 specie:1 stringed instrument:1 swine:1 treasury:1 unit:5 wind instrument:1
bed clothing:1 bicycle:1 brick:1 bridge:1 cookware:1 courage:1 dew:1 digestive system:1 embryo:2 establishment:1 formula:1 fund:1 herb:1 husk:2 identity:1 leisure:1 magma:1 massage:2 narrative:1 natural depression:1 package:2 pedal:2 player:1 powder:1 rocket:1 rolling pin:1 saddle:1 scale:8 ship:1 shopping:1 slogan:1 smudge:2 solid substance:1 stave:2 symptom:1 taste property:1 tinderbox:2 tone:1 27
6 Praktická část
turtledove:1 wave:1 wrapping:2
violence:1 wall socket:1 woodwind instrument:1 wool:2
wart:2 workplace:1
6.1.4 Struktura zápisu 1) 2) 3) 4) 5)
synset patřící ke konkrétnímu rámci definice základní valenční rámec příklad/y návrh specifikace zkoumané role + číslo případu (např. Typ 2a), možnosti: a) Nahradit: → (počet výskytů této nové role ve VerbaLexu). b) Doplnit: → „sloveso/a, k němuž/nimž může být tato zkoumaná role doplněnaÿ (namísto/vedle stávající role). c) Doplnit: → frame + číslo = do jakého dalšího rámce může být zkoumaná role doplněna u stejného slovesa (namísto/vedle stávající role). d) Vyškrtnout .
6.1.5 Role s frekvencí 1 • vzdělávat seimpf studovatimpf 1 2 definition: získávat vědomosti na vysoké nebo střední škole obl frame: AGobl ATTRobl kdo1 VERB na+koho4 example: syn studoval na doktora (impf )
Nahradit: → <job:1> (44). Tento význam daného slovesa znamená „studovat na nějaké povolání, zaměstnáníÿ. Je tedy možno studovat i „na kuchařeÿ, „na zvěrolékařeÿ atd., a proto se namísto role hodí spíše <job:1>, která je již ve VerbaLexu uvedena s frekvencí 44.
Typ 4a
pf • rozběsnitpf 1 rozzuřit1
definition: přivést do stavu zběsilosti opt obl obl PATkoho4 frame: AGobl ACTčím7 kdo1 VERB opt
FEELk+čemu3 example: žák rozběsnil učitele svým chováním k nepříčetnosti (pf ) example: bitím psa rozzuřil k nepříčetnosti (pf )
Doplnit: →„klokotat:2ÿ, „lomcovat:2ÿ, „pobouřit:1ÿ, „vysoptit:1ÿ (namísto <emotion:1>). Zde probíhal postup v podstatě „opačnýmÿ směrem. Ve VerbaLexu je obsažena role <emotion:1> s frekvencí 110, jež je nadřazeným pojmem k . Mým úkolem bylo rozčlenit <emotion:1> na konkrétnější vyjádření, tedy a 28
Typ 3
6 Praktická část
další. Tím jsme dosáhli toho výsledku, že role již nebude v databázi pouze v jediném výskytu, ale bude uvedena s frekvencí 5. Přidána bude u sloves: • „klokotat:2ÿ – frame 1 • „lomcovat:2ÿ – frame 1 • „pobouřit:1ÿ – frame 8 • „vysoptit:1ÿ – frame 2 pf • klepnoutpf 4 ranit4
definition: ochrnout nebo zemřít díky mrtvici obl PATobl frame: STATEobl co1 VERB koho4 example: klepla ho mrtvice (pf )
Nahradit: → <stroke:3> (5). Nastává problém se špatným označením role . Její význam dle WN znamená „ofenzivní hra ve sportu nebo ve hřeÿ. Slovo „mrtviceÿ je ve WN označeno jako <stroke:3> a má ve VerbaLexu již pět výskytů. Tato role tedy bude uvedena namísto .
Typ 4a
impf • nahoditpf 5 /nahazovat5
definition: umístit řemen jízdního kola na správné místo opt obl frame: AGobl OBJobl co4 OBJna+co4 kdo1 VERB example: nahodil řemen na kolo (pf )
Nahradit: → (není ve VerbaLexu). „Řemenÿ by měl být nahrazen slovem „řetězÿ, které je obvyklejší ve spojení s jízdním kolem. Proto roli navrhuji nahradit za ; ta sice zůstane ve VerbaLexu v jediném výskytu, ale bude více odpovídat svému užití.
Typ 4b
impf impf • uvázatpf zavázatpf 1 /uvazovat1 1 /zavazovat1
definition: vytvořit uzel obl frame: AGobl ATTRobl co4 kdo1 VERB example: námořník zavázal uzel (pf )
Nahradit: → (není ve VerbaLexu). Význam je ve WN odlišný, danému kontextu spíše odpovídá (uzel), který zatím nemá ve VerbaLexu své zastoupení.
Typ 4b
impf • skousnoutpf dokousnoutpf 1 /skusovat1 2
definition: kousnutím, sevřením zubů stisknout obl frame: OBJobl ARTobl co1 VERB co4 example: kůň skousl udidlo (pf )
Nahradit: → <artifact:1> (684). Udidlo , jak je uvedeno v příkladu, už je konkrétní věc, kterou zvíře může skousnout. Je tedy možno roli nahradit za obecnější <artifact:1> (684).
Typ 2a
• masírovatimpf rozmasírovatpf 1 1 definition: dopomáhat k uvolnění svalů dotykem či stiskem či pomocí vhodného nástroje opt obl obl SOCobl frame: AGobl komu3 PARTco4 INSčím7 kdo1 VERB example: masírovala otci záda kartáčem (impf )
Nahradit: → (4). 29
Typ 2a
6 Praktická část
Kartáč je příliš specifickou věcí, můžeme jej nahradit za hyperonymum ve VerbaLexu uvedeném již 4x. • dokoupitpf 2 definition: vzít si další kartu obl frame: AGobl OBJobl co4 kdo1 VERB example: karbaník dokoupil kartu (pf )
Nahradit: → (7). Roli je možno nahradit za konkrétnější , ta je ve VerbaLexu obsažena 7x.
Typ 4a
• prášitimpf klepatimpf 1 7 definition: konat činnost spočívající v čištění pomocí klepání opt obl frame: AGobl ART<artifact:1>obl co4 INSčím7 kdo1 VERB example: klepal koberec rákoskou (impf )
Nahradit: → (4). Specifickou roli můžeme nahradit obecnějším – „nástrojem do rukyÿ – , který je použit i v případě „klepat maso paličkouÿ a má frekvenci 4. V této souvislosti jsem se zabývala i rolí s vysokou frekvencí 245, z nichž některé je možno nahradit právě za jeho hyponymum . Nahrazení proběhne např. u sloves: • „básnit:3ÿ • „bičovat:1ÿ • „bít:1ÿ • „bodat:4ÿ • „bouchat:1ÿ
Typ 2a
impf impf • atestovatbiasp osvědčitpf potvrditpf 1 2 /osvědčovat2 8 /potvrzovat8
definition: písemně dosvědčit správnost, platnost nějakého dokumentu nebo listiny opt obl frame: AGobl COMobl co4 PATkomu3 kdo1 VERB example: notář mu potvrdil vysvědčení (pf )
Nahradit: → <document:1> (108).
Typ 2a
impf impf • protřástpf přetřástpf 3 /protřásat3 3 /přetřásat3
definition: způsobovat drobný, cloumavý pohyb sem a tam obl frame: STATEobl PATobl co1 VERB kým7 example: zima jím protřásla (pf )
Nahradit: → <state:4> (868). V tomto případě se nemusí jednat pouze o zimu, která někým protřásá. Může to být např. i strach, tréma, tedy nějaké tělesné stavy či pocity. Role by pak mohla vypadat takto: STATE<state:4> FEEL, kde „stateÿ zastupuje onu zimu/chlad a „feelingÿ pocity.
Typ 4a
• armovatbiasp 1 definition: opatřit beton výztuží opt obl frame: AGobl ARTobl co4 ARTčím7 kdo1 VERB example: stavitel armoval beton výztuží (biasp)
Nahradit: → (9). 30
Typ 2a
6 Praktická část
Podle Příručního slovníku jazyka českého se nemusí v daném významu slovesa jednat pouze o „betonÿ, roli je proto možno nahradit za obecnější s frekvencí 9. pf pf • dokopatpf 2 ukopat1 zkopat1
definition: kopáním někoho ubít opt obl frame: AGobl PATobl kdo1 VERB koho4 EVEN<death:1>k+čemu3 example: esesáci dokopali vězně k smrti (pf )
Doplnit <death:1> → „přinést:3ÿ (namísto „DPHR<smrt>ÿ). Roli <death:1> ponecháme ve VerbaLexu a doplníme ji i ke slovesu „přinést:3ÿ, kde je nyní smrt uvedena jako součást frazeologismu. Pak bude mít v databázi již dva výskyty.
Typ 3
pf impf • posázetpf 1 pokrýt3 /pokrývat3
definition: rozložit větší množství malých předmětů na povrch jednoho většího obl obl frame: AGobl OBJobl co4 ART<decoration:1>čím7 kdo1 VERB example: posázel náramek perlami (pf )
Nahradit: <decoration:1> → <part:1> (138). Vzhledem k tomu, že lze pokrýt např. i střechu, anebo pokrýt něco drobky, tedy něčím drobným, je možno roli <decoration:1> nahradit za <part:1> (s číslem frekvence ve VerbaLexu 138) a následně rozdělit synset do dvou subsynsetů.
Typ 4a
impf • protnout (protít)pf 2 /protínat2
definition: (přeneseně) proniknout skrz nebo přes něco a tím porušit celistvost nebo klid obl frame: ACTobl ABSobl co1 VERB co4 example: hádka proťala ovzduší (pf )
Vyškrtnout . Zde se nabízí možnost vypustit tento rámec, protože „ovzdušíÿ může protnout až projev hádky, což je <scream:1>, který je uveden v 2. rámci. Druhou možností je sloučení rolí <sound:1>, <sound:2> a <sound:3> v jedinou roli <sound:1> a doplnit ji namísto .
Typ 6
• čárkovatimpf 1 definition: dělat na něčem čárky obl ARTobl frame: AGobl co4 kdo1 VERB example: studentka čárkovala výkres (impf )
Nahradit: → <paper:1> (5). Roli nahradíme za <paper:1> a zároveň spojíme se synsety slovesa „linkovat:1ÿ, se kterým má „čárkovat:1ÿ i stejný odkaz do WN .
Typ 4a
pf impf • klást seimpf umístit sepf snést sepf 2 2 usadit se3 /usazovat se3 3
definition: (o pevných částečkách) klesnout a zůstat ve větším množství ležet obl frame: SUBSobl OBJobl co1 VERB na+co4 example: prach se klade na nábytek (impf )
Nahradit: → <substance:1> (688). 31
Typ 2a
6 Praktická část impf impf • pomoct (pomoci)pf vypomoct (vypomoci)pf 3 /pomáhat3 1 /vypomáhat1
definition: poskytovat někomu podporu, pomoc či ochranu opt obl frame: AGobl PATobl kdo1 VERB komu3 ACT<escape:1>k+čemu3, example: pomáhá trestanci k útěku (impf ) example: pomáhá trestanci s útěkem (impf )
s+čím7
Nahradit: <escape:1> → (2552). V tomto případě se nemusí jednat pouze o tak konkrétní věc, jakou je „útěkÿ, a proto roli nahradíme za s frekvencí 2553 ve VerbaLexu.
Typ 2a
• abstrahovatbiasp 2 definition: oprostit, oprošťovat od jednotlivého, zvláštního, konkrétního jen ke společnému, obecnému opt obl frame: AGobl KNOWobl co4 ACT<example:4>z+čeho2 kdo1 VERB example: abstrahoval popis z příkladů (biasp)
Nahradit: <example:4> → (22). Na základě podobných významů je možno nahradit <example:4> za s frekvencí 22.
Typ 4a
impf • popřátpf 1 přát2
definition: projevovat společenskou formou touhu, aby se někomu dostalo něčeho dobrého obl obl frame: AGobl PATobl kdo1 VERB komu3 TIMEk+čemu3, na+co4 example: popřál mi k Novému roku (pf ) example: popřáli si na Nový rok (pf )
Nahradit: → (není ve VerbaLexu).
Typ 2b
pf • rozčepýřitpf 1 načechrat3
definition: načechrat si peří obl obl frame: AGobl PATobl kdo1 VERB komu3 OBJco4 example: rozčepýřil krocanovi peří (pf )
Nahradit: → (křížový případ, rolí jsem se zabývala i později u frekvencí 2; po nahrazení (2) za bude mít tato již dva výskyty ve VerbaLexu).
Typ 4b
pf impf pf • rozflákatpf roztříštitpf 2 roztlouct (roztlouci)2 /roztloukat2 1 roztřísknout (roztřískat)2 pf impf rozbít7 /rozbíjet7
definition: úderem, nárazem silně poškodit, zničit obl obl frame: AGobl PATobl kdo1 VERB komu3 PARTco4 opt
opt
PARTčím7 EVENpři+čem6 example: při zápase mu rozbil hubu pěstí (pf )
Vyškrtnout . Role je fakultativní, proto není v rámci tak důležitá a můžeme ji vyřadit.
Typ 6
impf pf • zformátovatpf naformátovatpf 1 formátovat1 1 přeformátovat1
definition: upravit na předepsaný formát obl INSobl frame: AGobl co4 kdo1 VERB example: naformátoval disketu (pf )
Nahradit: → <memory device:1> (13). 32
Typ 2a
6 Praktická část pf impf • vytřískatpf 1 vytlouct (vytlouci)4 /vytloukat4
definition: úplně rozbít obl obl frame: AGobl PATobl kdo1 VERB komu3 SUBSco4 opt
PART OBJčím7 example: uličníci vytloukli sousedovi okenní skla kamením (pf )
Nahradit: → <pane:1> (2).
Typ 4a
• rmutovatimpf 1 definition: připravovat rmut; drtit plody na kvašení obl frame: AGobl SUBSobl co4 kdo1 VERB example: vinař rmutoval hrozny (impf ) example: rmutoval plody na kvašení (impf )
Nahradit: → (18).
Typ 4a
impf impf impf • dopléstpf spléstpf zapléstpf pléstimpf 1 /doplítat1 1 /splétat1 1 /zaplétat1 1
definition: pletením spojit dohromady obl frame: AGobl OBJ PARTobl co4 kdo1 VERB OBJ PARTobl do+čeho2, v+co4 example: zapletla vlasy do copu (pf ) example: spletla nitě v šňůru (pf )
Nahradit: → (2).
Typ 5
impf • přeplatitpf 1 /přeplácet1
definition: zaplatit za něco nebo někomu víc, než je běžné, náležité opt obl frame: AGobl POSobl co4 EXT<sum:1>o+co4 kdo1 VERB example: tento poplatník přeplatil daň o 500 Kč (pf )
Nahradit: → (není ve VerbaLexu).
Typ 4c
impf • vzítpf sebratpf 4 /brát4 8
definition: způsobit někomu ztrátu něčeho; dát pryč od něčeho někoho; zbavit něčeho obl obl frame: AGobl ARTobl co4 PATkomu3 kdo1 VERB example: vzal mi královnu (pf )
Nahradit → (17).
Typ 2a
impf • přepsat sepf 2 /přepisovat se2
definition: zmýlit se při psaní obl frame: AGobl KNOWobl kdo1 VERB z+čeho2 example: přepsal jsem se z nepozornosti (pf )
Nahradit: → (3). Zde se jedná o psychický proces; protože je možno se přepsat i z nesoustředění, z roztržitosti, tak nahradíme za roli (3).
Typ 2a
impf • čepovatimpf točitimpf nalítpf 1 3 3 /nalévat (nalívat)3
definition: litím vpustit do něčeho tekutinu opt obl SUBSobl frame: AGobl co4 ART<jar:1>do+čeho2 kdo1 VERB example: prodavačka nalévala burčák do přinesených nádob (impf )
Nahradit: <jar:1> → (7).
Typ 2a 33
6 Praktická část • akcentovatimpf přizvukovatimpf 1 3 definition: vyslovovat s přízvukem, klást přízvuk na něco obl frame: AGobl ABSobl co4 kdo1 VERB example: Češi přizvukují první slabiku (impf )
Nahradit: → (28).
Typ 5
zkomplikovatpf • komplikovatimpf 1 1 definition: dělat něco složitým opt obl obl frame: AGobl PATobl kdo1 VERB komu3 ACTco4 ACTčím7 example: komplikuje mu život zbytečnými řečmi (impf ) example: komplikuje si život marnou snahou (impf )
Nahradit: → (13). Není potřeba, aby byly ve VerbaLexu tři výrazy pro život (, , ), a proto je můžeme sloučit do jediné role .
Typ 4a
• aspirovatimpf 2 definition: nasávat vzduch obl frame: PARTobl co1 VERB example: pacientovy plíce dobře aspirují (impf )
Nahradit: → (není ve VerbaLexu).
Typ 4b
• vykuřovatimpf kouřitimpf 1 4 definition: naplňovat kouřem opt obl frame: AGobl OBJobl co4 SUBSčím7 kdo1 VERB example: farář kouří oltář kadidlem (impf )
Nahradit: za <smoke:1> (8).
Typ 4a
• malovatimpf 1 definition: zhotovovat malbu; umělecky něco zobrazovat barvami opt obl frame: AGobl INS<paintbrush:1 paint:1>čím7 kdo1 VERB example: maloval štětcem (impf ) example: maloval olejovými barvami (impf )
Nahradit: <paintbrush:1> za <writing implement:1> (22).
Typ 4a
impf • povědětpf vyprávět (vypravovat)impf 1 /povídat1 7
definition: sdělovat nějaké poznatky, děj někomu opt obl obl frame: AGobl PATobl kdo1 VERB komu3 COM<message:2>co4 INSpo+čem6 example: povídal jí po telefonu vtipné historky (impf ) example: povídali si po telefonu vtipy (impf )
Nahradit: → (3).
Typ 5
impf • přeleštitpf 1 /přelešťovat1
definition: znovu, lehce nebo zběžně naleštit, vyleštit opt obl PATkomu3 OBJobl frame: AGobl co4 kdo1 VERB opt
ARTčím7 example: přeleštil si brýle hadříkem (pf ) example: přeleštil mu boty utěrkou (pf )
Nahradit: → (2). 34
Typ 4a
6 Praktická část pf impf impf • pomrznoutpf zmrznoutpf 1 umrznout2 /umrzat2 2 /mrznout (zmrzat)2
definition: umírat mrazem opt obl frame: ENTobl PATco4 co1 VERB example: muškáty zmrzly (pf )
Vyškrtnout .
Typ 6
• dobojovat sepf 1 definition: bojem někam proniknout, někam dospět obl frame: AGobl ABSobl kdo1 VERB do+čeho2 example: zápasník se dobojoval do druhého kola (pf )
Nahradit: → (10).
Typ 4a
impf • přeleštitpf 1 /přelešťovat1
definition: znovu, lehce nebo zběžně naleštit, vyleštit opt opt obl frame: AGobl PATkomu3 OBJobl co4 SUBS<preparation:2>čím7 kdo1 VERB example: přeleštil mu boty leštidlem (pf ) example: přeleštila si nábytek voskem (pf )
Nahradit: <preparation:2> → (2).
Typ 4a
• roditimpf 2 definition: nést plody; dávat úrodu opt obl frame: OBJobl ENT<produce:1>obl co1 VERB co4 OBJna+čem6 example: naše jabloň rodí jablka na slabých větvích (impf )
Nahradit: <produce:1> → (21).
Typ 4a
• vystudovatpf 2 definition: tím se vyškolit pro nějaký obor obl frame: AGobl ENT<profession:1>obl kdo1 VERB na+koho4 example: vystudoval na učitele (pf )
Nahradit: <profession:1> → <job:1> (44).
Typ 4a
impf impf impf • skrýt sepf ukrýt sepf schovat sepf 1 /skrývat se1 1 /ukrývat se1 2 /schovávat se2
definition: uchýlit se na bezpečné místo opt obl frame: AGobl ABSza+co4, kdo1 VERB example: skrýval se za pseudonym (impf ) example: autor se skrýval za pseudonymem (impf )
pod+čím7
Nahradit: → (33).
Typ 2a
impf • přepálitpf 4 /přepalovat4
definition: přehnat rychlost na začátku a nemít pak dost energie na zbytek závodu, soutěže apod. obl frame: AGobl ABSobl co4 kdo1 VERB example: závodník přepálil tempo (pf )
Nahradit: → (není ve VerbaLexu).
Typ 4c
impf impf • evidovatimpf registrovatbiasp zaznamenatpf zachytitpf 1 1 2 /zaznamenávat2 1 /zachycovat1
definition: zaznamenat v nějakém seznamu za účelem evidence opt obl frame: AGobl OBJobl co4 COMdo+čeho2 kdo1 VERB example: úřad zaznamenal do seznamu všechny historické budovy ve městě (impf )
Nahradit: → <short list:1> (2). 35
Typ 4a
6 Praktická část • armovatbiasp 1 definition: opatřit beton výztuží opt obl frame: AGobl ARTobl co4 ARTčím7 kdo1 VERB example: stavitel armoval beton výztuží (biasp)
Nahradit: → (není ve VerbaLexu).
Typ 4c
• remitovatbiasp 1 definition: odesílat jako remitendu; vrátit neprodané výtisky periodického tisku distributorovi obl frame: GROUPobl COM<request:1>obl co1 VERB co4 example: kancelář remitovala naši žádost (biasp)
Nahradit: <request:1> → <message:2> (93).
Typ 2a
impf pf impf • pokapatpf pokropitpf 1 /pokapávat1 1 polít2 /polívat2
definition: zasáhnout něco, někoho něčím tekutým, kapkami něco potřísnit obl obl frame: AGobl ARTobl co4 SUBS<material:1>čím7 kdo1 VERB example: silničáři polili silnici horkým asfaltem (pf )
Nahradit: → <way:6> (69).
Typ 2a
• deratizovatbiasp 1 definition: hubit zdravotně nebezpečné nebo hospodářsky škodlivé hlodavce opt obl frame: AGobl OBJobl co4 ENTod+čeho2 kdo1 VERB example: krysař deratizoval město od potkanů (impf )
Nahradit → (není ve VerbaLexu). Ve významu tohoto slovesa nejde pouze o hlodavce, ale obecně o škůdce (např. i hmyz apod.), proto navrhuji upravit definici a namísto role dosadit , která zatím není ve VerbaLexu.
Typ 4b
impf impf • leptatimpf prožratpf korodovatimpf rozežratpf žrátimpf 1 1 /prožírat1 2 2 /rozežírat2 4
definition: rozrušovat, poškozovat, ničit povrch něčeho chemickou látkou nebo chemickými vlivy obl frame: PHENobl OBJ SUBS<metal:1>obl co4 co1 VERB example: rez prožírá moje kolo (impf ) example: rez prožírá kovy (impf )
Doplnit: – frame 4 (namísto <solution:1>).
Typ 3
impf • přehrátpf 1 /přehrávat1
definition: zahrát přemrštěně, afektovaně; obl COM<scene:6>obl frame: AGobl co4 kdo1 VERB example: přehrál tu scénu (pf )
Nahradit: <scene:6> → (není ve VerbaLexu).
Typ 4b
impf • rolovatimpf posunoutpf 3 3 /posunovat3
definition: otáčivě, valivě pohybovat; posunovat text na obrazovce opt obl COMobl frame: AGobl co4 OBJ<screen:1>na+čem6 kdo1 VERB example: posunoval text na obrazovce (impf )
Nahradit: <screen:1> → (není ve VerbaLexu). 36
Typ 4b
6 Praktická část impf • analyzovatimpf rozebratpf 2 2 /rozebírat2
definition: zabývat se rozborem nějakého jevu nebo problému opt obl frame: AGobl OBJobl co4 COM<section:1>v+čem6 kdo1 VERB example: autor analyzoval dílo v několika kapitolách (impf )
Nahradit: <section:1> → <writing:2> (40).
Typ 2a
pf impf • střelitpf vystřelitpf 4 vypálit13 3 /střílet3
definition: poslat míč, kotouč na branku, na koš opt opt obl frame: GROUPobl ACT<shot:1>co4 OBJna+co4 co1 VERB example: mužstvo vypálilo na domácí branku osm ran (pf )
Nahradit: <shot:1> → <shot:3> (není ve VerbaLexu).
Typ 4c
• křesatimpf 1 definition: rozněcovat oheň opt obl frame: AGobl ABS<shred:1>obl co4 INSčím7 kdo1 VERB example: křesal jiskry křesadlem (impf )