Na tomto m´ıstˇe bych r´ada podˇekovala hlavnˇe RNDr. Martinu Holubovi, Ph.D. za veden´ı diplomov´e pr´ace, poskytnut´e cenn´e rady a mnoˇzstv´ı ˇcasu vˇenovan´e konzultac´ım. Dalˇs´ı d´ık patˇr´ı Mgr. Silvii Cinkov´e, Ph.D. za konzultace ohlednˇe ˇ anglick´e gramatiky a Ing. Zdeˇ nkovi Zabokrtsk´ emu, Ph.D. za pomoc s n´astrojem TectoMT. V neposledn´ı ˇradˇe bych tak´e r´ada podˇekovala sv´e rodinˇe a pˇr´atel˚ um, kteˇr´ı mˇe podporovali pˇri studiu a mˇeli se mnou trpˇelivost i bˇehem psan´ı t´eto pr´ace.
Prohlaˇsuji, ˇze jsem svou diplomovou pr´aci napsala samostatnˇe a v´ yhradnˇe s pouˇzit´ım citovan´ ych pramen˚ u. Souhlas´ım se zap˚ ujˇcov´an´ım pr´ace. V Praze dne 6. srpna 2010
N´azev pr´ ace: Typick´e vzory uˇz´ıv´ an´ı anglick´ ych sloves Autor: Bc. Lenka Smejkalov´ a ´ Katedra (´ ustav): Ustav form´ aln´ı a aplikovan´e lingvistiky Vedouc´ı diplomov´e pr´ ace: RNDr. Martin Holub, Ph.D. e-mail vedouc´ıho: [email protected]ff.cuni.cz Abstrakt: Metoda CPA (Corpus Pattern Analysis) je korpusov´a metoda, kter´a analyzuje typick´e vzory uˇz´ıv´ an´ı slov v jazykov´em korpusu a popisuje v´ yznam sloves pomoc´ı kontextov´ ych preferenc´ı definovan´ ych jak syntakticky, tak s´emanticky [1]. V souˇcasn´e dobˇe pomoc´ı CPA a s vyuˇzit´ım Britsk´eho n´arodn´ıho korpusu (BNC) vznik´a Slovn´ık vzor˚ u uˇz´ıv´ an´ı anglick´ych sloves (PDEV, Pattern Dictionary of English Verbs) [1, 2]. Diplomov´ a pr´ ace popisuje souˇcasn´ y stav slovn´ıku PDEV, zab´ yv´a se podrobnou anal´ yzou dostupn´ ych dat o typick´ ych vzorech uˇz´ıv´an´ı anglick´ ych sloves a zkoum´a, jak lze vyuˇz´ıt PDEV pro automatickou anal´ yzu lexik´aln´ıho v´ yznamu. D´ ale diplomov´ a pr´ ace obsahuje n´avrh a implementaci procedur pro podporu dalˇs´ıho v´ yvoje slovn´ıku PDEV. Prvn´ı z nich je extrakce slovesn´ ych argument˚ u z v´ ystupu syntaktick´e anal´ yzy angliˇctiny. Druh´a procedura vyuˇz´ıv´a tyto extrahovan´e argumenty k vytv´ aˇren´ı seznam˚ u lexik´ aln´ıch jednotek realizuj´ıc´ıch s´emantick´e typy. Posledn´ı navrˇzen´a procedura automaticky rozpozn´av´a typick´e vzory uˇz´ıv´an´ı sloves za pomoci uveden´ ych seznam˚ u z´ıskan´ ych pˇredchoz´ı procedurou. Souˇc´ ast´ı pr´ ace je t´eˇz vyhodnocen´ı mezianot´atorsk´e shody, evaluace automatick´e extrakce slovesn´ ych argument˚ u z anglick´e vˇety a experiment´aln´ı ovˇeˇren´ı u ´ˇcinnosti navrˇzen´ ych procedur pro extrakci lexik´aln´ıch jednotek realizuj´ıc´ıch jednotliv´e s´emantick´e typy a pro automatick´e rozpozn´av´an´ı typick´ ych vzor˚ u uˇz´ıv´an´ı. Kl´ıˇcov´ a slova: korpus, slovn´ık, z´ avislostn´ı syntax, anglick´a slovesa, v´ yznamy sloves Title: Typical Usage Patterns of English Verbs Author: Bc. Lenka Smejkalov´ a Department: Institute of Formal and Applied Linguistics Supervisor: RNDr. Martin Holub, Ph.D. Supervisor’s e-mail address: [email protected]ff.cuni.cz Abstract: Corpus Pattern Analysis (CPA) is a corpus-based method that explores typical usage patterns of verbs in a text corpus, and describes meaning of verbs by means of contextual preferences defined both syntactically and semantically [1]. CPA in conjuction with the British National Corpus (BNC) is currently used to create The Pattern Dictionary of English Verbs (PDEV) [1, 2]. The thesis describes the current status of the PDEV, presents a thorough analysis of available data on typical usage patterns and explores possible applications of the PDEV for automatic lexical analysis. In this thesis procedures usable in further PDEV development have been designed and implemented. The first of them automatically extracts arguments of verbs from an output of English syntactic analysis. The second one uses the extracted arguments to create lists of lexical units that realize semantic types. The last procedure uses these lists to automatically recognize typical usage patterns of verbs. The thesis also evaluates inter-annotator agreement, automatic extraction of verb arguments in/from English sentence, and effectiveness of the proposed procedures in the extraction of lexical units that realize semantic types and in automatic recognition of typical usage patterns. Keywords: corpus, dictionary, dependency syntax, English verbs, verb meanings
5
Kapitola 1
´ Uvod Metoda CPA (z angl. Corpus Pattern Analysis) je korpusov´a metoda, kter´a analyzuje typick´e vzory uˇz´ıv´an´ı slov (patterny1 ) v jazykov´em korpusu a popisuje v´ yznam sloves pomoc´ı kontextov´ ych preferenc´ı definovan´ ych jak syntakticky, tak s´emanticky [1]. V souˇcasn´e dobˇe pomoc´ı metody CPA a s vyuˇzit´ım Britsk´eho n´arodn´ıho korpusu (BNC) vznik´a Slovn´ık vzor˚ u uˇz´ıv´ an´ı anglick´ych sloves (PDEV, z angl. Pattern Dictionary of English Verbs) [1, 2]. V r´amci tohoto projektu bylo jiˇz zkompilov´ano t´emˇeˇr 700 anglick´ ych sloves, kter´ a pokr´ yvaj´ı cca 10 % slovesn´ ych v´ yskyt˚ u v BNC. Vedle slovn´ıkov´ ych hesel obsahuj´ıc´ıch definici typick´ ych vzor˚ u uˇz´ıv´an´ı sloves jsou t´eˇz veˇrejnˇe dostupn´a rozs´ahl´a korpusov´a data se slovesy oznaˇckovan´ ymi podle PDEV [1]. Dalˇs´ı ned´ılnou souˇc´ast´ı CPA je empiricky vybudovan´ y syst´em s´emantick´ ych typ˚ u [1, 3]. Kombinac´ı s´emantick´ ych typ˚ u a syntaxe metoda CPA origin´aln´ım zp˚ usobem konkuruje tradiˇcn´ım pˇr´ıstup˚ um k automatick´emu rozpozn´av´an´ı v´ yznamu sloves [4]. C´ılem t´eto diplomov´e pr´ace je analyzovat a co nejl´epe vyuˇz´ıt dostupn´a data o typick´ ych vzorech uˇz´ıv´an´ı anglick´ ych sloves. Diplomov´a pr´ace zkoum´a, jak lze vyuˇz´ıt PDEV pro automatickou anal´ yzu lexik´aln´ıho v´ yznamu, a m´a v´est k n´avrhu procedur, kter´e podpoˇr´ı automatick´e rozpozn´av´an´ı nebo pomohou zefektivnit dalˇs´ı v´ yvoj slovn´ıku PDEV. Dalˇs´ım c´ılem bylo prov´est podrobnou anal´ yzu dostupn´ ych dat vˇcetnˇe statistick´eho vyhodnocen´ı m´ıry mezianot´atorsk´e shody a experiment´aln´ı ovˇeˇren´ı u ´ˇcinnosti navrˇzen´ ych procedur – extrakce lexik´aln´ıch jednotek realizuj´ıc´ıch jednotliv´e s´emantick´e typy s vyuˇzit´ım automatick´e syntaktick´e anal´ yzy angliˇctiny a automatick´e rozpozn´av´an´ı typick´ ych vzor˚ u uˇz´ıv´an´ı. Diplomov´a pr´ace obsahuje 7 kapitol vˇcetnˇe u ´vodu a z´avˇeru. Kapitola 2 vysvˇetluje vztah mezi metodou CPA a slovn´ıkem PDEV, popisuje jeho z´akladn´ı rysy a srovn´av´a ho s podobn´ ymi projekty pro angliˇctinu a pro ˇceˇstinu. Kapitola 3 se zab´ yv´a technickou str´ankou a souˇcasn´ ym stavem projektu PDEV, uv´ad´ı v´ ysledky mezianot´atorsk´e shody a nastiˇ nuje dalˇs´ı pˇredpokl´adan´ y v´ yvoj slovn´ıku. Kapitoly 4 a 5 se vˇenuj´ı nezbytn´ ym d´ılˇc´ım c´ıl˚ um – automatick´e syntaktick´e anal´ yze a lexik´aln´ı realizaci s´emantick´ ych typ˚ u. Kapitola 4 se podrobnˇe 1
Anglick´ y term´ın pattern budeme pouˇz´ıvat v cel´em textu.
6
zab´ yv´ a automatickou syntaktickou anal´ yzou se zamˇeˇren´ım na lok´aln´ı kontext slovesa – extrakci slovesn´ ych argument˚ u. Je zde pops´an pouˇzit´ y Stanfordsk´ y parser vˇcetnˇe zpracov´an´ı jeho v´ ystupu. Souˇc´ast´ı kapitoly je tak´e vyhodnocen´ı u ´spˇeˇsnosti Stanfordsk´eho parseru a dalˇs´ıch parser˚ u ˇci metod, kter´e jsou zde rovnˇeˇz pops´any. V kapitole 5 je extrakce argument˚ u prakticky vyuˇzita pro srovn´av´an´ı tˇechto argument˚ u se s´emantick´ ymi typy definovan´ ymi na kolokaˇcn´ıch pozic´ıch popsan´ ych v patternech a n´asledn´e vytv´aˇren´ı seznam˚ u slov, kter´a realizuj´ı jednotliv´e s´emantick´e typy. V pˇredposledn´ı kapitole 6 je navrˇzen a otestov´an jednoduch´ y heuristick´ y klasifik´ator pro pˇriˇrazov´an´ı patternu sloves˚ um. N´astroj vyuˇz´ıv´a v´ ystupy z pˇredchoz´ıch kapitol – z kapitoly 4 vyuˇz´ıv´a automatickou z´avislostn´ı anal´ yzu anglick´e vˇety vˇcetnˇe extrakce slovesn´ ych argument˚ u a z kapitoly 5 pouˇz´ıv´a realizace s´emantick´ ych typ˚ u. V r´amci evaluace je zde navrˇzen jednoduch´ y baseline, v˚ uˇci kter´emu se prov´ad´ı experiment´aln´ı porovn´an´ı u ´ˇcinnosti navrˇzen´eho klasifik´atoru. Pr´ace je zakonˇcena kapitolou 7, kter´a shrnuje celou pr´aci a hodnot´ı jak´ ych c´ıl˚ u se podaˇrilo dos´ahnout a jak´ ym zp˚ usobem.
7
Kapitola 2
Pattern Dictionary of English Verbs (PDEV) 2.1
CPA a PDEV
Metoda CPA (Corpus Pattern Analysis) vznikla na z´akladˇe Theory of Norms and Exploitations ([2, 5]), jej´ımˇz autorem je Patrick Hanks. Projekt Pattern Dictionary of English Verbs (PDEV, [2]) vznik´a od roku 2004 pouˇzit´ım metody CPA a pomoc´ı Britsk´eho n´arodn´ıho korpusu (BNC). Cel´ y BNC korpus obsahuje pˇribliˇznˇe 100 milion˚ u slov. K v´ yvoji slovn´ıku PDEV je pouˇzita pouze jeho ˇc´ast – BNC50, kter´a obsahuje 50 milion˚ u slov. Tato ˇc´ast vznikla odstranˇen´ım mluven´ ych text˚ u a nˇekter´ ych psan´ ych text˚ u, kter´e maj´ı specifick´ y ˇz´anr. Metoda CPA d˚ uslednˇe splˇ nuje Sinclair˚ uv koncept zachycen´ı v´ yznam˚ u v typick´ ych vzorech uˇz´ıv´an´ı jazyka. John Sinclair, nestor korpusov´e lingvistiky, kritizoval oddˇelov´an´ı gramatiky a lexikonu. Gramatika v krajn´ıch pˇr´ıpadech pouze popisuje formu lexik´aln´ı jednotky s ohledem na jej´ı potenci´aln´ı kontext, zat´ımco slovn´ık popisuje v´yznam obsaˇzen´ y v z´akladn´ım tvaru lexik´aln´ı jednotky bez ohledu na jej´ı kontext. Podle Sinclaira [6] jsou forma a v´ yznam nejenom u ´zce sv´az´ any, ale dokonce mus´ı b´ yt identick´e, protoˇze vˇetˇsina v´ıceznaˇcnost´ı v jazyce lze rozhodnout na z´akladˇe znalosti kontextu. Souˇcasn´a metoda CPA zachycuje norm´aln´ı“, napˇr. pomˇernˇe frekventovan´e, ” pouˇzit´ı dan´eho slovesa pomoc´ı typick´ ych vzor˚ u uˇz´ıv´an´ı (pattern˚ u). C´ılem nen´ı obs´ahnout vˇsechny moˇzn´e realizace vˇsech v´ yznam˚ u slovesa, ale relativnˇe ˇcast´a uˇzit´ı – tzv. normy.
2.1.1
Struktura patternu
Definice patternu se skl´ad´a z glob´aln´ıch atribut˚ u, popis˚ u kolokaˇcn´ıch pozic (agent, objekty, atd.) a z implikatury: • Glob´ aln´ı atributy patternu – glob´aln´ı atributy se vztahuj´ı k cel´emu patternu a urˇcuj´ı, zde se jedn´a o idiom, fr´azov´e sloveso, lze uv´est tak´e dom´enu slovesa v dan´em vzoru uˇz´ıv´an´ı, zda sloveso vyˇzaduje objekt atd.
8
• Popis agenta (v PDEV se naz´ yv´a subject) – agent je pops´an pomoc´ı s´emantick´eho typu, kter´ y m˚ uˇze b´ yt upˇresnˇen s´emantickou rol´ı, jak je uvedeno v uk´azce na obr´azku 2.1, kde s´emantick´ y typ Human je upˇresnˇen s´emantickou rol´ı Author. Pokud je s´emantick´ y typ v patternu pouˇzit v´ıcekr´at, je k nˇemu pˇripojeno poˇradov´e ˇc´ıslo (napˇr. [[Human 1 — Animal 1]] abandon [[Human 2 — Animal 2]] (to [[Anything = Bad]])). Dalˇs´ı moˇznost´ı je uveden´ı lexsetu – v´ yˇctu lexik´aln´ıch jednotek, kter´e typicky reprezentuj´ı dan´ y s´emantick´ y typ. Lexset m˚ uˇze b´ yt vyplnˇen i bez s´emantick´eho typu, napˇr´ıklad kdyˇz uveden´a slova nelze shrnout pod jeden s´emantick´ y typ nebo kdyˇz chceme omezit mnoˇzinu slov pˇr´ıpustn´ ych pro danou kolokaˇcn´ı pozici ([[Human]] tell {truth}). Celou definici agenta lze libovolnˇe opakovat, coˇz je pak oznaˇcov´ano za alternaci agenta. • Popis objektu/objekt˚ u – objekt se dˇel´ı na pˇr´ım´ y a nepˇr´ım´ y, kter´ y nen´ı pˇr´ıliˇs ˇcast´ y. Popis objekt˚ u je shodn´ y jako popis agenta. • Popis adverbi´ al˚ u – adverbi´al v PDEV je bud’ pˇredloˇzkov´a fr´aze nebo pˇr´ıslovce. Adverbi´al˚ u m˚ uˇze b´ yt v jednom pattern˚ u definov´ano v´ıce a kaˇzd´ y m˚ uˇze m´ıt nav´ıc sv´e alternace. V popisu adverbi´alu je moˇzn´e vyplnit funkci adverbi´alu, obligatornost, pˇredloˇzku a pˇredloˇzkov´ y objekt (je pops´an stejnˇe jako agent a objekt) nebo pˇr´ıslovce. • Popis komplementu – komplement neboli doplnˇen´ı m˚ uˇze b´ yt bud’ subjektov´e nebo objektov´e. Tento jev je v PDEV sp´ıˇse ojedinˇel´ y. Pˇr´ıkladem je sloveso bleed, kde objektov´ ym doplnˇen´ım m˚ uˇze b´ yt white nebo dry: [[Human 1 — Institution 1]] bleed [[Human 2 — Institution 2]] {(white — dry)} • Popis slovesn´ych klauz´ı – nˇekter´e argumenty PDEV rozliˇsuje na z´akladˇe jejich povrchov´e struktury: that-clause, wh-clause, to+inf, -ing a quote. Klauze m˚ uˇze b´ yt objektov´a nebo pˇr´ısloveˇcn´a.1 • Implikatura – vysvˇetluje v´ yznam dan´eho vzoru uˇz´ıv´an´ı slovesa pomoc´ı stejn´ ych s´emantick´ ych typ˚ u, kter´e jsou uvedeny v popisu jednotliv´ ych kolokaˇcn´ıch pozic. Struˇcn´ y z´apis patternu je urˇcen tzv. propozic´ı, kter´a pro uveden´ y pattern ˇc. 2 slovesa devote vypad´a n´asledovnˇe: [[{Human = Author} | {Institution = Newspaper | Journal}]] devote [[Document Part | Document]] {to [[Anything = Topic]]}
R˚ uzn´e typy z´avorek v z´apisu propozice znamenaj´ı: • [[ ]] . . . s´emantick´ y typ • ( ) . . . nepovinn´ y argument • { } . . . pouze shlukuj´ı 1
V pˇr´ıˇst´ı verzi by klauze mˇely b´ yt uvedeny pˇr´ımo jako moˇznost realizace argumentu.
Vytv´ aˇ ren´ı pattern˚ u a znaˇ ckov´ an´ı konkordanc´ı
Patterny vytv´aˇr´ı manu´alnˇe s pomoc´ı automatick´ ych procedur pouze jeden lexikograf – autor metody CPA Patrick Hanks. Na zaˇc´atku zpracov´an´ı nov´eho slovesa se vybere n´ahodn´ y referenˇcn´ı vzorek o standardn´ı velikosti 250 vˇet (v nˇekter´ ych pˇr´ıpadech i v´ıce, napˇr. 500 nebo 1 000). Pomoc´ı aplikace Sketch Engine lexikograf nejprve analyzuje kolokace slovesa a vytvoˇr´ı seznam moˇzn´ ych kolok´at˚ u. Na z´akladˇe tohoto seznamu lexikograf ruˇcnˇe vytvoˇr´ı prvn´ı n´avrh pattern˚ u. N´aslednˇe oznaˇckuje referenˇcn´ı vzorek a dolad´ı patterny, napˇr. spoj´ı dva bl´ızk´e patterny do jednoho, jin´ y rozdˇel´ı na dva, uprav´ı s´emantick´ y typ, s´emantickou roli ˇci mnoˇzinu lexik´aln´ıch jednotek, popˇr. pˇrid´a dalˇs´ı pattern. ´ celem vytv´aˇren´ı pattern˚ Uˇ u nen´ı pokr´ yt vˇsechny moˇzn´e pˇr´ıpady, kter´e mohou nastat. Vˇetˇsina konkordanc´ı je oznaˇcena ˇc´ıslem patternu. Uˇzit´ı slovesa, kter´ a neodpov´ıdaj´ı ˇz´adn´emu patternu, jsou oznaˇcena znaˇckou u (undecidable) a ve vˇet´ach, kde je slovo chybnˇe rozpozn´ano jako sloveso, se pouˇz´ıv´a znaˇcka x (unmarkable). D´ale m˚ uˇze b´ yt k ˇc´ıslu patternu pˇripojeno p´ısmeno e, kter´e vyjadˇruje, ˇze ve vˇetˇe nedoch´az´ı k norm´aln´ımu pouˇzit´ı patternu, ale jedn´a se o v´ yjimku (exploitation). Hanks rozpozn´av´a asi 10 z´akladn´ıch druh˚ u, napˇr. figurativn´ı pouˇzit´ı (vˇeta odpov´ıd´a struktuˇre patternu, ale v´ yznam je jin´ y), ironie, elipsa (chybˇej´ıc´ı argument), netypick´ y argument, atd. [2].
2.2
Podobn´ e projekty - pro angliˇ ctinu
Popisem nˇekter´ ych zde uveden´ ych projekt˚ u se zab´ yvaly jiˇz dizertaˇcn´ı pr´ace ˇ Zdeˇ nka Zabokrtsk´ eho [7] a Dany Hlav´aˇckov´e [8].
2.2.1
FrameNet
Z´azem´ım projektu FrameNet [9] je International Computer Science Institute v Berkeley (USA). Autorem projektu je Charles J. Fillmore, americk´ y lingvista, kter´ y vymyslel teorii p´adov´e gramatiky (case grammar). Z´akladn´ım prvkem je p´adov´ y r´amec, kter´ y obsahuje u ´daje o tom, se kter´ ymi p´ady se sloveso poj´ı fa-
10
kultativnˇe nebo obligatornˇe. Term´ınu p´ad“ se zde pouˇz´ıv´a pro oznaˇcen´ı druhu ” vztahu mezi slovesem a jeho doplnˇen´ım. Pozdˇeji na konceptu p´adov´e gramatiky zaloˇzil z´asadn´ı pˇr´ıstup k systematick´emu zpracov´an´ı vztah˚ u mezi syntax´ı a lexikem. V´ ysledkem je projekt FrameNet, kter´ y hierarchicky uspoˇr´ad´av´a s´emantick´e r´amce. C´ılem projektu je zachytit vˇsechny souvislosti vˇsech slov ve vˇsech v´ yznamech na syntaktick´e i s´emantick´e u ´rovni. Lexik´aln´ı jednotky se sdruˇzuj´ı do s´emantick´ ych r´amc˚ u reprezentuj´ıch prototypick´e situace a stavy. Kaˇzd´ y s´emantick´ y r´amec m´a svou vlastn´ı mnoˇzinu s´emantick´ ych rol´ı (napˇr. Speaker, Message, Adreessee, Topic a Medium u r´amce Communication), kter´e jsou specifick´e pro danou skupinu lexik´aln´ıch jednotek. Na obr´azku 2.2 je uk´azka s´emantick´eho r´amce Abandonment, kter´ y obsahuje lexik´aln´ı jednotky abandon.v, abandoned.a, abandonment.n, forget.v a leave.v. S´emantick´e r´amce jsou uspoˇr´ad´any do hierarchie, takˇze specifiˇctˇejˇs´ı r´amce dˇed´ı vlastnosti od obecnˇejˇs´ıch r´ amc˚ u. V souˇcasn´e dobˇe lexik´aln´ı datab´aze FrameNet obsahuje pˇribliˇznˇe 11 600 lexik´aln´ıch jednotek, z nichˇz 6 800 jsou plnˇe anotov´any v 960 s´emantick´ ych r´amc´ıch.
2.2.2
PropBank
Pod veden´ım Marthy Palmerov´e z University of Pennsylvania vznik´a projekt PropBank (Proposition Bank) [10] pˇrid´av´an´ım s´emantick´ ych informac´ı do syntakticky anotovan´eho korpusu Penn TreeBank (PTB), kter´ y obsahuje texty z Wall Street Journal (WSJ). Pˇri s´emantick´e anotaci bylo nejprve potˇreba rozliˇsit od sebe v´ yznamy dan´eho slovesa. Slovn´ıkov´e heslo je pak rozdˇeleno do tzv. rolesets, kter´e odpov´ıdaj´ı jednotliv´ ym v´ yznam˚ um. V kaˇzd´em roleset je uvedena mnoˇzina argument˚ u se struˇcn´ ym vysvˇetlen´ım (tzv. roles). Pro argumenty jsou pouˇz´ıv´any zkratky Arg0, . . . Arg5, kde Arg0 vˇetˇsinou odpov´ıd´a logick´emu subjektu (Agent) a Arg1 objektu (Patient). Sloveso je oznaˇceno jako Rel a modifik´atory pomoc´ı ArgM. D´ale n´asleduje jedna ˇci v´ıce pˇr´ıkladov´ ych vˇet s pouˇzit´ım slovesa v dan´em v´ yznamu, ve kter´ ych jsou explicitnˇe oznaˇceny argumenty. Na obr´azku 2.3 je pˇr´ıklad slovesa destroy, kter´e zde m´a pouze jeden v´ yznam, tedy jeden roleset. Jsou zde pops´any tˇri argumenty Arg0 – destroyer (konatel dˇeje, agent), Arg1 – think destroyed (zasaˇzen´ y pˇredmˇet, patient) a Arg2 – instrument of destruction (n´astroj, instrument). D´ale n´asleduj´ı dva pˇr´ıklady – prvn´ı je jeden s pouˇz´ıt´ım instrumentu, druh´ y pˇr´ıklad je bez nˇej.
2.2.3
VerbNet
Dalˇs´ım projektem pro zachycen´ı anglick´ ych sloves je VerbNet [11], kter´ y navazuje na PropBank. Jeho hlavn´ımi autory jsou uv´adˇeny Martha Palmerov´a a Karin Kipper Schulerov´a. VerbNet vyuˇz´ıv´a syntaktick´e r´amce z PropBank a je kompatibiln´ı se s´emantickou s´ıt´ı WordNet. Slovesa jsou rozdˇelov´ana do hierarchicky uspoˇr´adan´ ych syntakticko-s´emantick´ ych tˇr´ıd.
11
Obr´azek 2.2: FrameNet – s´emantick´ y r´amec Abandonment
12
Obr´azek 2.3: PropBank – destroy
13
Obr´azek 2.4: VerbNet – s´emantick´ y r´amec destroy
Kaˇzd´a tˇr´ıda obsahuje: • mnoˇzinu slovesn´ ych lemmat – ˇclen˚ u tˇr´ıdy (members) • mnoˇzinu t´ematick´ ych rol´ı (roles) – napˇr. Actor, Agent, Patient, Recipient • mnoˇzinu r´amc˚ u (frames) popisuj´ıc´ıch syntaktick´e a s´emantick´e uˇzit´ı t´ematick´ ych rol´ı vˇcetnˇe konkr´etn´ıch pˇr´ıklad˚ u Na obr´azku 2.4 je uk´azka tˇr´ıdy destroy. Tato tˇr´ıda neobsahuje ˇz´adn´e dalˇs´ı podtˇr´ıdy a m´a celkem 25 ˇclen˚ u, napˇr. demage, demolish, devastate atd. D´ale definuje tˇri t´ematick´e role (Agent, Patient, Instrument) a tˇri syntakticko-s´emantick´e r´amce.
14
2.3 2.3.1
Podobn´ e projekty - pro ˇ ceˇ stinu VALLEX 2.5
´ Valenˇcn´ı slovn´ık ˇcesk´ ych sloves VALLEX vznik´a v Ustavu form´aln´ı a aplikovan´e lingvistiky na MFF UK jiˇz od roku 2001. Jeho aktu´aln´ı verze je VALLEX 2.5 z roku 2008 [12, 13]. VALLEX form´alnˇe popisuje valenˇcn´ı charakteristiky ˇcesk´ ych sloves dle teorie Funkˇcn´ıho generativn´ıho popisu (FGP). VALLEX je u ´zce spojen s Praˇzsk´ ym z´avislostn´ım korpusem (PDT). VALLEX poskytuje informace o valenˇcn´ı struktuˇre ˇcesk´ ych sloves v jejich jednotliv´ ych v´ yznamech, kter´e charakterizuje pomoc´ı glos a pˇr´ıklad˚ u. Pro jednotliv´a valenˇcn´ı doplnˇen´ı uv´ad´ı moˇzn´a morfematick´a vyj´adˇren´ı, pokud jsou jejich formy d´any slovesnou rekc´ı. Kromˇe tˇechto z´akladn´ıch u ´daj˚ u uv´ad´ı i nˇekter´e dalˇs´ı syntaktick´e, pˇr´ıpadnˇe syntakticko-s´emantick´e charakteristiky jako je vlastnost kontroly, moˇznost reciproˇcn´ıho uˇzit´ı ˇci syntakticko-s´emantick´a tˇr´ıda slovesa. Slovn´ık obsahuje 2 730 lex´em˚ u, kter´e zahrnuj´ı celkem 6 460 lexik´aln´ıch jednotek, vidov´e protˇejˇsky jsou zachyceny v jednom lex´emu. Pokud bychom poˇc´ıtali dokonav´a a nedokonav´a slovesa zvl´aˇst’, mˇeli bychom 4 250 sloves. Hlavn´ım krit´eˇ em n´arodn´ım korpusu riem pro v´ ybˇer sloves byla jejich vysok´a frekvence v Cesk´ a n´aslednˇe byly pˇrid´av´any jejich vidov´e protˇejˇsky. Slovn´ıkov´a hesla byla zpracov´ana manu´alnˇe s pˇrihl´ednut´ım ke korpusov´emu materi´alu a jiˇz existuj´ıc´ım slovn´ık˚ um. D˚ uraz byl kladen na pˇresnost, konzistenci a lingvistickou adekv´atnost popisu valence. VALLEX se snaˇz´ı b´ yt slovn´ıkem pro lidi i pro automatick´e vyuˇzit´ı, proto je dostupn´ y nejen jako kniha, ale i pˇres webov´e rozhran´ı, kter´e umoˇzn ˇuje vyhled´avat slovesa podle r˚ uzn´ ych krit´eri´ı (lemmatu, syntakticko-s´emantick´e tˇr´ıdy, atd.). Pro strojov´e zpracov´an´ı a vyuˇzit´ı v dalˇs´ıch lingvistick´ ych aplikac´ıch je VALLEX dostupn´ y tak´e ve form´atu XML.
2.3.2
VerbaLex
Jak uv´ad´ı Hlav´aˇckov´a ve sv´e dizertaˇcn´ı pr´aci [8], VerbaLex je datab´aze valenˇcn´ıch r´amc˚ u ˇcesk´ ych sloves. Slovn´ık navazuje na tˇri z´akladn´ı zdroje: 1. Slovn´ık povrchov´ ych r´amc˚ u BRIEF (FI MU) 2. Valenˇcn´ı slovn´ık ˇcesk´ ych sloves VALLEX 1.0 (MFF UK) 3. soubor valenˇcn´ıch r´amc˚ u zapsan´ ych v ˇcesk´e s´emantick´e s´ıti WordNet V´ ysledn´ y slovn´ık VerbaLex obsahuje vˇsechny informace z tˇechto tˇr´ı zdroj˚ u, nav´ıc jsou doplnˇeny relevantn´ı informace o slovesech jako je slovesn´ y vid, synonymie sloves, zp˚ usob uˇzit´ı slovesa a s´emantick´e tˇr´ıdy sloves, zaloˇzen´e na projektu VerbNet. Z´akladn´ı a komplexn´ı valenˇcn´ı r´amce jsou zaps´any v podobˇe datov´ ych struktur s realizac´ı v morfologick´e, syntaktick´e a s´emantick´e rovinˇe.
15
Obr´azek 2.5: Slovn´ıkov´e heslo vˇenovat ve valenˇcn´ım slovn´ıku VALLEX 2.5
Pro z´aznam s´emantick´e povahy slovesn´ ych doplnˇen´ı byl navrˇzen nov´ y invent´aˇr dvoj´ urovˇ nov´ ych s´emantick´ ych rol´ı. Pouˇzit´ y seznam s´emantick´ ych tˇr´ıd umoˇzn ˇuje podrobnou klasifikaci slovesn´ ych v´ yznam˚ u. VerbaLex je uloˇzen v nˇekolika form´atech, kter´e umoˇzn ˇuj´ı jeho prohl´ıˇzen´ı, editaci a dalˇs´ı vyuˇzit´ı v oblasti jazykovˇedy a poˇc´ıtaˇcov´eho zpracov´an´ı pˇrirozen´eho jazyka. Datab´aze VerbaLex je vytv´aˇrena v Centru zpracov´an´ı pˇrirozen´eho jazyka na Fakultˇe informatiky Masarykovy Univerzity v Brnˇe. Motivac´ı k budov´an´ı VerbaLexu je vytvoˇrit rozs´ahlou datab´azi zachycuj´ıc´ı slovesn´a doplnˇen´ı v pˇrirozen´em kontextu. VerbaLex m˚ uˇze b´ yt pouˇz´ıv´an nejen v oblasti lingvistiky, ale i pro strojov´e zpracov´an´ı ˇceˇstiny.
16
Kapitola 3
Souˇ casn´ y stav projektu PDEV 3.1
Platforma PDEV
Technicky je projekt PDEV podporov´an Fakultou Informatiky Masarykovy Univerzity v Brnˇe [14]. Projekt je z velk´e ˇc´asti veˇrejnˇe pˇr´ıstupn´ y. Uˇzivatel m˚ uˇze k dat˚ um pˇristupovat pˇr´ımo pˇres webov´e rozhran´ı nebo pomoc´ı instalace rozˇs´ıˇren´ı do aplikace Mozilla Firefox (tzn. add-on). D´ale se budeme zab´ yvat pouze druh´ ym zp˚ usobem, kter´ y je pohodlnˇejˇs´ı a patterny lze kromˇe prohl´ıˇzen´ı i editovat a vytv´aˇret. Po spuˇstˇen´ı se otevˇrou dvˇe okna – PDEV Entry Manager a Sketch Engine. V oknˇe Sketch Engine lze vyhled´avat slovesa a jejich konkordance, prohl´ıˇzet Word Sketches, Thezaurus atd. V Entry Manager (viz obr´azek 3.1) lze prohl´ıˇzet slovesa s jejich statistikami, jako je napˇr. frekvence v BNC, BNC50, OEC (Oxford English Corpus), poˇcet pattern˚ u atd. Nezaregistrovan´emu uˇzivateli se zobraz´ı pouze zkompilovan´a slovesa. Poklep´an´ım na sloveso se otevˇre nov´e okno (viz obr´azek 3.2) s patterny vybran´eho slovesa (v horn´ı ˇc´asti okna). Rozkliknut´ım patternu se zobraz´ı dalˇs´ı ˇ ıslo v prodetaily v doln´ı ˇc´asti okna. V tomto dialogu lze patterny editovat. C´ centech uveden´e na ˇr´adce s definic´ı patternu ˇr´ık´a, jak velk´e ˇc´asti vˇsech oznaˇckovan´ ych konkordanc´ı byl pˇriˇrazen pr´avˇe tento pattern. Pomoc´ı tlaˇc´ıtka Corpora um´ıstˇen´eho v z´ahlav´ı okna m˚ uˇzeme tyto konkordance zobrazit. Datab´aze PDEV se skl´ad´a ze tˇr´ı ˇc´ast´ı: • definice pattern˚ u • ruˇcnˇe oznaˇckovan´ y n´ahodnˇe vybran´ y referenˇcn´ı vzorek ke kaˇzd´emu slovesu • hierarchie s´emantick´ ych typ˚ u (v PDEV naz´ yv´ano shallow semantic ontology)
3.1.1
Definice pattern˚ u ve form´ atu XML
Definice pattern˚ u jsme z´ıskali ve form´atu XML. Bohuˇzel zat´ım neexistuje ˇz´adn´a dokumentace ani XML sch´ema. Pro usnadnˇen´ı pr´ace jsme pomoc´ı programu
trang [15] automaticky vygenerovali DTD sch´ema. Tento krok velmi usnadnil dalˇs´ı pr´aci s XML souborem. S definic´ı patternu pracujeme na dvou m´ıstech: • pˇri pˇriˇrazov´an´ı moˇzn´ ych s´emantick´ ych typ˚ u slovesn´ ym argument˚ um z´ıskan´ ych na z´akladˇe syntaktick´e anal´ yzy a • pˇri automatick´em pˇriˇrazov´an´ı pattern˚ u Z tohoto d˚ uvodu byl vytvoˇren vlastn´ı zjednoduˇsen´ y form´at reprezentace pattern˚ u. Vˇsechny relevantn´ı informace o patternu jsou zaps´any na jednom ˇr´adku v CSV form´atu. Pˇri strojov´em zpracov´an´ı je zbyteˇcn´e pracovat s elementy ˇci atributy, kter´e jsou vyplnˇen´e jen zˇr´ıdka a jejich v´ yznam (d´ıky chybˇej´ıc´ı dokumentaci) nebyl zcela jasn´ y. V pˇr´ıloze B je na obr´azku B.1 uvedena ˇc´ast XML souboru, kter´a obsahuje definici druh´eho patternu slovesa devote. Program pro konverzi XML form´atu nejdˇr´ıve vytvoˇr´ı vnitˇrn´ı strukturu (viz dump na obr´azku B.2) a n´aslednˇe zap´ıˇse informace oddˇelen´e pomoc´ı stˇredn´ık˚ u do jedn´e ˇr´adky (viz obr´azek B.3), kter´a je souˇc´ast´ı CSV souboru. Pˇrevod prob´ıh´a ve scriptu convert xml into csv.pl. Program nejprve naˇcte cel´ y XML soubor a postupnˇe zpracov´av´a slovesa a jejich patterny. Definice jednoho patternu je naˇctena do vnitˇrn´ı struktury, kter´a je tvoˇrena pomoc´ı pol´ı a asociativn´ıch pol´ı (hash˚ u). Z t´eto struktury se n´aslednˇe vytiskne ˇr´adka do v´ ystupn´ıho souboru pomoc´ı procedury intern to csv line() implementovanou v modulu Patterns.pm. Probl´emem je, ˇze nikde nedoch´az´ı ke kontrole dat vkl´adan´ ych pomoc´ı webov´eho formul´aˇre – tedy ani pˇri zpracov´an´ı formul´aˇre, ani pˇri ukl´ad´an´ı do datab´aze. Tento fakt zp˚ usobuje, ˇze do pol´ı ve formul´aˇri m˚ uˇze b´ yt naps´ano prakticky cokoliv. Pˇri zpracov´an´ı XML bylo potˇreba vyrovnat se s t´ım, ˇze obsah nˇekter´ ych element˚ u a atribut˚ u neodpov´ıd´a tomu, co by se zde dalo oˇcek´avat. Napˇr. nelze oˇcek´avat, ˇze obsahem atributu name elementu BSO type bude vˇzdy n´azev s´emantick´eho typu popˇr. doplnˇen´eho ˇc´ıslem (pokud je s´emantick´ y typ v propozici pouˇzit na v´ıce kolokaˇcn´ıch pozic´ıch). V nˇekolika pˇr´ıpadech se stalo, ˇze obsahem tohoto pole byla z´aroveˇ n s´emantick´a role (napˇr. Human 2 = Monarch v patternu ˇc. 1 slovesa abdicate). Tato drobn´a nekonzistence zˇrejmˇe vznikla nepozornost´ı pˇri psan´ı definice patternu. Samozˇrejmˇe by nebylo pˇr´ıliˇs sloˇzit´e tyto pˇr´ıpady rozpoznat a automaticky oddˇelit s´emantick´ y typ od s´emantick´e role. Jenˇze pokud bychom mˇeli pˇrid´avat nov´a a nov´a pravidla, zpracov´an´ı XML by se znaˇcnˇe znepˇrehlednilo, k oprav´am by mˇelo doj´ıt radˇeji v datab´azi pattern˚ u. Nˇekter´e nekonzistence by ani nemohly b´ yt ˇreˇseny automaticky. Pˇr´ıkladem toho je opˇet sloveso abdicate, konkr´etnˇe pattern ˇc. 2. V popisu objektu oˇcek´av´ame v poli Lexset v´ yˇcet lexik´aln´ıch jednotek. Zde se nach´az´ı ˇretˇezec role | ” responsibility (for [[Anything]])“, kter´ y definuje dalˇs´ı rozvit´ı objektu. Takov´e pˇr´ıpady nelze snadno upravit rozdˇelen´ım ˇretˇezce do dvou pol´ı, protoˇze formul´aˇr ani neumoˇzn ˇuje popsat dalˇs´ı rozvit´ı slovesn´ ych argument˚ u. Na z´akladˇe tˇechto pozorov´an´ı jsme se rozhodli, ˇze patterny, kter´e obsahuj´ı tyto nekonzistence, nebudeme pˇri dalˇs´ı pr´aci zpracov´avat, dokud nebudou 19
Tabulka 3.1: Pokryt´ı korpusu BNC50 – slovesa jsou seˇrazena podle jejich frekvence, napˇr. k 50 % pokryt´ı korpusu (slovesn´ ych token˚ u) by bylo potˇreba zkompilovat 120 nejfrekventovanˇejˇs´ıch sloves.
opraveny. T´ yk´a se to cca 150 pattern˚ u, kter´e pokr´ yvaj´ı cca 100 sloves. Tyto nedokonal´e“ patterny maj´ı jako prvn´ı hodnotu nulu v CSV souboru. Detailn´ı ” popis pol´ı v CSV ˇr´adce lze nal´ezt v pˇr´ıloze B, kde je tak´e uk´azka z´apisu definic pattern˚ u nˇekolika vybran´ ych sloves v CSV form´atu.
3.2
Statistiky sloves
PDEV obsahuje celkem 5 794 sloves s celkem 7 944 682 v´ yskyty1 . Po odeˇcten´ı pomocn´ ych (be, do, have, will ) a mod´aln´ıch (can, could, may, might, must, ought, shall, should, would ) sloves, kter´ ych je celkem 13, n´am zb´ yv´a 5 781 sloves, ale jen 4 673 093 slovesn´ ych v´ yskyt˚ u. Pomocn´a a mod´aln´ı slovesa pokr´ yvaj´ı 41,2 % korpusu BNC50. D´ale se budeme zab´ yvat pouze lexik´aln´ımi slovesy, tedy n´ıˇze uveden´e statistiky nebudou jiˇz uvaˇzovat pomocn´a a mod´aln´ı slovesa. Celkov´ y poˇcet zkompilovan´ ych (tzn. maj´ı status complete) sloves ke dni 5. 3. 2010 je 678, tedy 11,7 % vˇsech lexik´aln´ıch sloves, a jejich v´ yskyty pokr´ yvaj´ı celkem 10,6 % korpusu (495 724 slovesn´ ych token˚ u). V tabulce 3.1 je uvedeno, kolik nejfrekventovanˇejˇs´ıch sloves je tˇreba zkompilovat k dosaˇzen´ı pokryt´ı korpusu. Napˇr. 7 sloves s nejvˇetˇs´ımi poˇcty v´ yskyt˚ u (≥ 54 872) pokr´ yvaj´ı 10 % korpusu. Pokud bychom chtˇeli m´ıt pokryt´ ych alespoˇ n 90 % slovesn´ ych token˚ u, bylo by potˇreba zkompilovat celkem 917 sloves, kter´ a maj´ı frekvenci vyˇsˇs´ı neˇz 610. Z tˇechto sloves je zpracov´ano pouze 97, tedy zbyl´ ych 581 sloves maj´ı frekvenci menˇs´ı neˇz 610. Posledn´ı 1 % pokryt´ı korpusu tvoˇr´ı slova s frekvenc´ı ≤ 48, kter´ ych je v PDEV zpracov´ano 260, tedy v´ıce neˇz jedna tˇretina. Celkov´ y poˇcet pattern˚ u je 2 572, pr˚ umˇern´ y poˇcet pattern˚ u na sloveso je 3,79, ale oˇcek´avan´ y poˇcet pattern˚ u na sloveso je 9,72 (slovesa s vˇetˇs´ım poˇctem v´ yskyt˚ u maj´ı v´ıce pattern˚ u). Korelace mezi frekvenc´ı slovesa a poˇctem jeho pattern˚ u je na obr´azku 3.4. 1
Vˇsechny uveden´e statistiky se vztahuj´ı ke dni 5. 3. 2010
20
Obr´azek 3.3: Pokryt´ı korpusu BNC50 – na ose x je poˇcet zkompilovan´ ych nejfrekventovanˇejˇs´ıch sloves, na ose y pokryt´ı slovesn´ ych token˚ u
Obr´azek 3.4: Korelace mezi frekvenc´ı slovesa a poˇctem jeho pattern˚ u
Na z´akladˇe oznaˇckovan´eho referenˇcn´ıho vzorku jsme spoˇc´ıtali entropii a perplexitu pro patterny kaˇzd´eho slovesa. Z´avislost mezi perplexitou a poˇctem pattern˚ u slovesa je na obr´azku 3.5.
3.3
Mezianot´ atorsk´ a shoda
Slovn´ık PDEV by hypoteticky mohl b´ yt pouˇz´ıv´an v mnoha NLP aplikac´ıch, napˇr. pˇri strojov´em pˇrekladu. Pˇredt´ım je vˇsak tˇreba ovˇeˇrit, zda i jin´ı lid´e neˇz s´am autor dok´aˇz´ı definice pattern˚ u sloves nejen pochopit, ale tak´e se shodnout na pˇriˇrazen´ı pattern˚ u. Dosud vytv´ aˇrel patterny a znaˇckoval konkordance pˇrev´aˇznˇe Patrick Hanks a neprobˇehla ˇz´adn´a kontrola, kter´a by prok´azala vyuˇzitelnost slovn´ıku. K tomuto u ´ˇcelu jsme navrhli experiment, kter´ y zmˇeˇr´ı mezianot´atorskou
21
Obr´azek 3.5: Korelace mezi perplexitou slovesa a poˇctem jeho pattern˚ u
shodu [16]. Rozumn´ y v´ ysledek je z´akladem dalˇs´ıho automatick´eho zpracov´an´ı – pokud chceme nauˇcit poˇc´ıtaˇc, aby dobˇre znaˇckoval patterny, mus´ıme nejprve ovˇeˇrit, zda je tato u ´loha zpracovateln´a ˇclovˇekem. Bylo vybr´ano celkem 30 sloves, kter´a jsou zkompilov´ana v PDEV. 20 z nich bylo anotov´ano v BNC50 a 18 sloves bylo anotov´ano v PEDT. Slovesa anotovan´a v BNC50 byla vybr´ana tak, aby se co nejv´ıce pˇribl´ıˇzila reprezentativn´ımu vzorku, tedy aby byly pokryty vˇsechny frekvenˇcn´ı hladiny a poˇcet pattern˚ u jednotliv´ ych sloves byl pestr´ y. Pro kaˇzd´e sloveso byl v BNC50 vybr´an n´ahodn´ y vzorek o velikosti 50 vˇet, kter´ y oznaˇckovali 2–4 anot´atoˇri. Kromˇe ˇc´ısla patternu mohl anot´ator pouˇz´ıt znaˇcky u a x, popˇr. ˇc´ıslo paternu doplnit p´ısmenem e (viz kap. 2.1.2). Slovesa anotovan´a v PEDT byla vybr´ana pomoc´ı jin´ ych krit´eri´ı, protoˇze v´ ysledn´a data mˇela poslouˇzit jako podklad pro v´ yzkum Jana Popelky [17]. D˚ uraz byl kladen pˇredevˇs´ım na pˇrekladovou v´ıceznaˇcnost slovesa a tak´e na dostateˇcnou frekvenci v PEDT. Pˇri anotaci pattern˚ u v PEDT byla moˇznost rozliˇsovat kromˇe norm´aln´ıho uˇzit´ı pattern˚ u dalˇs´ı dva zp˚ usoby. M´ısto doplˇ nuj´ıc´ı znaˇcky e se pouˇz´ıvaly znaˇcky a (nepˇresn´a shoda patternu, napˇr. chybˇej´ıc´ı argument nebo neodpov´ıdaj´ıc´ı s´emantick´ y typ) a f (figurativn´ı uˇzit´ı). Evaluaˇ cn´ı m´ıry Pˇri mˇeˇren´ı mezianot´atorsk´e shody na datech PEDT jsme pouˇz´ıvali Cohenovo kappa, protoˇze vˇsechna slovesa anotovali pouze dva anot´atoˇri (SC – Silvie Cinkov´a a PH – Patrick Hanks). V BNC50 pouˇz´ıv´ame Fleissovo kappa, protoˇze zde byl poˇcet anot´ator˚ u 2–4. Pr˚ ubˇ eh evaluace Pˇred samotnou evaluac´ı bylo potˇreba pˇripravit oznaˇckovan´a data do vhodn´eho form´atu pro n´asledn´e mˇeˇren´ı mezianot´atorsk´e shody. K tomuto u ´ˇcelu pouˇzili programy prepare annot data bnc.pl, prepare annot data bnc hanks.pl a prepare annot data pedt.pl. K n´asledn´emu spoˇc´ıt´an´ı mezianot´atorsk´e shody 22
Tabulka 3.2: Shody a neshody anot´atorsk´e dvojice PH a SC na slovesu claim v BNC50
jsme pouˇzili program iaa.pl, jehoˇz v´ ystupem jsou nejen samotn´e v´ ysledky mˇeˇren´ı, ale tak´e podrobn´e podklady pro n´aslednou anal´ yzu neshod. Tyto podklady tvoˇr´ı: 1. Tabulky zachycuj´ıc´ı poˇcty jednotliv´ ych shod (na diagon´ale) a neshod (mimo diagon´alu) pro kaˇzd´e sloveso a kaˇzdou anot´atorskou dvojici. Tyto hodnoty pro sloveso claim oznaˇckovan´e v BNC50 Silvi´ı Cinkovou a Patrickem Hanksem jsou uvedeny v tabulce 3.2. V tabulce je tak´e uvedeno, kolikr´at anot´atoˇri oznaˇcili jednotliv´e patterny (sloupec resp. ˇr´adka #“) a ” jak´e procento tento pattern tvoˇr´ı v jejich anotaci dan´eho slovesa (sloupec resp. ˇr´adka p) 2. Konkordance seˇrazen´e vzestupnˇe podle poˇctu dvojic, kter´e se shodli na znaˇcce (nejv´ yˇse jsou ty, kde byla nejmenˇs´ı shoda). Uk´azka je v tabulce 3.3. Prvn´ı sloupec ud´av´a poˇcet shoduj´ıc´ıch se dvojic, dalˇs´ı sloupce obsahuj´ı konkr´etn´ı znaˇcky anot´ator˚ u, jejichˇz inici´aly jsou uvedeny z´ahlav´ı sloupc˚ u. 3. Statistika typ˚ u neshod pro kaˇzdou dvojici, kter´a je uvedena u jednotliv´ ych sloves a nakonec souhrnnˇe pro vˇsechna slovesa oznaˇckovan´a danou anot´atorskou dvojic´ı. Uk´azka se nach´az´ı v tabulce 3.6. Uveden´e programy a data pouˇzit´a pro mˇeˇren´ı mezianot´atorsk´e shody vˇcetnˇe uveden´ ych v´ ystup˚ u lze nal´ezt na pˇriloˇzen´em CD. V´ ysledky mˇ eˇ ren´ı mezianot´ atorsk´ e shody V´ ysledky mˇeˇren´ı mezianot´atorsk´e shody jsou uvedeny v tabulk´ach 3.4 a 3.5 vˇcetnˇe statistick´ ych u ´daj˚ u o vybran´ ych slovesech. Popis sloupc˚ u: • N . . . poˇcet pattern˚ u • P . . . perplexita v´ yskytu pattern˚ u • f . . . frekvence slovesa v korpusu BNC50 23
konkordance Over Malta on 7th. little had been seen , although the A.A.. . . That is why I came here : to kin with him , to be. . . Cutting out surplus letters reduces the effort of reading and. . . They 10,000 members , but if campaign finance forms. . . Although the choice of task may , according to this notion ,. . . There is a clear distinction here which is not always. . . All these studies acknowledge that Mills and Boon is a. . . The plaintiffs that certain grass verges were part. . . Yet another complicating factor is that the account given. . . Any success that could be to the credit of. . . During the conversation , the Prince and Camilla tell each. . . How can I any loyalty to separatism after what has. . . Women have to their right to be angry , but men have. . . He she had instigated the intercourse by first ,. . . In the Williams incident , a caller giving a false name and. . . Although Douglas was eventually acquitted of any offence ,. . . Wolfgang Luder , MP with the liberal Free Democrats , whose. . . They that the prohibition in fact merely equalizes. . . According to a report in NIN ( 9 November 1986 ) , the. . . The programme that there were 100 artistes in. . .
Tabulka 3.3: Pˇrehled neshod u slovesa claim v BNC50, prvn´ı sloupec oznaˇcuje poˇcet dvojic, kter´e se shodly na pˇriˇrazen´ı patternu
• A . . . poˇcet anot´ator˚ u (pouze v BNC50, v PEDT byli vˇzdy 2) • size . . . velikost anotovan´eho vzorku (pouze v PEDT, v BNC50 je velikost vˇzdy 50) • +exp . . . P a P.e se povaˇzovalo za chybu (P je ˇc´ıslo patternu) • −exp . . . P a P.e se nepovaˇzovalo za chybu V BNC50 jsme mˇeli moˇznost tak´e porovnat Hanksovy znaˇcky s jeho dˇr´ıvˇejˇs´ı anotac´ı. Dalo by se oˇcek´avat, ˇze hodnoty budou bl´ızk´e 1, ale ve skuteˇcnosti se pˇr´ıliˇs neliˇs´ı od v´ ysledk˚ u shody ostatn´ıch anot´ator˚ u. Ke kaˇzd´e anot´atorsk´e dvojici m´ame k dispozici statistiku typ˚ u neshod. V tabulce 3.6 je v prvn´ım sloupci uveden typ neshody, ve druh´em ˇcetnost typu neshody pro PH se svou dˇr´ıvˇejˇs´ı anotac´ı a ve tˇret´ım poˇcet neshod dan´eho typu mezi PH a SC. U PH doˇslo k neshodˇe ve 155 pˇr´ıpadech. Z toho 46 je typu P vs. P.e (norm´aln´ı uˇzit´ı patternu versus jeho vyuˇzit´ı – exploitation). Neshody tohoto typu m˚ uˇzeme pˇri v´ ypoˇctu pˇr´ıpadnˇe ignorovat (sloupec PH −exp v tabulce 3.4). Nejˇcastˇejˇs´ı neshodou bylo oznaˇcen´ı konkordance jako norm´aln´ıho uˇzit´ı r˚ uzn´ ych pattern˚ u. Pozorov´an´ı vypov´ıd´a o tom, ˇze ani s´am tv˚ urce pattern˚ u nen´ı s odstupem ˇcasu konzistentn´ı.
typ neshody PH PH vs. SC P1 vs. P2 49 117 P1 vs. P2.e 14 20 P1.e vs. P2.e 2 3 P vs. P.e 46 34 u vs. P 27 35 u vs. P.e 10 15 x vs. any 7 17 celkem neshod 155 241 velikost vzorku 1000 1000
Tabulka 3.6: Statistika typ˚ u neshod, sloupec PH“ oznaˇcuje poˇcty typ˚ u neshod ” Hankse se svou dˇr´ıvˇejˇs´ı anotac´ı a sloupec PH vs. SC“ neshody mezi Hanksem ” a Cinkovou
3.3.1
Diskuze
Odhalili jsme n´asleduj´ıc´ı typy neshod: 1. Nejasn´e instrukce ohlednˇe kontextu. V teoretick´em z´akladu metody CPA nen´ı urˇceno, jak ˇsirok´ y kontext se m´a br´at v u ´vahu pˇri znaˇckov´an´ı konkordanc´ı. 2. Oznaˇciteln´e – neoznaˇciteln´e. V nˇekter´ ych pˇr´ıpadech je obt´ıˇzn´e rozhodnout se, zda se m´a slovo v˚ ubec povaˇzovat za sloveso a lze mu pˇriˇradit pattern (napˇr. participium). 3. Elipsy. Elipsy (vypuˇstˇen´ı argumentu) jsou problematick´e, protoˇze d´ıky nim doch´az´ı k v´ıceznaˇcnosti. Klasifikovali jsme dva typy v´ıceznaˇcnost´ı: a) na z´akladˇe kontextu nelze rozhodnout mezi dvˇema potenci´aln´ımi relevantn´ımi patterny, z nichˇz prvn´ı pattern dan´ y argument v˚ ubec neuv´ad´ı a druh´ y pattern povoluje vypuˇstˇen´ı tohoto argumentu b) dva patterny s odliˇsn´ ymi implikaturami, kter´e dovoluj´ı vypuˇstˇen´ı argumentu. V tˇechto pˇr´ıpadech nelze jednoznaˇcnˇe ˇr´ıci, jak by argument vypadal po rekonstrukci elipsy. V´ yznam by mohl b´ yt urˇcen pouze na z´akladˇe ˇsirˇs´ıho kontextu, kter´ y je jiˇz nad r´amec CPA. 4. Argument odpov´ıd´ a v´ıce s´emantick´ym typ˚ um. V nˇekolika m´alo pˇr´ıpadech se stalo, ˇze na z´akladˇe kontextu mohlo b´ yt pˇriˇrazeno v´ıce pattern˚ u, protoˇze argument odpov´ıdal v´ıce s´emantick´ ym typ˚ um v r˚ uzn´ ych patternech mezi kter´ ymi nebylo moˇzn´e jednoznaˇcnˇe se rozhodnout. 5. Nedostateˇcn´ a znalost angliˇctiny. Nerodil´ı mluvˇc´ı obˇcas ˇspatnˇe porozumˇeli vˇetˇe. 6. Chybˇej´ıc´ı pattern. Vˇetˇsina vˇet anotovan´ ych v BNC50 byla pokryta jiˇz existuj´ıc´ımi patterny. Pro nˇekter´e vˇety anotovan´e v PEDT, kter´ y je povaˇzov´an za dom´enovˇe omezen´ y korpus, neexistoval vhodn´ y pattern v PDEV. Anot´atoˇri pak tento v´ yskyt oznaˇckovali jako vyuˇzit´ı jin´eho patternu a 26
neshoda nastala pr´avˇe u v´ ybˇeru tohoto patternu. Na z´akladˇe tˇechto vˇet vznikl n´avrh na vytvoˇren´ı nov´eho patternu. 7. Pˇr´ıliˇs jemn´e rozliˇsen´ı implikatur. V n´ahodnˇe vybran´em vzorku se uk´azalo, ˇze v nˇekter´ ych pˇr´ıpadech nelze rozhodnout mezi implikaturami, kter´e pˇr´ısluˇs´ı r˚ uzn´ ym pattern˚ um, protoˇze jejich rozd´ıly mezi nimi jsou velmi jemn´e. 8. Pˇr´ıliˇs jemn´e rozliˇsen´ı mezi s´emantick´ymi typy. Celkem ˇcasto se stalo, ˇze konkordance neodpov´ıdala patternu, protoˇze argument nesouhlasil se s´emantick´ ym typem uveden´ ym na dan´e kolokaˇcn´ı pozici, pˇrestoˇze intuitivnˇe pattern odpov´ıdal dan´e konkordanci. Pˇrestoˇze v´ ysledky mˇeˇren´ı mezianot´atorsk´e shody nejsou pˇr´ıliˇs vysok´e, nebylo pˇr´ıliˇs mnoho neshod zp˚ usobeno nedostatky v patternech. Anotace zat´ım nen´ı zcela rutinn´ı z´aleˇzitost´ı. Nˇekolik chyb bylo zp˚ usobeno pouh´ ym pˇrehl´ednut´ım se. Napˇr. si anot´ator spletl ˇc´ısla pattern˚ u a v cel´em jednom vzorku je tak zamˇen ˇoval. Dalˇs´ım ˇcast´ ym probl´emem bylo, ˇze si anot´ator neuvˇedomil, ˇze stejn´a implikatura je rozdˇelena do dvou pattern˚ u podle povrchov´e realizace – v jednom patternu je argument realizov´an s´emantick´ ym typem a ve druh´em slovesnou klauz´ı. Anot´ator pak st´ale pˇriˇrazoval pouze prvn´ı pattern. Nejˇcastˇejˇs´ı nedostatky v patternech, se kter´ ymi jsme se setkali pˇri anal´ yze mezianot´atorsk´e shody, jsou snadno odstraniteln´e pˇrid´an´ım dalˇs´ıho s´emantick´eho typu na kolokaˇcn´ı pozici v definici patternu. Konkordance, kde nesouhlas´ı s´emantick´ y typ argumentu se s´emantick´ ym typem uveden´ ym v patternu, ale pˇresto jsou intuitivnˇe ch´ap´any jako normy“, ” budeme striktnˇe oznaˇcovat jako nerozhodnuteln´e (u). Toto se st´avalo celkem ˇcasto, pravdˇepodobnˇe je to t´ım, ˇze zpracov´an´ı nˇekter´ ych anotovan´ ych sloves bylo dokonˇceno v dobˇe, kdy mnoˇzina s´emantick´ ych typ˚ u jeˇstˇe nemˇela dneˇsn´ı podobu. Pozitivn´ım zjiˇstˇen´ım je, ˇze chybˇej´ıc´ı nebo pˇrekr´ yvaj´ıc´ı se patterny byly sp´ıˇse vz´acnost´ı. D´ıky tomuto pilotn´ımu experimentu jsme odhalili moˇzn´e probl´emy, na kter´e je tˇreba br´at ohled pˇri sepisov´an´ı instrukc´ı pro anot´atory. Neshody zp˚ usoben´e body 1, 2, 3 a 5 chceme omezit vytvoˇren´ım kvalitn´ıho manu´alu a najmut´ı rodil´ ych mluvˇc´ıch pro anotaci.
3.4
Dalˇ s´ı v´ yvoj
V souˇcasn´e dobˇe vznik´a podrobn´ y manu´al pro vytv´aˇren´ı pattern˚ u spoleˇcnˇe s manu´alem pro anot´atory konkordanc´ı. Protoˇze anotace je hodnotnou zpˇetnou vazbu pro vytv´aˇren´ı pattern˚ u, byla navrˇzena tato validaˇcn´ı procedura: 1. Hanks bude vytv´aˇret definice pattern˚ u jako dosud.
27
2. V momentˇe, kdy sloveso prohl´as´ı za zkompilovan´e a pˇripraven´e k validaci, pˇredloˇz´ı se patterny anot´ator˚ um vˇcetnˇe ruˇcnˇe oznaˇckovan´eho referenˇcn´ıho vzorku. 3. Anot´atoˇri oznaˇckuj´ı novˇe vybran´ y n´ahodn´ y vzorek z BNC a zap´ıˇs´ı si pozn´amky k pˇr´ıpadn´ ym chybˇej´ıc´ım pattern˚ um, nesrozumiteln´emu kontextu atd. 4. Zmˇeˇr´ı se mezianot´atorsk´a shoda a n´aslednˇe se analyzuj´ı neshody, kter´e budou rozebr´any s Hanksem. 5. Na z´akladˇe anal´ yzy neshod se zreviduj´ı definice pattern˚ u a/nebo se zdokonal´ı instrukce pro anot´atory. 6. Zrevidovan´e patterny budou znovu pˇredloˇzeny anot´ator˚ um s nov´ ym n´ahodnˇe vybran´ ym vzorkem k anotaci. 7. Cel´ y proces se bude opakovat, dokud mezianot´atorsk´a shoda nebude pˇrijateln´a (alespoˇ n v nejd˚ uleˇzitˇejˇs´ıch bodech, jako je 4, 6 a 7, vyjmenovan´ ych v kapitole 3.3.1). 8. Kaˇzd´e takto zrevidovan´e sloveso bude oznaˇceno jako validated a pˇripraveno pro experimenty strojov´eho uˇcen´ı. Dalˇs´ı pl´anovan´e zmˇeny jsou sp´ıˇse technick´eho charakteru a maj´ı za c´ıl umoˇznit konzistentn´ı k´odov´an´ı pattern˚ u v PDEV. Tyto zmˇeny se t´ ykaj´ı jak webov´eho formul´aˇre pro editaci pattern˚ u, tak jejich n´asledn´eho uchov´an´ı v XML souboru. Kromˇe XML sch´ematu m´ a vzniknout tak´e podrobn´a technick´a dokumentace popisuj´ıc´ı jednotliv´e elementy a atributy vˇcetnˇe jejich pˇr´ıpustn´ ych hodnot. Upraven´ y webov´ y formul´aˇr by pˇredevˇs´ım mˇel poskytnout moˇznost z´apisu vˇsech relevantn´ıch informac´ı do pˇr´ısluˇsn´ ych pol´ı, coˇz umoˇzn´ı efektivnˇejˇs´ı strojov´e zpracov´an´ı n´aslednˇe vygenerovan´e XML struktury. V z´avˇeru t´eto kapitoly m˚ uˇzeme ˇr´ıci, ˇze po dosaˇzen´ı pl´anovan´ ych c´ıl˚ u m˚ uˇze b´ yt PDEV vyuˇz´ıv´an v NLP aplikac´ıch. To dokazuje napˇr. pr´ace Jana Popelky O klasifikaci anglick´ych sloves dle PDEV a ˇcesk´e pˇrekladov´e ekvivalenci [17], ve kter´e se autor zab´ yv´a ot´azkou, zda znalost patternu slovesa v anglick´e vˇetˇe pom˚ uˇze zjednoznaˇcnit v´ ybˇer ˇcesk´eho pˇrekladov´eho ekvivalentu.
28
Kapitola 4
Z´ avislostn´ı mikrokontext slovesa C´ılem t´eto ˇc´asti je automaticky extrahovat z kaˇzd´e vˇety argumenty slovesa. Nejprve jsme provedli automatickou z´avislostn´ı syntaktickou anal´ yzu a nalezneme vˇetn´e ˇcleny z´avisej´ıc´ı na slovesu. K z´ısk´an´ı hloubkov´ ych z´avislost´ı jsme pouˇzili Stanfordsk´ y parser, kter´ y kromˇe sloˇzkov´ ych strom˚ u um´ı vydat t´eˇz semis´emantick´e z´avislosti. Pˇri evaluaci automatick´ ych metod jsme se zamˇeˇrili pouze na agenty a objekty slovesa. Agentem (znaˇc´ıme agent) zde rozum´ıme logick´ y (hloubkov´ y) subjekt, v PEDT oznaˇcov´ano jako ACT (actor). Objekty rozdˇelujeme na pˇr´ım´ y objekt (znaˇc´ıme object) a nepˇr´ım´ y objekt (znaˇc´ıme iobject). Zde nen´ı pˇresn´a ekvivalence s PEDT, ale vˇetˇsinou pˇr´ım´emu objektu odpov´ıd´a PAT (patient) v PEDT a nepˇr´ım´emu objektu ADDR (addressee). Pro u ´lohu evaluace jsme sjednotili pˇr´ım´e a nepˇr´ıme objekty a znaˇc´ıme je jednotnˇe jako object. Neuvaˇzujeme agenty a objekty, kter´e jsou realizov´any vedlejˇs´ı vˇetou. Dalˇs´ı extrahovan´e argumenty jiˇz pˇr´ımo neodpov´ıdaj´ı hloubkov´e realizaci, ale sp´ıˇse povrchov´e. Jako term´ın pro oznaˇcen´ı n´azvu z´avislosti, se kter´ ym budeme d´ale pracovat, pouˇz´ıv´ame pojem funkce argumentu. Porovnali jsme metody zaloˇzen´e na sloˇzkov´em parsingu doplnˇen´em pˇrevodem na semis´emantick´e z´avislosti (Stanfordsk´ y parser, Charniak-Johnson˚ uv parser + pˇrevod na stanfordsk´e z´avislosti), z´avislostn´ı parser (McDonald) a metodu zaloˇzenou na srovn´av´an´ı textu s regul´arn´ımi v´ yrazy, kter´a je pouˇzita v aplikaci Sketch Engine [18].
4.1
Stanfordsk´ y parser
Stanfordsk´ y parser je sloˇzkov´ ym parserem, kter´ y byl pozdˇeji doplnˇen o pˇrevod na z´avislosti, kter´e poskytuj´ı vˇetˇs´ı s´emantickou informaci vˇety. Tyto z´avislosti naz´ yv´ame stanfordsk´e z´ avislosti (z angl. Stanford dependencies) [19, 20], popˇr. znaˇc´ıme zkratkou STD.
29
Kromˇe nˇekolika typ˚ u stanfordsk´ ych z´avislost´ı lze z´ıskat i p˚ uvodn´ı sloˇzkov´e stromy. Naopak lze sloˇzkov´e stromy vygenerovan´e jin´ ym parserem pˇrev´est na stanfordsk´e z´avislosti. Kompletn´ı manu´al vˇcetnˇe vysvˇetlen´ı stanfordsk´ ych z´avislost´ı a jejich typ˚ u lze nal´ezt v [21], dalˇs´ı uˇziteˇcn´e informace jsou na str´ance Stanfordsk´eho parseru v sekci FAQ [22]. Vˇsechny (celkem 4) typy stanfordsk´ ych z´avislost´ı maj´ı spoleˇcn´ y form´at – jedna vˇeta je posloupnost´ı ˇr´adek, z nichˇz kaˇzd´a reprezentuje hranu v z´avislostn´ım stromu, resp. orientovan´em grafu. Jednotliv´e vˇety jsou od sebe oddˇeleny jednou pr´azdnou ˇr´adkou. Z´apis hrany v STD m´a podobu Rel(Gov, Dep), kde Rel je zkratka anglick´eho n´azvu gramatick´eho vztahu mezi Gov (z angl. governor) a Dep (dependent), coˇz jsou tokeny doplnˇen´e jejich pozic´ı ve vˇetˇe. Hrana vede vˇzdy od Gov k Dep a m´a n´azev Rel. Uzly v z´avislostn´ım grafu reprezentuj´ı slova (interpunkce se v z´avislostn´ım grafu nevyskytuje) a hrany reprezentuj´ı gramatick´e vztahy mezi slovy ve vˇetˇe. Jako pˇr´ıklad uved’me vˇetu He claimed to have links with Gadhafi, and inside knowledge about Libyan and Syrian backing for terrorists. (zdroj BNC50). Na v´ ystupu Stanfordsk´eho parseru se objev´ı tato ˇr´adka (mimo jin´e): nsubj(claimed-2, He-1) ˇ ısla 1 kde nsubj (nominal subject) je Rel, claimed-2 je Gov a He-1 Dep. C´ a 2 oznaˇcuj´ı pozici token˚ u v dan´e vˇetˇe. Cel´ y strom je na obr´azku 4.1. Pouˇzit´a verze Stanfordsk´eho parseru obsahuje celkem hierarchicky uspoˇr´adan´ ych 55 z´akladn´ıch z´avislost´ı. Nejv´ yˇse je nejobecnˇejˇs´ı z´avislost dep, v kaˇzd´e niˇzˇs´ı vrstvˇe je konkr´etnˇejˇs´ı z´avislost. Pˇr. hierarchie subjekt˚ u: dep - dependent arg - argument subj - subject nsubj - nominal subject nsubjpass - passive nominal subject csubj - clausal subject csubjpass - passive clausal subject
´ Upln´ y seznam lze naj´ıt v manu´alu [21] vˇcetnˇe podrobn´eho popisu a pˇr´ıklad˚ u ke kaˇzd´e z´avislosti. Dalˇs´ı z´avislosti vznikaj´ı napˇr. pˇripojen´ım pˇredloˇzky pˇr´ımo do n´azvu z´avislosti v r´amci redukovan´ ych (collapsed) z´avislost´ı. Nyn´ı podrobnˇe vysvˇetl´ıme typy stanfordsk´ ych z´avislost´ı. Pouˇzijeme k tomu vˇetu uvedenou v´ yˇse (He claimed to have. . . 1 ). Pozn: Pouˇzit´e obr´azky jsou vygenerov´any pomoc´ı software Graphviz [23]. Na pˇriloˇzen´em CD lze nal´ezt program pro pˇrevod stanfordsk´ ych z´avislost´ı do zdrojov´eho k´odu pro Graphviz. 1. Z´ akladn´ı (Basic.) Obsahuje pouze z´akladn´ı z´avislosti a vytv´aˇr´ı stromovou strukturu. Kaˇzd´e slovo obsaˇzen´e ve vˇetˇe (s v´ yjimkou interpunkce) je samostatn´ y uzel 1
Tato vˇeta nebyla zparsov´ ana u ´plnˇe v poˇr´ adku, v pˇr´ıkladech jsou pouˇzity opraven´e grafy a z´ avislosti.
30
v z´avislostn´ım stromu. Tento typ nen´ı pˇr´ıliˇs praktick´ y, protoˇze napˇr. pˇredloˇzkov´ y objekt nez´avis´ı pˇr´ımo na slovesu, ale na pˇredloˇzce. Pˇri s´emantick´e anal´ yze mus´ı b´ yt uzel reprezentuj´ıc´ı pˇredloˇzku pˇreskoˇcen. claimed
2. Redukovan´ e z´ avislosti (Collapsed dependencies.) Stromov´a struktura je zde naruˇsena, mohou vzniknout i cykly. Jsou pˇrid´any dalˇs´ı z´ avislosti, zde napˇr. xsubj(have-4, He-1). V pˇr´ıpadˇe pˇredloˇzek se hrana, kter´ a vstupuje do uzlu reprezentuj´ıc´ıho pˇredloˇzku, spoj´ı s hranou, kter´a z nˇej vystupuje, a samotn´ y uzel se odstran´ı. Novˇe vznikl´a hrana bude m´ıt v n´azvu pˇredloˇzku. Napˇr. z hran prep(links, with) a pobj(with, Gadhafi) vznikne nov´a hrana prep with(links, Gadhafi). Redukov´any jsou i v´ıceslovn´e pˇredloˇzky. Podobnˇe je to i s koordinacemi. claimed
3. Redukovan´ e z´ avislosti s propagac´ı koordinac´ı (Collapsed dependencies with propagation of conjunct dependencies, nˇekdy t´eˇz Standard Stanford dependencies.) Dopln´ı se dalˇs´ı hrany na z´akladˇe koordinac´ı. Pokud jsou B a C dva uzly, mezi kter´ ymi je vztah koordinace (jsou propojeny napˇr. hranou conj and ) a jeden z nich (napˇr. B) je z´avisl´ y na uzlu A, pak novˇe pˇridan´a hrana povede z uzlu A do uzlu C. Napˇr. dobj(have-4, links-5) a conj and(links-5, knowledge-11) → dobj(have-4, knowledge-11) nsubj(claimed-2, He-1) xsubj(have-4, He-1) aux(have-4, to-3) xcomp(claimed-2, have-4) dobj(have-4, links-5) prep with(links-5, Gadhafi-7) amod(knowledge-11, inside-10) dobj(have-4, knowledge-11) conj and(links-5, knowledge-11) amod(backing-16, Libyan-13) conj and(Libyan-13, Syrian-15) amod(backing-16, Syrian-15) prep about(knowledge-11, backing-16) prep for(backing-16, terrorists-18)
claimed xcomp nsubj
have
xsubj aux
dobj
to
He
links
dobj
p r e p _ w i t h conj_and
knowledge
Gadhafi
amod
inside
prep_about
backing amod
prep_for
Libyan
amod
terrorists
conj_and
Syrian
4. Redukovan´ e z´ avislosti zachov´ avaj´ıc´ı stromovou strukturu Origin´aln´ı n´azev: Collapsed dependencies preserving a tree structure. Hrany, kter´e by naruˇsily stromovou strukturu se nepˇridaj´ı, grafem je tedy strom. V naˇsem pˇr´ıkladu se tedy tedy nepˇrid´a hrana xsubj(have-4, He-1), ani hrany pˇridan´e na z´akladˇe koordinac´ı. claimed nsubj xcomp
Souhrn´ y pˇrehled jednotliv´ ych styl˚ u stanfordsk´ ych z´avislost´ı lze nal´ezt v tabulce 4.1. Stanfordsk´ y parser jsme vybrali kv˚ uli jeho pˇribl´ıˇzen´ı se s´emantick´e reprezentaci vˇety. D´ıky tomu nen´ı tˇreba m´ıt sloˇzitou postproceduru pro ˇreˇsen´ı koordinac´ı, pˇredloˇzek a pˇredloˇzkov´ ych skupin atd. Nepˇr´ıjemn´ y se m˚ uˇze zd´at pˇr´ıstup ke kopul´arn´ım (sponov´ ym) sloves˚ um. Napˇr. ve vˇetˇe Tom is a boy z´ısk´ame z´avislost nsubj(boy, Tom), tedy m´ısto slovesa is je zde na m´ıstˇe ˇr´ıd´ıc´ıho ˇclenu slovo boy. Autoˇri se obhajuj´ı t´ım, ˇze tato reprezentace je bliˇzˇs´ı k logick´emu z´apisu vˇety. Ne vˇzdy n´am tento zp˚ usob m˚ uˇze vyhovovovat a proto je tˇreba s t´ım poˇc´ıtat. T´ yk´ a se to n´asleduj´ıc´ıch sloves: appear, be, become, disappear, remain, resemble, seem, stay. V´ıce bude vysvˇetleno v kapitole 4.1.1. Mezi dalˇs´ı v´ yhody Stanfordsk´eho parseru lze uv´est jednoduch´e pouˇz´ıv´an´ı, vstup nen´ı tˇreba pˇredem nijak pˇripravit (i kdyˇz je tu moˇznost pouˇz´ıt vlastn´ı tokenizaci nebo morfologick´ y tagger) a v´ ystup je dobˇre zpracovateln´ y. Nev´ yhodou naopak m˚ uˇze b´ yt fakt, ˇze ze Stanfordsk´eho parseru nelze z´ıskat lemmata (z´akladn´ı tvar slova).
V t´eto kapitole bude vysvˇetleno, jak je d´ale zpracov´an v´ ystup ze Stanfordsk´eho parseru. Pro naˇsi u ´lohu pouˇz´ıv´ ame typ v´ ystupu redukovan´ ych z´avislost´ı s propagac´ı koordinac´ı, protoˇze z tohoho typu v´ ystupu je moˇzno z´ıskat pro danou u ´lohu nejvˇetˇs´ı mnoˇzstv´ı uˇziteˇcn´ ych informac´ı. Pˇri zpracov´an´ı jde pˇredevˇs´ım o pˇrevod n´azv˚ u stanfordsk´ ych z´ avislost´ı a zpracov´an´ı jazykov´ ych jev˚ u apozice a kopuly. Ve snaze pˇribl´ıˇzit se co nejv´ıce struktuˇre pattern˚ u v PDEV, zvolili jsme i podobnou terminologii, jakou pouˇz´ıv´a Patrick Hanks v definic´ıch pattern˚ u. V tabulce 4.3 je uk´azka, jak´e argumenty a jejich funkce obdrˇz´ıme z vˇety He claimed to have links with Gadhafi, and inside knowledge about Libyan and Syrian backing for terrorists. (BNC50). Tento pˇrevod prob´ıh´a pouze na slovesn´ ych argumentech, tedy na slovech, kter´ a z´avis´ı na slovesu – slovesa pozn´ame tak, ˇze maj´ı POS tag zaˇc´ınaj´ıc´ı na VB. Pˇred samotn´ ym pˇrevodem lze pouˇz´ıt procedury find appos a find copula. Prvn´ı z nich ˇreˇs´ı apozici a druh´a kopul´arn´ı (sponov´a) slovesa. Apozice Procedura find appos nejdˇr´ıve nalezne hranu B → C, kter´a je oznaˇcena popiskem appos, a pro vˇsechny hrany, kter´e vedou z uzlu A do uzlu B, pˇrid´a hranu A → C se stejn´ ym popiskem jako m´a hrana A → B. V pˇr´ıkladu na obr´azku 4.1 vid´ıme ˇc´ast z´avislostn´ıho grafu vˇety Heath, a glutton for work, had also to devote large chunks of energy and concentration to the EEC and to Ireland as the Sunningdale Conference on power-sharing approached. (BNC50). V lev´e ˇc´asti obr´azku je p˚ uvodn´ı graf, hrana apozice spojuje slova Heath a glutton. V prav´e ˇc´asti je graf s pˇridan´ ymi hranami nsubj(had, glutton) a xsubj(devote, glutton) – jsou vyznaˇceny tuˇcnou ˇcarou.
33
34
dobj(have, links)
dobj(have, links)
prep for(backing, terrorists)
prep about(knowledge, backing)
conj and(Libyan, Syrian)
amod(backing, Libyan)
conj and(links, knowledge)
amod(knowledge, inside)
prep for(backing, terrorists)
prep about(knowledge, backing)
amod(backing, Syrian)
conj and(Libyan, Syrian)
amod(backing, Libyan)
conj and(links, knowledge)
dobj(have, knowledge)
amod(knowledge, inside)
prep with(links, Gadhafi)
dobj(have, links)
xcomp(claimed, have)
aux(have, to)
prep for(backing, terrorists)
prep about(knowledge, backing)
conj and(Libyan, Syrian)
amod(backing, Libyan)
conj and(links, knowledge)
amod(knowledge, inside)
prep with(links, Gadhafi)
dobj(have, links)
xcomp(claimed, have)
aux(have, to)
nsubj(claimed, He)
Tree
Tabulka 4.1: Pˇrehled vˇsech styl˚ u STD pro vˇetu He claimed to have links with Gadhafi, and inside knowledge about Libyan and Syrian backing for terrorists.
funkce argumentu agent to+inf agent object object adverbial
Tabulka 4.3: Extrakce argument˚ u z v´ ystupu stanfordsk´ ych z´avislost´ı
Kopula Ve stanfordsk´ ych z´avislostech nast´av´a jev, ˇze hrana s oznaˇcen´ım nsubj vych´az´ı z uzlu, kter´ y nen´ı slovesem. St´av´a se tomu u kopul´arn´ıch (sponov´ ych) sloves. Pokud chceme zpracov´avat slovesn´e argumenty vˇzdy stejn´ ym zp˚ usobem, je tˇreba tento jev nejdˇr´ıve odstranit. Slovesa, u nichˇz k tomuto doch´az´ı jsou appear, be, become, disappear, remain, resemble, seem, stay.2 Procedura funguje tak, ˇze nalezne hranu s n´azvem cop a vymˇen´ı jej´ı konce. Graficky je to zn´azornˇeno na obr´azku 4.2. Toto je jednoduˇsˇs´ı pˇr´ıpad, protoˇze staˇc´ı pouze zamˇenit slova seems a remarkable, pak je v poˇr´adku, ˇze slovo It z´avis´ı na slovesu seems atd. Probl´em nast´av´a, kdyˇz slovesn´ ym doplˇ nkem je substantivum a na nˇem z´avis´ı napˇr. pˇr´ıdavn´e jm´eno. Nestaˇc´ı pouh´a v´ ymˇena uzl˚ u hrany cop, ale je tˇreba urˇcit, kter´e z´avislosti patˇr´ı ke jm´enu a kter´e ke sponov´emu slovesu. Na obr´azku 4.3 se pod´ıvejme napˇr´ıklad na slovo thinker, kter´e bylo p˚ uvodnˇe ˇr´ıd´ıc´ım uzlem. Po u ´pravˇe se na jeho m´ısto dost´av´a sponov´e sloveso was a zde doch´ az´ı k pˇrerozdˇelˇen´ı hran. Hrana complm vede z was, ale hrany det a amod nyn´ı vych´az´ı z thinker, protoˇze ˇclen a adjektivum z´avis´ı na jm´enu, ne na slovesu. 2
K dneˇsn´ımu dni (1.7.2010) nem´ a ani jedno z uveden´ ych sloves status complete v PDEV, tedy pˇri zpracov´ an´ı konkordanc´ı zat´ım nebylo tˇreba se t´ımto zab´ yvat. Tato funkce se vˇsak uplatnila pˇri evaluaci parsingu na datech z PEDT a m˚ uˇze b´ yt uplatnˇena do budoucna, aˇz bude zkompilov´ ano nˇekter´e z tˇechto sloves.
35
had
had
advmod nsubj
also
xcomp
advmod
devote
nsubj
xsubj aux
Heath
nsubj
to
xsubj
Heath
appos
a
also
to
xcomp
devote aux xsubj
appos
glutton
glutton
det
det
prep_for
a
work
prep_for
work
Obr´azek 4.1: Zpracov´an´ı apozice
It seems remarkable that the three who remained in France did not abandon their mission following the arrests in Ireland. remarkable nsubj cop
It
seems
seems ccomp
abandon
nsubj cop
It
remarkable
ccomp
abandon
Obr´azek 4.2: Zpracov´an´ı kopuly
Popis algoritmu pro zpracov´an´ı kopuly: pro kaˇ zdou hranu G -> D s oznaˇ cen´ ım cop: (G = governor, D = dependent) pro kaˇ zdou hranu e (G -> X), kde X <> D & e <> det|prep_of|amod|rcmod|nn: odstraˇ n hranu G -> X a pˇ ridej hranu D -> X (se stejn´ ym oznaˇ cen´ ım jako G -> X) pro kaˇ zdou hranu Y -> G, kde e <> nsubj|xsubj odstraˇ n Y -> G a pˇ ridej Y -> D nakonec odstraˇ n G -> D a pˇ ridej D -> G Experiment´aln´ı ovˇeˇren´ı u ´ˇcinnosti zapojen´ı procedur pro zpracov´an´ı apozice a kopuly lze nal´ezt v kapitole o evaluaci (viz 4.3.3).
36
It is no secret that Keynes was a highly intuitive thinker who often changed his mind: in 1930 he defended the gold standard, which he had previously attacked, and in 1931 he abandoned the principle of free trade, which he had previously upheld. secret nsubj
ˇ ast z´avislostn´ıho grafu po zpracov´an´ı kopuly Obr´azek 4.4: C´
37
4.2
Dalˇ s´ı parsery a metody
V r´amci evaluace byly pouˇzity tak´e dalˇs´ı parsery (Charniak-Johnson˚ uv, McDonald˚ uv) a metoda zaloˇzen´a na srovn´av´an´ı text˚ u s regul´arn´ımi v´ yrazy.
4.2.1
Charniak-Johnson˚ uv parser
Dalˇs´ım pouˇzit´ ym n´astrojem (pouze pro evaluaci) je Charniak-Johnson˚ uv parser [24]. Jedn´a se o sloˇzkov´ y parser, k pˇrevodu na z´avislostn´ı strukturu je tˇreba pouˇz´ıt proceduru, kterou poskytuje Stanfordsk´ y parser: class EnglishGrammaticalStructure. V´ ysledek je jedn´ım ze ˇctyˇr typ˚ u stanfordsk´ ych z´avislost´ı, pokud pouˇzijeme redukovan´e z´avislosti s propagac´ı koordinac´ı, m˚ uˇzeme na v´ ystup aplikovat naˇs´ı proceduru pro zpracov´an´ı stanfordsk´ ych z´avislost´ı. Charniak-Johnson˚ uv parser jiˇz obsahuje model pro angliˇctinu natr´enovan´ y na sekc´ıch Penn Treebank (PTB). Vstup pro Charniak-Johnson˚ uv parser nen´ı tˇreba pˇredem upravovat, pouze oznaˇcit hranice vˇet (vˇeta se uzavˇre mezi znaˇcky <s> a ). Pro tokenizovan´ y vstup lze pouˇz´ıt pˇrep´ınaˇc -k.
4.2.2
McDonald˚ uv parser
McDonald˚ uv parser [25] je z´avislostn´ı parser. Pracuje na principu hled´an´ı minim´aln´ı kostry grafu. Pˇred pouˇzit´ım McDonaldova parseru je potˇreba nejdˇr´ıve pˇripravit data a m´ıt natr´enovan´ y model. Data mus´ı b´ yt v MST nebo CoNLL form´atu [26] a opatˇrena morfologick´ ymi znaˇckami (POS tag). P˚ uvodnˇe jsme pouˇzili McDonald˚ uv parser v r´amci TectoMT [27]. V tomto pˇr´ıpadˇe jsme pouˇzili Morˇce tagger [28] a po vytvoˇren´ı z´avislostn´ıho stromu n´asledoval pˇrevod na tektogramatick´ y strom, z nˇehoˇz byly extrahov´any z´avislosti (agenty a objekty) stejnou procedurou jako z testovac´ıch dat (viz kapitola 4.3.2). V dalˇs´ım experimentu jsme tedy vzali argumenty slovesa z tektogramatick´e roviny (pomoc´ı funkce PML En T::GetEChildren), ale pouˇzili jsme jejich funkce z analytick´e roviny (u pasivn´ıch vˇet jsme syntaktick´ y subjekt povaˇzovali za hloubkov´ y objekt). V´ ystup McDonaldova parseru se d´a pˇrirovnat k z´akladn´ım stanfordsk´ ym z´avislostem. Ide´aln´ı by bylo, kdybychom tento v´ ystup umˇeli pˇrev´est na redukovan´e z´avislosti s propagac´ı koordinac´ı. Je tedy potˇreba vyˇreˇsit koordinaci a pˇredloˇzky. Existuje vˇsak i jin´ y zp˚ usob. Staˇc´ı pouˇz´ıt model3 pro McDonald˚ uv parser natr´enovan´ y na stanfordsk´e z´avislosti, kter´ ym se vytvoˇr´ı z´akladn´ı z´avislosti, a n´aslednˇe pouˇz´ıt pˇrevod pˇr´ımo z CoNLL form´atu na redukovan´e z´avislosti s propagac´ı koordinac´ı opˇet pomoc´ı class EnglishGrammaticalStructure. Pot´e lze pouˇz´ıt zpracov´an´ı stanfordsk´ ych z´avislost´ı, kter´e jsme uvedli v kapitole 4.1.1). Pˇri pouˇzit´ı stanfordsk´eho modelu pro McDonald˚ uv parser byl nejprve pouˇzit MXPOST tagger (Adwait Ratnaparkhi) [29]. V´ ymˇenou za Morˇce tagger jsme experiment´alnˇe zjistili vliv v´ ybˇeru morfologick´eho taggeru. 3
Tento model je volnˇe ke staˇzen´ı na webov´ ych str´ ank´ ach Stanfordsk´eho parseru.
Tabulka 4.4: Pravidla pro extrakci argument˚ u slovesa definovan´a ve Sketch Engine V´ ysledky vˇsech popsan´ ych experiment˚ u jsou uvedeny v kapitole 4.3.4 v tabulce 4.9.
4.2.3
Sketch Engine
Sketch Engine [18] je syst´em, kter´ y analyzuje velk´ y korpus a hled´a typick´e argumenty sloves. Kromˇe standardn´ıch korpusov´ ych funkc´ı jako jsou konkordance, tˇr´ıdˇen´ı a filtrov´an´ı nav´ıc poskytuje tzv. word sketches. Word sketch je automatick´ y jednostr´ankov´ y pˇrehled gramatick´ ych vlastnost´ı dan´eho slova a jeho typick´ ych kolokac´ı. Gramatick´e vztahy jsou v syst´emu Sketch Engine definov´any jako regul´arn´ı v´ yrazy vyuˇz´ıvaj´ıc´ı morfologick´e znaˇcky. Sketch Engine pouˇz´ıv´a TreeTagger a lehce modifikovan´ y Penn tagset. Pˇr. Gramatick´ y vztah mezi pˇr´ıdavn´ ym a podstan´ ym jm´enem vypad´a takto: =modifier 2:"A.*" 1:"N.*" Prvn´ı ˇr´adek definuje jm´eno gramatick´eho vztahu a druh´ y ˇr´adek je druh korpusov´eho dotazu. 1: a 2: oznaˇcuj´ı slova, kter´a se maj´ı extrahovat jako prvn´ı argument (kl´ıˇcov´e slovo) a druh´ y argument (kolokace). Mnoˇzina tˇechto pravidel se naz´ yv´a Sketch Grammar. V naˇs´ı u ´loze jsme se zab´ yvali pouze agentem a objektem, kter´e jsou definov´any jako posledn´ı substantivum ve jmenn´e fr´azi bezprostˇrednˇe pˇredch´azej´ıc´ı resp. n´asleduj´ıc´ı sloveso. D´ıky t´eto definici jsou vylouˇcena z´ajmena a jin´e slovn´ı druhy na m´ıstˇe agenta/objektu. Kompletn´ı seznam pravidel pouˇzit´ ych pˇri extrakci argument˚ u pro evaluaˇcn´ı experiment je uveden v tabulce 4.4.
39
4.3
Evaluace metod pro syntaktickou anal´ yzu
Evaluac´ı metod pouˇz´ıvan´ ych pro syntaktickou anal´ yzu lok´aln´ıho kontextu slovesa v anglick´e vˇetˇe jsme se zab´ yvali jiˇz v [30]. Zjiˇst’ovali jsme u ´spˇeˇsnost Stanfordsk´eho parseru, kombinace Charniak-Johnsonova parseru s pˇrevodem na stanfordsk´e z´avislosti, McDonaldova parseru a Sketch Engine. Pro vyhodnocen´ı u ´spˇeˇsnosti jsme pouˇzili ˇc´ast dat z PEDT.
4.3.1
Evaluaˇ cn´ı m´ıra
Pro mˇeˇren´ı u ´spˇeˇsnosti parsingu pouˇz´ıv´ame jednoduchou m´ıru zaloˇzenou na precision a recall, z nichˇz spoˇc´ıt´ame F-measure jako v´aˇzen´ y harmonick´ y pr˚ umˇer precision a recall.
Obr´azek 4.5: Obr´azek k vysvˇetlen´ı pojm˚ u precision a recall
Oznaˇcme mnoˇzinu T relevantn´ıch trojic (sloveso, argument, funkce), kter´e se nach´azej´ı v testovac´ıch datech. Trojice, kter´e z´ısk´ame pomoc´ı nˇekter´e parsovac´ı metody oznaˇcme jako retrieved S (viz obr´azek 4.5). Pak je precision definov´an jako P = |T ∩ S|/|S| a recall R = |T ∩ S|/|T |. Obecn´a definice F-measure je Fβ =
(1 + β 2 ) · (P · R) , (β 2 · P + R)
zde pouˇz´ıv´ame tradiˇcn´ı F-measure s parametrem β = 1, tedy F1 =
2 · (P · R) . P +R
V tabulce 4.5 jsou uvedeny extrahovan´e argumenty ze dvou vˇet. Jedniˇcky a nuly ve sloupci Test data znamenaj´ı, zda se trojice (sloveso, argument, funkce) nach´az´ı v testovac´ıch datech. V ostatn´ıch sloupc´ıch je jedniˇcka pouze v pˇr´ıpadˇe, ˇze tato trojice byla na v´ ystupu uveden´e metody, jinak je zde nula. V dalˇs´ı tabulce 4.6 je vyhodnocen´ı u ´spˇeˇsnosti metod na tomto mal´em vzorku testovac´ıch dat.
4.3.2
Testovac´ı data
Jako testovac´ı data byla pouˇzita ˇc´ast PEDT, kter´a obsahuje ruˇcn´ı sloˇzkov´e stromy z WSJ obohacen´e o analytickou a tektogramatickou rovinu. Konkr´etnˇe 40
Vˇeta 1. Preliminary tallies by the Trade and Industry Ministry showed another trade deficit in October, the fifth monthly setback this year, casting a cloud on South Korea’s export-oriented economy. Vˇeta 2. Esso said the fields were developed after the Australian government decided in 1987 to make the first 30 million barrels from new fields free of excise tax.
1 1 1 1 0 0 1 1 1 1 0 0
1 1 1 1 0 0 1 1 1 0 0 0
0 1 0 1 0 0 0 1 0 0 1 1
1 1 0 1 0 0 1 1 1 1 0 0
1 1 0 1 1 1 1 1 0 1 0 0
1 1 1 1 0 0 1 1 1 1 0 0
Tabulka 4.5: Uk´azka pr˚ ubˇehu evaluace na dvou vˇet´ach Metoda P R F1 Sketch Engine 60,00 37,50 46,15 Charniak-Johnson 100,00 87,50 93,33 McDonald 100,00 87,50 93,33 Stanford 75,00 75,00 75,00 Manual 100,00 100,00 100,00
Tabulka 4.6: Uk´azka evaluace v´ ystupu jednotliv´ ych metod
41
se jedn´a o sekce 0, 1, 22, 23 a 24, protoˇze nebyly pouˇzity pro tr´enov´an´ı parser˚ u pouˇzit´ ych pˇri evaluaci. Statistick´ eu ´ daje o testovac´ıch datech Pro u ´lohu evaluace bylo pouˇzito 9 325 vˇet, kter´e obsahuj´ı celkem 223 032 slov. Celkem zde bylo 21 588 sloves4 se 31 218 argumenty (subjekt nebo objekt). R˚ uzn´ ych sloves je 1 795. Po vyˇrazen´ı pomocn´ ych a mod´aln´ıch sloves (pokud byla pouˇzita jako plnov´ yznamov´a = maj´ı samostatn´ y uzel na tektogramatick´e rovinˇe) zb´ yv´a 18 125 sloves (1 789 r˚ uzn´ ych) a 26 879 argument˚ u. Pokud se omez´ıme pouze na substantivn´ı argumenty, m´ame pouze 15 434 sloves (1 701 r˚ uzn´ ych) a 21 263 argument˚ u. Automatick´ a procedura pro extrakci argument˚ u z ruˇ cn´ıch strom˚ u K extrakci argument˚ u slovesa (pouze subjekty a objekty) jsme pouˇzili algoritmus, kter´ y na tektogramatick´e rovinˇe nalezne slovesa (maj´ı POS tag zaˇc´ınaj´ıc´ı VB a analytick´ y uzel mus´ı b´ yt ve stejn´e vˇetˇe) a projde vˇsechny jejich argumenty (pouˇzita funkce PML En T::GetEChildren). Funkce argumentu se urˇc´ı na z´akladˇe funktoru z tektogramatick´e roviny a morfologick´e znaˇcky (POS tagu) z analytick´e roviny. ˇ ast algoritmu, ve kter´e se rozhoduje o funkci argumentu je uvedena na C´ obr´azku 4.6. Kontrola testovac´ıch dat gold standard data“ ” Pro kontrolu testovac´ıch dat byl vybr´an n´ahodn´ y vzorek 100 vˇet (coˇz tvoˇr´ı 1,07 % vˇsech vˇet z testovac´ı sady) s 266 argumenty. Vˇsechny argumenty jsme ruˇcnˇe proˇsli a zkontrolovali, uk´ azalo se, ˇze dva argumenty jsou urˇcen´e ˇspatnˇe – chyba v ruˇcnˇe anotovan´ ych stromech. Precision testovac´ıch dat je 99,25 %. D´ale chybˇely nˇekter´e trojice (sloveso, argument, funkce) v testovac´ıch datech z d˚ uvodu drobn´ ych chyb v ruˇcn´ıch stromech (napˇr. ˇspatn´a morfologick´a znaˇcka, ˇspatnˇe pˇriˇrazen´ y funktor), coˇz zp˚ usobilo, ˇze recall je 96,70 %. Pro srovn´an´ı jsme do evaluace automatick´e extrakce slovesn´ ych argument˚ u zaˇradili tak´e pouˇzit´ı Stanfordsk´eho parseru na ruˇcn´ı stromy z PEDT k z´ısk´an´ı ´ eˇsnost t´eto metody“ byla pˇrekvapivˇe n´ızk´a. Je to stanfordsk´ ych z´avislost´ı. Uspˇ ” pˇredevˇs´ım t´ım, ˇze v´ ystup procedury, kter´a extrahuje argumenty z PEDT, nen´ı kompatibiln´ı s v´ ystupem stanfordsk´ ych z´avislost´ı. Rozd´ıly jsou n´asleduj´ıc´ıch druh˚ u: • Rozd´ıln´e pojet´ı subject/object raising 5 a kauzativn´ıch konstrukc´ı6 v testovac´ıch datech a ve v´ ystupu stanfordsk´ ych z´avislost´ı. • Slova, kter´a byla v PEDT oznaˇcena jako slovesa (a je u nich oznaˇcen agent resp. objekt), ale parser jim pˇriˇradil roli adjektiva nebo substantiva. Pˇr. Proper English bells are started off in “rounds,” from the highestpitched bell to the lowest – a simple/JJ descending/VBG scale/NN using, 4
Poˇc´ıt´ ame pouze slovesa, kter´ a mˇela aspoˇ n jeden argument typu agent nebo objekt. Raising“ je forma kontroly argumentu, pˇri kter´e argument s´emanticky n´ aleˇz´ı do podˇr´ızen´e ” klauze, ale syntakticky je realizov´ an jako ˇclen nadˇrazen´e klauze. 6 Vˇety typu make someone do something“, get someone to do something“ a have someone ” ” ” do something.“ 5
42
1) functor RHEM, PREC, NEG => "ignored" 2) arg je sloveso (VB*) 2.1 v aux.rf existuje tag "TO" => "to+inf" 2.2 functor je EFF => "that-cls" 2.3 tag je VBG => "ing-cls" 2.4 v arg->children existuje tag W* => "wh-cls" 2.5 jinak => "cls" 3) arg nen´ ı sloveso (nem´ a tag VB*) 3.1 functor je ACT => "agent" 3.2 v aux.rf existuje pˇ redloˇ zka 3.2.1 functor je ADDR a pˇ redloˇ zka je "to" => "iobject" 3.2.2 jinak => "adverbial" 3.3 functor je PAT 3.3.1 sloveso je "be" => "pred_comp" 3.3.2 jinak => "object" 3.4 functor je ADDR => "iobject" 3.5 functor je LOC, DIR*, T*, MANN => "adverbial" 3.6 functor je CPHR 3.6.1 tag je JJ* nebo RB* => "pred_comp" 3.6.2 sloveso je "be" => "pred_comp" 3.6.3 jinak => "object" 3.7 tag je RB => "adverbial" 3.8 functor je RSTR a sloveso je "be" => "pred_comp" 3.9 functor je EFF => "object" 3.10 functor je DIFF => "object" 3.11 functor je EXT a tag je JJ* nebo RB* => "adverbial" 3.12 functor je DPHR 3.12.1 tag je NN* => "object" 3.12.2 jinak => "pred_comp" 3.13 jinak => "---" (neurˇ ceno)
Obr´azek 4.6: Algoritmus pro extrakci testovac´ıch dat z PEDT
test data R F1 33,08 44,44 85,34 84,70 78,57 82,28 81,58 82,51 84,96 86,26
corrected test P R 68,46 32,60 86,30 85,35 88,84 78,75 86,15 82,05 89,92 84,98
data F1 44,17 85,82 83,50 84,05 87,38
Tabulka 4.7: Evaluace na n´ahodn´em vzorku 100 vˇet – opraven´a data
in larger churches , as many as 12 bells. V t´eto vˇetˇe m´a slovo descending POS tag VBG, PEDT urˇc´ı, ˇze agentem je scale. Na v´ ystupu stanfordsk´ ych z´avislost´ı se objev´ı amod(scale-23, descending-22), kde amod znamen´a adjectival modifier. • Ve vztaˇzn´ ych vˇet´ach v PEDT je jako subjekt/objekt oznaˇcov´ano vztaˇzn´e z´ajmeno. Ve v´ ystupu STD je v tomto pˇr´ıpadˇe oznaˇceno pˇr´ımo jm´eno, kter´e je zastoupeno vztaˇzn´ ym z´ajmenem. Pˇr. I’m the only one who said there would be... Ve stanfordsk´ ych z´avislostech je vztaˇzn´e z´ajmeno obvykle pˇripojeno hranou rel a ve vˇetˇsinˇe pˇr´ıpad˚ u zastupuje ve vztaˇzn´e vˇetˇe subjekt, t´ım zv´ yˇs´ıme recall. Ale precision se pokaz´ı, protoˇze zde bude nav´ıc trojice (said-8, one-6, agent). V tabulce 4.8 lze nal´ezt v´ ysledky experimentu, kdy hranu rel v˚ ubec neuvaˇzujeme (no rel), nebo ji povaˇzujeme za subjekt (rel=sbj) resp. objekt (rel=obj). • Nˇekter´e argumenty chyb´ı z d˚ uvodu drobn´ ych chyb v PEDT.
Zpracov´an´ı se m´ırnˇe liˇs´ı pro pˇr´ıpad, kdy chceme evaluovat v˚ uˇci dat˚ um z PEDT. V PEDT nen´ı napˇr. oznaˇcov´an tzv. kontroluj´ıc´ı subjekt, takˇze by doch´azelo ke zhorˇsen´ı precision (pˇresnosti), naopak v PEDT je jako subjekt/objekt vztaˇzn´e vˇety oznaˇcov´ano vztaˇzn´e z´ajmeno. V tabulce 4.8 lze nal´ezt v´ ysledky experimentu, kdy hranu rel v˚ ubec neuvaˇzujeme (no rel), nebo ji povaˇzujeme za subjekt (rel=sb) resp. objekt (rel=obj). Nejlepˇs´ıho v´ ysledku dos´ahneme, pokud hranu rel povaˇzujeme vˇzdy za subjekt. D´ale v t´eto tabulce vid´ıme, ˇze nejvˇetˇs´ı u ´spˇeˇsnost je dosaˇzena, pokud pouˇzijeme proceduru pro apozici i pro copulu.
4.3.4
Evaluace parser˚ u a metod
Pˇri evaluaci metod pouˇziteln´ ych pro extrakci argument˚ u slovesa jsme se zab´ yvali tak´e t´ım, jak nejl´epe pouˇz´ıt McDonald˚ uv parser. V kapitole 4.2.2 jsme uvedli nˇekolik moˇzn´ ych zp˚ usob˚ u pouˇzit´ı: 1. Morˇce + McDonald s modelem z TectoMT s n´ asledn´ym sestaven´ım tektogramatick´eho stromu + extrakce argument˚ u z tektogramatick´e roviny 44
Metoda Stanford Stanford Stanford Stanford Stanford Stanford Stanford
Tabulka 4.9: Evaluace zp˚ usob˚ u pouˇzit´ı McDonaldova parseru (STD = stanfordsk´e z´avislosti, AC = pouˇzit´ı procedury pro zpracov´an´ı apozici a kopuly)
V´ ysledn´a u ´spˇeˇsnost (F1 ) tohoto postupu byla 59,79 % (viz ˇr´adka tecto extraction v tabulce 4.9). Problematick´ y byl pravdˇepodobnˇe pˇrevod na tektogramatick´ y strom – zvl´aˇstˇe pˇriˇrazen´ı tektogramatick´ ych funktor˚ u. 2. Morˇce + McDonald + extrakce argument˚ u z analytick´e roviny Pouˇzit´ı parseru bylo stejn´e jako v pˇredchoz´ım pˇr´ıpadˇe, ale argumenty byly extrahov´any z analytick´e roviny. T´ım se zv´ yˇsil precision o 21,8 %, recall o 10,4 % a F-measure o 16 % (viz anal extraction v tabulce 4.9). 3. Morˇce + McDonald s modelem natr´enovan´ym na stanfordsk´e z´ avislosti + pˇrevod na STD + zpracov´ an´ı STD se zapojen´ım procedury pro apozici a kopulu Nejlepˇs´ı se uk´azalo b´ yt pouˇzit´ı procedur pro zpracov´an´ı apozice i kopuly (viz kap. 4.3.3), pouˇzijeme je i zde. V´ ysledn´e hodnoty pro precision, recall a F-measure se zvˇetˇsily v pr˚ umˇeru o 6-7 % v porovn´an´ı s pˇredchoz´ım zp˚ usobem. 4. Stejn´e jako pˇredchoz´ı zp˚ usob, ale m´ısto Morˇce taggeru pouˇzijeme MXPOST tagger. Precision se sn´ıˇzil o 0,4 %, recall o 1 % a F-measure o 0,7 %. V tabulce 4.10 jsou uvedeny souhrn´e v´ ysledky naˇseho experimentu. Ke zpracov´an´ı stanfordsk´ ych z´avislost´ı jsme pouˇzili proceduru vˇcetnˇe vyˇreˇsen´ı apozice a copuly. Jelikoˇz Sketch Engine narozd´ıl od ostatn´ıch metod poskytuje pouze substantivn´ı argumenty, udˇelali jsme i druhou verzi, kde nesubstantiva odfiltrujeme z testovac´ıch dat i z v´ ystupu ostatn´ıch metod. T´ım se v´ yraznˇeji zv´ yˇsil 45
Vˇsechny argumenty Pouze substantiva
Method Sketch Engine Charniak-Johnson + STD + AC Morˇce + McDonald + STD + AC Stanford + AC Manual + STD + AC
P
R
F1
P
R
F1
70,46 83,90 85,12 82,53 86,61
35,80 83,59 79,53 81,70 82,53
47,48 83,74 82,23 82,11 84,52
70,31 84,48 86,27 82,97 87,79
45,15 84,67 79,52 82,54 86,60
54,99 84,57 82,76 82,76 87,19
Tabulka 4.10: V´ ysledky evaluace parsovac´ıch metod
recall u Sketch Engine. M´ırn´ y pokles precision je zp˚ usoben´ y t´ım, ˇze Sketch Engine povaˇzuje za substantiva i nˇekter´a slova, kter´a v PEDT substantiva nejsou. Pˇrekvapiv´ y je velmi n´ızk´ y rozd´ıl mezi ruˇcnˇe anotovan´ ymi stromy doplnˇen´ ymi stanfordsk´ ymi z´avislostmi a ostatn´ımi metodami (s v´ yjimkou Sketch Engine). Nejl´epe (dle F-measure) dopadl Charniak-Johnson˚ uv parser doplnˇen´ y stanfordsk´ ymi z´avislostmi. Stanfordsk´ y parser je pouze o 1,5 % horˇs´ı, ale oproti ostatn´ım metod´am je jeho pouˇzit´ı nejjednoduˇsˇs´ı, protoˇze je vˇse v jednom. Velmi n´ızk´ y recall Sketch Engine byl oˇcek´avateln´ y, ale nepˇr´ıliˇs vysok´ y precision je pˇrekvapiv´ y. Sketch Engine dˇel´a chyby pˇredevˇs´ım ve sloˇzitˇejˇs´ıch vˇet´ach, kde jsou argumenty od slovesa v´ıce vzd´aleny nebo v pˇr´ıpadˇe, ˇze je argument sktrukturovan´ y, napˇr. ve vˇetˇe A form of asbestos once used to make . . . se jako objektem slovesa used urˇc´ı asbestos m´ısto form.
4.4
Shrnut´ı
V t´eto kapitole jsme se zamˇeˇrili na extrahov´an´ı argument˚ u slovesa za pouˇzit´ı automatick´e syntaktick´e anal´ yzy angliˇctiny. Extrakce argument˚ u je d˚ uleˇzit´a pro dalˇs´ı pr´aci – vytv´aˇren´ı seznam˚ u slov realizuj´ıc´ıch s´emantick´e typy a pˇri automatick´em pˇriˇrazov´an´ı slovesn´ ych pattern˚ u. Pˇri evaluaci jednotliv´ ych metod jsme se zamˇeˇrili pˇredevˇs´ım na agenty a objekty. Podle uveden´ ych v´ ysledk˚ u (viz tabulka 4.10) je nejlepˇs´ı pouˇz´ıt kombinaci Charniak-Johnosonova parseru s n´asledn´ ym pˇrevodem sloˇzkov´ ych strom˚ u na stanfordsk´e z´avislosti. Pˇresto vˇsak pouˇz´ıv´ame Stanfordsk´ y parser, protoˇze jeho u ´spˇeˇsnost nen´ı v´ yraznˇe horˇs´ı a pouˇzit´ı jednoho n´astroje je jednoduˇsˇs´ı neˇz kombinace v´ıce n´astroj˚ u.
46
Kapitola 5
Syst´ em s´ emantick´ ych typ˚ u V definic´ıch pˇrev´aˇzn´e vˇetˇsiny pattern˚ u jsou kolokaˇcn´ı pozice urˇceny s´emantick´ ym typem. V dostupn´ ych oznaˇckovan´ ych konkordanc´ıch, kter´ ym je pˇriˇrazen pattern, vˇsak nen´ı nijak vyznaˇceno, kter´e slovo ve vˇetˇe realizuje s´emantick´ y typ uveden´ y v definici patternu. V t´eto kapitole se zab´ yv´ame zp˚ usobem, jak tato slova naj´ıt a pˇriˇradit s´emantick´ ym typ˚ um. Toto propojen´ı m´a v´ yznam pro sestaven´ı seznam˚ u slov, kter´a mohou realizovat jednotliv´e s´emantick´e typy, coˇz lze d´ale vyuˇz´ıt pro • n´avrh klasifik´atoru, kter´ y automaticky rozpozn´av´a pattern slovesa v dan´e vˇetˇe • vytvoˇren´ı definice pro kaˇzd´ y s´emantick´ y typ • vylepˇsen´ı definic pattern˚ u, napˇr. u ´pravou ˇci pˇrid´an´ım s´emantick´eho typu • zamyˇslen´ı se nad t´ım, zda je s´emantick´ y typ uˇziteˇcn´ y • vytvoˇren´ı hierarchie s´emantick´ ych typ˚ u podloˇzen´e re´aln´ ymi daty V pˇredchoz´ı kapitole jsme vysvˇetlili, jak z vˇet extrahujeme argumenty slovesa. V t´eto kapitole uk´aˇzeme, ˇze syntaktick´a anal´ yza a n´asledn´a extrakce argument˚ u slouˇz´ı jako z´aklad pro dalˇs´ı zpracov´an´ı, jehoˇz v´ ysledkem jsou seznamy slov (substantiv) realizuj´ıc´ıch dan´e s´emantick´e typy. K z´ısk´an´ı tˇechto seznam˚ u pouˇzijeme oznaˇckovan´e konkordance, z nichˇz extrahujeme slovesn´e argumenty a n´aslednˇe je srovn´ame s kolokaˇcn´ımi pozicemi v pˇr´ısluˇsn´em patternu. Na z´akladˇe toho vytvoˇr´ıme seznam dvojic (s´emantick´ y typ, substantivum), kde substantivum realizuje dan´ y s´emantick´ y typ. Tuto problematiku jsme ˇc´asteˇcnˇe popsali jiˇz v [31].
5.1
Pouˇ zit´ e n´ astroje
Syntaktickou anal´ yzu kontextu slovesa je moˇzn´e doplnit pouˇzit´ım n´astroje na rozpozn´an´ı jmenn´ ych entit, tzv. NE klasifik´atorem. Pro dalˇs´ı pr´aci s extrahovan´ ymi argumenty – extrakce lexik´aln´ıch jednotek reprezentuj´ıc´ıch s´emantick´e typy v BNC50 a automatick´e rozpozn´av´an´ı pattern˚ u – vyuˇzijeme tak´e zjednoduˇsen´ y slovn´ık pro pˇrevod plur´alu na singul´ar. 47
5.1.1
Stanfordsk´ y NE klasifik´ ator
Anal´ yzu kontextu slovesa je moˇzn´e doplnit vyuˇzit´ım nˇekter´eho klasifik´atoru pro rozpozn´av´an´ı jmenn´ ych entit (NER, Named Entity Recognizer). Zvolili jsme Stanfordsk´ y NE klasifik´ator [32] s modelem, kter´ y rozliˇsuje tˇri typy jmenn´ ych entit: Person pro jm´ena osob, Organization pro jm´ena organizac´ı a Location pro zemˇepisn´e n´azvy. Pouˇzit´ı NE klasifik´atoru je nez´avisl´e na syntaktick´e anal´ yze. V´ ystup z nˇej je moˇzn´e zadat jako voliteln´ y parametr do procedury, kter´a zpracov´av´a v´ ystup Stanfordsk´ ych z´avislost´ı. Stanfordsk´ y NER nab´ız´ı nˇekolik styl˚ u, jak maj´ı b´ yt ve v´ ystupn´ım souboru oznaˇceny jmenn´e entity. Zvolili jsme takov´ y, kde je jmenn´a entita uzavˇrena mezi znaˇcky jmenn´ a entita. Vˇeta na v´ ystupu vypad´a takto: Abdallah never abandoned his ambition to rule Syria. Pˇri zapojen´ı NER do zpracov´an´ı Stanfordsk´ ych z´avislost´ı se pouze spoj´ı jednotliv´e tokeny jmenn´e entity, kter´e pak vystupuj´ı jako jeden celek. Z technick´ ych d˚ uvod˚ u jsou mezery nahrazeny podtrˇz´ıtky. Extrahovan´ y argument, kter´ y je ˇc´ast´ı jmenn´e entity se nahrad´ı t´ımto celkem a pˇripoj´ı se k nˇemu nov´ y POS tag popisuj´ıc´ı typ jmenn´e entity – NEP pro typ Person, NEO pro typ Organization a NEL pro typ Location. V souˇcasn´e verzi nen´ı tento tag nijak d´ale vyuˇz´ıv´an, ale v budoucnu by mˇel pomoci ˇc´asteˇcnˇe disambiguovat s´emantick´e typy.
5.1.2
Slovn´ık
V pr˚ ubˇehu ˇreˇsen´ı diplomov´e pr´ace vznikla potˇreba automaticky pˇrev´adˇet mnoˇzn´e ˇc´ıslo na jednotn´e. Pouˇzit´ y Stanfordsk´ y parser nepˇrev´ad´ı slova na jejich z´akladn´ı tvary (lemmata). Pˇrevod na singul´ar potˇrebujeme pouze pro sjednocen´ı slovn´ıch forem pˇri vytv´aˇren´ı seznam˚ u lexik´aln´ıch jednotek reprezentuj´ıc´ı s´emantick´e typy, protoˇze aˇz na p´ar v´ yjimek (napˇr. Human Group) nen´ı podstatn´e, zde je slovo pouˇzito v singul´aru ˇci plur´alu. Po syntaktick´e anal´ yze oznaˇckovan´ ych konkordanc´ı jsme vytvoˇrili unik´atn´ı seznam vˇsech substantiv v singul´aru (POS tag je NN) seˇrazen´ y podle jejich frekvence v tˇechto datech. N´aslednˇe jsme pomoc´ı funkce PL N() implementovan´e v modulu Lingua::EN::Inflect [33] vygenerovali plur´al. Tento zjednoduˇsen´ y slovn´ık byl uloˇzen setˇr´ıdˇen´ y podle singul´aru v souboru jako prost´ y text. Slovn´ık je n´aslednˇe pouˇzit pˇri populaci s´emantick´ ych typ˚ u. Pokud se naraz´ı na slovo POS tagem NNS, zkus´ı se vyhledat ve slovn´ıku mezi plur´aly. Pˇri u ´spˇeˇsn´em nalezen´ı se pˇrevede na singul´ar. V opaˇcn´em pˇr´ıpadˇe se ponech´a v plur´alu, protoˇze singul´ar se v textu zˇrejmˇe nevyskytuje nebo ani neexistuje. V´ıceznaˇcnosti se vyˇreˇs´ı jiˇz pˇri naˇc´ıt´an´ı slovn´ıku ze souboru, tedy se pouˇzije prvn´ı nalezen´a moˇznost – podle abecedy. Toto ˇreˇsen´ı nab´ız´ı nˇekolik moˇzn´ ych vylepˇsen´ı, napˇr. vylepˇsit pr´aci se slovn´ıkem, rozumnˇejˇs´ı nakl´ad´an´ı s v´ıceznaˇcnostmi, popˇr. pouˇzit´ı jiˇz nˇejak´eho existuj´ıc´ıho slovn´ıku ˇci proveden´ı lemmatizace.
48
5.2
Extrakce argument˚ u a pˇ riˇ razen´ı s´ emantick´ ych typ˚ u
K dispozici m´ame cca 200 000 oznaˇckovan´ ych vˇet z korpusu BNC50. Vˇety jsou rozdˇeleny podle sloves a znaˇckou je ˇc´ıslo patternu slovesa pouˇzit´eho v dan´e vˇetˇe (viz 2.1.2). Ze souboru vˇet odstran´ıme pˇr´ıliˇs dlouh´e vˇety (≥ 100 token˚ u) a vˇety se znaˇckou u nebo x. Ostatn´ı vˇety syntakticky zanalyzujeme a nalezneme argumenty oznaˇckovan´eho slovesa. Z kaˇzd´e vˇety z´ısk´ame mnoˇzinu dvojic (argument, funkce).. D´ale n´as zaj´ımaj´ı pouze argumenty na pozic´ıch, kter´e by mohly b´ yt pops´any s´emantick´ ym typem, coˇz je agent, objekt a adverbi´al vyj´adˇren´e pˇredloˇzkovou fr´az´ı. U adverbi´al˚ u potˇrebujeme zn´at tak´e p˚ uvodn´ı n´azev gramatick´eho vztahu (Rel ) ze stanfordsk´ ych z´avislost´ı, protoˇze obsahuje pˇredloˇzku. V tabulce 5.1 jsou uvedeny extrahovan´e argumenty z vˇety We’ve devoted the project to social awareness. (BNC50). stanfordsk´e z´avislosti nsubj(devoted-4, We-2) aux(devoted-4, ’ve-3) det(project-6, the-5) dobj(devoted-4, project-6) amod(awareness-9, social-8) prep to(devoted-4, awareness-9)
extrahovan´e argumenty agent: We/PRP
object: project/NN adverbial: awareness/NN rel: prep to
Tabulka 5.1: Extrakce argument˚ u ze stanfordsk´ ych z´avislost´ı Tato vˇeta je oznaˇcena patternem ˇc. 4 (viz obr´azek 3.2), kter´ y na pozici agenta povoluje s´emantick´e typy Human nebo Institution, na pozici objektu s´em. typ Activity a d´ale definuje povinnou pˇredloˇzkovou fr´azi s pˇredloˇzkou to a s´emantick´ ym typem Anything. Srovn´an´ım pozic argument˚ u extrahovan´ ych z vˇety s pozicemi v patternu z´ısk´ame posloupnost dvojic (Si , wi ), i = 1, . . . , N , kde Si (Si = {t1 , . . . , tn }; n ≥ 1) je mnoˇzina s´emantick´ ych typ˚ u pˇr´ıpustn´ ych na dan´e pozici a wi je slovo, kter´e realizuje nˇekter´ y s´emantick´ y typ z mnoˇziny Si . Celkov´ y poˇcet dvojic z´ıskan´ ych ze vˇsech oznaˇckovan´ ych vˇet je N . Mnoˇzinu vˇsech s´emantick´ ych typ˚ u oznaˇcme T , pak plat´ı: ∪ Si ⊆ T i
Dvojice z uk´azkov´e vˇety jsou uvedeny v tabulce 5.2, kde slovo je nav´ıc doplnˇeno morfologickou znaˇckou (POS tag). S´emantick´e role a mnoˇziny lexik´aln´ıch jednotek zde v˚ ubec neuvaˇzujeme. Z celkov´eho poˇctu 202 348 pouˇzit´ ych vˇet z´ısk´ame 224 259 dvojic (S, w). V kaˇzd´em patternu je pr˚ umˇernˇe 1,77 slot˚ u pro s´emantick´e typy. Pokud uvaˇzujeme i rozloˇzen´ı pattern˚ u, pr˚ umˇern´ y poˇcet slot˚ u je tak´e 1,77. Maxim´aln´ı poˇcet dvojic (S, w) je 358 944 (maxim´ aln´ı je pouze pokud neuvaˇzujeme koordinace a 49
s´emantick´ y typ Human | Institution Activity Anything
slovo/POS tag We/PRP project/NN awareness/NN
Tabulka 5.2: Propojen´ı se s´emantick´ ymi typy z patternu ˇc. 4 slovesa devote
apozice). Toto ˇc´ıslo jsme obdrˇzeli tak, ˇze pro kaˇzdou vˇetu oznaˇcenou patternem p zapoˇc´ıt´ame maxim´aln´ı poˇcet slot˚ u pro s´emantick´e typy definovan´ ych v patternu p. Nen´ı to tedy poˇcet argument˚ u, v nˇekter´ ych patternech je argument vyj´adˇren pouze v´ yˇctem lexik´aln´ıch jednotek (napˇr. [[Human]] abandon ship) D˚ uvod˚ u, proˇc skuteˇcn´ y poˇcet dvojic je o v´ıce neˇz tˇretinu menˇs´ı, m˚ uˇze b´ yt nˇekolik. V pasivn´ıch vˇet´ach ˇcasto b´ yv´a nevyj´adˇren´ y agent. Vezmˇeme napˇr. sloveso append, kter´e m´a 2 patterny a v kaˇzd´em z nich jsou tˇri sloty pro s´emantick´ y typ. Celkem m´ame oznaˇckovan´ ych a zanalyzovan´ ych 81 vˇet, tedy maxim´aln´ı poˇcet dvojic je 243. V tˇechto vˇet´ach bylo nalezeno pouze 27 agent˚ u, coˇz je pouh´a tˇretina, agent b´ yv´a ˇcastˇeji nevyj´adˇren´ y. Dalˇs´ı moˇznost´ı je nepovinn´ y argument, protoˇze v naˇsem odhadu ho tak´e zapoˇc´ıt´ame. V nˇekter´ ych pˇr´ıpadech udˇel´a chybu parser – ˇspatnˇe zanalyzuje vˇetu a nenajde argumenty. Ve ˇctvrtinˇe nalezen´ ych dvojic (S, w) je w nesubstantivum (vˇetˇsinou z´ajmena), se kter´ ymi nebudeme d´ale pracovat. Ze zbyl´ ych 165 278 dvojic potˇrebujeme odstranit v´ıceznaˇcnost – urˇcit, kter´ y typ z mnoˇziny S je realizov´an slovem w. T´ım se zab´ yv´a n´asleduj´ıc´ı kapitola.
5.3
Definice statistick´ ych charakteristik
V patternech se velmi ˇcasto vyskytuj´ı alternace s´emantick´ ych typ˚ u, napˇr. ve druh´em patternu slovesa devote v pozici agenta alternuj´ı s´emantick´e typy Human a Institution (viz kap. 2.1.1). Pokud chceme vytvoˇrit pro kaˇzd´ y s´emantick´ y typ seznam slov, kter´a ho nejˇcastˇeji realizuj´ı, mus´ıme nejprve odstranit v´ıceznaˇcnost. Definujme c(S, w) jako poˇcet dvojic (S, w) nalezen´ ych v datech. D´ale definujme ˇctyˇri statistick´e charakteristiky (atributy) F1 , . . . , F4 pro kaˇzdou dvojici (t, w): F1 (t, w) =
S Plane Plane | Human Ship | Plane | Road Vehicle Boat | Plane Human Road Vehicle Ship Boat
w aircraft aircraft aircraft aircraft aircraft aircraft aircraft aircraft
c(S, w) 20 12 1 3 3 0 0 0
Tabulka 5.3: Relevantn´ı dvojice (S, w) pro v´ ypoˇcet atribut˚ u dvojice (Plane, aircraft) S Plane Plane | Human Ship | Plane | Road Vehicle Boat | Plane ∑
w aircraft aircraft aircraft aircraft
c(S, w) 20 12 1 3
F1 20 12 1 3 36
F2 20 0 0 0 20
F3 20 6 0,33 1,5 27,83
F4 20 10,43 1 3 34,43
Tabulka 5.4: V´ ypoˇcet atribut˚ u pro dvojici (Plane, aircraft)
Jako uk´azku vezmˇeme napˇr´ıklad s´emantick´ y typ Plane a slovo aircraft. V tabulce 5.3 jsou vybran´e dvojice, kter´e jsou relevantn´ı pro v´ ypoˇcet Fi (Plane, aircraft). V tabulce 5.4 jsou pˇr´ır˚ ustky jednotliv´ ych atribut˚ u F1 , . . . , F4 pro dvojici (Plane, aircraft). Atribut F1 ud´av´a, ˇze slovo aircraft se v souvislosti se s´emantick´ ym typem Plane vyskytuje celkem 36×, tedy c(S, w) = 36, kde Plane ∈ S a w = aircraft. Dalˇs´ı atribut F2 ˇr´ık´a, ˇze se tato dvojice vyskytuje samostatnˇe celkem 20×. Z tˇechto dvou hodnot m˚ uˇzeme zjistit, ˇze probl´em v´ıceznaˇcnosti bylo tˇreba ˇreˇsit celkem 16×. Definice atributu F3 vypov´ıd´a, ˇze se poˇcet v´ yskyt˚ u dvojice (S, w) dˇel´ı rovn´ ym d´ılem mezi s´emantick´e typy v mnoˇzinˇe S. Zde se aircraft se vyskytlo 12× souˇcasnˇe s Plane a Human (c({Plane, Human}, aircraft) = 12), mnoˇzina S obsahuje dva prvky, poˇcet v´ yskyt˚ u se rozdˇel´ı na poloviny. Sloˇzitˇejˇs´ı je v´ ypoˇcet pˇr´ırustku atributu F4 . Zde je potˇreba dohledat samostatn´e v´ yskyty s ostatn´ımi s´emantick´ ymi typy, kter´e se nach´azej´ı v mnoˇzinˇe (viz tabulka 5.3). Pod´ıvejme se opˇet na Plane a Human: aircraft se vyskytuje se s´emantick´ ym typem Plane samostatnˇe 20× (F2 (Plane, aircraft) = 20) a s Human pouze 3× (F2 (Human, aircraft) = 3). Celkov´ y poˇcet v´ yskyt˚ u (12) 20 tedy rozdˇel´ıme v pomˇeru 20 : 3, tedy 23 · 12 = 10, 43, coˇz je pˇr´ır˚ ustek atributu F4 pro dvojici (Plane, Human). Seˇcten´ım sloupc˚ u (pˇr´ır˚ ustk˚ u) v tabulce 5.4 z´ısk´ame v´ ysledn´e hodnoty atribut˚ u F1 , . . . , F4 (viz posledn´ı ˇr´adek tabulky). Dalˇs´ı statistickou charakteristikou dvojice (t, w) jsou promˇenn´e PMI 3 a 51
PMI 4 . Jedn´a se o vz´ajemnou informaci (PMI, pointwise mutual information). PMI 3 (t, w) = log2 kde
∑ F3 (t, w) p(t, w) = , N
p(t) =
p(t, w) , p(t) · p(w)
w∈W
N
Tedy PMI 3 (t, w) = log2 ∑
∑
F3 (t, w) ,
p(w) =
F3 (t, w)
t∈T
N
.
N · F3 (t, w) ∑ . F3 (t, w) · F3 (t, w)
w∈W
t∈T
Analogicky je definov´ana tak´e PMI 4 (t, w). Seznam dvojic (t, w) s atributy F1 , . . . , F4 , PMI 3 a PMI 4 je tˇreba d´ale proˇcistit, abychom z´ıskali co nejlepˇs´ı populaci s´emantick´ych typ˚ u, coˇz je seznam lexik´aln´ıch jednotek realizuj´ıc´ıch jednotliv´e s´emantick´e typy. Seznam dvojic i s jejich atributy je uloˇzen ve form´atu CSV a lze filtrovat, tˇr´ıdit a prohl´ıˇzet pomoc´ı scriptu view semtypes lists.sh (viz pˇr´ıloha E).
5.4 5.4.1
ˇ stˇ Ciˇ en´ı seznam˚ u a evaluace Anotace a testovac´ı data
Ze seznamu dvojic (t, w) jsme vybrali 3 000 n´ahodn´ ych dvojic, kter´e jsme pˇredloˇzili Patricku Hanksovi k ruˇcn´ı anotaci. Anot´atorovi byly d´any pouze samotn´e dvojice bez statistick´ ych charakteristik. Kaˇzd´e dvojici byla pˇriˇrazena jedna znaˇcka z mnoˇziny {T, C, M } podle toho, jestli slovo w realizuje dan´ y s´emantick´ y typ t. • T (typical example) . . . slovo typicky realizuje s´emantick´ y typ pˇr.: Abstract – freedom, Animal – gophers, Disease – malaria • C (possible coercion) . . . slovo nen´ı typick´ ym reprezentantem, ale v nˇejak´em kontextu lze pouˇz´ıt s dan´ ym typem napˇr. Beverage – cup (of tea) • M (mistake) . . . slovo nerealizuje s´emantick´ y typ pˇr. Animal – reporter, Plane – gun Celkem jsme z´ıskali 2 989 oznaˇckovan´ ych dvojic (nˇekolik znaˇcek chybˇelo), z nichˇz bylo 1 139 (38,1 %) oznaˇceno jako typick´ y pˇr´ıklad (T ), 483 (16,2 %) jako possible coercion“ (C ) a zbyl´ ych 1 367 (45,7 %) jako chyby. ” Na z´akladˇe tohoto n´ahodnˇe vybran´eho a ruˇcnˇe oznaˇckovan´eho vzorku bychom chtˇeli navrhnout vhodn´ y filtr, kter´ y by ve v´ ysledn´em seznamu dvojic zanechal pouze ty, kter´ ym byla pˇriˇrazena znaˇcka T popˇr. T nebo C. K sestaven´ı filtru pouˇzijeme statistick´e charakteristiky dvojic. Vytvoˇr´ıme jednoduch´ y filtr, kter´ y nejprve setˇr´ıd´ı dvojice napˇr. podle atributu F3 a setˇr´ıdˇen´ y seznam uˇr´ızneme podle nastaven´eho prahu (treshold) atributu F3 . N´aslednˇe 52
seznam setˇr´ıd´ıme podle hodnot PMI 3 a opˇet uˇr´ızneme podle nastaven´e prahov´e hodnoty. Nev´ yhodou je, ˇze t´ımto zp˚ usobem roztˇr´ıd´ıme dvojice pouze na dvˇe ˇc´asti. Pˇri evaluaci mus´ıme sjednotit znaˇcku C bud’ se znaˇckou T nebo M. Oznaˇcme mnoˇzinu vˇsech dvojic, kter´ ym byla pˇri ruˇcn´ı anotaci pˇriˇrazena znaˇcka C jako mnoˇzinu AT , obdobnˇe definujme AC jako mnoˇzinu dvojic, kter´ ym byla pˇriˇrazena znaˇcka C. D´ale oznaˇcme mnoˇzinou B ty dvojice, kter´e filtr nevyˇradil. V pˇr´ıpadˇe, ˇze sjednot´ıme znaˇcku C se znaˇckou M, tak je precision P a recall R definov´an jako |AT ∩ B| |AT ∩ B| , R= . P = |B| |AT | Pokud bychom sjednostili znaˇcku C se znaˇckou T, pak bychom definovali precision a recall n´asledovnˇe: P =
|(AT ∪ AC ) ∩ B| , |B|
R=
|(AT ∪ AC ) ∩ B| . (|AT ∪ AC |)
V naˇsem experimentu jsme postupnˇe nastavili prahovou hodnotu pro F3 na 0, 1, 2, 3, 5 a pro prahovou hodnotu PMI 3 jsme postupnˇe pouˇzili vˇsechny moˇzn´e hodnoty. Pro kaˇzdou kombinaci jsme spoˇc´ıtali precision a recall a v´ ysledek jsme zakreslili do PR grafu. Experiment jsme provedli pro pˇr´ıpad, kdy sjednot´ıme C a M (viz obr´azek 5.1) i pro sjednocen´ı znaˇcek C a T (viz obr´azek 5.2) Cel´ y experiment jsme opakovali, tentokr´at s pouˇzit´ım atribut˚ u F4 a PMI 4 . V´ ysledn´e grafy se nach´azej´ı na obr´azc´ıch 5.3 a 5.4. Martin Holub navrhnul a sestavil klasifik´ator, kter´ y rozpozn´av´a vˇsechny tˇri znaˇcky s pˇresnost´ı cca 64 %. Klasifik´ator vyuˇz´ıv´a jednu z metod strojov´eho uˇcen´ı – rozhodovac´ı stromy. Je to pouze z´akladn´ı verze a je zde prostor pro dalˇs´ı vylepˇsov´an´ı. Klasifik´atoru dˇel´a probl´em rozpoznat pr´avˇe kategorii C. Pˇr´ıloze C lze nahl´ednout populaci nˇekter´ ych vybran´ ych s´emantick´ ych typ˚ u – Plane, Animal, Weapon, Emotion a Beverage. Hodnoty parametr˚ u, se kter´ ymi byl vytvoˇren v´ ysledn´ y seznam, jsou uvedeny v popisku pˇr´ısluˇsn´e tabulky.
5.5
Dalˇ s´ı v´ yvoj
C´ılem dalˇs´ıho v´ yvoje je pˇredevˇs´ım zlepˇsen´ı ˇciˇstˇen´ı seznamu dvojic. M´ame pˇrisl´ıbena dalˇs´ı ruˇcnˇe oznaˇckovan´a data, celkovˇe bychom mˇeli m´ıt 12 000 oznaˇckovan´ ych dvojic, na z´akladˇe kter´ ych bychom chtˇeli vytvoˇrit co nejlepˇs´ı filtr. V´ıceznaˇcnost v nalezen´ ych dvojic´ıch by mohlo pomoci vyˇreˇsit vyuˇzit´ı informace z´ıskan´e NE klasifik´atorem.
53
Obr´azek 5.1: PR graf pro evaluaci filtru pouˇz´ıvaj´ıc´ıho atributy F3 a PMI 3 , sjednocen´ı znaˇcek C a M
Obr´azek 5.2: PR graf pro evaluaci filtru pouˇz´ıvaj´ıc´ıho atributy F3 a PMI 3 , sjednocen´ı znaˇcek C a T
54
Obr´azek 5.3: PR graf pro evaluaci filtru pouˇz´ıvaj´ıc´ıho atributy F4 a PMI 4 , sjednocen´ı znaˇcek C a M
Obr´azek 5.4: PR graf pro evaluaci filtru pouˇz´ıvaj´ıc´ıho atributy F4 a PMI 4 , sjednocen´ı znaˇcek C a T
55
Kapitola 6
Automatick´ e rozpozn´ av´ an´ı pattern˚ u 6.1
Motivace
V souˇcasn´e verzi prohl´ıˇzeˇce konkordanc´ı slovn´ıku PDEV je moˇzn´e vˇety tˇr´ıdit podle prav´eho ˇci lev´eho kontextu nebo podle tvaru slovesa. D´ıky ˇrazen´ı podle kontextu lze oznaˇcit v´ıce konkordanc´ı jedn´ım patternem, coˇz m˚ uˇze anot´atorovi znaˇcnˇe usnadnit pr´aci. Dosud vˇsak neexistuje n´astroj – klasifik´ator, kter´ y by slovesn´e patterny umˇel pˇriˇrazovat. N´astroj by kromˇe n´ avrhu patternu tak´e uvedl m´ıru jistoty (znaˇc´ıme c podle angl. confidence), s jakou dan´ y pattern pˇriˇrazuje. To by pomohlo rozdˇelit mnoˇzinu automaticky oznaˇckovan´ ych konkordanc´ı na ty, u kter´ ych je vysok´a pravdˇepodobnost, ˇze jsou patterny pˇriˇrazeny spr´avnˇe (oznaˇcme jako mnoˇzinu H) a na ty ostatn´ı (doplnˇek mnoˇziny H budeme znaˇcit H C ). Existence takov´eho n´astroje by mˇela v´ yznam pro: 1. Ulehˇcen´ı pr´ace anot´atorovi, protoˇze automaticky oznaˇckovan´e konkordance z mnoˇziny H by staˇcilo pouze zkontrolovat a zb´ yvaj´ıc´ı (H C ) by ruˇcnˇe oznaˇckoval s´am, pˇr´ıpadnˇe by mohl uvaˇzovat i navrhovan´ y pattern(y). 2. D´ıky zvˇetˇsov´an´ı mnoˇziny oznaˇckovan´ ych konkordanc´ı bychom mˇeli v´ıce dat pro populaci s´emantick´ ych typ˚ u, coˇz by hypoteticky vedlo k dalˇs´ımu zlepˇsov´an´ı klasifik´atoru. V tomto procesu bychom pouˇz´ıvali pouze konkordance oznaˇckovan´e s vysokou m´ırou jistoty (tedy mnoˇzinu H) a proces bychom mohli iterovat. 3. Dle pˇredchoz´ıho bodu bychom mˇeli co nejlepˇs´ı n´astroj, kter´ y by mohl b´ yt pouˇz´ıv´an k automatick´emu pˇriˇrazov´an´ı pattern˚ u v libovoln´ ych vˇet´ach, coˇz m´a v´ yznam napˇr. pro strojov´ y pˇreklad. V t´eto kapitole navrhneme jednoduch´ y heuristick´ y klasifik´ator, kter´ y prim´arnˇe pˇriˇrazuje pattern podle sk´ore vypoˇc´ıtan´eho na z´akladˇe shody vˇety s jednotliv´ ymi patterny. V nerozhodn´ ych pˇr´ıpadech se pouˇzije apriorn´ı pravdˇepodobnost odhadnut´a z tr´enovac´ıch dat. 56
Souˇc´ast´ı je tak´e evaluace navrˇzen´eho klasifik´atoru a dalˇs´ı moˇznosti a n´avrhy pro jeho vylepˇsen´ı.
6.2
Data
V tuto chv´ıli je v PDEV zkompilov´ano necel´ ych 700 sloves pokr´ yvaj´ıc´ıch cca 500 000 slovesn´ ych token˚ u, z nichˇz je cca 200 000 oznaˇckovan´ ych patterny. Pˇribliˇznˇe polovinu z oznaˇckovan´ ych konkordanc´ı tvoˇr´ı mnoˇzina referenˇcn´ıch vzork˚ u, coˇz je n´ahodn´ y v´ ybˇer slovesn´ ych v´ yskyt˚ u pro kaˇzd´e zkompilovan´e sloveso o velikosti obvykle 250 v´ yskyt˚ u (viz kapitola 2.1.2). Z tohoto referenˇcn´ıho vzorku jsme odstranili vˇety se znaˇckou x a tak´e pˇr´ıliˇs dlouh´e vˇety (> 100 token˚ u). Zbyl´e vˇety jsme rozdˇelili na tr´enovac´ı a testovac´ı data v pomˇeru 2 : 1 pro kaˇzd´e sloveso. Tr´enovac´ı data jsem pouˇz´ıvali pˇri n´avrhu a ladˇen´ı klasifik´atoru, testovac´ı data byla pouˇzita pro evaluaci klasifik´atoru. Pˇri automatick´em rozpozn´av´an´ı pattern˚ u jsou pouˇzity populace s´emantick´ ych typ˚ u z´ıskan´ ych z cel´e mnoˇziny oznaˇckovan´ ych dat (cca 200 000 vˇet). Nen´ı to u ´plnˇe spr´avn´e, protoˇze k tomuto u ´ˇcelu by mˇela b´ yt pouˇzita tr´enovac´ı data. Rozhodli jsme se vˇsak pouˇz´ıt vˇsechna dostupn´a oznaˇckovan´a data, abychom z´ıskali co nejlepˇs´ı populaci s´emantick´ ych typ˚ u. V PDEV je dalˇs´ıch cca 300 000 slovesn´ ych v´ yskyt˚ u zkompilovan´ ych sloves, kter´e nejsou oznaˇckov´any. Tuto mnoˇzinu bychom mohli pouˇz´ıt pro iterativn´ı zlepˇsov´an´ı populace s´emantick´ ych typ˚ u a klasifik´atoru, kter´e bylo naznaˇcen´e v bodu 2 v kapitole 6.1. Pouˇzit´a data jsou ze dne 12. 2. 2010, kdy bylo zkompilovan´ ych 672 sloves. Pro evaluaci jsme vybrali 20 sloves, z nichˇz vˇetˇsina byla pouˇzita jiˇz pro mˇeˇren´ı mezianot´atorsk´e shody. Zbyl´a slovesa jsme vybrali dle jejich ˇcetnosti v BNC50 a preferovali jsme ta s vyˇsˇs´ım poˇctem pattern˚ u. Velk´ ym omezen´ım bylo, ˇze nˇekter´e definice pattern˚ u nejsou konzistentn´ı a je obt´ıˇzn´e je strojovˇe zpracovat (viz kapitola 3.1.1). Pro jednoduchost jsme se rozhodli s tˇemito slovesy nepracovat. Bohuˇzel jsme tak pˇriˇsli o velmi frekventovan´a slovesa, jako jsou napˇr. say a tell.
6.3
Heuristick´ y klasifik´ ator
´ Ulohou klasifik´atoru je spr´avnˇe pˇriˇradit pattern slovesn´emu tokenu v dan´em kontextu. V tr´enovac´ıch a testovac´ıch datech je znaˇckou bud’ ˇc´ıslo patternu pˇr´ıpadnˇe doplnˇen´e p´ısmenem e, nebo znaˇcka u. Doplˇ nuj´ıc´ı znaˇcka e oznaˇcuje v´ yjimku, kter´ ych je v datech omezen´e mnoˇzstv´ı (6,41 % v mnoˇzinˇe vˇsech referenˇcn´ıch vzork˚ u) a znaˇckou u jsou oznaˇceny konkordance, kter´ ym nelze pˇriˇradit ˇz´adn´ y pattern. V referenˇcn´ıch vzorc´ıch je jich celkem 2,15 %. Vzhledem k tomu, ˇze tˇechto znaˇcek nen´ı pˇr´ıliˇs mnoho a rozpozn´an´ı konkordanc´ı, kter´e by takto mˇely b´ yt oznaˇceny, by bylo pˇr´ıliˇs obt´ıˇzn´e, bude klasifik´ator pˇriˇrazovat pouze ˇc´ısla pattern˚ u. Pˇri testov´an´ı se pak nebude povaˇzovat za chybu, pokud bude spr´avnˇe urˇceno ˇc´ıslo patternu, ale origin´aln´ı znaˇcka bude m´ıt nav´ıc e.
57
Klasifik´ator m´a tento vstup: • Populace s´emantick´ ych typ˚ u – seznam dvojic (t, w), kde t je s´emantick´ y typ a w je slovo, kter´e realizuje t. Uveden´ y seznam je ve form´atu CSV vˇcetnˇe statistick´ ych charakteristik (atribut˚ u) F1 , . . . , F4 , PMI 3 a PMI 4 . Tento seznam m˚ uˇze jiˇz b´ yt proˇciˇstˇen´ y, ale nemus´ı. • Definice pattern˚ u – definice jsou ve form´atu CSV, kde jedna ˇr´adka odpov´ıd´a jednomu patternu. • Slovn´ık pro pˇrevod plur´alu na singul´ar – pokud pouˇzijeme slovn´ık pˇri sestavov´an´ı populace s´emantick´ ych typ˚ u (viz kap. 5.1.2), mus´ıme slovn´ık zapojit i v klasifik´atoru, protoˇze jinak by se mnoˇzn´e tvary slov nenalezly v seznamu dvojic. • Soubor apriorn´ıch pravdˇepodobnost´ı – pravdˇepodobnosti jsou odhadnuty na z´akladˇe tr´enovac´ıch dat. Oznaˇcme v sloveso a r ˇc´ıslo jeho patternu. Pak pravdˇepodobnost s jakou se pattern r vyskytne u slovesa v odhadneme jako p(r|v) = c(r, v)/c(v), kde c(r, v) je poˇcet v´ yskyt˚ u slovesa v v tr´enovac´ıch datech oznaˇcen´ ych patternem r a c(v) je celkov´ y poˇcet v´ yskyt˚ u slovesa v v tr´enovac´ıch datech, kter´e byly oznaˇckov´any urˇcit´ ym patternem, tedy ne znaˇckou u. • Vˇety s vyznaˇcen´ ym slovesn´ ym tokenem. Vˇety nejprve syntakticky analyzujeme pomoc´ı Stanfordsk´eho parseru a ze stanfordsk´ ych z´avislost´ı extrahujeme argumenty oznaˇcen´eho slovesa. Pouˇzit´ı NE klasifik´atoru je voliteln´e, ale v pˇr´ıpadˇe, ˇze byl pouˇzit pˇri realizaci s´emantick´ ych typ˚ u, je logick´e ho pouˇz´ıt i pˇri pˇriˇrazov´an´ı pattern˚ u. V´ ystupem klasifik´atoru je ˇc´ıslo patternu, kter´ y byl automaticky pˇriˇrazen dan´e vˇetˇe a m´ıra jistoty, s jakou byl tento pattern pˇriˇrazen. Klasifik´ator kaˇzdou vˇetu porovn´av´a se vˇsemi patterny a pro kaˇzd´ y z nich spoˇc´ıt´a sk´ore na z´akladˇe naplnˇen´ı kolokaˇcn´ıch pozic (agent, objekt, atd.). Celkov´e sk´ore patternu je souˇcet souˇcet vˇsech sk´ore jednotliv´ ych kolokaˇcn´ıch pozic. Klasifik´ator pˇriˇrad´ı ten pattern, kter´ y m´a nejvyˇsˇs´ı sk´ore. Pokud je takov´ ych pattern˚ u v´ıce, rozhodne se mezi nimi na z´akladˇe apriorn´ı pravdˇepodobnosti a vybere se ten, kter´ y se v tr´enovac´ıch datech vyskytoval nejˇcastˇeji. Definujme z´akladn´ı ohodnocovac´ı funkci ot (t, w), kter´a kaˇzd´e dvojici (t, w) pˇriˇrad´ı sk´ore podle toho, jestli slovo w m˚ uˇze realizovat t, kde t je bud’ s´emantick´ y typ nebo v´ yˇcet lexik´aln´ıch jednotek. Pokud je t s´emantick´ y typ, pak oznaˇcme pomocnou promˇennou x v´ yraz x=
V pˇr´ıpadˇe, ˇze t je zad´an v´ yˇctem lexik´aln´ıch jednotek, pak ot (t, w) = 1, pokud je slovo w obsaˇzeno v t, jinak ot (t, w) = 0. Oborem hodnot funkce ot (t, w) je h0, 1i. Jmenn´e entity maj´ı zpravidla n´ızkou frekvenci a je velk´a pravdˇepodobnost, ˇze pˇri ˇciˇstˇen´ı seznamu s´emantick´ ych typ˚ u budou odfiltrov´any. Nˇekter´a slova vˇsak mohla b´ yt rozpozn´ana NE klasifik´atorem (pokud byl pouˇzit). V tom pˇr´ıpadˇe k takov´emu slovu w pˇripojena znaˇcka NEP, NEO nebo NEL (viz kapitola 5.1.1). V pˇr´ıpadˇe, ˇze je • znaˇcka NEP a t je Human, pak ot (t, w) = 1, • znaˇcka NEO a t je Institution, pak ot (t, w) = 1, • znaˇcka NEL a t je Location, pak ot (t, w) = 1. Protoˇze v seznamu slov, kter´ a realizuj´ı jednotliv´e s´emantick´e typy jsou pouze substantiva, pˇridali jsme nav´ıc pravidla pro z´ajmena (maj´ı POS tag PRP) a pro s´emantick´e typy Human a Self. Pokud je t Human a w ∈ {I, he, she, you, we}, pak ot (t, w) = 1. Podobnˇe pokud slovo w je zakonˇceno -self nebo -selves a t je Self, pak ot (t, w) = 1. Tato funkce je implementov´ana v proceduˇre is word semtype ve scriptu rule pattern recognizer.pl. V jedn´e kolokaˇcn´ı pozici m˚ uˇze b´ yt v´ıce pˇr´ıpustn´ ych s´emantick´ ych typ˚ u ˇci v´ yˇct˚ u lexik´aln´ıch jednotek, stejnˇe tak m˚ uˇze b´ yt tato pozice obsazena v´ıce argumenty {w1 , . . . , wn }, kter´e maj´ı mezi sebou vztah koordinace ˇci apozice. V´ ypoˇcet celkov´eho sk´ore pro pozici s provedeme n´asledovnˇe: n ∑
os (s) =
max ot (tj , wi ) j
i=1
n
.
Celkov´e sk´ore patternu r z´ısk´ame jako souˇcet vˇsech sk´ore jednotliv´ ych kolokaˇcn´ıch pozic patternu r, tedy op (r) =
n ∑
os (si ) ,
i=1
kde n je poˇcet kolokaˇcn´ıch pozic (slot˚ u). Po spoˇcten´ı sk´ore vˇsech pattern˚ u vybereme ten s nejvyˇsˇs´ım ohodnocen´ım. Pokud je takov´ ych pattern˚ u v´ıce, rozhodujeme se na z´akladˇe apriorn´ı pravdˇepodobnosti p(r|v) a vybereme z tˇechto pattern˚ u ten, kter´ y byl v tr´enovac´ıch datech oznaˇckov´an nejˇcastˇeji. Urˇ cen´ı m´ıry jistoty pˇ ri v´ ybˇ eru patternu Pokud je v´ ybˇer pattern˚ u jednoznaˇcn´ y na z´akladˇe v´ ypoˇctu sk´ore, tak je m´ıra jistoty (confidence) c = 1. Pokud nastane situace, ˇze klasifik´ator vyb´ır´a pattern na z´ akladˇe apriorn´ı pravdˇepodobnosti z k kandid´at˚ u, spoˇc´ıt´ame m´ıru jistoty n´asledovnˇe: max p(ri |v) i=1,...,k c= , k ∑ p(ri |v) i=1
59
kde p(ri |v) je apriorn´ı pravdˇepodobnost patternu ri pro sloveso v. M´ıru jistoty bychom chtˇeli pouˇz´ıt pˇredevˇs´ım pro rozdˇelen´ı mnoˇziny automaticky oznaˇckovan´ ych konkordanc´ı na dvˇe disjunktn´ı podmnoˇziny. U podmnoˇziny s vysokou m´ırou jistoty (oznaˇcujeme jako H) by staˇcilo pˇri ruˇcn´ı anotaci pouze zkontrolovat, jestli jsou patterny pˇriˇrazeny spr´avnˇe. Tato podmnoˇzina by tak´e mohla b´ yt pouˇzita pro n´asledn´e iterativn´ı zlepˇsov´an´ı populace s´emantick´ ych typ˚ u, coˇz by vedlo k dalˇs´ımu zlepˇsov´an´ı klasifik´atoru.
6.4 6.4.1
Evaluace u ´ spˇ eˇ snosti pˇ riˇ razen´ı pattern˚ u Metoda evaluace
Pro experiment´aln´ı ovˇeˇren´ı u ´ˇcinnosti jsme vybrali 20 sloves. Nˇekter´a z nich byla pouˇzita jiˇz pˇri mˇeˇren´ı mezianot´atorsk´e shody. Dalˇs´ı slovesa byla vybr´ana n´ahodnˇe, preferov´ana byla slovesa s vyˇsˇs´ı ˇcetnost´ı v BNC50 a s vyˇsˇs´ım poˇctem pattern˚ u. Bohuˇzel nemohla b´ yt pouˇzita slovesa s vysok´ ym poˇctem pattern˚ u (napˇr. call – 34 nebo tell – 21), protoˇze tato slovesa (a nˇekter´a dalˇs´ı) jsme museli vylouˇcit na z´akladˇe toho, ˇze v definic´ıch pattern˚ u jsou nekonzistence, kter´e znemoˇzn ˇuj´ı strojovˇe zpracovat slovesn´e patterny. ´ eˇsnost automatick´eho pˇriˇrazov´an´ı pattern˚ Uspˇ u urˇc´ıme jako pomˇer spr´avnˇe pˇriˇrazen´ ych pattern˚ u ku velikosti testovac´ı sady (zde nem´a smysl mluvit o u ´plnosti, protoˇze klasifik´ator pˇriˇrad´ı pattern kaˇzd´emu slovesn´emu tokenu). Mnoˇzinu testovac´ıch dat pro i-t´e sloveso oznaˇcme Di , mnoˇzinu konkordanc´ı, kter´ ym byl spr´avnˇe pˇriˇrazen pattern, oznaˇcme jako Yi . Pak pˇresnost Ai (accuracy) pˇriˇrazen´ı pattern˚ u slovesa i spoˇc´ıt´ame jako Ai =
|Yi | . |Di |
Pr˚ umˇernou u ´spˇeˇsnost A¯ spoˇc´ıt´ame jako v´aˇzen´ y pr˚ umˇer pˇresnost´ı Ai : n ∑
A¯ =
|Di | · Ai
i=1
n ∑
|Di |
i=1
6.4.2
Pr˚ ubˇ eh a v´ ysledky evaluace
Jako baseline (z´akladn´ı trivi´aln´ı n´avrh) jsme pouˇzili pˇriˇrazov´an´ı pattern˚ u pouze na z´akladˇe apriorn´ıch pravdˇepodobnost´ı odhadnut´ ych z tr´enovac´ıch dat. Tedy jsme vˇzdy pˇriˇradili pattern, kter´ y se v tr´enovac´ıch datech vyskytoval nejˇcastˇeji. ´ eˇsnost pˇriˇrazen´ı spr´avn´eho patternu je uvedena ve sloupci AB v tabulce 6.1. Uspˇ Pr˚ umˇern´a u ´spˇeˇsnost t´eto metody byla 61,54 %. Klasifik´ator jsme testovali nejprve s pouˇzit´ım n´astroje na rozpozn´an´ı jmenn´ ych entit (NER), kter´ y byl pouˇzit tak´e pˇri vytv´aˇren´ı seznam˚ u s´emantick´ ych typ˚ u – tedy seznam˚ u dvojic (t, w), kde t je s´emantick´ y typ a w je slovo, kter´e ho realizuje. Tento seznam jsme pouˇzili proˇciˇstˇen´ y s prahov´ ymi hodnotami F3 ≥ 1 a PMI 3 ≥ 0, 5. 60
´ eˇsnost automatick´eho pˇriˇrazov´ Tabulka 6.1: Uspˇ an´ı pattern˚ u: N – poˇcet pattern˚ u slovesa, P – perplexita pattern˚ u slovesa, f – frekvence slovesa v BNC50, |D| – velikost testovan´eho vzorku, AB – u ´spˇeˇsnost baseline n´avrhu, A – u ´spˇeˇsnost klasifik´atoru, |Y | – poˇcet spr´avnˇe oznaˇcen´ ych vˇet, c¯ – pr˚ umˇern´ a m´ıra jistoty, |H| – poˇcet pattern˚ u pˇriˇrazen´ ych s m´ırou jistoty ≥ 0, 9, |HY | – poˇcet spr´avnˇe pˇriˇrazen´ ych pattern˚ u s velkou m´ırou jistoty , AH – AH = |HY |/|H|, A1 – u ´spˇeˇsnost experimentu 1 , A2 – u ´spˇeˇsnost experimentu 2, A3 – u ´spˇeˇsnost experimentu 3
sloveso abandon abstain address alter announce argue devote engage fire handle land need plan propose rush signal sleep treat urge visit celkem
Ve sloupci A tabulky 6.1 je uvedena u ´ˇcinnost popsan´eho klasifik´atoru (viz kap. 6.3). U vˇetˇsiny sloves se u ´spˇeˇsnost oproti baseline (sloupec AB ) zv´ yˇsila, pouze u sloves alter a argue jsou hodnoty shodn´e, u ˇz´adn´eho slovesa nenastalo zhorˇsen´ı. Pr˚ umˇern´a u ´spˇeˇsnost klasifik´atoru je 72,86 %. Ve sloupci |Y | je poˇcet spr´avnˇe pˇriˇrazen´ ych pattern˚ u v testovac´ıch datech, ve sloupci c¯ je aritmetick´ y pr˚ umˇer m´ıry konfidence, s jakou byly urˇceny jednotliv´e patterny. V dalˇs´ım sloupci (|H|) je poˇcet konkordanc´ı oznaˇcen´ ych s velkou m´ırou jistoty (zde byl nastaven pr´ah c ≥ 0, 9). Ve sloupci |HY | je poˇcet spr´avnˇe pˇriˇrazen´ ych pattern˚ u, u kter´ ych byla velk´a m´ıra jistoty pˇriˇrazen´ı. Ve sloupci AH je uvedena u ´spˇeˇsnost na podmnoˇzinˇe H mnoˇziny testovac´ıch dat. V n´asleduj´ıc´ıch sloupc´ıch A1 , A2 a A3 jsou uvedeny v´ ysledky tˇr´ı experiment˚ u: 1. NER nebyl pouˇzit ani v klasifik´atoru pro pˇriˇrazen´ı patternu, ani pˇri vytv´aˇren´ı populace s´emantick´ ych typ˚ u. 2. NER jsme pouˇzili pouze pˇri vytv´aˇren´ı populace s´emantick´ ych typ˚ u, v klasifik´atoru pro pˇriˇrazen´ı patternu pouˇzit nebyl. 3. M´ısto proˇciˇstˇen´eho seznamu dvojic (t, w) jsme pouˇzili u ´pln´ y seznam tˇechto dvojic. Zkoumali jsme tak´e, zda u ´spˇeˇsnost klasifik´atoru nˇejak´ ym zp˚ usobem souvis´ı s perplexitou pattern˚ u slovesa, s poˇctem pattern˚ u ˇci s mezianot´atorskou shodou. Nejv´ yznamnˇejˇs´ı z´avislost se uk´azala mezi u ´spˇeˇsnost´ı klasifik´atoru a perplexitou pattern˚ u. Vyˇsˇs´ı u ´spˇeˇsnost je u sloves, u kter´ ych je perplexita pattern˚ u niˇzˇs´ı. Korelace je zn´azornˇena na obr´azku 6.1 a.
Obr´azek 6.1: korelace u ´spˇeˇsnosti (accuracy) automatick´eho pˇriˇrazen´ı patternu slovesn´emu tokenu a a) perplexity b) pomˇeru perplexity ku poˇctu pattern˚ u (P/N )
Perplexitu jsme spoˇc´ıtali na z´akladˇe cel´eho referenˇcn´ıho vzorku, tedy sjednocen´ı tr´enovac´ıch i testovac´ıch dat. Maxim´aln´ı hodnota perplexity slovesa m˚ uˇze b´ yt rovna poˇctu jeho pattern˚ u. To nast´av´a pr´avˇe tehdy, kdyˇz patterny maj´ı rovnomˇern´e rozdˇelen´ı v datech. Pomˇer perplexity slovesa ku poˇctu jeho pattern˚ u (oznaˇcme d = P/N ) je hodnota z intervalu (0, 1i. Tato hodnota by teoreticky 62
mohla pro kaˇzd´e sloveso ud´avat obt´ıˇznost pˇriˇrazov´an´ı pattern˚ u. Pak by se dalo oˇcek´avat, ˇze u ´spˇeˇsnost klasifik´atoru bude menˇs´ı na obt´ıˇznˇejˇs´ıch“ slovesech. Ko” relace u ´spˇeˇsnosti a hodnoty d (obr. 6.1 b) je vˇsak slabˇs´ı (Pearson˚ uv korelaˇcn´ı koeficient k = −0.27) neˇz korelace u ´spˇeˇsnosti a perplexity (k = −0.82).
6.5
Dalˇ s´ı v´ yvoj
Problematika automatick´eho rozpozn´av´an´ı pattern˚ u nab´ız´ı mnoh´a vylepˇsen´ı. Navrˇzen´ y pravidlov´ y klasifik´ator by mohl b´ yt vylepˇsen v mnoha smˇerech. • efektivnˇejˇs´ı vyuˇzit´ı pomocn´ ych n´astroj˚ u (parsing, NER) • populace s´emantick´ ych typ˚ u • lepˇs´ı vyuˇzit´ı dostupn´ ych informac´ı • vylepˇsen´ı samotn´eho klasifik´atoru Efektivnˇ ejˇ s´ı vyuˇ zit´ı pomocn´ ych n´ astroj˚ u Pˇred samotnou u ´lohou pˇriˇrazov´an´ı pattern˚ u bylo tˇreba data syntakticky zanalyzovat a n´aslednˇe zpracovat v´ ystup pouˇzit´eho parseru. Nab´ız´ı se zde moˇznost pouˇzit´ı u ´spˇeˇsnˇejˇs´ıho parseru nebo vylepˇsen´ı n´asledn´eho postprocesingu (viz kapitola 4.4). Dalˇs´ı oblast´ı moˇzn´eho zlepˇsen´ı je pouˇzit´ı lepˇs´ıho slovn´ıku popˇr. lemmatiz´eru, jak jiˇz bylo zm´ınˇeno v kapitole 5.1.2. Pouˇzit´ı NE klasifik´atoru s modelem pro rozpozn´av´an´ı v´ıce typ˚ u jmenn´ ych entit by mohlo pomoci automaticky rozpoznat v´ıce s´emantick´ ych typ˚ u. Populace s´ emantick´ ych typ˚ u Pˇri evaluaci byl pouˇzit´ y seznam s´emantick´ ych typ˚ u proˇciˇstˇen´ y s prahovou hodnotou promˇenn´e F3 ≥ 1 a PMI 3 ≥ 0, 5. Pˇri dokonalejˇs´ım ˇciˇstˇen´ı seznam˚ u s´emantick´ ych typ˚ u nebo pˇri lepˇs´ım propojen´ı lexik´aln´ıch jednotek se s´emantick´ ymi typy, kter´e realizuj´ı, by se dalo dos´ahnout vˇetˇs´ı u ´spˇeˇsnosti. Lepˇ s´ı vyuˇ zit´ı dostupn´ ych informac´ı Z definice patternu nejsou vyuˇz´ıv´any vˇsechny dostupn´e informace. Napˇr. by mohlo b´ yt uˇziteˇcn´e pracovat s formou slovesa uvedenou v definici patternu, protoˇze nˇekter´e patterny vyˇzaduj´ı sloveso v pasivn´ı formˇe, ˇc´ımˇz by se vylouˇcila moˇznost pˇriˇradit tento pattern pro aktivn´ı vˇety. Tato informace nebyla v souˇcasn´e verzi vyuˇzita, protoˇze k´odov´an´ı v patternech nebylo konzistentn´ı. Vˇeˇr´ıme, ˇze vznik podrobn´e dokumentace k vytv´aˇren´ı a k´odovan´ı pattern˚ u (viz kap. 3.4) bude m´ıt za d˚ usledek konzistentn´ı z´apis pattern˚ u. Souˇcasnˇe se m´a zmˇenit tak´e XML struktura, ke kter´e rovnˇeˇz vznikne podrobn´a dokumentace. D´ıky tomu by se dalo snadnˇeji vyuˇz´ıt v´ıce informac´ı zak´odovan´ ych v patternu.
63
Vylepˇ sen´ı samotn´ eho klasifik´ atoru Vylepˇsit lze i samotn´ y klasifik´ator. Souˇcasn´a verze pˇriˇrazuje pr´avˇe jeden pattern, kter´ y m´a nejvyˇsˇs´ı sk´ore. M˚ uˇze se vˇsak st´at, ˇze jin´ y pattern bude m´ıt skoro stejnˇe vysok´e sk´ore. Pak by mˇel klasifik´ator navrhnout oba patterny resp. normalizovan´ y vektor q1 , , . . . , qn , kde n je poˇcet pattern˚ u slovesa a hodnoty qi jsou sk´ore pro patterny slovesa. Pˇri v´ ybˇeru patternu nejsou uvaˇzov´any vˇsechny informace, kter´e jsou k dispozici. Napˇr. se zat´ım v˚ ubec nepracuje se s´emantick´ ymi rolemi nebo s mnoˇzinou lexik´aln´ıch jednotek, pokud je z´aroveˇ n uveden s´emantick´ y typ. V t´eto verzi se nepracuje ani s hierarchi´ı s´emantick´ ych typ˚ u, coˇz by rovnˇeˇz mohlo zv´ yˇsit celkovou u ´spˇeˇsnost. Apriorn´ı pravdˇepodobnost by se mˇela vyuˇz´ıt vˇzdy a nejen pouze pˇri rozhodov´an´ı se mezi patterny se shodn´ ym sk´ore. Klasifik´ator by tak´e mohl vyuˇz´ıvat metody strojov´eho uˇcen´ı. Souˇcasn´ y klasifik´ator by mohl b´ yt pouˇzit k automatick´emu pˇriˇrazen´ı pattern˚ u dosud neoznaˇckovan´ ym konkordanc´ım zkompilovan´ ych sloves, kter´ ych je cca 300 000. Po nastaven´ı vhodn´e prahov´e hodnoty pro m´ıru jistoty odhadnut´e na z´akladˇe testovac´ıch dat bychom oddˇelili ty konkordance, kde je m´ıra jistoty vyˇsˇs´ı neˇz prahov´a hodnota a z tˇechto vˇet bychom z´ıskali dalˇs´ı slova realizuj´ıc´ı s´emantick´e typy (viz kapitola 5), coˇz by vedlo k vylepˇsen´ı populace s´emantick´ ych typ˚ u. D´ıky zlepˇsen´ı populace s´emantick´ ych typ˚ u bychom dos´ahli n´asledn´eho vylepˇsen´ı klasifik´atoru. Po nˇekolika opakov´an´ıch tohoto procesu by se u ´spˇeˇsnost klasifik´atoru ust´alila.
6.6
Shrnut´ı
V t´eto kapitole jsme navrhli a otestovali n´astroj pro automatick´e pˇriˇrazov´an´ı ´ eˇsnost tohoto n´astroje – klasifik´atoru je 72,86 %. Na jeho vypattern˚ u. Uspˇ lepˇsen´ı se bude d´ale pracovat. Klasifik´ator by mˇel nejen pˇrispˇet k rozˇsiˇrov´an´ı mnoˇziny oznaˇckovan´ ych konkordanc´ı, ale d´ıky nˇemu je moˇzn´e pˇriˇradit pattern slovesu v jak´ekoliv anglick´e vˇetˇe, coˇz m˚ uˇze b´ yt uˇziteˇcn´e zejm´ena ve strojov´em pˇrekladu [17].
64
Kapitola 7
Z´ avˇ er V pˇredloˇzen´e pr´aci jsme se zab´ yvali projektem PDEV a jeho moˇzn´em vyuˇzit´ı v NLP aplikac´ıch. Projekt jsme popsali po myˇslenkov´e i technick´e str´ance a srovnali ho s podobn´ ymi existuj´ıc´ımi projekty pro angliˇctinu i pro ˇceˇstinu (viz kapitola 2). D´ale jsme popsali souˇcasn´ y stav projektu, vˇcetnˇe v´ ysledk˚ u experimentu mˇeˇren´ı mezianot´atorsk´e shody (kapitola 3.3), jej´ıˇz dobr´ y v´ ysledek je jedn´ım z hlavn´ıch ukazatel˚ u moˇznosti automatick´eho vyuˇzit´ı PDEV v NLP aplikac´ıch. Podrobnˇeji jsme se zamˇeˇrili na automatickou syntaktickou anl´ yzu angliˇctiny a provedli jsme experiment´aln´ı ovˇeˇren´ı u ´ˇcinnosti pouˇzit´eho Stanfordsk´eho parseru vˇcetnˇe srovn´an´ı s dalˇs´ımi parsery a metodami (viz kapitola 4). V kapitole 5 jsme se zab´ yvali vytvoˇren´ım seznam˚ u lexik´aln´ıch jednotek realizuj´ıc´ıch jednotliv´e s´emantick´e typy na z´akladˇe dostupn´ ych oznaˇckovan´ ych konkordanc´ı. V´ ysledn´e proˇciˇstˇen´e seznamy byly pouˇzity v kapitole 6 pˇri n´avrhu klasifik´atoru pro pˇriˇrazen´ı patternu. V t´eto kapitole je rovnˇeˇz uvedeno experiment´aln´ı ovˇeˇren´ı u ´spˇeˇsnosti navrˇzen´eho klasifik´atoru. Klasifik´ator by mˇel pˇrispˇet k rozˇs´ıˇren´ı mnoˇziny oznaˇckovan´ ych konkordanc´ı. M˚ uˇzeme ˇr´ıci, ˇze tato pr´ace v nˇejak´e m´ıˇre splˇ nuje vˇsechny body zad´an´ı. Podrobnˇeji je zpracov´ana kapitola 4, mnohem v´ıce vˇsak mohly b´ yt propracov´any kapitoly 5 a 6. V tˇechto kapitol´ach je alespoˇ n naznaˇcen smˇer dalˇs´ıho moˇzn´eho v´ yvoje. Nˇekter´e v´ ysledky resp. ˇc´asti t´eto pr´ace byly vyuˇzity pro pˇr´ıpravu publikac´ı: [31] (publikov´ano jako kapitola v knize), [16] (pˇrijato k publikaci ve sborn´ıku konference TSD 2010) a [30] (zasl´ano jako pˇr´ıspˇevek do konference EMNLP 2010). Vˇeˇr´ıme, ˇze pr´ace bude m´ıt pˇr´ınos pro dalˇs´ı v´ yvoj projektu PDEV a tak´e bude uˇziteˇcnou zpˇetnou vazbou pro autora PDEV. Bˇehem ˇreˇsen´ı pr´ace jsme se pot´ ykali s nˇekolika probl´emy jako je napˇr. chybˇej´ıc´ı dokumentace k definic´ım pattern˚ u a nekonzistence jejich k´odov´an´ı. D´ıky tˇemto pozorov´an´ım jsme mohli d´at podmˇet k jejich vylepˇsen´ı ˇci odstranˇen´ı.
65
Dodatek A
Seznam pouˇ zit´ ych zkratek BNC – British National Corpus CPA – Corpus Pattern Analysis FGD – Funkˇcn´ı generativn´ı popis PDEV – Pattern Dictionary of English Verbs PEDT – Prague English Dependency Treebank PDT – Prague Dependency Treebank PTB – Penn Treebank WSJ – Wall Street Journal
66
Dodatek B
Definice pattern˚ u Popis pol´ı v CSV form´atu, oddˇelovaˇcem je stˇredn´ık: 1. indik´ ator, zda je pattern dobˇre definov´ an – pomocn´a poloˇzka; pokud je zde 1, je pattern v poˇr´adku a m˚ uˇze b´ yt strojovˇe zpracov´an; v opaˇcn´em pˇr´ıpadˇe je zde 0 2. poˇcet slot˚ u pro s´emantick´e typy – pomocn´a poloˇzka obsahuj´ıc´ı poˇcet pozic, kter´e mohou b´ yt obsazeny s´emantick´ ym typem, tedy kolik dvojic (typ, slovo) lze v ide´aln´ım pˇr´ıpadˇe z vˇety z´ıskat 3. slovesn´e lemma – z´akladn´ı forma slovesa, podle kter´e lze vyhled´avat v Entry Manageru (sloupec Entry) 4. poˇcet pattern˚ u slovesa 5. slovesn´ a forma – vˇetˇsinou je stejn´a jako lemma, ale m˚ uˇze b´ yt zde pasivum ˇci negace 6. ˇc´ıslo patternu 7. agent – m´a tuto strukturu: S´ emantick´ y typ[S´ emantick´ a role]:mnoˇ zina lexik´ aln´ ıch jednotek Prvky v mnoˇzinˇe lexik´aln´ıch jednotek jsou od sebe oddˇeleny ˇc´arkami stejnˇe jako jednotliv´e s´emantick´e role. Cel´a struktura se m˚ uˇze v tomto poli nˇekolikr´at opakovat, oddˇelovaˇcem je zde znak |. 8. objekt – stejnˇe jako agent 9. nepˇr´ım´y objekt – stejnˇe jako agent a objekt 10. komplement 11. objektov´e klauze – pˇr´ıpustn´e klauze jsou oznaˇceny zkratkou, napˇr. that pro that-clause, to pro konstrukci to+inf 12. klauze – stejn´e jako objektov´e klauze 13. pˇr´ısloveˇcn´ a urˇcen´ı (adverbial) – pokud se jedn´a o pˇredloˇzkovou fr´azi, je nejprve definov´ana mnoˇzina pˇredloˇzek (oznaˇceno jako hw“) a pˇredloˇz” kov´ y objekt je definov´an stejnˇe jako agent
67
<pattern id="3" num="2"> devote <subject> <argspec none="" headword="" type=""> <subspec> <argspec headword=""> <subspec> <argspec> <subspec> <primary_implicature idiom="" phrasal=""> [[{Human = Author} | {Institution = Newspaper | Journal} | Document]] gives priority to discussion or elaboration of [[Anything = Topic]] in [[Document Part | Document]] NOT YET IN. 12 January 2010. <domain/> <exploitation/>
Obr´azek B.1: Definice patternu ˇc. 2 slovesa devote v XML souboru 68
Obr´azek B.3: Definice pattern˚ u vybran´ ych sloves v CSV souboru
70
Dodatek C
Populace s´ emantick´ ych typ˚ u noun aircraft plane helicopter P-40 aeroplane caravan van vehicle Hurricanes Sugar glider jet night number prototype spacecraft
Tabulka C.1: Populace s´emantick´eho typu Plane; prahov´e hodnoty: F3 ≥ 2, PMI 3 ≥ 0, 5, PMI 4 ≥ 0
71
noun animal dog cat bird horse fish predator cattle owner bull male blood condition sheep species beetle mouse prey owl monkey type plant rat shark train thought chick North Sea bear beast camel goat gull lizard oxen while
Tabulka C.5: Populace s´emantick´eho typu Beverage; prahov´e hodnoty: F3 ≥ 2, PMI 3 ≥ 0, 5, PMI 4 ≥ 0
75
Dodatek D
Obsah pˇ riloˇ zen´ eho CD Data – data Dokumentace – popis dat a program˚ u Scripts – pouˇzit´e programy Text – text diplomov´e pr´ace v PDF
76
Dodatek E
Popis program˚ u na CD Tento dodatek obsahuje struˇcn´ y popis program˚ u pˇripojen´ ych na CD, kde lze nal´ezt tak´e podrobnˇejˇs´ı dokumentaci. Zde je pops´ana pouze n´apovˇeda k uˇzivatelsk´ ym n´astroj˚ um.
Uˇ zivatelsk´ e n´ astroje view semtypes lists.sh – program pro filtrov´an´ı, tˇr´ıdˇen´ı a prohl´ıˇzen´ı dvojic (s´emantick´ y typ, slovo) vˇcetnˇe jejich statistick´ ych charakteristik Popis parametr˚ u: -h | -help . . . vystiskne n´apovˇedu -file . . . filename je vstupn´ı soubor ve form´atu CSV obsahuj´ıc´ı sloupce slovo, s´emantick´y typ, F1 , F2 , F3 , PMI 3 , F4 a PMI 4 , m˚ uˇze b´ yt i zkomprimovan´ y pomoc´ı gzip (-f1 | -f2 | -f3 | -f4) . . . nastav´ı doln´ı prahovou hodnotu pro atributy F1 , . . . , F4 (-pmi3 | -pmi4) . . . nastav´ı doln´ı prahovou hodnotu pro atributy PMI 3 a PMI 4 (-uf1 | -uf2 | -uf3 | -uf4) . . . nastav´ı horn´ı prahovou hodnotu pro atributy F1 , . . . , F4 (-upmi3 | -upmi4) . . . nastav´ı horn´ı prahovou hodnotu pro atributy PMI 3 a PMI 4 -sort ... . . . nastav´ı, podle jak´ ych sloupc˚ u se m´a tˇr´ıdit – v´ ystup bude prim´arnˇe setˇr´ıdˇen podle column1, pak podle column2, . . . a nakonec podle columnN. Pˇr´ıpustn´e hodnoty sloupc˚ u jsou: noun, semtype, f1, f2, f3, pmi3, f4, pmi4. Pˇr´ıklad pouˇzit´ı: view_semtypes_lists.sh -file semtypes_lists.txt -f3 10 -pmi3 1.5 -sort semtype f3 pmi3 Zobraz´ı pouze ˇr´adky, kde F3 je vˇetˇs´ı nebo rovno 10 a PMI 3 je vˇetˇs´ı nebo rovno 1,5. V´ ystup bude setˇr´ıdˇen podle s´emantick´eho typu, pak podle hodnoty F3 a nakonec podle hodnoty PMI 3 . 77
view orig sentences.sh – program na dohled´an´ı p˚ uvodn´ıch vˇet, kde se vyskytlo slovo s dan´ ym s´emantick´ ym typem. Souˇcasnˇe se ke kaˇzd´e vˇetˇe zobraz´ı i sloveso, ˇc´ıslo patternu a funkce argumentu. Popis parametr˚ u: . . . nastav´ı ˇs´ıˇrku obrazovky <s´ emantick´ y typ> . . . hledan´ y s´emantick´ y typ <slovo> . . . hledan´e slovo Pˇr´ıklad pouˇzit´ı: view_orig_sentences.sh $COLUMNS Plane aircraft Nalezne konkordance ve kter´ ych se vyskytlo slovo aitcraft a v patternu byl na stejn´e pozici s´emantick´ y typ Plane. $COLUMNS je promˇenn´a prostˇred´ı obsahuj´ıc´ı poˇcet sloupc˚ u termin´alu
Konverze definic pattern˚ u convert xml into csv.pl – program pro konverzi XML souboru s definicemi pattern˚ u na form´at CSV Patterns.pm – modul obsahuj´ıc´ı procedury pro pr´aci s definicemi pattern˚ uv CSV form´atu
Mezianot´ atorsk´ a shoda iaa.pl – program pro v´ ypoˇcet mezianot´atorsk´e shody ych dat z BNC prepare annot data bnc.pl – program pro pˇr´ıpravu oznaˇckovan´ k mˇeˇren´ı mezianot´atorsk´e shody prepare annot data bnc hanks.pl – program pro zpracov´an´ı dat v BNC oznaˇckovan´ ych Patrickem Hanksem prepare annot data pedt.pl – pˇr´ıprava dat pro mˇeˇren´ı mezianot´atorsk´e shody na oznaˇckovan´ ych datech v PEDT
Automatick´ a extrakce slovesn´ ych argument˚ u a evaluace dep tree to dot lang.pl – pˇrevod stanfordsk´ ych z´avislost´ı do zdrojov´eho k´odu pro program Graphviz Graphviz.pm – modul pro generov´an´ı zdrojov´eho k´odu pro Graphviz get phrase tree.btred – btred script, kter´ y vyp´ıˇse sloˇzkov´e stromy z PEDT get sentences.btred – btred script, kter´ y vyp´ıˇse tokenizovan´e vˇety z PEDT get verb arguments.btred – btred script, kter´ y nalezne slovesn´e argumenty v PEDT 78
check and split parsing.pl – program pro technick´e zpracov´an´ı v´ ystupu Stanfordsk´eho parseru, rozdˇel´ı v´ ystup na sloˇzkov´e stromy a stanfordsk´e z´avislosti find and map verb args.pl – program pro zpracov´an´ı stanfordsk´ ych z´avislost´ı a naleznut´ı argument˚ u oznaˇckovan´eho slovesa STDR.pm – modul pro zpracov´an´ı stanfordsk´ ych z´avislost´ı Penn trees.pm – modul pro zpracov´an´ı PTB strom˚ u NER.pm – modul pro zpracov´an´ı v´ ystupu z klasifik´atoru jmenn´ ych entit eval pretty print.pl – program pro pˇr´ıpravu evaluace eval parsing.pl – program pro samotnou evaluaci run evaluation.sh – script pro spuˇstˇen´ı evaluace
Populace s´ emantick´ ych typ˚ u get instances for semtypes.pl – program pro propojen´ı slovesn´eho argumentu se s´emantick´ ymi typy nach´azej´ıc´ımi se na stejn´e kolokaˇcn´ı pozici make lists.sh – vytvoˇr´ı populace s´emantick´ ych typ˚ u make lists for semtypes.pl – program pro poˇc´ıt´an´ı statistick´ ych charakteristik pouˇzit´ ych pˇri vytv´aˇren´ı populace s´emantick´ ych typ˚ u y program, kter´ y posˇc´ıt´a hodnoty shodn´ ych dvojic count doubles.pl – pomocn´ create dictionary.pl – program pro vytvoˇren´ı jednoduch´eho slovn´ıku entropy.pl – program pro v´ ypoˇcet entropie a vz´ajemn´e informace
Automatick´ e pˇ riˇ razov´ an´ı pattern˚ u get apriori stats.pl – program ze vstupn´ıch dat zjist´ı rozloˇzen´ı pattern˚ u jednotliv´ ych sloves u a n´aslednou evarule pattern recognizer.pl – program pro pˇriˇrazen´ı pattern˚ luaci
Nezaˇ razen´ e Common.pm – pomocn´e funkce, kter´e jsou vyuˇz´ıv´any v dalˇs´ıch scriptech process data.pl – zpracov´an´ı konkordanc´ı, vstupem m˚ uˇze b´ yt bud’ referenˇcn´ı vzorek nebo cel´a mnoˇzina oznaˇckovan´ ych konkordanc´ı, podle vstupn´ıch parametr˚ u se bud’ vˇety rozdˇel´ı do soubor˚ u podle sloves nebo se spoˇc´ıtaj´ı statistick´e charakteristiky referenˇcn´ıho vzorku
79
Literatura [1] Webov´e str´anky projektu CPA http://nlp.fi.muni.cz/projekty/cpa/ [2] Patrick Hanks, James Pustejovsky: A Pattern Dictionary for Natural Language Processing, In Revue Francaise de linguistique appliqu´ee, 2005. [3] Patrick Hanks, Karel Pala, Pavel Rychl´ y: Towards an empirically wellfounded semantic ontology for NLP In Proceedings of the 4th International Workshop on Generative Approaches to the Lexicon, Paris, 2007. [4] Agirre, E. and Edmonds, P. (eds.): Word Sense Disambiguation: Algorithms and Applications. Springer, 2007. (vybran´e kapitoly) [5] Patrick Hanks: Lexical Analysis: Norms and Exploitations. Pˇripravov´ano. MIT Press. [6] John Sinclair: The lexical item. In: Hanks, P. (ed.), Lexicology: Critical Concepts in Linguistics. 6 volumes. Routledge. Prvnˇe publikov´ano v Weigand, E. (ed.) Contrastive Lexical Semantics Amsterdam: John Benjamins, pp. 1–24. (1998, 2008). ˇ [7] Zdenˇek Zabokrtsk´ y: Valency Lexicon of Czech Verbs, MFF UK, 2005. [8] Dana Hlav´aˇckov´a: Datab´ aze slovesn´ych valenˇcn´ıch r´ amc˚ u VerbaLex, dizertaˇcn´ı pr´ace FF MUNI, Brno, 2007. [9] Webov´e str´anky projektu FrameNet http://framenet.icsi.berkeley.edu/ [10] Webov´e str´anky projektu PropBank http://verbs.colorado.edu/~ mpalmer/projects/ace.html [11] Webov´e str´anky projektu VerbNet http://verbs.colorado.edu/~ mpalmer/projects/verbnet.html ˇ [12] Mark´eta Lopatkov´a, Zdenˇek Zabokrtsk´ y, V´aclava Kettnerov´a a kol.: Valenˇcn´ı slovn´ık ˇcesk´ych sloves, Univerzita Karlova v Praze, Nakladatelstv´ı Karolinum, Praha, 2008. [13] Webov´e str´anky projektu VALLEX http://ufal.mff.cuni.cz/vallex/ 80
[14] Webov´e str´anky Centra zpracov´an´ı pˇrirozen´eho jazyka http://nlp.fi.muni.cz/ [15] Webov´e str´anky projektu Trang http://www.thaiopensource.com/relaxng/trang.html [16] Silvie Cinkov´a, Martin Holub, Pavel Rychl´ y, Lenka Smejkalov´a, Jana ˇ Sindlerov´a: Can Corpus Pattern Analysis Be Used in NLP?, v tisku TSD 2010, Brno, 2010. [17] Jan Popelka: O klasifikaci anglick´ych sloves dle PDEV a ˇcesk´e pˇrekladov´e ekvivalenci, semin´arn´ı pr´ace MFF UK, Praha, 2010. [18] Webov´e str´anky projektu Sketch Engine http://www.sketchengine.co.uk/ [19] Marie-Catherine de Marneffe, Bill MacCartney, Christopher D. Manning: Generating Typed Dependency Parses from Phrase Structure Parses, LREC 2006. [20] Marie-Catherine de Marneffe, Christopher D. Manning: The Stanford typed dependencies representation, In COLING 2008 Workshop on Crossframework and Cross-domain Parser Evaluation. 2008. [21] Marie-Catherine de Marneffe, Christopher D. Manning: The Stanford typed dependencies manual http://nlp.stanford.edu/software/dependencies manual.pdf [22] Webov´a str´anka FAQ Stanfordsk´eho parseru http://nlp.stanford.edu/software/parser-faq.shtml [23] Webov´a str´anka software Graphviz http://www.graphviz.org/ [24] Webov´e str´anky Charniak-Johnosonova parseru ftp://ftp.cs.brown.edu/pub/nlparser/ [25] Webov´e str´anky McDonaldova parseru http://sourceforge.net/projects/mstparser/ [26] Definice CoNLL form´atu: http://nextens.uvt.nl/depparse-wiki/DataFormat [27] Webov´e str´anky projektu TectoMT http://ufal.mff.cuni.cz/tectomt/ [28] Webov´e str´anky projektu Morˇce http://ufal.mff.cuni.cz/morce/ [29] Adwait Ratnaparkhi. A Maximum Entropy Part-Of-Speech Tagger. In Proceedings of the Empirical Methods in Natural Language Processing Conference, May 17-18, 1996. University of Pennsylvania. 81
[30] Martin Holub, Lenka Smejkalov´a, Pavel Rychl´ y, Silvie Cinkov´a: Evaluation of Verb Arguments Extraction Using Automatic Parsing, zasl´ano na konferenci EMNLP 2010. [31] Silvie Cinkov´a, Martin Holub, Lenka Smejkalov´a: The Lexical Population of Semantic Types in Hanks’s PDEV, A Way with Words: Recent Advances in Lexical Theory and Analysis. A Festschrift for Patrick Hanks, Kampala, 2010. [32] Webov´e str´anky projektu Stanford NE Recognizer http://nlp.stanford.edu/software/CRF-NER.shtml [33] Damian Conway: An Algorithmic Approach to English Pluralization, webov´a str´anka http://www.csse.monash.edu.au/~ damian/papers/HTML/Plurals.html