magyar nyelvű szövegekben

Szeged, 2014. január 16–17.

99

Bizonytalans´ agot jel¨ ol˝ o kifejez´ esek azonos´ıt´ asa magyar nyelv˝ u sz¨ ovegekben Vincze Veronika1,2 1

Szegedi Tudom´ anyegyetem, TTIK, Informatikai Tanszékcsoport, ´ ad tér 2. Szeged Arp´ 2 Magyar Tudom´ anyos Akadémia, Mesterséges Intelligencia Kutat´ ocsoport, Szeged, Tisza Lajos k¨ or´ ut 103., e-mail: [email protected]

Kivonat A bizonytalans´ agot jel¨ ol˝ o kifejezések automatikus azonos´ıt´ asa napjaink egyik intenz´ıven vizsg´ alt ter¨ ulete a sz´ am´ıt´ ogépes nyelvészeti kutat´ asokban. Ebben a cikkben bemutatjuk magyar nyelv˝ u annot´ alt korpuszunkat, melyben kézzel bejel¨ olt¨ uk a nyelvi bizonytalans´ ag k¨ ul¨ onféle fajt´ ait jelz˝ o nyelvi elemeket. A korpusz arra is lehet˝ oséget k´ın´ al, hogy besz´ amoljunk az els˝ o, magyar nyelv˝ u bizonytalans´ agazonos´ıt´ o gépi tanul´ o rendszer eredményeir˝ ol. Kulcsszavak: inform´ aci´ okinyerés, szemantika, korpusz

1.

Bevezet´ es

A bizonytalanságot jel¨ ol˝o kifejezések automatikus azonos´ıt´ asa napjaink szám´ıtógépes nyelvészeti kutatásának egyik fontos problémaköre [1]. A feladat fontossága abban rejlik, hogy a k¨ ulönféle sz´ am´ıt´ ogépes nyelvészeti alkalmaz´ asokban lényegi szerep jut a tényszer˝ u és a bizonytalan, illetve tagadott inform´ aci´ o megk¨ ulönb¨ oztetésének, hiszen például informáci´ okinyerés és szemantikus keresés esetében a felhasználónak többnyire tényszer˝ u informáci´ ora van sz¨ uksége, ´ıgy alkalmaz´ ast´ ol f¨ ugg˝oen a rendszer vagy kisz˝ uri a bizonytalan / tagadott sz¨ ovegrészeket, vagy pedig a tényekt˝ol elk¨ ulön´ıtve adja ˝ oket vissza a felhasznál´ onak. A problém´ ara eddig els˝ odlegesen angol nyelv˝ u szövegeken ny´ ujtottak megold´ asokat [1,2]. Ebben a cikkben bemutatjuk kézzel annot´ alt, magyar nyelv˝ u bizonytalansági korpuszunkat, és beszámolunk az els˝ o eredményekr˝ ol a nyelvi bizonytalans´ agot ol magyar nyelv˝ u sz¨ ovegekben. jel¨ ol˝o elemek automatikus felismerésér˝

2.

A bizonytalans´ ag t´ıpusai

A nyelvi bizonytalanságot hagyományosan a mondat szemantikáj´ ahoz szokták kötni, azonban vannak olyan bizonytalanságot jelz˝ o nyelvi elemek is, melyek ezzel szemben a mondat (közlés) kontextusában – diskurzusbeli tényez˝oknek

100

X. Magyar Számítógépes Nyelvészeti Konferencia

kösz¨ onhet˝ oen – v´ alnak t¨ obbértelm˝ uvé. Péld´ aul a Lehet, hogy esik az es˝ o mondat alapj´ an nem tudjuk eldönteni, hogy esik-e az es˝o (szemantikai bizonytalans´ ag), viszont a Sz´ amos kutat´ o szerint az MSZNY a legjobb magyar konferencia mondatból az nem der¨ ul ki, hogy pontosan kinek (illetve hány kutatónak) a véleményér˝ ol esik szó, ´ıgy a k¨ ozlés forr´ asa marad bizonytalan (diskurzusszint˝ u bizonytalans´ ag). Ebben a cikkben k¨ ovetj¨ uk a [2], illetve [3] cikkekben felvázolt osztályozást a bizonytalanság k¨ ul¨ onböz˝ o fajt´ aira nézve, illetve a magyar nyelvre alkalmazzuk azt, annot´ aci´ os elveinket a fentiek alapján kialak´ıtva. A szemantikai bizonytalans´ agnak több oszt´ alya is létezik. Egy propoz´ıci´ o episztemikusan bizonytalannak sz´ am´ıt, ha a világtud´ asunk alapj´ an nem tudjuk eldönteni ebben a pillanatban, hogy igaz-e vagy hamis. Ugyanez igaz a hipotetikus bizonytalanságra is, ide sorolhat´ ok a feltételes mondatok, illetve a vizsg´ alati bizonytalans´ ag – utóbbi k¨ ul¨ onösen tudományos cikkekben gyakori, hiszen a kutatási kérdést gyakran a vizsg´ alati bizonytalanság nyelvi eszközeivel fogalmazz´ ak meg a szerz˝ ok. A modalitás nem episztemikus t´ıpusai (például doxasztikus bizonytalanság, mely a hiedelmekkel f¨ ugg ¨ ossze, illetve a dinamikus modalitás k¨ ulönböz˝o fajtái, melyek t¨ obbek köz¨ ott a sz¨ ukségszer˝ uséghez kapcsol´ odnak) szintén ebbe a nagyob csoportba sorolhat´ ok. A diskurzusszint˝ u bizonytalanságnak h´ arom oszt´ aly´ at k¨ ul¨ onböztethetj¨ uk meg [3]. El˝osz¨ or, a weasel kifejezésekhez nem tudunk egyértelm˝ uen forr´ ast rendelni (azaz nem tudjuk, kihez k¨ othet˝ o az adott informáci´ o), m´ as esetben pedig hiányzik a közlésb˝ol egy fontos és relev´ ans informáci´ orészlet, amely azonban az adott helyzetben sz¨ ukséges lenne. Másodszor, a hedge szavak hom´ alyossá teszik bizonyos mennyiségek vagy min˝oségek pontos jelentését. Harmadszor, a peacock kifejezések bizony´ıtatlan (vagy bizony´ıthatatlan) értékeléseket, min˝os´ıtéseket vagy t´ ulzásokat fejeznek ki. A bizonytalanságot jelz˝ o kulcsszavakra itt mutatunk néh´ any péld´ at: Episztemikus: Lehet, hogy esik. Dinamikus: Mennem kell. Doxasztikus: Azt hiszi, hogy a Föld lapos. ´ lat: A felvétel manipuláltságár´ Vizsga ol vizsg´ alatot folytattak. ´teles: Ha esik, itthon maradunk. Felte Weasel: Egyesek szerint ink´ abb megszáll´ ast kellene mondani. Hedge: A belga lakoss´ ag kb. 10%-a él Br¨ usszelben. Peacock: Apafi négy évet keserves tat´ ar fogs´ agban tölt¨ ott. Az angolra alkalmazott oszt´ alyoz´ ast v´ altoztat´ asok nélk¨ ul vett¨ uk át a magyarra, azonban a magyar nyelv sajátságainak megfelel˝ oen az annot´ aci´ os elveket némileg átalak´ıtottuk. Péld´ aul az episztemikus bizonytalanságot a magyarban igen gyakran a -hat/-het képz˝ o fejezi ki, m´ıg az angolban ez segédigék (pl. can, may) haszn´ alatával t¨ orténik. Ezekben az esetekben az angol korpuszban a segédigét jel¨ olt¨ uk meg mint bizonytalanságot jelz˝ o elemet, a magyarban azonoség¨ unk ban a teljes szóalakot, mivel a képz˝ o k¨ ulön c´ımkézésére nem volt lehet˝ morfémákra bontott nyelvi adatbázisok h´ıj´ an.


101

A [2] és [3] munkákhoz hasonl´ oan e cikkben is a diskurzusszint˝ u bizonytalans´ ag mindhárom fajtáj´ aval, illetve a szemantikus bizonytalanság négy fajt´ ajával (episztemikus, vizsg´ alati, feltételes és doxasztikus) foglalkozunk.

3.

Kapcsol´ od´ o irodalom

A bizonytalanságot jelz˝ o nyelvi elemek vizsgálata napjaink szám´ıt´ ogépes nyelvészeti kutat´ asainak egyik népszer˝ u tém´ aja. Ezt jelzi t¨ obbek k¨ oz¨ ott a CoNLL-2010 verseny megrendezése, melynek tém´ aja a nyelvi bizonytalanság azonos´ıt´ asa volt biol´ ogiai cikkekben és Wikipedia-szócikkekben, angol nyelven [1], illetve a Computational Linguistics folyóirat tematikus k¨ ulönsz´ ama (Vol. 38, No. 2), melyet a bizonytalanság és tagadás automatikus azonos´ıt´ as´ anak szenteltek. Az eddigi vizsg´ alatok t´ ulnyomórészt az angol nyelv köré csoportosulnak, és els˝ odlegesen u ´jságh´ıreket, biológiai publikáci´ okat vagy orvosi dokumentumokat, illetve Wikipedia-szócikkeket elemeznek (vö. [2, 4, 5]). A fel¨ ugyelt gépi tanulási elj´ ar´ asok megkövetelik egy annot´ alt korpusz létét. Noha sz´ amos, bizonytalanságra ép´ıtett korpusz elérhet˝o a vil´ agban (a teljesség igénye nélk¨ ul megeml´ıtve néhányat: BioScope [6], Genia [4], FactBank [5], a CoNLL-2010 verseny korpuszai [1]), ezek azonban angol nyelv˝ uek. A magyar nyelv˝ u kutatások egyik fontos el˝okész¨ uleti lépésének bizonyult tehát egy kézzel u adatbázis elkész´ıtése, melyben nyelvész szakért˝ ok beannot´ alt, magyar nyelv˝ jel¨ olték a bizonytalanságot jelz˝ o nyelvi elemeket. A bizonytalans´ agot azonos´ıt´ o rendszerek eleinte szakért˝ oi szab´ alyok alapján m˝ uködtek (pl. [7,8]), az utóbbi id˝oben azonban gépi tanulásra ép¨ ulnek, t¨ obbnyire fel¨ ugyelt tanul´ asi módszereket hasznos´ıtva (pl. [9,10] és a CoNLL-2010 versenyen részt vev˝o rendszerek [1]). A legutóbbi tendenci´ akkal összhangban e cikkben bemutatunk egy fel¨ ugyelt tanul´ asra ép¨ ul˝ o modellt, mely gazdag jellemz˝ otérrel rendelkezik: lexikai, morfol´ ogiai, szintaktikai és szemantikai jegyekre egyaránt ép´ıt, tov´ abb´ a kontextuális jellemz˝ oket is figyelembe vesz.

4.

A korpusz

A hUnCertainty korpusz magyar nyelv˝ u Wikipédia-szócikkekb˝ ol ´ all, o¨sszesen 1081 bekezdést, 9722 mondatot és 180 000 tokent tartalmaz. A szövegek kiválogatása sor´ an összegy˝ ujtött¨ uk a legtipikusabb angol nyelv˝ u bizonytalan kulcsszavak magyar megfelel˝ oit, majd az olyan bekezdések ker¨ ultek bele a korpuszba, amelyek legalább egyet tartalmaztak e kulcsszavak köz¨ ul. Mindemellett olyan bekezdések is a korpusz részét képezik, amelyek nem tartalmazt´ ak ezen kulcsszavak egyikét sem, ´ıgy törekedve a korpuszbeli adatok kiegyens´ ulyozotts´ ag´ ara. A korpuszban kézzel jelölt¨ uk meg a bizonytalanságért felel˝ os nyelvi elemek (kulcsszavak) t¨ obb fajt´ aját. A korpuszban el˝ ofordul´ o kulcsszavak arány´ at az 1. tábl´ azat mutatja. Mint l´ athat´ o, a korpuszban a diskurzusszint˝ u bizonytalanság kulcsszavai domin´ alnak. Ez o¨sszhangban van a korábban angol nyelv˝ u Wikipedia-sz´ ocikkeken

102


elért eredményekkel [3], ´ıgy valósz´ın˝ uleg a kulcsszavak ilyen eloszl´ asa a Wikipédia-szövegek saj´ atja nyelvt˝ol f¨ uggetlen¨ ul.

1. t´ abl´ azat. Bizonytalanságot jelz˝ o kulcsszavak. Kulcssz´ o t´ıpusa Hedge Weasel Peacock Diskurzusszint˝ uo ¨sszesen Episztemikus Doxasztikus Feltételes Vizsg´ alat Szemantikus o ¨sszesen ¨ Osszesen

# 2100 2150 788 5038 441 316 154 31 942 5980

% Eltér˝ o kulcsszavak sz´ ama 35,12 439 35,95 598 13,18 400 84,25 1437 7,37 184 5,28 67 2,58 46 0,52 22 15,75 319 100 1756

Ha a mondatok szintjén vizsg´ aljuk a bizonytalans´ agot, azt tal´ aljuk, hogy a korpuszban 3710 (39,22%) bizonytalan mondat szerepel (azaz legal´ abb egy kulcsszót tartalmaznak). Ezek k¨ oz¨ ul 3344 mondat tartalmaz diskurzusszint˝ u bizonytalans´ agot jel¨ ol˝o kulcsszót (35,35%), és 746 pedig szemantikus bizonytalans´ agra utal´ o kulcsszót (7,89%). A 2. tábl´ azat foglalja össze a leggyakoribb magyar episztemikus és doxasztikus kulcsszavakat. Az els˝o t´ız kulcsszó adja az ¨ osszes el˝ ofordul´ as 42 és 79%-át ezen kulcsszavak esetében. Mivel a feltételes és a vizsg´ alati kulcsszavak nem mutatnak nagy változatoss´ agot a korpuszban, csak a legalább h´ aromszor el˝ofordul´ o elemeket soroljuk fel itt: a vizsg´ al és tanulm´ anyoz szavak adj´ ak a vizsgálati kulcsszavak 29%-´ at, illetve a ha, akkor és amennyiben szavak a feltételes kulcsszavak 68%-´ at.

2. t´ abl´ azat. A leggyakoribb episztemikus és doxasztikus kulcsszavak. Episztemikus val´ osz´ın˝ uleg tal´ an feltehet˝ oleg all´ıt´ ´ olag feltehet˝ o lehet lehetséges feltételez tekinthet˝ o lehet˝ oség

# 79 28 15 14 11 10 10 7 7 6

% 17,87 6,33 3,39 3,17 2,49 2,26 2,26 1,58 1,58 1,36

Doxasztikus szerint tart tekint all´ıt ´ vél tulajdon´ıt gondol tesz hisz vall

# 151 25 19 18 10 7 6 5 4 4

% 47,63 7,89 5,99 5,68 3,15 2,21 1,89 1,58 1,26 1,26


103

A 3. tábl´ azatban találhat´ ok meg a leggyakoribb, diskurzusszint˝ u bizonytalans´ agot jelöl˝o kulcsszavak. A t´ız leggyakoribb kulcsszó az esetek 40, 31 és 26%-´ at fedi le a weasel, hedge és peacock el˝ ofordul´ asoknak. 3. t´ abl´ azat. A leggyakoribb diskurzusszint˝ u kulcsszavak. Weasel sz´ amos egyes egyik m´ as néh´ any k¨ ul¨ onb¨ oz˝ o egyéb sok bizonyos t¨ obbek k¨ oz¨ ott

# 150 134 118 100 66 34 29 27 22 19

% 8,60 7,68 6,76 5,73 3,78 1,95 1,66 1,55 1,26 1,09

Hedge altal´ ´ aban gyakran kés˝ obb nagyon f˝ oleg nagy igen néh´ any f˝ oként mintegy

# 127 119 99 50 47 46 43 40 37 36

% 6,18 5,79 4,82 2,43 2,29 2,24 2,09 1,95 1,80 1,75

Peacock fontos jelent˝ os ismert h´ıres nagy kiemelked˝ o komoly er˝ os kiv´ al´ o egyszer˝ u

# 50 39 25 23 17 15 11 10 9 9

% 6,36 4,96 3,18 2,93 2,16 1,91 1,40 1,27 1,15 1,15

Néhány kulcsszó több bizonytalansági osztályt is jel¨ olhet, ugyanakkor a kulcsszavak nem minden el˝ofordul´ asa jel¨ ol ténylegesen bizonytalanságot az adott kontextusban. Az els˝o esetre példa a nagy szó, amely hedge és peacock kulcsszó is lehet att´ ol f¨ ugg˝oen, hogy fizikai vagy min˝oségi nagys´ agra utal-e. A második esetet illusztr´ alja az igen szó: hat´ aroz´ osz´ oként el˝ ofordulhat hedge-ként, mondatsz´ oként azonban nem jel¨ ol bizonytalanságot. Minthogy a hUnCertainty korpusz annot´ aci´ os elvei angol korpuszok ép´ıtése sor´ an használt elveken alapulnak [2,3], az angol és magyar korpuszokból származ´ o adatok összevethet˝ ok egymással. Például a szemantikai és diskurzusszint˝ u bizonytalans´ ag kulcsszavai hasonló ar´ anyban fordulnak el˝o mindkét nyelv˝ u Wikipédia-szövegekben. A kulcsszavak szintjén pedig megfigyelhetj¨ uk, hogy azonos jelentés˝ u szavak szerepelnek a leggyakoribb kulcsszavak köz¨ ott, péld´ aul val´ osz´ın˝ u, lehetséges, hisz. E tények arra utalnak, hogy a [2] és [3] munkákban bemutatott as több nyelvre is alkalmazhat´ o. osztályoz´

5.

A bizonytalans´ ag automatikus azonos´ıt´ asa

Annak érdekében, hogy automatikus u ´ton azonos´ıtsuk a bizonytalanságot jelöl˝o kulcsszavakat, kifejlesztett¨ unk egy gépi tanuláson alapul´ o m´ odszert, melyet a következ˝okben ismertet¨ unk részletesen. Méréseinkhez a hUnCertainty korpuszt vett¨ uk alapul, melyet a magyarlanc elemz˝ot [11] felhaszn´ alva morfológiailag és szintaktikailag elemezt¨ unk. 5.1.

G´ epi tanul´ asi m´ odszerek

Kor´ abbi angol nyelv˝ u k´ısérleteink alapj´ an a szekvenciajelölés bizonyult a legeredményesebbnek a bizonytalans´ ag automatikus azonos´ıt´ as´ aban [2], ´ıgy a magyar nyelv˝ u anyagon végzett méréseinket is feltételes véletlen mez˝ok¨ on (CRF)

104


[12] alapuló módszerrel kivitelezt¨ uk. K´ısérleteink kiindul´ opontjaként egy magyar nyelvre implement´ alt, MALLET alap´ u névelem-felismer˝o rendszer [13] szolgált, a felhaszn´ alt jellemz˝ oket természetesen a bizonytalanságazonos´ıt´ asi feladat sajátságaira szabva, melyeket az al´ abbiakban ismertet¨ unk: – Felsz´ıni jellemz˝ ok: a szó ´ır´ asm´ odj´ aval kapcsolatos jellemz˝ok (tartalmaze ´ırásjelet, sz´ amot, kis/nagybet˝ uket, szóhossz, m´ assalhangzó bi- és trigramok...) – Lexikai jellemz˝ ok: a hasonl´ o elvek alapján annot´ alt, rendelkezésre ´ all´ o angol nyelv˝ u korpuszokb´ ol [2] minden bizonytalansági t´ıpushoz kigy˝ ujt¨ ott¨ uk a leggyakoribb kulcsszavakat, és ezeket magyar´ıtva list´ akba rendezt¨ uk ˝ oket. A list´ akat bináris jellemz˝oként haszn´ altuk fel: ha az adott szó lemmája el˝ofordult valamelyik list´ aban, akkor igaz értéket kapott az adott jellemz˝ore nézve. – Morfol´ ogiai jellemz˝ ok: minden szó esetében felvett¨ uk annak f˝ o sz´ ofaj´ at, a megvizsgáltuk, hogy illetve lemmáj´ at a jellemz˝ok közé. Igék esetében tovább´ hat´ o igér˝ ol van-e szó, feltételes mód´ u-e az ige, illetve T/1. vagy T/3. alakban fordul-e el˝o. F˝onevek esetében felvett¨ uk jellemz˝oként, hogy egyes vagy t¨ obbes számban állnak-e. K¨ ulön jelölt¨ uk a névm´ asok esetében azt is, ha hat´ arozatlan névmásr´ ol volt szó, illetve mellékneveknél a fokot is felvett¨ uk a jellemz˝ok közé. – Szintaktikai jellemz˝ ok: minden sz´ ohoz felvett¨ uk annak szintaktikai c´ımkéjét, tovább´ a f˝ onevek esetében megvizsg´ altuk, hogy rendelkezik-e nével˝ovel, illetve igék esetében felvett¨ uk, hogy van-e alanya. – Szemantikai/pragmatikai jellemz˝ ok: egy ´ altalunk összeáll´ıtott, beszédaktusokat tartalmazó lista alapj´ an megvizsg´ altuk, hogy az adott szó beszédaktust jel¨ ol˝o ige-e. Mindemellett a kulcsszavakhoz hasonl´ oan, angol nyelv˝ u, pozit´ıv és negat´ıv jelentéstartalm´ u szavakat tartalmaz´ o list´ akat [14] is magyar´ıtottunk, és megnézt¨ uk, hogy a szó lemmája szerepel-e az adott list´ aban. ornyezeti jellemz˝ ojeként felvett¨ uk a t˝ ole egy vagy két sz´ o Az adott szó k¨ távolságra lev˝ o szavak szófaji k´ odj´ at és szintaktikai c´ımkéjét is. A fentiekben le´ırt jellemz˝ okészlet alapján t´ızszeres keresztvalidáci´ ot használva hajtottuk végre méréseinket a hUnCertainty korpuszon. Mivel csak a tokenek kör¨ ulbel¨ ul 3%-a funkcion´ al kulcsszóként a korpuszban, ´ıgy sz¨ ukségesnek láttuk a tan´ıt´ o adatbázis sz˝ urését: a kulssz´ ot nem tartalmazó mondatoknak csak a fele ker¨ ult bele a tan´ıt´ o halmazba. Tov´ abb´ a mivel a vizsgálati bizonytalanság kulcszavai összesen 31 el˝ofordul´ ast mutattak, ezt az ritka osztályt nem vett¨ uk figyelembe a rendszer¨ unk létrehoz´ as´ an´ al, ´ıgy a kiértékelésben sem szerepel. 5.2.

Baseline m´ er´ esek

Baseline mérésként egyszer˝ u sz´ ot´ arillesztést haszn´ altunk. A lexikai jellemz˝ok között eml´ıtett list´ akat jelölt¨ uk r´ a a korpuszra: amennyiben a szó lemm´ aja megegyezett az adott lista egyik elemével, a bizonytalans´ ag adott t´ıpusának c´ımkézt¨ uk fel.


6.

105

Eredm´ enyek

A 4. táblázat mutatja a baseline, valamint a gépi tanuló k´ısérletek eredményeit. A kiértékelés sor´ an a pontosság, fedés és F-mérték metrikákat alkalmaztuk. 4. t´ abl´ azat. Eredmények. Sz´ ot´ arilleszt´ es G´ epi tanul´ o K¨ ul¨ onbs´ eg T´ıpus Pontoss´ ag Fedés F-mérték Pontoss´ ag Fedés F-mérték Weasel 26,03 38,50 31,06 59,26 34,74 43,80 +12,74 Hedge 55,86 29,92 38,97 64,59 50,02 56,38 +17,41 23,29 30,63 26,46 37,85 13,80 20,22 -6,38 Peacock Episztemikus 49,57 37,34 42,59 63,95 36,03 46,09 +3,5 Doxasztikus 25,24 65,20 36,40 54,31 33,54 41,47 +5,07 Feltételes 29,66 67,74 41,26 47,12 31,61 37,84 -3,42

A tábl´ azatb´ ol j´ ol látszik, hogy a gépi tanuló megk¨ ozel´ıtés eredményei két osztály kivételével minden esetben meghaladt´ ak a baseline szót´ arillesztés által elért eredményeket. Ez els˝ odlegesen a pontosság javulás´ anak k¨ osz¨ onhet˝ o, mely kivétel nélk¨ ul minden oszt´ alyra nézve j´ oval magasabb lett a szekvenciajel¨ ol˝ o megk¨ ozel´ıtés esetén. Ezzel szemben a fedési értékek nagyobb v´ altozatoss´ agot mutatnak: m´ıg a hedge osztály esetében ez is n˝ott, a weasel és episztemikus kulcsszavakn´ al nem változott jelent˝ os mértékben, addig a peacock, doxasztikus és feltételes kulcsszavaknál drasztikus visszaesést figyelhet¨ unk meg. Vélhet˝ oen a gyenge fedésre vezethet˝ o vissza az is, hogy a peacock és feltételes kulcsszavakn´ al a szót´ arjel¨ ol˝o megközel´ıtés magasabb F-mértéket ért el, mint a gépi tanuló algoritmus.

7.

Az eredm´ enyek megvitat´ asa

Elért eredményeink azt igazolják, hogy a magyar nyelvben is lehetséges a bizonytalans´ agot jelöl˝o kifejezések automatikus azonos´ıt´ asa szekvenciajelöl˝ o megközel´ıtéssel. A sz´ ot´ arillesztés sor´ an a legjobb eredményeket az episztemikus, feltételes és hedge kulcsszavakon ért¨ uk el, m´ıg a szekvenciajel¨ oléssel a hedge, episztemikus és weasel oszt´ alyokon sz¨ ulettek a legjobb eredmények. Mindezek alapján a hedge és episztemikus oszt´ alyok t˝ unnek a legkönnyebben felismerhet˝oknek. Az eredmények arra is utalnak, hogy azon (szemantikai) oszt´ alyok esetében, ahol kicsi volt a k¨ ulönbség a szót´ arillesztés és gépi tanulás eredményei k¨ ozött, az adott bizonytalanságt´ıpus nyelvi jel¨ olésm´ odja els˝ odlegesen lexikális (és kevésbé többértelm˝ u) eszközökkel valósul meg. Ugyanakkor a diskurzusszint˝ u bizonytalans´ ag kulcsszavainak felismerésében nagyobb szerepet játszik a gépi tanulás, ami annak k¨ osz¨ onhet˝ o, hogy eset¨ ukben igen fontos szerepe van a kontextusnak (diskurzusnak), ´ıgy egy szekvenciajelöl˝ o algoritmus sikeresebben tudja megoldani a feladatot.

106


Amennyiben eredményeinket összevetj¨ uk a kor´ abban angol nyelv˝ u Wikipediaszócikkeken elért, szemantikai bizonytalans´ agot azonos´ıt´ o rendszer által elértekkel [2], azt láthatjuk, hogy angol nyelven könnyebbnek t˝ unik a feladat: 0,6 és 0,8 közötti F-mértékekr˝ ol számol be a cikk. Azonban nem szabad figyelmen k´ıv¨ ul hagynunk két fontos tényez˝ot. Egyrészt a két nyelv közti tipol´ ogiai k¨ ul¨ onbségeknek kösz¨ onhet˝ oen az angolban ink´ abb lexikálisan meghat´ arozott a bizonytalans´ ag jelölése, a magyarban pedig inkább morfol´ ogiai eszköz¨ ok val´ os´ıtják meg ezt: például a hat´ o igéket a magyarban a -hat/-het képz˝ o jelöli, az angolban pedig a may, might stb. segédigék. Így a sz´ oalak, illetve lemma jellemz˝oként való szerepeltetése angolban már viszonylag jó eredményekhez vezethet, magyarban azonban ezek a jellemz˝ ok önmagukban (morfológiai jellemz˝ok felvétele nélk¨ ul) osen k¨ ulönb¨ ozik a két kevésbé hatékonyak. Másrészt az adatbázis nagys´ aga jelent˝ esetben: m´ıg kör¨ ulbel¨ ul 20000 annot´ alt angol mondat ´ allt rendelkezésre, addig a magyarban ez a sz´ am nem érte el a 10000-et. Az annot´ alt adatok mennyiségének fontoss´ agát igazolják az angol nyelv˝ u mérések is: azokban az esetekben, amikor csupán néhány ezer annot´ alt mondat a´llt rendelkezésre, az elért F-mértékek – domént˝ ol és kulcsszót´ıpust´ ol f¨ ugg˝oen – 0,1-0,8 k¨ oz¨ ott mozogtak. A peacock és a feltételes kulcsszavak esetében a szekvenciajel¨ ol˝ o m´ odszer rosszabbul teljes´ıtett a szót´ arjel¨ ol˝ o megk¨ ozel´ıtésnél: mindkét esetben a pontosság n˝ott ugyan, de a fedés jelent˝os visszaesést mutatott. Ez alapj´ an sz¨ ukségesnek ´ıgérkezik a rendszer fel¨ ulvizsgálata, tov´ abb´ au ´j, speciálisan ezekre az osztályokra kifejlesztett jellemz˝ ok definiálása. A gépi tanuló rendszer kimenetét részletesen is megvizsg´ altuk hibaelemzés célj´ aból. Azt tal´ altuk, hogy els˝ odlegesen a t¨ obbértelm˝ u kulcsszavak egyértelm˝ us´ıtése jelent problém´ at. Például a sz´ amos vagy sok szavak lehetnek sz¨ ovegk¨ ornyezett˝ ol f¨ ugg˝oen weasel és hedge kulcsszavak is, vagy a nagy lehet peacock és hedge is. Az ehhez hasonl´ o eseteket a rendszer id˝onként rossz osztályba sorolta. Gyakori hibaforrásnak szám´ıtottak azok a kulcsszavak is, amelyek gyakran használatosak nem kulcsszó jelentésben is, mint például a tart ige, amely lehet doxasztikus kulcsszó (vki vmilyennek tart vkit/vmit), azonban más jelentésben nem kulcssz´ o (pl. vki vhol tart vmit, vki vhol tart vmiben stb.). Egy saj´ atos hibának bizonyult az episztemikus osztályn´ al a tagadást tartalmaz´ o kulcsszavak fel nem ismerése: a nem z´ arhat´ o ki, nem tudni stb. alakokat a rendszer nem jelölte meg kulcssz´ oként.

8.

¨ Osszegz´ es

Ebben a cikkben bemutattuk a hUnCertainty korpuszt, amely az els˝o kézzel annot´ alt, magyar nyelv˝ u bizonytalansági korpusz. A korpusz lehet˝oséget adott arra, hogy beszámoljunk az els˝o eredményekr˝ol a nyelvi bizonytalans´ agot jel¨ ol˝o elemek automatikus felismerésér˝ ol magyar nyelv˝ u sz¨ ovegekben. A szekvenciajel¨ olésen alapul´ o, gazdag jellemz˝otérrel dolgoz´ o megközel´ıtés¨ unk ´ altal elért eredményeink bizony´ıtják, hogy magyar nyelvre is alkalmazható a bizonytalanság nyelvi modellje, illetve a bizonytalans´ agot jel¨ ol˝o kulcsszavak automatikus azonos´ıt´ asa is megoldhat´ o.


107

A jöv˝oben módszereinket szeretnénk tov´ abbfejleszteni, els˝osorban a jobb fedés elérésének ir´ anyába, mindemellett m´ as jelleg˝ u szövegekben is szeretnénk annot´ alni, illetve automatikusan azonos´ıtani a bizonytalans´ agot jel¨ ol˝o kifejezéseket.

K¨ osz¨ onetnyilv´ an´ıt´ as ´ A jelen kutatás a futurICT.hu nev˝ u, TAMOP-4.2.2.C-11/1/KONV-2012-0013 azonos´ıt´ osz´ am´ u projekt keretében az Európai Uni´ o t´ amogatás´ aval és az Európai Szoci´ alis Alap t´ arsfinansz´ıroz´ asával val´ osult meg.

Hivatkoz´ asok 1. Farkas, R., Vincze, V., M´ ora, Gy., Csirik, J., Szarvas, Gy.: The CoNLL-2010 Shared Task: Learning to Detect Hedges and their Scope in Natural Language Text. In: Proceedings of the Fourteenth Conference on Computational Natural Language Learning (CoNLL-2010): Shared Task, Uppsala, Sweden, Association for Computational Linguistics (2010) 1–12 2. Szarvas, Gy., Vincze, V., Farkas, R., M´ ora, Gy., Gurevych, I.: Cross-genre and cross-domain detection of semantic uncertainty. Computational Linguistics 38 (2012) 335–367 3. Vincze, V.: Weasels, hedges and peacocks: Discourse-level uncertainty in wikipedia articles. In: Proceedings of the Sixth International Joint Conference on Natural Language Processing, Nagoya, Japan, Asian Federation of Natural Language Processing (2013) 383–391 4. Kim, J.D., Ohta, T., Tsujii, J.: Corpus annotation for mining biomedical events from literature. BMC Bioinformatics 9(Suppl 10) (2008) 5. Saur´ı, R., Pustejovsky, J.: FactBank: a corpus annotated with event factuality. Language Resources and Evaluation 43 (2009) 227–268 6. Vincze, V., Szarvas, Gy., Farkas, R., M´ ora, Gy., Csirik, J.: The BioScope Corpus: Biomedical Texts Annotated for Uncertainty, Negation and their Scopes. BMC Bioinformatics 9(Suppl 11) (2008) S9 7. Light, M., Qiu, X.Y., Srinivasan, P.: The language of bioscience: Facts, speculations, and statements in between. In: Proc. of the HLT-NAACL 2004 Workshop: Biolink 2004, Linking Biological Literature, Ontologies and Databases. (2004) 17– 24 8. Chapman, W.W., Chu, D., Dowling, J.N.: Context: An algorithm for identifying contextual features from clinical text. In: Proceedings of the ACL Workshop on BioNLP 2007. (2007) 81–88 9. Medlock, B., Briscoe, T.: Weakly Supervised Learning for Hedge Classification in Scientific Literature. In: Proceedings of the ACL, Prague, Czech Republic (2007) 992–999 ¨ ur, A., Radev, D.R.: Detecting speculations and their scopes in scientific text. 10. Ozg¨ In: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Singapore, Association for Computational Linguistics (2009) 1398– 1407 11. Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A Toolkit for Morphological and Dependency Parsing of Hungarian. In: Proceedings of RANLP-2013, Hissar, Bulgaria (2013) 763–771

108


12. Lafferty, J., McCallum, A., Pereira, F.: Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In: Proceedings of ICML-01, 18th Int. Conf. on Machine Learning, Morgan Kaufmann (2001) 282–289 13. Szarvas, G., Farkas, R., Kocsor, A.: A multilingual named entity recognition system using boosting and c4.5 decision tree learning algorithms. In: Proceedings of the 9th international conference on Discovery Science. DS’06, Berlin, Heidelberg, SpringerVerlag (2006) 267–278 14. Liu, B.: Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers (2012)

magyar nyelvű szövegekben

Recommend Documents