Szeged, 2014. január 16–17.
99
Bizonytalans´ agot jel¨ ol˝ o kifejez´ esek azonos´ıt´ asa magyar nyelv˝ u sz¨ ovegekben Vincze Veronika1,2 1
Szegedi Tudom´ anyegyetem, TTIK, Informatikai Tansz´ekcsoport, ´ ad t´er 2. Szeged Arp´ 2 Magyar Tudom´ anyos Akad´emia, Mesters´eges Intelligencia Kutat´ ocsoport, Szeged, Tisza Lajos k¨ or´ ut 103., e-mail:
[email protected]
Kivonat A bizonytalans´ agot jel¨ ol˝ o kifejez´esek automatikus azonos´ıt´ asa napjaink egyik intenz´ıven vizsg´ alt ter¨ ulete a sz´ am´ıt´ og´epes nyelv´eszeti kutat´ asokban. Ebben a cikkben bemutatjuk magyar nyelv˝ u annot´ alt korpuszunkat, melyben k´ezzel bejel¨ olt¨ uk a nyelvi bizonytalans´ ag k¨ ul¨ onf´ele fajt´ ait jelz˝ o nyelvi elemeket. A korpusz arra is lehet˝ os´eget k´ın´ al, hogy besz´ amoljunk az els˝ o, magyar nyelv˝ u bizonytalans´ agazonos´ıt´ o g´epi tanul´ o rendszer eredm´enyeir˝ ol. Kulcsszavak: inform´ aci´ okinyer´es, szemantika, korpusz
1.
Bevezet´ es
A bizonytalans´agot jel¨ ol˝o kifejez´esek automatikus azonos´ıt´ asa napjaink sz´am´ıt´og´epes nyelv´eszeti kutat´as´anak egyik fontos probl´emak¨ore [1]. A feladat fontoss´aga abban rejlik, hogy a k¨ ul¨onf´ele sz´ am´ıt´ og´epes nyelv´eszeti alkalmaz´ asokban l´enyegi szerep jut a t´enyszer˝ u ´es a bizonytalan, illetve tagadott inform´ aci´ o megk¨ ul¨onb¨ oztet´es´enek, hiszen p´eld´aul inform´aci´ okinyer´es ´es szemantikus keres´es eset´eben a felhaszn´al´onak t¨obbnyire t´enyszer˝ u inform´aci´ ora van sz¨ uks´ege, ´ıgy alkalmaz´ ast´ ol f¨ ugg˝oen a rendszer vagy kisz˝ uri a bizonytalan / tagadott sz¨ ovegr´eszeket, vagy pedig a t´enyekt˝ol elk¨ ul¨on´ıtve adja ˝ oket vissza a felhaszn´al´ onak. A probl´em´ ara eddig els˝ odlegesen angol nyelv˝ u sz¨ovegeken ny´ ujtottak megold´ asokat [1,2]. Ebben a cikkben bemutatjuk k´ezzel annot´ alt, magyar nyelv˝ u bizonytalans´agi korpuszunkat, ´es besz´amolunk az els˝ o eredm´enyekr˝ ol a nyelvi bizonytalans´ agot ol magyar nyelv˝ u sz¨ ovegekben. jel¨ ol˝o elemek automatikus felismer´es´er˝
2.
A bizonytalans´ ag t´ıpusai
A nyelvi bizonytalans´agot hagyom´anyosan a mondat szemantik´aj´ ahoz szokt´ak k¨otni, azonban vannak olyan bizonytalans´agot jelz˝ o nyelvi elemek is, melyek ezzel szemben a mondat (k¨ozl´es) kontextus´aban – diskurzusbeli t´enyez˝oknek
100
X. Magyar Számítógépes Nyelvészeti Konferencia
k¨osz¨ onhet˝ oen – v´ alnak t¨ obb´ertelm˝ uv´e. P´eld´ aul a Lehet, hogy esik az es˝ o mondat alapj´ an nem tudjuk eld¨onteni, hogy esik-e az es˝o (szemantikai bizonytalans´ ag), viszont a Sz´ amos kutat´ o szerint az MSZNY a legjobb magyar konferencia mondatb´ol az nem der¨ ul ki, hogy pontosan kinek (illetve h´any kutat´onak) a v´elem´eny´er˝ ol esik sz´o, ´ıgy a k¨ ozl´es forr´ asa marad bizonytalan (diskurzusszint˝ u bizonytalans´ ag). Ebben a cikkben k¨ ovetj¨ uk a [2], illetve [3] cikkekben felv´azolt oszt´alyoz´ast a bizonytalans´ag k¨ ul¨ onb¨oz˝ o fajt´ aira n´ezve, illetve a magyar nyelvre alkalmazzuk azt, annot´ aci´ os elveinket a fentiek alapj´an kialak´ıtva. A szemantikai bizonytalans´ agnak t¨obb oszt´ alya is l´etezik. Egy propoz´ıci´ o episztemikusan bizonytalannak sz´ am´ıt, ha a vil´agtud´ asunk alapj´ an nem tudjuk eld¨onteni ebben a pillanatban, hogy igaz-e vagy hamis. Ugyanez igaz a hipotetikus bizonytalans´agra is, ide sorolhat´ ok a felt´eteles mondatok, illetve a vizsg´ alati bizonytalans´ ag – ut´obbi k¨ ul¨ on¨osen tudom´anyos cikkekben gyakori, hiszen a kutat´asi k´erd´est gyakran a vizsg´ alati bizonytalans´ag nyelvi eszk¨ozeivel fogalmazz´ ak meg a szerz˝ ok. A modalit´as nem episztemikus t´ıpusai (p´eld´aul doxasztikus bizonytalans´ag, mely a hiedelmekkel f¨ ugg ¨ ossze, illetve a dinamikus modalit´as k¨ ul¨onb¨oz˝o fajt´ai, melyek t¨ obbek k¨oz¨ ott a sz¨ uks´egszer˝ us´eghez kapcsol´ odnak) szint´en ebbe a nagyob csoportba sorolhat´ ok. A diskurzusszint˝ u bizonytalans´agnak h´ arom oszt´ aly´ at k¨ ul¨ onb¨oztethetj¨ uk meg [3]. El˝osz¨ or, a weasel kifejez´esekhez nem tudunk egy´ertelm˝ uen forr´ ast rendelni (azaz nem tudjuk, kihez k¨ othet˝ o az adott inform´aci´ o), m´ as esetben pedig hi´anyzik a k¨ozl´esb˝ol egy fontos ´es relev´ ans inform´aci´ or´eszlet, amely azonban az adott helyzetben sz¨ uks´eges lenne. M´asodszor, a hedge szavak hom´ alyoss´a teszik bizonyos mennyis´egek vagy min˝os´egek pontos jelent´es´et. Harmadszor, a peacock kifejez´esek bizony´ıtatlan (vagy bizony´ıthatatlan) ´ert´ekel´eseket, min˝os´ıt´eseket vagy t´ ulz´asokat fejeznek ki. A bizonytalans´agot jelz˝ o kulcsszavakra itt mutatunk n´eh´ any p´eld´ at: Episztemikus: Lehet, hogy esik. Dinamikus: Mennem kell. Doxasztikus: Azt hiszi, hogy a F¨old lapos. ´ lat: A felv´etel manipul´alts´ag´ar´ Vizsga ol vizsg´ alatot folytattak. ´teles: Ha esik, itthon maradunk. Felte Weasel: Egyesek szerint ink´ abb megsz´all´ ast kellene mondani. Hedge: A belga lakoss´ ag kb. 10%-a ´el Br¨ usszelben. Peacock: Apafi n´egy ´evet keserves tat´ ar fogs´ agban t¨olt¨ ott. Az angolra alkalmazott oszt´ alyoz´ ast v´ altoztat´ asok n´elk¨ ul vett¨ uk ´at a magyarra, azonban a magyar nyelv saj´ats´againak megfelel˝ oen az annot´ aci´ os elveket n´emileg ´atalak´ıtottuk. P´eld´ aul az episztemikus bizonytalans´agot a magyarban igen gyakran a -hat/-het k´epz˝ o fejezi ki, m´ıg az angolban ez seg´edig´ek (pl. can, may) haszn´ alat´aval t¨ ort´enik. Ezekben az esetekben az angol korpuszban a seg´edig´et jel¨ olt¨ uk meg mint bizonytalans´agot jelz˝ o elemet, a magyarban azonos´eg¨ unk ban a teljes sz´oalakot, mivel a k´epz˝ o k¨ ul¨on c´ımk´ez´es´ere nem volt lehet˝ morf´em´akra bontott nyelvi adatb´azisok h´ıj´ an.
Szeged, 2014. január 16–17.
101
A [2] ´es [3] munk´akhoz hasonl´ oan e cikkben is a diskurzusszint˝ u bizonytalans´ ag mindh´arom fajt´aj´ aval, illetve a szemantikus bizonytalans´ag n´egy fajt´ aj´aval (episztemikus, vizsg´ alati, felt´eteles ´es doxasztikus) foglalkozunk.
3.
Kapcsol´ od´ o irodalom
A bizonytalans´agot jelz˝ o nyelvi elemek vizsg´alata napjaink sz´am´ıt´ og´epes nyelv´eszeti kutat´ asainak egyik n´epszer˝ u t´em´ aja. Ezt jelzi t¨ obbek k¨ oz¨ ott a CoNLL-2010 verseny megrendez´ese, melynek t´em´ aja a nyelvi bizonytalans´ag azonos´ıt´ asa volt biol´ ogiai cikkekben ´es Wikipedia-sz´ocikkekben, angol nyelven [1], illetve a Computational Linguistics foly´oirat tematikus k¨ ul¨onsz´ ama (Vol. 38, No. 2), melyet a bizonytalans´ag ´es tagad´as automatikus azonos´ıt´ as´ anak szenteltek. Az eddigi vizsg´ alatok t´ ulnyom´or´eszt az angol nyelv k¨or´e csoportosulnak, ´es els˝ odlegesen u ´js´agh´ıreket, biol´ogiai publik´aci´ okat vagy orvosi dokumentumokat, illetve Wikipedia-sz´ocikkeket elemeznek (v¨o. [2, 4, 5]). A fel¨ ugyelt g´epi tanul´asi elj´ ar´ asok megk¨ovetelik egy annot´ alt korpusz l´et´et. Noha sz´ amos, bizonytalans´agra ´ep´ıtett korpusz el´erhet˝o a vil´ agban (a teljess´eg ig´enye n´elk¨ ul megeml´ıtve n´eh´anyat: BioScope [6], Genia [4], FactBank [5], a CoNLL-2010 verseny korpuszai [1]), ezek azonban angol nyelv˝ uek. A magyar nyelv˝ u kutat´asok egyik fontos el˝ok´esz¨ uleti l´ep´es´enek bizonyult teh´at egy k´ezzel u adatb´azis elk´esz´ıt´ese, melyben nyelv´esz szak´ert˝ ok beannot´ alt, magyar nyelv˝ jel¨ olt´ek a bizonytalans´agot jelz˝ o nyelvi elemeket. A bizonytalans´ agot azonos´ıt´ o rendszerek eleinte szak´ert˝ oi szab´ alyok alapj´an m˝ uk¨odtek (pl. [7,8]), az ut´obbi id˝oben azonban g´epi tanul´asra ´ep¨ ulnek, t¨ obbnyire fel¨ ugyelt tanul´ asi m´odszereket hasznos´ıtva (pl. [9,10] ´es a CoNLL-2010 versenyen r´eszt vev˝o rendszerek [1]). A legut´obbi tendenci´ akkal ¨osszhangban e cikkben bemutatunk egy fel¨ ugyelt tanul´ asra ´ep¨ ul˝ o modellt, mely gazdag jellemz˝ ot´errel rendelkezik: lexikai, morfol´ ogiai, szintaktikai ´es szemantikai jegyekre egyar´ant ´ep´ıt, tov´ abb´ a kontextu´alis jellemz˝ oket is figyelembe vesz.
4.
A korpusz
A hUnCertainty korpusz magyar nyelv˝ u Wikip´edia-sz´ocikkekb˝ ol ´ all, o¨sszesen 1081 bekezd´est, 9722 mondatot ´es 180 000 tokent tartalmaz. A sz¨ovegek kiv´alogat´asa sor´ an ¨osszegy˝ ujt¨ott¨ uk a legtipikusabb angol nyelv˝ u bizonytalan kulcsszavak magyar megfelel˝ oit, majd az olyan bekezd´esek ker¨ ultek bele a korpuszba, amelyek legal´abb egyet tartalmaztak e kulcsszavak k¨oz¨ ul. Mindemellett olyan bekezd´esek is a korpusz r´esz´et k´epezik, amelyek nem tartalmazt´ ak ezen kulcsszavak egyik´et sem, ´ıgy t¨orekedve a korpuszbeli adatok kiegyens´ ulyozotts´ ag´ ara. A korpuszban k´ezzel jel¨olt¨ uk meg a bizonytalans´ag´ert felel˝ os nyelvi elemek (kulcsszavak) t¨ obb fajt´ aj´at. A korpuszban el˝ ofordul´ o kulcsszavak ar´any´ at az 1. t´abl´ azat mutatja. Mint l´ athat´ o, a korpuszban a diskurzusszint˝ u bizonytalans´ag kulcsszavai domin´ alnak. Ez o¨sszhangban van a kor´abban angol nyelv˝ u Wikipedia-sz´ ocikkeken
102
X. Magyar Számítógépes Nyelvészeti Konferencia
el´ert eredm´enyekkel [3], ´ıgy val´osz´ın˝ uleg a kulcsszavak ilyen eloszl´ asa a Wikip´edia-sz¨ovegek saj´ atja nyelvt˝ol f¨ uggetlen¨ ul.
1. t´ abl´ azat. Bizonytalans´agot jelz˝ o kulcsszavak. Kulcssz´ o t´ıpusa Hedge Weasel Peacock Diskurzusszint˝ uo ¨sszesen Episztemikus Doxasztikus Felt´eteles Vizsg´ alat Szemantikus o ¨sszesen ¨ Osszesen
# 2100 2150 788 5038 441 316 154 31 942 5980
% Elt´er˝ o kulcsszavak sz´ ama 35,12 439 35,95 598 13,18 400 84,25 1437 7,37 184 5,28 67 2,58 46 0,52 22 15,75 319 100 1756
Ha a mondatok szintj´en vizsg´ aljuk a bizonytalans´ agot, azt tal´ aljuk, hogy a korpuszban 3710 (39,22%) bizonytalan mondat szerepel (azaz legal´ abb egy kulcssz´ot tartalmaznak). Ezek k¨ oz¨ ul 3344 mondat tartalmaz diskurzusszint˝ u bizonytalans´ agot jel¨ ol˝o kulcssz´ot (35,35%), ´es 746 pedig szemantikus bizonytalans´ agra utal´ o kulcssz´ot (7,89%). A 2. t´abl´ azat foglalja ¨ossze a leggyakoribb magyar episztemikus ´es doxasztikus kulcsszavakat. Az els˝o t´ız kulcssz´o adja az ¨ osszes el˝ ofordul´ as 42 ´es 79%-´at ezen kulcsszavak eset´eben. Mivel a felt´eteles ´es a vizsg´ alati kulcsszavak nem mutatnak nagy v´altozatoss´ agot a korpuszban, csak a legal´abb h´ aromszor el˝ofordul´ o elemeket soroljuk fel itt: a vizsg´ al ´es tanulm´ anyoz szavak adj´ ak a vizsg´alati kulcsszavak 29%-´ at, illetve a ha, akkor ´es amennyiben szavak a felt´eteles kulcsszavak 68%-´ at.
2. t´ abl´ azat. A leggyakoribb episztemikus ´es doxasztikus kulcsszavak. Episztemikus val´ osz´ın˝ uleg tal´ an feltehet˝ oleg all´ıt´ ´ olag feltehet˝ o lehet lehets´eges felt´etelez tekinthet˝ o lehet˝ os´eg
# 79 28 15 14 11 10 10 7 7 6
% 17,87 6,33 3,39 3,17 2,49 2,26 2,26 1,58 1,58 1,36
Doxasztikus szerint tart tekint all´ıt ´ v´el tulajdon´ıt gondol tesz hisz vall
# 151 25 19 18 10 7 6 5 4 4
% 47,63 7,89 5,99 5,68 3,15 2,21 1,89 1,58 1,26 1,26
Szeged, 2014. január 16–17.
103
A 3. t´abl´ azatban tal´alhat´ ok meg a leggyakoribb, diskurzusszint˝ u bizonytalans´ agot jel¨ol˝o kulcsszavak. A t´ız leggyakoribb kulcssz´o az esetek 40, 31 ´es 26%-´ at fedi le a weasel, hedge ´es peacock el˝ ofordul´ asoknak. 3. t´ abl´ azat. A leggyakoribb diskurzusszint˝ u kulcsszavak. Weasel sz´ amos egyes egyik m´ as n´eh´ any k¨ ul¨ onb¨ oz˝ o egy´eb sok bizonyos t¨ obbek k¨ oz¨ ott
# 150 134 118 100 66 34 29 27 22 19
% 8,60 7,68 6,76 5,73 3,78 1,95 1,66 1,55 1,26 1,09
Hedge altal´ ´ aban gyakran k´es˝ obb nagyon f˝ oleg nagy igen n´eh´ any f˝ ok´ent mintegy
# 127 119 99 50 47 46 43 40 37 36
% 6,18 5,79 4,82 2,43 2,29 2,24 2,09 1,95 1,80 1,75
Peacock fontos jelent˝ os ismert h´ıres nagy kiemelked˝ o komoly er˝ os kiv´ al´ o egyszer˝ u
# 50 39 25 23 17 15 11 10 9 9
% 6,36 4,96 3,18 2,93 2,16 1,91 1,40 1,27 1,15 1,15
N´eh´any kulcssz´o t¨obb bizonytalans´agi oszt´alyt is jel¨ olhet, ugyanakkor a kulcsszavak nem minden el˝ofordul´ asa jel¨ ol t´enylegesen bizonytalans´agot az adott kontextusban. Az els˝o esetre p´elda a nagy sz´o, amely hedge ´es peacock kulcssz´o is lehet att´ ol f¨ ugg˝oen, hogy fizikai vagy min˝os´egi nagys´ agra utal-e. A m´asodik esetet illusztr´ alja az igen sz´o: hat´ aroz´ osz´ ok´ent el˝ ofordulhat hedge-k´ent, mondatsz´ ok´ent azonban nem jel¨ ol bizonytalans´agot. Minthogy a hUnCertainty korpusz annot´ aci´ os elvei angol korpuszok ´ep´ıt´ese sor´ an haszn´alt elveken alapulnak [2,3], az angol ´es magyar korpuszokb´ol sz´armaz´ o adatok ¨osszevethet˝ ok egym´assal. P´eld´aul a szemantikai ´es diskurzusszint˝ u bizonytalans´ ag kulcsszavai hasonl´o ar´ anyban fordulnak el˝o mindk´et nyelv˝ u Wikip´edia-sz¨ovegekben. A kulcsszavak szintj´en pedig megfigyelhetj¨ uk, hogy azonos jelent´es˝ u szavak szerepelnek a leggyakoribb kulcsszavak k¨oz¨ ott, p´eld´ aul val´ osz´ın˝ u, lehets´eges, hisz. E t´enyek arra utalnak, hogy a [2] ´es [3] munk´akban bemutatott as t¨obb nyelvre is alkalmazhat´ o. oszt´alyoz´
5.
A bizonytalans´ ag automatikus azonos´ıt´ asa
Annak ´erdek´eben, hogy automatikus u ´ton azonos´ıtsuk a bizonytalans´agot jel¨ol˝o kulcsszavakat, kifejlesztett¨ unk egy g´epi tanul´ason alapul´ o m´ odszert, melyet a k¨ovetkez˝okben ismertet¨ unk r´eszletesen. M´er´eseinkhez a hUnCertainty korpuszt vett¨ uk alapul, melyet a magyarlanc elemz˝ot [11] felhaszn´ alva morfol´ogiailag ´es szintaktikailag elemezt¨ unk. 5.1.
G´ epi tanul´ asi m´ odszerek
Kor´ abbi angol nyelv˝ u k´ıs´erleteink alapj´ an a szekvenciajel¨ol´es bizonyult a legeredm´enyesebbnek a bizonytalans´ ag automatikus azonos´ıt´ as´ aban [2], ´ıgy a magyar nyelv˝ u anyagon v´egzett m´er´eseinket is felt´eteles v´eletlen mez˝ok¨ on (CRF)
104
X. Magyar Számítógépes Nyelvészeti Konferencia
[12] alapul´o m´odszerrel kivitelezt¨ uk. K´ıs´erleteink kiindul´ opontjak´ent egy magyar nyelvre implement´ alt, MALLET alap´ u n´evelem-felismer˝o rendszer [13] szolg´alt, a felhaszn´ alt jellemz˝ oket term´eszetesen a bizonytalans´agazonos´ıt´ asi feladat saj´ats´agaira szabva, melyeket az al´ abbiakban ismertet¨ unk: – Felsz´ıni jellemz˝ ok: a sz´o ´ır´ asm´ odj´ aval kapcsolatos jellemz˝ok (tartalmaze ´ır´asjelet, sz´ amot, kis/nagybet˝ uket, sz´ohossz, m´ assalhangz´o bi- ´es trigramok...) – Lexikai jellemz˝ ok: a hasonl´ o elvek alapj´an annot´ alt, rendelkez´esre ´ all´ o angol nyelv˝ u korpuszokb´ ol [2] minden bizonytalans´agi t´ıpushoz kigy˝ ujt¨ ott¨ uk a leggyakoribb kulcsszavakat, ´es ezeket magyar´ıtva list´ akba rendezt¨ uk ˝ oket. A list´ akat bin´aris jellemz˝ok´ent haszn´ altuk fel: ha az adott sz´o lemm´aja el˝ofordult valamelyik list´ aban, akkor igaz ´ert´eket kapott az adott jellemz˝ore n´ezve. – Morfol´ ogiai jellemz˝ ok: minden sz´o eset´eben felvett¨ uk annak f˝ o sz´ ofaj´ at, a megvizsg´altuk, hogy illetve lemm´aj´ at a jellemz˝ok k¨oz´e. Ig´ek eset´eben tov´abb´ hat´ o ig´er˝ ol van-e sz´o, felt´eteles m´od´ u-e az ige, illetve T/1. vagy T/3. alakban fordul-e el˝o. F˝onevek eset´eben felvett¨ uk jellemz˝ok´ent, hogy egyes vagy t¨ obbes sz´amban ´allnak-e. K¨ ul¨on jel¨olt¨ uk a n´evm´ asok eset´eben azt is, ha hat´ arozatlan n´evm´asr´ ol volt sz´o, illetve mell´eknevekn´el a fokot is felvett¨ uk a jellemz˝ok k¨oz´e. – Szintaktikai jellemz˝ ok: minden sz´ ohoz felvett¨ uk annak szintaktikai c´ımk´ej´et, tov´abb´ a f˝ onevek eset´eben megvizsg´ altuk, hogy rendelkezik-e n´evel˝ovel, illetve ig´ek eset´eben felvett¨ uk, hogy van-e alanya. – Szemantikai/pragmatikai jellemz˝ ok: egy ´ altalunk ¨ossze´all´ıtott, besz´edaktusokat tartalmaz´o lista alapj´ an megvizsg´ altuk, hogy az adott sz´o besz´edaktust jel¨ ol˝o ige-e. Mindemellett a kulcsszavakhoz hasonl´ oan, angol nyelv˝ u, pozit´ıv ´es negat´ıv jelent´estartalm´ u szavakat tartalmaz´ o list´ akat [14] is magyar´ıtottunk, ´es megn´ezt¨ uk, hogy a sz´o lemm´aja szerepel-e az adott list´ aban. ornyezeti jellemz˝ ojek´ent felvett¨ uk a t˝ ole egy vagy k´et sz´ o Az adott sz´o k¨ t´avols´agra lev˝ o szavak sz´ofaji k´ odj´ at ´es szintaktikai c´ımk´ej´et is. A fentiekben le´ırt jellemz˝ ok´eszlet alapj´an t´ızszeres keresztvalid´aci´ ot haszn´alva hajtottuk v´egre m´er´eseinket a hUnCertainty korpuszon. Mivel csak a tokenek k¨or¨ ulbel¨ ul 3%-a funkcion´ al kulcssz´ok´ent a korpuszban, ´ıgy sz¨ uks´egesnek l´attuk a tan´ıt´ o adatb´azis sz˝ ur´es´et: a kulssz´ ot nem tartalmaz´o mondatoknak csak a fele ker¨ ult bele a tan´ıt´ o halmazba. Tov´ abb´ a mivel a vizsg´alati bizonytalans´ag kulcszavai ¨osszesen 31 el˝ofordul´ ast mutattak, ezt az ritka oszt´alyt nem vett¨ uk figyelembe a rendszer¨ unk l´etrehoz´ as´ an´ al, ´ıgy a ki´ert´ekel´esben sem szerepel. 5.2.
Baseline m´ er´ esek
Baseline m´er´esk´ent egyszer˝ u sz´ ot´ arilleszt´est haszn´ altunk. A lexikai jellemz˝ok k¨oz¨ott eml´ıtett list´ akat jel¨olt¨ uk r´ a a korpuszra: amennyiben a sz´o lemm´ aja megegyezett az adott lista egyik elem´evel, a bizonytalans´ ag adott t´ıpus´anak c´ımk´ezt¨ uk fel.
Szeged, 2014. január 16–17.
6.
105
Eredm´ enyek
A 4. t´abl´azat mutatja a baseline, valamint a g´epi tanul´o k´ıs´erletek eredm´enyeit. A ki´ert´ekel´es sor´ an a pontoss´ag, fed´es ´es F-m´ert´ek metrik´akat alkalmaztuk. 4. t´ abl´ azat. Eredm´enyek. Sz´ ot´ arilleszt´ es G´ epi tanul´ o K¨ ul¨ onbs´ eg T´ıpus Pontoss´ ag Fed´es F-m´ert´ek Pontoss´ ag Fed´es F-m´ert´ek Weasel 26,03 38,50 31,06 59,26 34,74 43,80 +12,74 Hedge 55,86 29,92 38,97 64,59 50,02 56,38 +17,41 23,29 30,63 26,46 37,85 13,80 20,22 -6,38 Peacock Episztemikus 49,57 37,34 42,59 63,95 36,03 46,09 +3,5 Doxasztikus 25,24 65,20 36,40 54,31 33,54 41,47 +5,07 Felt´eteles 29,66 67,74 41,26 47,12 31,61 37,84 -3,42
A t´abl´ azatb´ ol j´ ol l´atszik, hogy a g´epi tanul´o megk¨ ozel´ıt´es eredm´enyei k´et oszt´aly kiv´etel´evel minden esetben meghaladt´ ak a baseline sz´ot´ arilleszt´es ´altal el´ert eredm´enyeket. Ez els˝ odlegesen a pontoss´ag javul´as´ anak k¨ osz¨ onhet˝ o, mely kiv´etel n´elk¨ ul minden oszt´ alyra n´ezve j´ oval magasabb lett a szekvenciajel¨ ol˝ o megk¨ ozel´ıt´es eset´en. Ezzel szemben a fed´esi ´ert´ekek nagyobb v´ altozatoss´ agot mutatnak: m´ıg a hedge oszt´aly eset´eben ez is n˝ott, a weasel ´es episztemikus kulcsszavakn´ al nem v´altozott jelent˝ os m´ert´ekben, addig a peacock, doxasztikus ´es felt´eteles kulcsszavakn´al drasztikus visszaes´est figyelhet¨ unk meg. V´elhet˝ oen a gyenge fed´esre vezethet˝ o vissza az is, hogy a peacock ´es felt´eteles kulcsszavakn´ al a sz´ot´ arjel¨ ol˝o megk¨ozel´ıt´es magasabb F-m´ert´eket ´ert el, mint a g´epi tanul´o algoritmus.
7.
Az eredm´ enyek megvitat´ asa
El´ert eredm´enyeink azt igazolj´ak, hogy a magyar nyelvben is lehets´eges a bizonytalans´ agot jel¨ol˝o kifejez´esek automatikus azonos´ıt´ asa szekvenciajel¨ol˝ o megk¨ozel´ıt´essel. A sz´ ot´ arilleszt´es sor´ an a legjobb eredm´enyeket az episztemikus, felt´eteles ´es hedge kulcsszavakon ´ert¨ uk el, m´ıg a szekvenciajel¨ ol´essel a hedge, episztemikus ´es weasel oszt´ alyokon sz¨ ulettek a legjobb eredm´enyek. Mindezek alapj´an a hedge ´es episztemikus oszt´ alyok t˝ unnek a legk¨onnyebben felismerhet˝oknek. Az eredm´enyek arra is utalnak, hogy azon (szemantikai) oszt´ alyok eset´eben, ahol kicsi volt a k¨ ul¨onbs´eg a sz´ot´ arilleszt´es ´es g´epi tanul´as eredm´enyei k¨ oz¨ott, az adott bizonytalans´agt´ıpus nyelvi jel¨ ol´esm´ odja els˝ odlegesen lexik´alis (´es kev´esb´e t¨obb´ertelm˝ u) eszk¨oz¨okkel val´osul meg. Ugyanakkor a diskurzusszint˝ u bizonytalans´ ag kulcsszavainak felismer´es´eben nagyobb szerepet j´atszik a g´epi tanul´as, ami annak k¨ osz¨ onhet˝ o, hogy eset¨ ukben igen fontos szerepe van a kontextusnak (diskurzusnak), ´ıgy egy szekvenciajel¨ol˝ o algoritmus sikeresebben tudja megoldani a feladatot.
106
X. Magyar Számítógépes Nyelvészeti Konferencia
Amennyiben eredm´enyeinket ¨osszevetj¨ uk a kor´ abban angol nyelv˝ u Wikipediasz´ocikkeken el´ert, szemantikai bizonytalans´ agot azonos´ıt´ o rendszer ´altal el´ertekkel [2], azt l´athatjuk, hogy angol nyelven k¨onnyebbnek t˝ unik a feladat: 0,6 ´es 0,8 k¨oz¨otti F-m´ert´ekekr˝ ol sz´amol be a cikk. Azonban nem szabad figyelmen k´ıv¨ ul hagynunk k´et fontos t´enyez˝ot. Egyr´eszt a k´et nyelv k¨ozti tipol´ ogiai k¨ ul¨ onbs´egeknek k¨osz¨ onhet˝ oen az angolban ink´ abb lexik´alisan meghat´ arozott a bizonytalans´ ag jel¨ol´ese, a magyarban pedig ink´abb morfol´ ogiai eszk¨oz¨ ok val´ os´ıtj´ak meg ezt: p´eld´aul a hat´ o ig´eket a magyarban a -hat/-het k´epz˝ o jel¨oli, az angolban pedig a may, might stb. seg´edig´ek. ´Igy a sz´ oalak, illetve lemma jellemz˝ok´ent val´o szerepeltet´ese angolban m´ar viszonylag j´o eredm´enyekhez vezethet, magyarban azonban ezek a jellemz˝ ok ¨onmagukban (morfol´ogiai jellemz˝ok felv´etele n´elk¨ ul) osen k¨ ul¨onb¨ ozik a k´et kev´esb´e hat´ekonyak. M´asr´eszt az adatb´azis nagys´ aga jelent˝ esetben: m´ıg k¨or¨ ulbel¨ ul 20000 annot´ alt angol mondat ´ allt rendelkez´esre, addig a magyarban ez a sz´ am nem ´erte el a 10000-et. Az annot´ alt adatok mennyis´eg´enek fontoss´ ag´at igazolj´ak az angol nyelv˝ u m´er´esek is: azokban az esetekben, amikor csup´an n´eh´any ezer annot´ alt mondat a´llt rendelkez´esre, az el´ert F-m´ert´ekek – dom´ent˝ ol ´es kulcssz´ot´ıpust´ ol f¨ ugg˝oen – 0,1-0,8 k¨ oz¨ ott mozogtak. A peacock ´es a felt´eteles kulcsszavak eset´eben a szekvenciajel¨ ol˝ o m´ odszer rosszabbul teljes´ıtett a sz´ot´ arjel¨ ol˝ o megk¨ ozel´ıt´esn´el: mindk´et esetben a pontoss´ag n˝ott ugyan, de a fed´es jelent˝os visszaes´est mutatott. Ez alapj´ an sz¨ uks´egesnek ´ıg´erkezik a rendszer fel¨ ulvizsg´alata, tov´ abb´ au ´j, speci´alisan ezekre az oszt´alyokra kifejlesztett jellemz˝ ok defini´al´asa. A g´epi tanul´o rendszer kimenet´et r´eszletesen is megvizsg´ altuk hibaelemz´es c´elj´ ab´ol. Azt tal´ altuk, hogy els˝ odlegesen a t¨ obb´ertelm˝ u kulcsszavak egy´ertelm˝ us´ıt´ese jelent probl´em´ at. P´eld´aul a sz´ amos vagy sok szavak lehetnek sz¨ ovegk¨ ornyezett˝ ol f¨ ugg˝oen weasel ´es hedge kulcsszavak is, vagy a nagy lehet peacock ´es hedge is. Az ehhez hasonl´ o eseteket a rendszer id˝onk´ent rossz oszt´alyba sorolta. Gyakori hibaforr´asnak sz´am´ıtottak azok a kulcsszavak is, amelyek gyakran haszn´alatosak nem kulcssz´o jelent´esben is, mint p´eld´aul a tart ige, amely lehet doxasztikus kulcssz´o (vki vmilyennek tart vkit/vmit), azonban m´as jelent´esben nem kulcssz´ o (pl. vki vhol tart vmit, vki vhol tart vmiben stb.). Egy saj´ atos hib´anak bizonyult az episztemikus oszt´alyn´ al a tagad´ast tartalmaz´ o kulcsszavak fel nem ismer´ese: a nem z´ arhat´ o ki, nem tudni stb. alakokat a rendszer nem jel¨olte meg kulcssz´ ok´ent.
8.
¨ Osszegz´ es
Ebben a cikkben bemutattuk a hUnCertainty korpuszt, amely az els˝o k´ezzel annot´ alt, magyar nyelv˝ u bizonytalans´agi korpusz. A korpusz lehet˝os´eget adott arra, hogy besz´amoljunk az els˝o eredm´enyekr˝ol a nyelvi bizonytalans´ agot jel¨ ol˝o elemek automatikus felismer´es´er˝ ol magyar nyelv˝ u sz¨ ovegekben. A szekvenciajel¨ ol´esen alapul´ o, gazdag jellemz˝ot´errel dolgoz´ o megk¨ozel´ıt´es¨ unk ´ altal el´ert eredm´enyeink bizony´ıtj´ak, hogy magyar nyelvre is alkalmazhat´o a bizonytalans´ag nyelvi modellje, illetve a bizonytalans´ agot jel¨ ol˝o kulcsszavak automatikus azonos´ıt´ asa is megoldhat´ o.
Szeged, 2014. január 16–17.
107
A j¨ov˝oben m´odszereinket szeretn´enk tov´ abbfejleszteni, els˝osorban a jobb fed´es el´er´es´enek ir´ any´aba, mindemellett m´ as jelleg˝ u sz¨ovegekben is szeretn´enk annot´ alni, illetve automatikusan azonos´ıtani a bizonytalans´ agot jel¨ ol˝o kifejez´eseket.
K¨ osz¨ onetnyilv´ an´ıt´ as ´ A jelen kutat´as a futurICT.hu nev˝ u, TAMOP-4.2.2.C-11/1/KONV-2012-0013 azonos´ıt´ osz´ am´ u projekt keret´eben az Eur´opai Uni´ o t´ amogat´as´ aval ´es az Eur´opai Szoci´ alis Alap t´ arsfinansz´ıroz´ as´aval val´ osult meg.
Hivatkoz´ asok 1. Farkas, R., Vincze, V., M´ ora, Gy., Csirik, J., Szarvas, Gy.: The CoNLL-2010 Shared Task: Learning to Detect Hedges and their Scope in Natural Language Text. In: Proceedings of the Fourteenth Conference on Computational Natural Language Learning (CoNLL-2010): Shared Task, Uppsala, Sweden, Association for Computational Linguistics (2010) 1–12 2. Szarvas, Gy., Vincze, V., Farkas, R., M´ ora, Gy., Gurevych, I.: Cross-genre and cross-domain detection of semantic uncertainty. Computational Linguistics 38 (2012) 335–367 3. Vincze, V.: Weasels, hedges and peacocks: Discourse-level uncertainty in wikipedia articles. In: Proceedings of the Sixth International Joint Conference on Natural Language Processing, Nagoya, Japan, Asian Federation of Natural Language Processing (2013) 383–391 4. Kim, J.D., Ohta, T., Tsujii, J.: Corpus annotation for mining biomedical events from literature. BMC Bioinformatics 9(Suppl 10) (2008) 5. Saur´ı, R., Pustejovsky, J.: FactBank: a corpus annotated with event factuality. Language Resources and Evaluation 43 (2009) 227–268 6. Vincze, V., Szarvas, Gy., Farkas, R., M´ ora, Gy., Csirik, J.: The BioScope Corpus: Biomedical Texts Annotated for Uncertainty, Negation and their Scopes. BMC Bioinformatics 9(Suppl 11) (2008) S9 7. Light, M., Qiu, X.Y., Srinivasan, P.: The language of bioscience: Facts, speculations, and statements in between. In: Proc. of the HLT-NAACL 2004 Workshop: Biolink 2004, Linking Biological Literature, Ontologies and Databases. (2004) 17– 24 8. Chapman, W.W., Chu, D., Dowling, J.N.: Context: An algorithm for identifying contextual features from clinical text. In: Proceedings of the ACL Workshop on BioNLP 2007. (2007) 81–88 9. Medlock, B., Briscoe, T.: Weakly Supervised Learning for Hedge Classification in Scientific Literature. In: Proceedings of the ACL, Prague, Czech Republic (2007) 992–999 ¨ ur, A., Radev, D.R.: Detecting speculations and their scopes in scientific text. 10. Ozg¨ In: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Singapore, Association for Computational Linguistics (2009) 1398– 1407 11. Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A Toolkit for Morphological and Dependency Parsing of Hungarian. In: Proceedings of RANLP-2013, Hissar, Bulgaria (2013) 763–771
108
X. Magyar Számítógépes Nyelvészeti Konferencia
12. Lafferty, J., McCallum, A., Pereira, F.: Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In: Proceedings of ICML-01, 18th Int. Conf. on Machine Learning, Morgan Kaufmann (2001) 282–289 13. Szarvas, G., Farkas, R., Kocsor, A.: A multilingual named entity recognition system using boosting and c4.5 decision tree learning algorithms. In: Proceedings of the 9th international conference on Discovery Science. DS’06, Berlin, Heidelberg, SpringerVerlag (2006) 267–278 14. Liu, B.: Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers (2012)