Szeged, 2011. december 1–2.
59
F´ elig kompozicion´ alis szerkezetek automatikus azonos´ıt´ asa magyar ´ es angol nyelven Vincze Veronika1 , Nagy T. Istv´ an2 , Zsibrita J´ anos2 1
Magyar Tudom´ anyos Akad´emia, Mesters´eges Intelligencia Kutat´ ocsoport Szeged, Tisza Lajos k¨ or´ ut 103., e-mail:
[email protected] 2 Szegedi Tudom´ anyegyetem, TTIK, Informatikai Tansz´ekcsoport ´ ad t´er 2., e-mail:{nistvan,zsibrita}@inf.u-szeged.hu Szeged, Arp´
Kivonat Jelen munk´ aban bemutatjuk szab´ alyalap´ u ´es g´epi tanult m´ odszereken alapul´ o megk¨ ozel´ıt´eseinket, melyek mind angol, mind magyar nyelven k´epesek a f´elig kompozicion´ alis szerkezetek foly´ o sz¨ ovegben t¨ ort´en˝ o automatikus azonos´ıt´ as´ ara. Eredm´enyeink azt igazolj´ ak, hogy a sek´ely morfol´ ogiai elemz´esre ´ep¨ ul˝ o m´ odszereink mellett a szintaktikai inform´ aci´ o is nagyban k´epes seg´ıteni a f´elig kompozicion´ alis szerkezetek automatikus azonos´ıt´ as´ at. Cikk¨ unkben kit´er¨ unk a feladat angol ´es magyar nyelv˝ u saj´ ats´ agaira is. Kulcsszavak: t¨ obbszavas kifejez´esek, lexik´ alis szemantika, t¨ obbnyelv˝ us´eg, FXtagger
1.
Bevezet´ es
A term´eszetes nyelvi feldolgoz´asban, k¨ ul¨on¨ osen a g´epi ford´ıt´ as ´es ford´ıt´ ast´ amogat´ as ter¨ ulet´en az egyik legnehezebb probl´em´ at a t¨ obbszavas kifejez´esek megfelel˝o kezel´ese jelenti. A t¨ obbszavas kifejez´esek sikeres kezel´es´enek els˝ o l´ep´ese, hogy felismerj¨ uk ˝ oket a foly´ o sz¨ ovegben. Ebben a munk´ aban a t¨ obbszavas kifejez´esek egy alt´ıpus´ anak, a f´elig kompozicion´ alis szerkezeteknek automatikus felismer´es´ere koncentr´alunk. A f´elig kompozicion´ alis szerkezetek (FX-ek) olyan, f˝ on´evb˝ ol ´es ig´eb˝ ol ´all´ o t¨ obbszavas kifejez´esek, ahol a szemantikai fej a f˝on´ev, m´ıg az ige puszt´ an csak a szerkezet igeis´eg´e´ert felel. Mivel jelent´es¨ uk nem teljesen kompozicion´ alis, a szerkezet elemeinek egyenk´enti leford´ıt´ asa nem (vagy csak nagyon ritk´an) eredm´enyezi a szerkezet idegen nyelv˝ u megfelel˝ oj´et. Emellett a f´elig kompozicion´ alis szerkezetek (v´ alaszt kap) szintaktikailag hasonl´ o fel´ep´ıt´essel b´ırnak, mint m´as, produkt´ıv (kompozicion´ alis) szerkezetek (pul´ overt kap), illetve idi´ om´ ak (v´erszemet kap) [1], ´ıgy azonos´ıt´ asuk nem val´osulhat meg puszt´ an szintaktikai mint´ akat figyelembe v´eve. V´eg¨ ul, mivel a szerkezet szintaktikai ´es szemantikai feje nem azonos, a szerkezet nyelvi elemz´esekor c´elszer˝ u a f˝ onevet ´es az ig´et egy komplex egys´egk´ent kezelni - az angol vonzatos ig´ekhez (phrasal verbs) hasonl´oan.
60
VIII. Magyar Számítógépes Nyelvészeti Konferencia
A fenti okokb´ ol kifoly´olag a f´elig kompozicion´ alis szerkezetek kezel´ese k¨ ul¨ onleges figyelmet ´erdemel a term´eszetes nyelvi alkalmaz´ asokban. Ennek els˝ o l´ep´esek´ent azonos´ıtani kell ˝ oket, mely c´elhoz k¨ ul¨ onf´ele algoritmusok fejleszt´ese seg´ıthet hozz´ a. Ennek megfelel˝ oen el˝ osz¨ or szab´ alyalap´ u megk¨ozel´ıt´eseket defini´alunk, majd ezek eredm´enyeire alapozva g´epi tanul´o m´ odszerek seg´ıts´eg´evel is azonos´ıtjuk a f´elig kompozicion´alis szerkezeteket.
2.
Kapcsol´ od´ o munk´ ak
A f´elig kompozicion´ alis szerkezetek automatikus azonos´ıt´ as´ ara, illetve a f˝on´ev + ige szerkezetek oszt´ alyokba sorol´ as´ara m´ ar t¨ obb szerz˝o is k´ıs´erletet tett. Van de Cruys ´es Moir´on [2] szemantikai alapokon nyugv´ o rendszere igeprepoz´ıci´ o-f˝ on´ev kombin´aci´ okat azonos´ıt holland sz¨ovegekben. M´odszer¨ uk az ige ´es a f˝ on´ev szelekci´ os megk¨ ot´eseire ´ep¨ ul, illetve az ig´evel egy¨ utt el˝ ofordul´ o f˝ onevek szemantikai oszt´aly´ at is figyelembe veszik. Cook ´es munkat´ arsai [3] angol ige + f˝on´ev szerkezetek sz´o szerinti ´es idiomatikus haszn´ alat´at k¨ ul¨ on´ıtik el egym´ ast´ ol. Feltev´es¨ uk szerint idiomatikus haszn´ alatban f˝ok´ent a szerkezet sz´ot´ ari alakja fordul el˝o, m´ıg sz´ o szerinti haszn´ alatban a szerkezet nagyobb szintaktikai v´altozatoss´ agot mutat. A szerkezet szintaktikai r¨ ogz´ıtetts´eg´et kihaszn´ al´ o fel¨ ugyelet n´elk¨ uli oszt´alyoz´ o m´ odszer¨ uk 72%-os eredm´enyt ´er el. Bannard [4] szint´en angol nyelv˝ u ige + f˝ on´ev szerkezeteket oszt´ alyoz szintaktikai r¨ ogz´ıtetts´eg¨ uk alapj´ an. Az a´ltala haszn´ alt jellemz˝ ok k¨ oz´e tartozik a f˝ on´ev n´evel˝ozhet˝ os´ege, m´ odos´ıthat´ os´ aga, a szerkezet szenved˝ o szerkezetben val´ o el˝ ofordul´ asa stb. Samardˇzi´c ´es Merlo [5] angol-n´emet p´ arhuzamos korpuszokban el˝ ofordul´ o f´elig kompozicion´ alis szerkezeteket vizsg´ alnak. Eredm´enyeik szerint a szerkezetek p´ arhuzamos´ıt´ as´ an´ al k¨ ul¨on¨ osen nagy szerepet j´atszanak a gyakoris´agi adatok mellett a szerkezetek nyelvi jellemz˝ oi is, p´eld´aul a kompozicionalit´ as foka. Gurrutxaga ´es Alegria [6] baszk nyelv˝ u sz¨ ovegekb˝ol nyernek ki idiomatikus ´es f´elig kompozicion´ alis f˝ on´ev + ige szerkezeteket statisztikai m´odszerek seg´ıts´eg´evel. Mivel a baszk szabad sz´ orend˝ u nyelv, azzal az el˝ ozetes felt´etelez´essel ´eltek, hogy az ige t´agabb k¨ ornyezet´et n´ezve javulni fognak az eredm´enyek, azonban k´ıs´erleteik ezt nem t´ amasztott´ ak al´a. Tu ´es Roth [7] ige + f˝ on´ev p´ arokat oszt´alyoznak aszerint, hogy f´elig kompozicion´ alis szerkezetek-e vagy sem. Mind k¨ornyezeti, mind statisztikai jellemz˝okkel dolgoznak, ´es meg´ allap´ıt´ asuk szerint a t¨ obb´ertelm˝ u p´eld´ akon a lok´alis k¨ ornyezeti jellemz˝ok haszn´alata vezet a legjobb eredm´enyhez. Sass B´alint [8] besz´amol egy igei szerkezetek p´arhuzamos korpuszb´ol val´o kinyer´es´ere szolg´ al´ o elj´ ar´ asr´ ol, mely egy kor´abbi, ig´eket ´es azok b˝ ov´ıtm´enyeit kinyer˝ o algoritmusra ´ep¨ ul. A m´odszer l´enyege, hogy a tagmondatok ig´eit egym´as mell´e rendelve egy komplex ige j¨on l´etre, melyhez a b˝ ov´ıtm´enyeket halmazk´ent rendelj¨ uk hozz´ a, felc´ımk´ezve ˝oket aszerint, hogy melyik nyelv˝ u r´eszkorpuszb´ol sz´ armaznak. Az ´ıgy kapott reprezent´ aci´ ob´ ol az eredeti algoritmus seg´ıts´eg´evel lehet kigy˝ ujteni az egyes nyelvekre jellemz˝o igei szerkezeteket.
Szeged, 2011. december 1–2.
61
A f´elig kompozicion´ alis szerkezetek automatikus azonos´ıt´ as´ at c´elz´o m´ odszerek nagy r´esze kiindul´asi alapnak tekinti a szintaxist, azaz a´ltal´ aban ige-t´ argy p´ arokat oszt´alyoznak [3,4,9,7]. Ezzel szemben mi nem a szintaktikai mint´ azatok alapj´ an megsz˝ urt FX-jel¨ olteket szeretn´enk oszt´alyozni, hanem foly´ o sz¨ ovegben szeretn´enk azonos´ıtani o˝ket, nem felt´etlen¨ ul szintaktikai inform´aci´ ok seg´ıts´eg´evel. K´ıs´erleteink k¨ozben azonban kiemelt figyelmet szentel¨ unk a szintaktikai inform´aci´ ok hozz´ aadott ´ert´ek´enek.
3.
A f´ elig kompozicion´ alis szerkezetek automatikus felismer´ ese
A f´elig kompozicion´ alis szerkezetek automatikus azonos´ıt´ as´ara szab´ alyalap´ u ´es g´epi tanul´asi m´ odszereket is defini´altunk. Angol ´es magyar nyelvre alapj´ aban v´eve ugyanazokat az elj´ar´ asokat alkalmaztuk, term´eszetesen figyelembe v´eve az adott nyelv saj´ atoss´ agait. M´ odszereink ki´ert´ekel´es´ehez h´ arom korpuszt haszn´altunk. A SzegedParalellFX p´ arhuzamos korpusz [10] angol ´es magyar nyelven ugyanazokat a sz¨ovegeket tartalmazza, melyekben ¨osszesen 1100 angol nyelv˝ u ´es 1112 magyar nyelv˝ u FX tal´ alhat´ o. A Szeged Korpuszban szint´en be vannak jel¨ olve a f´elig kompozicion´ alis szerkezetek [11]. K´ıs´erleteinkhez a sajt´onyelvi r´eszkorpuszokat haszn´ altuk. Az angol nyelv˝ u Wiki50 korpuszban [1] t¨ obbszavas kifejez´esek ´es n´evelemek vannak annot´ alva, ´ıgy a f´elig kompozicion´ alis szerkezetek is be vannak jel¨ olve. Noha a korpuszokban a f´elig kompozicion´ alis szerkezetek mell´ekn´evi igen´evi ´es f˝ on´evi alakjai is be vannak jel¨olve, jelen munk´ankban csak az igei alakok felismer´es´ere koncentr´alunk. A felhaszn´alt korpuszok adatait az 1. t´ abl´ azat mutatja. 1. t´ abl´ azat. A felhaszn´alt korpuszok adatai Korpusz Wiki50 (angol) SzegedParallelFX (angol) SzegedParallelFX (magyar) Szeged Treebank (´ ujs´ agcikkek - magyar)
3.1.
Mondat 4.350 14.262 14.262 10.210
Token Igei FX 114.570 368 298.948 745 240.399 753 182.172 458
Szab´ alyalap´ u m´ odszerek
Sz´amos szab´ alyt fogalmaztunk meg a f´elig kompozicion´ alis szerkezetek automatikus azonos´ıt´ as´ ara. Az angol nyelv˝ u sz¨ ovegeket a Stanford elemz´esi l´ anc seg´ıts´eg´evel tokeniz´ altuk, majd elemezt¨ uk sz´ ofajilag [12] ´es szintaktikailag [13]. A SzegedParalellFX magyar nyelv˝ u sz¨ ovegeit a magyarlanc [14] csomaggal tokeniz´ altuk ´es elemezt¨ uk sz´ ofajilag. A Szeged Korpuszb´ol sz´armaz´ o sz¨ovegek eset´en az etalon sz´ofaji ´es dependenciaelemz´esekre hagyatkoztunk, illetve az o¨sszevethet˝ os´eg kedv´e´ert a magyarlanc ´ altal ny´ ujtott sz´ofaji elemz´esekkel is v´egezt¨ unk k´ıs´erleteket.
62
VIII. Magyar Számítógépes Nyelvészeti Konferencia
A POS-szab´ alyok ( POS”) m´ odszer eset´eben k¨ ul¨ onf´ele sz´ ofaji mint´ akat ” adtunk meg, p´eld´ aul VB.? (NN|NNS) angolra vagy N V a magyarra. Amennyiben ezek illeszkedtek a sz¨oveg egy szegmens´ere, azt megjel¨ olt¨ uk mint f´elig kompozicion´ alis szerkezetet. Mivel tov´ abbi m´ odszereink morfol´ ogiai inform´aci´ okra ´ep¨ ulnek, pontosabban az ige vagy a f˝ on´ev term´eszet´ere tesznek megszor´ıt´ asokat, a POS-szab´ alyokra val´o illeszked´es el˝ofelt´etele a t¨ obbi m´ odszer alkalmazhat´os´ ag´anak. A v´ egz˝ od´ es ( v´eg”) m´ odszer alapja, hogy az FX-ek f˝on´evi komponense ” legt¨obbsz¨ or ig´eb˝ ol k´epzett f˝on´ev. Ebben az esetben azokat az FX-jel¨olteket fogadtuk el, amelyekre illeszkedett egy sz´ofaji minta, ´es a f˝ on´ev az el˝ore defini´alt n-gramok (k´epz˝ ok) egyik´eben v´egz˝ od¨ ott. A leggyakoribb ige ( ige”) m´ odszer azon megfigyel´esen alapszik, hogy ´al” tal´ aban a leggyakoribb ig´ek szerepelnek funkci´ oigek´ent (az angolban a do, make, take stb., m´ıg a magyarban ad, vesz, hoz stb.). ´ıgy azokat az FX-jel¨ olteket fogadtuk el, amelyek illeszkedtek a sz´ ofaji mint´akra, ´es az igei komponens lemm´ aja megegyezett az el˝ore megadott leggyakoribb ig´ek egyik´evel. A sz´ ot˝ o ( t˝ o”) m´ odszer a f˝ on´ev sz´ ot¨ ov´et vizsg´ alja. Mint fentebb eml´ıtett¨ uk, ” a f˝on´evi komponens igen gyakran ig´eb˝ ol sz´armazik, ´ıgy az angolban azt n´ezt¨ uk meg a Porter stemmert haszn´ alva [15], hogy a f˝ on´ev sz´ ot¨ ove egybeesik-e egy igei sz´ot˝ ovel (to make a decision - to decide) vagy maga a f˝ on´ev egybeesik-e egy ig´evel (to have a walk - to walk ). A magyarban pedig a hunmorph elemz˝ o [16] seg´ıts´eg´evel ´allap´ıtottuk meg a f˝on´ev sz´ ot¨ ov´et, ´es vizsg´ altuk meg, hogy annak van-e igei elemz´ese. A f´elig kompozicion´ alis szerkezetek azonos´ıt´ as´ aban a szintaktikai inform´ aci´ ok is hasznosak lehetnek. Az angolban a szerkezet k´et tagja k¨oz¨ ott a´ltal´ aban dobj vagy prep viszony szerepel (t´ argyi vagy prepoz´ıci´ os vonzat eset´eben), m´ıg a magyarban obj vagy obl (t´ argy vagy egy´eb argumentum). A szintaxis m´ odszert alkalmazva azokat az FX-jel¨ olteket fogadtuk el, amelyek tagjai a fenti rel´aci´ ok egyik´eben ´ alltak egym´assal. A fenti m´ odszereket kombin´ altuk is egym´ assal: vagyis vett¨ uk a k¨ ul¨onf´ele m´ odszerek uni´ oj´ at ∪ (egy potenci´alis FX jel¨ olt abban az esetben ker¨ ult elfogad´ asra, amennyiben legal´ abb az egyik m´ odszer elfogadta azt), ´es a metszet¨ uket ∩ (csak akkor jel¨ olt¨ unk sz´o¨ osszet´etelt FX-nek, amennyiben minden szab´ aly elfogadta azt). Eredm´enyeinket a 2. t´abl´ azat szeml´elteti. 3.2.
A szab´ alyalap´ u m´ odszerek eredm´ enyei
A 3. t´abl´ azat mutatja a szab´ alyalap´ u m´ odszereink eredm´eny´et a n´egy felhaszn´ alt korpuszon. J´ ol l´ atszik, hogy h´ arom korpusz eset´eben a leggyakoribb ige m´odszer bizonyul a legsikeresebbnek, j´oval magasabb F-m´ert´eket ´er el, mint a t¨ obbi m´odszer vagy azok kombin´aci´ oi. Az egyetlen kiv´etelt a SzegedParalellFX angol allom´ ´ anya jelenti, ahol is az ige ´es t˝ o m´ odszerek metszete a legeredm´enyesebb. Ez val´ osz´ın˝ uleg annak k¨osz¨ onhet˝ o, hogy a korpuszban nagy ar´anyban fordulnak el˝o tipikus f˝ on´ev + tipikus ige kombin´aci´ ok. A v´egz˝ od´es jellemz˝o a SzegedParalellFXen bizonyul hasznos inform´aci´ onak, a m´asik k´et korpuszon ¨onmag´ aban m´eg ront
Szeged, 2011. december 1–2.
63
2. t´ abl´ azat. Szab´ alyalap´ u megk¨ ozel´ıt´esek eredm´enyei, fed´es/pontoss´ ag/Fm´ert´ek. Megk¨ ozel´ ıt´ es POS V´ eg Ige T˝ o V´ eg ∩ Ige V´ eg ∪ Ige V´ eg ∩ T˝ o V´ eg ∪ T˝ o Ige ∩ T˝ o Ige ∪ T˝ o V´ eg ∩ Ige ∩ T˝ o V´ eg ∪ Ige ∪ T˝ o
Wiki50 77,14 6,32 11,68 17,14 9,47 12,20 55,24 34,32 42,34 54,29 7,72 14,64 9,52 43,48 15,64 62,86 19,64 29,93 14,29 10,79 12,30 57,14 7,60 13,42 40,95 42,57 41,75 68,57 8,93 15,81 8,57 52,94 14,75 70,48 8,70 15,48
ParalellFX 79,40 5,07 15,24 10,5 54,56 28,81 61,55 7,66 10,24 48,31 59,64 19,02 11,07 11,14 65,71 7,74 43,45 38,87 72,74 8,25 7,62 47,41 74,29 8,05
angol 9,52 12,43 37,73 13,62 16,90 28,84 11,10 13,84 41,03 14,82 13,13 14,53
ParalellFX 65,55 7,67 21,45 12,79 43,83 30,19 21,05 16,14 15,15 40,36 50,13 18,21 19,30 16,31 23,19 12,90 15,01 46,09 49,87 20,52 13,67 46,36 50,54 17,77
magyar 13,74 16,02 35,76 18,27 22,03 26,71 17,68 16,58 22,65 29,07 21,12 26,30
Szeged Treebank 74,56 5,75 10,69 19,30 6,53 9,76 58,77 24,28 34,36 16,67 7,85 10,67 18,42 32,81 23,60 59,65 12,39 20,51 15,79 8,37 10,94 20,18 6,32 9,62 16,67 35,19 22,62 58,77 14,44 23,18 15,79 39,13 22,50 59,65 11,97 19,94
is az eredm´enyeken, viszont kieg´esz´ıtve a leggyakoribb ige jellemz˝ovel m´ar minden¨ utt jav´ıt a rendszer teljes´ıtm´eny´en. A sz´ot˝ o jellemz˝o pedig a Szeged Korpusz kiv´etel´evel mindenhol javul´ast eredm´enyezett: feltehet˝oleg ar´ anyaiban kevesebb a tipikus (ig´eb˝ ol k´epzett) f˝ on´evi komponenst tartalmaz´ o f´elig kompozicion´ alis szerkezet ebben a korpuszban, mint a t¨obbiben. M´ıg a leggyakoribb ige az igei komponensre, a sz´ ot˝ o ´es v´egz˝ od´es pedig a f˝on´evi komponensre tesz megszor´ıt´ asokat. ´Igy a m´ odszerek uni´ oja a fed´esre van j´ o hat´ assal, hiszen a nem tipikus f˝on´ev + tipikus ige ´es a tipikus f˝on´ev + nem tipikus ige p´arokat egyar´ ant meg lehet tal´alni. A m´odszerek metszete pedig a pontoss´ agot jav´ıtja, hiszen ´ıgy csak a tipikus f˝ on´ev + tipikus ige p´arokat tal´aljuk meg. 3. t´ abl´ azat. Szab´ alyalap´ u megk¨ ozel´ıt´esek eredm´enyei a Szeged Treebanken, fed´es/pontoss´ ag/F-m´ert´ek. Megk¨ ozel´ ıt´ es POS V´ eg Ige T˝ o V´ eg ∩ Ige V´ eg ∪ Ige V´ eg ∩ T˝ o V´ eg ∪ T˝ o Ige ∩ T˝ o Ige ∪ T˝ o V´ eg ∩ Ige ∩ T˝ o V´ eg ∪ Ige ∪ T˝ o
pred. POS 74,56 5,75 10,69 19,30 6,53 9,76 58,77 24,28 34,36 16,67 7,85 10,67 18,42 32,81 23,60 59,65 12,39 20,51 15,79 8,37 10,94 20,18 6,32 9,62 16,67 35,19 22,62 58,77 14,44 23,18 15,79 39,13 22,50 59,65 11,97 19,94
etalon POS 84,21 6,70 12,41 21,93 7,35 11,01 69,30 28,11 40,00 20,18 9,35 12,78 20,18 35,38 25,70 71,05 14,57 24,18 18,42 9,55 12,57 23,68 7,38 11,25 19,30 38,60 25,73 70,18 17,02 27,40 17,54 41,67 24,69 71,05 14,14 23,58
pred. POS + szint. 76,32 6,92 12,69 19,30 7,64 10,95 60,53 26,44 36,80 16,67 9,00 11,69 18,42 35,00 24,14 61,40 14,31 23,22 15,79 9,68 12,00 20,18 7,35 10,77 16,67 38,00 23,17 60,53 16,35 25,75 15,79 41,86 22,93 61,40 13,81 22,54
etalon POS 85,09 7,77 21,93 8,56 70,18 29,20 20,18 10,80 20,18 35,94 71,93 16,33 18,42 11,11 23,68 8,54 19,30 40,00 71,05 18,75 17,54 42,55 71,93 15,83
+ szint. 14,23 12,32 41,24 14,07 25,84 26,62 13,86 12,56 26,04 29,67 24,84 25,95
A Szeged Korpusz etalon sz´ofaji annot´ aci´ oja lehet˝ ov´e tette azt is, hogy ¨osszevethess¨ uk a magyarlanc ´ altal elemzett ´es az etalon sz´ofaji k´odokat tartalmaz´o sz¨ovegeken a szab´ alyalap´ u m´ odszerek teljes´ıtm´eny´et. Az eredm´enyeket a 3. t´abl´azat els˝o k´et oszlopa mutatja. Egy´ertelm˝ uen kider¨ ul, hogy jobb eredm´enyeket lehet el´erni, ha az etalon k´ezi c´ımk´eket haszn´ aljuk, hiszen ´ıgy a sz´ ofaji egy´ertelm˝ us´ıt´es hib´ ai kik¨ usz¨ ob¨ ol˝odnek. K¨ ul¨ on¨ osen l´ atv´ anyos javul´as ´erhet˝ o el a leg-
64
VIII. Magyar Számítógépes Nyelvészeti Konferencia
gyakoribb ige jellemz˝o eset´eben, ami val´osz´ın˝ uleg arra vezethet˝ o vissza, hogy a magyarlanc gyakran min˝os´ıti hib´ asan mell´ekn´evnek a m´ ult idej˝ u ig´eket (amelyek homon´ımek az ige befejezett mell´ekn´evi igen´evi alakj´ aval), p´eld´ aul adott. Az etalon c´ımk´ek haszn´ alata ´atlagosan 2,75% javul´ ast eredm´enyezett az F-m´ert´ekben. 4. t´ abl´ azat. Szab´ alyalap´ u megk¨ozel´ıt´esek eredm´enyei szintaktikai inform´aci´ oval (fed´es/pontoss´ ag/F-m´ert´ek). Megk¨ ozel´ıt´ es POS V´eg Ige T˝ o V´eg ∩ Ige V´eg ∪ Ige V´eg ∩ T˝ o V´eg ∪ T˝ o Ige ∩ T˝ o Ige ∪ T˝ o V´eg ∩ Ige ∩ T˝ o V´eg ∪ Ige ∪ T˝ o
Wiki50 73,33 8,85 15,79 15,24 11,03 12,80 53,33 42,11 47,06 51,43 10,87 17,94 7,62 38,10 12,70 60,95 24,90 35,36 13,33 12,73 13,02 53,33 10,53 17,58 40,00 50,00 44,44 64,76 12,45 20,89 7,62 50,00 13,22 66,67 12,15 20,56
ParalellFX angol 72,98 6,89 12,59 14,52 12,82 13,62 51,19 34,82 41,45 56,19 10,16 17,21 9,76 55,03 16,58 55,95 23,06 32,66 10,60 14,02 12,07 60,12 10,18 17,40 40,48 44,04 42,18 66,90 10,99 18,88 7,26 53,98 12,80 68,33 10,64 18,42
Szeged Treebank 76,32 6,92 12,69 19,30 7,64 10,95 60,53 26,44 36,80 16,67 9,00 11,69 18,42 35,00 24,14 61,40 14,31 23,22 15,79 9,68 12,00 20,18 7,35 10,77 16,67 38,00 23,17 60,53 16,35 25,75 15,79 41,86 22,93 61,40 13,81 22,54
Mivel sz´amos kor´ abbi munka szintaktikai inform´ aci´ob´ ol kiindulva k´ıs´erelte meg a f´elig kompozicion´alis szerkezetek automatikus felismer´es´et, mi is fokozott figyelmet ford´ıtottunk a szintaxis szerep´ere. Legjobb tudom´ asunk szerint magyar nyelv˝ u dependenciaelemz˝ o m´eg nem a´ll rendelkez´esre, ´ıgy magyar nyelvi m´er´eseinkhez a Szeged Korpusz etalon dependenciaannot´ aci´oj´ at haszn´altuk fel. Amennyiben puszt´an szintaktikai inform´ aci´ ot haszn´alunk fel a f´elig kompozicion´ alis szerkezetek azonos´ıt´ as´ ara, azaz a korpuszban el˝ofordul´ o ige-t´argy p´arokat min˝os´ıt¨ unk annak, csup´ an 17,69-es F-m´ert´eket ´er¨ unk el a Wiki50 korpuszon (fed´es: 59,51 ´es pontoss´ ag: 10,39). Mivel m´ odszereink arra ´ep¨ ulnek, hogy a baseline m´ odszer a´ltal meghat´ arozott lehets´eges FX-ek k¨ or´eb˝ ol tov´ abbi megszor´ıt´ asok seg´ıts´eg´evel v´alasszuk ki a t´enyleges FX-eket, ´ıgy olyan baseline-t ´erdemes v´ alasztani, amely nagy fed´eshez vezet. E c´elnak pedig a POS-szab´ alyok sokkal ink´ abb megfelelnek (76,63-as fed´es a Wiki50 korpuszon), ´ıgy a tov´ abbiakban a szintaktikai inform´aci´ ok hozz´ aadott ´ert´eket vizsg´aljuk meg az egyes korpuszokon. azat ¨osszevet´es´eb˝ol l´ atszik, hogy a szintaktikai inform´aci´ o A 3. ´es 4. t´abl´ jav´ıt a rendszer teljes´ıtm´eny´en, k¨ ul¨ on¨ osen a leggyakoribb ige (´es kombin´ aci´ oi) eset´eben. Az a´tlagos javul´ as F-m´ert´ekben 2,3% a Wiki50, 2,26% a SzegedParalellFX ´es 1,52% a Szeged Korpusz eset´eben. A 4. t´ abl´ azat utols´ o oszlopa azt is mutatja, hogy a Szeged Korpuszon akkor ´erj¨ uk el a legjobb eredm´enyeket, ha etalon sz´ofaji k´ odokat ´es szintaktikai inform´aci´ ot haszn´alunk az FX-ek azonos´ıt´ as´aban, ´ atlagosan 4%-kal jav´ıtva az F-m´ert´eket a predik´ alt sz´ ofaji k´ odokra ´ep¨ ul˝o rendszerhez k´epest.
Szeged, 2011. december 1–2. 3.3.
65
G´ epi tanul´ asi m´ odszerek
Sz´ot´ arilleszt´eses megk¨ ozel´ıt´eseket haszn´ altunk baseline megold´ asnak a g´epi tanul´ asi m´ odszerek eset´eben. Mivel mindk´et nyelven rendelkez´es¨ unkre a´llt k´et annot´ alt korpusz, ez´ert az ezeken el˝ ofordul´ o FX-ekb˝ ol lemmatiz´alt list´ akat hoztunk l´etre. Az azonos nyelv˝ u korpuszokra a m´asikr´ol gy˝ ujt¨ ott list´ at jel¨olt¨ uk r´a. ´Igy p´eld´ aul a Wiki50 eset´eben az angol SzegedParallelFX-r˝ ol gy˝ ujt¨ott lista ker¨ ult illeszt´esre. A k¨ ul¨ onb¨oz˝ o korpuszokon ´ıgy el´ert eredm´enyek a 5. t´ abl´ azatban l´ athat´ ok. 5. t´ abl´ azat. A sz´ ot´ aralap´ u megk¨ ozel´ıt´es eredm´enyei. Korpusz Wiki50 SzegedParalellFX angol SzegedParalellFX magyar Szeged Treebank
Fed´ es Pontoss´ ag F-m´ ert´ ek Sz´ ot´ arm´ eret 8,57 81,81 15,51 587 9,01 73,07 16,04 287 29,5 40,14 34,01 1215 30,7 39,77 34,65 578
Az eddig ismertetett megk¨ozel´ıt´eseken t´ ul implement´ altuk az FXtagger nev˝ u, g´epi tanul´o alap´ u megk¨ ozel´ıt´es¨ unket is. Vizsg´ alatainkban a Conditional Random Fields (CRF) [17] szekvenci´alis tanul´ o MALLET [18] implement´ aci´ oj´ at haszn´altuk, az al´ abbi alapjellemz˝okkel ([19] alapj´ an a feladat saj´ ats´agaira szabva): – Felsz´ıni jellemz˝ ok: kis/nagybet˝ us kezdet, sz´ohossz, a sz´o belsej´eben el˝ ofordul´ o k¨ ul¨ onleges karakterek (sz´amok, nagybet˝ uk stb.), karakter bi- ´es trigramok, toldal´ekok; – Sz´ ot´ arak: szem´elynevek, c´egnevek, helynevek, a leggyakoribb funkci´ oig´ek, f˝ onevek sz´ ot¨ ovei; – Gyakoris´ agi jellemz˝ ok: a token gyakoris´aga, a kis- ´es nagybet˝ us alakok el˝ ofordul´ as´ anak ar´anya, a nagybet˝ us ´es mondatkezd˝ o alakok el˝ ofordul´ as´ anak ar´ anya; – Nyelvi jellemz˝ ok: sz´ ofaj, f¨ ugg˝ os´egi viszonyok; – K¨ ornyezeti jellemz˝ ok: mondatbeli poz´ıci´ o, a sz´ o k¨ ornyezet´eben el˝ ofordul´ o o k¨ or¨ ul stb. leggyakoribb szavak, id´ez˝ ojelek a sz´ Ezt az ´ altal´ anos jellemz˝oteret eg´esz´ıtett¨ uk a szab´ alyalap´ u megk¨ ozel´ıt´esek jellemz˝ okre transzform´ alt verzi´oival. ´ıgy a leggyakoribb ige ´es a sz´ ot˝ o m´ odszereket sz´ ot´ aralap´ u jellemz˝ok´ent, a POS-szab´ alyokat ´es a mondat szavai k¨ ozti szintaktikai kapcsolatokat nyelvi jellemz˝ ok´ent, m´ıg a v´egz˝ od´es megk¨ ozel´ıt´est felsz´ıni jellemz˝ ok´ent alkalmaztuk a CRF tan´ıt´ asa sor´ an. Mivel a magyar nyelv r´eszletesebb morfol´ ogiai elemz´est tesz lehet˝ ov´e, ez´ert magyar nyelv˝ u g´epi tanul´as sor´an a jellemz˝ oket m´eg kieg´esz´ıtett¨ uk ezekkel a r´eszletesebb jellemz˝okkel. Tov´ abb´ a minden esetben sz´ ot´ aralap´ u jellemz˝ok´ent haszn´ altuk a sz´ot´ arilleszt´es baseline megk¨ ozel´ıt´esn´el haszn´ alt list´ akat.
66
VIII. Magyar Számítógépes Nyelvészeti Konferencia
K´ıs´erleteinkhez a korpuszokat 70%:30% ar´anyban osztottuk fel tan´ıt´ o ´es ki´ert´ekel˝o adatb´ azisra. Mivel a korpuszok t¨obb t´em´ aban is tartalmaznak sz¨ovegeket (´ ujs´agcikkek, sz´epirodalom, tank¨ onyvi mondatok stb.), minden egyes dokumentumot a fenti ar´anyoknak megfelel˝oen osztottunk fel a tan´ıt´ o ´es a ki´ert´ekel˝ o adatb´ azis k¨ oz¨ ott. Eredm´enyeink a 6. t´abl´ azatban l´athat´ ok. 6. t´ abl´ azat. A g´epi tanult megk¨ozel´ıt´es eredm´enyei a k¨ ul¨onb¨ oz˝ o korpuszokon. Korpusz Wiki50 SzegedParalellFX angol SzegedParalellFX magyar Szeged Treebank etalon Szeged Treebank predik´ alt
3.4.
Fed´ es Pontoss´ ag F-m´ ert´ ek 42,86 56,96 48,91 37,91 55,55 45,07 61,0 67,78 64,21 44,73 62,96 52,03 43,86 56,82 49,51
A g´ epi tanul´ asi m´ odszerek eredm´ enyei
A sz´ot´ aralap´ u megk¨ ozel´ıt´esek eredm´enyeiben igen nagy kontraszt mutatkozott a k´et vizsg´ alt nyelvben. Ez a m´odszer magyar nyelv˝ u korpuszokon k´etszer jobb F-m´ert´eket ´ert el, mint az angol nyelv˝ ueken. Ugyanakkor az angol nyelv˝ u korpuszokon a megk¨ ozel´ıt´es pontoss´aga j´ oval magasabb volt, mint a magyarok´en. A fed´esben mutatkoz´ o k¨ ul¨onbs´egeket az magyar´azhatja, hogy a magyar nyelv˝ u korpuszok j´ oval homog´enebbek voltak az angolok´en´al. Az enciklop´edia dom´en (Wiki50), mely t¨obb k¨ ul¨ onb¨oz˝ o t´em´ at ¨ olel fel, eg´eszen m´ as jelleg˝ u, mint a homog´enebb SzegedParallelFX, nagyr´eszt u ´js´agcikb˝ol ´es reg´enyekb˝ol a´ll´ o dom´en, mely hat´ assal lehet az FX-ek eloszl´as´ara is. Mivel a k´et magyar nyelv˝ u korpusz mindegyik´eben tal´ alhat´ ok u ´js´agcikkek, ez´ert a bel˝ ol¨ uk kinyert FX-list´ ak kev´esb´e voltak elt´er˝ oek. A SzegedParalellFX korpuszon m´ert eredm´enyek k¨ ozti k¨ ul¨ onbs´egeket magyar´ azhatja az alkalmazott list´ ak m´erete. Mivel a Szeged Treebank j´ oval nagyobb, mint a Wiki50, ez´ert az ezekb˝ ol a korpuszokb´ol ¨ossze´ all´ıtott list´ ak m´erete is nagyon elt´er˝ o. Ugyanakkor ezen baseline megk¨ ozel´ıt´es pontoss´ agi ´ert´ekei szerint a f´elig kompozicion´ alis szerkezetek kev´esb´e t¨ obb´ertelm˝ uek angolban, mint a magyar nyelvben, azaz a list´ akban el˝ ofordul´o FX-jel¨ olt nagyobb val´osz´ın˝ us´eggel lesz a val´os´ agban is FX. Az 5. t´ abl´ azat pontoss´ agi ´ert´ekei is igazolj´ ak, hogy a f´elig kompozicion´alis szerkezetek automatikus azonos´ıt´ asa sor´ an hasznos inform´aci´ o lehet a kontextus is. ´Igy p´eld´ aul a titokban tartja a kapcsolatot Imr´evel sz¨ ovegr´eszletben a titokban tarja ´es a tartja a kapcsolatot is lehets´eges FX. Ebben az esetben a sz¨ ovegkontextus seg´ıthet eld¨onteni, hogy melyik szekvencia az adott sz¨ovegben az FX. A foly´ o sz¨ ovegekben el˝ ofordul´ o f´elig kompozicion´ alis szerkezetek automatikus azonos´ıt´ asa ´ıgy nagyban seg´ıtheti az olyan alkalmaz´ asokat, mint a g´epi ford´ıt´ as vagy az inform´aci´ okinyer´es. Ugyanakkor el˝ ofordulhat olyan eset is, amikor a feloen a sz¨ ovegb˝ ol kigy˝ ujthet˝ o FX-ek list´aja ´erdekli alapvet˝oen. haszn´al´ ot alapvet˝ Ebben az esetben elegend˝ o minden potenci´ alis FX azonos´ıt´ asa a sz¨ ovegben, nem
Szeged, 2011. december 1–2.
67
sz¨ uks´eges annak eld¨ ont´ese, hogy az adott szekvencia FX-k´ent viselkedett-e az adott kontexusban. Az FXtaggerrel el´ert eredm´enyek az 6. t´abl´ azatban l´athat´ oak. A g´epi tanul´ o megk¨ ozel´ıt´essel el´ert eredm´enyek minden korpuszon meghaladt´ak mind a sz´ ot´ aralap´ u baseline m´odszer, mind a szab´ alyalap´ u rendszerek eredm´enyeit. Vagyis a f´elig kompozicion´ alis szerkezetek automatikus azonos´ıt´ as´ ara hat´ekony reprezent´ aci´ ot voltunk k´epesek adni a CRF line´ aris tanul´ o sz´am´ ara kib˝ ov´ıtett jellemz˝ot´er seg´ıts´eg´evel. Mint ahogy megfigyelhett¨ uk, a korpuszokr´ ol gy˝ ujt¨ ott sz´ot´ arak kedvez˝o hat´ assal voltak a pontoss´ agra, m´ıg a POS-szab´ alyok a fed´est ´ jav´ıtott´ak. A g´epi tanul´o m´odszerek ezen jellemz˝ ok kedvez˝o kombin´al´as´aval ´erhett´ek el a legjobb eredm´enyeket a k¨ ul¨ onb¨oz˝ o korpuszokon. Szembet˝ un˝ o, hogy az angol nyelv˝ u korpuszokon el´ert eredm´enyek szer´enyebbek a magyar nyelven el´ertekn´el. Ezt magyar´azhatja, hogy megk¨ozel´ıt´eseink alapvet˝ oen a morfol´ ogiai jellemz˝okre t´ amaszkodnak, ´ıgy hat´ekonyabbnak bizonyultak a morfol´ ogiailag j´ oval gazdagabb magyar nyelv eset´eben. Az etalon POSc´ımk´ek pozit´ıv hat´ as´ at j´ol mutatja a Szeged Treebanken m´ert k´et eredm´eny¨ unk. A SzegedParalellFX korpusz magyar nyelv˝ u v´ altozat´ an el´ert legmagasabb Fm´ert´eket t¨ obbek k¨ozt az ebben az esetben alkalmazott nagyobb FX-lista magyar´azhatja.
4.
Eredm´ enyek
Az ´ altalunk defini´ alt szab´ alyalap´ u megk¨ozel´ıt´esek eredm´enyei azt igazolj´ ak, hogy m´ ar sek´ely morfol´ ogiai elemz´esek seg´ıts´eg´evel is versenyk´epes eredm´enyeket lehet el´erni f´elig kompozicion´ alis szerkezetek automatikus azonos´ıt´ asa sor´an. Hat´ekony jellemz˝onek bizonyult a lemmatiz´ al´ as, sz´ ot¨ oves´ıt´es, sz´ ofaji egy´ertelm˝ us´ıt´esen k´ıv¨ ul egy funkci´oige-lista is. Ugyanakkor a szintaktikai inform´ aci´ ok integr´ al´ asa tov´ abb jav´ıtja a rendszer teljes´ıtm´eny´et. A f´elig kompozicion´ alis szerkezetek felismer´ese enn´elfogva leghat´ekonyabban a szintaktikai elemz´est k¨ ovet˝oen, egy ut´ ofeldolgoz´ o l´ep´esben val´osulhat meg, annak v´egeredm´eny´et pedig j´ ol tudj´ak hasznos´ıtani a magasabb rend˝ u alkalmaz´asok, p´eld´ aul az inform´aci´ okinyer´es ´es a g´epi ford´ıt´ as. A k¨ ul¨ onb¨oz˝ o szab´ alyalap´ u m´ odszerek jellemz˝ okre val´ o transzform´al´ as´ aval ´ megvizsg´ altuk a g´epi tanul´o algoritmusok hat´ekonys´ ag´at is. Altal´ anosan elmondhat´ o, hogy a g´epi tanul´o m´ odszerekkel magasabb F-m´ert´eket tudtunk el´erni, mint a szab´ alyalap´ u megk¨ ozel´ıt´esekkel. Ugyanakkor az eredm´enyekb˝ol kit˝ unik, hogy a szab´ alyalap´ u m´odszerek jobb fed´est tudnak el´erni, m´ıg a g´epi tanul´o megk¨ozel´ıt´es j´ or´eszt j´ o pontoss´ag´ anak k¨ osz¨ onheti siker´et. Ahogy a 6. t´abl´ azatban is l´atszik, a g´epi tanul´o megk¨ozel´ıt´es mind a n´egy vizsg´alt korpuszon 50% f¨ol¨otti pontoss´agot volt k´epes el´erni, m´ıg a szab´ alyalap´ u megk¨ ozel´ıt´esek vagy egy´ altal´ an nem k´epesek ilyen magas pontoss´ agra, vagy csak igen alacsony fed´es mellett.
68
VIII. Magyar Számítógépes Nyelvészeti Konferencia
1. ´abra. Szab´ alyalap´ u eredm´enyek a korpuszokon.
5.
Az angol ´ es magyar eredm´ enyek ¨ osszevet´ ese
Az angol ´es magyar korpuszokon el´ert eredm´enyeket az 1. ´ abra szeml´elteti. Bizonyos m´ odszerek eset´eben alapvet˝o k¨ ul¨ onbs´egeket figyelhet¨ unk meg a nyelvek k¨ oz¨ ott. ´erdekes m´odon a leggyakoribb ige ´es a sz´ ot˝ o metszete sokkal jobb eredm´enyt ´ert el az angol korpuszokon, mint a magyarokon, ugyanakkor e k´et m´ odszer uni´ oja a magyar korpuszokon teljes´ıt sokkal jobban. Ennek az lehet az oka, hogy feltehet˝oleg az angol korpuszokban t¨ obb olyan FX fordul el˝ o, amelyek tipikus ige ´es tipikus f˝on´ev kombin´ aci´ oja, m´ıg a magyarokban a tipikus ige + nem tipikus f˝ on´ev p´arok vannak t´ uls´ ulyban. Tov´abbi sz´ amottev˝ o elt´er´est figyelhet¨ unk meg mindh´ arom m´odszer metszete kapcs´an: sokkal jobb eredm´enyhez vezet a magyarban, mint az angolban. Ez tal´ an azzal magyar´azhat´ o, hogy a metszet megk¨oveteli, hogy egy igei t¨ov˝ u f˝ on´ev adott k´epz˝ oben v´egz˝ odj¨ on. A magyarban ez defin´ıci´ o szerint megval´ osul (ig´eb˝ol k´epz˝ ok seg´ıts´eg´evel tudunk f˝ onevet k´epezni: d¨ ont - d¨ ont´es), ugyanakkor az angolban a konverzi´o m˝ uvelete is l´etrehozhat ig´eb˝ol f˝ onevet (p´eld´ aul walk - walk ). Ut´ obbi megfelel a sz´ot˝ o defin´ıci´ oj´ anak, de a v´egz˝ od´es´enek m´ar nem, ´ıgy az ilyen t´ıpus´ u f˝ oneveket tartalmaz´o FX-eket nem lehets´eges azonos´ıtani a m´ odszerek metszet´evel. A nyelvek k¨ ozti elt´er´esek egy u ´jabb vet¨ ulet´et jelenti a leggyakoribb ig´ek sz´ama. M´ıg az angolban a 12 leggyakoribb ig´evel lehetett 40% k¨or¨ uli eredm´enyeket el´erni, addig a magyarban nagyobb (17 elem˝ u) igelist´ aval is szer´enyebb eredm´enyekhez jutottunk. E jelens´eg magyar´ azat´ at keresve o¨sszevetett¨ uk a SzegedParalellFX k´et r´esz´eben tal´ alhat´ o FX-ig´ek sz´am´ at. M´ıg angolban o¨sszesen 100 ige fordult el˝o, melyek eloszl´asa megfelel a Zipf-t¨ orv´enynek, addig a magyarban 179 ige fordult el˝o, kiegyenl´ıtettebb eloszl´asban. Teh´ at az angolban kevesebb
Szeged, 2011. december 1–2.
69
ige is nagyobb h´anyad´ at fedi le az FX-eknek, mint a magyarban. Mindez azt is mutatja, hogy az FX-igelist´ak b˝ ov´ıt´es´evel v´ arhat´ oan jobb eredm´enyeket lehet el´erni mindk´et nyelven.
6.
¨ Osszegz´ es
Ebben a cikkben bemutattuk szab´ alyalap´ u ´es g´epi tanult m´odszereken alapul´o megk¨ ozel´ıt´eseinket, melyek mind angol, mind magyar nyelven k´epesek a f´elig kompozicion´alis szerkezetek automatikus azonos´ıt´ as´ ara sek´ely morfol´ ogiai jellemz˝ ok seg´ıts´eg´evel. Eredm´enyeink ¨osszevethet˝ ok m´ as, szintaxison alapul´o megk¨ ozel´ıt´esekkel. M´ odszereinket k´et k¨ ul¨ onb¨oz˝ o nyelven ´es h´ arom korpuszon tesztelt¨ uk, melyeken hasonl´ o eredm´enyeket ´ert¨ unk el. Eredm´enyeink azt mutatj´ak, hogy mind angol, mind magyar vonatkoz´ asban egy adott nyelvre ´es dom´enre szabott funkci´ oige-lista ´es a f˝ on´ev sz´ ot¨ ove bizonyul a leghasznosabb jellemz˝onek, illetve az angol anyagban a szintaktikai jellemz˝ok be´ep´ıt´ese is sz´ amottev˝ oen jav´ıt a rendszer teljes´ıtm´eny´en. G´epi tanult megk¨ozel´ıt´esnek line´aris CRF tanul´o algoritmust alkalmaztunk, melynek alap jellemz˝oter´et kieg´esz´ıtett¨ uk a szab´ alyalap´ u m´ odszerek jellemz˝ okre transzform´ alt verzi´oival. FXtagger nev˝ u, g´epi tanul´o megosszes vizsg´alt korpuszon. k¨ ozel´ıt´es¨ unk ´erte el a legmagasabb F-m´ert´ekeket az ¨
K¨ osz¨ onetnyilv´ an´ıt´ as A kutat´ as – r´eszben – a MASZEKER ´es BELAMI k´ odnev˝ u projektek keret´eben ¨ ´ a Nemzeti Fejleszt´esi Ugyn¨ oks´eg, illetve a TAMOP-4.2.1/B-09/1/KONV-20100005 jel˝ u projekt keret´eben az Eur´opai Uni´o t´ amogat´ as´ aval, az Eur´opai Region´ alis Fejleszt´esi Alap ´es az Eur´opai Szoci´ alis Alap t´ arsfinansz´ıroz´ as´ aval val´ osult meg.
Hivatkoz´ asok 1. Vincze, V., Nagy T., I., Berend, G.: Multiword expressions and named entities in the Wiki50 corpus. In: Proceedings of RANLP 2011, Hissar, Bulgaria (2011) 2. Van de Cruys, T., Moir´ on, B.n.V.: Semantics-based multiword expression extraction. In: Proceedings of the Workshop on a Broader Perspective on Multiword Expressions. MWE ’07, Morristown, NJ, USA, Association for Computational Linguistics (2007) 25–32 3. Cook, P., Fazly, A., Stevenson, S.: Pulling their weight: exploiting syntactic forms for the automatic identification of idiomatic expressions in context. In: Proceedings of the Workshop on a Broader Perspective on Multiword Expressions. MWE ’07, Morristown, NJ, USA, Association for Computational Linguistics (2007) 41–48 4. Bannard, C.: A measure of syntactic flexibility for automatically identifying multiword expressions in corpora. In: Proceedings of the Workshop on a Broader Perspective on Multiword Expressions. MWE ’07, Morristown, NJ, USA, Association for Computational Linguistics (2007) 1–8
70
VIII. Magyar Számítógépes Nyelvészeti Konferencia
5. Samardˇzi´c, T., Merlo, P.: Cross-lingual variation of light verb constructions: Using parallel corpora and automatic alignment for linguistic research. In: Proceedings of the 2010 Workshop on NLP and Linguistics: Finding the Common Ground, Uppsala, Sweden, Association for Computational Linguistics (2010) 52–60 6. Gurrutxaga, A., Alegria, I.n.: Automatic Extraction of NV Expressions in Basque: Basic Issues on Cooccurrence Techniques. In: Proceedings of the Workshop on Multiword Expressions: from Parsing and Generation to the Real World, Portland, Oregon, USA, Association for Computational Linguistics (2011) 2–7 7. Tu, Y., Roth, D.: Learning English Light Verb Constructions: Contextual or Statistical. In: Proceedings of the Workshop on Multiword Expressions: from Parsing and Generation to the Real World, Portland, Oregon, USA, Association for Computational Linguistics (2011) 31–39 8. Sass, B.: P´ arhuzamos igei szerkezetek k¨ ozvetlen kinyer´ese p´ arhuzamos korpuszb´ ol. In Tan´ acs, A., Vincze, V., eds.: VII. Magyar Sz´ am´ıt´ og´epes Nyelv´eszeti Konferencia, Szeged, Szegedi Tudom´ anyegyetem (2010) 102–110 9. Tan, Y.F., Kan, M.Y., Cui, H.: Extending corpus-based identification of light verb constructions using a supervised learning framework. In: Proceedings of the EACL Workshop on Multi-Word Expressions in a Multilingual Contexts, Trento, Italy, Association for Computational Linguistics (2006) 49–56 10. Vincze, V., Felv´egi, Z., R. T´ oth, K.: F´elig kompozicion´ alis szerkezetek a SzegedParalell angol–magyar p´ arhuzamos korpuszban. In Tan´ acs, A., Vincze, V., eds.: MSzNy 2010 – VII. Magyar Sz´ am´ıt´ og´epes Nyelv´eszeti Konferencia, Szeged, Hungary, University of Szeged (2010) 91–101 11. Vincze, V.: F´elig kompozicion´ alis szerkezetek a Szeged Korpuszban. In Tan´ acs, A., Szauter, D., Vincze, V., eds.: VI. Magyar Sz´ am´ıt´ og´epes Nyelv´eszeti Konferencia, Szeged, Szegedi Tudom´ anyegyetem (2009) 390–393 12. Toutanova, K., Manning, C.D.: Enriching the knowledge sources used in a maximum entropy part-of-speech tagger. In: Proceedings of EMNLP 2000, Stroudsburg, PA, USA, Association for Computational Linguistics (2000) 63–70 13. Klein, D., Manning, C.D.: Accurate unlexicalized parsing. In: Annual Meeting of the ACL. Volume 41. (2003) 423–430 14. Zsibrita, J., Vincze, V., Farkas, R.: Ismeretlen kifejez´esek ´es a sz´ ofaji egy´ertelm˝ us´ıt´es. In Tan´ acs, A., Vincze, V., eds.: MSzNy 2010 – VII. Magyar Sz´ am´ıt´ og´epes Nyelv´eszeti Konferencia, Szeged, Hungary, University of Szeged (2010) 275–283 15. Porter, M.F.: An algorithm for suffix stripping. In Sparck Jones, K., Willett, P., eds.: Readings in information retrieval. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA (1997) 313–316 16. Tr´ on, V., Gyepesi, G., Hal´ acsy, P., Kornai, A., N´emeth, L., Varga, D.: hunmorph: Open Source Word Analysis. In: Proceedings of the ACL Workshop on Software, Ann Arbor, Michigan, Association for Computational Linguistics (2005) 77–85 17. Lafferty, J.D., McCallum, A., Pereira, F.C.N.: Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In: Proceedings of the Eighteenth International Conference on Machine Learning. ICML ’01, San Francisco, CA, USA, Morgan Kaufmann Publishers Inc. (2001) 282–289 18. McCallum, A.K.: MALLET: A Machine Learning for Language Toolkit. http://mallet.cs.umass.edu (2002) 19. Szarvas, G., Farkas, R., Kocsor, A.: A Multilingual Named Entity Recognition System Using Boosting and C4.5 Decision Tree Learning Algorithms. In: Discovery Science. (2006) 267–278