XI. Magyar Számítógépes Nyelvészeti Konferencia
MSZNY 2015 Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika
Szeged, 2015. január 15-16. http://rgai.inf.u-szeged.hu/mszny2015
ISBN: 978-963-306-359-0 Szerkesztette: Tanács Attila, Varga Viktor és Vincze Veronika {tanacs, vinczev}@inf.u-szeged.hu
[email protected] Felelős kiadó: Szegedi Tudományegyetem, Informatikai Tanszékcsoport 6720 Szeged, Árpád tér 2. Nyomtatta: JATEPress 6722 Szeged, Petőfi Sándor sugárút 30–34. Szeged, 2015. január
Előszó Idén immár tizenegyedik alkalommal rendezzük meg Szegeden a Magyar Számítógépes Nyelvészeti Konferenciát 2015. január 15-16-án. A konferencia fő célkitűzése a kezdetek óta állandó maradt: a rendezvény fő profilja a nyelv- és beszédtechnológia területén végzett legújabb, illetve folyamatban levő kutatások eredményeinek ismertetése és megvitatása, mindemellett lehetőség nyílik különféle hallgatói projektek, illetve ipari alkalmazások bemutatására is. Nagy örömömre szolgál, hogy a hagyományoknak megfelelően a konferencia nagyfokú érdeklődést váltott ki az ország nyelv- és beszédtechnológiai szakembereinek körében. A konferenciafelhívásra idén is nagy számban beérkezett tudományos előadások közül a programbizottság 36-ot fogadott el az idei évben, így 24 előadás, 8 poszter-, illetve 4 laptopos bemutató gazdagítja a konferencia programját. A programban a magyar számítógépes nyelvészet rendkívül széles skálájáról találhatunk előadásokat a számítógépes szintaxis és szemantika területétől kezdve a véleménykinyerésen át a klinikai szövegek számítógépes feldolgozásáig. Nagy örömet jelent számomra az is, hogy Tihanyi László, az Európai Bizottság gépi fordítással foglalkozó szakértője, elfogadta meghívásunkat, és plenáris előadása is a konferenciaprogram szerves részét képezi. Ahogy az már hagyománnyá vált, idén is tervezzük a „Legjobb Ifjú Kutatói Díj” odaítélését, mellyel a fiatal korosztály tagjait kívánjuk ösztönözni arra, hogy kiemelkedő eredményekkel járuljanak hozzá a magyarországi nyelv- és beszédtechnológiai kutatásokhoz. Ezúton szeretném megköszönni a Neumann János Számítógép-tudományi Társaságnak szíves anyagi támogatásukat. Szeretnék köszönetet mondani a programbizottságnak: Vámos Tibor programbizottsági elnöknek, valamint Alberti Gábor, Kornai András, László János, Németh Géza, Prószéky Gábor és Váradi Tamás programbizottsági tagoknak. Szeretném továbbá megköszönni a rendezőbizottság és a kötetszerkesztők munkáját is. Csirik János, a rendezőbizottság elnöke Szeged, 2015. január
Tartalomjegyz´ ek
I. Ford´ıt´as G´epi ford´ıt´ as min˝os´eg´enek becsl´ese referencia n´elk¨ uli m´odszerrel . . . . . . . . Yang Zijian Gy˝ oz˝ o, Laki L´ aszl´ o, Pr´ osz´eky G´ abor
3
Synonym Acquisition from Translation Graph . . . . . . . . . . . . . . . . . . . . . . . . ´ Judit Acs
14
Comparison of Distributed Language Models on Medium-resourced Languages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . M´ arton Makrai
22
Statisztika megb´ızhat´ os´aga a nyelv´eszetben – Sz´eljegyzetek egy sz´ ot´ arb˝ ov´ıt´es u ¨r¨ ugy´en . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Nasz´ odi M´ aty´ as
34
II. Szintaxis, szemantika Konstituensf´ ak automatikus ´atalak´ıt´ asa f¨ ugg˝ os´egi f´akk´ a vagy k´ezi annot´ aci´ o? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Simk´ o Katalin Ilona, Vincze Veronika, Sz´ ant´ o Zsolt, Farkas Rich´ ard
49
Hungarian Data-Driven Syntactic Parsing in 2014 . . . . . . . . . . . . . . . . . . . . . ¨ Zsolt Sz´ ant´ o, Rich´ ard Farkas, Anders Bj¨ orkelund, Ozlem C ¸ etino˘glu, Agnieszka Fale´ nska, Thomas M¨ uller, Wolfgang Seeker
61
Nyelvadapt´aci´ o a t¨ obbszavas kifejez´esek automatikus azonos´ıt´ as´aban . . . . Nagy T. Istv´ an, Vincze Veronika
71
Lexik´ alis behelyettes´ıt´es magyarul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tak´ acs D´ avid, G´ abor Kata
83
Szemantikus szerepek automatikus c´ımk´ez´ese f¨ ugg˝ os´egi elemz˝ o alkalmaz´ as´ aval magyar nyelv˝ u gazdas´ agi sz¨ovegeken . . . . . . . . . . . . . . . . . . . Subecz Zolt´ an
95
´ III. Morfologia, korpusz Mennyis´egb˝ ol min˝os´eget: Nyelvtechnol´ ogiai kih´ıv´asok ´es tanuls´ agok az MNSz u ´j v´ altozat´ anak elk´esz´ıt´es´eben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Oravecz Csaba, Sass B´ alint, V´ aradi Tam´ as
VI
Tartalomjegyz´ek
Magyar nyelv˝ u webes sz¨ ovegek morfol´ ogiai ´es szintaktikai annot´ aci´ oja . . . 122 Vincze Veronika, Varga Viktor, Papp Petra Anna, Simk´ o Katalin Ilona, Zsibrita J´ anos, Farkas Rich´ ard Finnugor nyelv˝ u k¨ oz¨oss´egek nyelvtechnol´ogiai t´ amogat´ asa online tartalmak l´etrehoz´ as´aban . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 Benyeda Ivett, Koczka P´eter, Lud´ anyi Zs´ ofia, Simon Eszter, V´ aradi Tam´ as Olcs´o” morfol´ogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 ” Nov´ ak Attila
´ IV. Besz´edtechnologia K´etszint˝ u algoritmus spont´ an besz´ed proz´odiaalap´ u szegment´al´as´ara . . . . . 161 Beke Andr´ as, Mark´ o Alexandra, Szasz´ ak Gy¨ orgy, V´ aradi Viola K¨ ornyezetf¨ ugg˝ o akusztikai modellek l´etrehoz´ asa Kullback-Leibler– divergencia alap´ u klaszterez´essel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Gr´ osz Tam´ as, Gosztolya G´ abor, T´ oth L´ aszl´ o Hibajav´ıt´ asi id˝ o cs¨ okkent´ese magyar nyelv˝ u dikt´al´ orendszerben . . . . . . . . . 182 Szab´ o Lili, Tarj´ an Bal´ azs, Mihajlik P´eter, Fegy´ o Tibor
V. V´elem´enykinyer´es TrendMiner: politikai t´em´ aj´ u Facebook-¨ uzenetek feldolgoz´ asa ´es szoci´ alpszichol´ ogiai elemz´ese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Mih´ altz M´ arton, V´ aradi Tam´ as A v´elem´enyv´altoz´as azonos´ıt´ asa politikai t´em´ aj´ u k¨oz¨oss´egi m´edi´ aban megjelen˝ o sz¨ ovegekben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 ´ P´ olya Tibor, Csert˝ o Istv´ an, F¨ ul¨ op Eva, K˝ ov´ ag´ o P´ al, Mih´ altz M´ arton, V´ aradi Tam´ as Dom´enspecifikus polarit´ aslexikonok automatikus el˝ o´all´ıt´ asa magyar nyelvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 Hangya Viktor, Farkas Rich´ ard Egy magyar nyelv˝ u szentimentkorpusz l´etrehoz´ as´anak tapasztalatai . . . . . 219 Szab´ o Martina Katalin, Vincze Veronika Entit´ asorient´ alt v´elem´enydetekci´ o webes h´ıranyagokb´ ol . . . . . . . . . . . . . . . . 227 Hangya Viktor, Farkas Rich´ ard, Berend G´ abor
VI. Alkalmaz´asok Nem fel¨ ugyelt m´ odszerek alkalmaz´ asa relev´ ans kifejez´esek azonos´ıt´ as´ara ´es csoportos´ıt´ as´ara klinikai dokumentumokban . . . . . . . . . . . . . . . . . . . . . . . . 237 Sikl´ osi Borb´ ala, Nov´ ak Attila
Tartalomjegyz´ek
VII
Az enyhe kognit´ıv zavar automatikus azonos´ıt´ asa besz´ed´atiratok alapj´an . 249 Vincze Veronika, Hoffmann Ildik´ o, Szatl´ oczki Gr´eta, B´ır´ o Edit, Gosztolya G´ abor, T´ oth L´ aszl´ o, P´ ak´ aski Magdolna, K´ alm´ an J´ anos Besz´ed-zene lej´ atsz´asi list´ ak nyelvtechnol´ogiai vonatkoz´asa . . . . . . . . . . . . . 257 Benyeda Ivett, Jani M´ aty´ as, Luk´ acs Gergely
´ VII. Poszterbemutatok Gy´ ogyszermell´ekhat´ asok kinyer´ese magyar nyelv˝ u orvosi szaklapok sz¨ ovegeib˝ ol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 Farkas Rich´ ard, Mikl´ os Istv´ an, T´ım´ ar Gy¨ orgy, Zsibrita J´ anos Elliptikus list´ ak jogszab´alysz¨ ovegekben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 Hamp G´ abor, Syi, Markovich R´eka FinUgRevita: nyelvtechnol´ogiai eszk¨oz¨ok fejleszt´ese kisebbs´egi finnugor nyelvekre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 Horv´ ath Csilla, Kozm´ acs Istv´ an, Szil´ agyi Norbert, Vincze Veronika, ´ Nagy Agoston, Bog´ ar Edit, Fenyvesi Anna Az automatikus irregul´ arisz¨ onge-detekci´o sikeress´ege az irregularit´as mint´ azat´anak f¨ uggv´eny´eben magyar (spont´ an ´es olvasott) besz´edben . . . . 290 Mark´ o Alexandra, Csap´ o Tam´ as G´ abor Igei vonzatkeretek ´es tematikus szerepek felismer´ese nyelvi er˝ oforr´ asok osszekapcsol´as´aval egy kereslet-k´ın´alat elv˝ ¨ u sz¨ovegelemz˝oben . . . . . . . . . . . 298 Mih´ altz M´ arton, Indig Bal´ azs, Pr´ osz´eky G´ abor 28 milli´o szintaktikailag elemzett mondat ´es 500000 igei szerkezet . . . . . . . 303 Sass B´ alint u elemz˝o m˝ uk¨ od´ese ´es a koordin´aci´ o kezel´es´enek Egy kereslet-k´ın´alat elv˝ m´ odszere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 Sass B´ alint SzegedKoref: k´ezzel annot´ alt magyar nyelv˝ u koreferenciakorpusz . . . . . . . . 312 Vincze Veronika, Heged˝ us Kl´ ara, Farkas Rich´ ard
´ VIII. Laptopos bemutatok Yako: egy intelligens u ¨zenetv´ alt´ o alkalmaz´ as nyelvtechnol´ogiai kih´ıv´asai . . 323 Farkas Rich´ ard, Kojedzinszky Tam´ as, Zsibrita J´ anos, Wieszner Vilmos HumInA projektcsoport a eALIS1.1 b´ azis´an . . . . . . . . . . . . . . . . . . . . . . . . . 326 N˝ othig L´ aszl´ o, Alberti G´ abor Neticle – Megmutatjuk, mit gondol a web . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 Szekeres P´eter
VIII
Tartalomjegyz´ek
Magyar nyelv˝ u hasonl´ o tartalm´ u orvosi leletek azonos´ıt´ asa . . . . . . . . . . . . . 336 Wieszner Vilmos, Farkas Rich´ ard, Csizmadia S´ andor, Palk´ o Andr´ as
IX. Angol nyelvu˝ absztraktok Natural Language Processing for Mixed Speech-Music Playlist Generation 341 Ivett Benyeda, M´ aty´ as Jani, Gergely Luk´ acs The Reliability of Statistics in Linguistics Notes to a Dictionary Extension 342 M´ aty´ as Nasz´ odi Automatic Conversion of Constituency Trees into Dependency Trees or Manual Annotation? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 Katalin Ilona Simk´ o, Veronika Vincze, Zsolt Sz´ ant´ o, Rich´ ard Farkas SzegedKoref: A Manually Annotated Coreference Corpus of Hungarian . . 345 Veronika Vincze, Kl´ ara Heged˝ us, Rich´ ard Farkas Morphological and Syntactic Annotation of Hungarian Webtext . . . . . . . . . 346 Veronika Vincze, Viktor Varga, Petra Anna Papp, Katalin Ilona Simk´ o, J´ anos Zsibrita, Rich´ ard Farkas
N´evmutat´ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347