Szeged, 2014. január 16–17.
67
T¨ obbszint˝ u szintaktikai reprezent´ aci´ o kialak´ıt´ asa a Szeged FC Treebankben Simk´o Katalin Ilona1 , Vincze Veronika2 , Farkas Rich´ard1 1
Szegedi Tudom´ anyegyetem, TTIK, Informatikai Tansz´ekcsoport, ´ ad t´er 2. Szeged, Arp´
[email protected] [email protected] 2 Magyar Tudom´ anyos Akad´emia, Mesters´eges Intelligencia Kutat´ ocsoport, Szeged, Tisza Lajos k¨ or´ ut 103.
[email protected]
Kivonat Napjainkban a k´et leggyakrabban haszn´ alt szintaktikai reprezent´ aci´ os elm´elet a konstituens ´es a f¨ ugg˝ os´egi nyelvtan. A Szeged Treebank mondatai mindk´et le´ır´ assal manu´ alis annot´ altak. E cikkben besz´ amolunk egy olyan automatikusan ´ atalak´ıtott, t¨ obbszint˝ u reprezent´ aci´ o kialak´ıt´ as´ anak munk´ alatair´ ol, amely e k´et elemz´es el˝ ony¨ os tulajdons´ agait egyes´ıti a mondatok szintaktikai le´ır´ as´ aban.
1.
Bevezet´ es
A l´etez˝o szintaktikai elm´eletek k¨oz¨ ul jelenleg a k´et legink´abb elterjedt a konstituens ´es a f¨ ugg˝os´egi szintaxis. A Szeged Treebank mondatai is ezen reprezent´ aci´ os elm´eleteknek megfelel˝oen rendelkeznek manu´ alis konstituens [1] ´es f¨ ugg˝os´egi [2] elemz´esekkel. Mindk´et reprezent´ aci´ onak megvannak az el˝onyei ´es a h´ atr´ anyai is. A k´etf´ele elemz´es el˝onyeinek kihaszn´ al´ asa c´elj´ab´ ol k´esz¨ ul jelenleg automatikus ´atalak´ıt´ assal a Szeged Treebank le´ır´ as´ ara egy, a konstituens ´es f¨ ugg˝ os´egi f´ak, valamint a szavak morfol´ ogiai elemz´eseit felhaszn´ al´ o, ¨ osszetett szintaktikai reprezent´ aci´ o. A reprezent´ aci´ o kialak´ıt´ asakor hangs´ ulyozottan t¨oreksz¨ unk arra, hogy a magyar nyelv szintaktikai saj´ats´agait a lehet˝ o legnagyobb m´ert´ekben szem el˝ott tartsuk, ugyanakkor kiemelt szempontk´ent kezelj¨ uk azt is, hogy a l´etrej¨ ov˝ o treebank alkalmas legyen magyar nyelv˝ u statisztikai szintaktikai elemz˝ok betan´ıt´ as´ara is. Ebben a munk´aban r´eszletesen ismertetj¨ uk a t¨obbszint˝ u szintaktikai repreasa sor´ an k¨ovetett ir´anyelveket. P´eld´ akon kereszt¨ ul megmutatzent´ aci´ o kialak´ıt´ juk, hogyan kezel¨ unk egyes nyelvi jelens´egeket, valamint kit´er¨ unk arra is, hogy elemz´es¨ unk miben k¨ ul¨onb¨ ozik a Szeged Treebank eddigi v´altozataiban k¨ovetett f¨ ugg˝os´egi, illetve konstituens alap´ u megk¨ozel´ıt´esekt˝ ol, illetve sz´ ot ejt¨ unk arr´ ol is, hogy elemz´es¨ unk hogyan viszonyul a szint´en t¨ obb nyelvi elemz´esi szinttel oper´ al´ o LFG nyelvelm´eleti kerethez [3].
68
2.
X. Magyar Számítógépes Nyelvészeti Konferencia
Konstituens ´ es f¨ ugg˝ os´ egi nyelvtanok
B´ar a konstituens ´es a f¨ ugg˝ os´egi nyelvtanoknak is megvannak a h´atr´ anyai, m´egis ezek a legelterjedtebben haszn´ alt szintaktikai reprezent´ aci´ ok. A konstituens reprezent´ aci´ o a mondatokat o¨sszetev˝ okre bontja, amik o¨sszef¨ ugg˝o, jelent´essel b´ır´ o alkot´ oelemei a mondatnak. Tagmondatokra, azokon bel¨ ul pedig ig´ekre ´es b˝ov´ıtm´enyeikre osztja a mondatokat. A szigor´ u konstituens elemz´esi elm´eletben az ¨osszetev˝ ok nyelvtani szerep´ere csak a sz´orendb˝ ol k¨ ovetkeztethet¨ unk, ami k¨ot¨ ott sz´orend˝ u nyelvekn´el, mint az angol j´ ol m˝ uk¨ odhet, de a magyar eset´eben kev´esb´e m˝ uk¨od˝ ok´epes megold´ as. A sz´ am´ıt´ og´epes nyelv´eszetben l´eteznek megold´asok, amelyek az argumentumok felc´ımk´ez´es´evel jelzik a nyelvtani szerepet, de ezek a konstituens nyelvtan szigor´ uan vett elm´eleti nyelv´eszeti h´atter´ebe nem illenek bele. Nehezen elemezhet˝oek a nem folytonos konstituensek is, azaz azok az egybe tartoz´o elemek, amelyek nem egym´ as mellett jelennek meg a mondatban, mint p´eld´aul egyes mondatokban a genit´ıv eset˝ u birtokos ´es a birtoka. F¨ ugg˝os´egi elemz´esben a mondat szavai k¨ ozvetlen¨ ul egym´ ashoz kapcsol´ odnak absztrakt csom´opontok n´elk¨ ul. Ezzel j´ol reprezent´ alhat´ oak a nyelvtani szerepek a mondatban ´es a nem folytonos o¨sszetev˝ ok kezel´ese is egyszer˝ u feladat, elvesz´ıtj¨ uk viszont az ¨osszetartoz´o szavak egys´egk´ent val´ o kezel´es´enek lehet˝ os´eg´et. Mindemellett a tagmondatok ´es mell´erendel´esek kezel´ese p´eld´aul kev´esb´e intuit´ıv, mint a konstituens elemz´esben. Mivel mindk´et reprezent´ aci´ o tartalmaz fontos inform´ aci´ okat a magyar ´es a hasonl´ oan gazdag morfol´ ogi´ aj´ u nyelvek szintaxis´ara vonatkoz´ oan, nem eld¨ont¨ ott, hogy melyik a jobb le´ır´ as az ilyen nyelvek eset´eben. Hasonl´ oan, l´eteznek mind konstituens, mind f¨ ugg˝os´egi elemz˝ ok a magyar nyelvre, melyek a Szeged Treebank k¨ ul¨onb¨oz˝o v´ altozatain lettek betan´ıtva [4], azonban az automatikus elemz´esek ki´ert´ekel´ese sor´ an haszn´ alatos mutat´ok sem teszik le egy´ertelm˝ uen a voksot egyik reprezent´ aci´ o mellett sem. Ezen okokb´ol d¨ ont¨ ott¨ unk egy olyan szintaktikai reprezent´ aci´ o l´etrehoz´ asa mellett, amely egyes´ıti a k´et elm´elet ´altal k´odolt okat. inform´aci´ A Szeged Treebank mondatai k´ezzel annot´alt konstituens ´es f¨ ugg˝os´egi elemz´essel is el vannak l´ atva. A k´etf´ele reprezent´ aci´ o r´eszben megegyez˝o, r´eszben az adott reprezent´aci´ onak megfelel˝ o inform´aci´ okat k´ odol a mondat szintaktikai szerkezet´evel kapcsolatban. Ezeket az inform´aci´ okat egyes´ıtj¨ uk egy u ´j, t¨obbszint˝ u szintaktikai le´ır´ asban.
3.
T¨ obbszint˝ u szintaktikai reprezent´ aci´ o
A Szeged Treebank t¨ obbszint˝ u szintaktikai reprezent´ aci´ oja a lexikai funkcion´alis grammatika [3] elm´elethez hasonl´ o szerkezet˝ u ´es a m´ar l´etez˝ o, k´ezzel annot´ alt konstituens ´es f¨ ugg˝os´egi elemz´esek ´es morfol´ ogiai k´ odok felhaszn´ al´ as´ aval j¨on l´etre. Az LFG-hez hasonl´ oan a k¨ ul¨ onf´ele nyelvtani jellemz˝ oket k¨ ul¨ onb¨oz˝ o szinteken jelen´ıtj¨ uk meg.
Szeged, 2014. január 16–17.
69
A LFG reprezent´ aci´ ok t¨ obb k¨ ul¨ onb¨ oz˝ o strukt´ ur´ at rendelnek a mondatokhoz. Ezek k¨ ul¨onb¨oz˝ o szintaktikai szerkezeteken k´ıv¨ ul szemantikai, fonol´ ogiai ´es egy´eb nyelvi szintekhez kapcsol´ od´ o inform´aci´ okat is hozz´akapcsolnak a mondat kifejez´eseihez. A strukt´ ur´ak egy t¨obbszint˝ u reprezent´ aci´ o alkot´ or´eszeit k´epezik ebben a keretben, egy-egy kifejez´eshez a le´ır´ as t¨ obb k¨ ul¨onb¨ oz˝o szintj´er˝ ol m´ asm´as inform´aci´ ok t´ arsulnak ´es ezek egy¨ utt, egym´ assal ¨ osszekapcsolva alkotj´ ak az LFG elm´eletbeli reprezent´aci´ oj´at az adott mondatnak. Az LFG strukt´ ur´ ai k¨oz¨ ul a szintaktikai szempontb´ol legalapvet˝obb c- ´es fstrukt´ ur´ ak l´etrehoz´ asa mellett d¨ont¨ ott¨ unk. A c-strukt´ ura a mondat felsz´ıni szerkezet´et t¨ ukr¨ozi, azt o¨sszetev˝ okre bontja. Az f-strukt´ ur´ aban a mondat argumentumszerkezete, illetve morfol´ ogiai inform´aci´ ok jelennek meg attrib´ utum-´ert´ek oi egym´ assal ¨ osszeindep´arokk´ent. A k´et szerkezet szavai ´es nagyobb o¨sszetev˝ xelve, k¨ oz¨osen alkotj´ak ezt a t¨obbszint˝ u modellt. A magyar nyelv bizonyos jelens´egeinek ebben a modellben val´o elemz´es´er˝ ol m´ar nagyon sok cikk sz¨ uletett [5,6], de a magyart ´altal´ anosan le´ır´ o LFG nyelvtan legjobb tudom´asunk szerint nem l´etezik. Jelen a´talak´ıt´ as alapelveinek lefektet´esekor egy a´tfog´o jelleg˝ u szab´ alyrendszert igyekezt¨ unk l´etrehozni, ´es a kisebb sz´amban el˝ ofordul´ o speci´alis nyelvi jelens´egek kezel´es´ere a´tvessz¨ uk a Szeged Treebank el˝ oz˝o verzi´ oiban kifejlesztett megold´asokat.
4. 4.1.
´ Atalak´ ıt´ as C-strukt´ ura
A c-strukt´ ura a´talak´ıt´ asa a Szeged Treebank konstituens elemz´es´eb˝ol indul ki. Ez az ´atalak´ıt´ as viszonylag kev´es m´ odos´ıt´ assal j´ar. Megtartjuk a k´ezzel annot´ alt fr´ azisokat ´es hozz´ ajuk adunk egy-egy indexet, ami o¨sszekapcsolja ˝oket az f-strukt´ ura megfelel˝ o r´eszeivel. ´Igy a konstituensnyelvtan el˝onye, az ¨ osszetev˝ os strukt´ ura megmarad ebben az u ´j modellben is, az ebben nehezen reprezent´alhat´ o nyelvtani szerepek pedig m´as szinten vannak kezelve. 4.2.
F-strukt´ ura
C´ımk´ ek. Az f-strukt´ ura a mondat argumentumszerkezet´et t¨ ukr¨ ozi. Ezen a szinten tal´ alhat´ oak a kifejez´esekhez tartoz´ o nyelvtani szerepek, ´es a nem folytonos ¨osszetev˝ ok elemz´ese is megoldhat´ o. Legink´abb a f¨ ugg˝ os´egi nyelvtanban k´odolt inform´ aci´ oval feleltethet˝o meg, ez´ert a Szeged Dependencia Treebank ´es a mondatok szavaihoz rendelt morfol´ ogiai k´odok ´atalak´ıt´ as´ aval hozzuk l´etre. Ezen a szinten a szintaktikai inform´aci´ o attrib´ utum-´ert´ek p´ arokb´ ol ´ all´ o szerkezetben jelenik meg. Minden kifejez´es f-strukt´ ur´aj´aban megtal´alhat´ oak a hozatartoz´o relev´ans morfol´ ogiai adatok ´es a kifejez´es k¨ ul¨ onb¨ oz˝ o vonzatainak fz´ strukt´ ur´ ai. A f¨ ugg˝os´egi nyelvtanban tal´alhat´ o rel´ aci´ ok c´ımk´eit itt attrib´ utumok c´ımk´eik´ent jelennek meg, az ezekhez kapcsol´od´ o ´ert´ek a kapcsol´ od´ o kifejez´es fstrukt´ ur´ aja.
70
X. Magyar Számítógépes Nyelvészeti Konferencia
A mondat PRED jegye alatt megtal´ aljuk a f˝o elemet ´es a vonzatait z´ ar´ ojelben. A mondatok f˝ o eleme a f¨ ugg˝os´egi nyelvtan ROOT eleme, vonzatai a f¨ ugg˝os´egi nyelvtanban hozz´a csatlakoz´ o szavak. A PRED jegy ut´ an a relev´ans morfol´ ogiai jegyek tal´alhat´ oak, amelyeket a szavak morfol´ ogiai k´ odj´ ab´ ol nyer¨ unk. Ezut´ an a predik´atum argumentumai k¨ ovetkeznek a nyelvtani szerep¨ uknek megfelel˝ o c´ımk´evel. A f¨ ugg˝os´egi nyelvtan SUBJ (alany) ´es OBJ (t´ argy) rel´ aci´ oi azonos nev˝ u c´ımk´ek lesznek az f-strukt´ ur´ aban. A k¨ otelez˝o vonzatok, a f¨ ugg˝ os´egi nyelvtanban DAT (r´eszes eset) ´es OBL (egy´eb eset) rel´aci´oban ´ all´ ok egy k¨oz¨os, OBL c´ımk´et kapnak, m´ıg a k¨ ul¨ onb¨oz˝ o hat´ aroz´ oi szerep˝ u vonzatok (MODE, LOCY, FROM, TO, TLOCY, TFROM, TTO f¨ ugg˝ os´egi rel´ aci´ o) ADJ (adjunktum) c´ımke al´ a ker¨ ulnek. Az INF, PA ´es AUX rel´aci´ okkal rendelkez˝ o f˝on´evi igeos´egi rel´aci´ ojuk nevek, mell´ekn´evi igenevek ´es seg´edig´ek szint´en megtartj´ ak a f¨ ugg˝ nev´et az f-strukt´ ura-beli c´ımk´ej¨ ukben. A vonzatok f-strukt´ ur´ aja hasonl´ o fel´ep´ıt´es˝ u: a PRED jegy az adott kifejez´est jel¨ oli, ut´ ana a vonzatait, m´odos´ıt´ oit tal´aljuk. Ezut´ an a sz´ofaj´ anak megfelel˝o morfol´ ogiai jegyek ´ert´ekei k¨ovetkeznek. A vonzatokat OBL vagy DAT f¨ ugg˝os´egi rel´ aci´ oval m´odos´ıt´ o, k¨otelez˝ o b˝ov´ıtm´enyek itt is OBL c´ımke al´ a ker¨ ulnek. Az ATT ´es MODE viszony´ uak ADJ c´ımk´et kapnak. A n´evsz´ okat m´ odos´ıt´ o birtokosok POSS c´ımk´evel ker¨ ulnek a birtok f-strukt´ ur´ aj´aba. A hat´arozott ´es hat´ arozatlan n´evel˝ok DEF=+ ´es DEF=- jegyekk´ent jelennek meg a szerkezetben. A n´evsz´oi predik´atumok f¨ ugg˝os´egi PRED rel´ aci´ oj´at az LFG elm´eletnek megfelel˝oen [7,8] PREDLINK c´ımk´evel jel¨olt¨ uk az f-strukt´ ur´ akban. Ennek mint´ aj´ara ugg˝ os´egi NE viszonyt NELINK-k´e alak´ıa t¨obbszavas n´evelemek kezel´es´ere a f¨ tottuk, az ¨osszetett sz´ amn´evi kifejez´esek NUM rel´ aci´ oj´at pedig NUMLINK-k´e. ¨ Osszetett mondatok. Az ¨osszetett mondatok kezel´es´eben szint´en az LFG-ben haszn´alt megold´ ast v´alasztottuk. Al´arendel˝ o szerkezetek ´es vonatkoz´ oi mell´ekmondatok eset´en a f˝omondat PRED elem´enek egy vonzata az al´ arendelt mondat f˝o eleme, a be´agyazott mondat f-strukt´ ur´ aja COMP c´ımk´evel jelenik meg a f˝omondat f-strukt´ ur´ aj´aban. Mell´erendel´es eset´en a mell´erendelt kifejez´esek fstrukt´ ur´ ai egym´as mellett jelennek meg. A kifejez´eseket ¨ osszekapcsol´o esetleges k¨ot˝ oszavak al´ arendel´es eset´en az al´ arendelt mondat f-strukt´ ur´ aj´aban, mell´erendel´es eset´en a mell´erendelt tagok f-strukt´ ur´ ai alatt, CONJ-FORM c´ımke alatt tal´ alhat´ oak. K¨ otelez˝ o jegyek. Az f-strukt´ ur´ aban az egyes kifejez´esek alatt megtal´alhat´ o k¨otelez˝ o morfol´ogiai jegyeket az adott kifejez´es morfol´ogiai k´odj´ ab´ ol nyerj¨ uk ki. Az, hogy egy sz´on´al milyen jegyeknek kell k¨otelez˝ oen megjelenni, a sz´ o sz´ ofaj´ at´ ol f¨ ugg. Az MSD k´odban t´arolt inform´aci´ ok k¨ oz¨ ul a szintaktikailag relev´ ansakat jelen´ıtj¨ uk meg. Az ige alt´ıpusa, sz´ama, szem´elye, az igem´ od, igeid˝o ´es hat´ arozotts´ag az ige f-strukt´ ur´ aj´aban jelenik meg. A n´evsz´oi vonzatok eset´eben a sz´am ´es az eset jelenik meg k¨otelez˝oen. Mell´eknevek eset´en ezeken fel¨ ul a fokoz´ as, n´evm´ asokn´ al a szem´ely.
Szeged, 2014. január 16–17.
71
Hely- ´ es id˝ ohat´ aroz´ ok. A Szeged Treebankben tal´ alhat´ o h´ arom-h´arom hely´es id˝ohat´ aroz´ o t´ıpus megk¨ ul¨onb¨ oztet´es´et az a´talak´ıtott t¨ obbszint˝ u reprezent´ aci´oba nem vett¨ uk ´at, mivel u ´gy gondoljuk, hogy ezen megk¨ ul¨ onb¨oztet´es m´ar t´ ulmutat a szintaxis szintj´en. Az ir´ anyh´armass´ agot is kifejez˝o hely- ´es id˝ ohat´ aroz´ oi c´ımk´eket minden esetben ADJ jegyk´ent kezelt¨ uk a mondatok f-strukt´ ur´ aj´aban. A k´es˝obbiekben ezt az inform´aci´ ot egy u ´jabb strukt´ ur´aba tervezz¨ uk felvenni, amelyben megtenn´enk ezt a szinte m´ar szemantikai megk¨ ul¨ onb¨ oztet´est a hely´es id˝ohat´ aroz´ ok t´ıpusai k¨oz¨ott.
5.
Virtu´ alis csom´ opontok
A magyar LFG reprezent´aci´ oj´aval kapcsolatban ugyan´ ugy felmer¨ ul a virtu´alis csom´ opontok probl´em´aja, mint a f¨ ugg˝ os´egi elemz´esben. Mivel mindk´et elm´elet ker¨ uli a fonol´ogiailag jelen nem lev˝o kifejez´esek megjelen´ıt´es´et a szintaktikai strukt´ ur´ akban, a magyarban megjelen˝ o k´etf´ele virtu´alis o¨sszetev˝ o kezel´ese neh´ezs´egeket okozhat. A magyarban el˝ ofordul´ o egyik ilyen meg nem jelen˝ o¨ osszetev˝ o a van ige harmadik szem´ely˝ u, kijelent˝o m´od, jelen idej˝ u alakja. A J´ ozsi katona mondat eset´en p´eld´aul nem jelenik meg az ige, ami m´as szem´ely, m´ od vagy igeid˝o eset´en m´ar igen, p´eld´aul J´ ozsi katona volt. A m´asik t´ıpus az ellipszis, az a t¨obb nyelvre is jellemz˝ o jelens´eg, amikor egy m´ar elhangzott sz´ot vagy kifejez´est nem mondunk ki u ´jra, illetve a t¨obb tagmondatban ism´etl˝od˝o kifejez´eseket csak a tagmondatok egyik´eben szerepeltetj¨ uk. A ki nem mondott kifejez´es lehet a tagmondat f˝ o ig´eje, vagy annak b´ armely argumentuma, illetve az argumentum kisebb r´esze. A J´ ozsi katona volt, B´ela pedig alva van. p´ek mondat eset´en p´eld´aul a m´asodik tagmondatb´ol a volt ige ellipt´ A virtu´ alis csom´ opontok mindk´et t´ıpus´ an´al hasonl´o megold´as mellett d¨ont¨ ott¨ unk. A virtu´alis kifejez´esek a mondathoz tartoz´o c-strukt´ ur´ aban nem jelennek meg, mivel az szigor´ uan a mondat felsz´ıni szerkezet´et rendezi fr´azisokba. Ezek a kifejez´esek csak az f-strukt´ ur´ aban jelennek meg, ami a szigor´ u LFG elm´eletben szint´en ker¨ uli a ki nem mondott kifejez´esek reprezent´al´ as´ at, viszont az ott megjelen´ıtett viszonyok le´ır´ as´ahoz fontos, hogy kit¨olts¨ uk ezeket a csom´ opontokat is. Az f-strukt´ ur´ aban a PRED jegyben jel¨ olj¨ uk, hogy virtu´alisr´ ol van sz´o: VAN vagy ELL ´ert´eket kap. A tov´abbi jegyeket csak a VAN kapja meg, azok k¨oz¨ ul is csak azokat, amelyek biztosak: az igem´ od, igeid˝ o ´es szem´ely.
6.
Elt´ er´ esek az LFG-t˝ ol
A Szeged Treebank ´atalak´ıt´ asakor f˝ ok´ent az LFG elm´eletben [3] haszn´alt megold´ asokat k¨ ovett¨ uk, ´ıgy a reprezent´ aci´ o nagyon hasonl´o a lexikai funkcion´alis grammatika c- ´es f-strukt´ ur´aihoz. N´eh´any ponton viszont elt´ert¨ unk a szigor´ u LFG elm´elett˝ ol. A k¨ ovetkez˝okben ismertet¨ unk n´eh´anyat ezen elt´er´esek k¨oz¨ ul.
72
6.1.
X. Magyar Számítógépes Nyelvészeti Konferencia
C-strukt´ ura
Az LFG reprezent´aci´ok c-strukt´ ur´ai a generat´ıv nyelvtanokban haszn´ alt bin´ aris, X-von´ as elm´eletnek megfelel˝ o f´ akb´ ol ´allnak [9]. Az ´altalunk ´atalak´ıtott c-strukt´ ur´ak a Szeged Treebank konstituens f´aihoz hasonl´oan nem k¨ovetik a szigor´ u chomsky´ anus nyelvtant, hanem a f˝o elem sz´ ofaj´anak megfelel˝ o fr´azisokra bontj´ ak a mondatokat. 6.2.
Topik ´ es f´ okusz poz´ıci´ ok
Az LFG elemz´esben a mondatok f-strukt´ ur´ aj´ aban jel¨olve van a topik ´es a f´okusz poz´ıci´ o is, f˝oleg a magyarhoz hasonl´o diskurzuskonfigur´ aci´ os nyelvek szintaktikai le´ır´ asa eset´en. A Szeged Treebank a´talak´ıt´ asa sor´ an nem haszn´altuk az f-strukt´ ur´aban a topik ´es f´okusz poz´ıci´okat, mivel az erre vonatkoz´o inform´aci´ o sem a megl´ev˝ o konstituens, sem a megl´ev˝ o f¨ ugg˝ os´egi treebankben nincs k´ odolva, ´es ´ıgy automatikus konvert´al´asuk nem megoldhat´o. A topik ´es f´okusz jel¨ol´ese egy k´es˝obbi ur´akba k´ezi annot´ aci´ oval. l´ep´esben beleker¨ ulhet az f-strukt´ 6.3.
Fonol´ ogiailag u ¨ res n´ evm´ asi kateg´ ori´ ak
B´ar az LFG ker¨ uli az u ¨res kateg´ori´ ak felv´etel´et az elemz´esbe, pro elemek m´egis megjelennek ki nem mondott n´evm´ asok hely´en az f-strukt´ ur´ aban. A magyarban gyakran ki nem tett szem´elyes n´evm´ asi alany ´es t´ argy hely´ere p´eld´aul egy pro ker¨ ul az LFG elemz´es f-strukt´ ur´aj´aba. Mivel a Szeged Treebank egyik verzi´ oja sem jel¨ oli a fonol´ ogiailag u ¨res n´evm´asokat, az ´atalak´ıt´ as sor´ an az ehhez hasonl´o esetekben nem vett¨ uk fel a pro PRED jegy˝ u elemet, az ehhez tartoz´ o jegyeket egy szinttel feljebb jelen´ıtj¨ uk meg. P´eld´aul egy elhagyott alany eset´en annak sz´ ama ´es szem´elye a magyarban megjelenik az ig´en, ´ıgy ezeket a jegyeket ott reprezent´ aljuk ahelyett, hogy egy pro PRED jegy˝ u alanyt venn´enk fel az f-strukt´ ur´ aba ezekkel a jegyekkel.
7.
A Szeged FC Treebank kialak´ıt´ asa
A fentiekben ismertetett elveket a gyakorlatba ´at¨ ultetve kialak´ıtjuk a Szeged Treebank egy u ´jabb verzi´ oj´ at, a Szeged FC Treebanket. Ezt els˝ odlegesen automatikus konverzi´o seg´ıts´eg´evel ´all´ıtjuk el˝ o a megl´ev˝ o konstituens- ´es f¨ ugg˝ os´egi reprezent´ aci´ ok alapj´ an, minim´alisra cs¨okkentve az ut´olagos k´ezi jav´ıt´ asokat. A l´etrej¨ov˝o u ´j treebank kit˝ un˝o lehet˝ os´eget teremt arra, hogy l´etrehozzunk egy olyan statisztikai szintaktikai elemz˝ot, amely kifejezetten a magyar nyelv szintaktikai saj´ats´agaira van optimaliz´ alva, ugyanakkor egyes´ıti mag´aban a konstituens ´es f¨ ugg˝os´egi elemz˝ ok ny´ ujtotta el˝ ony¨ oket is. A Szeged FC Treebank kialak´ıt´ asa a Szeged Treebank konstituens ´es f¨ ugg˝os´egi elemz´eseinek automatikus konvert´al´ as´ aval t¨ ort´ent a m´ar le´ırt szab´ alyok ment´en. Az al´ abbiakban bemutatjuk egy p´eld´an kereszt¨ ul az ´ atalak´ıt´ as k¨ ul¨ onb¨oz˝o l´ep´eseit.
Szeged, 2014. január 16–17.
73
A c-strukt´ ur´ at a konstituens f´akb´ ol egyszer˝ uen a nyelvtani szerepjel¨ ol´esek elt´ avol´ıt´ as´aval nyert¨ uk, l. 1. ´es 2. a´br´ ak. Az f-strukt´ ura ´es a f¨ ugg˝os´egi nyelvtan k¨oz¨ ott m´ ar nagyobb k¨ ul¨ onbs´eg l´ athat´ o, v¨o. 3. ´es 4. ´abr´ ak. A p´eldamondatban az al´ a- ´es mell´erendel˝ o szerkezeteken k´ıv¨ ul a birtokos szerkezetek kezel´ese is l´athat´ o a k´et k¨ ul¨ onb¨oz˝ o elm´eleti keretben. A Szeged FC Treebank reprezent´ aci´ oi a Szeged Korpusz mondataihoz a fent l´athat´ oakhoz hasonl´ o c- ´es f-strukt´ ur´ akat rendelnek. Ez a k´et le´ır´ as egy¨ utt alkotja az u ´j treebank elemz´es´et.
8.
¨ Osszegz´ es
Ebben a munk´aban bemutattuk a k´esz¨ ul˝ o Szeged FC Treebank elm´eleti alapj´ at k´epez˝o t¨obbszint˝ u szintaktikai reprezent´aci´ ot, mely egyes´ıti mag´ aban a konstituens ´es f¨ ugg˝os´egi reprezent´aci´ ok el˝onyeit, ugyanakkor kifejezetten a magyar nyelv szintaktikai saj´ats´agaira van szabva. Az LFG elm´elet´ehez hasonl´oan, e reprezent´ aci´ o is c ´es f-strukt´ ur´aban jelen´ıti meg a relev´ans szintaktikai inform´aci´okat, azonban att´ol n´eh´any fontos von´asban elt´er. Az u ´jonnan l´etrej¨ ov˝ o treebank rem´enyeink szerint egy u ´j, a magyar nyelvet minden eddigin´el hat´ekonyabban feldolgozni k´epes statisztikai szintaktikai elemz˝o l´etrehoz´ as´ anak alapj´ aul szolg´alhat.
K¨ osz¨ onetnyilv´ an´ıt´ as ´ A jelen kutat´as a futurICT.hu nev˝ u, TAMOP-4.2.2.C-11/1/KONV-2012-0013 azonos´ıt´ osz´ am´ u projekt keret´eben az Eur´opai Uni´ o t´ amogat´as´ aval ´es az Eur´opai Szoci´ alis Alap t´ arsfinansz´ıroz´ as´aval val´ osult meg.