Hat´as alatt ´all´o nyelvek Az URaLUID adatb´azis bemutat´asa Simon Eszter MTA Nyelvtudom´ anyi Int´ ezet
2017. janu´ar 13. 29. Finnugor Szemin´arium
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
1 / 19
Az el˝oad´as v´azlata
1
Projekt
2
Sz¨oveggy˝ ujt´es
3
Sz¨ovegfeldolgoz´as Transzkripci´o ´es transzliter´aci´ o Morfol´ogiai elemz´es Ford´ıt´asok
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
2 / 19
Projekt
A projekt
Az ur´ali nyelvek mondattan´anak v´altoz´asa aszimmetrikus kontaktushelyzetben a Nemzeti Kutat´asi, Fejleszt´esi ´es Innov´aci´ os Hivatal t´amogat´as´aval (ERC 15 HU, OTKA 118079) 2016. febru´ar – 2017. j´ ulius MTA Nyelvtudom´anyi Int´ezet ´ Kiss Katalin projektvezet˝o: E. interdiszciplin´aris csapat: kutat´ ok a finnugor, a nyelvtechnol´ogiai ´es az elm´eleti nyelv´eszeti oszt´alyr´ ol
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
3 / 19
Sz¨ oveggy˝ ujt´ es
Koncepci´o
r´egi ´es u ´j sz¨ovegek lehet˝oleg besz´elt nyelvi vagy ahhoz k¨ ozel ´all´ o m˝ ufaj ide´alis esetben a dialekt´alis ´es szociolingvisztikai t´enyez˝ok ki vannak egyens´ ulyozva 4000 token/kor/nyelv mennyis´eg˝ u anyag teljes annot´aci´oval ell´atva ha kev´es munk´aval megszerezhet˝ o, akkor j¨ ohet minden m´as anyag is, de az nem felt´etlen¨ ul lesz v´egigannot´alva
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
4 / 19
Sz¨ oveggy˝ ujt´ es
Sz¨oveggy˝ujt´es Udmurt r´egi: Munk´acsi (1885), d´eli, folkl´ or Wichmann (1901), d´eli ´es ´eszaki, folkl´ or
u ´j: Мынам малпанъёсы (2014), blog Марайко (2014), blog
Tundrai nyenyec r´egi: Lehtisalo (1947), keleti ´es k¨ oz´eps˝ o, folkl´ or
u ´j: Нярьяна Нгэрм (1998–2011), k¨ oz´eps˝ o, u ´js´agcikkek Лабанаускас (1995), keleti, folkl´ or Пушкарёва-Хомич (2001), keleti, folkl´ or Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
5 / 19
Sz¨ oveggy˝ ujt´ es
Sz¨oveggy˝ujt´es
Szinjai hanti r´egi: Steinitz (1937), d´eli, folkl´ or
u ´j: interj´ uk (Ruttkay-Mikli´an Esztert˝ ol) Szurguti hanti r´egi: Paasonen (1901), jug´ani, folkl´ or
u ´j: Песикова-Волкова (2013), interj´ uk
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
6 / 19
Sz¨ ovegfeldolgoz´ as
Sz¨ovegfeldolgozotts´agi szintek eredeti sz¨oveg cirill FUT lejegyz´es(ek) IPA
ford´ıt´as angol orosz n´emet magyar
morfol´ ogiai inform´ aci´ ok lemma sz´ ofajk´ od inflexi´ os k´ odok
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
7 / 19
Sz¨ ovegfeldolgoz´ as
Transzkripci´ o´ es transzliter´ aci´ o
Az eredeti sz¨oveg el˝o´all´ıt´asa beszkennelt k¨onyv → OCR → k´ezi jav´ıt´as → eredeti sz¨oveg egys´eges karaktert´abla: minden nyelv minden lejegyz´esi, ´at´ır´asi ´es ´ır´asrendszer´enek minden karaktere szerepel a Unicode-k´odj´aval, -nev´evel ´es Pr´ osz´eky-k´ odj´aval ezekkel a karakterekkel t¨ ort´enik a hangz´ o sz¨ ovegek lejegyz´ese, ezekre a karakterekre tan´ıtjuk be az optikai karakterfelismer˝ot, ezekre a karakterekre normaliz´aljuk a k¨ ul¨ onb¨ oz˝ o forr´asokb´ol sz´armaz´o sz¨ovegeket, ´es ezek szolg´altatj´ak a k¨ ul¨ onb¨ oz˝ o ir´any´ u konverzi´ok bemeneti ´es kimeneti karakter´allom´any´at is
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
8 / 19
Sz¨ ovegfeldolgoz´ as
Transzkripci´ o´ es transzliter´ aci´ o
Karakterszint˝u normaliz´al´as
k¨ ul¨ onb¨oz˝o forr´asok → UTF-8 k´ odol´as´ u plain text f´ajlok normaliz´ al´ as: nem Unicode-karakterek lecser´el´ese Unicode-karakterekre idegen nyelv˝ u r´eszek elt´avol´ıt´asa latin karakterek cirillre cser´el´ese a cirill sz¨ ovegben, pl. ван != вaн az ´altalunk haszn´alt ¨osszes karakter megjelen´ıthet˝ o a Charis SIL fontk´eszlettel (+ a b¨ong´esz˝oben be kell ´all´ıtani a karakterk´ odol´ast: View/Text encoding/Unicode)
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
9 / 19
Sz¨ ovegfeldolgoz´ as
Transzkripci´ o´ es transzliter´ aci´ o
Transzkripci´o ´es transzliter´aci´o
¨ veg → ´at´ır´asi szab´alyok → automatikus konverzi´o → eredeti szo ´ tirat a ¨ veg lehet cirill vagy valamilyen FUT, ahol az eredeti szo ´ tirat pedig lehet cirill, valamilyen FUT vagy IPA az a FUT-ok: Steinitz, RME, SzOCh, Munk´acsi, Wichmann, Hajd´ u, Mus
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
10 / 19
Sz¨ ovegfeldolgoz´ as
Transzkripci´ o´ es transzliter´ aci´ o
Konverzi´o
o¨sszesen 12 konverzi´os ir´any szinjai hanti: Steinitz2IPA, Steinitz2RME szurguti hanti: cirill2SzOCh, SzOCh2IPA udmurt: Munk´acsi2IPA, Wichmann2IPA, IPA2cirill, cirill2IPA tundrai nyenyec: Hajd´ u2Mus, Hajd´ u2IPA, Hajd´ u2cirill, cirill2IPA
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
11 / 19
Sz¨ ovegfeldolgoz´ as
Transzkripci´ o´ es transzliter´ aci´ o
Konverzi´o – p´elda
#in first syllable: s/([ (”][ˇcjGklmn´ nNprstw])a/\15:/g s/ a/ 5:/g s/\(a/\(5:/g s/ ka/ k5:/g ¡ ¡t’5:/g s/ t’a/ #else: s/a/5/g Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
12 / 19
Sz¨ ovegfeldolgoz´ as
Morfol´ ogiai elemz´ es
Morfol´ogiai elemz´es A c´ el: angol glossz´az´as az ´altalunk l´etrehozott glossz´az´asi r¨ovid´ıt´eseket tartalmaz´o t´abl´azat alapj´an A t´abl´azat az al´abbi nemzetk¨ ozi sztenderdek alapj´an k´esz¨ ult: Leipzig Glossing Rules k´ odt´abla a Wikip´edia Glossing abbreviations c´ım˝ u oldal´anak k´odjai kurrens szakirodalom Lek´epez´es ´es konverzi´o: az el´erhet˝o morfol´ogiai elemz˝ ok kimenete → a mi k´ odt´abl´ank
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
13 / 19
Sz¨ ovegfeldolgoz´ as
Morfol´ ogiai elemz´ es
Morfol´ogiai elemz˝ok
Udmurt: MorphoLogic & Giellatekno Tundrai nyenyec: Giellatekno Szinjai hanti: MorphoLogic Szurguti hanti: nincs Zipf t¨orv´enye alapj´an: a n´eh´any leggyakoribb sz´ o lefedi a teljes sz¨oveg nagy sz´azal´ek´at → a min. ¨ otsz¨ or el˝ ofordul´ o szavak kilist´az´asa → elemz´esek hozz´ajuk rendel´ese k´ezzel → a sz¨ oveg t¨ obb mint 60%-´ahoz automatikusan hozz´arendel˝odik az elemz´es
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
14 / 19
Sz¨ ovegfeldolgoz´ as
Morfol´ ogiai elemz´ es
Morfol´ogiai annot´aci´o Amit kapunk: lemma sz´ ofajk´ od inflexi´ os k´ odok deriv´aci´os k´odok morf´ema szinten szegment´alt sz´ oalak ´es k´ odok magyar lemma angol lemma Ami kell nek¨ unk: lemma sz´ofajk´od inflexi´os k´odok angol lemma Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
15 / 19
Sz¨ ovegfeldolgoz´ as
Morfol´ ogiai elemz´ es
P´elda
m¯idaxana midaxana mi:daxana мыдахана мы Ptcp create.ipfv.ptcp.loc
YRK Hajd´ u: YRK Mus: YRK IPA: YRK cirill: lemma: sz´ofaj: glossza:
j¯a ja ja я я N earth
ENG: GER: HUN:
when the earth was created, there was nothing zur zeit der erschaffung der erde gab es nichts a F¨ old teremt´es´enek idej´en nem volt semmi
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
amkerta amkerta ˘amkerta амкэрта ңамгэ Pron.neg nothing
jaNk¯ uwi jaNkuwi j˘aNkuwi яңкувы яңгось V neg.ex.infer
2017. janu´ ar 13.
16 / 19
Sz¨ ovegfeldolgoz´ as
Ford´ıt´ asok
Ford´ıt´asok Udmurt r´egi: Munk´acsi: angol, magyar Wichmann: angol, n´emet
u ´j: Мынам малпанъёсы: – Марайко: –
Tundrai nyenyec r´egi: Lehtisalo: angol, n´emet, magyar
u ´j: Нярьяна Нгэрм: – Лабанаускас: – Пушкарёва-Хомич: magyar ´es orosz k´esz¨ ul Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
17 / 19
Sz¨ ovegfeldolgoz´ as
Ford´ıt´ asok
Ford´ıt´asok
Szinjai hanti r´egi: Steinitz: angol, magyar, n´emet
u ´j: interj´ uk (Ruttkay-Mikli´an Esztert˝ ol): – Szurguti hanti r´egi: Paasonen: angol, magyar, n´emet, orosz
u ´j: Песикова-Волкова: orosz; angol, magyar k´esz¨ ul
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
18 / 19
Sz¨ ovegfeldolgoz´ as
Ford´ıt´ asok
K¨osz¨on¨om a figyelmet!
[email protected] http://www.nytud.hu/oszt/elmnyelv/urali
Simon Eszter (MTA NyTI)
Hat´ as alatt ´ all´ o nyelvek
2017. janu´ ar 13.
19 / 19