A k´esz¨ul˝o MGTSz adatb´azis fel´ep´ıt´ese Blaho Sylvia, Sass B´alint & Simon Eszter MTA Nyelvtudom´ anyi Int´ ezet
2010. febru´ar 4.
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
Az el˝oad´as v´azlata
1
A projekt bemutat´asa A sz¨oveg feldolgoz´as´anak szintjei A korpusz fel´ep´ıt´ese Egys´eges beviteli form´atum K´ezi k´ odol´ as A k´ odol´ asi szab´ alyzat A normaliz´ al´ as alapelvei
2
A sz¨ovegek egyszer˝ us´ıtett ´atirata
3
,,R´egi magyar konkordancia”
,,R´ egi magyar konkordancia”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
Outline
1
A projekt bemutat´asa A sz¨oveg feldolgoz´as´anak szintjei A korpusz fel´ep´ıt´ese Egys´eges beviteli form´atum K´ezi k´ odol´ as A k´ odol´ asi szab´ alyzat A normaliz´ al´ as alapelvei
2
A sz¨ovegek egyszer˝ us´ıtett ´atirata
3
,,R´egi magyar konkordancia”
,,R´ egi magyar konkordancia”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
A projekt
A projekt: Magyar Generat´ıv T¨ort´eneti Szintaxis (MGTSz)
OTKA projekt ´ Kiss Katalin vezet´es´evel E. 2009.04.01.–2013.03.31.
,,R´ egi magyar konkordancia”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
A projekt c´elja elektronikus nyelvt¨ort´eneti adatb´azis: a teljes ´omagyar ´es v´alogatott k¨ oz´epmagyar anyag i. o¨sszegy˝ ujtj¨ uk ´es egys´eges´ıtj¨ uk a m´ar meglev˝ o elektronikus nyelvt¨ort´eneti anyagokat ii. a sz´am´ıt´og´ep ´altal olvashat´ o ´es feldolgozhat´ o form´ara hozzuk az elektronikusan nem el´erhet˝ oeket iii. a bet˝ uh˝ u v´altozat mellett el˝ o´all´ıtunk egy egyszer˝ us´ıtett v´altozatot is iv. normaliz´aljuk a sz¨ ovegeket v. a korpuszt morfol´ ogiailag elemezz¨ uk ´es egy´ertelm˝ us´ıtj¨ uk vi. a korpusz egy r´esz´et szintaktikailag is elemezz¨ uk.
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
A sz¨oveg feldolgoz´as´anak szintjei
Az eredeti k´odext˝ol a morfol´ ogiailag elemzett elektronikusan t´arolt sz¨ovegig a k¨ovetkez˝o szintek vannak: (0) fac simile → feldolgoz´as, kiad´as (1) bet˝ uh˝ u ´atirat → szkennel´es, OCR (2) OCR-ezett szken → jav´ıt´as, k´ odol´as (3a) bet˝ uh˝ u sz¨oveges elektronikus forma (txt) → egyszer˝ us´ıt´esi szab´alyok
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
A sz¨oveg feldolgoz´as´anak szintjei
(3b) egyszer˝ us´ıtett v´altozat → normaliz´al´as (4) normaliz´alt alak → automatikus morfol´ ogiai elemz´es (5) elemzett forma → automatikus morfol´ ogiai egy´ertelm˝ us´ıt´es (6) egy´ertelm˝ us´ıtett forma
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
A korpusz fel´ep´ıt´ese
A korpuszban minden egyes sz¨ ovegsz´ o mellett szerepelni fognak a k¨ovetkez˝o adatok: bet˝ uh˝ u forma (3a): ad¨yad egyszer˝ us´ıtett alak (3b): adyad normaliz´alt alak (4): adjad sz´ot˝o (6) alapj´an: ad morfol´ogiai elemz´es (6) alapj´an: ad[V.Sub.S2.Def]
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Lek´erdez´es minden szinten
a lek´erdez˝o l´enyege, hogy b´armely szinten meg lehet fogalmazni a lek´erdez´es¨ unket P´elda Milyen szavak szerepelnek egy igealak ´es egy igek¨ot˝o k¨oz¨ott?”: ” (6) gyakoris´agi lista a korpusz egy r´esz´eb˝ ol: a sz´ ot¨ oveken (6) alapj´an az m”-et ¯ tartalmaz´o szavak: (3a) ”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
K´ezi k´odol´as
A k´odol´ok munk´aj´anak l´enyege a (3a) ´es a (4) alak el˝o´all´ıt´asa. egys´eges beviteli form´atum: a k´ odol´asi szab´alyzat alapj´an
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
A k´odol´asi szab´alyzat
l´okuszjel¨ol˝ok Pr´osz´eky-k´odol´as mondatrabont´as a szkriptor jav´ıt´asainak k´ odol´asa a normaliz´al´as alapelvei
,,R´ egi magyar konkordancia”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
A normaliz´al´as alapelvei 1.
A ma nem l´etez˝o ¨osszes sz´ ot, toldal´ekot, morfol´ ogiai konstrukci´ot meg kell tartani, nem szabad, hogy ilyen inform´aci´o elvesszen. (3a) villamik isa iesek
(4) villamik isa jeszek
´ertelmez´es vill´amlik/villanik bizony j¨ ov¨ ok
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
A normaliz´al´as alapelvei 2.
El kell hagyni az ¨osszes fonol´ ogiai ´es helyes´ır´asi esetlegess´eget, egys´eges, amennyire lehet, a mainak megfelel˝ o helyes´ır´asra kell t¨orekedni. (3a) me8den menden minden
(4) minden minden minden
algyu agyu
´agy´ u ´agy´ u
srumlast
ostroml´ast
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
Outline
1
A projekt bemutat´asa A sz¨oveg feldolgoz´as´anak szintjei A korpusz fel´ep´ıt´ese Egys´eges beviteli form´atum K´ezi k´ odol´ as A k´ odol´ asi szab´ alyzat A normaliz´ al´ as alapelvei
2
A sz¨ovegek egyszer˝ us´ıtett ´atirata
3
,,R´egi magyar konkordancia”
,,R´ egi magyar konkordancia”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Bet˝uh˝u” v´altozat ” a bet˝ uh˝ u v´altozat elk´esz´ıt´esekor nem a sz¨ ovegek k´ezzel ´ırott v´altozat´at, hanem az ´altalunk haszn´alt ´atirat szerkeszt˝oj´enek konvenci´oit k¨ovett¨ uk. ez´ert el˝ofordul, hogy a k¨ ul¨ onb¨ oz˝ o forr´as alapj´an feldolgozott sz¨ovegek m´as ´es m´as egyszer˝ us´ıt´eseket tartalmaznak az eredetihez k´epest.
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Bet˝uh˝u” v´altozat ” a bet˝ uh˝ u v´altozat elk´esz´ıt´esekor nem a sz¨ ovegek k´ezzel ´ırott v´altozat´at, hanem az ´altalunk haszn´alt ´atirat szerkeszt˝oj´enek konvenci´oit k¨ovett¨ uk. ez´ert el˝ofordul, hogy a k¨ ul¨ onb¨ oz˝ o forr´as alapj´an feldolgozott sz¨ovegek m´as ´es m´as egyszer˝ us´ıt´eseket tartalmaznak az eredetihez k´epest. P´elda J´okai k´odex: Z vs. ÿ vs. ŸZ → a szerkeszt˝ o mindh´armat Z-k´ent ´ırja ´at
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Bet˝uh˝u” v´altozat ” a bet˝ uh˝ u v´altozat elk´esz´ıt´esekor nem a sz¨ ovegek k´ezzel ´ırott v´altozat´at, hanem az ´altalunk haszn´alt ´atirat szerkeszt˝oj´enek konvenci´oit k¨ovett¨ uk. ez´ert el˝ofordul, hogy a k¨ ul¨ onb¨ oz˝ o forr´as alapj´an feldolgozott sz¨ovegek m´as ´es m´as egyszer˝ us´ıt´eseket tartalmaznak az eredetihez k´epest. P´elda J´okai k´odex: Z vs. ÿ vs. ŸZ → a szerkeszt˝ o mindh´armat Z-k´ent ´ırja ´at s vs. S, z vs. Z, y vs. y˙ vs. ¨y
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Bet˝uh˝u” v´altozat ” a bet˝ uh˝ u v´altozat elk´esz´ıt´esekor nem a sz¨ ovegek k´ezzel ´ırott v´altozat´at, hanem az ´altalunk haszn´alt ´atirat szerkeszt˝oj´enek konvenci´oit k¨ovett¨ uk. ez´ert el˝ofordul, hogy a k¨ ul¨ onb¨ oz˝ o forr´as alapj´an feldolgozott sz¨ovegek m´as ´es m´as egyszer˝ us´ıt´eseket tartalmaznak az eredetihez k´epest. P´elda J´okai k´odex: Z vs. ÿ vs. ŸZ → a szerkeszt˝ o mindh´armat Z-k´ent ´ırja ´at s vs. S, z vs. Z, y vs. y˙ vs. ¨y palataliz´alt m´assalhangz´ ok: t˙ vs. ´t
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Bet˝uh˝u” v´altozat ” a bet˝ uh˝ u v´altozat elk´esz´ıt´esekor nem a sz¨ ovegek k´ezzel ´ırott v´altozat´at, hanem az ´altalunk haszn´alt ´atirat szerkeszt˝oj´enek konvenci´oit k¨ovett¨ uk. ez´ert el˝ofordul, hogy a k¨ ul¨ onb¨ oz˝ o forr´as alapj´an feldolgozott sz¨ovegek m´as ´es m´as egyszer˝ us´ıt´eseket tartalmaznak az eredetihez k´epest. P´elda J´okai k´odex: Z vs. ÿ vs. ŸZ → a szerkeszt˝ o mindh´armat Z-k´ent ´ırja ´at s vs. S, z vs. Z, y vs. y˙ vs. ¨y palataliz´alt m´assalhangz´ ok: t˙ vs. ´t
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Egyszer˝us´ıtett ´atirat
c´elja, hogy az ´ omagyar sz¨ ovegek olvas´as´aban nem j´aratos felhaszn´al´o sz´am´ara megk¨ onny´ıtse az olvas´ast, minimaliz´alja a speci´alis karakterek haszn´alat´ab´ol ad´od´o probl´em´ak el˝ ofordul´as´anak es´ely´et
elk´esz´ıt´esekor a k¨ ovetkez˝ o szempontokat tartottuk szem el˝ott: nyelv´eszeti relevancia gyakrabban haszn´alt karakterek egys´eges´ıt´es
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Nyelv´eszeti relevancia
Az egyszer˝ us´ıtett v´altozatb´ ol kimaradnak olyan speci´alis karakterek ´es diakritikumok, amelyek paleogr´afiai, stb. jelent˝ os´eggel b´ırnak, nyelv´eszetivel azonban nem. P´elda S Z y˙ ¨y
→ → → →
s z y y
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Gyakrabban haszn´alt karakterek
A k¨ovetkez˝o szempont az volt, hogy az egyszer˝ us´ıtett ´atiratban min´el kevesebb, a magyar bet˝ uk´eszletben nem megl´ev˝o karakter ´es mell´ekjel szerepeljen. P´elda ´t → ty o → ¨o ›
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Gyakrabban haszn´alt karakterek
Ahol m´egis a magyarban nem hasz´alt bet˝ ure volt sz¨ uks´eg, el˝onyben r´eszes´ıtett¨ uk az ismertebb, eur´ opai nyelvekben gyakran haszn´alt karaktereket. P´elda ¯e
→ ˜e
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Gyakrabban haszn´alt karakterek
Ahol m´egis a magyarban nem hasz´alt bet˝ ure volt sz¨ uks´eg, el˝onyben r´eszes´ıtett¨ uk az ismertebb, eur´ opai nyelvekben gyakran haszn´alt karaktereket. P´elda ¯e
→ ˜e
Ez egyr´eszt az olvas´as ´es a r´egi magyar p´eld´ak sz´am´ıt´og´epes bevitel´enek megk¨onny´ıt´es´et szolg´alja (pl. cikkekben, prezent´aci´ok seg´edanyagaiban), m´asr´eszt cs¨ okkenti a k¨ ul¨ onb¨ oz˝ o programok fonthaszn´alat´ab´ol ad´od´ o hib´ak es´ey´et.
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Egys´eges´ıt´es
Azokat a nyelv´eszetileg relev´ans karaktereket ´es diakritikumokat, amelyek k¨ ul¨onb¨oz˝o nyelveml´ekekben elt´er˝ o m´ odon jel¨olik ugyanazt a bet˝ ut, illetve tulajdons´agot, igyekezt¨ unk egys´eges´ıteni. P´elda t˙ → ty ¨t → ty ty → ty
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
A legfontosabb szempont az egyszer˝ us´ıtett ´atirat elk´esz´ıt´es´en´el azonban az, hogy a bet˝ uh˝ u v´altozathoz k´epest semmilyen, nyelv´eszetileg relev´ans inform´aci´ o ne vesszen el.
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
Inkonzisztencia egyes k´odexek k¨oz¨ ott: P´elda g˙ g
→[g] →[é]
vs.
g g˙
→[g] →[é]
,,R´ egi magyar konkordancia”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
Inkonzisztencia egyes k´odexek k¨oz¨ ott: P´elda →[g] →[é]
g˙ g
vs.
→[g] →[é]
g g˙
ugyanazon a k´odexen bel¨ ul: P´elda M¨ uncheni k´odex: t˝o gyermek hogy m´ıg orsz´ag
g 22 670 5 137
g˙ 0 0 3 51
,,R´ egi magyar konkordancia”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
Outline
1
A projekt bemutat´asa A sz¨oveg feldolgoz´as´anak szintjei A korpusz fel´ep´ıt´ese Egys´eges beviteli form´atum K´ezi k´ odol´ as A k´ odol´ asi szab´ alyzat A normaliz´ al´ as alapelvei
2
A sz¨ovegek egyszer˝ us´ıtett ´atirata
3
,,R´egi magyar konkordancia”
,,R´ egi magyar konkordancia”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
Korpusz Form´atum: egys´eges, szabv´anyos, hordozhat´ o XML: adatb´azisszerkezet egym´asba ´agyazott objektumok + attribtumok ∼ mondat ´es sz´ o + a megfelel˝ o szintek adatai szavank´ent UTF-8: k¨ ul¨ onleges karakterek k´ odol´as´ara
Anyag C´el: teljes ´ omagyar kori anyag Jelenleg: (3a) (4) kisebb nyelveml´ekek + + B´ecsi k´ odex + J´ okai k´ odex +
(6)
+
A projekt bemutat´ asa
Lek´erdez˝ofel¨ulet
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
Eredm´eny – konkordancia
,,R´ egi magyar konkordancia”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
Eredm´eny – gyakoris´agi lista
,,R´ egi magyar konkordancia”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
P´eld´ak
(1/4)
n´evut´ok lek´erdez´ese (Heged˝ us Vera) [W FOCUS w_6e ~ ’Pp’] → 340 db, ebb˝ol ragozott 100 db (mind E/3) ragozott f˝on´evi igenevek lek´erdez´ese (T´ oth Ildik´o) [W FOCUS w_6e ~ ’Inf.Px’] → 132 db, eloszl´as: egyes sz´am t¨ obbes sz´am
1 23 5
2 23 6
3 70 5
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
P´eld´ak
(2/4)
,,Hol nincs ott a n´evel˝ o, pedig v´arn´ank?” (Egedi Barbara) Olyat keres¨ unk, ami nincs ott. → Adjunk meg konkr´et ilyen helyzeteket. Lek´erdez´es: definit ige ut´an t´argyeset˝ u f˝ on´ev [W FOCUS w_6e ~ ’V.*Def’] [W FOCUS w_6e ~ ’N.*Acc’] Egy tal´alat ,,Es azert ewkewztewk zent ferencz czudalatost g¨ yczer¨ yuala teremtewtt”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
P´eld´ak
,,R´ egi magyar konkordancia”
(3/4)
,,M´ıg a mai magyarban a tagadott igek¨ ot˝ os ige (egy-k´et szerkezetet kiv´eve) ford´ıtott sz´ orend˝ u, a korai ´ omagyar korban az ´ igek¨ot˝o az esetek nagyobb r´esz´eben megel˝ ozi a tagadott ig´et.” (E. Kiss Katalin) [W FOCUS w_6e ~ ’Mod’] [W FOCUS w_6e ~ ’V\.’] [W FOCUS w_6e ~ ’Vpfx’] [W FOCUS w_6e ~ ’Vpfx’] [W FOCUS w_6e ~ ’Mod’] [W FOCUS w_6e ~ ’V\.’] Egy tal´alat ,,Ver touaba k¨ y nem futott”
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
,,R´ egi magyar konkordancia”
P´eld´ak
,,M´ıg a mai magyarban a tagad´ osz´ o hordozza a tagad´ast, ´es a se-n´evm´asok csup´an a tagad´ osz´ oval egyeztetett alakok, a korai ´ omagyar korban a se-n´evm´asoknak is lehetett tagad´o erej¨ ´ uk.” (E. Kiss Katalin) Lek´erdez´es: ’senki/semmi’ ut´an tagad´ osz´ ot´ ol k¨ ul¨ onb¨oz˝o sz´o [W FOCUS w_6s ~ ’^6s\(\(se[nm][km]i\)\)$’] [W FOCUS NOT(w_6e ~ ’^6e\(\(Mod\)\)$’)] Egy tal´alat ,,mendenestewlfoguan maganac sem¨ ytt meg tarttuan”
(4/4)
A projekt bemutat´ asa
A sz¨ ovegek egyszer˝ us´ıtett ´ atirata
El´erhet˝os´eg
A lek´erdez˝ ofel¨ ulet szabadon el´erhet˝o: http://corpus.nytud.hu/rmk
K¨ osz¨ onj¨ uk a figyelmet!
,,R´ egi magyar konkordancia”