Dom´enspecifikus korpusz ´ep´ıt´ese ´es valid´al´asa Dod´e R´eka ELTE BTK Nyelvtudom´ any Doktori Iskola Alkalmazott nyelv´ eszet program
2017. febru´ar 3.
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program)2017. febru´ ar 3.
1 / 17
´ Attekint´ es
´ Attekint´ es
1
Bevezet´es ´es hipot´ezisek
2
Filtereket alkalmaz´o keres˝ orobot
3
A valid´al´as m´odszere
4
Eredm´enyek ´es k¨ovetkeztet´esek
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program)2017. febru´ ar 3.
2 / 17
Bevezet´ es
Bevezet´es ´es hipot´ezisek
Terminuskivonatol´o alkalmaz´as Dom´enspecifikus korpusz ¨ Okoinnov´ aci´o dom´enhez tartoz´ o sz¨ ovegek Hasonl´os´ag: ugyanahhoz a dom´enhez tartoz´ o sz¨ ovegek
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program)2017. febru´ ar 3.
3 / 17
Hipot´ ezisek
Bevezet´es ´es hipot´ezisek
1. Hipot´ezis A let¨olt¨ott sz¨ovegek el´erik a 0,50-es hasonl´ os´agi ´ert´eket. 2. Hipot´ezis Min´el kevesebb sz¨ovegsz´ob´ ol ´all a sz¨ oveg, ann´al kevesebb lesz a hasonl´os´agi ´ert´eke a referenciasz¨ oveghez k´epest.
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program)2017. febru´ ar 3.
4 / 17
Sz¨ ovegek let¨ olt´ ese
Filtereket alkalmaz´ o keres˝ orobot
Filtereket alkalmaz´o keres˝ orobot (Grefenstette–Muchemi 2016) Kezd˝o URL-lista (40 db) Mint´akat tartalmaz´o f´ajl (k´ezzel: 48 kifejez´es) Minta alapj´an v´alogatott sz¨ ovegek 2.000 f´ajl, 2.625.164 sz¨ ovegsz´ o
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program)2017. febru´ ar 3.
5 / 17
Valid´ al´ as
R´ eszkorpusz ¨ ossze´ all´ıt´ asa
Valid´al´as m´ odszere
20 db v´eletlenszer˝ uen kiv´alasztott sz¨ oveg (min. 500 sz¨ovegsz´o). Referenciasz¨ovegek kiv´alaszt´asa – 4 db. V´alaszt´as mint´ak alapj´an. Lemmatiz´al´as ´es stopszavak kisz˝ ur´ese. Hasonl´os´ag m´er´ese: XLike projekt kereteiben k´esz¨ ult ¨osszehasonl´ıt´o program.
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program)2017. febru´ ar 3.
6 / 17
Valid´ al´ as
Hasonl´ os´ ag m´ er´ ese
JSI Similarity Service
Dokumentumindexel´es fogalomalap´ u megk¨ ozel´ıt´essel. Vektort´er-modellez´es: vektor reprezent´alja a dokumentumokat a vektort´erben. Indexel´es rejtett szemantikai elemz´essel: a megfigyelt vektorokon k´ıv¨ ul rejtett tulajdons´agok is l´eteznek. C´el: kiv´alasztani a sz¨ oveg n´eh´any olyan jellemz˝ o attrib´ utum´at, amely m´eg alkalmas a dokumentumok k¨ ozel´ıt˝ o jellemz´es´ere ´es p´aronk´enti ¨osszehasonl´ıt´as´ara. El˝ony: a szinonim´ak kezel´ese (a dimenzi´ oredukci´ oval az azonos jelent´es˝ u szavak hasonl´ o helyen jelennek meg a t´erben).
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program)2017. febru´ ar 3.
7 / 17
Valid´ al´ as
Hasonl´ os´ ag m´ er´ ese
JSI Similarity Service Hasonl´os´ag sz´amol´asa a sz¨ ovegek k¨ oz¨ ott: vektorok hasonl´os´ag´anak m´er´ese. Koszinusz hasonl´os´ag m´er´ese. A hasonl´os´ag m´er´esekor kapott ´ert´ekek (-1) 0 ´es 1 k¨oz´e esnek.
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program)2017. febru´ ar 3.
8 / 17
Eredm´ enyek ´ es k¨ ovetkeztet´ esek
Eredm´ enyek
Eredm´enyek I.
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program)2017. febru´ ar 3.
9 / 17
Eredm´ enyek ´ es k¨ ovetkeztet´ esek
Eredm´ enyek
Eredm´enyek II. A 20 random kiv´alasztott sz¨ oveg ´atlag hossza stopszavak n´elk¨ ul 1428 sz¨ ovegsz´ o, a sz¨ovegek hossz´anak sz´ or´asa 1054,49. Referenciasz¨ oveg ´ Atlag hasonl´ os´ ag Sz´ or´ as
1 0,524 0,198
2 0,373 0,192
3 0,541 0,201
4 0,297 0,14
´ Table 1: Atlag ´es sz´ or´as referenciasz¨ ovegenk´ent.
Az ´ert´ekek nem norm´al eloszl´as´ uak, ez´ert non-parametrikus tesztet (az egymint´as t-pr´oba nem parametrikus megfelel˝ oj´et) haszn´altunk annak meg´allap´ıt´as´ara, hogy a hasonl´ os´agi ´ert´ekek elt´ernek-e az el˝ore meg´allap´ıtott 0,50-es k¨ usz¨ obt˝ ol. Egyik sz¨ oveg eset´ eben sem tal´ altunk szignifik´ ans elt´ er´ est az 0,50-es ´ ert´ ekt˝ ol (p1sz¨oveg =0,68; p2sz¨oveg=0,36; p3sz¨oveg=0,80; p4sz¨oveg=0,22). Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program) 2017. febru´ ar 3.
10 / 17
Eredm´ enyek ´ es k¨ ovetkeztet´ esek
Eredm´ enyek
Eredm´enyek III. Referenciasz¨ ovegek Hasonl´ os´ ag
1–2 0,585
1–3 0,844
1–4 0,443
2–3 0,772
2–4 0,568
3–4 0,505
Table 2: Referenciasz¨ ovegek hasonl´ os´aga egym´ashoz m´erve.
Referenciasz¨ovegek
p-´ert´ekek
szignifink´ans
(<0.05*,
<0.01**, <0.001***)
1. 1. 1. 2. 2. 3.
2. 3. 4. 3. 4. 4.
0,021 0,695 <0,001 (0,0006) 0,011 0,223 <0,001 (0,0004)
* *** * ***
Table 3: Sz¨ ovegek hasonl´ os´ag´anak elt´er´ese referenciasz¨ovegenk´ent. P´ aros t-pr´ oba nem parametrikus form´ aja Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program) 2017. febru´ ar 3.
11 / 17
Eredm´ enyek ´ es k¨ ovetkeztet´ esek
Eredm´ enyek
Eredm´enyek IV.
A sz¨ ovegek sz´osz´am´anak kapcsolata a hasonl´ os´ag m´ert´ek´evel (korrel´aci´os anal´ızis). Enyhe tendenci´ozus (0.05
0.1) negat´ıv kapcsolat van k¨oz¨ott¨ uk (rPearson=-0.41, p=0.071) → egyetlen kiugr´ o sz´ osz´ammal rendelkez˝o sz¨oveg okozta (rPearson=-0.25, p=0.30). Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program) 2017. febru´ ar 3.
12 / 17
Eredm´ enyek ´ es k¨ ovetkeztet´ esek
K¨ ovetkeztet´ esek
K¨ovetkeztet´esek I.
1. Hipot´ezis Az els˝o hipot´ezis r´eszben teljes¨ ult, mivel egyik referenciasz¨oveghez m´ert ´atlag hasonl´os´agi ´ert´ek sem lett magasabb, mint 0,50. 2. Hipot´ezis A m´asodik hipot´ezis nem teljes¨ ult, mivel a sz¨ ovegek m´erete ´es az eredm´eny k¨ oz¨ott b´ar van kapcsolat, de egy gyenge negat´ıv kapcsolat, amit egy sz¨oveg okozott.
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program) 2017. febru´ ar 3.
13 / 17
Eredm´ enyek ´ es k¨ ovetkeztet´ esek
K¨ ovetkeztet´ esek
K¨ovetkeztet´esek II.
1
A szkript egyszer˝ uen ´at¨ ultethet˝ o m´as nyelvekre, robosztus.
2
El˝ozetesen nincs sz¨ uks´eg a sz¨ ovegek elemz´es´ere.
3
A mint´ak kiv´alaszt´asa kulcsfontoss´ag´ u.
4
Valid´al´asra ´ıgy is sz¨ uks´eg van.
5
A tov´abbi statisztikai vizsg´alatok a minta n¨ ovel´es´et ig´enylik.
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program) 2017. febru´ ar 3.
14 / 17
Eredm´ enyek ´ es k¨ ovetkeztet´ esek
K¨ ovetkeztet´ esek
Tov´abbi vizsg´ alatok – Kitekint´es
A korpusz ¨ossze´all´ıt´as´an´al – mint´ak ¨ ossze´all´ıt´as´an´al – figyelembe kell venni a ¨okoinnov´aci´o aldom´enjeit (pl. meg´ ujul´ o energia, u ´jrahasznos´ıt´as). Emberi annot´atorok bevon´asa: a sz¨ oveg milyen m´ert´ekben tartozik a dom´enhez, illetve mi´ert.
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program) 2017. febru´ ar 3.
15 / 17
Irodalom
Rettinger, A. – Zhang, L. – Rupnik, J. – Muhiˇ c, A. 2012. Cross-lingual document linking prototype. Deliverable D4.1.1. XLike project. Grefenstette, G. – Muchemi, L. 2016. Determining the Characteristic Vocabulary for a Specialized Dictionary using Word2vec and a Directed Crawler. Lexicographic Resources for Human Language Technology GLOBALEX 2016 Workshop Proceedings, 24 May 2016, Portoroz. ´ 2012. Terminol´ Nagy A. ogiakivonatol´ as francia nyelv˝ u szabadalmi le´ır´ asokb´ ol szab´ aly alap´ u´ es statisztikai m´ odszerek seg´ıts´ eg´ evel. PhD-´ ertekez´ es. Szegedi Tudom´ anyegyetem B¨ olcs´ eszettudom´ anyi Kar, Nyelvtudom´ anyi Doktori Iskola. Remus, S. – Biemann, Ch. 2016. Domain-Specific Corpus Expansion with Focused Webcrawling. Proceedings of the 10th edition of the Lexicographic Resources for Human Language Technology 23-28 May 2016, Portoroˇz (Slovenia). Garc´ıa–Cuesta, E. – Gal´ an, F. – Muhic, A. – Trampus, M. – Li, Zh. – Carreras, X. 2013. Early Prototype. D6.2.1. XLike project. Lu, J. – Ruan, D. – Zhang, G. 2007. E-Service Intelligence. Methodologies, Technologies and Applications. Springer-Verlag, Berlin Heidelberg.
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program) 2017. febru´ ar 3.
16 / 17
K¨osz¨on¨om sz´epen a figyelmet! [email protected]
Dod´ e R´ eka (ELTE BTK Nyelvtudom´ any Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelv´ eszet program) 2017. febru´ ar 3.
17 / 17