Jak najít optimální pˇreklad polysémních sloves – porovnání metod automatické analýzy paralelních textu˚ El˙zbieta Kaczmarska, Alexandr Rosen a Jirka Hana Instytut Slawistyki Zachodniej i Południowej, Wydział Polonistyki Uniwersytetu Warszawskiego Ústav teoretické a poˇcítaˇcové lingvistiky, Filozofická fakulta & Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Korpusová lingvistika 2014 Praha, 17. záˇrí 2014
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
1 / 45
O cˇ em budeme mluvit 1
Motivace
2
Ruˇcní analýza
3
ˇ Pˇredbežné shrnutí
4
Automatická excerpce ekvivalentu˚
5
Stochastické modelování lexikální ekvivalence
6
Perspektivy
7
Literatura
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
2 / 45
Motivace
O cˇ em budeme mluvit 1
Motivace
2
Ruˇcní analýza
3
ˇ Pˇredbežné shrnutí
4
Automatická excerpce ekvivalentu˚
5
Stochastické modelování lexikální ekvivalence
6
Perspektivy
7
Literatura
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
3 / 45
Motivace
ˇ Problém s porozumením a pˇrekladem sloves zejména se slovesy vyjadˇrujícími psychický stav cˇ asto více ekvivalentu˚ s výraznými rozdíly ve významu
Neúplné / nedostateˇcné informace v tradiˇcních slovnících chybí informace o valenci chybí pˇríklady, které by pomohly ve volbeˇ ekvivalentu [Oliva(1994)] – 80 tisíc hesel [Siatkowski & Basaj(2002)] – 53 tisíc hesel + 28 tisíc výrazu˚
Pˇríklad: toužit teskni´ ˛ c ≈ ‘tesknit (po cˇ em)’, ‘stýskat se (komu po cˇ em)’ marzy´c ≈ ‘snít (o cˇ em)’ pragna´ ˛c ≈ ‘prahnout (po cˇ em)’ [Kaczmarska & Rosen(2013)]
(Nezabýváme se definicí pojmu˚ valence a ekvivalent .)
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
4 / 45
Motivace
Cíle Prozkoumat význam polysémních lexému˚ srovnáním s jejich ekvivalenty v jiném jazyce, napˇr. v polštineˇ ˇ Problémy s volbou ekvivalentu jsou bežné u typologicky vzdálených ˇ jazyku, ˚ ale vyskytují se i u jazyku˚ spˇríznených
Najít faktory, které vedou k volbeˇ konkrétního ekvivalentu, na základeˇ kontextu a syntakticko-sémantických vlastností argumentu˚ daného lexému ve zdrojovém jazyce Porovnat ruzné ˚ metody: manuální automatické založené na pravidlech stochastické
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
5 / 45
Motivace
Je volba ekvivalentu dána valenˇcní strukturou? toužil.. ..po vlasti
pragnał.. ˛ ..ojczyzny
marzył.. ..o ojczy´znie
..po pivu ..najít smysl života ..po tom, aby ˇ rádi ho meli
..piwa ..znale´zc´ ..
..o piwie ..o tym, z˙ eby..
..˙zeby go lubili
..o tym, z˙ eby..
tesknił.. ˛ ..za ojczyzna˛ / do ojczyzny ..za piwem ..do tego za tym z˙ eby.. ..do tego / za tym, z˙ eby..
?? ?
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
6 / 45
Motivace
Co ˇríká korpus?
Paralelní korpus jako zdroj možných ekvivalentu˚ Z paralelních konkordancí obsahující daný lexém lze zjistit: valenˇcní rámec lexému argumenty rámce porovnání významových odstínu˚ agregované údaje pomocí statistické analýzy
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
7 / 45
Motivace
Analýza Ruˇcní analýza paralelních konkordancí Automatické zarovnání po slovech, automatická excerpce dvoujazyˇcného slovníku Natrénování a evaluace statistického modelu, který by rozhodl o polských ekvivalentech s využitím cˇ eského kontextu ve dvou podobách: nestrukturovaný, lineární kontext syntakticky závislé cˇ leny
Porovnání s lexikálními/kolokaˇcními profily (Word Sketches, Kolokator) ˇ lexému˚ oveˇ ˇ reny na vyvážených Frekvenˇcní pomery jednojazykových korpusech Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
8 / 45
Motivace
Data: InterCorp, verze 6
InterCorp – vícejazykový paralelní korpus s cˇ eštinou uprostˇred ˇ souˇcást Ceského národního korpusu http://www.korpus.cz/intercorp/ Texty v 31 jazycích + cˇ esky Velikost celkem – 867/100 mil. slov (cizí/ˇceské) Jádro – 139/62 mil. slov: beletrie s ruˇcneˇ zkontrolovaným ˇ zarovnáním po vetách Z toho cˇ esko-polská cˇ ást – 12 mil. slov v každém jazyce
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
9 / 45
Ruˇcní analýza
O cˇ em budeme mluvit 1
Motivace
2
Ruˇcní analýza
3
ˇ Pˇredbežné shrnutí
4
Automatická excerpce ekvivalentu˚
5
Stochastické modelování lexikální ekvivalence
6
Perspektivy
7
Literatura
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
10 / 45
Ruˇcní analýza
Ruˇcní analýza 1 2
konkordance sledovaných lexému˚ v cˇ eských originálech ˇ anotace podle pˇredmetového argumentu cˇ eského lexému: lidská bytost – Ohum abstraktum – Oabstr konkrétum – OR ˇ –S vedlejší veta infinitiv – inf
3
ˇ anotace podle podle pˇredmetového argumentu polského ekvivalentu
4
identifikace pravidel pro volbu ekvivalentu podle typu argumentu
Výsledky ukazují, jak konkrétní valenˇcní rámec (napˇr. slovesa toužit) (spolu)rozhoduje o pˇrekladu. Budeme zkoumat toužit v cˇ eských originálech, celkem 219 výskytu. ˚ Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
11 / 45
Ruˇcní analýza
Pˇreklady toužit po O HUM ekvivalent marzy´c o mie´c ochote˛ po˙zada´ ˛ c po˙zadany ˛ pragna´ ˛c pragna´ ˛c pragna´ ˛c pragna´ ˛c teskni ˛ c´ teskni ˛ c´ do teskni ˛ c´ do teskni ˛ c´ do teskni ˛ c´ za zapragna´ ˛c zateskni ˛ c´ za z˙ ywi´c miło´sc´ do CELKEM Kaczmarska, Rosen & Hana (UW & UK)
argument Ohum inf Ohum Ohum X inf Oabstr Ohum X S Oabstr Ohum Ohum Oabstr Ohum Ohum
ˇ pocet 2 1 5 1 1 1 1 12 1 1 1 5 2 1 1 1 37
Jak najít optimální pˇreklad polysémních sloves
Korpling
12 / 45
Ruˇcní analýza
Pˇríklady toužit po O HUM toužit po O HUM → pragna´ ˛c O HUM cs Jsi krásná, nepˇrestanu po tobeˇ toužit a bát se tvé krásy... pl Jeste´s piekna, ˛ nigdy nie przestane˛ cie˛ pragna˛c´ i ba´c sie˛ twojej urody... toužit po O HUM → teskni´ ˛ c do S ˇ cs Miláˇcku, já netoužím po rodine. pl Kochanie, ja nie teskni ˛ e˛ do tego, by zało˙zy´c rodzine. ˛ toužit po O HUM → marzy´c o O HUM ˇ cs Vždycky jsem toužila po cˇ loveku, který by byl prostý a pˇrímý. pl Zawsze marzyłam o człowieku, który był by prosty i bezpo´sredni. Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
13 / 45
Ruˇcní analýza
Pˇreklady toužit po O ABSTR chcie´c da˙ ˛zy´c do dbajacy ˛ o to dyba´c na imponowa´c marzy´c o marzy´c o my´sle´c o po˙zada´ ˛ c pragna´ ˛c pragna´ ˛c pragna´ ˛c pragnienie szuka´c teskni ˛ c´ do teskni ˛ c´ za teskno ˛ za upragniony zamierza´c zapragna´ ˛c z˙ adny ˛ JINÉ CELKEM Kaczmarska, Rosen & Hana (UW & UK)
inf Oabstr S Oabstr Oabstr Oabstr ˇ Ohum (zmena struktury) Oabstr Oabstr S inf Oabstr Oabstr Oabstr Oabstr Oabstr Oabstr Oabstr inf inf Oabstr ˇ (podstatná zmena struktury)
Jak najít optimální pˇreklad polysémních sloves
1 2 1 1 1 20 1 1 5 1 4 29 1 1 11 7 1 1 1 1 1 2 94 Korpling
14 / 45
Ruˇcní analýza
Pˇríklady toužit po O ABSTR toužit po O ABSTR → pragna´ ˛c O ABSTR ˇ Toužíte po odvete. Pragnie pan odwetu. toužit po O ABSTR → teskni´ ˛ c do O ABSTR Já toužím po lásce. ?Ja teskni ˛ e˛ do miło´sci. toužit po O ABSTR → marzy´c o O ABSTR byli jsme unaveni, promoˇceni a toužili jsme po odpoˇcinku. ´ byli´smy zmeczeni, ˛ przemoczeni i marzylismy o odpoczynku.
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
15 / 45
Ruˇcní analýza
Pˇreklady toužit po OR
chcie´c marzy´c marzy´c o obiekt po˙zadania ˛ pragna´ ˛c pragna´ ˛c teskni ˛ c´ za CELKEM
Kaczmarska, Rosen & Hana (UW & UK)
inf S OR inf OR OR
1 1 5 1 1 3 2 14
Jak najít optimální pˇreklad polysémních sloves
Korpling
16 / 45
Ruˇcní analýza
Pˇríklady toužit po OR
toužit po OR → teskni´ ˛ c za OR cs Celý život jsem toužila po skuteˇcném domoveˇ pl Całe z˙ ycie teskniłam ˛ za prawdziwym domem toužit po OR → marzy´c o OR cs Mladý muž touží po vlastním divadle. pl Młody me˙ ˛ zczyzna marzył o własnym teatrze.
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
17 / 45
Ruˇcní analýza
Pˇreklady toužit + INF by´c pragnieniem chcie´c chetnie ˛ dba´c o marzy´c o mie´c marzenie mie´c ochote˛ pragna´ ˛c pragna´ ˛c pragna´ ˛c teskni ˛ c´ za zachciewa´c sie˛ JINÉ CELKEM Kaczmarska, Rosen & Hana (UW & UK)
inf inf S Oabstr Oabstr inf inf inf S Oabstr S Oabstr ˇ (podstatná zmena struktury) 80
Jak najít optimální pˇreklad polysémních sloves
1 20 1 1 4 1 1 44 1 3 1 1 1
Korpling
18 / 45
Ruˇcní analýza
Pˇríklady toužit INF 1/2
toužit INF → chcie´c INF ˇ ho zblízka, anebo se asponˇ zeptat, kdo to je a co cs Toužil jsem videt znamená. pl Strasznie chciałem zobaczy´c go z bliska albo przynajmniej sie˛ spyta´c, kto to jest i co to znaczy. toužit INF → pragna´ ˛c INF ˇ ˇrekl náhle v obluzení, touže ji zlíbat a cíteˇ strach. cs Dobˇre deláš, pl – Dobrze robisz – rzekł jak urzeczony, pragnac ˛ ucałowa´c ja˛ i czujac ˛ jednocze´snie strach.
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
19 / 45
Ruˇcní analýza
Pˇríklady toužit INF 2/2 toužit INF → marzy´c o O ABST ˇ dlouze rozprávet. ˇ cs Netoužila o nem pl Nie marzyła o długiej rozmowie na ten temat. toužit INF → mie´c marzenie INF cs Soudruh hrozneˇ toužil si s Helenou promluvit. pl Towarzysz miał jedno marzenie: rozmawia´c z Helena. ˛ toužit INF → teskni´ ˛ c za S ˇ cs Nakonec toužíte poznat nekoho obyˇcejnýho. ´ teskni pl W koncu ˛ sie˛ za tym, by pozna´c kogo´s zwyczajnego.
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
20 / 45
Ruˇcní analýza
Pˇreklady toužit po S
pragna´ ˛c pragna´ ˛c chcie´c marzy´c sie˛ CELKEM
Kaczmarska, Rosen & Hana (UW & UK)
inf S S Nom
1 2 1 1 5
Jak najít optimální pˇreklad polysémních sloves
Korpling
21 / 45
Ruˇcní analýza
Pˇríklady toužit po S
toužit po S → pragna´ ˛c S cs Nesmírneˇ toužila po tom, aby se s ní oženil pl Pragneła ˛ bardzo, z˙ eby sie˛ z nia˛ o˙zenił toužit po S → chcie´c S cs Obama netouží po tom, aby se problémy evropského dluhu rozšíˇrily do Ameriky. pl Prezydent Obama nie chce przecie˙z, z˙ eby europejski problem ´ długu panstwowego przeniósł sie˛ do Ameryki.
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
22 / 45
Ruˇcní analýza
Pˇreklady toužit S
chcie´c chcie´c marzy´c pragna´ ˛c pragna´ ˛c z˙ yczy´c sobie CELKEM
Kaczmarska, Rosen & Hana (UW & UK)
S inf S S inf S
1 1 2 11 2 1 18
Jak najít optimální pˇreklad polysémních sloves
Korpling
23 / 45
Ruˇcní analýza
Pˇríklady toužit S toužit S → pragna´ ˛c S ˇ cs Celý život toužil, aby milovaná žena byla s to tlouci kvuli ˚ nemu hlavou o zed’, kˇriˇcet zoufalstvím anebo skákat radostí po pokoji. pl Przez całe z˙ ycie pragnał, ˛ z˙ eby ukochana kobieta gotowa była bi´c dla niego głowa˛ w mur, wy´c z rozpaczy i skaka´c z rado´sci po mieszkaniu. toužit S → marzy´c S ˇ cs Touží, aby ji nekdo odnauˇcil být anachronická! pl Marzy, by kto´s nauczył ja, ˛ jak nie by´c anachroniczna! ˛ toužit S → chcie´c INF ˇ cs Toužila, aby s ní sdílelo její samotu alesponˇ nejaké zvíˇrátko pl Chciała dzieli´c z kim´s swa˛ samotno´sc´ , cho´cby z jakim´s zwierzatkiem. ˛ Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
24 / 45
ˇ Pˇredbežné shrnutí
O cˇ em budeme mluvit 1
Motivace
2
Ruˇcní analýza
3
ˇ Pˇredbežné shrnutí
4
Automatická excerpce ekvivalentu˚
5
Stochastické modelování lexikální ekvivalence
6
Perspektivy
7
Literatura
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
25 / 45
toužit (po) pl chcie´c chcie´c chcie´c da˙ ˛zy´c do łakna´ ˛c marzy´c o marzy´c o marzy´c o marzy´c mie´c ochote˛ po˙zada´ ˛ c po˙zada´ ˛ c pragna´ ˛c pragna´ ˛c pragna´ ˛c pragna´ ˛c pragna´ ˛c pragna´ ˛c pragnienie (s)próbowa´c spragniony teskni´ ˛ c do teskni´ ˛ c do teskni´ ˛ c za teskni´ ˛ c za teskni´ ˛ c za złakniony JINÉ Σ
val Oa inf S Oa OR Oa Oh OR S inf Oa Oh Oa Oh OR Inf S Oa+ing inf Oa Oa Oh Oa Oh OR Oa
cs Σ 0 23 2 2 0 24 3 5 3 2 5 5 33 12 3 53 15 1 0 0 0 12 5 7 2 2 0 27 219
Oa
Oh
1
OR 1
inf 20
S 1 2
2 20 1
4 2 5 1 1
2 1
5 29
4 1
5 1 12 1
3 3 1
44 1
3 13
1
11
1 5
7 2 2 9 81
7 31
2 13
7 73
2 21
pl Σ 3 9 0 0 2 6 0 1 0 1 3 2 26 2 1 24 3 4 3 2 3 2 1 1 0 0 2 35 145
Oa
Oh
OR
2 1
inf
S
6
1 2
X
2 5
1 1 1
3 2 25
1 2 1 23
1
3 4 3 2 3 2 1 1
2 10 45
2 5
2 4
20 36
7
1 5
ˇ Pˇredbežné shrnutí
ˇ faktor pro výber ˇ ekvivalentu u: Valence je nejspolehlivejší toužit + INF ˇ nejˇcastejšími ekvivalenty (> 80 %) jsou: pragna´ ˛c + INF chcie´c + INF
Co rozhoduje v ostatních pˇrípadech: kontext sémantický podtyp OA BSTR personifikace teskni´ ˛ c / bez personifikace ¬teskni´ ˛ c známý teskni´ ˛ c / neznámý ¬teskni´ ˛ c více reálný pragna´ ˛c / méneˇ reálný marzy´c
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
27 / 45
ˇ Pˇredbežné shrnutí
toužit po velké lásce / exotické cesteˇ Marzyc´ o wielkiej miło´sci / egzotycznej podró˙zy T˛esknic´ za wielka˛ miło´scia˛ / * egzotyczna˛ podró˙za˛ T˛esknic´ do wielkiej miło´sci / * egzotycznej podró˙zy Pragna˛c´ wielkiej miło´sci / ? egzotycznej podró˙zy
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
28 / 45
ˇ Pˇredbežné shrnutí
toužit po OA BSTR → teskni´ ˛ c do OA BSTR ˇ e, ˇ kde lidé mluví jinou ˇreˇcí než on. cs Toužila po svet pl T˛eskniła do s´ wiata, w którym ludzie mówia˛ innym jezykiem ˛ ni˙z on. (který už zná) pl jiné významy: pragneła ˛ s´ wiata / marzyła o s´ wiecie ... ˇ (? / který nikdy nevidela) toužit po OA BSTR → pragna´ ˛c OA BSTR ˇ e, ˇ kde by vládla spravedlnost. cs Tomáš toužil po svet pl Tomasz pragnał ˛ s´ wiata, w którym panowałaby sprawiedliwo´sc´ . (který nezná, nemá s ním zkušenost, neexistuje) pl jiné významy: tesknił ˛ do s´ wiata / marzył o s´ wiecie ... (s nímž má zkušenost / ?)
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
29 / 45
Automatická excerpce ekvivalentu˚
O cˇ em budeme mluvit 1
Motivace
2
Ruˇcní analýza
3
ˇ Pˇredbežné shrnutí
4
Automatická excerpce ekvivalentu˚
5
Stochastické modelování lexikální ekvivalence
6
Perspektivy
7
Literatura
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
30 / 45
Automatická excerpce ekvivalentu˚
Automatická excerpce ekvivalentu˚ Tools: Zarovnání po slovech: GIZA++ Texts: InterCorp verze 6 pouze beletrie ˇ bez delení na cˇ eské/polské/cizí originály pouze zarovnání 1:1 cˇ eské texty: 11,9 mil. slov polské texty: 11,9 mil. slov poˇcet excerpovaných lemmat: 8,7 mil. dvojic poˇcet dvoujazyˇcných hesel: 0,5 mil. poˇcet lemmat: 121 tis. cˇ eských, 98 tis. polských Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
31 / 45
Automatická excerpce ekvivalentu˚
304 107 82 70 40 24 9 8 8 8 7 6 5 4 4 4 ...
toužit toužit toužit toužit toužit toužit toužit toužit toužit toužit toužit toužit toužit toužit toužit toužit ...
pragna´ ˛c chcie´c teskni ˛ c´ marzy´c po˙zada´ ˛ c ochota zapragna´ ˛c pragnienie tesknota ˛ zale˙ze´c spragniony z˙ yczy´c upragniony che´ ˛c szuka´c zateskni ˛ c´ ...
Kaczmarska, Rosen & Hana (UW & UK)
Celkem dvojic s toužit výskytu: ˚ 540 unikátních: 53
Jak najít optimální pˇreklad polysémních sloves
Korpling
32 / 45
Automatická excerpce ekvivalentu˚
O volbeˇ mezi automaticky excerpovanými ekvivalenty jednoho lexému nelze rozhodnout bez kontextu, jediným dalším údajem je frekvence. I tak lze takový slovník použít jako základ pro kontrastivní lexikální výzkum.
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
33 / 45
Stochastické modelování lexikální ekvivalence
O cˇ em budeme mluvit 1
Motivace
2
Ruˇcní analýza
3
ˇ Pˇredbežné shrnutí
4
Automatická excerpce ekvivalentu˚
5
Stochastické modelování lexikální ekvivalence
6
Perspektivy
7
Literatura
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
34 / 45
Stochastické modelování lexikální ekvivalence
Stochastické modelování lexikální ekvivalence
Hypotéza: volba ekvivalentu je dána kontextem Metoda 1: lineární kontext Metoda 2: syntakticky závislé cˇ leny / argumenty – WIP Je možná standardní evaluace (trénovací/testovací data) Pozor: data nejsou ruˇcneˇ opravena
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
35 / 45
Stochastické modelování lexikální ekvivalence
Metoda 1: lineární kontext InterCorp verze 7, cˇ esko-polská beletrie 10 mil. dvojic slov ˇ lemmatizace (v cˇ eštineˇ i polštine) zarovnání po slovech pro každý sledovaný cˇ eský lexém nasbíráme slova z kontextu naivní Bayesuv ˚ klasifikátor rysu; ˚ alternativy dávají stejné nebo horší výsledky v úvahu bereme ekvivalenty, které se na celkovém poˇctu pˇrekladových ekvivalentu˚ daného cˇ eského lexému podílejí asponˇ 1% Kontext: zleva a zprava: 4+4 pozice (vˇcetneˇ interpunkce) všechna slova si jsou rovna, bez ohledu na vzdálenost uvažujeme jen slova s frekvencí 5 a více nefiltrujeme pomocí stopwords Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
36 / 45
Stochastické modelování lexikální ekvivalence
Evaluace 10-fold cross-validation 5 cˇ eských predikátu: ˚ (být) líto mrzet toužit trápit (se) zdát (se)
cˇ esky líto mrzet toužit trápit zdát
frekvence 684 392 839 433 4663
Kaczmarska, Rosen & Hana (UW & UK)
poˇcet polských ekvivalentu˚ 6 12 9 15 10
Jak najít optimální pˇreklad polysémních sloves
správneˇ 52.2% 43.6% 35.3% 20.1% 35.8%
Kappa 30.5% 23.0% 10.1% 30.5% 8.6%
Korpling
37 / 45
Stochastické modelování lexikální ekvivalence
Kontingenˇcní tabulka (confusion matrix) pro líto
a 4 9 2 5 6 9
b 5 18 2 1 12 16
c 2 2 3 3 2 8
Kaczmarska, Rosen & Hana (UW & UK)
d 5 3 2 9 20 9
e 7 15 9 17 203 62
f 14 15 12 5 48 120
<– urˇceno jako a = współczu´c b = z˙ ałowa´c c = szkoda d = przeprasza´c e = przykro f = z˙ al
Jak najít optimální pˇreklad polysémních sloves
Korpling
38 / 45
Stochastické modelování lexikální ekvivalence
být líto + NPDAT + NPGEN = z˙ al Je mi ho samozˇrejmeˇ líto. – Jest mi go oczywi´scie z˙ al. . . být líto + NPDAT + to / Ø = (by´c ) przykro ˇ Potom nám to bylo obema líto. – Potem nam obu było przykro.
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
39 / 45
Stochastické modelování lexikální ekvivalence
Metoda 2: zavislé/argumenty
InterCorp verze 7, cˇ esko-polská beletrie, 18 mil. cˇ eských tokenu˚ ˇ lemmatizace (v cˇ eštineˇ i polštine) stochastická syntaktická analýza cˇ eštiny: struktura a funkce identifikace „efektivních ˇrídících cˇ lenu“ ˚ zarovnání po slovech ˇ syntaktického kontextu pro každý sledovaný cˇ eský lexém sber (závislých cˇ lenu) ˚ ˇ pravdepodobnostní závislostní klasifikátor
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
40 / 45
Perspektivy
O cˇ em budeme mluvit 1
Motivace
2
Ruˇcní analýza
3
ˇ Pˇredbežné shrnutí
4
Automatická excerpce ekvivalentu˚
5
Stochastické modelování lexikální ekvivalence
6
Perspektivy
7
Literatura
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
41 / 45
Perspektivy
Perspektivy
Porovnání stochastických metod 1 a 2: co vlastneˇ rozhoduje o volbeˇ ekvivalentu? Generalizace z lexému˚ na místeˇ závislých/argumentu˚ do sémantických tˇríd pomocí tezauru ˇ argumentu˚ a symetrickému Syntaktická analýza polštiny ke zjištení porovnání? Další rysy pro klasifikátor z kontextu? Jde o podobný úkol jako WSD (word sense disambiguation), možná inspirace pro volbu metody
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
42 / 45
Perspektivy
Dziekujemy ˛ za uwage! ˛ ˇ Dekujeme za pozornost! ˇ címe Za technickou pomoc vdeˇ Tomáši Jelínkovi, Davidu Mareˇckovi a Haneˇ Skoumalové
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
43 / 45
Literatura
O cˇ em budeme mluvit 1
Motivace
2
Ruˇcní analýza
3
ˇ Pˇredbežné shrnutí
4
Automatická excerpce ekvivalentu˚
5
Stochastické modelování lexikální ekvivalence
6
Perspektivy
7
Literatura
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
44 / 45
Literatura
Kaczmarska, E. & Rosen, A. (2013). Miedzy ˛ znaczeniem leksykalnym a walencja˛ – próba opracowania metody ekstrakcji ekwiwalentów na podstawie korpusu równoległego (Between lexical meaning and valency – towards a method for extracting equivalents based on a parallel corpus). ´ Studia z Filologii Polskiej i Słowianskiej, 48, 103–121. Oliva, K. (1994). Polsko-ˇceský slovník. Academia, Praha. Siatkowski, J. & Basaj, M. (2002). Słownik czesko-polski. Wiedza Powszechna, Warszawa, 2 edition.
Kaczmarska, Rosen & Hana (UW & UK)
Jak najít optimální pˇreklad polysémních sloves
Korpling
45 / 45