Jak´a data se pouˇz´ıvaj´ı ve strojov´em pˇrekladu Ondˇrej Bojar
[email protected] ´ Ustav form´aln´ı a aplikovan´e lingvistiky MFF UK ELRC Training Workshop, 15. prosinec 2015
1 / 39
Osnova
◮ ◮ ◮
Typy dat ve strojov´em pˇrekladu. Kolik je potˇreba? Absolutn´ı minimum: paraleln´ı korpusy. ◮
◮
Z´ısk´av´an´ı paraleln´ıch text˚ u z webu.
Sd´ılen´ı zdroj˚ u.
2 / 39
Pˇr´ıstupy ke strojov´emu pˇrekladu interlingva hloubkov´a syntax povrchov´a syntax morfologick´a rovina s1
◮
generuj povrchovou realizaci linearizuj strom
fr´azov´y pˇreklad s2 T1 T2 angliˇctina ˇceˇstina
Pravidlov´y vs. statistick´y pˇr´ıstup: ◮ ◮
Pravidlov´e syst´emy p´ıˇs´ı lingvist´e-program´atoˇri. Statistick´e syst´emy se nauˇc´ı samy podle dat. 3 / 39
Pˇr´ıstupy ke strojov´emu pˇrekladu interlingva hloubkov´a syntax povrchov´a syntax morfologick´a rovina s1
◮
generuj povrchovou realizaci linearizuj strom
fr´azov´y pˇreklad s2 T1 T2 angliˇctina ˇceˇstina
Pravidlov´y vs. statistick´y pˇr´ıstup: ◮ ◮
Pravidlov´e syst´emy p´ıˇs´ı lingvist´e-program´atoˇri. Statistick´e syst´emy se nauˇc´ı samy podle dat. 4 / 39
Form´aln´ı popis ˇceˇstiny Morfologick´ a rovina: Slovo z´akony z´akony z´akony z´akony udˇelejte udˇelejte pro lidi lidi lidi
Lema z´akon z´akon z´akon z´akon udˇelat udˇelat pro-1 ˇclovˇek ˇclovˇek ˇclovˇek
Morfologick´a znaˇcka NNIP1-----A---NNIP4-----A---NNIP5-----A---NNIP7-----A---Vi-P---2--A---Vi-P---3--A---4 RR--4---------NNMP1-----A---NNMP4-----A---NNMP5-----A----
Ruˇcn´ı anotace
Analytick´ a rovina (povrchov´ a syntax):
Tektogramatick´ a rovina (hloubkov´ a syntax):
5 / 39
Lingvistick´a data ◮
Korpusy jsou (velk´e) sb´ırky text˚ u: ◮
◮
◮
Texty typicky oznaˇckovan´e nebo vˇcetnˇe vˇetn´ych rozbor˚ u. Praˇzsk´y z´avislostn´ı korpus (PDT): 1.5 mil. slov. Praˇzsk´y ˇcj-aj z´avislostn´ı korpus (PCEDT): 50 tis. vˇet. Nˇekter´e v´ıcejazyˇcn´e: CzEng (15 mil. vˇet, 220 mil. slov, odpov´ıd´a ∼50 metr˚ um knih, ty tvoˇr´ı vˇsak jen ˇctvrtinu).
Slovn´ıky strojovˇe ˇciteln´e: ◮ ◮
◮
Morfologick´y slovn´ık ˇr´ık´a, ˇze koˇcka je ˇcesk´e slovo a koˇcke ne. Valenˇcn´ı slovn´ık ˇr´ık´a, ˇze: Rodiˇce pˇrijali Petra. → je spr´avnˇe Rodiˇce pˇrijeli Petra. → nen´ı spr´avnˇe Slovn´ık subjektivity obsahuje hodnot´ıc´ı v´yrazy.
⇒ Lze vyuˇz´ıt v programech (pravidlov´ych i statistick´ych). 6 / 39
Data po fr´azov´y pˇreklad (Moses, MT@EC) ◮
Pˇrekladov´e slovn´ıky m´enˇe vhodn´e. ◮
◮
Terminologie a glos´aˇre m´enˇe vhodn´e. ◮
◮ ◮
◮
Pˇreklad potˇrebuje vidˇet slova v kontextu. Souˇcasn´e metody mohou vynutit pˇreklad jen velice tupˇe.
Z´asadn´ı je paraleln´ı korpus. Pro kvalitu d˚ uleˇzit´e, aby texty byly z dan´e dom´eny. Syst´em memoruje aˇz desetice slov. ⇒ Dlouh´e term´ıny zachov´any pˇresnˇe. ˇ e tvaroslov´ı a voln´y slovosled situaci komplikuje. ⇒ Cesk´
7 / 39
Paraleln´ı korpus
8 / 39
Automatick´e zarovn´an´ı po vˇet´ach
9 / 39
Automatick´e zarovn´an´ı po vˇet´ach
10 / 39
Zarovnan´y paraleln´ı korpus (1658)
11 / 39
Automatick´e zarovn´an´ı po slovech
12 / 39
Kolik text˚ u je potˇreba?
13 / 39
Kolik text˚ u je potˇreba?
V´ıc.
13 / 39
V´ıc text˚ u ⇒ vyˇsˇs´ı kvalita
14 / 39
Texty v dom´enˇe ⇒ rovnou lepˇs´ı v´ystup
15 / 39
Texty v dom´enˇe ⇒ rychlejˇs´ı zlepˇsen´ı
16 / 39
Data pro aj→ˇcj v roce 2008
17 / 39
Vliv dat na kvalitu a nezn´am´a slova
18 / 39
Komunitn´ı data mimo dom´enu
19 / 39
Komunitn´ı data mimo dom´enu
20 / 39
Profesion´aln´ı pˇreklady mimo dom´enu
21 / 39
Vˇse mimo dom´enu
22 / 39
Obdobn´y objem v dom´enˇe: mnohem lepˇs´ı
23 / 39
Dodateˇcn´a data zlepˇs´ı pokryt´ı
24 / 39
. . . ale mimo dom´enu mohou sn´ıˇzit kvalitu
25 / 39
Mimo dom´enu: kvalita i pokryt´ı horˇs´ı
26 / 39
. . . v´ıc dat zlepˇs´ı pokryt´ı
27 / 39
. . . ale na moc kvalitu
28 / 39
Data radˇeji z webu neˇz z pap´ıru
29 / 39
Paraleln´ı webov´e str´anky
30 / 39
Podstatn´a ˇc´ast dat nedostupn´a
31 / 39
Podstatn´a ˇc´ast dat nedostupn´a
32 / 39
I dostupn´e texty nemus´ı b´yt vytˇeˇziteln´e
33 / 39
A mnoho paraleln´ıch web˚ u. . .
34 / 39
. . . je paraleln´ıch jen zˇc´asti.
35 / 39
Postup 1. 2. 3. 4.
Naj´ıt dobr´e zdroje. Z´ıskat surov´a data. (Identifikovat a pojmenovat dom´eny.) Vyˇcistit. ◮ ◮ ◮
5. 6. 7. 8.
Odstranit navigaˇcn´ı prvky, reklamu, ... Odstranit neparaleln´ı ˇc´asti. Odstranit jin´e jazyky.
Zarovnat po dokumentech. Zarovnat po vˇet´ach. Odstranit nekvalitnˇe zarovnan´e ˇc´asti. Zpˇr´ıstupnit ostatn´ım. ⇒ Paraleln´ı korpus CzEng. http://ufal.mff.cuni.cz/czeng 36 / 39
ˇ by to i l´epe Slo ◮ ◮ ◮
M˚ uˇzete n´am poradit dobr´e zdroje. M˚ uˇzete n´am pomoci s urˇcen´ım dom´eny. M˚ uˇzete n´am pˇr´ımo poskytnout sv´e texty.
37 / 39
ˇ by to i l´epe Slo ◮ ◮ ◮
M˚ uˇzete n´am poradit dobr´e zdroje. M˚ uˇzete n´am pomoci s urˇcen´ım dom´eny. M˚ uˇzete n´am pˇr´ımo poskytnout sv´e texty.
37 / 39
Shrnut´ı
YOUR DATA IS NEEDED!
38 / 39
Shrnut´ı ◮ ◮ ◮ ◮
◮
Lingvistick´e anal´yzy potˇrebuj´ı anotovan´a data v dom´enˇe. MT potˇrebuje paraleln´ı texty v dom´enˇe i mimo ni. ˇ ım v´ıc, t´ım l´ıp. C´ ˇ ım podobnˇejˇs´ı vstup˚ C´ um, t´ım lepˇs´ı. Jazykov´e zdroje je tˇreba sd´ılet. ◮
◮
Zveˇrejnˇen´e pˇreklady vytˇeˇzujeme, netrivi´aln´ı ´usil´ı. ◮
◮
I pr˚ umysl data sd´ıl´ı.
Ide´alnˇe ne PDF, nejradˇeji HTML s podobn´ym URL.
Lepˇs´ı by byly prim´arn´ı zdroje, vaˇse texty. 39 / 39