Prezentace k obhajobě diplomové práce
Možnosti zlepšení strojového překladu z angličtiny do češtiny Martin Popel
14. září 2009
TectoMT ● Anotace překladových chyb ● Jednotlivá vylepšení ● Analýza ● Transfer ● Syntéza ● Vyhodnocení ●
TectoMT Modulární framework pro úlohy zpracování přirozeného jazyka ● základní jednotka = blok ● Překladový systém s transferem přes tektogramatickou rovinu ●
ANALÝZA
TRANSFER
tektogramatická rovina
SYNTÉZA t-layer
analytická rovina
a-layer
morfologická rovina
m-layer zdrojový jazyk (angličtina)
cílový jazyk (čeština)
w-layer
TectoMT Modulární framework pro úlohy zpracování přirozeného jazyka ● základní jednotka = blok ● Překladový systém s transferem přes tektogramatickou rovinu ●
ANALÝZA tektogramatická rovina formémy gramatémy ...
TRANSFER
SYNTÉZA t-layer
HMTM
stavba t-stromu označení hran ke kontrakci analytická rovina analytické funkce parser (McDonald MST) morfologická rovina tagger (Morče) lemmatizace zdrojový jazyk (angličtina) tokenizace
...
a-layer
m-layer cílový jazyk (čeština)
w-layer
Anotace překladových chyb příklad SRC: The vote on it will take place at the beginning of next week. REF: Hlasovat se o něm bude
TST: Hlas o tom vezme místo
počátkem příštího týdne.
na začátku dalšího týdne.
Anotace překladových chyb příklad SRC: The vote on it will take place at the beginning of next week. REF: Hlasovat se o něm bude
počátkem příštího týdne.
AIM: Hlasování o tom se bude konat na začátku dalšího týdne. TST: Hlas o tom vezme místo
na začátku dalšího týdne.
Anotace překladových chyb příklad SRC: The vote on it will take place at the beginning of next week. REF: Hlasovat se o něm bude
počátkem příštího týdne.
AIM: Hlasování o tom se bude konat na začátku dalšího týdne. TST: lex-trans::Hlas o tom phrase-x::vezme místo na začátku dalšího týdne.
Anotace překladových chyb vyhodnocení
Type Subtype Seriousness Source
lex, form, gram, phrase, order,... gram: gender, person, tense,... serious, minor tok, lem, tagger, parser, tecto, trans, x, syn, ?
Circumstances coord, ne (named entity), number Anotováno 250 vět, celkem 1463 chyb SYNTÉZA 3%
ANALÝZA 30%
TRANSFER 67%
chyby způsobené neizomorfismem 8% ostatní chyby v transferu 59%
Vylepšení 1. analýza
Drobné úpravy tokenizace a tagování
Nová (rychlejší) lemmatizace
Parsing parenthese se parsuje odděleně od zbytku věty pravidlové bloky pro opravu chyb
Přidán blok vyplňující analytické funkce Nová implementace budování t-roviny
Vylepšení 2. transfer
Modulární strategie transferu (10 nových bloků)
Pravidla pro slovesný vid, číslovky,...
Hidden Markov Tree Model (HMTM) překlad lemmat a formémů současně zapojen target-language tree model
funkce obdobná jazykovému modelu
Tree-modified Viterbi algorithm
najde překlad (kombinaci lemmat a formémů), který má nejvyšší pravděpodobnost celého stromu
Vylepšení 2. transfer – ilustrace HMTM TRANSFER
Source tree (Czech)
Target tree (English)
P(optimal_tree) = PE(strojový | machine) · PT(machine | translation)· PE(překlad | translation) · PT(translation | be)· PE(snadný | easy) · PT(easy | be)· PE(být | be) · PT(be | ROOT)
ROOT 1
ROOT
SIS THE SYN
0.0
PE(být | have) = 0.01
PE(být | be) = 0.8
be PE (přek
lad | arc
PE(překlad
překlad
snadný
ade) = 0
| translatio
n) = 0.6
1 00 0.0
.7
translation
-10
1×10
PT(machine | translation) = 0.02
strojový vý
jo P E(stro
Source sentence: Strojový překlad by měl být snadný.
ine) | mach
machine
= 0.4
ý|
P E(
jov stro
ine eng
)=
0.5
have
1× 1 0 -8
AN ALY SIS
být
0.00 2
arcade 0-8 1×1 1×
0.001
easy
simple
-8
10
engine
Target sentence: Machine translation should be easy.
PE(source | target) … emission probabilities … translation model PT(dependent | governing) … transition probabilities … target-language tree model
Vylepšení 3. syntéza
Upraveno dělení věty na klauze, vkládání interpunkce
Přidán morfologický model nalezení slovního tvaru pro dané lemma
s daným omezením na tag
některé pozice tagu po překladu neznáme,
netřeba je specifikovat, vybere se nejčastější tvar
trénováno na korpusu SYN (500 milionů slov)
Vyhodnocení
baseline (WMT09) po úpravách
NIST 3,974 4,716
BLEU 0,066 0,098
2777 vět z WMT2009 (news-test2009)
1 referenční překlad
Hlavní podíl na zlepšení mají 1. HMTM (a související úpravy transferu) 2. úpravy parsing
Ukázka překladu SRC: TectoMT is currently an experimental system, which is outperformed by state-of-the-art MT systems such as open source Moses. TST: TectoMT je nyní experimentální systém, který je překonán state-of-the-art MT systémy otevřených zdrojových Mojžíšů.
Připomínky oponenta ●
Intervaly spolehlivosti BLEU
●
Lemmatizace víceznačnost vstupu ● vyhodnocení HMTM ●
●
● ●
„převěšování“ na efektivní rodiče EM algoritmus
Připomínky oponenta intervaly spolehlivosti BLEU ● ●
●
●
Paired Bootstrap Resampling Koehn, 2004: ”If, say, one system outperforms the other system 95% of the time, we draw the conclusion that it is better with 95% statistical significance.” Zhang et al, 2004: ”From these discrepancy scores, find the middle 95% of the scores (i.e. the 2.5th percentile and the 97.5th percentile). That is the 95% confidence interval for the discrepancy between MT system A and B. If the confidence interval does not overlap with zero, we can claim that the difference between system A and B are statistically significant.” Zhang 95% ~ Koehn 97,5%
Připomínky oponenta intervaly spolehlivosti BLEU ●
●
●
2777 vět, resampling na 1000 vzorků, α = 0.05 52 variant systému, z toho jen 6 nesignifikantních zlepšení: Fix_tags_after_parse 0.0000 (-0.0000 ... 0.0003) Fix_tags_after_parse + mtags 0.0000 (-0.0000 ... 0.0003) Fix_is_member 0.0001 (-0.0001 ... 0.0005) Impose_subjpred 0.0002 (-0.0001 ... 0.0005) Vocalize_prepositions 0.0001 (-0.0002 ... 0.0004) Concatenate_tokens 0.0001 (-0.0003 ... 0.0006) Ostatní zlepšení signifikantní, např.: Translate_LF_tree_Viterbi 0.0130 (0.0107 ... 0.0156) Fix_tokenization 0.0008 (0.0005 ... 0.0013) Ascii_quotes 0.0085 (0.0072 ... 0.0098)
Připomínky oponenta lemmatizace – víceznačnost vstupu ●
●
●
Většinu víceznačností rozhodne tag ... ●
striking → {JJ=striking, VBG=strike}
●
Bill → {NN=bill, NNP=Bill}
●
'd → {MD=would, VBD=have}
●
found → {VB=found, VBD=find}
... některé ale ne (alespoň ne PennTB) ●
's → {VBZ=be, VBZ=have}
●
links → {NNS=link, NNS=links} (spojení, golfová hřiště)
Rozhraní pro Lemmatizer je (form, tag)→(lemma, neg)
Připomínky oponenta lemmatizace – vyhodnocení ●
type accuracy 98.9%, token accuracy 99,8% část BNC (87 milionů tokenů, 700 000 typů), ale ● ●
●
●
lemmatizace v BNC není zcela manuální, obsahuje chyby odlišná metodika lemmatizace (negace, příslovce, přídavná jména, zájmena, velká písmena, víceslovné tokeny,...) jiný tagset (CLAWS vs. PennTB)
Při této úspěšnosti by požadovaný korpus musel mít alespoň desítky miliónů tokenů.
Připomínky oponenta HMTM
Jaký je efekt „převěšování“ členů koordinace na efektivní rodiče?
Někdy pomůže, někdy uškodí. BLEU téměř stejné.
Proč? Právě v parsingu koordinací bývá dost chyb.
Šlo by HMTM trénovat pomocí EM algoritmu?
Ano: Upward-downward algoritmus (Durand et al,2004) je obdobou forward-backward algoritmu. ale s komplikacemi:
Emission a transition pravděpodobnosti se počítají z jiných dat (paralelní korpus + slovníky, jednojazyčný ČNK). Implementace používá ”backward” i ”forward” model.
Trénovacích dat se skrytými stavy máme dostatek.
Ukázka překladu Birds of a feather flock together. Great talkers are little doers. As good be an addled egg as an idle bird. A miss by an inch is a miss by a mile. I’d rather be a hammer than a nail. A bird in the hand is worth two in the bush. Bread is the staff of life. I’ll come a bit later on my own.
Ptáci v bederním hejnu spolu. Velcí řečníci jsou malí vrazi. Dobré je feťácké vejce jako činný pták. Slečna palec je slečna miliónu. Spíše bych byl kladivo než nehet. Pták v ruce je cenný dvakrát v Bushovi. Chléb je zaměstnanec života. Sem čelist ještě na své milé.
Zdroje ●
●
●
Philipp Koehn: Statistical Significance Tests for Machine Translation Evaluation, Proceedings of EMNLP, 2004 Ying Zhang, Stephan Vogel, Alex Waibel: Interpreting BLEU/NIST Scores: How Much Improvement Do We Need to Have a Better System? Proceedings of LREC, 2004 Jean-Baptiste Durand, Paulo Gonçalvès,Yann Guédon: Computational Methods for Hidden Markov Tree Models – An Application to Wavelet Trees IEEE Transactions on Signal Processing, 2004