Možnosti zlepšení strojového překladu z angličtiny do češtiny

Prezentace k obhajobě diplomové práce

Možnosti zlepšení strojového překladu z angličtiny do češtiny Martin Popel

14. září 2009

TectoMT ● Anotace překladových chyb ● Jednotlivá vylepšení ● Analýza ● Transfer ● Syntéza ● Vyhodnocení ●

TectoMT Modulární framework pro úlohy zpracování přirozeného jazyka ● základní jednotka = blok ● Překladový systém s transferem přes tektogramatickou rovinu ●

ANALÝZA

TRANSFER

tektogramatická rovina

SYNTÉZA t-layer

analytická rovina

a-layer

morfologická rovina

m-layer zdrojový jazyk (angličtina)

cílový jazyk (čeština)

w-layer

TectoMT Modulární framework pro úlohy zpracování přirozeného jazyka ● základní jednotka = blok ● Překladový systém s transferem přes tektogramatickou rovinu ●

ANALÝZA tektogramatická rovina formémy gramatémy ...

TRANSFER

SYNTÉZA t-layer

HMTM

stavba t-stromu označení hran ke kontrakci analytická rovina analytické funkce parser (McDonald MST) morfologická rovina tagger (Morče) lemmatizace zdrojový jazyk (angličtina) tokenizace

...

a-layer

m-layer cílový jazyk (čeština)

w-layer

Anotace překladových chyb příklad SRC: The vote on it will take place at the beginning of next week. REF: Hlasovat se o něm bude

TST: Hlas o tom vezme místo

počátkem příštího týdne.

na začátku dalšího týdne.



AIM: Hlasování o tom se bude konat na začátku dalšího týdne. TST: Hlas o tom vezme místo

na začátku dalšího týdne.



AIM: Hlasování o tom se bude konat na začátku dalšího týdne. TST: lex-trans::Hlas o tom phrase-x::vezme místo na začátku dalšího týdne.

Anotace překladových chyb vyhodnocení    



Type Subtype Seriousness Source

lex, form, gram, phrase, order,... gram: gender, person, tense,... serious, minor tok, lem, tagger, parser, tecto, trans, x, syn, ?

Circumstances coord, ne (named entity), number Anotováno 250 vět, celkem 1463 chyb SYNTÉZA 3%

ANALÝZA 30%

TRANSFER 67%

chyby způsobené neizomorfismem 8% ostatní chyby v transferu 59%

Vylepšení 1. analýza 

Drobné úpravy tokenizace a tagování



Nová (rychlejší) lemmatizace

 Parsing  parenthese se parsuje odděleně od zbytku věty  pravidlové bloky pro opravu chyb

 Přidán blok vyplňující analytické funkce  Nová implementace budování t-roviny

Vylepšení 2. transfer 

Modulární strategie transferu (10 nových bloků)



Pravidla pro slovesný vid, číslovky,...

 Hidden Markov Tree Model (HMTM)  překlad lemmat a formémů současně  zapojen target-language tree model

funkce obdobná jazykovému modelu

 Tree-modified Viterbi algorithm

najde překlad (kombinaci lemmat a formémů), který má nejvyšší pravděpodobnost celého stromu

Vylepšení 2. transfer – ilustrace HMTM TRANSFER

Source tree (Czech)

Target tree (English)

P(optimal_tree) = PE(strojový | machine) · PT(machine | translation)· PE(překlad | translation) · PT(translation | be)· PE(snadný | easy) · PT(easy | be)· PE(být | be) · PT(be | ROOT)

ROOT 1

ROOT

SIS THE SYN

0.0

PE(být | have) = 0.01

PE(být | be) = 0.8

be PE (přek

lad | arc

PE(překlad

překlad

snadný

ade) = 0

| translatio

n) = 0.6

1 00 0.0

.7

translation

-10

1×10

PT(machine | translation) = 0.02

strojový vý

jo P E(stro

Source sentence: Strojový překlad by měl být snadný.

ine) | mach

machine

= 0.4

ý|

P E(

jov stro

ine eng

)=

0.5

have

1× 1 0 -8

AN ALY SIS

být

0.00 2

arcade 0-8 1×1 1×

0.001

easy

simple

-8

10

engine

Target sentence: Machine translation should be easy.

PE(source | target) … emission probabilities … translation model PT(dependent | governing) … transition probabilities … target-language tree model

Vylepšení 3. syntéza 

Upraveno dělení věty na klauze, vkládání interpunkce

 Přidán morfologický model  nalezení slovního tvaru pro dané lemma

s daným omezením na tag

 některé pozice tagu po překladu neznáme,

netřeba je specifikovat, vybere se nejčastější tvar

 trénováno na korpusu SYN (500 milionů slov)

Vyhodnocení

baseline (WMT09) po úpravách

NIST 3,974 4,716

BLEU 0,066 0,098



2777 vět z WMT2009 (news-test2009)



1 referenční překlad



Hlavní podíl na zlepšení mají 1. HMTM (a související úpravy transferu) 2. úpravy parsing

Ukázka překladu SRC: TectoMT is currently an experimental system, which is outperformed by state-of-the-art MT systems such as open source Moses. TST: TectoMT je nyní experimentální systém, který je překonán state-of-the-art MT systémy otevřených zdrojových Mojžíšů.

Připomínky oponenta ●

Intervaly spolehlivosti BLEU

●

Lemmatizace víceznačnost vstupu ● vyhodnocení HMTM ●

●

● ●

„převěšování“ na efektivní rodiče EM algoritmus

Připomínky oponenta intervaly spolehlivosti BLEU ● ●

●

●

Paired Bootstrap Resampling Koehn, 2004: ”If, say, one system outperforms the other system 95% of the time, we draw the conclusion that it is better with 95% statistical significance.” Zhang et al, 2004: ”From these discrepancy scores, find the middle 95% of the scores (i.e. the 2.5th percentile and the 97.5th percentile). That is the 95% confidence interval for the discrepancy between MT system A and B. If the confidence interval does not overlap with zero, we can claim that the difference between system A and B are statistically significant.” Zhang 95% ~ Koehn 97,5%

Připomínky oponenta intervaly spolehlivosti BLEU ●

●

●

2777 vět, resampling na 1000 vzorků, α = 0.05 52 variant systému, z toho jen 6 nesignifikantních zlepšení: Fix_tags_after_parse 0.0000 (-0.0000 ... 0.0003) Fix_tags_after_parse + mtags 0.0000 (-0.0000 ... 0.0003) Fix_is_member 0.0001 (-0.0001 ... 0.0005) Impose_subjpred 0.0002 (-0.0001 ... 0.0005) Vocalize_prepositions 0.0001 (-0.0002 ... 0.0004) Concatenate_tokens 0.0001 (-0.0003 ... 0.0006) Ostatní zlepšení signifikantní, např.: Translate_LF_tree_Viterbi 0.0130 (0.0107 ... 0.0156) Fix_tokenization 0.0008 (0.0005 ... 0.0013) Ascii_quotes 0.0085 (0.0072 ... 0.0098)

Připomínky oponenta lemmatizace – víceznačnost vstupu ●

●

●

Většinu víceznačností rozhodne tag ... ●

striking → {JJ=striking, VBG=strike}

●

Bill → {NN=bill, NNP=Bill}

●

'd → {MD=would, VBD=have}

●

found → {VB=found, VBD=find}

... některé ale ne (alespoň ne PennTB) ●

's → {VBZ=be, VBZ=have}

●

links → {NNS=link, NNS=links} (spojení, golfová hřiště)

Rozhraní pro Lemmatizer je (form, tag)→(lemma, neg)

Připomínky oponenta lemmatizace – vyhodnocení ●

type accuracy 98.9%, token accuracy 99,8% část BNC (87 milionů tokenů, 700 000 typů), ale ● ●

●

●

lemmatizace v BNC není zcela manuální, obsahuje chyby odlišná metodika lemmatizace (negace, příslovce, přídavná jména, zájmena, velká písmena, víceslovné tokeny,...) jiný tagset (CLAWS vs. PennTB)

Při této úspěšnosti by požadovaný korpus musel mít alespoň desítky miliónů tokenů.

Připomínky oponenta HMTM 



Jaký je efekt „převěšování“ členů koordinace na efektivní rodiče? 

Někdy pomůže, někdy uškodí. BLEU téměř stejné.



Proč? Právě v parsingu koordinací bývá dost chyb.

Šlo by HMTM trénovat pomocí EM algoritmu? 



Ano: Upward-downward algoritmus (Durand et al,2004) je obdobou forward-backward algoritmu. ale s komplikacemi: 





Emission a transition pravděpodobnosti se počítají z jiných dat (paralelní korpus + slovníky, jednojazyčný ČNK). Implementace používá ”backward” i ”forward” model.

Trénovacích dat se skrytými stavy máme dostatek.

Ukázka překladu Birds of a feather ﬂock together. Great talkers are little doers. As good be an addled egg as an idle bird. A miss by an inch is a miss by a mile. I’d rather be a hammer than a nail. A bird in the hand is worth two in the bush. Bread is the staff of life. I’ll come a bit later on my own.

Ptáci v bederním hejnu spolu. Velcí řečníci jsou malí vrazi. Dobré je feťácké vejce jako činný pták. Slečna palec je slečna miliónu. Spíše bych byl kladivo než nehet. Pták v ruce je cenný dvakrát v Bushovi. Chléb je zaměstnanec života. Sem čelist ještě na své milé.

Zdroje ●

●

●

Philipp Koehn: Statistical Significance Tests for Machine Translation Evaluation, Proceedings of EMNLP, 2004 Ying Zhang, Stephan Vogel, Alex Waibel: Interpreting BLEU/NIST Scores: How Much Improvement Do We Need to Have a Better System? Proceedings of LREC, 2004 Jean-Baptiste Durand, Paulo Gonçalvès,Yann Guédon: Computational Methods for Hidden Markov Tree Models – An Application to Wavelet Trees IEEE Transactions on Signal Processing, 2004

Možnosti zlepšení strojového překladu z angličtiny do češtiny

Recommend Documents