Automatisch Vertalen SMT Véronique Hoste (met dank aan Lieve Macken) Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Hoe leert een computer vertalen? Woordverwerving in SMT
Vakgroep Vertalen, Tolken en Communicatie
鱼汤 糖醋老鸭 Vakgroep Vertalen, Tolken en Communicatie
yú tāng táng cù lǎo yā
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Co-occurrence frequency 鸡汤 ⽼老鸭汤 酸辣汤 … 糖醋里肌 糖醋⻥鱼 红烧⻥鱼
jī tāng lǎo yā tāng suān là tāng
chicken soup duck soup hot and sour soup
táng cù lǐ jī táng cù yú hóng shāo yú
sweet and sour pork sweet and sour fish fish in soy sauce
Vakgroep Vertalen, Tolken en Communicatie
Co-occurrence frequency ⻥鱼汤 = fish soup; 糖醋 = sweet and sour 鸡汤 ⽼老鸭汤 酸辣汤 … 糖醋里肌 糖醋⻥鱼 红烧⻥鱼
jī tāng lǎo yā tāng suān là tāng
chicken soup duck soup hot and sour soup
táng cù lǐ jī táng cù yú hóng shāo yú
sweet and sour pork sweet and sour fish fish in soy sauce
Vakgroep Vertalen, Tolken en Communicatie
Educated guess 糖醋⽼老鸭 = sweet and sour duck 鸡汤 ⽼老鸭汤 酸辣汤 …
jī tāng lǎo yā tāng suān là tāng
Vakgroep Vertalen, Tolken en Communicatie
chicken soup duck soup hot and sour soup
Vakgroep Vertalen, Tolken en Communicatie
Belangrijke begrippen • Voorwaardelijke kans: P(a|b) waarde tussen 0 en 1
Vakgroep Vertalen, Tolken en Communicatie
Belangrijke begrippen • Voorwaardelijke kans: P(a|b) waarde tussen 0 en 1
Vakgroep Vertalen, Tolken en Communicatie
Belangrijke concepten • Voorwaardelijke kans: P(a|b) waarde tussen 0 en 1
Vakgroep Vertalen, Tolken en Communicatie
Belangrijke concepten • Voorwaardelijke kans: P(a|b) waarde tussen 0 en 1
Vakgroep Vertalen, Tolken en Communicatie
Beperking: enkel “woorden”
•
Vakgroep Vertalen, Tolken en Communicatie
Ji ding
Uniforme verdeling
Vakgroep Vertalen, Tolken en Communicatie
Na 1 iteratie
Vakgroep Vertalen, Tolken en Communicatie
Na 2 iteraties
Vakgroep Vertalen, Tolken en Communicatie
Tot convergentie
Vakgroep Vertalen, Tolken en Communicatie
Tijd voor dessert? ⿇麻饼
má bǎng
Vakgroep Vertalen, Tolken en Communicatie
Tijd voor dessert? ⿇麻饼
má bǎng
Vakgroep Vertalen, Tolken en Communicatie
Datagebaseerde methode ‣ Computer leidt alle kennis af uit data ‣ Meer data è meer evidentie è betere kwaliteit ‣ Kwaliteit ~ mate waarin te vertalen teksten lijken op trainingsmateriaal
Vakgroep Vertalen, Tolken en Communicatie
Chinees-Nederlands 鸡汤 ⽼老鸭汤 酸辣汤 … 糖醋里肌 糖醋⻥鱼 红烧⻥鱼
jī tāng lǎo yā tāng suān là tāng
kippensoep eendensoep zoetzure soep (heet)
táng cù lǐ jī táng cù yú hóng shāo yú
varkensvlees, zoetzuur vis, zoetzuur vis in sojasaus
Vakgroep Vertalen, Tolken en Communicatie
Betekenis?
鸡 (jī) = chicken
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Learning Phrasal Alignments
Vakgroep Vertalen, Tolken en Communicatie
Learning Phrasal Alignments
Vakgroep Vertalen, Tolken en Communicatie
Learning Phrasal Alignments
Vakgroep Vertalen, Tolken en Communicatie
Learning Phrasal Alignments
Vakgroep Vertalen, Tolken en Communicatie
Phrase table
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Hoe leert een computer wat correct Engels/Nederlands is?
Vakgroep Vertalen, Tolken en Communicatie
Taalmodel I like Chinese
Vakgroep Vertalen, Tolken en Communicatie
…
Taalmodel I like Chinese
Vakgroep Vertalen, Tolken en Communicatie
food New Year tea beer .
Taalmodel N-gram = sequentie van woorden n-gram van lengte 1 = unigram (woord) n-gram van lengte 2 = bigram n-gram van lengte 3 = trigram
Vakgroep Vertalen, Tolken en Communicatie
Taalmodel Bigram: I like Chinese food I like like Chinese Chinese food
Vakgroep Vertalen, Tolken en Communicatie
Taalmodel Trigram: I like Chinese food I like Chinese like Chinese food
Vakgroep Vertalen, Tolken en Communicatie
Taalmodel Hypothese: Indien een zin veel plausibele ngrammen bevat is het een plausibele (“correcte”) zin “I want Chinese food” “I want food Chinese” “I want Chinese lunch”
Vakgroep Vertalen, Tolken en Communicatie
Taalmodel Hypothese: Indien een zin veel plausibele ngrammen bevat is het een plausibele (“goede”) zin “I want Chinese food” “I want food Chinese” “I want Chinese lunch”
Vakgroep Vertalen, Tolken en Communicatie
1 3 2
Taalmodel N-gram probabiliteit (monolinguale corpora) bigram trigram
Vakgroep Vertalen, Tolken en Communicatie
Taalmodel “I want Chinese food” P(want|I) x P(Chinese|want) x P(food|Chinese)
“I want food Chinese” P(want|I) x P(food|want) x P(Chinese|food)
“I want Chinese lunch” P(want|I) x P(Chinese|want) x P(lunch|Chinese)
Vakgroep Vertalen, Tolken en Communicatie
Taalmodel: bi-gram probabiliteiten I want Chinese food P(want|I) x P(Chinese|want) x P(food|Chinese) = 0.32 x 0.0049 x 0.56 = 0.0008781
Vakgroep Vertalen, Tolken en Communicatie
Taalmodel: bi-gram probabiliteiten I want food Chinese P(want|I) x P(food|want) x P(Chinese|food) = 0.32 x 0.0066 x 0 = 0
Vakgroep Vertalen, Tolken en Communicatie
Taalmodel: bi-gram probabiliteiten I want Chinese lunch P(want|I) x P(Chinese|want) x P(lunch|Chinese) = 0.32 x 0.0049 x 0.0047 = 0.0000074
Vakgroep Vertalen, Tolken en Communicatie
Taalmodel “I want Chinese food”
0.0008781
1
“I want Chinese lunch”
0.0000074
2
“I want food Chinese”
0
3
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
Vakgroep Vertalen, Tolken en Communicatie
that
these
dat
deze
die
rules regels
must moet
deze regels deze voorschriften dat deze regels
be zijn
adhered
to
gehecht
wordt voldaan worden nageleefd dienen te worden nageleefd acht moeten worden genomen moet worden gerespecteerd moeten worden gerespecteerd
Vakgroep Vertalen, Tolken en Communicatie
naar
that
these
dat
deze
die
rules
must
regels
deze regels
be
moet
zijn
moeten
deze voorschriften dat deze regels
adhered
to
gehecht
wordt voldaan worden nageleefd dienen te worden nageleefd
acht moeten worden genomen moet worden gerespecteerd moeten worden gerespecteerd Vakgroep Vertalen, Tolken en Communicatie
naar
that
these
dat
deze
die
rules regels
must moet
deze regels deze voorschriften dat deze regels
be zijn
adhered
to
gehecht
wordt voldaan worden nageleefd dienen te worden nageleefd acht moeten worden genomen moet worden gerespecteerd moeten worden gerespecteerd
Vakgroep Vertalen, Tolken en Communicatie
naar
that
these
dat
deze
die
rules regels
must moet
deze regels deze voorschriften dat deze regels
be zijn
adhered
to
gehecht
wordt voldaan worden nageleefd dienen te worden nageleefd acht moeten worden genomen moet worden gerespecteerd moeten worden gerespecteerd
Vakgroep Vertalen, Tolken en Communicatie
naar
Vertaalmodel • •
Hogere probabiliteit voor zinnen met dezelfde betekenis Probabiliteiten op basis van bilinguale corpora
Taalmodel • •
Hogere probabiliteit voor grammaticaal correcte zinnen Probabiliteiten op basis van monolinguale corpora
Decoder • •
Maakt gebruik van taal- en vertaalmodel Zoekt naar combinatie van frases met hoogste probabiliteit
Vakgroep Vertalen, Tolken en Communicatie
Typische SMT fouten Woorden ontbreken (scheidbare werkwoorden) women return home with vrouwen [keren] terug naar huis met … Verkeerde woordbetekenis Episodes of personal violence could increase Afleveringen van persoonlijk geweld zouden …
Vakgroep Vertalen, Tolken en Communicatie
Typische SMT fouten Woordvolgorde (geen inversie) … omdat het merk is minder bekend Gebrek aan congruentie Emissies van schepen zal worden gemonitord Nederlandse samenstellingen de windenergie sector in Europa Vakgroep Vertalen, Tolken en Communicatie
Referenties Andy Way and Mary Hearne (2011) On the Role of Translations in State-of-the-Art Statistical Machine Translation. Language and Linguistics Compass 5:227—248 Philipp Koehn (2010) Statistical Machine Translation. Cambridge University Press Szymon Klocek (2015) MT@EC. What’s behind it?
Vakgroep Vertalen, Tolken en Communicatie