Wikipedie ve strojovém překladu Využití Wikipedie pro strojový překlad pojmenovaných entit Ondřej Hálek, Rudolf Rosa, Aleš Tamchyna, Ondřej Bojar Matematicko-fyzikální fakulta Univerzity Karlovy v Praze, Ústav formální a aplikované lingvistiky
Obsah
Frázový statistický strojový překlad Překlad pojmenovaných entit s využitím Wikipedie
Rozpoznání pojmenovaných entit
Překlad pojmenovaných entit
Zapojení pojmenovaných entit do kontextu věty
Výsledky
Možná rozšíření 2/23
Strojový překlad Anglický text
Český text
Překladač
3/23
Statistický strojový překlad Anglický text
Český text Překladač
Paralelní AJ – ČJ korpus
4/23
Paralelní AJ – ČJ korpus (CzEng) <s id='en-p29s2'> <w id='en-p29s2w1'> Everything <w id='en-p29s2w2'> was <w id='en-p29s2w3'> so <w id='en-p29s2w4'> beautiful <w id='en-p29s2w5'> !
<s id='cs-p29s2'> <w id='cs-p29s2w1'> Všechno <w id='cs-p29s2w2'> bylo <w id='cs-p29s2w3'> tak <w id='cs-p29s2w4'> krásné <w id='cs-p29s2w5'> ! 5/23
Zarovnání (alignment) slov 1:[0,N]
Korpus (AJ)
Yesterday I was in the cinema.
He was going to the cinema.
Korpus (ČJ)
He is going to sleep.
Vstup (AJ)
Včera jsem byl v kině. On bude spát.
Výstup (ČJ???)
On jsem byl bude kině. 6/23
Frázový statistický strojový překlad
Vstup (AJ)
Výstup (ČJ)
Yesterday
Včera
I was
jsem byl
in the cinema
v kině
.
.
7/23
Problém zapojení do kontextu
AJ fráze
ČJ fráze
The dog
Ten pes | Pes | ...
is old
je starý | je stará | je staré | ...
.
.
Paralelní data řídká → fráze krátké
Problém na hranici frází (napojení frází) 8/23
Jazykový model
Paralelní data řídká
Řádově větší množství jednojazyčných dat
➔
N-gramový jazykový model na českých slovech
Např. pro N=3 (trigramy):
Ten pes je starý. → [Ten pes je], [pes je starý], [je starý .] Ten pes je stará. → [Ten pes je], [pes je stará], [je stará .]
v praxi lineární kombinace, např. λ3w3 + λ2w2 + λ1w1 + λ0 9/23
Překlad pojmenovaných entit
Rice University is at 6100 Main Street. Steven Bird passed on the editorship... Exit at Government Plaza Station on 5th Street. fork() creates a new process.
Univerzita rýže je v 6100 hlavní ulici. Steven pták přenesl na editorship... Konec vlády plaza na nádraží v páté třídě. vidlička() vytváří nový proces. 10/23
Google překladač
11/23
Překlad pojmenovaných entit
Rozpoznání pojmenovaných entit
Překlad pojmenovaných entit
Zapojení pojmenovaných entit do kontextu věty
12/23
Využití Wikipedie
Rozpoznání pojmenovaných entit
Překlad pojmenovaných entit
podle kategorií anglického článku na Wikipedii podle názvu odpovídajícího českého článku
Zapojení pojmenovaných entit do kontextu věty
vyhledání vyskloňovaných tvarů pojmenované entity v textu českého článku + jazykový model 13/23 (obohacený o české články?)
Rozpoznání pojmenovaných entit
Vybrat fráze, které mohou být pojmenovanou entitou
Rice University is at 6100 Main Street.
Zjistit kategorie článku na Wikipedii
Prohledat (do šířky) nadřazené kategorie
Ručně vytvořený seznam kategorií obsahujících pojmenované entity
Alternativa: Stanford Named Entity Recognizer
14/23
Zjištění (všech) kategorií
15/23
Zjištění kategorií – WikiMedia API ➔
➔
http://en.wikipedia.org/w/api.php?action=query &prop=categories&redirects&clshow=!hidden &format=xml&titles=Rice_University
<pages> <page pageid="25813" ns="0" title="Rice University"> … 16/23
Prohledání nadřazených kategorií ➔
Educational institutions established in 1891
➔
Educational institutions established in the 1890s
➔
Educational institutions established in the 19th century
➔
Educational institutions by year of establishment
➔
Organizations by year of establishment
➔
Organizations 17/23
Kategorie pojmenovaných entit
Places („Místa“ – není na české Wikipedii)
People (Lidé)
Organizations (Organizace)
Companies (Firmy)
Software (Software)
Transport infrastructure (Dopravní stavby) 18/23
Překlad pojmenovaných entit
Existuje k článku na anglické Wikipedii odpovídající článek na české Wikipedii? Ano:
Použít název českého článku jako překlad anglické pojmenované entity
Ne: ➔
buď ponechat nepřeložené
➔
nebo nechat standardně přeložit překladačem 19/23
Překlad entity „Spain“ 1
2 3 20/23
Zapojení do kontextu
Vyhledání dalších tvarů názvu článku
odříznutí posledních tří písmen každého slova Španělsko → Španěl*
vyhledání slov se shodným prefixem v textu článku Španělska, Španělsku, Španělského...
Všechny nalezené tvary označeny jako možné překlady (název má vyšší „skóre“) Jazykový model vybere nejlepší tvar
21/23
Příklad
They moved to London last year.
Kategorie: Capital Cities → … → Places
Český název: London → Londýn (Lond*)
Text českého článku: Londýn, Londýna
They moved to London last year.
22/23
Výsledky
BLEU: automatická evaluace, 1000 vět
lidé: 78 vět, 4 anotátoři
Experiment překlad bez využití Wikipedie není český článek → nechat přeložit standardně není český článek → ponechat nepřeložené
BLEU 26,62 25,91
lidé 160 183
25,13
201 23/23