Metody automatického překladu Vladislav Kuboň Ústav formální a aplikované lingvistiky MFF UK
Automatické zpracování jazyka … je obtížné: Často loví tlouště na višni. Otec Emmons bude trénovat Australany. Soud shledal Hanu P. vinnou, že od června 2010 do srpna 2011 měla v lesíku v Sobědruhách na Teplicku pohlavní styk s tehdy třináctiletým hochem. Loprais upustil kola a ujížděl. V hotelu Corrado se za jeho nejslavnější éry scházely prostitutky. Často tam bydlely špičky ČSSD jako Miloš Zeman, Jiří Paroubek nebo Petr Benda. Na trase C spadl člověk do kolejiště metra, nahradí ho autobusy.
© Tomáš Holan
Další příklady z tisku Na českých silnicích umírá více lidí než ve zbytku EU, hůř jsou na tom jen v Polsku. Trenér Benítez rozhazoval rukama, nervózně přešlapoval před lavičkou. Nakonec si však mohl ulevit. Miss World bude kvůli islámu bez plavek. Uštknutí zmijí je vzácné, ale když kousne dítě, může jít o život. Sarah Palinová řekla Ne, Obamovi se nepostaví. Dědeček se rozložil na gauči.
Proč zpracovávat jazyk počítačem? Snahou o exaktní popis přirozeného jazyka zároveň lépe pochopíme, jak přirozený jazyk funguje. Nástroje jako kontrolor překlepů nebo kontrola gramatiky nám pomáhají při psaní textů. Automatické překladové nástroje umožňují porozumět (alespoň základnímu smyslu) textům v cizích jazycích. Dialogové systémy pomohou zodpovědět dotazy uživatelů. Systémy vyhledávající v textu pomohou najít relevantní informace. Automatická analýza sentimentu odhalí, jak lidé smýšlejí o nejrůznějších tématech. Uchování rozsáhlých jazykových dat v korpusech pomáhá zachránit ohrožené jazyky. ....
Proč zpracovávat jazyk počítačem? Snahou o exaktní popis přirozeného jazyka zároveň lépe pochopíme, jak přirozený jazyk funguje. Nástroje jako kontrolor překlepů nebo kontrola gramatiky nám pomáhají při psaní textů.
Automatické překladové nástroje umožňují porozumět (alespoň základnímu smyslu) textům v cizích jazycích. Dialogové systémy pomohou zodpovědět dotazy uživatelů. Systémy vyhledávající v textu pomohou najít relevantní informace. Automatická analýza sentimentu odhalí, jak lidé smýšlejí o nejrůznějších tématech. Uchování rozsáhlých jazykových dat v korpusech pomáhá zachránit ohrožené jazyky. ....
Kageru-to mugade hala jo deka medsene seno gejay! kageru = sejít se, shromáždit se, oženit se mugade = hlava hala = skupina jo = jeden, jedna deka = pět medse = hodina seno = velký gejay = není ve slovníku
Překlad: Sejít se hlava skupina jeden pět hodina velký ???.
Co nám chybí? Tvarosloví (morfologie) <Sloveso> + to = Budoucí čas Přípona -ne = 6.pád (časová předl. v) Předpona ge- = 9.pád (místní určení) jay = muž, vládce
Sejde se hlava skupina jeden pět v hodině velký u muže.
"Pravidla domorodého pravopisu" •v
oznamovacích větách domorodci používají pevný pořádek slov, kde se za slovesem ostatní větné členy seřadí podle své důležitosti, počínaje podmětem. • systém číslovek se podobá římským číslům - jeden pět znamená čtyři. • přídavná jména, zájmena a číslovky vždy rozvíjejí bezprostředně následující jména podstatná
Sejde se hlava skupina ve čtyři hodiny u velkého muže
Ustálená spojení mugade hala se má překládat buď jako skupina moudrých nebo ještě lépe jako rada starších
seno jay není velký muž, ale náčelník Rada starších se sejde ve čtyři hodiny u náčelníka
Problémy překladu – rozdíly ve významu anglicky
japonsky
bake
YAKU IRU barbecue
cook
grill stir-fry sauté
ABURU ITAMERU
Deep-fry AGERU French-fry FRY NI SURU TEMPURA NI SURU braise ITAMENI NI SURU NIRU simmer stew poach TAKU boil boil YUDERU MUSU, FU steam fry
Vaření na oleji
broil
Vaření ve dodě
roast
Pouze žár
toast
Víceznačnost slov Remove the spark plugs Remove the plug leads Remove the dipstick Remove the filter cap Remove the distributor cap Remove the rotor arm Remove nipple Remove the two bolts
Zündkerzen herausdrehen Zündkabel abziehen Öhlmeßstab herausziehen Verschlußkappe aufdrehen Verteildeckel abnehmen Verteilerläufer abziehen Schmiernippel herausdrehen Beide Schrauben lösen
Složené výrazy ... remove defective left wing tip tank filler gap gasket... ... airport long term car park courtesy vehicle pickup point ... Mädchenhandelsschule
Závislost na situaci
OPEN
Open
Open
Základní schéma Cílový text
Zdrojový text
Analýza
Generování
Transfer
Interlingua
Vaquoisův trojúhelník
Výsledek analýzy
První pokusy, první metody, první generace 1946 A.D.Booth - idea automatického dvojjazyčného slovníku, text zpracováván slovo od slova 1948 R.M.Richens - ve slovníku nejsou zachycena celá slova, ale předpony, kmeny a přípony zvlášť 1950 E.Reifler - zavádí pre- a post- editing 1952 První konference o strojovém překladu na MIT L.E.Dostert - pivotní jazyk pro překlad více jazyků 7.1.1954 Georgetownský experiment (do r. 1956) 45 vět s 250 slovy, 6 syntaktických „zákonů“, jednoduché oznamovací věty, bez negací, slovesa ve 3.osobě, málo předložek
Bouřlivý rozvoj 1955 Anglo-ruský překlad v Moskvě 1956 První mezinárodní konference 12 vědeckých skupin na amerických univerzitách 1957 N.Chomsky - Standard theory – základní práce umožňující formálně popisovat syntaktickou strukturu přirozených jazyků, základ tzv. transformační gramatiky 1960 Y.Bar Hillel: „Vysoce kvalitní plně automatický překlad nemůže být nikdy dosažen.“ „The box was in the pen.“ Příklon k teorii, práce se syntaxí jazyka, nová generace systémů
Vystřízlivění 1966 Zpráva ALPAC (American Language Processing Advisory Committee) • Konstatuje nutnost investic do dlouhodobého teoretického lingvistického výzkumu. • Faktický důsledek: konec podpory Zpráva nebyla negativní, negativní byly její důsledky
Práce mimo USA pokračovaly (Francie, SSSR, Kanada)
První úspěšný komerční systém TAUM - METEO (1976) • překlad meteorologických zpráv A->F
• dobře definovaná a výrazně syntakticky i sémanticky omezená podmnožina jazyka • vhodné implementační prostředky • systém sám rozezná text, který mu dělá potíže, a předá jej lidskému překladateli • v 90.letech překládali 45 000 slov denně
Další významné systémy I. SYSTRAN • Překlad dokumentů EU • Přímý překlad (každý pár řešen zvlášť) mezi cca 20 páry, ovšem uspokojivá kvalita pouze u nejstarších párů (A-F-N) • Data oddělena od programu • Problémy řešeny ad hoc
EUROTRA • Oficiální projekt EU v 80.letech • Megalomanie: 72 jazykových párů • Nezvládnutá modularita • Do jisté míry podobný negativní efekt jako zpráva ALPAC
Další významné systémy II.
VERBMOBIL • Německý nástupce EUROTRy
• Překlad mluvené řeči • Tématické omezení rozhovoru - plánování příští schůzky dvou obchodníků • Více než 30 výzkumných týmů • Předváděn na Světové výstavě v Hannoveru, od té doby se o něm příliš nepíše.
Malá odbočka Systémy s překladovou pamětí Překladová paměť je soubor spárovaných textů (věty nebo menší úseky), který vznikne jako vedlejší produkt při lidském překladu předchozí verze textu. První takový systém vyvinula firma IBM pod názvem Translation Manager. Současnými nejprodávanějšími systémy jsou TRADOS Translator‘s Workbench firmy SDL a Dejà Vu firmy Atril Vhodné zejména pro lokalizace dokumentace k systémům, které vycházejí ve stále aktualizovaných verzích.
Překladová paměť
{\fonttbl {\f1 \fmodern\fprq1 \fcharset0 Courier New;} {\f2 \fswiss\fprq2 \fcharset0 Arial;} {\f3 \froman\fprq2 \fcharset2 Symbol;} {\f4 \froman\fprq2 {\*\falt Times}\fcharset0 Times New Roman;} {\f5 \froman\fprq2 {\*\falt Times}\fcharset0 Times New Roman CE;} … 04021999 SAP1 DOC ASAP_2/99 <Seg L=CS_01>Zahrňte informace o tom, jaká bude spolupráce technického a aplikačních týmů). <Seg L=PL_01>Włączcie informacje o tym, jaka będzie współpraca technicznego a aplikacyjnych teamów).
Nová metoda - statistický překlad • Podobně jako systémy s překladovou pamětí využívá existující překlady • Místo překladových pamětí používá mnohem větší objemy paralelních dat • Texty jsou spárovány (alignment) po úsecích (větách) • Hledá se nejpravděpodobnější překlad dané věty • Průkopníkem firma IBM na konci 80. let • V současné době je nejznámější Google Translate
Paralelní texty Rosettská deska objevena v Egyptě 1799 vytvořena v Memphisu 196 př.n.l. jedná se o nejstarší dochovaný paralelní korpus
Paralelní korpusy • Termínem jazykový korpus rozumíme velký objem předzpracovaných (označkovaných) dat • Velké paralelní korpusy: Europarl (dokumety Evropského parlamentu) Kanadský Hansard (Anglicko-francouzský korpus parlamentních dokumentů, 1.7 milionu vět) • Na MFF UK používáme např. korpus CzEng 1.0, který obsahuje 15 milionů paralelních vět a přes 200 000 000 slov • Webové stránky • Překlady beletrie nejsou dobrými zdroji, překlad bývá příliš volný, navíc bývají problémy s autorskými právy
Pravděpodobnost vs. Relativní četnost Příklad: překlad předložky „in“ do francouzštiny: 3 možnosti – dans, à, de Jak zjistit pravděpodobnost překladu?
Těžko. Potřebujeme k tomu totiž obrovské množství událostí, neboť při dostatečně dlouhé sérii pokusů se relativní četnost jednotlivých výsledků začne blížit jejich pravděpodobnosti.
Relativní četnost: f(E) = c(E)/N
Odhad pravděpodobnosti Jednoduchá pravděpodobnost výskytu konkrétního slova v textu: - máme 2 miliony slov v textu, slovo „read“ se v něm vyskytuje 720 krát => p(read) ≈ 720/2000000 = 0,00036
Překlad „in“: Posbíráme 500 vět obsahujících překlad „in“ do francouzštiny - 250 krát dans, 150 krát à, 100 krát de - p(dans)=250/500=0,5 - p(à) = 0,3 - p(de) = 0,2
Modelování jazyka Hlavní úkol: Předpovědět následující slovo v běžném textu nebo promluvě. Jak? Pomocí podmíněné pravděpodobnosti na základě kontextu (historie) předpovídáme následující slovní tvar p(w|h) w – předpovídané slovo, h – historie, vše, co bylo dosud řečeno (napsáno) Cíl: spočítat pravděpodobnost celé věty: p(W)=p(<wi>i=1..n)
N-gramy p(W)=p(<wi>i=1..n)=p(wn|<wi>i=1..n-1)* p(wn-1|<wi>i=1..n-2)* p(wn-2|<wi>i=1..n-3)*…* p(w2|w1)*p(w1) Problém: příliš dlouhá historie znamená nedostatek (řídkost) dat a obrovské nároky na výpočetní kapacitu => je nutné historii včas „useknout“
n=3 trigramový model p(W)= p(w3|w2w1)*p(w2|w1)* p(w1) Kratší jsou bigramy (n=2), unigramy (n=1)
Vyhlazování Problémem je velikost dat Máme-li slovník (V) o 40000 slovech => -|V|=40k, velikost modelu = |V|3 =6,4x1013 - typická velikost trénovacích dat – stamiliony (108) slov - příliš mnoho nulových pravděpodobností (nenulová pouze jedna ze 100000 !) – řídká data - některé z nich ale zastupují existující kombinace - pokus o řešení – nahradit nulovou pravděpodobnost nějakou velmi malou hodnotou
Frázový překlad I Já
saw pila pily ... viděl viděla ... uviděl uviděla
Viděl jsem
two dva dvě dvou... dvěma dvěmi
green
striped
cats
zelené zelená zelení zeleným zelenými zeleného zeleném .... green
pruhované pruhovaná pruhovaní pruhovaným pruhovanými ....
kočka kočky koček kočkám kočkami
zeleně pruhované
Samotný překladový model nestačí!
Jiný příklad (příklad převzat z textu Koehna a Knighta) Překlad ze španělštiny do angličtiny, možné překlady jsou založeny pouze na překladovém modelu: Que hambre tengo yo!
What hunger have
P(Š | E) = 0.000014
Hungry I am so
P(Š | E) = 0.000001
I am so hungry
P(Š | E) = 0.0000015
Have i that hunger
P(Š | E) = 0.000020
:::
Přidáme jazykový model angličtiny
Que hambre tengo yo!
What hunger have
P(S | E)P(E) = 0.000014 x 0.000001
Hungry I am so
P(S | E)P(E) = 0.000001 x 0.0000014
I am so hungry
P(S | E)P(E) = 0.0000015 x 0.0001
Have i that hunger
P(S | E)P(E) = 0.000020 x 0.00000098
:::
Pozorování Jazykový model cílového jazyka může být založen na mnohem rozsáhlejším korpusu, řádově stamiliony slov. Překladový model je založen na mnohem menším paralelním korpusu (miliony slov). Jazykový model cílového jazyka odfiltruje nepodařené překlady, vyrovná chyby překladového modelu. Jazykový model vybírá pouze „hezké věty,“ nemá vztah k originálu. Hledání překladových hypotéz (dekódování) je obtížným problémem samo o sobě.
Typické chyby stat. systémů
Ukázka překladu Marsh & McLennan Cos. said it agreed to acquire the rest of Gradmann & Holler, a leading West German insurance brokerage firm in which it has held a 15% stake for 15 years. The transaction, for cash and stock, would represent the biggest European takeover since 1980 for New York-based Marsh & McLennan, the world's largest insurance broker. It's also the first major sign of the long-awaited consolidation in the European insurance industry as the European Community Commission moves toward a single market by 1992
PC Translator 2003 Mokřina & McLennan kosinusy. řekly, že to souhlasilo se získat zbývající část Gradmann & křičí, vůdčí západní německý pojišťovací makléřská firma v kterém to držela 15% sázka pro 15 let. Transakce, za hotové a akcie, reprezentovala největší evropské převzetí od roku 1980 pro New York-založená mokřina & McLennan, světově největší pojišťovací agent. To je také první významnější znamení dlouho očekávaného upevnění v evropském pojišťovnictví jak Evropské společenství pověřovací pohyby směrem k jednotnému trhu do 1992.
Ukázka překladu Marsh & McLennan Cos. said it agreed to acquire the rest of Gradmann & Holler, a leading West German insurance brokerage firm in which it has held a 15% stake for 15 years. The transaction, for cash and stock, would represent the biggest European takeover since 1980 for New York-based Marsh & McLennan, the world's largest insurance broker. It's also the first major sign of the long-awaited consolidation in the European insurance industry as the European Community Commission moves toward a single market by 1992
Google Translate Marsh & McLennan dohodnuta Cos. jí řekl, že k získání zbytku Gradmann & křičet, přední pojišťovací makléřství západoněmecké firmy, v nichž má v držení 15% akcií za 15 let. Tato transakce, za výběr hotovosti a akciích, by představovalo největší evropský převzetí od roku 1980 v New Yorku založenaMarsh & McLennan, který je největším na světě pojišťovací makléř. Je také prvním hlavním znakem je dlouho očekávaná-konsolidace v evropském pojišťovnictví, jako je Evropská společenství Komise podniká kroky směrem k vytvoření jednotného trhu do roku 1992
Shrnutí Po více než 60 letech intenzivního výzkumu stále neexistují kvalitní obecně použitelné systémy. Statistické metody přinesly systémy, které jsou akceptovány širokou veřejností a umožňují hrubé překlady mezi mnoha jazyky. Tyto systémy ale narážejí na nedostatek dat, jsou vhodnější pro překlady mezi „velkými jazyky.“ Automatické metody se soustředí na transkripci (převod řetězec na řetězec), opravdový překlad, tedy přenesení významu z jednoho jazyka do druhého, stále zůstává doménou kvalifikovaných lidských překladatelů.
Závěr Automatické zpracování přirozeného jazyka pomáhá překonat propast mezi počítačem a člověkem. Automatický překlad s celou jeho bohatou historií je jen jedním příkladem, který ukazuje, že má smysl učit počítače česky. Zároveň také dokumentuje, že někdy je k dosažení vědeckého pokroku v určité oblasti nutné kompletně změnit metodu řešení.