7. A statisztikai gépi fordítás és problémái valamint Mozaik nyelvmodell az AnaGramma elemzőhöz

A nyelvtechnológia eszközei és nyersanyagai 2015/2016 2. félév

7. A statisztikai gépi fordítás és problémái valamint

Mozaik nyelvmodell az AnaGramma elemzőhöz Laki László 2016.04.06.

A GÉPI FORDÍTÁS FAJTÁI ÉS NEHÉZSÉGEI

Fordítási nehézségek • Egy szónak több jelentése lehet (homonímia) • Szótárból választás • Kifejezések felismerése • Szerkezeti (nyelvtani) többértelműség • Szórendi eltérések • Névmások kezelése • Igeidők

A gépi fordítás módszerei • Szabályalapú gépi fordítás – Közvetlen fordítás – Interlingva – Transzfer

• • • •

Példaalapú fordítás Statisztikai gépi fordítás Hibrid Emberi közreműködéssel

STATISZTIKAI GÉPI FORDÍTÁS (SMT)

A SMT előnyei • Az internet segítségével nagyszámú digitálisan tárolt szöveg áll rendelkezésünkre, melyek segítségével nagyméretű korpuszok állíthatók elő • A statisztikai gépi fordítórendszerek nem igényelnek speciális nyelvi ismereteket és bármilyen nyelvpárra alkalmazhatók • A szabályalapú fordító esetében szükséges, hogy emberi erővel állítsák elő a különböző szabályokat ‒ ezzel szemben a statisztikai módszer teljesen automatikus, emiatt olcsóbb az előállítása • A módszer kifejezetten alkalmas olyan fordítások elvégzésére, ahol a szövegekben nagyon kevés az eltérés

A SMT elméleti háttere Zajos csatorna (SMT rendszer)

Célnyelvi mondatok(T)

Forrásnyelvre lefordított mondatok(S’)

The cat caught the mouse.

𝑇 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑃 𝑇 𝑆 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑃 𝑇 × 𝑃 𝑆 𝑇 𝑇

𝑇

Komponensek: Nyelvmodell (folyékonyság) Fordítási modell (helyesség) Dekóder

𝑷 𝑻𝑺 =𝛟 𝑺𝑻

𝝀𝝓

𝑇 : legjobb fordítás

S : forrásnyelvi mondat T : célnyelvi mondat

× 𝑷𝑳𝑴 𝑻

𝝀𝑳𝑴

× 𝒅 𝑺, 𝑻

𝝀𝒅

𝝀

× 𝝎𝑻𝝎

Nyelvmodell • A következő szó az őt megelőző n-1 szó alapján határozható meg (n-gram modell) • Feladata, hogy kiválassza a legjobb fordítást a fordítási modell által adott lehetőségek közül • Ezek a valószínűségek a relatív előfordulási gyakoriságból becsülhetők • N-gram alapú közelítés a rákövetkező szó feltételes valószínűségére:

• Egy teljes szósorozat valószínűsége:

Fordítási modell • A P(f|e) fordítási modell feladata, hogy megtalálja az eredményül kapott célnyelvi kifejezésre a legmegfelelőbb bemenetet • Párhuzamos korpuszból • Szószintű fordítási modell • Kifejezés szintű fordítási modell – Frázisok megtalálása (e) – Frázisok fordításának megtalálása (f) – Átrendezési távolság mértéke

Szószintű összekapcsolás A

macska

The

cat

megfogta

caught

az

the

egeret

mouse

Szószintű összekapcsolás A

The

nagymama

mouse was

macskája

caught

megfogta

by the

cat

az

egeret

of grandma

Dekódolás • A dekódoló feladata, hogy egy adott forrásnyelvi mondathoz megtalálja a legjobb célnyelvi mondatot • Ez egy keresési feladat A

NAGYMAMÁM

MACSKÁJA

GRANDMOTHER

CAT

MY GRANDMOTHER

MEGFOGOTT CAUGHT

EGY A

APRÓ

EGERET

.

LITTLE

MOUSE

.

LITTLE MOUSE

MY GRANDMOTHER’S CAT

LITTLE MOUSE. A LITTLE MOUSE

SZINTAXIS ALAPÚ GÉPI FORDÍTÁS

Egy kifejezés alapú szabály kifejtése [Koehn, 2011]



Egy hierarchikus szabály kifejtése [Koehn, 2011]

Egy szintaxis alapú szabály kifejtése [Koehn, 2011]

Egy szintaxis alapú szabály kifejtése [Koehn, 2011]

NEURÁLIS HÁLÓZAT ALAPÚ GÉPI FORDÍTÁS

Neuronháló alapú nyelvmodell

Neuronháló alapú nyelvmodell

Neuronháló alapú dekóder

[Bahdanau et al. 2015]

AZ SMT-MODELLEK KÜLÖNFÉLE ALKALMAZÁSAI (SAJÁT KUTATÁSI TEVÉKENYSÉGEM)

CIGÁNY-MAGYAR SMT

Cigány-magyar SMT • Hasonló morfológiai gazdagságú nyelvpárok • Korpusz: – Vesho-Farkas-féle lovári nyelvű Újszövetség – Káldi-féle (Neovulgáta) magyar Újszövetség

Rendszer

BLEU érték

Cigány-magyar (MOSES)

30.53%

Cigány-magyar (JOSHUA)

29.20%

Magyar-cigány (MOSES)

30.38%

Magyar-cigány (JOSHUA)

35.88%

• Eredmény: – Sokkal magasabb BLEU – Olvashatóbb, érthetőbb fordítás

Példamondat (cigány-magyar) • Cigány referenciamondat: le but manusha pale tele sharadine penge gada po drom , kavera pale kranzhi phagrenas tele pa kasht haj po drom rispisarnaslen . • Magyar referenciamondat: a hatalmas tömeg pedig leterítette ruháit az útra , mások meg ágakat vagdostak a fákról és az útra szórták . • MOSES fordítás: a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa , és az úton rispisarnaslen . • JOSHUA fordítás: a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa és az úton rispisarnaslen .

Saját doktori munkám

MORFÉMA ALAPÚ SMT SZÓRENDI ÁTRENDEZÉSSEL

Probléma • Frázis alapú SMT • Angol–magyarra gyenge eredmények – a szórend és a morfémák szavakba szerveződése túl különböző

• A dekóder beépített eszközei nem elég erősek – adathiány a morfológiánál – a „torzítás” gyenge modell az átrendezésre

Motiváció • Angol–németre, angol–törökre is gyenge eredmények – szórendi problémák: • mellékmondati szórend • inverziós szerkezetek

– gyakori szóvesztés, illetve rosszul fordított grammatikai szerepek

• Javulás a forrásnyelvi mondatok átrendezésével – [Fraser–Gojun 2012, Oflazer–Yeniterzi 2010]

Módszer • Forrásnyelvi mondatok szintaktikai elemzése • Célnyelvi mondatok morfológiai egyértelműsítése • Forrásnyelvi mondatok átrendezése – angol mondatok magyarhoz hasonló szórenddel – csak a szisztematikus szórendi különbségeket kezeljük

• Két modell – morfémaalapú – szóalapú, faktoros

Átrendezési példák in my house in my house

my house ház

in

am ban

Példamondat függőségi elemzéssel root(ROOT-0, sleep-2) nsubj(sleep-2, I-1) prep(sleep-2, in-3) pobj(in-3, house-5) poss(house-5, my-4)

I sleep in my house . I/PRP

sleep/VBP

in/IN

my/PRP$

house/NN

./.


sleep/VBP

I/PRP

in/IN

my/PRP$

house/NN

./.


sleep/VBP

I/PRP

in/IN

house/NN

my/PRP$

./.

Passzív szerkezet

Birtokos szerkezet I like to see the sons of the merchants. like/VBP_I/PRP see/VB_to/TO sons/NNS_of/IN_acc/ACC ./.

the/DT

merchant/NN

I like to see the hats of the sons of the merchants. like/VBP_I/PRP see/VB_to/TO the/DT merchant/NN sons/NNS_of/IN_nak/NAK the/DT hats/NNS_of/IN_acc/ACC ./.

Morféma alapú modell After you were picked up at sea after/[IN] up/[RP] pick/[VB] [PPart] D_they/[P3] you/[PRP] acc/[ACC] sea/[NN] at/[IN] Fordítás

miután/[KOT] felvesz/[IGE] [Past] [t3] [Def] maga/[FN_NM] [t3] [ACC] a/[DET] tenger/[FN] [SUP] Generálás

miután felvették magukat a tengeren

Morféma alapú modell Fordítandó mondat: After you were picked up at sea , our listening post in Malta intercepted that fax . Alaprendszer fordítása: maga után felemelte a tengeren , és az málta elfogtuk , hogy fax . Morfémaalapú rendszer fordítása: miután felvették magukat a tengeren , Máltában lehallgatónk elfogta a faxot .

Faktoros szóalapú modell at my request the ceremony was postponed for a year . request/[NN]|[NN]my/[PRP$]at/[IN] postpone/[VB]|[VB][PPart]D_they/[P3] the/[DT]|[DT] ceremony/[NN]|[NN]acc/[ACC] a/[DT]|[DT] year/[NN]|[NN]for/[IN] ./[.]|[.]

Fordítás kérés/[FN]|[FN][PSe1][SUB] elhalaszt/[IGE]|[IGE][Past][t3][Def] a/[DET]|[DET] szertartás/[FN]|[FN][ACC] egy/[DET]|[DET] év/[FN]|[FN][SUB] ./[PUNCT]|[PUNCT]

Faktoros szóalapú modell kérés/[FN]|[FN][PSe1][SUB] elhalaszt/[IGE]|[IGE][Past][t3][Def] a/[DET]|[DET] szertartás/[FN]|[FN][ACC] egy/[DET]|[DET] év/[FN]|[FN][SUB] ./[PUNCT]|[PUNCT]

Generálás kérésemre elhalasztották a szertartást egy évre .

Faktoros szóalapú modell Fordítandó mondat: at my request the ceremony was postponed for a year . Fordítás ‒ szóalapú rendszer: kérésemre elhalasztották a szertartást egy évre . Fordítás ‒ alaprendszer: az én kérésemre a szertartás volt . Fordítás ‒ morféma alapú rendszer: kérésemre halasztották a szertartást .

Eredmények – emberi kiértékelés • Minden kiértékelő összehasonlításaiból azonos sorrend állt össze 51.33 50.89 55.42 55.60 88.33

Baseline rendszer (14.57% BLEU) Szóalapú rendszer (14.83% BLEU) Faktoros rendszer (10.88% BLEU) Morféma alapú rendszer (12.22% BLEU) Referenciafordítás

• A korpusz minőségét jellemzi, hogy a referenciafordítás rangja messze 1 alatt van

Rendszerek SZÓALAPÚ_T0 SZÓALAPÚ_T6 SZÓALAPÚ_ÁT_T0 SZÓALAPÚ_ÁT_T6 SZÓALAPÚELEMZETT _T0 SZÓALAPÚELEMZETT _T6 SZÓALAPÚELEMZETT _ÁT_T0

w-BLEU 13,56% 13,83% 14,25% 14,85% 12,75% 12,89% 13,02%

mm-BLEU 58,93% 59,32% 57,79% 58,06% 56,10% 56,84% 57,10%

SZÓALAPÚELEMZETT _ÁT_T6

13,05%

57,21%

MORFÉMAALAPÚ

11,69% 12,19% 12,01% 12,22% 9,70% 9,84% 10,50% 10,64% 10,78% 10,88% 15,68% 12,18% 6,86%

63,18% 63,87% 64,24% 64,94% 56,01% 57,09% 59,56% 60,28% 59,97% 60,83% 55,86% 53,05% 50,97%

_T0 MORFÉMAALAPÚ _T6 MORFÉMAALAPÚ _ÁT_T0 MORFÉMAALAPÚ _ÁT_T6 FAKTORALAPÚ _T0 FAKTORALAPÚ _T6 FAKTORALAPÚ _ÁT_T0 FAKTORALAPÚ _ÁT_T0_FIX FAKTORALAPÚ _ÁT_T6 FAKTORALAPÚ _ÁT_T6_FIX Google Translate Bing Translator MetaMorpho

STATISZTIKAI SZÖVEGELEMZŐ

Definíció és nehézségek • Teljes morfológiai egyértelműsítés – Szófaji egyértelműsítés (POS-tagging) – Szótövesítés

• Agglutináló nyelvek – Rengeteg különböző szóalak – A morfoszintaktikai címkék halmazának mérete

– Szótövesítés (pl. az ikes igék szótöve)

Elméleti háttér

(T) p| (W arg max p(T | W )  argarg maxmax p(W p| T T ))  ar T

T

T

 |T |  HMM-alapú: arg max  P( wi | ti ) P(ti | ti 1 , ti 2 )  T  i 1 

SMT-alapú:

 |T |  ik i k arg max  ( wi | ti ) P(ti | ti 1 , ti 2 ,..., ti  j )  T  i 1 

1. lépés (morfológiai guesser alkalmazása) Az étkezés egyik nagy forradalmát a konzervek elterjedése jelentette . Guesser

Az étkezés egyik nagy forradalmát a konzervek elterjedése jelentette .

2. lépés (címkézés és szótövesítés) Az étkezés egyik nagy forradalmát a konzervek elterjedése jelentette . SMT dekóder

0##[Tf] 0##[Nc-sn] 0##[Pi3-sn] 0##[Afp-sn] 2##[Ncsa---s3] 0##[I] 2##[Nc-pn] 1##[Nc-sn---s3] 4##[Vmis3s---y] 0##[.]

3. lépés (szótövek generálása) 0##[Tf] 0##[Nc-sn] 0##[Pi3-sn] 0##[Afp-sn] 2##[Nc-sa---s3] 0##[I] 2##[Nc-pn] 1##[Nc-sn---s3] 4##[Vmis3s---y] 0##[.]

Generálás Az/az/[Tf] étkezés/étkezés/[Nc-sn] egyik/egyik/[Pi3-sn] nagy/nagy/[Afp-sn] forradalmát/forradalom/[Nc-sa---s3] a/a/[I] konzervek/konzerv/[Nc-pn] elterjedése/elterjedés/[Nc-sn---s3] jelentette/jelent/[Vmis3s---y] ././[.]

Eredmények Nyelv

Magyar(MSD)

Magyar (HUMOR)

Horvát

Szerb

Rendszer

Címkepontosság

Szótövesítéspontosság

HuLaPos2

96,51%

98,60%

PurePos

96,35%

97,51%

HuLaPos2

96,70%

98,23%

PurePos

96,50%

96,27%

PurePos + MA

98,96%

99,53%

HuLaPos2

93,25%

96,21%

HunPos + CST

87,11%

97,78%

HuLaPos2

92,28%

92,72%

HunPos + CST

85,00%

95,95%

Eredmények Nyelv

Portugál

Angol

Bolgár

Rendszer

Címke pontosság

HuLaPos2

93.20%

HMM-alapú PoS tagger

92.00%

TnT

96.48%

PBT (SMT-alapú)

96.97%

HuLaPos2

97.08%

Stanford tagger 2.0

97.32%

SCCN

97.50%

MaxEnt alapú

95.72%

MaxEnt alapú + lexikon

97.80%

HuLaPos2

97.80%

MaxEnt alapú + lexikon + szabályok

97.98%

FORDÍTÓMEMÓRIA INTEGRÁLÁSA

Fordítómemória integrálása Fordítandó szöveg: A kedves nagymama macskája megfogta az egeret.

A memóriában található szöveg: A kedves nagymama kutyája megfogta a csúnya macskát.


A memóriában található szöveg: A kedves nagymama kutyája megfogta a csúnya macskát.


A memóriában található szöveg: A kedves nagymama kutyája megfogta a csúnya macskát. A sweet grandma’s dog caught the nasty cat.

Fordító memória integrálása A kedves nagymama macskája megfogta az egeret. TM match The sweet grandma’s macskája caught az egeret. SMT dekóder The sweet grandma’s

cat

caught the mouse.

SZÓTÁR HOZZÁADÁSA A KORPUSZHOZ

Szótár hozzáadása a korpuszhoz • Szótár: – 344 924 mondat

1-gram

BLEU érték

Rendszer

2-gram

3-gram

1

Alaprendszer fordítása:

10.85%

2

Alap+1xszótár rendszer fordítása:

11.18%

3


11.01%

4


10.88%

5


10.88%

6


10.87%

4-gram

5-gram

6-gram

7-gram

8-gram

9-gram

1

47.05

16.29

7.07

3.54

1.94

1.14

0.74

0.57

0.46

2

47.60

16.62

7.35

3.78

2.02

1.19

0.75

0.57

0.43

3

47.55

16.46

7.25

3.75

2.09

1.25

0.81

0.60

0.46

4

47.32

16.33

7.09

3.64

1.94

1.09

0.68

0.47

0.33

5

47.32

16.33

7.09

3.64

1.93

1.09

0.68

0.47

0.33

6

47.74

16.43

7.19

3.63

1.93

1.08

0.68

0.51

0.39

Példa (angol-magyar) Angol referencia mondat: Magyar referencia mondat:

" i wonder who 'll be teaching us ? " said hermione as they edged into the chattering crowd . - kíváncsi vagyok , ki tartja a tanfolyamot - morfondírozott hermione , miközben barátaival befurakodtak a tömegbe .

Alaprendszer fordítása: Alap+1xszótár rendszer fordítása:

- csak tudnám , ki lesz a tanítást ? - kérdezte hermione , mikor ő az .


- kíváncsi vagyok , aki tanított nekünk ? - szólt hermione , mikor elindult a zsibongó tömeg .


- kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen .





- csak tudnám , ki lesz tanított nekünk ? - szólt hermione , mikor elindult a jóvoltából .

A MOZAIK NYELVMODELL

Az ANAGRAMMA elemző alprojektje • Metódus: emberi megértési minták alkalmazása – Minden elérhető információ használata (statisztika és szabályok)

• Prototípus magyarra, később más nyelveken is tesztelni – Kézzel írt szabályok (norma) és statisztika (élettapasztalat)

„Gestaltok” és minták

• Pléh & Lukács (2014): emberi feldolgozási minták – Néhányat már azonosítottak, ezeket követjük

• Egészleges feldolgozás (Gestalt) – – – –

Többszavas egységek kezelése, részletes elemzés nélkül Számítógépeknél: „cache-elés” Cél az elemzés gyorsítása letárolt minták segítségével A grice-i maximákra alapozva

• Nyelvtechnológiában: korpuszminták – Nem feltétlenül teljesen kitöltött szerkezetek!

Példák

• Többszavas kifejezések: „a kisebbik kormánypárt”, „ördög ügyvédje”, „éjnek évadján”, „hűlt helye volt” • Szólásmondások: „Hamarabb utolérik…”, „Itt van a kutya…” • Udvariassági sémák: „Jó [napszak][ACC]!”, „Szia [keresztnév]!” • Merev szerkezetek: „Az országgyűlés a javaslatot [SZN|DIGIT][NOM] igennel… elfogadta.” • Igei szerkezetek: „lemma:esik szó [*][DEL]” • Név + titulus: „Orbán Viktor Magyarország miniszterelnöke” • Névelemek: „Petőfi Sándor utcai Általános Iskola”

Nyelvmodellek vs. korpuszminták • A nyelvmodell feladata, hogy megjósolja a következő szót – Faktoros nyelvmodellek erre több faktort használnak – Nem céljuk, hogy elemzést adjanak – Kis n-re csinálnak csak n-gramokat…

• Korpuszminták – Elég speciális esetekben léteznek rájuk algoritmusok (Mazsola) – Nagy az állapottér

Az elérhető korpuszok jellemzői Név

Mondatok száma

Szeged Korpusz 2

Tokenek száma

Mondatokban az átlagos tokenszám

70 990

194 348

16,824

MNSZ 1

18 657 302

264 465 825

14,175

MNSZ 2

28 777 590

444 760 553

15,455

Szószablya

24 991 306

462 024 888

18,487

Pázmány Korpusz Méret (n-gram)

1 200 392 029

Szeged Korpusz Token

MNSZ 1 WLT

Token

MNSZ 2 WLT

Token

WLT

1

1.2E5

1.8E5

6.2E6

9.5E6

7.2E6

8.6E7

3

9.1E5

1.7E7

1.3E7

2.0E9

1.9E8

2.5E10

5

9.9E5

2.1E8

1.9E7

2.8E10

3.1E8

4.2E10

7

8.8E5

1.7E9

1.8E7

2.5E11

3.0E8

4.0E11

Eszközök • Gyors prototípus-építés + Big Data – Memóriába nem fér bele, lemezre kell dolgozni – Hátha van egy hatékony, használható adatbázis-kezelő – Létező nagy n-gram modellt építő programok

• Saját program – Szempontok: UTF-8, RE, szótártípus, feladatorientált – Scriptnyelvek: Perl, Python, Linux Coreutils + AWK

• Végül: MAWK (egy AWK variáns) a leggyorsabb – GNU AWK-nál is, bár kevesebb dolgot tud...

Sketch Engine

Zipf görbe

Zipf görbe (ábra)

Zipf görbe (ábra)

Előzetes eredmények

• Durva minőségbecslés: n-gram alapú nyelvfelismerő – – – –

Érzékeny a túl rövid mondatokra (nem kellenek) Érzékeny az idegen szavakra (ritka névelemek) Érzékeny a tokenizálási hibákra (erre van szükségünk) Eszközök (langid.py, textCat): kb. 30%-on egyeztek meg

• A korpuszok összetétele nem megfelelő – Hosszú, ismétlődő mondatok nagyja a Parlamenti Napló – Kicsi a korpusz a méréshez

• A címkézési hibákat felerősítjük – Zajérzékeny a rendszerünk

Módszer • Egyszerű generálás: gyors, sok a redundancia – Az azonos frekvenciájú esetekből a legkonkrétabbat tartjuk csak meg (zajérzékeny)

• Manuálisan előszűrjük az unigramokat: – PUNCT címke törlése (különben túl gyakori lesz) – Ritka szóalakok, szótövek, címkék törlése

• Minden f frekvenciájú n-gram… – Legalább f frekvenciájú n-k gramokból állhatnak – Inkrementálisan építhető n=1-től…

Példák

Triviális vs. nem triviális minták • Nagyon sok kimenet keletkezik, szűrni kell – Ezek nagy része érdektelen az ember számára – A gépnek viszont minden információ új!

• Osztályozni kell a mintákat! – Ehhez szükséges a maximális mintákat megtalálni – A „részminták” nem fontosak, eldobhatók… – Létező metrikák felhasználásával

• Nyelvészetileg érdekes ritka minták nincsenek.  – Talán nagyobb korpuszban…

Alkalmazási lehetőségek • Elemzőhöz: a szemantikai reprezentáció leírása – Hogy dolgozná fel az ember az adott mintát? – „Nyelvmodellként”, deformált szöveg „zajszűrésére”

• NP-k belsejének elemzésére – Pontosan ismert, hogy mi NP része és mi nem – „Egymás melletti NP-k” határainak vizsgálatára

• Szófaji címkék finomításához • Sketch Engine-keresésekhez ötletek 

Jövőbeli fejlesztések • Nagyobb, tisztább korpusz alkalmazása – Minőségbecsléssel kiszűrni a „haszontalan” mondatokat – Lassan teljesen elkészül a Pázmány Korpusz!

• Metrikák adaptálása a nagy állapottérhez • Peter Hanks: Corpus Pattern Analysis – Kézzel generált szemantikai, nem lexikalizált minták – Géppel generálás az ismertetett módszerrel

• Integrálás az AnaGramma elemzőbe

7. A statisztikai gépi fordítás és problémái valamint Mozaik nyelvmodell az AnaGramma elemzőhöz

Recommend Documents