Korpus pro automatické rozpoznání českých slov v anglickém mluveném projevu Ondřej Cífka, Ondřej Bojar Ústav formální a aplikované lingvistiky, MFF UK
Korpusová lingvistika Praha, 17. září 2016
1 / 18
Obsah I I I
Motivace: Alex Translate, tlumočník pro turisty Překlad mluvené řeči obecně Problémy v našem kontextu a jejich řešení I I
I
Nedostatek dat v doméně Rozpoznání českých slov anglickým ASR
Empirické vyhodnocení
2 / 18
Alex Translate I
I I I
systém pro automatický překlad mluvené angličtiny do češtiny (speech-to-speech translation) zaměření na cestovní ruch (služba pro anglofonní turisty) použit ke sběru dat → malý mluvený korpus ukázka: 277 278 178
3 / 18
Překlad mluvené řeči I
I
zvukový signál ve zdrojovém jazyce (angličtina) → text v cílovém jazyce (čeština) hlavní podúlohy: I I +
rozpoznání řeči (ASR) strojový překlad (MT) popř. syntéza řeči (TTS)
Speech recognition (ASR)
where is the nearest tram stop
Machine translation (MT)
kde je nejbližší zastávka tramvaje 4 / 18
Rozpoznání řeči (ASR)
5 / 18
Statistické rozpoznání řeči I
akustický model (AM): zvukový signál ↔ hlásky I
I
výslovnostní lexikon: hlásky ↔ slova I
I
trénovací data: mluvený korpus ručně sestavený nebo generovaný pravidly
jazykový model (LM): pravděpodobnosti řetězců slov I
trénovací data: textový korpus, ideálně specializovaný pro konkrétní úlohu
6 / 18
Problémy I
potřebujeme korpus specializovaný pro danou doménu (konverzační věty z oblasti cestovního ruchu) I
I
nasbíraná data zdaleka nestačí k natrénování modelů
použití českých místních názvů v anglické řeči (druh code-switchingu) I I I
Does this tram go to Vítězné náměstí? ASR toto zpravidla neřeší chybí data zachycující tento jev
7 / 18
Nahrávky a přepisy hovorů1 I I I I
14 minut 35 hovorů 364 promluv použito pro ladění a testování systému could you call my hotel and tell them that i’m coming late good morning what’s the weather in the city of ústí nad labem are you from prague is this food gluten free
1
http://hdl.handle.net/11234/1-1735 8 / 18
Trénování ASR I
I
I
výběr vět z korpusu Common Crawl výběr hesel z Wikipedie souvisejících s Českem část nahraných hovorů použita k ladění vah jazykového modelu
referenční text
how do you pronounce that do you have any meatless dishes does this tram go to the prague castle i don’t have a boyfriend
„phrasebook sentences“
referenční LM
korpus
Common Crawl
thank you so much it’s surprising what you don’t know i love to go out and have a good time he is that person to me you have been busy
vybraný text z Common Crawl
další korpusy části CzEngu a Wikipedie
interpolovaný LM
ASR model
could you call my hotel and tell them that i'm coming late good morning what's the weather in the city of ústí nad labem is this food gluten free
ladicí text
přepisy hovorů
výslovnostní lexikon akustický model 9 / 18
Rozpoznání českých slov v anglické řeči I
I
I
vybereme množinu českých slov, která chceme umět rozpoznat (v našem případě názvy ulic a obcí), přidáme je do výslovnostního lexikonu problém: akustický model pro angličtinu používá sadu hlásek, která není vhodná pro češtinu známé přístupy: I
I
I
rozšířit sadu hlásek o specificky české hlásky, např. kombinací s českým akustickým modelem (Stemmer et al., 2001; Modipa – Davel, 2010) přepsat česká slova pomocí výslovnostních pravidel pro angličtinu (Modipa – Davel, 2010) přepsat českou výslovnost pomocí anglických hlásek (Wang – Tong, 2014) 10 / 18
Rozpoznání českých slov – přepis hlásek I
přepis české výslovnosti pomocí anglických hlásek I
I
nevýhoda: nelze přesně zachytit specificky české hlásky (ale ty cizinec stejně nemusí vyslovit správně) výhoda: není nutné měnit akustický model souhlásky
Czech > ts c é ñ r fir ˚ fir
samohlásky/dvojhlásky
ex.
English
ex.
Czech
ex.
English
ex.
cár ťapka ďábel ňadra rád řád křáp
ts > tS > dZ n ô Z S
tsunami cheese jeans need read vision she
o au “ eu “ ou “
oko auto euro ouško
O aU “ æu oU “
ought cow — oat
11 / 18
Rozpoznání českých slov – trénovací korpus I
I
věty z anglické Wikipedie obsahující jména českých ulic a obcí 90 031 vět, 2 360 589 slov (134 625 českých) The Technical University of Liberec is a medium-sized institution. In 1946, Baron Georg Beess, the last nobleman from the Beess family to own properties in Hnojník, was expelled from the country and was deprived of his property according to the Beneš decrees affecting the Germans in Czechoslovakia. In May 1975, the 1968 Constitutional Law of Federation was further amended to allow Gustáv Husák to take over the presidency from the ailing Ludvík Svoboda. 12 / 18
Testovací mluvený korpus1 I
54 předepsaných vět obsahujících jména míst v Česku, zejména v Praze How can i get from Malostranské náměstí to Anděl? I need to get to Troja, can you drive me there? What is the weather like in Pardubice?
I
přečteno 5 mluvčími studujícími v Praze → 256 nahraných vět I I I
různé národnosti (Rusko, Sýrie, Írán) různé úrovně znalosti češtiny (žádná až velmi vysoká) odstraněny nahrávky, které se neshodovaly s předlohou
1
http://hdl.handle.net/11234/1-1735, https://drive.google.com/open?id=0B_NnBoXZxx0uOXZyQmlZRENuSTQ 13 / 18
Výsledky I
varianty systému: I I
I
adaptovaný lexikon: přidány výslovnosti českých slov adaptovaný LM: do jazykového modelu „přimíchán“ výběr z Wikipedie v poměru 1 : 9
testovací korpusy: I I
calls2 : nahrávky uživatelů cstest: nahrávky připravených vět s českými jmény
Systém baseline adaptovaný lexikon adaptovaný lexikon + LM
% WER
% poznaných jmen
calls2
cstest
cstest
22,0 21,9 22,9
64,8 61,9 58,2
0,0 6,4 13,5 14 / 18
Další kroky I I
dokončení adaptace jazykového modelu prozkoumání výslovnosti českých slov nerodilými mluvčími
15 / 18
Shrnutí I
sestaven malý řečový korpus I
(nerodilí mluvčí v anglické promluvě užívají česká slova)
http://hdl.handle.net/11234/1-1679 I I I
sestaven textový korpus anglických vět s českými jmény návrh přepisu českých hlásek pomocí anglických pro ASR experimenty dokládají zlepšení rozpoznávání českých slov
16 / 18
277 278 178
17 / 18
Literatura Modipa, T. – Davel, M. H. Pronunciation modelling of foreign words for Sepedi ASR. 2010. Stemmer, G. – Nöth, E. – Niemann, H. Acoustic modeling of foreign words in a German speech recognition system. In INTERSPEECH, s. 2745–2748, 2001. Wang, L. – Tong, R. Pronunciation modeling of foreign words for Mandarin ASR by considering the effect of language transfer. In INTERSPEECH, s. 1443–1447, 2014.
18 / 18