Modelování neřečových událostí v robustním rozpoznávání řeči s malým slovníkem Josef Rajnoha České vysoké učení technické v Praze, Fakulta elektrotechnická
[email protected] Abstrakt: V tomto článku je prezentována metoda modelování neřečových událostí řečníka v robustním rozpoznávači řeči s malým slovníkem na bázi skrytých Markovových modelů (HMM). Výsledky ukazují, že pouhé přidání informace o neřečových událostech a jejich modelování jednoduchými modely umožňuje dosáhnout výrazných zlepšení rozpoznávací úspěšnosti. Přestože je relativně snadné zahrnout tyto neřečové události do jednoduché gramatiky rozpoznávače, možnost jejich rozpoznávání je ovlivněna jejich vysokou variabilitou.
1.
Úvod
Hlasově ovládané systémy často pracují s reálnou spontánní řečí, která se v mnohém liší od čtených nahrávek. Spontánní řeč se vytváří ”za běhu” a mluvčí tak při řeči musí přemýšlet o tom, co bude následovat za právě promlouvaným slovem. To vede k výskytu například váhavých pauz v řeči. Navíc může být řeč přerušena zakašláním či doprovázena hlasitým nádechem, mlasknutím apod. Proto je nutné, aby byl rozpoznávač vůči těmo jevům odolný a nemohl je zaměnit například za některé slovo ze slovníku. V tomto příspěvku shrnuji výsledky modelování těchto neřečových událostí řečníka pomocí HMM v úloze rozpoznávání řeči v reálném prostředí s malým slovníkem nezávislé na mluvčím. Omezený slovník umožňuje použít jednoduchou gramatiku, do které lze snadno zahrnout modelované události a není tedy nutné se zabývat trénováním složitého jazykového modelu.
2.
Rozpoznávač řeči
S použitím systému nástrojů HMM Toolkit (HTK) [4] byl vytvořen rozpoznávač sekvence českých číslovek na bázi modelů fonémů. Rozpoznávač používá standardní levo-pravé 3stavové modely bez přeskoku stavů a 32 směsí (mixtures). Jedná se o modely českých fonémů a dva modely pro pausu. Číslovky jsou uspořádány do jednoduché gramatiky ve smyčce, což umožnilo snadné přidání modelovaných neřečových událostí do gramatiky. Signál je segmentován 16ms Hammingovým oknem s krokem 10ms. Z takto získaných segmentů je dále počítáno 12 MFCC koeficientů, jeden koeficient energie a také delta a akcelerační koeficienty.
3.
Trénovací databáze
Pro natrénování modelů fonémů byla použita databáze SPEECON [2] (v dalším textu značena jako SPEEdat), obsahující nahrávky od různých mluvčích v různých prostředích. Tato databáze byla protříděna, aby neobsahovala přeřeknutí či jiné položky nevhodné pro trénování. SPEEdat tak obsahuje cca 60000 vět od 221 různých mluvčích z relativně tichého prostředí (kancelář, obývací pokoj) nahrávaných mikrofonem typu close-talk. V této databázi jsou rozlišovány dvě kategorie neřečových událostí řečníka : filled pause (pausa v řeči vyplněná zvukem) a jiná událost. Při předchozím trénování pouze modelů fonémů byly značky pro tyto události pouze vyjmuty z textového přepisu nahrávky a nebyly tak pro trénování brány v úvahu. Aby bylo k dispozici více dat pro trénování neřečových událostí, byla trénovací databáze následně rozšířena o databázi nahrávek z automobilu (CARdat), která obsahuje (po protřídění) dalších cca 40000 vět od 650 mluvčích. Pro potřeby tohoto rozpoznávače ale byly použity pouze nahrázvky ze stojícího automobilu. V této databázi jsou neřečové události řečníka rozděleny do více skupin : filled pause, kašel, odkašlání, mlasknutí a hlasitý dech. Toto dělení umožňuje přesnější trénování modelů neřečových událostí, neboť lze použít model pro menší skupinu událostí.
Počet vět Počet neřečových událostí
SPEEdat 63024 34994
CARdat 38391 15866
Tabulka 1: Zastoupení neřečových událostí řečníka v jednotlivých databázích Pro účely testování byla z obou databází vyjmuta část dat (SPEE test, CAR test), která byla použita pro testování úspěšnosti výsledného rozpoznávače. Příspěvky od mluvčích v této testovací množině nebyly použity pro trénování, čímž se testovala také robustnost rozpoznávače.
4.
Modelování neřečových událostí
Hlavní myšlenkou této práce je modelování neřečových událostí řečníka pomocí rozpoznávače na bázi HMM. Jelikož původní trénovací databáze SPEECON rozlišuje pouze dvě třídy těchto událostí, byly v prvním kroku přidány do sady modelů dva nové modely model pro filled pause (FIL) a model pro ostatní události (SPK). Tyto modely byly získány zkopírováním modelů foneticky blízkých fonémů. Pro inicializaci modelu FIL tak byl použit foném ”e”, pro model SPK pak plozivní foném ”p”. Model SPK byl v předchozím kroku inicializován zkopírováním modelu plozivní hlásky. To je vhodné pro případ modelování událostí typu mlasknutí či kašel. Mezi neřečovými událostmi je ale také událost ”hlasitý dech”, která má spíše frikativní charakter. To způsobuje, že je model SPK trénován na značně odlišné události a není tedy možné přesně vystihnout ani jednu z nich. Proto byla množina modelů rozšířena o model události typu dech (BRE). Problémem však je, že v trénovací databázi SPEEdat není událost BRE odlišena od ostatních událostí. Proto není možné s pomocí této databáze trénovat událost BRE odděleně od ostatních událostí. Pro další trénování tak byla použita pouze CARdat. Pro inicializaci modelu BRE byl v první fázi použit model SPK z prvního přetrénování, který je nadále používán pro modelování plozivních událostí. Po analýze výsledků rozpoznávání
se dále ukázalo, že rozpoznávač označuje událost BRE jako velmi krátkou, délkou srovnatelnou s plozivními událostmi (viz tab. 2, první řádek). V reálné řeči je však dech událostí s mnohem delší dobou trvání, proto byl ve třetí fázi pro inicializaci modelu BRE použit model pro ticho, který modeluje delší událost, než je hláska ”f”. Tabulka 2, druhý řádek dokládá, že opravdu došlo ke zvýšení délky rozpoznané neřečové události. Po přetrénování se pak pro oba případy inicializačních modelů délky neřečových událostí mírně přiblížily. SPEE test CAR test fáze, inicial.model plosivní dech plosivní dech 2nd retrain, ”f”-model 20.06 25.44 23.77 21.38 2nd retrain, pausa 20.7 108.74 22.46 54.46 3rd retrain, ”f”-model 24.72 39.72 36.99 30.44 3rd retrain, pausa 21.81 102.17 33.7 55.21 Tabulka 2: Průměrná délka neřečových událostí Vlastní události pak byly přidány do gramatiky tak, jako by se jednalo o další slovo, které má systém rozpoznávat.
5.
Experiment
Výsledky byly srovnávány na úrovni míry chybovosti slov (WER - Word Error Rate) D+S+I WER = N
· 100%,
(1)
kde N je počet rozpoznávaných slov, D je počet slov nezaznamenaných, S je počet slov zaměněných za jiné a I je počet nesprávně vložených slov (inzercí). Protože rozpoznané neřečové události nejsou pro úlohu rozpoznávání číslovek důležité, jsou z rozpoznaného textu následně vyjmuty. Tudíž výraz pro WER spíše vyjadřuje míru chybovosti na úrovni číslovek. Proto také nebylo bráno v úvahu, jestli byla jedna neřečová událost rozpoznána na místě, kde se skutečně nevyskytuje, zda byla vynechána nebo zda byla zaměněna za jinou neřečovou událost. Obrázek 3 ukazuje hodnotu WER dosaženou na SPEE test (šrafovaný sloupec) v daném trénovacím kroku, obrázek 4 ukazuje tytéž výsledky pro CAR test. Plné sloupky ukazují míru zastoupení nesprávně vložených slov. Právě míra nesprávně vložených slov z velké části vypovídá o schopnosti rozpoznávače eliminovat vliv neřečových událostí, které tak nejsou mylně označeny jako číslovka. 5.1.
Výsledky pro dva modely neřečových událostí
Původní rozpoznávač (bez modelů neřečových událostí) dosahuje hodnoty WER 4,99% na SPEE test (Obr. 3, sloupec a) a 11,18% WER na CAR test (Obr. 4, sloupec a). Po přidání dvou modelů neřečových událostí (viz sekce 4.) se úspěšnost znatelně zvýšila (okolo 20% pokles chyby pro SPEE test, 15% pro CAR test) a také počet nesprávně vložených slov poklesl (viz sloupec b). Je tedy zřejmé, že pouhé přidání jednoduchých modelů neřečových událostí do gramatiky rozpoznávače znatelně pomáhá zvýšit robustnost systému proti těmto událostem. Výsledky po prvním přetrénování jsou již ovlivněny rozšířením trénovací databáze, proto jsou uvedeny úspěšnosti rozpoznávání pro rozpoznávač bez modelů neřečových událostí
fricative silence
(sloupec c) a pro rozpoznávač s rozšířenou sadou modelů (sloupec d). Je zřejmé, že samotné rozšíření trénovací množiny vede na znatelné zvýšení úspěšnosti rozpoznávání. Po rozšíření sady modelů ale chybovost a také počet chybně vložených slov dále klesá. c d
b
e f g h i
j k l m
n o p
3.5 3
2.5
4
2
3
1.5
2
1
1
Insertions [%]
a 5 WER [%]
no mark fricative silence
0.5
0
Start
Init
1st
3rd
2nd
4th
0
Obrázek 3: Výsledky pro databázi SPEE test b
c d
e f g h i
j k l m
n o p
10
10
8
7.5
6
5
4
2.5
2
0
Start
Init
1st
2nd
3rd
4th
Insertions [%]
WER [%]
a
0
Obrázek 4: Výsledky pro databázi CAR test Jak ale ukazují sloupce e pro nerozšířenou sadu modelů a f pro rozšířenou sadu, druhé přetrénování nevedlo k dalšímu zlepšení pro SPEE test a naopak se znatelně zvýšily hodnoty nejen WER, ale také zastoupení chybně vložených slov. 5.2.
Výsledky pro tři modely neřečových událostí
Sloupec g na obr. 3 ukazuje, že druhé přetrénování při použití tří modelů (FIL, SPK, BREodvozen z původního SPK) vede na zlepšení oproti druhému přetrénování s dvěma modely a výsledná úspěšnost rozpoznání se pro SPEE test téměř vyrovnala hodnotě po prvním přetrénování, zatímco pro CAR test nastal další významný pokles chybovosti. Sloupec h, resp. i ale ukazuje, že ke použití vhodnějšího inicializačního modelu (foném ”f” resp. pausa) k výraznému zlepšení nedošlo. Až další přetrénování poukázalo na nevhodnost inicializace události BRE modelem plozivní události (sloupec j bez trénování modelů událostí, k - model BRE inicializovaný modelem SPK, l - inicializace modelem ”f”, m - inicializace modelem pausy). Naopak další dvě možnosti inicializace se zdají být rovnocenné. 5.3.
Zarovnání databáze SPEEdat
S pomocí výše natrénovaných modelů neřečových událostí řečníka byla zarovnána databáze SPEEdat, což mělo umožnit nalézt nejvhodnější výslovnostní variantu slov v databázi a především zjistit, zda je označená ostatní událost spíše blízká události SPK nebo BRE. Jednoduchá analýza (bylo prozkoumáno jen několik položek kvůli rozsahu databáze) ale ukázala, že výsledky zarovnání nevedou ke zcela přesným výsledkům. Takový jev ale nebyl neočekávaný vzhledem k následujícím faktům :
• Modely neřečových událostí řečníka použité k zarovnání nejsou natrénovány dostatečně • Neřečové události jsou na rozdíl od hlásek velmi variabilní a je potřeba velké množství dat pro trénování k vystižení této variability. • Na značení jednotlivých neřečových událostí pracovalo více lidí, z nichž každý má jiný pohled na problém, kdy už je událost tak málo zřetelná, aby nebyla označena. Proto mezi jednotlivými značkami může být veliký rozdíl. • Značky neřečových událostí nezasahují do řeči, ale jejich vzálemné překrytí nelze vyloučit a může dojít k situaci, kdy je uprostřed dechu mlasknutí. To při předpokladu, že je neřečová událost následována krátkou pauzou, vede opět na možnou nejednoznačnost značení události. Takto zarovnaná databáze byla následně použita (spolu s CARdat) k dalšímu přetrénoSfrag replacements vání modelů. Výsledky ukazuje soubor sloupců 4th - n pro trénování bez modelů, o s ”f”-inicializačním modelem a p s pauzou jako inicializačním modelem. V tomto kroku sice přesnost rozpoznávače poklesla, ale pokles není příliš značný a je tedy na místě se domnívat, že po jistém manuálním překontrolování zarovnaných dat by se mohl očekávat další pokles chybovosti. 5.4.
Test v neznámých podmínkách
S modely z 3. trénovací fáze byl dále uskutečněn test robustnosti rozpoznávače vůči nahrávacím podmínkám. Byly k tomu využity signály shodné se signály v databázi SPEE test, ovšem nahrávané s použitím jiného mikrofonu, než který byl použit pro nahrávání trénovací databáze. Graf na obr. 5 ukazuje dosaženou chybu. fricative no mark silence
12 WER [%]
8
2
6 4
1
2 0
3rd
another conditions
Insertions [%]
3
10
0
Obrázek 5: Neznámé nahrávací podmínky - SPEE test Pro případ SPEE test se přesnost znatelně snížila, ale menší nárůst počtu chybně vložených slov ukazuje, že změna nahrávacích podmínek ovlivnila výsledky rozpoznávání neřečových událostí méně, než výsledky rozpoznávání segmentů řeči.
6.
Závěr
Práce se zabývá modelováním neřečových událostí řečníka za účelem zvýšení robustnosti na mluvčím nezávislého rozpoznávače řeči na bázi HMM s malým slovníkem pracujícím v reálném prostředí. Výsledky experimentů lze shrnout do těchto bodů : • První výsledky ukazují, že již jednoduché modelování dvou tříd těchto událostí přináší do úlohy rozpoznání řeči zlepšení výsledků. Použitím modelů foneticky podobných fonémů bylo dosaženo snížení chybovosti o téměř 20%.
• Rozšířením sady modelů a rozdělením plozivních a frikativních neřečových událostí řečníka bylo dále dosahováno postupného zvyšování přesnosti rozpoznávání na jedné z testovacích databází bez výrazných změn v přesnosti na druhé databázi. • Přetrénování rozpoznávače na databázi, jejíž data byla pomocí předchozích modelů zarovnána, vedlo k poklesu přesnosti rozpoznání, ale míra tohoto poklesu a možnost eliminovat v databázi chybně zarovnané neřečové události ukazují na možný přínos tohoto kroku. V celé práci se projevil vliv vysoké variability rozpoznávaných neřečových událostí a nedostatek dat pro trénování, přesto bylo docíleno poklesu chybovosti rozpoznávače na testovacích datech o 22% resp. 11,5%.
Poděkování Tento výzkum byl podporován z grantů GAČR 102/03/H085 “Modelování biologických a řečových signálů”, GAČR 102/05/0278 “Nové směry ve výzkumu a využití hlasových technologií”, AVČR 1ET201210402 “Hlasové technologie v informačních systémech”, IGA MZ ČR NR 8287-3/2005 a výzkumného záměru MŠMT MSM6840770014 “Výzkum perspektivních informačních a komunikačních technologií”.
Reference [1] RAJNOHA, J. : Modeling of Speaker Non-speech Events in Robust Speech Recognition. Czech-German Workshop 2006, Prague 2006. [2] Webové stránky projektu SPEECON. http://www.speechdat.org/speecon. [3] RABINER, L. : Fundamentals of speech recognition. Prentice-Hall, 1995. [4] YOUNG, S. - et al. : The HTK Book (for HTK Version 3.2.1). Cambridge University Engineering Department, 2002. [5] RAJNOHA, J. : Rozpoznávání řeči v reálných podmínkách na platformě standardního PC. Diplomová práce, ČVUT, 2006. [6] GAJIC, B. - MARKHUS, V. - PETTERSEN, S. G. - JOHNSEN, M. H. : Automatic Recognition of Spontaneously Dictated Medical Records for Norwegian. COST278 and ISCA Tutorial and Research Workshop - ROBUST2004, 2004. [7] SHRIBERG, E. E. : Phonetic Consequences of Speech Disfluency. International Congress of Phonetic Sciences, 1999.