Příznaky pro automatické rozpoznávání řeči odvozené z dynamiky spektra Petr Fousek České vysoké učení technické v Praze, Fakulta elektrotechnická
[email protected] Abstrakt: Jedním z problémů současných automatických rozpoznávačů řeči je špatná robustnost vůči variabilitě kanálu. V této práci je navržena zcela nová parametrizační metoda s teoretickým potenciálem snížit vliv kanálového rušení. Časový vývoj energií ve frekvenčních pásmech řeči je filtrován dvourozměrnými filtry, jejichž vlastností je potlačení neměnných složek ve spektru, což umožňuje částečnou separaci kanálu od řeči. Teoretické předpoklady jsou experimentálně ověřeny. Přínosem práce je rovněž rozšířený parametrizační nástroj CtuCopy.
1.
Úvod
Mohlo by se zdát, že problém automatického rozpoznávání řeči je již vyřešen. Záznam a zpracování zvuku je téměř výhradně řešeno v digitální oblasti, výpočetní technika je snadno dostupná a programy na převod mezi řečí a textem se stávají standardní součastí operačních systémů počítačů i mobilních telefonů. Přesto ani profesionální diktovací systémy stále nejsou dokonalé. Je mnoho problémů, které si člověk při vnímání řeči ani neuvědomuje, pro automatické systémy jsou jsou však stále překážkou. Jedná se o variabilitu samotné řeči (každý člověk mluví specifickým způsobem, který se mění dle situace), hluk prostředí (okolní zvuky, cizí řeč) a vliv přenosového kanálu (ozvěna místnosti, mikrofon, rušení při přenosu). Některé vlivy již lze potlačit, avšak současná metodika neřeší uspokojivě variabilitu kanálu. Kupříkladu konvenční rozpoznávač, který je natrénovaný na kvalitně nahranou řeč, není schopen rozpoznat řeč z telefonu, a to ani naopak. Tato práce se snaží dohonit tento hendikep automatických rozpoznávačů vývojem nových parametrizačních technik. 1.1.
Důležitost dynamiky spektra
Základní myšlenkou je zavést do příznaků informaci o delším časovém kontextu, než cca 25 ms, jak je tomu u konvenčních parametrizací [8]. Motivací jsou vlastnosti lidské produkce řeči i vnímání řeči. Informace o fonému jako stavební jednotce řeči je rozprostřena v delším časovém úseku vlivem koartikulace. Setrvačnost mluvícího ústrojí, minimální potřebná délka pro rozpoznávání člověkem, analýza vzájemné informace i modulační spektrum řeči nalézají délku potřebného úseku několik set milisekund, což je o řád výše, než s jakou běžně pracujeme [9, 2]. Konvenční příznaky pracují s krátkodobým spektrem řeči,
avšak ukazuje se, že informace je zakódována spíše ve změnách spektra, nikoliv ve spektru samotném [1]. Příznaky odvozené z dlouhodobé dynamiky spektra již nyní nacházejí uplatnění ve špičkových systémech [10].
2.
Multi-RASTA filtrace
Tato nová technika je založena na filtraci časového vývoje energie v úzkých frekvenčních pásmech řeči. Seznamme se nejprve velmi stručně s příbuznou myšlenkou systému TRAP [6], který umožní výklad nové metody M-RASTA. 2.1.
TRAP příznaky
Technika M-RASTA filtrace vychází z architektury systému TRAP. Příznaky nejsou odvozeny z krátkodobého spektra, nýbrž z delšího úseku spektrogramu, viz. obr. 1.
Obrázek 1: Spektrogramy řeči. Vlevo: Příznaky z krátkodobého spektra jsou počítány “přes frekvenci”. Vpravo: TRAP příznaky jsou počítány z dlouhodobého vývoje “přes čas”. Spektrum se získá v následujících krocích (základ příznaků PLP [3]): 1. Segmentace signálu Hammingovým oknem délky 25ms s překryvem 10ms. 2. Výpočet krátkodobého spektra pomocí FFT. 3. Projekce amplitudového spektra na banku 15-ti filtrů v Barkově frekvenční škále (ve frekvenční oblasti). 4. Aplikace křivek konstatní hlasitosti a komprese dynamiky spektra. TRAPy se odvozují z tohoto energetického spektra obvykle jakožto 1000ms dlouhé trajektorie jednotlivých frekvenčních pásem (viz obr. 1). Máme tedy 15 trajektorií, každá délky 101 segmentů po 10ms, což je 1515 příznaků. Ty nelze přímo použít do konvenčního HMM/GMM dekodéru, proto je zařazena neuronová síť, jejímž úkolem je provést projekci 1515 vstupních příznaků na fonémovou sadu, která má obvykle rozměr kolem 40-ti fonémů. Neuronová síť je trénována tak, aby odhadovala posteriorní pravděpodobnosti výskytu jednotlivých fonému v daném segmentu řeči. Jinými slovy, každých 10ms síť odhadne, který foném je v tomto segmentu nejpravděpodobněji vysloven. Vnitřní struktura a metodika trénování neuronové sítě je mimo rámec tohoto výkladu [6]. Pravděpodobnosti jsou po úpravě (dekorelace a tvarování distribuční funkce) použity jako příznaky pro HMM/GMM dokodér.
2.2.
Základní myšlenka Multi-RASTA
Časový vývoj energie v pásmu (TRAP) má svou dynamiku. Spektrum trajektorie TRAP popisuje tzv. modulační spektrum. Toto spektrum kvantifikuje, do jaké míry jsou v daném pásmu zastoupeny pomalé a rychlé změny. A zde je právě možno uplatnit silná apriorní omezení, která mohou výrazným způsobem zvýšit robustnost vůči konvolučnímu šumu. Informace v řeči je kódována pomocí změn (modulací) spektra. Je známo, že vokální trakt má svou setrvačnost a nemůže se měnit libovolnou rychlostí. Modulační spektrum má maximum kolem 4Hz a rozsah cca 1-16Hz [7]. Naopak neřečové události se typicky nemění (kanál), nebo mění velmi pomalu. Filtrací modulačního spektra na 1-16Hz lze tedy omezit vliv kanálu, jak se osvědčilo u metody RASTA [5]. Multi-RASTA filtrace zobecňuje RASTA filtraci na dvourozměrnou filtraci spektrogramu, čili nejen časovou, ale i frekvenční a aplikuje nikoliv jeden filtr, ale banku filtrů. Impulsové odezvy filtrů jsou voleny tak, aby měly v čase nulovou stejnosměrnou složku, což eliminuje nežadoucí pomalé modulace. Jejich tvar je dán první a druhou derivací Gaussovy funkce: x x2 exp(− ), σ2 2σ 2 1 x2 x2 g2 [x] ∝ ( 4 − 2 ) exp(− 2 ), σ σ 2σ g1 [x] ∝ −
(1) (2)
Je to motivováno mj. podobnými odezvami neuronů v části mozkové kůřy savců, které zpracovávají akustické podněty. Více lze nalézt v [4]. Impulsové odezvy časových filtrů jsou patrné z obr. 2 a jejich modulační vlastnosti v obr. 3. Frekvenční filtry byly zkoušeny dva, a to aproximace první a druhé diference. Jejich impulsní odezva má délku 3 vzorky.
−50
0 frames
50 −50
0 frames
50
0
0
−10
−10 dB
dB
Obrázek 2: Impulsové odezvy derivací Gaussovy funkce pro σ = 8 – 130ms.
−20
−20
σ=130 ms −30 −40 0 10
−30
σ=8 ms 1
10 modulation frequency [Hz]
−40 0 10
1
10 modulation frequency [Hz]
Obrázek 3: Frekvenční charakteristiky derivací Gaussovy funkce pro σ = 8 – 130ms.
2.3.
Postup výpočtu příznaků
Výpočet je schematizován v obr. 4. Vstupem je výše uvedený spektrogram. Lineární 2D FIR filtraci lze rozložit na sekvenci časové a frekvenční filtrace. Spektrum v každém pásmu zvlášť je neprve filtrováno bankou Gaussovských filtrů (shodné filtry pro všechna pásma) a potom je aplikován frekvenční filtr, který reprezentuje jednoduchou/dvojitou diferenci. Vektor příznaků je tvořen spektry (každé 15 pásem) filtrovanými jednotlivými časovými filtry plus to vše filtrováno ještě frekvenčními filtry. Protože je příznaků mnoho, jsou zpracovány neuronovou sítí, podobně jako u metody TRAP. FIR
Gaussian features
critical bands
bank −1 0 +1 2
−0.5 +1 −0.5
FIR bank
time (frames)
TANDEM probability estimator
Critical band spectrogram
Obrázek 4: Schema parametrizace M-RASTA. 2.4.
Experimenty a optimalizace
Funkce metody byla testována a optimalizována na rozpoznávači s malým slovníkem. Jeho přesný popis lze nalézt opět v [4]. Jedná se o rozpoznávání anglických číslovek. Základní vlastnosti: • HMM/GMM rozpoznávač, MLP neuronová síť, • HMM 29-ti fonémů, každý 5 stavů, 32 mixtures, • slovník 11 slov (“one” . . . “nine”, “zero”), 28 výslovnostních variant, • cca 4.5hod trénovacích dat (foneticky bohaté věty pro MLP a číslovky pro HMM), • cca 1.7hod nezávislých testovacích dat. Srovnávací parametrizace byly dvě, a to standardní PLP [3] a TRAP [6]. Jejich skóre jsou uvedena v tab. 1. parametry PLP TRAP
WER[%] 5.2 4.7
Tabulka 1: Srovnávací parametrizace. Chyby rozpoznávání na úrovni slov (Word Error Rates). Rozsah časových konstant Gaussovských filtrů vyjádřený v rozptylech σ byl stanoven σ = 8 − 130 ms. Zdola byl omezen rozlišením spektrogramu (10ms), shora délkou filtru (1000ms). Počet různých konstant byl optimalizován v předběžných experimentech na 8.
parametry M-RASTA časová M-RASTA časová + ∆f M-RASTA časová + ∆f + ∆2 f
WER [%] 4.3 3.4 3.7
Tabulka 2: Důležitost frekvenční filtrace v M-RASTA příznacích. Experimenty s frekvenční filtrací ukázaly, že explicitní vyjádření souvislostí mezi pásmy pomocí diference je nepostradatelné, viz tab. 2. Druhá diference nepřinesla zlepšení skóre. Po optimalizaci je Gaussovských filtrů celkem 16. Celkový počet příznaků je pak roven 16x15 + 16x13 = 448 (15 pásem, 16 filtrů, verze s ∆f plus bez ∆f ; frekvenční filtrace není definována pro 2 krajní pásma). 2.5.
Robustnost vůči konvolučnímu zkreslení
Protože motivací pro M-RASTA byla robustnost vůči kanálovému šumu, ověření této vlastnosti bylo provedeno pomocí jednoduché preemfáze testovacích dat FIR filtrem s α = 0.97, což simulovalo změnu kanálu testovacích dat oproti trénovacím. Výsledky shrnuje tab. 3. parametry PLP TRAP M-RASTA časová M-RASTA časová + ∆f
WER[%] 13.5 4.8 4.4 3.6
relativní propad [%] 160 3.4 2.1 4.0
Tabulka 3: Chyba rozpoznávání na datech se simulovaným kanálovým šumem. Konvenční PLP zcela zkolabovala, což mimo jiné dokumentuje význam tohoto výzkumu. Parametrizace s časovým kontextem TRAP vykazuje minimální ztrátu. Navržená metoda vykazuje ve své nejlepší variantě sice relativně vyšší ztrátu než TRAP, nicméně skóre je stále významně vyšší, než pro obě srovnávací metody. Parametrizace Multi-RASTA tedy splnila teoretické předpoklady, prokázala výborné vlastnosti i robustnost vůči kanálovému šumu.
3.
Závěr
Přínos práce za uplynulé období lze shrnout do následujících bodů: • Na základě teoretického rozboru byla navržena nová parametrizace řeči s předpokladem vyšší robustnosti vůči konvolučnímu zkreslení. • Metoda byla implementována mj. pomocí parametrizačního nástroje CtuCopy, který byl ve verzi 3.0 rozšířen, viz http://noel.feld.cvut.cz/speechlab. • Teoretické předpoklady byly ověřeny na rozpoznávači s malým slovníkem. Bylo ukázáno že metoda předčí konvenční a používané parametrizace.
Poděkování Tento výzkum byl podporován DARPA EARS Novel Approaches z grantu č. MDA97202-1-0024. K dalším zdrojům patří granty IM2, AMI a M4. Částečná podpora byla rovněž z grantů GAČR 102/03/H085 “Modelování biologických a řečových signálů”, GAČR 102/05/0278 “Nové směry ve výzkumu a využití hlasových technologií”, AVČR 1ET201210402 “Hlasové technologie v informačních systémech” a výzkumného záměru MŠMT MSM6840770014 “Výzkum perspektivních informačních a komunikačních technologií”.
Reference [1] Furui, S. Cepstral analysis technique for automatic speaker verification. In IEEE Trans. ASSP 1981, vol. 29, pp. 254–272. [2] Greenberg, S. Understanding speech understanding: Towards a unified theory of speech perception. In Workshop on the Auditory Basis of Speech Perception (1996), 1–8. [3] Hermansky, H. Perceptual linear predictive (plp) analysis for the speech. J. Acous. Soc. Am. (1990), 1738–1752. [4] Hermansky, H.; Fousek, P. Multi-resolution rasta filtering for tandem-based asr. In Proc. of Interspeech 2005 Lisbon, Portugal, 2005. [5] Hermansky, H.; Morgan, N. Rasta processing of speech. IEEE Transactions on Speech and Acoustics 2 (October 1994), 587–589. [6] Hermansky, H.; Sharma, S. Traps - classifiers of temporal patterns. In Proc. of ICSLP’98 November 1998. [7] Kanedera, N.; Arai, T.; Hermansky, H.; Pavel, M. On the relative importance of various components of the modulation spectrum for asr. Speech Communication 28, 1 (May 1999), 43–55(13). [8] Mermelstein, P. Distance measures for speech recognition: Psychological and instrumental. In Pattern Recognition and Artificial Intelligence, C. H. Chen, Ed. Academic Press, New York, 1976, pp. 374–388. [9] Yang, H. H.; Sharma, S.; van Vuuren, S.; Hermansky, H. Relevance of timefrequency features for phonetic and speakerchannel classification. Speech Communication (2000). [10] Zhu, Q.; Chen, B.; Gr.zl, F.; Morgan, N. Improved mlp structures for data-driven feature extraction for asr. In Interspeech’2005 - Eurospeech - 9th European Conference on Speech Communication and Technology 2005.