2007/2– 12.1.2007
Využití RPS pro potlačování šumu v řečových signálech Ing. Radek Zezula, Ph.D., Ing. Ivan Koula, Prof. Ing. Zdeněk Smékal, CSc. Ústav telekomunikací Vysoké učení technické v Brně Fakulta elektrotechniky a komunikačních technologií e-mail:
[email protected] ,
[email protected] ,
[email protected]
V tomto článku jsou použity koncepty z oblasti nelineárních dynamických systémů pro popis řečového signálu. Modelování řečového signálu je provedeno jeho přepisem na vícedimensionální atraktory, vložením řečového signálu do rekonstruovaného stavového prostoru (Reconstructed Phase Space). V něm se aproximují lokální geometrické struktury atraktoru pomocí adaptivního algoritmu využívajícího singulární dekompozici matice popisující prostor RPS za účelem redukce šumu v řečovém signálu.
Obsah 1. Úvod 2. Popis metody 2.1. Určení vhodného zpoždění pomocí nelineární korelace 2.2. FNN
3. Testování metody 4. Závěr Poděkování Literatura
1. Úvod Tradiční metody potlačování šumu v řečových signálech se snaží co nejlépe odhadnout spektrální charakteristiky řečového signálu a šumu za účelem jejich vzájemné separace a filtrace. Alternativou k těmto tradičním metodám zvýrazňování řečového signálu je pohled na řečový signál jako na nelineární dynamický systém. Filtrování signálů z nelineárních systémů však vyžaduje užití speciálních metod, neboť obvyklé spektrální nebo lineární filtry mohou nepříznivě působit na nelineární strukturu signálu. Iregulární signály z nelineárních zdrojů působí v širokém pásmu spektra a proto je složité identifikovat jejich komponenty ve spektru a přitom je nezaměnit za složky šumu. Nelineární metody potlačení šumu se proto nespoléhají na informace o spektrálním rozložení signálu a šumu, ale využívají jiných technik. Například z teorie chaosu je známo, že pro získání znalostí chování určitých nelineárních dynamických systémů se někdy více hodí popis těchto systémů ve vícedimensionální stavovém prostoru RPS nežli v oblasti časové nebo frekvenční. Informace lokálního charakteru u takového systému lze pak snáze získat ze sousedských vztahů časových řad zkoumaného signálu. A právě na tomto principu staví metoda popisovaná v tomto článku.
2-1
2007/2– 12.1.2007
2. Popis metody Zkoumáním časových řad jednostavové proměnné dynamického systému může být docíleno toho, že nově vytvořený stavový prostor systému bude topologicky ekvivalentní k popisu původního systému. Vytvoření takového prostoru může být provedeno zavedením časového zpoždění signálu. To může být chápáno jako vícedimensionální zobrazení signálu s opožděnými verzemi sebe sama [1]. Do jednotlivých vektorů rekonstruovaného stavového prostoru jsou transformovány časové posloupnosti signálu pomocí výrazu (1): (1) kde n je časový index, d značí dimensi vhodného stavového prostru a τ je časové zpoždění zkoumaného signálu x. Kompletní popis rekonstruovaného stavového prostoru signálu je dán maticí atraktoru (2):
(2)
Matice atraktoru se skládá z řádkových vektorů, které jsou vytvořeny podle rovnice (1). Pokud je k dispozici N hodnot v rámci signálu, pak počet vektorů (řádků matice atraktoru) je roven N-(d-1)τ. Podmínkou pro vytvoření topologicky ekvivalentního RPS k originálnímu signálu je, aby hodnota d byla dostatečně velká [2]. Ta se určí metodou FNN (false nearest neighbor) až po stanovení vhodného zpoždění pomocí MI (mutual information). 2.1.
Určení vhodného zpoždění pomocí nelineární korelace
Pro analýzu skrytých vlastností zkoumaných posloupností signálu se často používá korelační funkce. Ke stejným účelům lze však také využít i nelineární korelaci. Vztah pro nelineární korelaci, jenž je uváděn v literatuře [5] pro stanovení vzájemných závislostí dvou vektorů jsme modifikovali na tvar (3):
(3)
kde h(nx,ny) je dvojdimenzionální frekvenční histogram dvou vektorů x a y, hx je vektor součtů hodnot ve sloupcích matice h, hy je vektor součtů hodnot na řádcích matice h, N je délka vektorů x a y, NX a NY jsou rozměry matice h. Hodnota získaná z výrazu (3) udává vhodné zpoždění pro určení hodnoty d pomocí algoritmu FFN (false nearest neighbor), která je zapotřebí pro vytvoření optimálního RPS. Při stanovení časového zpoždění τ je důležité, aby jeho hodnota byla zvolená vhodně. Pokud by totiž bylo toto zpoždění příliš malé, pak Nt bude velmi podobné Nt+x a při vykreslení grafu atraktoru zůstanou křivky blízko sebe a budou tvořit téměř čáru Xt ~ Xt+x viz. obr. 1. 2-2
2007/2– 12.1.2007
obr. 1 Lorenzův atractor t=0,02 - malé zpoždění
obr. 2 Lorenzův atractor t=0,16 - optimální zpoždění
obr. 3 Lorenzův atractor t=0,4 - velké zpoždění
obr. 4 obr. 4 Lorenzův atractor t=0,74 - velké zpoždění
Naopak, když zpoždění je příliš velké, pak uspořádání atraktoru je téměř nezávislé a tak nelze ze získaného zobrazení získat požadovanou informaci - viz. obr. 3 nebo obr. 4. 2.2.
FNN
Metoda FNN (False Nearest Neighbors), navržena Kennelem [6], slouží k určení minimální, avšak dostatečné dimense d, jenž je zapotřebí pro vytvoření ekvivalentního prostoru a pro správné zobrazení atraktoru signálu. Princip této metody je jednoduchý. Pro každý bod časové posloupnosti signálu se hledá jeho nejbližší soused v d dimensionálním prostoru. Pak se spočítá jejich vzájemná vzdálenost pomocí (4):
2-3
2007/2– 12.1.2007 (4) Následně se iterují oba body a vypočte se hodnota podle (5):
(5)
Pokud Ri překročí daný heuristický práh Rt (hodnota blízká nule), pak je tento bod označen za bod mající "falešného nejbližšího souseda". Pokud procento výskytu "falešných nejbližších sousedů" je malé, hodnota d, při které byl test proveden, je považována za dostatečnou dimenzi prostoru RPS. Využitím získaných parametrů lze vypočíst matici popisující rekonstruovaný stavový prostor, jenž je topologicky ekvivalentní k popisu původního signálu. Z této matice se vyberou pouze ty řádky, které mají nejmenší euklidovskou vzdálenost k referenčnímu bodu (v prvním kroku je referenční bod definován prvním řádkem matice RPS) - hledají se tedy jeho nejbližší sousedé ve stavovém prostoru signálu. Počet vybraných řádků je roven hodnotě . Využitím těchto vybraných řádků se sestaví čtvercová matice, jejíž hodnoty v jednotlivých sloupcích jsou sníženy o hodnotu aritmetického průměru z původních hodnot daného sloupce čtvercové matice. Získaná čtvercová matice je dále rozložena pomocí singulární dekompozice (singular value decomposition) k získání diagonální matice S s nezápornými sestupně seřazenými hodnotami a dvěmi unitárními maticemi U a V. Matice S je dále využita k adaptivnímu výběru hodnot z V matice pro modifikaci hodnot popisující původní referenční bod. Tento algoritmus se opakuje pro všechny řádky matice rekonstruovaného stavového prostoru RPS původního signálu. Poté následuje rekonstrukce časového rámce signálu z modifikované matice RPS.
3. Testování metody Pro testování vlastností této metody potlačování šumu v řečových signálech jsme zvolily pět promluv z databáze TIMIT, které jsme modifikovali přidáním Gaussova šumu v rozmezí od -10dB do +10dB. Na tyto zašumělé promluvy jsme aplikovali popisovaný algoritmus potlačení šumu a výsledné signály jsme porovnali z originálními nahrávkami pomocí SNR a NC.
(6)
kde x(n) je originální řečový signál z TIMIT databáze a šumu, jenž byl k originálnímu signálu nejdříve přidán.
2-4
je řečový signál po potlačení
2007/2– 12.1.2007
(7)
kde jednotlivé proměnné jsou významově totožné jako u předešlého výrazu. Průměrné hodnoty získané z výsledků jednotlivých testovaných promluv jsou vidět na následujících grafech.
obr. 5 Výsledky SNR pro aditivní Gaussův bílý šum
obr. 6 Výsledky NC pro aditivní Gaussův bílý šum
2-5
2007/2– 12.1.2007
4. Závěr V tomto článku je popisovaná nelineární metoda potlačování šumu v řečových signálech využívající koncepty z oblasti nelineárních dynamických systémů. Principem metody je přepis řečového signálu do RPS prostoru, v kterém se geometrické struktury atraktoru modifikují pomocí algoritmu využívající singulární dekompozici matice atraktoru. Výhodou této metody je ta skutečnost, že nevyžaduje pro svoji funkčnost explicitní modely řečového signálu a šumu a přesto dosahuje kvalit klasických metod zvýrazňování řeči ze zašumělých řečových signálů. Větší účinnost této metody se projevuje především u nižších hodnot SNR.
Poděkování Tento článek vznikl za podpory projektu Grantové Agentury České republiky č. 102/04/1097.
Použitá literatura [1]
N. H. Packard, J. P. Crutchfield, J. D. Farmer, and R. S. Shaw, "Geometry from a time series," Physical Review Letters, vol. 45, pp. 712-716, 1980.
[2]
T. Sauer, J. A. Yorke, and M. Casdagli, "Embedology", Journal of Statistical Physics, vol. 65, pp. 579-616, 1991. H. Kantz and T. Schreiber, Nonlinear Time Series Analysis. Cambridge, Cambridge University Press, ISBN 0521653878, 1999. H. D. I. Abarbanel, M. E. Gilpin, M. Rotenberg, Analysis of observed chaotic data. New York, Springer, ISBN 0387983724, 2005. A. M. Fraser and H. L. Swinney, Independent coordinates for strange attractors from mutual information, Phys. Rev. A 33, 1134 (1986). M. B. Kennel, R. Brown, and H. D. I. Abarbanel, Determining embedding dimension for phase-space reconstruction using a geometrical construction, Phys. Rev. A 45, 3403 (1992).
[3] [4] [5] [6]
2-6