Lombardův efekt v řečové databázi CLSD Hynek Bořil České vysoké učení v Praze, Fakulta elektrotechnická
[email protected] Abstrakt: V tomto příspěvku jsou prezentovány výsledky analýz parametrů řečové databáze CLSD (Czech Lombard Speech Database). Databáze se zaměřuje na modelování Lombardova efektu (LE) pro účely zvýšení robustnosti rozpoznávání řeči v hlučném prostředí. CLSD je tvořena nahrávkami neutrální řeči a řeči produkované v několika typech simulovaného hlučného prostředí. V porovnání s jinými dostupnými databázemi zaměřenými na LE, v našem případě byla do korpusu databáze zahrnuta rozsáhlá sada foneticky bohatých slov a vět za účelem pokrytí celého fonémového slovníku českého jazyka a relativně velké množství číslovek umožňující provádění statisticky význačných rozpoznávacích testů.
1.
Úvod
Lombardův efekt je způsoben změnami řečových charakteristik mluvčího ve snaze o zvýšení srozumitelnosti promluvy v hlučném prostředí [1]. Z hlediska řečových parametrů se LE projevuje jako nelineární zkreslení závislé na konkrétním mluvčím a typu a úrovni okolního hluku. LE se projevuje především změnami hlasové intenzity, průběhem základního řečového kmitočtu f0, změnami polohy a šířky formantových laloků (danými konfiguracemi dutin vokálního traktu), sklonem amplitudového spektra a rozložením energie v jednotlivých frekvenčních pásmech [2]. Změny některých zmíněných řečových parametrů mohou výrazně zhoršit úspěšnost rozpoznávače natrénovaného na neutrální řeči. Některé současně dostupné velké řečové databáze obsahují promluvy nahrané v prostředích s různým hlukovým pozadím (např. kanceláře, veřejná prostranství, kabiny automobilu) pro potřeby trénování a testování rozpoznávače na reálných hlučných signálech. Nepříznivé je, že u hlučných nahrávek lze těžko oddělit dopad hluku a LE na rozpoznávač (pokud není možno hluk v nahrávkách dostatečně potlačit). V některých případech navíc mluvčí promluvy spíše jen čtou, aniž by se snažili zajistit jejich srozumitelnost a reagovali na okolní hluk [3]. V případě speciálních databází zaměřených na analýzu LE, simulované hlučné prostředí je vytvořeno reprodukcí nahrávek hluků do uzavřených sluchátek na hlavě mluvčího. Tím je zajištěn vysoký odstup signálu od šumu v nahrávaném řečovém signálu [1, 4]. V tomto příspěvku jsou popsány výsledky analýz řečových parametrů na databázi CLSD [5], která byla nahrána přímo za účelem analýzy a modelování LE.
2.
Popis databáze CLSD
CLSD obsahuje nahrávky neutrální řeči a řeči produkované v různých typech simulovaného hlučného prostředí (hluky z kabiny jedoucího automobilu vybrané z databáze CAR2E [6], umělé pásmové šumy). Pro účely nahrávání Lombardovy řeči byla obvyklá konfigurace, při které je hluk pouštěn do sluchátek mluvčího, rozšířena o přítomnost operátora, který slyší ve sluchátkách stejný hluk smíchaný s hlasem mluvčího. Intenzita hlasu mluvčího v odposlechu operátora je snížena o úroveň odpovídající zvolené virtuální vzdálenosti mluvčího a operátora. V případě, že operátor nerozumí promluvě, vyzve mluvčího k zopakování položky.
Tato konfigurace motivovala mluvčí, aby se snažili docílit srozumitelnosti promluv. Ve většině případů byla volena virtuální vzdálenost 3 m a úroveň hluku 90 dB SPL. V současné době CLSD obsahuje nahrávky od 26 mluvčích, kde každý se zúčastnil nahrávání v neutrálních i Lombardových podmínkách. Promluvy byly snímány close-talk a hands-free mikrofonem. Dále prezentované analýzy byly prováděny na signálech z close-talk mikrofonu.
3.
Analýzy
Abychom mohli posoudit míru zastoupení LE v databázi CLSD, byly analyzovány parametry, které jsou jím obvykle znatelně ovlivňovány, a to SNR (intenzita hlasu), změny v rozložení základního řečového tónu (f0), pozice a šířky prvních čtyř formantových laloků, průměrné délky fonémů a slov a úspěšnost při rozpoznávání číslovek [7]. 3.1
Rozložení SNR
V některých případech je nutné v průběhu nahrávání měnit citlivost mikrofonního předzesilovače, aby byl efektivně využit dynamický rozsah vstupního převodníku, tj. abychom se vyhnuli nedostatečnému vybuzení resp. přebuzení vstupního signálu při výrazných změnách hlasové intenzity mluvčího. To má za následek, že hlasovou intenzitu nelze odhadovat přímo z amplitudy signálu. Pokud ovšem můžeme hluk okolí považovat za stacionární, relativní změny hlasové intenzity mohou být odhadovány přímo z průběhu SNR. Navíc, pokud bychom znali absolutní úroveň okolního hluku, můžeme odhadnout i absolutní hlasovou intenzitu. Jelikož všechny nahrávky v CLSD byly nahrávány v kanceláři s prakticky konstantní hladinu hluku a na úrovni jednotlivých mluvčí nedocházelo ke změně pozice nahrávání, hluk zde lze považovat za téměř stacionární. Jeho absolutní hladina však nebyla v průběhu nahrávání měřena. Pro potřeby analýz bylo určováno tzv. segmentální SNR [8, 9]. CLSD Channel SNR Histograms
1600 1400 Number of Utterances
1200 1000 800
Close-talk Clean Hands-free Clean Close-talk LE Hands-free LE
600 400 200 0 -10
10
30 SNR (dB)
50
70
Obrázek 1: Rozložení SNR v kanálech CLSD Jak je patrné z obrázku 1, kde Clean v legendě značí neutrální promluvy a LE promluvy v simulovaném hluku, u Lombardových promluv dochází k výraznému nárůstu průměrné hlasové intenzity. Průměrné SNR close-talk kanálu se v tomto případě pohybuje okolo 50 dB, u neutrálních nahrávek okolo 30 dB, je tedy zaručeno, že analyzované řečové parametry a rozpoznávací experimenty nebudou narušeny přítomností hluku.
3.2
Základní řečový kmitočet
Průběh f0 byl analyzován v systému WaveSurfer [10]. Detekce byla prováděna ve všech znělých úsecích neutrálních a Lombardových promluv. Na obrázku 2 indexy ‘F’ a ‘M’ představují ženské a mužské mluvčí. 6
Number of Frames (x 10 000)
CLSD - Fundamental Frequency Distribution 5
4
Clean_F LE_F Clean_M LE_M
3
2
1
0 70
120
170
220
270
320
370
420
470
520
570
Frequency (Hz)
Obrázek 2: Rozložení f0 Spojitá čára s maximem na nižší frekvenci představuje rozložení mužského f0 a spojitá čára s maximem na vyšší frekvenci rozložení ženského f0 v neutrální řeči, čárkované čáry pak rozložení v Lombardově řeči. Je patrné, že při Lombardově řeči dochází v CLSD k výraznému posuvu rozložení f0 směrem k vyšším frekvencím. Maximum rozložení mužského f0 se při LE posouvá výše než je maximum f0 neutrální ženské řeči, maximum ženského f0 se pak posouvá do oblasti typického výskytu prvního formantu, což může mít výrazný negativní dopad na úspěšnost rozpoznávání, jak bude ukázáno dále. 3.3
Formanty
Analýza formantů byla prováděna také v systému WaveSurfer. Monofónový rozpoznávač [11] natrénovaný na 70 mluvčích z databáze SPEECON byl použit pro automatické zarovnání pozic fonémů. Pro detekci pozic formantů bylo použito LPC 12. řádu. Informace o pozicích a šířkách pásem prvních čtyř formantů byly přiřazeny odpovídajícím fonémům. Na obrázku 3 jsou ukázány průměrné pozice prvních dvou formantů vybraných samohlásek v číslovkách. 2400
2400
CLSD - Male Vowel Formants
2200
2200 /i/
1800
/e/
/e'/
1600 1400 1200
/u/ 1000 300
/o/ 500
600 F1 (Hz)
1800
700
/a'/
1600
1200
/o'/ 800
900
/e'/ /e/
/a/
1400
/a'/
/a/
/u'/
400
/i'/
2000
/i'/
F2 (Hz)
F2 (Hz)
2000
CLSD - Female Vowel Formants
/i/
1000 300
/o'/
/u'/ /o/
/u/ 400
500
600 F1 (Hz)
700
Obrázek 3: Pozice formantů vybraných samohlásek v číslovkách
800
900
Plnou čarou jsou spojeny formantové pozice samohlásek v neutrálních promluvách a čárkovanou v Lombardových promluvách. Jak u mužských, tak u ženských mluvčích je patrný výrazný posun pozic prvních dvou formantů při Lombardově řeči. U 3. a 4. formantu již změny nebyly tak systematické, proto zde nejsou uvedeny. Také výrazné posuvy šířky pásma prvního formantu byly pozorovány u některých samohlásek v číslovkách. ‘B1M,F’ značí šířku pásma prvního formantu u mužských resp. ženských mluvčích, σ značí odpovídající směrodatnou odchylku. Sloupce kurzívou značí Lombardovu řeč.
Hláska B1M (Hz) σM (Hz) B1M (Hz) σM (Hz) B1F (Hz) σF (Hz) /a/ 88 85 59 269 152 232 /e/ 94 73 44 168 99 169 /i/ 125 53 132 52 108 52 /o/ 88 91 81 239 157 246 /u/ 134 67 95 142 81 209
B1F (Hz) 171 130 133 158 148
σF (Hz) 68 49 58 62 66
Tabulka 1: Ukázka změn šířky pásma prvního formantu při LE 3.4 Délky formantů Automatické zarovnávání fonémů bylo použito také pro analýzu změn průměrných délek hlásek při Lombardově řeči. Jelikož typická délka fonému závisí slovu, ve kterém se foném nachází, srovnání bylo provedeno na úrovni jednotlivých slov. Průměrné délky fonémů a směrodatné odchylky byly určovány pro promluvy obsahující číslice. Rozdíl v délce trvání fonému ve stejném slově vysloveném v Lombardových a neutrálních podmínkách je určen
∆=
TC 2 − TC1 ⋅100 (%), TC1
(1)
kde TCx představuje průměrnou dobu trvání fonému v podmínkách x. Slovo Jedna Dvje Čtiri Pjet Sedm Osm Devjet
Foném /e/ /e/ /r/ /e/ /e/ /o/ /e/
#N 583 586 35 555 358 310 609
# LE 939 976 241 909 583 305 932
TN (s) 0.031 0.087 0.041 0.056 0.080 0.086 0.043
σTn (%) TLE (s) σTle (%) 3.39 0.082 17.73 7.12 0.196 15.84 3.00 0.089 12.92 4.44 0.154 11.48 7.49 0.179 19.93 3.07 0.203 27.68 3.22 0.120 12.97
∆ (%) 161.35 126.98 115.92 173.71 122.46 135.25 177.20
Tabulka 2: Změny délek fonémů při LE U řady fonémů v CLSD byly pozorovány systematické změny délek trvání, v některých případech docházelo ke zkracování, v jiných k prodlužování. Změny délek překračující 100 % jsou ukázány v tabulce 2. ‘# N’ a ‘# L’ značí počet analyzovaných neutrálních a Lombardových číslovek.
3.5 Délky slov
Změny délek slov byly pozorovány, ale nedosahovaly zdaleka úrovně změn u fonémů. Je to způsobeno tím, že zatímco délky některých fonémů se při LE zkracují, délky jiných se prodlužují, takže ve výsledné délce slova se tyto změny navzájem často téměř vyruší. ∆ byla určována podle rovnice (1), T zde reprezentuje délku slova. Slovo Nula Jedna Dvje
#N 497 583 586
TN (s) σTn (%) # LE 0,397 10,94 802 0,441 12,78 939 0,365 11,39 976
TLE (s) σTle (%) 0,476 15,67 0,527 16,52 0,423 13,82
∆ (%) 19,87 19,56 15,87
Tabulka 3: Změny délek slov 3.6
Rozpoznávání číslovek
Abychom získali představu, jaký mají změny analyzovaných řečových parametrů dopad jako celek na úspěšnost neutrálního rozpoznávače, na závěr bylo provedeno rozpoznávání číslovek. Použit byl rozpoznávač zmíněný v odstavci 3.3. Testovací data byla tvořena promluvami obsahujícími izolované, opakované a opakované vázané číslovky. V tabulce 4 jsou shrnuty výsledky rozpoznávání, WRR značí úspěšnost rozpoznávání na úrovni slov (Word Recognition Rate). Typ dat Počet mluvčích Počet číslovek WRR
Neutral F 12 4930 92.70%
Neutral M 14 1423 96.20%
LE F 12 5360 57.18%
LE M 14 6303 83.71%
Tabulka 4: Úspěšnost rozpoznávání číslovek Jelikož u mužů a žen dochází k rozdílnému posunu v řečových parametrech, úspěšnost rozpoznávání byla testována odděleně. U mužů došlo k poklesu úspěšnosti o 13,5 %, u žen o 35,5 %. Výrazně vyšší pokles u žen lze vysvětlit pozorovaným posuvem maxima rozdělení f0 do oblasti typického výskytu prvního formantu, a dále posunem prvních dvou formantů do oblastí, ve kterých se v trénovacích datech nikdy nevyskytovaly.
4.
Závěr
V příspěvku byly prezentovány výsledky analýz řečových parametrů na databázi CLSD. U promluv s LE byly pozorovány výrazné změny hlasové intenzity, rozložení f0, polohy a šířky pásma prvních dvou formantů a délek fonémů. U 3. a 4. formantu k systematickým změnám nedocházelo. Délky slov při LE zůstávaly prakticky stejné, což je způsobeno faktem, že délky některých fonémů se zkracují a u jiných prodlužují. Na závěr bylo provedeno rozpoznávání na číslovkách. U mužů klesla úspěšnost o 13,5 %, u žen o 35, 5 %. Výraznější zhoršení u žen je zřejmě způsobeno posunem f0 a prvních formantů do oblastí, které nebyly pokryty v trénovaní množině dat rozpoznávače. Je patrné, že v CLSD je LE silně zastoupen a databáze je tedy vhodná pro jeho analýzu a modelování.
5.
Poděkování
Teoretická část práce vznikla za podpory grantu GAČR 102/05/0278 „Nové směry ve výzkumu a využití hlasových technologií“, sběr dat byl podpořen grantem GAČR 102/03/H085 „Modelování biologických a řečových signálů“ a výzkumným záměrem MSM 6840770014 „Výzkum perspektivních informačních a komunikačních technologií“.
Reference [1]
Hansen, J. H. L.: Analysis and Compensation of Speech under Stress and Noise for Environmental Robustness in Speech Recognition. Speech Communications, Special Issue on Speech under Stress, November 1996, 20(2):151-170
[2]
Womack, B. D., Hansen, J. H. L.: Classification of Speech under Stress Using Target Driven Features. Speech Communications, Special Issue on Speech under Stress, November 1996, 20(1-2):131-150
[3]
Bořil, H.: Recognition of Speech under Lombard Effect. Proc. 14th Czech-German Workshop on Speech Processing, Prague, Czech Republic, 2004, 110 – 113
[4]
Chi, S. M., Oh, Y. H.: Lombard Effect Compensation and Noise Suppression for Noisy Lombard Speech Recognition. Proc. ICSLP '96, Philadelphia, 1996, 4:20132016
[5]
Bořil, H., Pollák, P.: Design and Collection of Czech Lombard Speech Database. INTERSPEECH-05, Lisboa, Portugal, 2005, 1577-1580
[6]
Pollák, P., Vopička, J., Sovka, P.: Czech Language Database of Car Speech and Environmental Noise. EUROSPEECH-99, Budapest, Hungary 1999, 5:2263-6
[7]
Bořil, H., Pollák, P.: Comparison of Three Czech Speech Databases from the Standpoint of Lombard Effect Appearance. Proc. ASIDE 2005, COST278 Final Workshop and ISCA Tutorial and Research Workshop, 10-11 November 2005, Aalborg, Denmark, [CD-ROM]
[8]
Pollák, P.: Efficient and Reliable Measurement and Evaluation of Noisy Speech Background. Proc. 11th European Signal Processing Conference – EUSIPCO, Toulouse, 2002.
[9]
Vondrášek, M., Pollák, P.: Methods for Speech SNR Estimation: Evaluation Tool and Analysis of VAD Dependency. Radioengineering, 2005, 14(1):6-11,
[10]
Sjölander, K., Beskow, J.: WaveSurfer - an Open Source Speech Tool. Proc. ICSLP 2000, Bejing, China 2000.
[11]
Young, S. et al: The HTK Book ver. 2.2. Entropic Ltd 1999.