Akusticko - fonetické charakteristiky neplynulých promluv Petr Bergl České vysoké učení technické v Praze, Fakulta elektrotechnická
[email protected] 31. října 2007 Abstrakt: Tento příspěvek popisuje základní analýzy akusticko – fonetických parametrů, které byly vyhodnoceny pro část databáze koktavých jedinců. Tyto parametry jsou porovnány s výsledky pro plynule hovořící mluvčí. Srovnáván je poměr ticho/řeč (za použití SVM klasifikátoru jako detektoru řečové aktivity), dále obsazení úrovní intenzity a energetická obálka signálu. Na závěr je popsán souhrnný parametr odvozený z výše zmíněných.
1.
Úvod
Mezi nejčastější poruchy plynulosti řeči patří brebtavost a koktavost. Brebtavost je charakteristická překotným tempem řeči, náhlými lokálními změnami rychlosti a rytmu. V důsledku toho se stává řeč těžko srozumitelnou. Koktavost (balbuties) se projevuje opakováním určitých hlásek či slabik (repetice), prodlužováním hlásek (prolongace), četnými pauzami apod. Důležitý rozdíl mezi těmito onemocněními je ten, že brebtaví si svoji poruchu neuvědomují. Naopak koktaví si jsou své poruchy dobře vědomi. S tím spojený stres pak může vést až ke strachu z mluvení (logofobie). Problémem při léčbě koktavosti je objektivní stanovení její vážnosti. Tu popisuje např. Youngův index : Nnepl , (1) IY = 100 · Nslov kde Nnepl je počet neplynulostí a Nslov je počet slov. Existují též subjektivní škály, např. Rileyho škála (viz [1]) definuje pro konkrétní příznak 6 stupňů: • 0 – neprojevuje se; • 1 – je nepostřehnutelný, pokud se nezačne hledat; • 2 – náhodným posluchačům je nepostřehnutelný; • 3 – uvádí posluchače do rozpaků; • 4 – velmi rozptyluje; • 5 – úporný a těžký.
Určení těchto indexů vyžaduje posouzení specialistou – foniatrem. Výsledek tohoto soudu však může být subjektivní, výsledné indexy se mohou mezi foniatry lišit. Při posuzování pokroků léčby více lékaři by se tak teoreticky mohlo stát, že nebude správně pozorováno zlepšení či zhoršení neplynulosti. Metoda, která by automaticky a hlavně objektivně určila vážnost poruchy řeči, by byla velkým přínosem. Umožnila by zejména určení tíže poruchy (jakousi „absolutní hodnotuÿ), dále hodnocení výsledků léčby a porovnání efektivnosti a účinnosti léčebného postupu s jiným léčebným postupem. Dle mého názoru jsou možné dva základní přístupy k vyvinutí takové metody: 1) Automatické zaměření všech neplynulostí (repetic, prolongací atd.). 2) Definice parametrů obecně charakterizujících plynulost řeči (např. poměr ticho/řeč). Odchylky těchto parametrů od „normyÿ by byly ukazatelem onemocnění. Tato práce se zabývá druhou možností, v následujících kapitolkách se seznámíme s několika akusticko – fonetickými charakteristikami a porovnáme je mezi zdravými a koktavými jedinci.
2.
Signály a jejich charakteristiky
2.1.
Databáze signálů
Základem výzkumu je databáze obsahující signály od cca 160 mluvčích s různou vážností poruchy plynulosti řeči, k dispozici máme také promluvy kontrolních zdravých jedinců. Databáze obsahuje jak čtený1 tak volně formulovaný text. Text pochází z Babičky od Boženy Němcové: Podzim na starém bělidle V okolí starého bělidla začínalo být smutno a ticho. Les byl světlejší, stráň žloutla, vítr a vlny odnášely chomáče starého listí bůh ví kam. Ozdoba sadu uschována byla v komoře. V zahrádce kvetla astra, měsíčky a umrlčí kvítky. Na louce za splavem růžověly se naháčky a v noci prováděla tam světélka svoje rejdy. Když babička šla s dětmi na procházku, nezapomněli chlapci na papírové draky, které pak na vrchu pouštěli. 2.2.
Klasifikátor SVM
V dalším textu se zmíníme o klasifikátoru SVM (Support Vector Machine). Ten rozděluje lineárně separabilní data ideální nadrovinou, tj. nadrovinou, která má od trénovacích vzorů největší vzdálenost (největší margin). Tím minimalizuje chybu na datech skutečných. S nelineárně separabilními daty si SVM poradí použitím kernel funkcí, v našem případě RBF (Radial Basis Function). Případnou neseparabilitu dat řeší zavedením relaxačních proměnných, které jsou nulové pro správně klasifikované vzory, nenulové pro špatně klasifikované. Minimalizací sumy relaxačních proměnných se zaručí vhodný průběh nadroviny. Pro účely této práce však stačí SVM chápat jako nástroj, na jehož vstup přivedeme parametry krátkého úseku signálu (např. energii, počet průchodů nulou), a na jejímž výstupu obdržíme 0 či 1 (ticho vs. řeč apod.). 2.3.
Zkoumané charakteristiky
Všechny následující charakteristiky jsou zkoumány na 9 pacientech s poměrně vážnou poruchou plynulosti řeči a na 9 kontrolních zdravých jedincích. Zkoumán je čtený text „Podzim na starém bělidleÿ. 1
U všech jedinců, co umí číst (účastníky jsou i velmi malé děti).
Obrázek 1: Histogramy pro délky intervalů řeči resp. ticha.
Obrázek 2: Hodnoty poměru ticho/řeč pro 18 jedinců. 2.3.1.
Poměr ticho – řeč
V promluvách pěti zdravých jedinců byly označeny úseky ticho – řeč. Poté byly signály segmentovány s pevnou délkou okna L = 50 ms a překryvem 23 3L. Pro každý segment byly určeny následující parametry2 : počet průchodů nulou vztažený k délce segmentu; logaritmus energie úseku; první lpc koeficient; logaritmus energie chyby predikce; korelační koeficient; první a druhý spektrální moment; pět maxim segmentu, přičemž první je maximem v první pětině segmentu, druhé je maximem v druhé pětině segmentu atd. Pro 4 promluvy byl natrénován SVM klasifikátor. Úspěšnost na testovacích datech (pátá promluva) byla přes 90%. S tímto natrénováním byly klasifikovány všechny promluvy (zdravých i koktavých). Z výsledků byla spočítána délka každého intervalu řeči, resp. ticha. Četnosti délek vyneseme do histogramů, viz obr. 1, přičemž všechny četnosti byly normovány celkovým počtem úseků dané promluvy (ten je u koktavých podstatně vyšší). Přerušovanou čarou jsou vždy vykresleny hodnoty pro zdravé, plnou pro nemocné jedince. Všimněme si následujících vlastností: 1) intervaly řeči u zdravých jsou delší, typicky nad 1.5 s; 2) intervaly ticha mezi 0.5 − 1 s jsou u zdravých méně četné. Na obr. 2 je vynesen poměr ticho/řeč pro všech 18 účastníků této studie. Pro kontrolní (zdravé) mluvčí vychází v rozmezí od 0.1 do 0.35. Pro koktavé je v rozmezí od 0.3 do 1.5. 2
Více o některých parametrech viz [3].
Obrázek 3: Histogramy obsazení úrovní intenzity. Vlevo: Průměrné hodnoty. Vpravo: Histogramy všech „přes sebeÿ. Detail „úpatíÿ, tj. hodnot kolem nuly. K překryvu hodnot dochází jen pro jednoho jedince. Tento výsledek jistě není překvapující. Dá se předpokládat, že promluvy neplynule hovořících osob obsahují více ticha. 2.3.2.
Obsazení úrovní intenzity
Pokud zdravý jedinec čte, poměrně rovnoměrně využívá hladiny intenzity zvuku, tj. při čtení nekřičí, na slova nedává přehnaný důraz apod. Oproti tomu koktaví často při vyslovování vyvíjejí větší snahu, kladou větší důraz na počátky slov apod. To by se mělo projevit rozdíly v obsazení jednotlivých úrovní intenzity (tj. v amplitudách vzorků řečového signálu). Signály nejdříve zbavíme střední hodnoty a normujeme. Hodnoty vzorků se tak budou pohybovat od −1 do +1. Poté definujeme 200 intervalů, v nichž se mohou pohybovat, tj. od −1 do +1 s krokem 0.01. Pro každý interval spočteme jeho obsazení, tj. kolik vzorků do něj spadá. Výsledky vydělíme počtem vzorků (délkou signálu), obdržíme relativní četnosti vynesené do histogramů na obr. 3. Na levém obrázku nalezneme průměrné hodnoty pro všechny signály. Je zřejmé, že pro kontrolní promluvy jsou úrovně obsazeny rovnoměrněji. Na pravém obrázku jsou histogramy vykreslené přes sebe (je vyobrazen jen detail „úpatíÿ). Zde můžeme pozorovat, že v „přihrádkáchÿ kolem hodnoty −0.05 jsou všechny četnosti pro zdravé jedince větší než četnosti jedinců postižených poruchou plynulosti řeči. Četnost v tomto binu by se tedy dala použít jako klasifikátor zdravých vs. koktavých jedinců. 2.3.3.
Analýza energetické obálky
Nyní se budeme zajímat o energetickou obálku promluv. Signál normujeme, zbavíme stejnosměrné složky a každý vzorek umocníme na druhou. Výsledné vzorky přivedeme na vstup integrátoru, čímž obdržíme energetickou obálku promluvy. Dále stanovíme práh p, na jehož základě určíme náběžné hrany obálky. Ukázku pro p = 0.4 nalezneme na obr. 4 vlevo. Pro danou hodnotu prahu představuje průměrný počet náběžných hran za jednu sekundu parametr, jež budeme zkoumat. Přesněji řečeno jeho rozdílnost mezi mluvčími trpícími koktavostí a mluvčími kontrolními. Je zřejmé, že tento parametr bude značně závislý na volbě prahu p. Průměrný počet náběžných hran pro hodnoty p od 0.05 do 0.95 je vyobrazen na obr. 4 vpravo. Silná plná čára reprezentuje průměr pro koktavé, přerušovaná čára pro kontrolní jedince. Tenkými plnými čarami je zobrazen interval vymezený směrodatnou odchylkou. Za pozornost stojí výsledky pro p = 0.1, kde je průnik oblastí pro obě skupiny prázdný. Průměrný počet náběžných hran za jednu sekundu s prahem p = 0.1 mů-
Obrázek 4: Vlevo: Signál, jeho energetická obálka a její náběžné hrany pro práh 0.4. Vpravo: Průměrný počet náběžných hran energetické obálky za sekundu pro různé hodnoty prahu p (vyobrazeny výsledky pro koktavé a kontrolní jedince spolu se směrodatnými odchylkami). žeme tedy považovat za parametr schopný rozlišovat patologii promluvy (obecná platnost tohoto závěru samozřejmě musí být ještě ověřena na větší části databáze). Za zmínku stojí fakt, že velmi podobné závěry lze učinit, pokud energetickou obálku nahradíme její derivací. 2.4.
Souhrn parametrů
V předchozích odstavcích jsme definovali několik jednoduchých parametrů. Nyní pro každý signál dáme tyto parametry „dohromadyÿ a signál budeme reprezentovat jediným číslem. Nejdříve jednoznačně stanovme uvažované charakteristiky: • poměr ticho řeč; • obsazení úrovní intenzity, konkrétně hodnoty pro biny ±0.05; • průměrný počet náběžných hran energetické obálky za jednu sekundu s prahem p = 0.1; • průměrný počet náběžných hran derivace energetické obálky za jednu sekundu s prahem p = 0.1. Tento výčet představuje pět čísel pro každý signál. Tato čísla transformujme tak, aby jejich vysoká hodnota byla ukazatelem patologie. Tak je tomu např. u poměru ticho řeč, u obsazení úrovní intenzity je tomu naopak. Dále provedeme normalizaci do rozpětí od nuly do jedné. Poté velmi snadno vypočteme jakousi průměrnou známku, danou průměrem transformovaných a normovaných hodnot. Z obr. 5 je zjevné, že známka je pro všechny kontrolní jedince (signály 1 − 9) menší než pro jedince koktavé (signály 10 − 18).
3.
Závěr
Se záznamy 9 zdravých a 9 koktavých jedinců byly provedeny tři jednoduché pokusy. V prvním byl použit klasifikátor SVM pro detekci řeč–ticho. Bylo zjištěno, že poměr ticho/řeč je u koktavých vyšší. Tento závěr je naprostou samožřejmostí, řeč koktavých zjevně obsahuje více pauz.
Obrázek 5: Průměrná známka, signály 1−9 jsou kontrolní, signály 10−18 jsou pro koktavé jedince. Další experiment zkoumal obsazení úrovní intenzity. Pro hodnoty intenzity kolem −0, 05 jsou relativní četnosti všech zdravých větší než četnosti všech jedinců postižených poruchou plynulosti řeči. Zde je však nutné podotknout, že pracovat s intenzitou zvukového signálu je věc ošidná, signály musejí být zkontrolovány, zda se v průběhu nahrávání intenzita nemění vlivem pohybu mluvčího (nahrávky byly pořízeny s pevným mikrofonem), změnami nastavení zesilovače apod. Poslední pokus zkoumal průměrný počet náběžných hran energetické obálky za jednu sekundu. Bylo ukázáno, že pro správně nastavený práh je tento parametr schopen poukázat na patologii v signálu. Závěrem uveďme, že pokud z výše zmíněných charakteristik vygenerujeme jednu souhrnnou, tvoří její hodnoty pro kontrolní a pro koktavé jedince disjunktní množiny.
Poděkování Děkuji MUDr. M. Hrbkové a Dr.Ing. J. Vokřálovi z Foniatrické kliniky 1.LF UK a VFN za poskytnutí signálů. Tento výzkum byl podporován z grantů GAČR 102/03/H085 ‘Modelování biologických a řečových signálů’, IGA MZ ČR NR 8287-3/2005, ‘Počítačová analýza řečového projevu a celonočních EEG záznamů u dětí’ resp. výzkumného záměru MŠMT MSM6840770012 ‘Transdisciplinární výzkum v biomedicínckém inženýrství 2’.
Reference [1] M. Lašťovka, J. Vokřál, L. Černý, K. Radilová, M. Hrdličková, Hodnocení tíže poruchy plynulosti řeči pomocí neuronových sítí, Závěrečná zpráva grantu 237/1998/C/1.LF [2] J.Psutka, Komunikace s počítačem mluvenou řečí, Academia, Praha, 1995 [3] Bishnu S. Atal, L.R. Rabinier, A Pattern Recognition Approach to Voiced–UnvoicedSilence Classification with Application to Speech Recognition, IEEE Transactions on Acoustics, 1976.