Detekce nádechů v řečovém signálu Roman Čmejla, Jan Rusz, Jan Hlavnička Semestrální práce, Biologické signály, 2016 Katedra teorie obvodů, Fakulta Elektrotechnická, ČVUT v Praze email: [cmejla, ruszjan, hlavnjan]@fel.cvut.cz Účelem semestrální práce v rámci předmětu biologické signály je osvojení si základních principů a metod zpracování signálů a jejich aplikace na praktické úloze z této oblasti. Cílem této práce je návrh automatického offline algoritmu pro detekci nádechů v řečovém signálu. Pro účely trénování algoritmu jsou k dispozici řečové signály čteného textu o přibližné délce trvání méně než jedné minuty. Tyto signály jsou částečně pořízeny u zdravých osob, ale také u pacientů s poruchami řeči označovanými jako dysartrie. Stejně jako v reálné praxi je možné pro implementaci algoritmu využít všech dostupných metod. V rámci řešení mohou být použity techniky probírané během předmětu biologické signály včetně jakýchkoliv jiných dostupných či vlastních metod.
1. Úvod Poruchy komunikačních schopností mají silně negativní efekt na náš každodenní život v sociální i pracovní oblasti. Cena zdravotnické péče zároveň se zhoršením uplatnitelnosti na trhu práce pro lidi s řečovými poruchami má zásadní dopad na národní ekonomiku. Tyto okolnosti indikují, že poruchy komunikace jsou jedním z největších medicínských úkolů vědy a vývoje 21. století (Ruben 2000). Řeč je významným ukazatelem motorických funkcí a pohybové koordinace a zároveň je extrémně citlivá k postižení centrální nervové soustavy (Duffy 2005). Parkinsonova nemoc je běžně se vyskytující neurodegenerativní onemocnění s prevalencí 2 ze 100 lidí nad 60 let věku, které přímo souvisí s úbytkem nervových buněk tvořících dopamin v části mozku zvané Substantia nigra, která je součástí komplexu zvaných basální ganglia (Hornykiewicz et al. 2008). Stejně tak i Huntingtonova nemoc je poruchou basálních ganglií, ale jedná se o chorobu s autosomálně dominantním typem dědičnosti, která se objevuje nejčastěji ve středním věku (Kremer et al. 1994). Obě tyto nemoci se projevují motorickými příznaky, jako jsou např. třes, ztuhlost, zpomalenost, poruchy stoje a chůze, mimovolní pohyby končetin, ale také poruchami řeči. Včasná diagnóza těchto onemocnění je zásadní pro vývoj léčiv a zlepšení kvality života takto postižených jedinců. Jedním z důležitých aspektů řeči, které mohou být u Parkinsonovy nemoci postiženy je zhoršení respirace, kdy dochází k rigiditě dýchacího svalstva a snížení volní kontroly dechu k syntaktickým, artikulačním a fonačním potřebám řečového projevu (Goberman & Coelho 2002). Zhoršení respirace by mohlo být jedním z průvodních poruch řeči u Parkinsonovy nemoci (Critchley 1981). Také Huntingtonova nemoc nepříznivě ovlivňuje dýchací aparát, přičemž dochází k náhlým, neuvědomělým, forsírovaným respiracím doprovázených hlasitým šumem (Duffy 2005). Nejčastější příčinou úmrtí pacientů Huntingtonovy nemoci jsou právě respirační komplikace (Myers et
al. 1988), typicky zápal plic po vdechnutí jídla (Heemskerk and Roos 2012). Měření charakteristik řeči má obrovský potenciál nejen k odhalení neurologických onemocnění (Duffy 2005). Další obecnou motivací měření nádechů v řeči je například sledování účinků léčby či zpětná vazba při terapii a léčbě hlasu, kdy pacient nebo terapeut může objektivně zaznamenat i nepatrné změny v kvalitě projevu. Samotné technické řešení hodnocení hlasu, kdy je signál snímán neinvazivně pomocí mikrofonu a následně automaticky vyhodnocen, je velkým stimulem do budoucna pro vývoj i uplatňování těchto technologií. Automatizace hodnocení nádechů v řeči může přispět nejen samotné klinické praxi, ale i vylepšit současné technologie zpracování hlasu (Novotny et al. 2014; Rusz et al. 2015). Automatickým hodnocením respirací se již proto v minulosti zabývala studie Castilllo-Guerra & Lee (2008). Cílem této semestrální práce je navržení jednoduchého algoritmu pro vyhledávání respirací ve čteném textu. Pro zjednodušení řešení semestrální práce je cílem pouze detekce jakékoliv pozice v pauze, která obsahuje nádech.
2. Metody 2.1. Data V rámci řešení semestrální práce je k dispozici sada trénovacích dat. Trénovací data představují 35 čtených promluv úryvku textu ze sbírky Karla Čapka (viz Appendix A). Data jsou složená ze zvukových signálů formátu *.wav s vzorkovacím kmitočtem fs = 48 000 Hz. Ke každému zvukovému souboru náleží také soubor *.txt (matice rozměru N×3), kde: 1. sloupec určuje začátek intervalu pauzy/nádechu, 2. sloupec určuje konec intervalu pauzy/nádechu, 3. sloupec určuje, zda se jedná o pauzu nebo respiraci (hodnoty 1 a 2 znamenají pauzu, hodnoty B a 4 respiraci). Data se dále dělí na promluvy získané od tří skupin osob. První skupina obsahuje promluvy zdravých jedinců (HCxxxb.wav), druhá skupina promluvy pacientů s Par-
kinsonovou nemocí (PNxxxb.wav) a třetí skupina promluvy pacientů s Huntingtonovou nemocí (HNxxxb.wav).
tolerancí. K dispozici máte ke každé nahrávce ruční labely s přesnými pozicemi pauz a respirací.
2.2. Detekce Jak již bylo zmíněno v úvodu, cílem semestrální práce je detekce pauz obsahujících nádech v řečovém signálu. K samotnému řešení je možné použít jakékoliv dostupné metodiky. Užitečné Vám budou zejména metody, které jste si mohli osvojit během vypracovávání jednotlivých prací na cvičeních. Mezi základní pojmy spjaté s řešením semestrální práce (resp. řešitel by měl být s těmito technikami obeznámen před zahájením řešení) patří: práce s maticemi, jednoduché cykly, filtrace, diference, integrace, hledání v polích, detekce maxim, základní statistické operace (např. střední hodnota, směrodatná odchylka), spektrum, výkonové spektrum, spektrogram, obálka signálu, autokorelace a počet průchodů nulou. Například řečový signál může být spojován s větším počtem průchodů nulou. Znělost řeči může být také dobře reprezentována autokorelační funkcí. V rámci řešení semestrální práce je možno také využít některých pokročilejších technik (viz Apendix B), a nebo se inspirovat již z předešlých dokumentovaných řešení pro detekci pauz (O’Sgaughnessy et al. 2000: Audhskhasi et al. 2009; De Looze and Rauzy 2009; Rosen et al. 2010) či již přímo pro detekci respirací (Castilllo-Guerra & Lee (2008). Využití pokročilejších technik zpracování signálu je však čistě volitelné.
2.3. Testování Cílem řešení je navrhnout funkci: function out = respiration_detector(signal, fs),
kde vstupem signálu je zvukový signál “signal” a vzorkovací frekvence “fs” a výstupem této funkce je matice rozměru N×1, tedy označené pozice pauz obsahující respiraci (sekundy). K dispozici budete mít také testovací soubor test_respiration_detector.p, se kterým si můžete otestovat přesnost svého vlastnoručně navrženého algoritmu. Ten spolu s vlastní funkcí vložte do stejné složky. Trénovacím datům je vyhrazen podadresář (*/database) obsahující jak signály (*.wav), tak labely (*.txt). Spuštěním testovacího souboru se pak provede automatický test přesnosti. K dispozici dostanete trénovací množinu dat 35 nahrávek (10 pacientů s Parkinsonovou nemocí, 11 pacientů s Huntingtonovou nemocí a 14 zdravých kontrol). Váš algoritmus bude ale testován na jiné „testovací“ množině o stejném počtu nahrávek a skupin. Tento postup se provádí zejména proto, aby se reálně ověřila skutečná robustnost algoritmu, který může být jinak vyladěn „nevhodnými (tzv. bulharskými) konstantami“ tak, aby dával co nejlepší výsledek. Cílem semestrální práce je detekovat pozice pauz obsahující respirace (ukázky viz. obr. 1 a 2). Pro usnadnění je cílem práce detekovat jakoukoliv časovou pozici v oblasti pauzy, pokud obsahuje respiraci, tzn. s relativně vysokou
Obr. 1. Ukázka notace labelů. Respirace (značení B) se nachází v časovém rozmezí 6,983−7,194 s. Cílem je detekovat jakoukoliv časovou pozici v pauze (značení 1) v časovém rozmezí 6,664−7,341s. Hodnocení úspěšnosti bude provedeno pomocí F-score
precision recall , precision recall TP precision , TP FP TP recall , TP FN
F 2
kde true positive (TP) je počet správně detekovaných pozic pauz s respirací, false positive (FP) je počet nadbytečných detekcí, a false negative (FN) je počet chybějících detekcí pozic pauz s respirací. V intervalu jedné pauzy bude pro účely hodnocení uvažována pouze jedna možná detekce, přičemž veškeré další detekce budou označeny jako FP.
3. Hodnocení Semestrální práce musí být vypracována samostatně! V případě nalezení plagiátu nebude umožněno ukončení předmětu. Existuje nekonečně mnoho možností, jak tuto semestrální práci vyřešit. Je tedy téměř nemožné, aby byl u dvou studentů nalezen principiálně naprosto stejný postup.
3.1. Odevzdávání prací Práce budou odevzdávány elektronicky primárně na email
[email protected] (kopie
[email protected]). Výsledky Vám budou sděleny obratem nebo v brzké době po odeslání. V případě odevzdávání těsně před stanoveným deadline se dozvíte výsledky až na zkoušce. Pozor, před finálním odesláním je nutné zkontrolovat, zda algoritmus (navržená funkce) proběhne přes výše zmíněný testovací soubor na všech testovacích datech, které máte k dispozici. Chyba může nastat, pokud k trénování svého algoritmu používáte pouze několik vybraných souborů – u
ostatních souborů pak může dojít k přetečení a nebude
kvalita popisu Vaší metodiky, ale také originalita navrže-
Obr. 2: Ukázka výřezu promluvy v programu Praat s oblastí signálu řeči (zeleně), oblastí pauzy s respirací (modře) a oblastí respirace (červeně). Cílem práce je detekovat jakoukoliv časovou pozici v oblasti pauzy (modrá oblast), pokud obsahuje respiraci. Ve spektrogramu lze vidět, že oblast pauzy bez respirace (tzn. ticha) nemá výrazné energie, zatímco oblast respirace se projevuje výrazným nárůstem energie kolem 1550 Hz. možné vyhodnotit přesnost Vašeho algoritmu automaticky. V případě opakovaného zaslání funkce s algoritmickými chybami/nedostatky (bez ověření správné funkce na testovacích datech) dojde k penalizaci výsledného počtu bodů ze semestrální práci.
3.2. Podmínky zápočtu a bodové hodnocení Po zaslání funkce pause_detector.m dojde k otestování přesnosti algoritmu na sadě testovacích dat. Celkový počet bodů, který je možné získat za řešení semestrální práce je 35. Ty budou rozděleny v poměru 30 bodů za úspěšnost algoritmu a 5 bodů za vypracování závěrečného protokolu. Dostatečná přesnost algoritmu zatím není definitivně stanovena, ale měla by obecně přesáhnout hranici 50% úspěšnosti. Příklad hodnocení: za klasifikační úspěšnost 50% budete ohodnoceni 15 body, v případě 75% úspěšnosti budete ohodnoceni 22,5 body, atd. Po kontrole přesnosti navrženého algoritmu (pokud dosáhne přesnosti 50% a více) můžete v případě zájmu dále vylepšovat jeho přesnost nebo připravit a zaslat výslednou zprávu. Ta by měla být odeslána nejpozději 3 pracovní dny před zahájením zkouškového termínu, na který jste přihlášeni. U výsledné zprávy bude hodnocena logická struktura, přehlednost a
ného řešení.
3.3. Bonusové řešení (volitelné) Protože je v biologii téměř nemožné dosáhnout přesnosti 100%, v rámci semestrální práce nabízíme také možnost získat 10 bonusových bodů za vylepšení přesnosti algoritmu. Ty mohou být uděleny za (a) mimořádné řešení algoritmu - vysoká přesnost algoritmu (např. 90%) s využitím vlastních konstruktivních přístupů či pokročilejších metod, nebo (b) doplňující řešení, ve kterém systémově pomocí svého automatického algoritmu zhodnoťte hlasitost respirace. Na bázi hlasitosti respirace s pomocí základních statistických metod (t-test) rozhodněte a ve správě diskutujte, zda jsou rozdíly mezi jednotlivými skupinami jedinců. Tato řešení jsou obzvláště doporučena v případě zájmu o další pokračování v oboru zpracování signálu např. v rámci navazujícího projektu nebo diplomové práce.
4. Závěr K teoretické zkoušce je nutné donést vytištěnou zprávu k semestrální práci.
Apendix A Když člověk poprvé vsadí do země sazeničku, chodí se na ni dívat třikrát denně: tak co, povyrostla už nebo ne? I tají dech, naklání se nad ní, přitlačí trochu půdu u jejích kořínků, načechrává jí lístky a vůbec ji obtěžuje různým konáním, které považuje za užitečnou péči. A když se sazenička přesto ujme a roste jako z vody, tu člověk žasne nad tímto divem přírody, má pocit čehosi jako zázraku a považuje to za jeden ze svých největších osobních úspěchů.
Apendix B S pokročilejšími metodami můžete (ale také nemusíte) dosáhnout lepších/snadnějších výsledků. Všechny tyto metody jsou Vám ponechány jako volitelné. V rámci předmětu Biologické signály nebudou probírány, a jejich použití závisí zcela na Vašem zájmu a jejich případném samostudiu. Větší část těchto metod je již v programu Matlab naprogramováno.
Bayesovské detektory Při návrhu algoritmu můžete použít bayesovský autoregresního detektor změn (Cmejla et al. 2013). Při odvození detektoru uvažujeme signál složený ze dvou úseků, popsaný dvěma různými autoregresními modely, mezi nimiž hodnotíme velikost změny. Analytickým řešením Bayesova teorému získáme vztah, který je funkcí pouze analyzovaných dat, jejich délky a řádu autoregresních modelů. Místo s největší změnou v signálu je pak určeno maximální pravděpodobností, kterou vypočítáme z uvedeného vztahu. Obsahuje-li však signál více změn, pak odvozený vztah nelze přímo použít. Tento předpoklad jediné změny bývá v praxi velmi omezujícím, neboť v řečovém signálu je vždy přítomno více změn. Nevýhodu však lze překonat výpočtem pravděpodobnosti v klouzavém okně pevné délky a použitím normování. Pravděpodobnost změny se pak počítá pro vzorek signálu ležícího uprostřed okna. Jinými slovy, výstup algoritmu je jakousi mírou nepodobnosti mezi signálem v levé a pravé polovině okna, ve kterém celý signál vzorek po vzorku procházíme. K dispozici Vám může být volně šiřitelný m-code dostupný na sami.fel.cvut.cz.
Klasifikátory V rámci úlohy můžete použít také jednoduché klasifikátory. Ty rozdělujeme na dva typy, a to učení s nebo bez učitele. Učení bez učitele se používá pro analýzu pozorování (nebo dat), když není k dispozici informace od učitele, tj. trénovací multimnožina. Pozorovaná data se dají vysvětlit pomocí matematického modelu na statistický přístup – učení statistického modelu z dat, a deterministický přístup – podle jiných měr podobnosti dat. Jednoduchým algoritmem pro učení bez učitele může být takzvaná shluková analýza (k-means). Jako příklad učení s učitelem uvedeme perceptron (základ neuronové sítě). Více o těchto a podobných algoritmech se můžete dovědět prostřednictvím wikipedie nebo také z knihy (Schlesinger and Hlaváč, 2002). Je možné také využít složitější klasifikátory, jako je např. v Matlabu běžně dostupný a celosvětově velmi využívaný EM algoritmus.
Analýza hlavních komponent (Principal Component Analysis): Jednou z metod používaných v signálových technikách je právě analýza komponent (PCA). Tato metoda operuje s vlastními čísly a často se používá ke snížení dimenze dat s co nejmenší ztrátou informace – “nápověda – takováto redukce by se Vám mohla hodit v případě, že se rozhodnete využít informace ze spektrogramu”. Informace o této metodě naleznete na wikipedii, ale také v (Jolliffe, 2002).
Reference Audhkhasi K, Kandhway K, Deshmukh OD, Verma A. Formant-based technique for automatic filled-pause detection in spon taneous spoken English. In: Proceedings of the ICASSP, IEEE International Conference on Acoustic, Speech and Signal Processing, 2009, art. No. 4960719, pp. 4857-4860. Castilllo-Guerra E, Lee W. Automatic acoustics measurement of audible inspirations in pathological voices. J Acoust Soc Am 2008; 123:3582–3582. Cmejla R, Rusz J, Bergl P, Vokrál J. Bayesian changepoint detection for the automatic assessment of fluency and articulatory disorders. Speech Communication, 2013; 55: 178-189. Critchley EMR. Speech disorders of Parkinsonism: a rewiev. J Neurol Neurosurg Ps 1981; 44:751–758.
De Looze C, Rauzy S. Automatic detection and prediction of topic changes through automatic detection of register variations and pause duration. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH , pp. 2919-2922. Duffy JR. Motor Speech Disorders: Substrates, Differential Diagnosis and Management, 2nd ed., Mosby, New York, 2005, p. 592. Goberman AM, Coelho C. Acoustic analysis of Parkinsonian speech I:speech characteristics and L-dopa therapy. Neurorehab 2002; 17: 237–246. Heemskerk, A. W., and Roos, R. A. Aspiration pneumonia and death in Huntington’s disease. PLoS currents, 2012, 4. Hornykiewicz O. Basic research on dopamine in Parkinson’s disease and the discovery of the nigrostiratal dopamine pathway: The view of an eyewitness. Neurodegener Dis 2008; 5:114–117. Jolliffe IT: Principal Component Analysis. Springer Series in Statistics, 2nd ed., Springer, NY, XXIX, 2002. Kremer B, Goldberg P, Andrew SE, Theilmann J, Telenius H, et al. A worldwide study of the Huntington's disease mutation: The sensitivity and specificity of measuring CAG repeats. New Engl J Med 1994; 330:1401–1406. Myers, R. H., Vonsattel, J. P., Stevens, T. J., Cupples, L. A., Richardson, E. P., Martin, J. B., and Bird, E. D. Clinical and neuropathologic assessment of severity in Huntington's disease. Neurology, 1988, 38:341-341. Novotny M, Rusz J, Cmejla R, Ruzicka E. Automatic evaluation of articulatory disorders in Parkinson's disease. IEEE/ACM T Audio Speech Lang Process 2014;22:1366-1378. Rosen K, Murdoch B, Folker J, Vogel A, Cahill L, Delatycki M, Corben L. Clin Ling Phon 2010; 24:141-154. Ruben R. Redefining the survival of the fittest: communication disorders in 21th century. Laryngoscope 2000; 110:241–245. Rusz J, Hlavnicka J, Cmejla R, Ruzicka E. Automatic evaluation of speech rhythm instability and acceleration in dysarthrias associated with basal ganglia dysfunction. Front Bioeng Biotechnol 2015;3:104. Schlesinger MI, Hlaváč V:Ten lectures on statistical and structural pattern recognition. Volume 24 of Computational Imaging and Vision, Kluwer Academic Press, 2002. O’Shaughnessy D, Gabrea M. Automatic identification of filled pauses in spontaneous speech. In: Canadian Conference on Electrical Computer Engineering, 2000, pp. 620-664.