Automatick´ e hled´ an´ı v´ yznamn´ ych pozic v Parkinsonick´ ych promluv´ ach zaloˇ zen´ ych na rychl´ em opakov´ ani slabik /pa/ - /ta/ – /ka/ ˇ M. Novotn´y, J. Rusz, R. Cmejla ˇ e vysok´e uˇcen´ı v Praze, Fakulta elektrotechnick´a, Katedra teorie obvod˚ Cesk´ u Abstrakt Pr´ ace se zab´ yv´ a vyuˇ zit´ım programov´ eho prostˇ red´ı Matlab pro zpracov´ an´ı patologick´ ych promluv pacient˚ u trp´ıc´ıch Parkinsonovou nemoc´ı (PN). Promluvy zaloˇ zen´ e na rychl´ em opakov´ an´ı slabik /pa/ – /ta/ – /ka/, byly postupnˇ e segmentov´ any na jednotliv´ e slabiky, ve kter´ ych byly pot´ e oznaˇ ceny pozice poˇ c´ atku exploze, vok´ alu a okluze. V´ ysledky automatick´ e segmentace byly porovn´ any s ruˇ cnˇ e oznaˇ cen´ ymi pozicemi. Pˇ ri zpracov´ an´ı 80 (40 PN; 40 kontroln´ı skupina (KS)) promluv a celkov´ eho poˇ ctu 1644 slabik (753 PN; 891 KS) bylo s pˇ resnost´ı na 5 ms dosahov´ ano u ´ spˇ eˇ snost´ı pro explozi rovnou 79,35 %, pro vok´ al rovnou 86,4 % a pro okluzi rovnou 53,3 %.
1
´ Uvod
Parkinsonova nemoc (PN) je druh´ ym nejrozˇs´ıˇrenˇejˇs´ım neurodegenerativn´ım onemocnˇen´ım po Alzheimerovˇe nemoci [1]. Toto onemocnˇen´ı postihuje zejm´ena populaci starˇs´ı 50 let a tento fakt spoleˇcnˇe s celosvˇetov´ ym st´arnut´ım populace naznaˇcuje, ˇze ˇcetnost Parkinsonovy nemoci se bude zvyˇsovat [1]. Jedn´ım z prodrom´aln´ıch, subklinick´ ych PN symptom˚ u, kter´ y se vyskytuje v 70–90 % pˇr´ıpad˚ u, je hypokinetick´a dysartrie, jej´ıˇz hodnocen´ı by mohlo napomoci vˇcasn´e diagn´oze a hodnocen´ı v´ yvoje onemocnˇen´ı [2], [3]. Pro potˇreby hodnocen´ı hypokinetick´e dysartrie se mimo jin´e vyuˇz´ıv´ a i ˇreˇcov´a diadochokinetick´a (DDK) u ´loha, zaloˇzen´ a na rychl´em opakov´an´ı slabik /pa/–/ta/–/ka/. C´ılem t´eto pr´ace je uk´azat moˇznost vyuˇzit´ı programu Matlab pro automatick´e hodnocen´ı tˇechto promluv. Pro hodnocen´ı kvality promluv je tˇreba v jednotliv´ ych slabik´ach oznaˇcit tˇri z´akladn´ı pozice. Prvn´ı pozic´ı je poˇc´atek exploze (E), druhou pozic´ı je poˇc´atek vok´alu (V) a posledn´ı je poˇc´atek okluze (O).
2
Metodika
V t´eto sekci bude uvedena informace o datab´ azi a metod´ach vyuˇzit´ ych pˇri zpracov´an´ı jednotliv´ ych sign´al˚ u. Z´aroveˇ n, vzhledem k rozd´ıln´emu charakteru jednotliv´ ych pozic, bude v kaˇzd´e sekci struˇcnˇe shrnuta problematika.
2.1
Datab´ aze
Pro n´avrh algoritmu byla vyuˇzita ˇc´ast datab´ aze shrom´ aˇzdˇen´e pro pr´aci [4], tato ˇc´ast obsahovala pouze nahr´ avky obsahuj´ıc´ı promluvy ˇreˇcov´e DDK u ´lohy. Datab´ aze byla tvoˇrena 80 nahr´ avkami z´ıskan´ ymi od 46 ˇcesky mluv´ıc´ıch rodil´ ych mluvˇc´ıch (24 PN; 22 KS). Skupina PN byla tvoˇrena lidmi s diagn´ozou ran´eho st´adia Parkinsonovy nemoci, bez pˇredchoz´ı medikace. Kontroln´ı skupina byla vytvoˇrena tak aby vˇekovˇe odpov´ıdala skupinˇe PN a obsahovala lidi bez neurologick´e a ˇreˇcov´e patologie.
2.2
Hrub´ a segmentace
Tento krok ˇreˇs´ı probl´em s poˇc´ateˇcn´ı neznalost´ı celkov´eho poˇctu slabik v jedn´e promluvˇe tak, ˇze promluvu rozdˇel´ı na u ´seky obsahuj´ıc´ı jednotliv´e slabiky. T´ım probl´em s nezn´am´ ym poˇctem pozic v jednom sign´alu rozdˇel´ı na nezn´am´ y poˇcet u ´loh hled´an´ı jedn´e od kaˇzd´e pozice. Hrub´ a segmentace prob´ıh´ a pomoc´ı energetick´e ob´ alky a je zaloˇzena na pˇredpokladu, ˇze kaˇzd´ y vok´al obsahuje vyˇsˇs´ı energii, a proto je moˇzn´e podle polohy lok´ aln´ıch maxim v energetick´e ob´ alce hledat pˇribliˇzn´e pozice stˇred˚ u slabik. Jeden segment z´ıskan´ y pomoc´ı hrub´e segmentace je zobrazen na obr´ azku 1. V tomto obr´ azku jsou tak´e vyznaˇceny jednotliv´e pozice E, V a O. slabika /PA/ 1 0.8
E
O
V
0.6 0.4 signal
0.2 0 −0.2 −0.4 −0.6
Znelost
−0.8 20
40
60 t(ms)
80
100
120
Obr´azek 1: Oznaˇcen´ a slabika /pa/ zdrav´eho jedince a pacienta s PN
2.3
Detekce exploze
Exploze se nach´az´ı v pˇredn´ı ˇc´asti sign´alu, proto prohled´ av´ame pouze ˇc´ast pˇred lok´ aln´ım maximem. Z´aroveˇ n je charakteristick´a prudk´ ym n´ar˚ ustem ˇsumov´e energie, kter´a je sice celkovˇe niˇzˇs´ı neˇz energie vok´alu, nicm´enˇe je vybuzena v cel´e ˇs´ıˇri spektra. Z toho d˚ uvodu je v´ yhodn´e pˇristupovat k ˇreˇsen´ı ve spektr´ aln´ı oblasti a detekovat E ze spektrogramu. Ke spektrogramu je pˇristupov´ano jako k matici P , kter´a ve sloupc´ıch obsahuje spektra jednotliv´ ych ˇcasov´ ych u ´sek˚ u. Matice P je filtrov´ana pomoc´ı matice T kter´a m´ a pˇredpis N
Tmez (i, j) = we
1X P(i, j). n
(1)
j=1
Filtrace matice P pak prob´ıh´ a podle pˇrepisu Pf (i, j) =
P(i, j) P(i, j) ≥ Tmez . 0 P(i, j) < Tmez
(2)
Z takto filtrovan´e matice je pot´e vysˇc´ıt´ an´ım jednotliv´ ych sloupc˚ u z´ısk´ ana energetick´a ob´ alka sign´alu a vysˇc´ıt´ an´ım ˇc´ast´ı sloupc˚ u obsahuj´ıc´ıch frekvence nad 1500Hz je z´ısk´ ana energetick´a ob´ alka vysokofrekvenˇcn´ı ˇc´asti sign´alu. Vz´ajemn´e a absolutn´ı polohy tˇeˇziˇstˇe jednotliv´ ych energetick´ ych ob´ alek jsou pouˇzity pro vyˇrazen´ı faleˇsn´ ych detekc´ı. Z´aroveˇ n je pouˇzita celkov´a energetick´a ob´ alka pro pˇribliˇzn´ y odhad polohy V, pomoc´ı kter´e je korigov´ana poloha prohled´avan´e oblasti.
Pro detekci E je pot´e vyuˇzita ob´ alka sign´alu filtrovan´eho podle pˇredpisu Pf (i, j) =
1 P(i, j) ≥ Tmez . 0 P(i, j) < Tmez
(3)
Takto filtrovan´ y sign´al l´epe zohledˇ nuje to, ˇze pˇri explozi je vybuzeno cel´e spektrum a sniˇzuje vliv vyˇsˇs´ıch energi´ı na niˇzˇs´ıch frekvenc´ı obsaˇzen´ ych u vok´alu.
2.4
Detekce vok´ alu
Jak jiˇz bylo uvedeno v´ yˇse, vok´al obsahuje nejvˇetˇs´ı energii, kter´a se projevuje zejm´ena na niˇzˇs´ıch frekvenc´ıch a m´ a harmonick´ y charakter. Vyuˇzitou metodou pro detekci V je Bayesovsk´ y skokov´ y detektor (BSCD) [5], kter´ y vyuˇz´ıv´ a charakteru pˇrechodu mezi ˇsumovou exploz´ıvou a znˇel´ ym vok´alem. V´ ystup z BSCD je zobrazen na obr´ azku 2.
signal
1
Rucni/referencni pozice V
0 −1 100
200
400
500
600
500
600
Detekovana pozice V
0.8 BSCD
300
0.6 0.4 0.2 0
100
200
300 400 pocet vzorku
Obr´azek 2: Postup detekce poˇc´atku vok´alu V horn´ı ˇc´asti je zobrazen sign´al v ˇcasov´e oblasti s vyznaˇcenou pozic´ı V, ve spodn´ı ˇc´asti je pak zobrazen v´ ystup z BSCD. Po z´ısk´ an´ı BSCD v´ ystupu je nutn´e urˇcit kter´e lok´ aln´ı maximum odpov´ıd´ a pozici V. Zde vych´az´ıme z pˇredpokladu, ˇze z´akladn´ı perioda vok´alu je kratˇs´ı neˇz cel´a exploz´ıva. Proto vyb´ır´ ame maximum n´asleduj´ıc´ı za nejdelˇs´ı mezerou. N´ asleduj´ıc´ı periodicky se opakuj´ıc´ı peaky odpov´ıdaj´ı jednotliv´ ym period´am hlasivkov´eho t´onu.
2.5
Detekce okluze
Pro detekci se jako nej´ uˇcinnˇejˇs´ı uk´azala invertovan´ a polynomi´ aln´ı mez, kter´a aproximuje energetickou ob´ alku sign´alu a m´ a tvar V´ ybˇer stupnˇe polynomu byl prov´adˇen pomoc´ı automatick´eho algoritmu, kter´ y vyhodnocuje chybu aproximace. V´ ysledn´a detekce je ilustrov´ana na obr´ azku 3.
mezpolynom =
n Y
(ai x + b(i)) + 2¯ x.
(4)
i=1
2.6
Zpˇ etn´ a vazba
Pro zlepˇsen´ı v´ ysledk˚ u detekce byla realizov´ana zpˇetn´ a vazba, kdy byla porovn´ana vzd´ alenost mezi E a V a v pˇr´ıpadˇe, ˇze nespad´a do fyziologick´ ych mez´ı je nejprve porovn´ana pozice V s odhadem V z ˇc´asti 2.3.
1 0.9 0.8
energie signalu
0.7 0.6 0.5
detekovana O
0.4 0.3 0.2
mezpolynom
0.1 0 100
200
300 400 500 poradi vzorku
600
700
800
Obr´azek 3: Postup detekce poˇc´atku vok´alu
2.7
Hodnocen´ı u ´ spˇ eˇ snosti
Pro hodnocen´ı u ´spˇeˇsnosti byly jako referenˇcn´ı hodnoty pouˇzity ruˇcnˇe oznaˇcen´e pozice E, V a O. Na obr´ azku 4 je vidˇet ROC kˇrivka. 100
úspěšnost detekce (%)
90
E V O
80 70 60 50 40 30 20 10 0
5
10
15
20 mez (ms)
25
30
35
40
Obr´azek 4: ROC kˇrivky pro detekce jednotliv´ ych pozic E, V a O
3
Z´ avˇ er
V pr´aci byl prezentov´an algoritmus pro automatickou segmentaci ˇreˇcov´e DDK u ´lohy. Tento algoritmus dosahoval pˇri 5 ms mezi tˇechto hodnot E5ms = 79, 4 %, V5ms = 86, 4 %a O5ms = 53, 3 %. Ovˇsem pro detekci O je vzhledem k jeho charakteru vypov´ıdaj´ıc´ı sp´ıˇse 10 ms mez kde O10ms = 73, 9 %. Z´aroveˇ n je pro PN skupinu dosahov´ano v´ ysledk˚ u E5ms = 73, 6 %, V5ms = 82, 6 %, O5ms = 46, 6 % a O10ms = 66, 6 %. Z uveden´ ych hodnot je vidˇet, ˇze program funguje robustnˇe i pro detekci u PN.
4
Podˇ ekov´ an´ı
ˇ 102/12/2230. Tato pr´ace je podporov´ana z grant˚ u SGS 12/185/OHK4/3T/13 a GACR
Reference [1] Van Den Eeden, S., K., Tanner, C., M., Bernstein, A., L., Fross, R., D., Leimpeter, A., Bloch, D., A., Nelson, L., M.: Incidence of Parkinson’s disease: Variation by age, gender, and race/ethnicity,Am. J. Epidemiol.,157 ,1015 – 1022,2003. [2] Logemann, A., J., Fisher, H., B., Boshes, B., Blonsky, E., R.: Frequency and coocurrence of vocal tract disfunction in the speech of a large sample of Parkinson patients,J. Speech Hear. Disord.,43,47 – 57,1978. [3] Duffy, J., R.: Motor Speech Disorders: Substrates, Differential Diagnosis and Management, 2nd ed.Mosby, New York, NY,2005, pp. 1 – 592. ˇ [4] Rusz, J., Cmejla, R., R˚ uˇziˇckov´a, H., Klemp´ıˇr, J., Majerov´a, V., Picmausov´a, J., Roth, J., R˚ uˇziˇcka, E.: Acoustic assesment of voice and speech disorders in Parkinson’s disease through quick vocal test, Mov. Disord., 26(10), 1951-1952, 2011. ˇ [5] Cmejla, R., Sovka, P.: Recursive Bayesian Autoregressive Changepoint Detector for Sequential Signal Segmentation,EUSipco Proceedings, Wien(2004),245 – 248.
M. Novotn´ y
[email protected] J. Rusz
[email protected] ˇ R. Cmejla
[email protected]