Vyhodnocov´ an´ı vad ˇ reˇ ci dˇ et´ı s vyuˇ zit´ım algoritmu DTW ˇ Petr Zlatn´ık, Roman Cmejla ˇ e vysok´e uˇcen´ı technick´e v Praze, Fakulta elektrotechnick´a Cesk´
[email protected],
[email protected] Abstrakt: Pˇr´ıspˇevek popisuje metodu, kter´a byla vyvinuta pro vyhodnocen´ı vad ˇreˇci dˇet´ı. Princip metody je zaloˇzen na algoritmu borcen´ı ˇcasov´e osy, pro zv´ yˇsen´ı robustnosti je vyuˇzito v´ıce vstupn´ıch charakteristik ˇreˇci a v´ ysledky jsou pr˚ umˇerov´any. V ˇcl´anku jsou uvedeny d´ılˇc´ı v´ ysledky rozboru vlivu jednotliv´ ych ˇreˇcov´ ych parametrizac´ı s vyhodnocen´ım modifikovan´ ych pˇr´ıstup˚ u, kdy je pouˇzito m´enˇe parametrizac´ı. D´ale je uvedeno vyhodnocen´ı vlivu funkce pr˚ uchodu matic´ı vzd´alenost´ı DTW na pˇresnost klasifikace a je zm´ınˇeno hodnocen´ı vlivu zmˇen fonetick´e struktury jako je vynech´an´ı hl´asky nebo slabiky v testovan´ ych slovech.
1.
´ Uvod
Uveden´a metoda slouˇz´ı ke klasifikaci vad ˇreˇci dˇet´ı postiˇzen´ ych v´ yvojovou dysf´azi´ı (v´ yvojov´a nemluvnost d´ıtˇete, d´ıtˇe m´a probl´em s ˇreˇc´ı jiˇz od doby, kdy zaˇc´ın´a mluvit) popˇr´ıpadˇe af´azi´ı (porucha mozkov´ ych center, kter´a odpov´ıdaj´ı za tvorbu ˇreˇci za stavu, kdyˇz jiˇz d´ıtˇe umˇelo mluvit, pokud se pˇridaj´ı epileptick´e v´ yboje v mozku, jedn´a se o tzv.: Landau-Kleffner˚ uv syndrom). Dˇeti maj´ı probl´emy s vyslovov´an´ım slov (nˇekter´e hl´asky jsou prodlouˇzeny, zamˇenˇeny nebo vynech´any), nejsou schopny vyslovit souvislejˇs´ı vˇetu. Projekt je ˇreˇsen ve spolupr´aci s Fakultn´ı nemocnic´ı v Motole, kde jsou nahr´av´any promluvy postiˇzen´ ych dˇet´ı vˇcetnˇe l´eˇcby. Metoda byla navrˇzena s c´ılem oddˇelit promluvy nemocn´ ych dˇet´ı od zdrav´ ych a hlavnˇe by mˇela b´ yt schopna vyhodnotit, zda se stav d´ıtˇete v pr˚ ubˇehu l´eˇcby lepˇs´ı nebo ne.
2.
Algoritmus DTW a realizace klasifik´ atoru
Algoritmus DTW [9] byl p˚ uvodnˇe urˇcen pro realizaci rozpozn´avaˇce izolovan´ ych slov. Byla provedena jeho modifikace [1, 2, 10] tak, aby ho bylo moˇzno vyuˇz´ıt pro klasifikaci nesrozumitelnosti dˇetsk´ ych promluv. Jednotliv´e promluvy jsou segmentov´any s pˇrekryvem 50 %, segmenty jsou v´ahov´any Hammingov´ ym oknem a parametrizov´any. Popis parametrizac´ı je v n´asleduj´ıc´ım odstavci. N´aslednˇe je vypoˇc´ıt´ana z porovn´avan´ ych dvou promluv matice euklidovsk´ ych vzd´alenost´ı [9]. Ta je proch´azena z jednoho rohu do protilehl´eho a je vypoˇc´ıt´an celkov´ y souˇcet akumulovan´ ych vzd´alenost´ı, kter´ y charakterizuje m´ıru odliˇsnosti obou slov. Toto je z´akladn´ı princip popisovan´e metody klasifikace slov, kdy se porovn´avaly
promluvy jednoho slova od zdrav´ ych a nemocn´ ych dˇet´ı a pro promluvu nemocn´eho d´ıtˇete se pˇredpokl´adala vˇetˇs´ı akumulovan´a vzd´alenost. Protoˇze pˇri vyuˇzit´ı jedn´e parametrizace (prvn´ı pokusy byly prov´adˇeny pro kepstr´aln´ı koeficienty) doch´azelo obˇcas ke vzniku chyb a ˇspatn´e klasifikaci slov, byl navrˇzen syst´em [1, 2, 10], kdy se vyuˇz´ıv´a v´ıce r˚ uzn´ ych vstupn´ıch charakteristik ˇreˇci. T´ım jsou promluvy hodnoceny z v´ıce fonologick´ ych aspekt˚ u a dojde k eliminaci chyb. Nejprve jsou vˇsechny promluvy (pro konkr´etn´ı testovan´e slovo, napˇr.: mateˇr´ıdouˇska) od zdrav´ ych dˇet´ı porovn´any pomoc´ı algoritmu DTW navz´ajem a je vypoˇc´ıt´ana pr˚ umˇern´a akumulovan´a vzd´alenost kaˇzd´eho slova zdrav´eho d´ıtˇete ode vˇsech ostatn´ıch. N´aslednˇe jsou porovn´any promluvy nemocn´ ych dˇet´ı (nebo obecnˇeji nov´e testovan´e promluvy) s promluvami zdrav´ ych (jiˇz dˇr´ıve zpracovan´ ych a uloˇzen´ ych v referenˇcn´ı datab´azi) a opˇet je vypoˇc´ıt´ana pr˚ umˇern´a vzd´alenost promluv nemocn´ ych dˇet´ı ode vˇsech zdrav´ ych. Tyto v´ ypoˇcty jsou provedeny pro vˇsechny vyuˇzit´e parametrizace. Aby bylo moˇzn´e v´ ysledky spojit dohromady, je nutn´e prov´est pro kaˇzdou parametrizaci normov´an´ı vzd´alenost´ı (maxim´aln´ı hodnota pro zdrav´e dˇeti je rovna jedn´e) a v´ ysledky je moˇzn´e seˇc´ıst pˇres vˇsechny parametrizace, t´ım dojde pˇri spr´avn´e funkci algoritmu ke spolehlivˇejˇs´ımu a v´ yraznˇejˇs´ımu oddˇelen´ı promluv nemocn´ ych dˇet´ı. 2.1.
Vybran´ eˇ reˇ cov´ e charakteristiky
- poˇcet pr˚ uchod˚ u nulou - logaritmus energie - logaritmus energie chyby predikce - prvn´ı koeficient line´arn´ı predikce - prvn´ı kepstr´aln´ı koeficient - druh´ y kepstr´aln´ı koeficient - jeden´act kepstr´aln´ıch koeficient˚ u - koeficienty odrazu - dvan´act koeficient˚ u line´arn´ı predikce - melovsk´e spektr´aln´ı koeficienty - logaritmovan´e melovsk´e spektr´aln´ı koeficienty - melovsk´e kepstr´aln´ı koeficienty - spektr´aln´ı PLP koeficienty - (kepstr´aln´ı) PLP koeficienty - spektr´aln´ı PLP-RASTA koeficienty - (kepstr´aln´ı) PLP-RASTA koeficienty
2.2.
Optimalizace DTW algoritmu
Aby DTW algoritmus co nejl´epe oddˇeloval promluvy nemocn´ ych dˇet´ı od zdrav´ ych, byly provedeny pokusy o jeho optimalizaci. Jedny z prvn´ıch pokus˚ u, kter´e byly prov´adˇeny, bylo normov´an´ı vˇsech promluv jak od zdrav´ ych, tak i od nemocn´ ych dˇet´ı na stejn´ y poˇcet segment˚ u pomoc´ı vztah˚ u v [9], (7.267.29). D´ale bylo zkouˇseno vyhlazov´an´ı a urˇcit´e typy normalizace parametrizovan´ ych hodnot sign´alu [9] (7.62-7.67). Uk´azalo se, ˇze tyto kroky jsou pro naˇse u ´ˇcely nevhodn´e, nebot’ byly urˇceny pro zlepˇsen´ı vlastnost´ı algoritmu pro u ´ˇcely rozpozn´av´an´ı slov, ale v naˇs´ı aplikaci smaz´avaj´ı rozd´ıly mezi promluvami od zdrav´ ych a nemocn´ ych dˇet´ı, ˇc´ımˇz se v´ ysledky zhorˇsuj´ı. Pˇri realizaci DTW algoritmu je moˇzno volit r˚ uzn´e funkce pr˚ uchodu matic´ı vzd´alenost´ı [9]. Experiment´alnˇe bylo ovˇeˇreno, ˇze nejlepˇs´ıch v´ ysledk˚ u bylo dosaˇzeno pro smˇer pr˚ uchodu definovan´ y n´asleduj´ıc´ı rovnic´ı.
g(i − 1, j) + d(i, j) g(i, j − 1) + d(i, j) g(i, j) = g(i − 1, j − 1) + d(i, j)
(1)
Kde i = 1, 2, ..., I, j = 1, 2, ..., J, I a J jsou poˇcty segment˚ u prvn´ı a druh´e promluvy, kter´e se porovn´avaj´ı, d(i, j) je lok´aln´ı hodnota euklidovsk´e vzd´alenosti pro aktu´aln´ı indexy i a j. Celkovou vzd´alenost obou slov ud´av´a pak hodnota g(I, J), kter´a b´ yv´a dˇelena hodnotou (I + J) [9], pˇri vyuˇzit´ı DTW jako rozpozn´avaˇce slov. Protoˇze v naprost´e vˇetˇsinˇe promluv nemocn´ ych dˇet´ı doch´az´ı jednak k z´amˇenˇe, ale hlavnˇe k prodluˇzov´an´ı hl´asek i promluv, je vhodn´e vynechat dˇelen´ı g(I, J) hodnotou (I +J), ˇc´ımˇz se zlepˇs´ı odstup promluv nemocn´ ych dˇet´ı od zdrav´ ych, coˇz je dalˇs´ı krok pˇri optimalizaci DTW. Probl´em m˚ uˇze nastat tehdy, kdyˇz nemocn´e d´ıtˇe promluvu v´ yraznˇe zkr´at´ı oproti zdrav´ ym (napˇr.: m´ısto slova ”mateˇr´ıdouˇska” je ˇreˇceno slovo ”matouˇska” a podobnˇe). Zde se potom akumulovan´a vzd´alenost sn´ıˇz´ı aˇz k nejvyˇsˇs´ım hodnot´am zdrav´ ych dˇet´ı a slovo je obt´ıˇznˇe klasifikov´ano. Dan´a situace bude d´ale testov´ana, budou se hledat parametrizace, kter´e jsou na zkr´acen´ı slova m´enˇe citliv´e. Je vhodn´e poˇc´ıtat celkov´e akumulovan´e vzd´alenosti souˇctem hodnot z nˇekolika r˚ uzn´ ych vysloven´ ych slov dˇet´ı, ˇc´ımˇz se zv´ yrazn´ı odstup nemocn´ ych od zdrav´ ych a tento probl´em se potlaˇc´ı. D´ale je vhodn´e testy prov´adˇet pro v´ıce slabiˇcn´a slova, protoˇze nˇekter´e nemocn´e dˇeti vyslovuj´ı jedno a dvouslabiˇcn´a slova t´emˇeˇr jako zdrav´e.
3. 3.1.
Experiment´ aln´ı v´ ysledky Vliv parametrizac´ı na u ´ spˇ eˇ snost klasifikace
DTW algoritmus byl nastaven podle popisu v pˇredchoz´ım odstavci. Jednotliv´e parametrizace byly vyhodnocov´any pro r˚ uzn´a slova a byly prov´adˇeny testy, jak dobˇre oddˇeluj´ı promluvy nemocn´ ych dˇet´ı od zdrav´ ych. Lze ˇr´ıci, ˇze jako nejpˇresnˇejˇs´ı se jev´ı kepstr´aln´ı PLP a PLP-RASTA koeficienty, popˇr´ıpadˇe velmi dobˇre pracuj´ı koeficienty FBANK. Tento z´avˇer vypl´ yv´a i z pokus˚ u, kter´e naznaˇcuj´ı, ˇze ostatn´ı parametrizace ˇrad´ı promluvy od zdrav´ ych dˇet´ı k hranici nemocn´ ych, pokud nˇekter´e zdrav´e d´ıtˇe m´a chraptiv´ y a zastˇren´ y hlas. Tento z´avˇer odpov´ıd´a teoretick´ ym pˇredpoklad˚ um, protoˇze PLP a PLP-RASTA koeficienty byly navrˇzeny s ohledem na potlaˇcen´ı rozd´ıl˚ u mezi mluvˇc´ımi pro zv´ yˇsen´ı u ´spˇeˇsnosti rozpozn´an´ı ˇreˇci.
Uk´azka v´ ysledk˚ u pro slovo ”mateˇr´ıdouˇska” je na obr´azku 1, kde jsou vyneseny vzd´alenosti pro 18 nemocn´ ych dˇet´ı (b´ıl´ y pr˚ ubˇeh) a pro 6 nemocn´ ych (ˇcern´ y pr˚ ubˇeh), horn´ı ˇc´ast obr´azku je pro normovan´ y souˇcet pˇres vˇsech 16 parametrizac´ı, doln´ı ˇc´ast je jen pro 3 parametrizace FBANK, PLP a PLP-RASTA koeficienty. Z obr´azku je vidˇet, ˇze doch´az´ı skuteˇcnˇe ke smaz´av´an´ı rozd´ıl˚ u mezi zdrav´ ymi dˇetmi, algoritmus je m´enˇe citliv´ y na mluvˇc´ıho.
Obr´azek 1: V´ ysledek klasifikace slova ”mateˇr´ıdouˇska” pro vˇsech 16 parametrizac´ı (horn´ı ˇc´ast) a pro 3 parametrizace FBANK, PLP a PLP-RASTA (doln´ı ˇc´ast), ˇcern´e pr˚ ubˇehy reprezentuj´ı nemocn´e dˇeti
3.2.
Vliv poˇ ctu slabik slov na klasifikaci
Protoˇze jsou jednotliv´e nemocn´e dˇeti r˚ uznˇe postiˇzen´e, doch´az´ı k tomu, ˇze nˇekter´e z nich napˇr´ıklad tˇr´ıslabiˇcn´a slova vyslovuj´ı spr´avnˇe a aˇz od ˇctyˇr nebo pˇeti slabiˇcn´ ych slov zaˇc´ınaj´ı m´ıt probl´emy, popˇr´ıpadˇe nevyslov´ı aˇz delˇs´ı vˇety. Naopak, nˇekter´e dˇeti nevyslov´ı jiˇz tˇr´ıslabiˇcn´a slova. Proto bylo provedeno porovn´an´ı promluv od jednotliv´ ych samohl´asek, souhl´asek, pˇres dvou, tˇr´ı, ˇctyˇr a pˇeti-slabiˇcn´a slova. V´ ysledek je na obr´azku 2 a byl vygenerov´an n´asleduj´ıc´ım zp˚ usobem. Bylo klasifikov´ano ˇsest r˚ uzn´ ych nemocn´ ych dˇet´ı a porovn´an´ı bylo provedeno s osmn´acti zdrav´ ymi pˇres vˇsechny parametrizace. Nejprve se klasifikovaly samohl´asky a, e, i, o, u, a doˇslo se k sum´am pr˚ umˇern´ ych normovan´ ych akumulovan´ ych vzd´alenost´ı, ty byly n´aslednˇe seˇcteny. Postup je proveden d´ale pro souhl´asky, jedno, dvou, tˇr´ı, ˇctyˇr a pˇeti-slabiˇcn´a slova a je provedeno dalˇs´ı normov´an´ı vˇsech pr˚ ubˇeh˚ u na hodnotu 1 k maxim´aln´ı hodnotˇe zdrav´ ych dˇet´ı pro vˇsech sedm pr˚ ubˇeh˚ u. Z obr´azku je vidˇet, ˇze od tˇr´ıslabiˇcn´ ych slov doch´az´ı k v´ yraznˇejˇs´ımu odstupu vˇetˇsiny nemocn´ ych dˇet´ı od zdrav´ ych. K mal´emu odstupu doch´az´ı u nˇekter´ ych nemocn´ ych dˇet´ı jiˇz u samohl´asek. Je to d´ano t´ım, ˇze je obˇcas nezˇretelnˇe vyslovuj´ı nebo prodluˇzuj´ı. Hodnoty vzd´alenost´ı z obr´azku 2 jsou d´ale uvedeny v tabulce 1, kde jsou uvedeny jak pro zdrav´e tak i pro nemocn´e dˇeti stˇredn´ı hodnoty (mean), smˇerodatn´e odchylky (std), minim´aln´ı hodnoty (min) a maxim´aln´ı hodnoty (max) normovan´ ych pr˚ umˇern´ ych hodnot celkov´ ych akumulovan´ ych vzd´alenost´ı. Z tabulky je vidˇet, ˇze vˇsechny nemocn´e dˇeti jsou spolehlivˇe klasifikov´any od tˇr´ıslabiˇcn´ ych slov, hodnota min je vˇzdy vˇetˇs´ı neˇz jedna.
Obr´azek 2: Normovan´e v´ ysledky porovn´an´ı pro samohl´asky, souhl´asky, jedno, dvou, tˇr´ı, ˇctyˇr a pˇeti-slabiˇcn´a slova, ˇcern´e pr˚ ubˇehy reprezentuj´ı nemocn´e dˇeti
samohl´ asky souhl´ asky jednoslabiˇ cn´ a dvouslabiˇ cn´ a tˇ r´ıslabiˇ cn´ a ˇ ctyˇ rslabiˇ cn´ a pˇ eti-slabiˇ cn´ a
´ ZDRAVE mean std min max 0,82 0,07 0,74 1,00 0,70 0,10 0,58 1,00 0,75 0,09 0,66 1,00 0,85 0,07 0,74 1,00 0,84 0,08 0,75 1,00 0,92 0,05 0,84 1,00 0,94 0,04 0,88 1,00
´ NEMOCNE mean std min 1,02 0,07 0,91 1,00 0,11 0,85 1,04 0,14 0,80 1,12 0,17 0,90 1,34 0,23 1,07 1,54 0,36 1,11 1,72 0,31 1,22
max 1,09 1,18 1,17 1,32 1,67 2,00 1,96
Tabulka 1: Tabulka stˇredn´ıch hodnot (mean), smˇerodatn´ ych odchylek (std), minim´aln´ıch (min) a maxim´aln´ıch (max) hodnot normovan´ ych celkov´ ych akumulovan´ ych vzd´alenost´ı.
3.3.
Posouzen´ı v´ yvoje l´ eˇ cby nemocn´ eho d´ıtˇ ete
Na obr´azku 3 je posouzen´ı v´ yvoje l´eˇcby jednoho d´ıtˇete po ˇctyˇrech mˇes´ıc´ıch l´eˇcby, v´ ysledek byl dosaˇzen souˇctem a normov´an´ım v´ ysledk˚ u klasifikace z pˇeti obt´ıˇzn´ ych slov na v´ yslovnost: motovidlo, popelnice, televize, r˚ uznobarevn´ y a mateˇr´ıdouˇska. Je vidˇet, ˇze stav d´ıtˇete se zlepˇsil. V´ ysledek klasifikace odpov´ıd´a hodnocen´ım l´ekaˇr˚ u a psycholog˚ u.
Obr´azek 3: Pokles vzd´alenost´ı pˇri u ´spˇeˇsn´e l´eˇcbˇe d´ıtˇete
4.
Z´ avˇ er
V pr´aci je pops´an algoritmus pro vyhodnocov´an´ı promluv dˇet´ı s v´ yvojovou dysf´azi´ı, popˇr´ıpadˇe af´azi´ı s popisem vhodn´ ych parametrizac´ı a modifikace DTW algoritmu pro tyto u ´ˇcely. Dosavadn´ı experimenty naznaˇcuj´ı moˇznost vyuˇzit´ı metody pro objektivn´ı posouzen´ı nemoci a hodnocen´ı jej´ıho v´ yvoje. Dalˇs´ı pr´ace budou zamˇeˇreny na testov´an´ı algoritmu a vlivu jednotliv´ ych parametrizac´ı na rozˇs´ıˇrenˇejˇs´ıch datab´az´ıch promluv, bude vyhodnocen vliv ˇsumu na u ´spˇeˇsnost klasifikace.
5.
Podˇ ekov´ an´ı
ˇ - 102/03/H085 ”Modelov´an´ı biologick´ Pr´ace je podporov´ana granty GA CR ych a ˇreˇcov´ ych ˇ - NR 8287-3/2005 ”Poˇc´ıtaˇcov´a anal´ sign´alu”, IGA MZ CR yza ˇreˇcov´eho projevu a ceˇ lonoˇcn´ıch EEG z´aznamu u dˇet´ı” a MSM6840770012 ”Transdisciplin´arn´ı v´ yzkum v biomedic´ınsk´em inˇzen´ yrstv´ı 2”.
Reference ˇ [1] Cmejla R.: Vyhodnocov´an´ı v´yslovnosti s vyuˇzit´ım DTW algoritmu. V´ yzkumn´a zpr´ava ˇ LK01/2005, K13131, FEL CVUT, Praha, srpen, 2005. ˇ [2] Zlatn´ık P., Cmejla R.: Application of the DTW algorithm for disordered speech evaˇ luation. Digital Technologies ’05. University of Zilina, 2005, Slovak Republic. [3] Rabiner L., Juang P.: Fundamental of speech recognition. Prentice Hall, U.S.A., 1984. [4] Young S., et al.: The HTK Book. Version 3.2.1, Cambridge 2002, England. [5] ETSI.: European Telecommunications Standards Institute Nov. 2003, ETSI Standard, ETSI ES 202212, Version 1.1.1 France. [6] Harrington J., Cassidy S.: Techniques in speech acoustics. Kluwer Academic Publishers 1999, Netherlands. [7] Deller J. R., Hansen J. H. L., Proakis J. G.: Discrete-time processing of speech signals. IEEE Press 2000, U.S.A.. [8] Hermansky H., Morgan N.: Rasta processing of speech. IEEE Transaction on Speech and Audio Processing, Vol. 2, No. 4, pp. 587-589, October 1994, U.S.A. [9] Psutka J.: Komunikace s poˇc´ıtaˇcem mluvenou ˇreˇc´ı. Academia Praha, 1995, printed by CENTA, spol. s. r. o., Veveˇr´ı 39, Brno. ˇ [10] Zlatn´ık P., Cmejla R.: Disordered Speech Evaluation Using the DTW Algorithm. Analysis of biomedical signals and images, ISSN 1211-412X, Biosignal 2006, Brno.