Vyhodnocov´ an´ı promluv dˇ et´ı s poruchami ˇ reˇ ci ˇ Petr Zlatn´ık, Roman Cmejla ˇ Katedra teorie obvod˚ u, Fakulta elektrotechnick´a, CVUT, Praha Abstrakt Pˇ r´ıspˇ evek popisuje metodu, kter´ a byla vyvinuta pro vyhodnocen´ı vad ˇ reˇ ci dˇ et´ı. Princip metody je zaloˇ zen na algoritmu borcen´ı ˇ casov´ e osy, pro zv´ yˇ sen´ı robustnosti je vyuˇ zito v´ıce vstupn´ıch charakteristik ˇ reˇ ci a v´ ysledky jsou pr˚ umˇ erov´ any. V ˇ cl´ anku jsou uvedeny d´ılˇ c´ı v´ ysledky rozboru vlivu jednotliv´ ych ˇ reˇ cov´ ych parametrizac´ı s vyhodnocen´ım modifikovan´ ych pˇ r´ıstup˚ u, kdy je pouˇ zito m´ enˇ e parametrizac´ı. D´ ale je uvedeno vyhodnocen´ı vlivu funkce pr˚ uchodu matic´ı vzd´ alenost´ı DTW na pˇ resnost klasifikace a je zm´ınˇ eno hodnocen´ı vlivu zmˇ en fonetick´ e struktury jako je vynech´ an´ı hl´ asky nebo slabiky v testovan´ ych slovech.
1
´ Uvod
Uveden´a metoda slouˇz´ı ke klasifikaci vad ˇreˇci dˇet´ı postiˇzen´ ych v´ yvojovou dysf´azi´ı (v´ yvojov´a nemluvnost d´ıtˇete, d´ıtˇe m´ a probl´em s ˇreˇc´ı jiˇz od doby, kdy zaˇc´ın´a mluvit) popˇr´ıpadˇe af´azi´ı (porucha mozkov´ ych center, kter´ a odpov´ıdaj´ı za tvorbu ˇreˇci za stavu, kdyˇz jiˇz d´ıtˇe umˇelo mluvit, pokud se pˇridaj´ı epileptick´e v´ yboje v mozku, jedn´a se o tzv.: Landau-Kleffner˚ uv syndrom). Dˇeti maj´ı probl´emy s vyslovov´ an´ım slov (nˇekter´e hl´asky jsou prodlouˇzeny, zamˇenˇeny nebo vynech´any), nejsou schopny vyslovit souvislejˇs´ı vˇetu. Projekt je ˇreˇsen ve spolupr´ aci s Fakultn´ı nemocnic´ı v Motole, kde jsou nahr´av´any promluvy postiˇzen´ ych dˇet´ı vˇcetnˇe l´eˇcby. Metoda byla navrˇzena s c´ılem oddˇelit promluvy nemocn´ ych dˇet´ı od zdrav´ ych a hlavnˇe by mˇela b´ yt schopna vyhodnotit, zda se stav d´ıtˇete v pr˚ ubˇehu l´eˇcby lepˇs´ı nebo ne.
2 2.1
Princip metody Algoritmus DTW a realizace klasifik´ atoru
Algoritmus DTW [9] byl p˚ uvodnˇe urˇcen pro realizaci rozpozn´avaˇce izolovan´ ych slov. Byla provedena jeho modifikace [1, 2, 10] tak, aby ho bylo moˇzno vyuˇz´ıt pro klasifikaci nesrozumitelnosti dˇetsk´ ych promluv. Jednotliv´e promluvy jsou segmentov´any s pˇrekryvem 50 %, segmenty jsou v´ahov´any Hammingov´ ym oknem a parametrizov´any. Popis parametrizac´ı je v n´asleduj´ıc´ım odstavci. N´aslednˇe je vypoˇc´ıt´ ana z porovn´avan´ ych dvou promluv matice euklidovsk´ ych vzd´alenost´ı [9]. Ta je proch´ azena z jednoho rohu do protilehl´eho a je vypoˇc´ıt´an celkov´ y souˇcet akumulovan´ ych vzd´alenost´ı, kter´ y charakterizuje m´ıru odliˇsnosti obou slov. Toto je z´akladn´ı princip popisovan´e metody klasifikace slov, kdy se porovn´ avaly promluvy jednoho slova od zdrav´ ych a nemocn´ ych dˇet´ı a pro promluvu nemocn´eho d´ıtˇete se pˇredpokl´adala vˇetˇs´ı akumulovan´a vzd´alenost. Protoˇze pˇri vyuˇzit´ı jedn´e parametrizace (prvn´ı pokusy byly prov´adˇeny pro kepstr´aln´ı koeficienty) doch´ azelo obˇcas ke vzniku chyb a ˇspatn´e klasifikaci slov, byl navrˇzen syst´em [1, 2, 10], kdy se vyuˇz´ıv´ a v´ıce r˚ uzn´ ych vstupn´ıch charakteristik ˇreˇci. T´ım jsou promluvy hodnoceny z v´ıce fonologick´ ych aspekt˚ u a dojde k eliminaci chyb. Nejprve jsou vˇsechny promluvy (pro konkr´etn´ı testovan´e slovo, napˇr.: mateˇr´ıdouˇska) od zdrav´ ych dˇet´ı porovn´ any pomoc´ı algoritmu DTW navz´ajem a je vypoˇc´ıt´ana pr˚ umˇern´a akumulovan´a vzd´alenost kaˇzd´eho slova zdrav´eho d´ıtˇete ode vˇsech ostatn´ıch. N´aslednˇe jsou porovn´any promluvy nemocn´ ych dˇet´ı (nebo obecnˇeji nov´e testovan´e promluvy) s promluvami zdrav´ ych (jiˇz dˇr´ıve zpracovan´ ych a uloˇzen´ ych v referenˇcn´ı datab´azi) a opˇet je vypoˇc´ıt´ana pr˚ umˇern´a vzd´alenost promluv nemocn´ ych dˇet´ı ode vˇsech zdrav´ ych. Tyto v´ ypoˇcty jsou provedeny pro vˇsechny vyuˇzit´e
parametrizace. Aby bylo moˇzn´e v´ ysledky spojit dohromady, je nutn´e prov´est pro kaˇzdou parametrizaci normov´ an´ı vzd´ alenost´ı (maxim´aln´ı hodnota pro zdrav´e dˇeti je rovna jedn´e) a v´ ysledky je moˇzn´e seˇc´ıst pˇres vˇsechny parametrizace, t´ım dojde pˇri spr´avn´e funkci algoritmu ke spolehlivˇejˇs´ımu a v´ yraznˇejˇs´ımu oddˇelen´ı promluv nemocn´ ych dˇet´ı.
2.2
Vybran´ eˇ reˇ cov´ e charakteristiky a jejich vliv
P˚ uvodnˇe bylo vybr´ ano ˇsestn´ act r˚ uzn´ ych parametrizac´ı: koeficienty odrazu - RC [4]; prvn´ı koeficient line´arn´ı predikce - LPC1 [6]; dvan´act koeficient˚ u line´arn´ı predikce - LPC [6]; logaritmus energie chyby predikce - Ep [6]; logaritmus energie sign´alu - Ep [7]; prvn´ı kepstr´aln´ı koeficient - CC1 [9]; druh´ y kepstr´ aln´ı koeficient - CC2 [9]; jeden´act kepstr´aln´ıch koeficient˚ u - CC [9]; poˇcet pr˚ uchod˚ u nulou - ZCR [7]; melovsk´e spektr´aln´ı koeficienty - MELSPEC [4], [5]; logaritmovan´e melovsk´e spektr´ aln´ı koeficienty - FBANK [4], [5]; melovsk´e; kepstr´aln´ı koeficienty MFCC [4], [5]; spektr´ aln´ı PLP koeficienty - SPEC PLP [8]; (kepstr´aln´ı) PLP koeficienty - PLP [8]; spektr´aln´ı PLP-RASTA koeficienty - SPEC PLP-RASTA [8]; (kepstr´aln´ı) PLP-RASTA koeficienty - PLP-RASTA [8]. Pro vyhodnocov´ an´ı chov´ an´ı a vlivu jednotliv´ ych parametrizac´ı byly mˇeˇreny pr˚ umˇern´e euklidovsk´e vzd´ alenosti (jako pˇri v´ ypoˇctu matice vzd´alenost´ı DTW algoritmu) mezi jednotliv´ ymi hl´askami v dˇetsk´e ˇreˇci. Tyto vzd´alenosti byly setˇr´ıdˇeny od nejkratˇs´ıch po nejdelˇs´ı a pro jednotliv´e parametrizace byly sestaveny skupiny ”podobn´ ych” hl´asek. T´ımto zp˚ usobem byla napˇr.: pro poˇcet pr˚ uchod˚ u nulou (ZCR) nalezena skupina hl´asek c, ˇc, f, ˇr, s ˇs, kter´a vykazuje vyˇsˇs´ı pr˚ umˇernou vzd´ alenost od ostatn´ıch. Je to d´ano t´ım, ˇze tyto hl´asky vykazuj´ı vyˇsˇs´ı poˇcet pr˚ uchod˚ u nulou, neˇz ostatn´ı. Statistick´e gaussovsk´e rozdˇelen´ı vzd´alenost´ı t´eto skupiny pro ZCR je na obr´azku 1, kde v horn´ı ˇc´ asti je rozdˇelen´ı poˇctu pr˚ uchod˚ u nulou (ˇcern´ y pr˚ ubˇeh znamen´ a rozdˇeleni n´ızk´eho ZCR zbytku abecedy a ˇcerven´ y je pro uvedenou skupinu, vysok´e ZCR) a v doln´ı ˇc´asti je rozdˇelen´ı vzd´ alenost´ı (ˇcern´ y pr˚ ubˇeh je pro vzd´alenosti uvnitˇr obou skupin, pro obˇe jsou mal´e a ˇcerven´ y je pro vzd´ alenosti mezi skupinami, velk´a).
Obr´azek 1: Rozdˇelen´ı poˇct˚ u pr˚ uchod˚ u nulou (horn´ı ˇc´ast, ˇcern´ y pr˚ ubˇeh je pro skupinu hl´asek ’ ’ ”a, b, d, d , e, g, h, ch, i, j, k, l, m, n, n ˇ, o, p, r, t, t , u, v, z, ˇz” a ˇcerven´ y pro ”c, ˇc, f, ˇr, s, ˇs”) a rozdˇelen´ı pr˚ umˇern´ ych euklidovsk´ ych vzd´alenost´ı (doln´ı ˇc´ast, ˇcern´ y pr˚ ubˇeh je pro hodnoty vzd´alenost´ı uvnitˇr obou skupin a ˇcerven´ y pro vzd´alenosti mezi skupinami)
Na obr´ azku 2 jsou v horn´ı ˇc´ asti rozdˇelen´ı vzd´alenost´ı pro logaritmus energie sign´alu (tato parametrizace oddˇeluje skupinu c, ˇc, f, k, ˇs, t t’, kter´a m´a n´ızkou energii od zbytku abecedy) a v doln´ı pro logaritmus energie chyby predikce, kter´a oddˇeluje skupinu a, e, i, f, h, l, n, o,ˇr, s, ˇs, z, ˇz.
Obr´azek 2: Rozdˇelen´ı pr˚ umˇern´ ych euklidovsk´ ych vzd´alenost´ı pro logaritmus energie (horn´ı ˇc´ast, ˇcern´ y pr˚ ubˇeh je pro hodnoty vzd´ alenost´ı uvnitˇr skupin ”c, ˇc, f, k, ˇs, t, t’” a ”a, b, d, d’, e, g, h, ch, i, j, l, m, n, n ˇ, o, p, r, ˇr, s, u, v, z, ˇz” a ˇcerven´ y pro vzd´alenosti mezi skupinami) a rozdˇelen´ı vzd´ alenost´ı pro logaritmus energie chyby predikce (doln´ı ˇc´ast, ˇcern´ y pr˚ ubˇeh je pro hodnoty vzd´ alenost´ı uvnitˇr skupin ”a, l, n, o, f, e, h, i, ˇr, s, ˇs, z, ˇz” a ”c, ˇc, ch, t’, b, d, d’, g, j, k, m, n ˇ p, r, t, u, v” a ˇcerven´ y pro vzd´ alenosti mezi skupinami)
2.3
Optimalizace DTW algoritmu
Aby DTW algoritmus co nejl´epe oddˇeloval promluvy nemocn´ ych dˇet´ı od zdrav´ ych, byly provedeny pokusy o jeho optimalizaci. Jedny z prvn´ıch pokus˚ u, kter´e byly prov´adˇeny, bylo normov´an´ı vˇsech promluv jak od zdrav´ ych, tak i od nemocn´ ych dˇet´ı na stejn´ y poˇcet segment˚ u pomoc´ı vztah˚ u v [9], (7.26-7.29). D´ale bylo zkouˇseno vyhlazov´ an´ı a urˇcit´e typy normalizace parametrizovan´ ych hodnot sign´alu [9] (7.62-7.67). Uk´ azalo se, ˇze tyto kroky jsou pro naˇse u ´ˇcely nevhodn´e, nebot’ byly urˇceny pro zlepˇsen´ı vlastnost´ı algoritmu pro u ´ˇcely rozpozn´av´an´ı slov, ale v naˇs´ı aplikaci smaz´avaj´ı rozd´ıly mezi promluvami od zdrav´ ych a nemocn´ ych dˇet´ı, ˇc´ımˇz se v´ ysledky zhorˇsuj´ı. Pˇri realizaci DTW algoritmu je je moˇzno volit r˚ uzn´e funkce pr˚ uchodu matic´ı vzd´alenost´ı [9]. Experiment´ alnˇe bylo ovˇeˇreno, ˇze nejlepˇs´ıch v´ ysledk˚ u bylo dosaˇzeno pro smˇer pr˚ uchodu definovan´ y n´asleduj´ıc´ı rovnic´ı. g(i − 1, j) + d(i, j) g(i, j) = g(i, j − 1) + d(i, j) g(i − 1, j − 1) + d(i, j)
(1)
Kde i = 1, 2, ..., I,j = 1, 2, ..., J, I a J jsou poˇcty segment˚ u prvn´ı a druh´e promluvy, kter´e se porovn´avaj´ı, d(i, j) je lok´ aln´ı hodnota euklidovsk´e vzd´alenosti pro aktu´aln´ı indexy i a j. Celkovou vzd´ alenost obou slov ud´ av´ a pak hodnota g(I, J), kter´a b´ yv´a dˇelena hodnotou (I + J) [9], pˇri vyuˇzit´ı DTW jako rozpozn´ avaˇce slov. Protoˇze v naprost´e vˇetˇsinˇe promluv nemocn´ ych dˇet´ı doch´az´ı jednak k z´amˇenˇe, ale hlavnˇe k prodluˇzov´ an´ı hl´ asek i promluv, je vhodn´e vynechat dˇelen´ı g(I, J) hodnotou (I + J), ˇc´ımˇz se zlepˇs´ı odstup promluv nemocn´ ych dˇet´ı od zdrav´ ych, coˇz je dalˇs´ı krok pˇri optimalizaci DTW. Probl´em m˚ uˇze nastat tehdy, kdyˇz nemocn´e d´ıtˇe promluvu v´ yraznˇe zkr´at´ı oproti zdrav´ ym (napˇr.: m´ısto slova ”mateˇr´ıdouˇska” je ˇreˇceno slovo ”matouˇska” a podobnˇe). Zde se potom akumulovan´ a vzd´alenost sn´ıˇz´ı aˇz k nejvyˇsˇs´ım hodnot´ am zdrav´ ych dˇet´ı a a slovo je obt´ıˇznˇe klasifikov´ano. Dan´ a situace bude d´ ale testov´ ana, budou se hledat parametrizace, kter´e jsou na zkr´acen´ı slova m´enˇe citliv´e. Je vhodn´e poˇc´ıtat celkov´e akumulovan´e vzd´alenosti souˇctem hodnot z nˇekolika r˚ uzn´ ych
vysloven´ ych slov dˇet´ı. ˇc´ımˇz se zv´ yrazn´ı odstup nemocn´ ych od zdrav´ ych a tento probl´em se potlaˇc´ı. D´ale je vhodn´e testy prov´ adˇet pro v´ıce slabiˇcn´a slova, protoˇze nˇekter´e nemocn´e dˇeti vyslovuj´ı jedno a dvouslabiˇcn´ a slova t´emˇeˇr jako zdrav´e.
3
Experiment´ aln´ı v´ ysledky
DTW algoritmus byl nastaven podle popisu v pˇredchoz´ım odstavci. Jednotliv´e parametrizace byly vyhodnocov´ any pro r˚ uzn´ a slova a byly prov´adˇeny testy, jak dobˇre oddˇeluj´ı promluvy nemocn´ ych dˇet´ı od zdrav´ ych. Lze ˇr´ıci, ˇze jako nejpˇresnˇejˇs´ı se jev´ı kepstr´aln´ı PLP a PLP-RASTA koeficienty, popˇr´ıpadˇe velmi dobˇre pracuj´ı koeficienty FBANK. Tento z´avˇer vypl´ yv´a i z pokus˚ u, kter´e naznaˇcuj´ı, ˇze ostatn´ı parametrizace ˇrad´ı promluvy od zdrav´ ych dˇet´ı k hranici nemocn´ ych, pokud nˇekter´e zdrav´e d´ıtˇe m´ a chraptiv´ y a zastˇren´ y hlas. Tento z´avˇer odpov´ıd´a teoretick´ ym pˇredpoklad˚ um, protoˇze PLP a PLP-RASTA koeficienty byly navrˇzeny s ohledem na potlaˇcen´ı rozd´ıl˚ u mezi mluvˇc´ımi pro zv´ yˇsen´ı u ´spˇeˇsnosti rozpozn´an´ı ˇreˇci. Uk´azka v´ ysledk˚ u pro slovo ”mateˇr´ıdouˇska” je na obr´azku 3, kde jsou vyneseny vzd´alenosti pro 18 nemocn´ ych dˇet´ı (b´ıl´ y pr˚ ubˇeh) a pro 6 nemocn´ ych (ˇcern´ y pr˚ ubˇeh), horn´ı ˇc´ast obr´azku je pro normovan´ y souˇcet pˇres vˇsech 16 parametrizac´ı, doln´ı ˇc´ast je jen pro 3 parametrizace FBANK, PLP a PLP-RASTA koeficienty. Z obr´azku je vidˇet, ˇze doch´az´ı skuteˇcnˇe ke smaz´av´an´ı rozd´ıl˚ u mezi zdrav´ ymi dˇetmi, algoritmus je m´enˇe citliv´ y na mluvˇc´ıho.
Obr´azek 3: V´ ysledek klasifikace slova ”mateˇr´ıdouˇska” pro vˇsech 16 parametrizac´ı (horn´ı ˇc´ast) a pro 3 parametrizace FBANK, PLP a PLP-RASTA (doln´ı ˇc´ast)
4
Z´ avˇ er
V pr´aci je pops´ an algoritmus pro vyhodnocov´an´ı promluv dˇet´ı s v´ yvojovou dysf´azi´ı, popˇr´ıpadˇe af´azi´ı s popisem vhodn´ ych parametrizac´ı a modifikace DTW algoritmu pro tyto u ´ˇcely. Dosavadn´ı experimenty naznaˇcuj´ı moˇznost vyuˇzit´ı metody pro objektivn´ı posouzen´ı nemoci a hodnocen´ı jej´ıho v´ yvoje. Dalˇs´ı pr´ ace budou zamˇeˇreny na testov´an´ı algoritmu na rozˇs´ıˇrenˇejˇs´ıch datab´az´ıch promluv, bude vyhodnocen vliv ˇsumu na u ´spˇeˇsnost klasifikace.
5
Podˇ ekov´ an´ı
ˇ - 102/03/H085 ”Modelov´an´ı biologick´ Pr´ace je podporov´ ana granty GA CR ych a ˇreˇcov´ ych ˇ - NR 8287-3/2005 ”Poˇc´ıtaˇcov´a anal´ sign´alu”, IGA MZ CR yza ˇreˇcov´eho projevu a celonoˇcn´ıch ˇ EEG z´aznamu u dˇet´ı” a MSM6840770012 ”Transdisciplin´arn´ı v´ yzkum v biomedic´ınsk´em inˇzen´ yrstv´ı 2”.
Reference ˇ [1] Cmejla R.: Vyhodnocov´ an´ı v´yslovnosti s vyuˇzit´ım DTW algoritmu. V´ yzkumn´a zpr´ava ˇ LK01/2005, K13131, FEL CVUT, Praha, srpen, 2005. ˇ [2] Zlatn´ık P., Cmejla R.: Application of the DTW algorithm for disordered speech evaluation. ˇ Digital Technologies ’05. University of Zilina, 2005, Slovak Republic. [3] Rabiner L., Juang P.: Fundamental of speech recognition. Prentice Hall, U.S.A., 1984. [4] Young S., et al.: The HTK Book. Version 3.2.1, Cambridge 2002, England. [5] ETSI.: European Telecommunications Standards Institute Nov. 2003, ETSI Standard, ETSI ES 202212, Version 1.1.1 France. [6] Harrington J., Cassidy S.: Techniques in speech acoustics. Kluwer Academic Publishers 1999, Netherlands. [7] Deller J. R., Hansen J. H. L., Proakis J. G.: Discrete-time processing of speech signals. IEEE Press 2000, U.S.A.. [8] Hermansky H., Morgan N.: Rasta processing of speech. IEEE Transaction on Speech and Audio Processing, Vol. 2, No. 4, pp. 587-589, October 1994, U.S.A. [9] Psutka J.: Komunikace s poˇc´ıtaˇcem mluvenou ˇreˇc´ı. Academia Praha, 1995, printed by CENTA, spol. s. r. o., Veveˇr´ı 39, Brno. ˇ [10] Zlatn´ık P., Cmejla R.: Disordered Speech Evaluation Using the DTW Algorithm. Analysis of biomedical signals and images, ISSN 1211-412X, Biosignal 2006, Brno.
ˇ e vysok´e uˇcen´ı technick´e v Praze, Fakulta elektrotechnick´a, K13131, TechIng. Petr Zlatn´ık, Cesk´ nick´a 2, 166 27 Praha 6. Tel.: (+420) 22435 2820, E-mail:
[email protected] ˇ ˇ e vysok´e uˇcen´ı technick´e v Praze, Fakulta elektrotechnick´ Doc. Ing. Roman Cmejla, CSc, Cesk´ a, K13131, Technick´ a 2, 166 27 Praha 6. Tel.: (+420) 22435 2236, E-mail:
[email protected]