A2M31RAT - Řečové aplikace v telekomunikacích Aplikační úlohy rozpoznávání řeči a speciální techniky. Doc. Ing. Petr Pollák, CSc.
12. května 2011 - 16:7
Obsah přednášky Adaptační techniky Teoretický základ Adaptace na mluvčího Adapatace na prostředí Příklady systémů
Rozpoznávání řečníka Typy úloh rozpoznávání řečníka Základní charakteristiky používané při rozpoznávání řečníka Základní přístupy
Rozpoznávání jazyka Princip a základní použití Fonotaktický přístup
Fonetická segmentace Základní aplikace Popis segmentace na bázi HMM Význam volby jednotlivých parametrů rozpoznávače
I. část Adaptační techniky v systémech rozpoznávání řeči
Motivace a specifikace problému
Adaptace = postupná (mírná) úprava natrénovaných modelů možno adaptovat jen vybrané parametry akustických modelů Použití adaptačních technik Přizpůsobení rozpoznávače nezávislého na mluvčím jednomu uživateli Selektivní výběr akustických modelů při přepisu zpravodajství, apod. Adaptace na podmínky prostředí
Typy adaptačních technik pro adaptace akustických modelů Podle znalosti obsahu (přepisu) adaptační promluvy Řízená adaptace - je k disposici fonetický přepis promluvy Neřízená adaptace - fonetický přepis promluvy musí být rozpoznán
Podle obsahu promluvy Adaptace závislá na textu - vždy stejná promluva Adaptace nezávislá na textu
Podle způsobu použití adaptačních dat Inkrementální (postupná) adaptace Bloková (dávková) adaptace
Podle typu adaptovaných parametrů Adaptace akustického modelu Transformace vektoru příznaků
MAP - Maximum Aposteriori Probability metoda maximální aposteriorní pravděpodobnosti známé rozložení apriorních pravděpodobností parametrů (z natrénovaných dat, tj. starý model) nejčastěji se adaptují jenom střední hodnoty, tj. např. PT τim µold new im + t=1 ζt (i , m)x(t) µim = PT τim + t=1 ζt (i , m) - τim - adaptační váha - adaptace i -tého stavu m-tého akustického modelu - adaptační data X, tj. x(1) . . . x(T ) PT - t=1 ζt (i , m) je okupační věrohodnost i -tého stavu m-tého modelu v čase t teoreticky nejlépe konverguje pro velké množství dat (+) adaptují se pouze modely elementů, které se vyskytly v adaptační množině (-)
MLLR - Maximum Likelihood Linear Regression
maximálně věrohodná lineární regrese technika založená na lineární transformaci parametrů µnew = Aµold im im + b adaptuje se transformační vztah třeba pro daný parametr výpočet transformační matice na bázi EM (Expectation-Maximization) algoritmu, odhad parametrů statistického modelu pro nepozorované realizace (jako trénování HMM) je možná bloková adaptace, použitelné i pro data, která nebyla v trénovací množině použití regresních tříd (automatické či expertní klastrování)
Techniky adaptace na známého a neznámého mluvčího
Adaptace na známého mluvčího obvykle řízená adaptace přečtení jasně definovaného textu přizpůsobení (diktovacího) systému jednomu stálému uživateli
Adaptace na neznámého mluvčího identifikace mluvčího a selektivní výběr modelu kombinace modelů v obecných transkripčních systémech
Výběr adaptačních dat
Při on-line aplikaci na neznámého mluvčího či prostředí není speciální výběr používají se aktuálně zpracovávaná data
Při aplikaci na známého mluvčího - selektivní výběr dat (přizpůsobení vlastního diktovacího či ovládacího systému) pokrytí nejčastěji se vyskytujícíh se slov co nejlepší zastoupení fonémů zastoupení důležitých řídících resp. klíčových slov zastoupení obtížně rozpoznatelných slov vybraná slova musí být jednoduše vyslovitelná VHODNÝ ROZSAH ADAPTAČNÍCH DAT
Vliv adaptace na mluvčího v LVCSR Srovnání úspěšnosti technik MAP a MLLR pro různé délky adaptačních dat
Převzato z: Petr Červa: Řízená a neřízená adaptace na mluvčího v systémech rozpoznávání řeči. Disertační práce. Technická univerzita v Liberci. 2007.
Ilustrativní vliv adaptace a předzpracování na WER v systému LVCSR Experiment 100 adaptačních a 100 testovacích vět (náhodný výběr, fonetické vyvážení) Close-talk mikrofon - kvalitní signál SI systém - 18,9 % SI systém, zvýrazňování řeči - 18,5 % SD systém, adaptace na mluvčího - 9,7 % SD systém, adaptace + zvýraňování - 9,5 %
Far-talk mikrofon (cca 1m), realtivně běžné prostředí kanceláře SI systém - 61,3 % SI systém, zvýrazňování řeči - 36,1 % SD systém, adaptace na mluvčího - 22,8 % SD systém, adaptace + zvýraňování - 18,7 %
Dvoufázová adaptace na neznámého mluvčího
Dvoufázová adaptace na mluvčího a komplexní systém automatického přepisu televizního zpravodajství
Převzato z: Petr Červa: Řízená a neřízená adaptace na mluvčího v systémech rozpoznávání řeči. Disertační práce. Technická univerzita v Liberci. 2007.
Ilustrativní výsledky adaptace na neznámého mluvčího Automatická transkripce televizních či rozhlasových zpráv (WER) Rozhlasové zprávy SI systém - 19,45 % SD systém - 15,03 %
Televizní zpravodajství SI systém - 22,96 % SD systém - 19,04 %
Vliv rozsahu slovníku v 1. fázi rozpoznávání WER po 1. fázi rozpoznávání (pro adaptaci) - 300 tis. slov - 23,34 %, 200 tis. slov - 27,28 % - 100 tis. slov - 29,01 %, 50 tis. slov - 32,84 % - 10 tis. slov - 55,26 % WER po 2. fázi rozpoznávání (finální skóre) - 300 tis. slov - 18,73 %, 200 tis. slov - 18,76 % - 100 tis. slov - 19,00 %, 50 tis. slov - 19,08 % - 10 tis. slov - 19,03 %
MLLR adaptace na prostředí MLLR adaptace na prostředí (a mluvčího) pro rozpoznávání v jedoucím automobilu
Převzato z: Josef Rajnoha, Petr Pollák: ASR Systems in Noisy Environment: Analysis and Solutions for Increasing Noise Robustness. Radioenginnering, Vol. 20, No. 1, April 2011.
II. část Rozpoznávání řečníka
Aplikační oblasti úlohy rozpoznávání mluvčího
ověření totožnosti mluvčího z hlediska bezpečnosti identifikace pro přístup k zabezpečeným systémům (bankovní účty, vstupy do chráněných objektů) kriminalistická praxe (dosud subjektivní fonetická analýza)
identifikace mluvčího s největší podobností hlasu rozpoznávače řeči závislé na mluvčím - modely závislé na pohlaví mluvčího - skupinové modely (transkripční systémy pro přepis rozhlasových/TV zpravodajství)
Blokové schéma a základní úlohy rozpoznávání mluvčího filtrace digitalizace
výpočet příznaků
porovnání modely mluvčích
Podle typu rozhodování - 2 základní úlohy 1
Verifikace mluvčího ověření předpokládané totožnosti mluvčího VÝSLEDEK = přijetí / odmítnutí
2
Identifikace mluvčího rozpoznání neznámého mluvčího největší podobnost hlasu VÝSLEDEK = ID mluvčího / skupiny
rozhodnutí
Používané příznaky pro rozpoznávání mluvčího
Obecné požadavky pro příznaky resp. systémy identifikace Vysoká variabilita pro různé mluvčí Nízká variabilita pro jednoho mluvčího odolnost vůči šumu a zkreslení odolnost proti hlasovým imitátorům
Používané příznaky LPC kepstrální příznaky (variabilita mezi mluvčími, malá robustnost vůči šumu) PLP, MFCC - obecně používané Speciální příznaky pro komplexnější rozhodování
Speciální příznaky pro rozpoznávání mluvčího
F2 v “n” F3 v “u” F2 v “i” délka trvání “k” . . . . . . obecnější formulace . . . . . hodnota formantu ve vybrané hlásce šířka pásma vybraného formantu ve vybrané hlásce směrnice poklesu formantu ve vybrané hlásce Průběh F0 ve vybrané větě (slově) průměrná hodnota F0 ve větě (slově) . . . . . apod. . . . . .
Používané klasifikační metody při rozpoznávání řečníka statistické modelování na bázi GMM - Gaussian Mixture Models (směsi Gaussovských funkcí modelujících typickou reprezentaci příznaků pro daného řečníka)
klasifikace na bázi VQ (měření kumulované vzdálenosti aktuálních příznakových vektorů od uložených typických reprezentantů)
Rozpoznávání na základě časových funkcí příznakových vektorů (v principu se počítá vzdálenost mezi vzorovým průběhem a verifikovanou promluvou - princip DTW)
Rozhodování při verifikaci mezi dvěma mluvčími na bázi GMM
p(d|h1 )
p(d|hi )
p(d|h2 )
TA TR FA
dT
FR
Rozhodnutí pro mluvčího 1: pdh1 > pdh2 (mluvčí s nejvyšší emitovanou pravděpodobností) Vyhodnocování klasifikace: TA - True acceptance FA - False acceptance TR - True rejection FR - False rejection EER - Equal Error Rate FR = FA
d
Obecné závěry použitelnosti systémů rozpoznávání mluvčího řečník se nesmí pokoušet měnit hlas podmínky nahrávání jsou známé nebo je lze ovlivnit obdobná data jsou k disposici pro trénování (či pro referenční promluvy) verifikační práh je experimentálně stanoven pro každou konkrétní aplikaci řečník musí se systémem spolupracovat je nutné minimalizovat možnost podvodného ovlivnění nesmí být možné použít syntezátory identifikační promluva obsahuje pouze známá slova dosahovaná chybovost 0.5 % pro textově závislou verifikaci (2 % po telefonu) dosahovaná chybovost 2 % pro textově nezávislou verifikaci (10 % po telefonu) dosahovaná chybovost 60-99 % pro rozpoznávání mluvčího
III. část Rozpoznávání jazyka
Motivace a specifikace problému rozpoznávání jazyka
Aplikační oblast LRE (Language Recognition) Multilingvální jazykové informační systémy
Charakter jazyka určují následující rysy fonetický obsah sled fonémů (fonotaktické charaktersitiky) prosodie (fo ) slovní zásoba, morfologie slovní jazykový model
Základní principiální struktura LRE systému
Extrakce příznaků MFCC resp. možné modifikace speciální příznaky jako energie, fo , rytmické charakteristiky
Klasifikace v několika stupních základem často fonémový rozpoznávač klasifikátory: GMM, ANN, SVM, RBF apod. prahování v různých stupních rozhodování
Statistické modely v subsystémech akustické modely jazykové modely (na úrovni fonémů či slov)
Fůze dílčích rozhodnutí (modely více jazyků) (ANN, GMM, apod.)
Rozpoznávání jazyka Základní principiální model systému rozpoznávání jazyka
Fonotaktický systém rozpoznávání jazyka z FIT VUT
Převzato z: Pavel Matějka: Phonotactic and Acoustic Language Recognition. Disertační práce. Vysoké učení technické v Brně. 2008.
Rozpoznávání jazyka
Základní principiální model systému rozpoznávání jazyka
Převzato z: Pavel Matějka: Phonotactic and Acoustic Language Recognition. Disertační práce. Vysoké učení technické v Brně. 2008.
Dosahované výsledky LRE
velmi závislé na konfiguraci - mnoho různých přístupů závislé na množství testovacích dat
testovací data 30s ≈ EER cca 5 % testovací data 10s ≈ EER cca 10 % testovací data 3s ≈ EER 20 - 30 %
IV. část Fonetická segmentace na bázi HMM
Motivace použití fonetické segmentace
Nejvýznamnější aplikace fonetické segmentace -
pre-segmentace před následným manuálním labelováním trénování rozpoznávačů řeči, definice tříd pro algoritmy na bázi LDA, trénování neuronových sítí semi-automatická VAD reference,
Nejčastěji používané techniky: - na bázi korelace sousedních segmentů - Bayessovská detekce změn - zarovnání natrénovaných HMM modelů
Princip segmentačního algoritmu na bázi HMM Vstup algoritmu - signál & ortografická transkripce & natrénovaný akustický model Vlastní segmentace - zarovnání natrénovaných modelů tj. rozpoznávání fonémů (monofónů, trifónů) na bázi HMM Varianty: zarovnání u známé resp. . neznámé promluvy Základní přístup labelování známé promluvy je založen na použití generované kanonické (pravidelné) fonetické transcripce. 1
2
3
podle výslovnostních pravidel nástroj “transc” použití speciální syntaxe pro vstup skutečné výslovnosti “(Shakespeare/šejkspír)” “(včera/čera) (jsem/s@m) dal tři góly” výslovnostní lexikon může obsahovat více výslovnostních variant
Dosažitelná přesnost základní segmentace na bázi HMM
SPB - angl. Shift of Phone Beginning, SPE - angl. Shift of Phone End CPL - angl. Change of Phone Length Typicky dosahované výsledky: - průměrné hodnoty: SPB ≈ 8.5, SPE ≈ 16.5, CPL ≈ 7 [ms] - standardní odchylky: SPB ≈ 25, SPE ≈ 20, CPL ≈ 30 [ms] silná závislost na použité segmentaci krátkodobé Fourierovy analýzy: - optimální volba 25/10 ms - 16/8 lepší pro CPL, - 32/16 lepší pro SPB a SPE
Příklad realizované fonetické segmentace v prostředí Praat
Závěry a diskuse k fonetické segmentaci na bázi HMM nejčastější zdroje chyb: - jako u rozpoznávání (nepřizpůsobení dat, nedostatečné natrénování) - specifické chyby v úloze segmentace: krátké hlásky vs. 3 stavy HMM modelování speciálních hlásek “gst” práce s ortoepickou (kanonickou) fonetickou transkripcí
⇓ speciální modelování - přeskoky, kratší či delší modely, apod. → problémy s trénováním výslovnostní varianty pro zachycení variant výslovnosti - akceptovatelné pro neformální styl promluvy - výslovnostní varianty generovat výčtem v lexikonu - obecnější definice možných záměn výslovnosti (otázka přesnosti následného modelování - obtížné hodnocení)
Děkuji vám za pozornost !