A2M31RAT- Řečové aplikace v telekomunikacích. Aplikační úlohy rozpoznávání řeči a speciální techniky

A2M31RAT - Řečové aplikace v telekomunikacích Aplikační úlohy rozpoznávání řeči a speciální techniky. Doc. Ing. Petr Pollák, CSc.

12. května 2011 - 16:7

Obsah přednášky Adaptační techniky Teoretický základ Adaptace na mluvčího Adapatace na prostředí Příklady systémů

Rozpoznávání řečníka Typy úloh rozpoznávání řečníka Základní charakteristiky používané při rozpoznávání řečníka Základní přístupy

Rozpoznávání jazyka Princip a základní použití Fonotaktický přístup

Fonetická segmentace Základní aplikace Popis segmentace na bázi HMM Význam volby jednotlivých parametrů rozpoznávače

I. část Adaptační techniky v systémech rozpoznávání řeči

Motivace a specifikace problému

Adaptace = postupná (mírná) úprava natrénovaných modelů možno adaptovat jen vybrané parametry akustických modelů Použití adaptačních technik Přizpůsobení rozpoznávače nezávislého na mluvčím jednomu uživateli Selektivní výběr akustických modelů při přepisu zpravodajství, apod. Adaptace na podmínky prostředí

Typy adaptačních technik pro adaptace akustických modelů Podle znalosti obsahu (přepisu) adaptační promluvy Řízená adaptace - je k disposici fonetický přepis promluvy Neřízená adaptace - fonetický přepis promluvy musí být rozpoznán

Podle obsahu promluvy Adaptace závislá na textu - vždy stejná promluva Adaptace nezávislá na textu

Podle způsobu použití adaptačních dat Inkrementální (postupná) adaptace Bloková (dávková) adaptace

Podle typu adaptovaných parametrů Adaptace akustického modelu Transformace vektoru příznaků

MAP - Maximum Aposteriori Probability metoda maximální aposteriorní pravděpodobnosti známé rozložení apriorních pravděpodobností parametrů (z natrénovaných dat, tj. starý model) nejčastěji se adaptují jenom střední hodnoty, tj. např. PT τim µold new im + t=1 ζt (i , m)x(t) µim = PT τim + t=1 ζt (i , m) - τim - adaptační váha - adaptace i -tého stavu m-tého akustického modelu - adaptační data X, tj. x(1) . . . x(T ) PT - t=1 ζt (i , m) je okupační věrohodnost i -tého stavu m-tého modelu v čase t teoreticky nejlépe konverguje pro velké množství dat (+) adaptují se pouze modely elementů, které se vyskytly v adaptační množině (-)

MLLR - Maximum Likelihood Linear Regression

maximálně věrohodná lineární regrese technika založená na lineární transformaci parametrů µnew = Aµold im im + b adaptuje se transformační vztah třeba pro daný parametr výpočet transformační matice na bázi EM (Expectation-Maximization) algoritmu, odhad parametrů statistického modelu pro nepozorované realizace (jako trénování HMM) je možná bloková adaptace, použitelné i pro data, která nebyla v trénovací množině použití regresních tříd (automatické či expertní klastrování)

Techniky adaptace na známého a neznámého mluvčího

Adaptace na známého mluvčího obvykle řízená adaptace přečtení jasně definovaného textu přizpůsobení (diktovacího) systému jednomu stálému uživateli

Adaptace na neznámého mluvčího identifikace mluvčího a selektivní výběr modelu kombinace modelů v obecných transkripčních systémech

Výběr adaptačních dat

Při on-line aplikaci na neznámého mluvčího či prostředí není speciální výběr používají se aktuálně zpracovávaná data

Při aplikaci na známého mluvčího - selektivní výběr dat (přizpůsobení vlastního diktovacího či ovládacího systému) pokrytí nejčastěji se vyskytujícíh se slov co nejlepší zastoupení fonémů zastoupení důležitých řídících resp. klíčových slov zastoupení obtížně rozpoznatelných slov vybraná slova musí být jednoduše vyslovitelná VHODNÝ ROZSAH ADAPTAČNÍCH DAT

Vliv adaptace na mluvčího v LVCSR Srovnání úspěšnosti technik MAP a MLLR pro různé délky adaptačních dat

Převzato z: Petr Červa: Řízená a neřízená adaptace na mluvčího v systémech rozpoznávání řeči. Disertační práce. Technická univerzita v Liberci. 2007.

Ilustrativní vliv adaptace a předzpracování na WER v systému LVCSR Experiment 100 adaptačních a 100 testovacích vět (náhodný výběr, fonetické vyvážení) Close-talk mikrofon - kvalitní signál SI systém - 18,9 % SI systém, zvýrazňování řeči - 18,5 % SD systém, adaptace na mluvčího - 9,7 % SD systém, adaptace + zvýraňování - 9,5 %

Far-talk mikrofon (cca 1m), realtivně běžné prostředí kanceláře SI systém - 61,3 % SI systém, zvýrazňování řeči - 36,1 % SD systém, adaptace na mluvčího - 22,8 % SD systém, adaptace + zvýraňování - 18,7 %

Dvoufázová adaptace na neznámého mluvčího

Dvoufázová adaptace na mluvčího a komplexní systém automatického přepisu televizního zpravodajství

Převzato z: Petr Červa: Řízená a neřízená adaptace na mluvčího v systémech rozpoznávání řeči. Disertační práce. Technická univerzita v Liberci. 2007.

Ilustrativní výsledky adaptace na neznámého mluvčího Automatická transkripce televizních či rozhlasových zpráv (WER) Rozhlasové zprávy SI systém - 19,45 % SD systém - 15,03 %

Televizní zpravodajství SI systém - 22,96 % SD systém - 19,04 %

Vliv rozsahu slovníku v 1. fázi rozpoznávání WER po 1. fázi rozpoznávání (pro adaptaci) - 300 tis. slov - 23,34 %, 200 tis. slov - 27,28 % - 100 tis. slov - 29,01 %, 50 tis. slov - 32,84 % - 10 tis. slov - 55,26 % WER po 2. fázi rozpoznávání (finální skóre) - 300 tis. slov - 18,73 %, 200 tis. slov - 18,76 % - 100 tis. slov - 19,00 %, 50 tis. slov - 19,08 % - 10 tis. slov - 19,03 %

MLLR adaptace na prostředí MLLR adaptace na prostředí (a mluvčího) pro rozpoznávání v jedoucím automobilu

Převzato z: Josef Rajnoha, Petr Pollák: ASR Systems in Noisy Environment: Analysis and Solutions for Increasing Noise Robustness. Radioenginnering, Vol. 20, No. 1, April 2011.

II. část Rozpoznávání řečníka

Aplikační oblasti úlohy rozpoznávání mluvčího

ověření totožnosti mluvčího z hlediska bezpečnosti identifikace pro přístup k zabezpečeným systémům (bankovní účty, vstupy do chráněných objektů) kriminalistická praxe (dosud subjektivní fonetická analýza)

identifikace mluvčího s největší podobností hlasu rozpoznávače řeči závislé na mluvčím - modely závislé na pohlaví mluvčího - skupinové modely (transkripční systémy pro přepis rozhlasových/TV zpravodajství)

Blokové schéma a základní úlohy rozpoznávání mluvčího filtrace digitalizace

výpočet příznaků

porovnání modely mluvčích

Podle typu rozhodování - 2 základní úlohy 1

Verifikace mluvčího ověření předpokládané totožnosti mluvčího VÝSLEDEK = přijetí / odmítnutí

2

Identifikace mluvčího rozpoznání neznámého mluvčího největší podobnost hlasu VÝSLEDEK = ID mluvčího / skupiny

rozhodnutí

Používané příznaky pro rozpoznávání mluvčího

Obecné požadavky pro příznaky resp. systémy identifikace Vysoká variabilita pro různé mluvčí Nízká variabilita pro jednoho mluvčího odolnost vůči šumu a zkreslení odolnost proti hlasovým imitátorům

Používané příznaky LPC kepstrální příznaky (variabilita mezi mluvčími, malá robustnost vůči šumu) PLP, MFCC - obecně používané Speciální příznaky pro komplexnější rozhodování

Speciální příznaky pro rozpoznávání mluvčího

F2 v “n” F3 v “u” F2 v “i” délka trvání “k” . . . . . . obecnější formulace . . . . . hodnota formantu ve vybrané hlásce šířka pásma vybraného formantu ve vybrané hlásce směrnice poklesu formantu ve vybrané hlásce Průběh F0 ve vybrané větě (slově) průměrná hodnota F0 ve větě (slově) . . . . . apod. . . . . .

Používané klasifikační metody při rozpoznávání řečníka statistické modelování na bázi GMM - Gaussian Mixture Models (směsi Gaussovských funkcí modelujících typickou reprezentaci příznaků pro daného řečníka)

klasifikace na bázi VQ (měření kumulované vzdálenosti aktuálních příznakových vektorů od uložených typických reprezentantů)

Rozpoznávání na základě časových funkcí příznakových vektorů (v principu se počítá vzdálenost mezi vzorovým průběhem a verifikovanou promluvou - princip DTW)

Rozhodování při verifikaci mezi dvěma mluvčími na bázi GMM

p(d|h1 )

p(d|hi )

p(d|h2 )

TA TR FA

dT

FR

Rozhodnutí pro mluvčího 1: pdh1 > pdh2 (mluvčí s nejvyšší emitovanou pravděpodobností) Vyhodnocování klasifikace: TA - True acceptance FA - False acceptance TR - True rejection FR - False rejection EER - Equal Error Rate FR = FA

d

Obecné závěry použitelnosti systémů rozpoznávání mluvčího řečník se nesmí pokoušet měnit hlas podmínky nahrávání jsou známé nebo je lze ovlivnit obdobná data jsou k disposici pro trénování (či pro referenční promluvy) verifikační práh je experimentálně stanoven pro každou konkrétní aplikaci řečník musí se systémem spolupracovat je nutné minimalizovat možnost podvodného ovlivnění nesmí být možné použít syntezátory identifikační promluva obsahuje pouze známá slova dosahovaná chybovost 0.5 % pro textově závislou verifikaci (2 % po telefonu) dosahovaná chybovost 2 % pro textově nezávislou verifikaci (10 % po telefonu) dosahovaná chybovost 60-99 % pro rozpoznávání mluvčího

III. část Rozpoznávání jazyka

Motivace a specifikace problému rozpoznávání jazyka

Aplikační oblast LRE (Language Recognition) Multilingvální jazykové informační systémy

Charakter jazyka určují následující rysy fonetický obsah sled fonémů (fonotaktické charaktersitiky) prosodie (fo ) slovní zásoba, morfologie slovní jazykový model

Základní principiální struktura LRE systému

Extrakce příznaků MFCC resp. možné modifikace speciální příznaky jako energie, fo , rytmické charakteristiky

Klasifikace v několika stupních základem často fonémový rozpoznávač klasifikátory: GMM, ANN, SVM, RBF apod. prahování v různých stupních rozhodování

Statistické modely v subsystémech akustické modely jazykové modely (na úrovni fonémů či slov)

Fůze dílčích rozhodnutí (modely více jazyků) (ANN, GMM, apod.)

Rozpoznávání jazyka Základní principiální model systému rozpoznávání jazyka

Fonotaktický systém rozpoznávání jazyka z FIT VUT

Převzato z: Pavel Matějka: Phonotactic and Acoustic Language Recognition. Disertační práce. Vysoké učení technické v Brně. 2008.

Rozpoznávání jazyka

Základní principiální model systému rozpoznávání jazyka

Převzato z: Pavel Matějka: Phonotactic and Acoustic Language Recognition. Disertační práce. Vysoké učení technické v Brně. 2008.

Dosahované výsledky LRE

velmi závislé na konfiguraci - mnoho různých přístupů závislé na množství testovacích dat

testovací data 30s ≈ EER cca 5 % testovací data 10s ≈ EER cca 10 % testovací data 3s ≈ EER 20 - 30 %

IV. část Fonetická segmentace na bázi HMM

Motivace použití fonetické segmentace

Nejvýznamnější aplikace fonetické segmentace -

pre-segmentace před následným manuálním labelováním trénování rozpoznávačů řeči, definice tříd pro algoritmy na bázi LDA, trénování neuronových sítí semi-automatická VAD reference,

Nejčastěji používané techniky: - na bázi korelace sousedních segmentů - Bayessovská detekce změn - zarovnání natrénovaných HMM modelů

Princip segmentačního algoritmu na bázi HMM Vstup algoritmu - signál & ortografická transkripce & natrénovaný akustický model Vlastní segmentace - zarovnání natrénovaných modelů tj. rozpoznávání fonémů (monofónů, trifónů) na bázi HMM Varianty: zarovnání u známé resp. . neznámé promluvy Základní přístup labelování známé promluvy je založen na použití generované kanonické (pravidelné) fonetické transcripce. 1

2

3

podle výslovnostních pravidel nástroj “transc” použití speciální syntaxe pro vstup skutečné výslovnosti “(Shakespeare/šejkspír)” “(včera/čera) (jsem/s@m) dal tři góly” výslovnostní lexikon může obsahovat více výslovnostních variant

Dosažitelná přesnost základní segmentace na bázi HMM

SPB - angl. Shift of Phone Beginning, SPE - angl. Shift of Phone End CPL - angl. Change of Phone Length Typicky dosahované výsledky: - průměrné hodnoty: SPB ≈ 8.5, SPE ≈ 16.5, CPL ≈ 7 [ms] - standardní odchylky: SPB ≈ 25, SPE ≈ 20, CPL ≈ 30 [ms] silná závislost na použité segmentaci krátkodobé Fourierovy analýzy: - optimální volba 25/10 ms - 16/8 lepší pro CPL, - 32/16 lepší pro SPB a SPE

Příklad realizované fonetické segmentace v prostředí Praat

Závěry a diskuse k fonetické segmentaci na bázi HMM nejčastější zdroje chyb: - jako u rozpoznávání (nepřizpůsobení dat, nedostatečné natrénování) - specifické chyby v úloze segmentace: krátké hlásky vs. 3 stavy HMM modelování speciálních hlásek “gst” práce s ortoepickou (kanonickou) fonetickou transkripcí

⇓ speciální modelování - přeskoky, kratší či delší modely, apod. → problémy s trénováním výslovnostní varianty pro zachycení variant výslovnosti - akceptovatelné pro neformální styl promluvy - výslovnostní varianty generovat výčtem v lexikonu - obecnější definice možných záměn výslovnosti (otázka přesnosti následného modelování - obtížné hodnocení)

Děkuji vám za pozornost !

A2M31RAT- Řečové aplikace v telekomunikacích. Aplikační úlohy rozpoznávání řeči a speciální techniky

Recommend Documents