A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie Doc. Ing. Petr Pollák, CSc. Míst. 461, email:
[email protected] http://noel.feld.cvut.cz/vyu/a2m31rat
16. února 2011 - 10:26
Obsah přednášky
Přehled aplikací hlasových technologií Model vzniku řeči a základní charakteristiky řeči Řečový signál - vzorkování a kvantování Základní charakteristiky řeči v časové oblasti
I. část Přehled aplikací hlasových technologií
Aplikace hlasových technologií rozpoznávání řeči (izolovaná slova, malý vs. velký slovník, spojitá řeč, spontánní řeč), hlasové ovládání, automatický přepis, diktovací systémy, automatické titulkování rozpoznávání řečníka, rozpoz. jazyka, audio-vizuální rozpoz. extrakce příznaků (analýza signálu), statistické modelování komputační lingvistika, lexikální struktura jazyka, morfologie TTS (převod textu do mluvené podoby - syntéza) dialogové systémy (informační systémy - telefonní, kiosek) kódování pro elektronické uložení promluvy, přenos telekomunikačním kanálem měření kvality řeči, měření míry zkreslení zvýrazňování řeči, odstraňování šumu (mobilní komunikace) databáze řeči, textové korpusy, slovníky automatické překladače (textový/hlasový vstup/výstup) analýza řečového signálu fonetika, fonologie, fyziologie tvorby řeči, dialekty jazyka poruchy řeči, klinická diagnostika, logopedie, výuka jazyků
Aplikace hlasových technologií - telekomunikace rozpoznávání řeči (izolovaná slova, malý vs. velký slovník, spojitá řeč, spontánní řeč), hlasové ovládání, automatický přepis, diktovací systémy, automatické titulkování rozpoznávání řečníka, rozpoz. jazyka , audio-vizuální rozpoz. extrakce příznaků (analýza signálu), statistické modelování komputační lingvistika, lexikální struktura jazyka, morfologie TTS (převod textu do mluvené podoby - syntéza) dialogové systémy (informační systémy - telefonní, kiosek) kódování pro elektronické uložení promluvy, kódování v telekomunikačním kanále měření kvality řeči, měření míry zkreslení zvýrazňování řeči, odstraňování šumu (mobilní komunikace) databáze řeči, textové korpusy, slovníky automatické překladače (textový/hlasový vstup/výstup) analýza řečového signálu fonetika, fonologie, fyziologie tvorby řeči, dialekty jazyka poruchy řeči, klinická diagnostika, logopedie, výuka jazyků
Státnicové okruhy související s problematikou zpracování řeči Společné otázky - obecné CZS Lineární a cyklická konvoluce, zpracování dlouhých signálů, vlastnosti DFT, váhování, číslicové filtry, kvantování a jeho důsledky (A2M99CZS) Převzorkování, banky filtrů, odhad parametrů náhodných signálů, spektrální a korelační analýza, modelování a lineární predikce (A2M99CZS)
Oborově specifické otázky pro obor “Sítě elektronických komunikací” Digitalizace řečového signálu, spektrální charakteristiky, vokodéry používané v telekomunikacích, subjektivní a objektivní měření kvality řečového signálu (A2M31RAT). Náhrada ztracených segmentů řeči při přenosu komunikačním kanálem, metody potlačování šumu v řečovém signálu, potlačování echa (A2M31RAT). Principy a způsoby realizace rozpoznávání řeči, syntéza řeči, dialogové komunikační systémy (A2M31RAT).
II. část Model vzniku řeči a základní charakteristiky řeči
Fyziologie hlasového ústrojí Artikulační orgány hlasového ústrojí člověka dutina nosní
zuby a rty dutina ústní jazyk
do žaludku
tvrdé patro měkké patro dutina hrdelní hlasivky do plic
Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.
Model vzniku řeči
Model hlasového ústrojí člověka
dutina hrdelní
plíce
dutina nosní
nos
dutina ústní
rty
hlasivky
Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.
Model vzniku řeči Model generování řečového signálu fo generátor pulzů
Parametry hlasového G (zesílení) ústrojí
Model produkce generátor šumu
s[n]
znělá/neznělá
Model produkce řeči - AR model - nejjednodušší model - snadná identifikace parametrů AR modelu pomocí LPC analýzy - souvislost s rezonátory hlasového ústrojí
Fyziologie vnímání - percepce Ucho - sluchový aparát člověka třmínek kovadlinka kladívko
vnější zvukovod
bubínek
hlemýžď (cochlea)
bubínek + třmínek, kovadlina, kladívko: přenos kmitů na nervová zakončení nervových vláken do hlemýždě hlemýžď - nervová zakončení na obvodu zužujícího se profilu informace vedená do mozku = vyhodnocení energie ve frekvenčním spektru
Reprezentace řeči - informační obsah
Akustická úroveň časový průběh, spektrální reprezentace kvazistacionární signál (10-30 ms) kvaziperiodický vs. neperiodický (znělý vs. neznělý) pásmově omezený signál (8000 Hz resp. 4000 Hz) →
fs
Fonetická a fonologická úroveň fonetika - základní element je hláska (fón) - zvukový charakter fonologie - základní element je foném - lingvistický charakter hláska je akustickou realizací fonému česká fonetická abeceda rozlišuje 44 (42) hlásek fonetická abeceda SAMPA
Reprezentace řeči - informační obsah Elementy řečového signálu +1 [V] 0 -1 0,1
0 s
0,2 e
d
0,3 u
#-s
s-e+d s-e
e-d
X d-u+m d-u
[s]
m
se #-s+e
0,4
u-m
0,5
fonémy
sedum
slovo
dum
slabiky
u-m+# m-# X=e-d+m
trifóny difóny
III. část Řečový signál - vzorkování a kvantování
Vzorkování a kvantování signálu - PCM x(t) . . . analogový signál
x[n] . . . diskrétní signál
n
t Ts
nTs Ts
x(t) . . . analogový signál
xd [n] . . . digitální signál
t Ts
nTs Ts
n
Vzorkování řečového signálu Minimální vzorkovací kmitočet - fs = 8 kHz zajištěna srozumitelnost jednotlivých hlásek základní rozlišení hlasových charakteristik mluvčího používáno v telefonních aplikacích (nižší vzorkovací kmitočty pouze v dílčích algoritmech)
Nejrozšířenější vzorkovací kmitočet - fs = 16 kHz zlepšené rozlišení hlasových charakteristik mluvčího používán na vstupech hlasem ovládaných systémů komunikace po Interenetu (VoIP sítě)
Vyšší vzorkovací kmitočty použití spíše řidší - pozvolný nárůst sbírané řečové databáze již uchovávají data v nejvyšší kvalitě fs = 44, 1 kHz - CD kvalita fs = 48 kHz - snadné převzorkování na 16 kHz či 8 kHz
Lineárně kvantovaná reprezentace řeči 16-bitová PCM (Pulse Code Modulation) základní číslicová reprezentace řečového signálu dynamický rozsah (15 bitů pro absolutní hodnotu) 20 log 215 ≈ 90dB (dynamika řeči je asi 50 dB)
Formáty reprezentace zvukových souborů Microsoft RIFF WAV - obsahuje hlavičku 44 bytů s informacemi o vzorkovací frekvenci, počtu kanálů, počtu bitů, atd. RAW soubor (bez hlavičky) - nutno mít dodatečné informace o formátu dat pro více bytové reprezentace - pořadí bytů (Little Endian, Big Endian) další formáty pro různé platformy resp. systémy konverze mezi různými zvukovými formáty - sox (freeware)
Nelineární kvantovaní řečového signálu
Nevýhody lineárního kvantování řečového signálu řečový signál obsahuje mnoho vzorků malých hodnot hustota pravděpodobnosti rozložení hodnot není rovnoměrná ucho má též logaritmickou citlivost na amplitudu akustického tlaku
⇓ Nelineární logaritmické kvantování principiální blokové schéma . . . . využití v telefonních aplikacích nejčastěji používané standardy: A-law, µ-law
Nelineární kvantování řečového signálu - A-law
a |x[n]| · · sgn x[n] , Ymax · 1 + ln a Xmax a · |x[n]| y [n] = 1 + ln Xmax Y · sgn x[n] , max · 1 + ln a
x[n] =
1 + ln a |y [n]| Xmax · · sgn y [n] , · a Ymax Xmax · e a
»
|y[n]|(1+ln a) Ymax
−1
–
· sgn y [n] ,
x[n] je hodnota vzorku v lineárním měřítku y [n] je hodnota v měřítku logaritmickém.
pro |x[n]| <
Xmax , a
v ostatních případech.
pro |y [n]| <
Ymax , 1 + ln a
v ostatních případech.
Nelineární kvantování řečového signálu - A-law Lineární PCM 12 bitů (11+1) - maximální hodnota 2048 2000 1500 1000 500 00
50
100
60 50 40 30 20 10 00
Detail převodní charakteristiky
5
10
15
a-law 8 bitů
20
25
30
a-law 8 bitů
35
40
45
Lineární PCM 11 bitů (10+1) - maximální hodnota 1024 1000 800 600 400 200 00
50
100
a-law 8 bitů
30 25 20 15 10 5 00
Detail převodní charakteristiky
5
10
15
20
25
30
a-law 8 bitů
35
40
Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.
45
Nelineární kvantování A-law dle ITU-T G.711
PCM 13 bitů (12+1)
3500 3000 2500 2000 1500 1000 500 00
20
40
60
80
a-law 8 bitů (7+1)
100
120
Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.
IV. část Základní charakteristiky řeči v časové oblasti
Přehled charakteristik řeči v časové oblasti
Energie (výkon), RMS, obálka Intenzita Počet průchodů nulou Autokorelační funkce
řeč je nestacionární signál krátkodobé charakteristiky segmentace (do kvazistacionárních úseků ≈ 20 − 30 ms) ⇓ Odhady resp. zpracování se provádějí VŽDY v uvedených kvazistacionárních segmentech
Energetické charakteristiky řeči v časové oblasti Energie (E ) resp. výkon (P) signálu E =
N X
x 2 [n]
P=
n=1
N 1 X 2 x [n] N n=1
(RMS) hodnota (efektivní h., pro vyjádření hlasitosti) v u N uP 2 u t n=1 x [n] RMS = N Efektivní hodnota resp. výkon v dB
PdB
! N 1 X 2 = 10 log ǫ + x [n] , RMSdB N n=1
v u N uP 2 u t n=1 x [n] = 20 log ǫ + N
Energetické charakteristiky řeči v časové oblasti
(PP) spičková hodnota (peak-to-peak) PP = max(x[n]) − min(x[n]). Energie vs. intenzita E=
N X
x 2 [n]
n=1
- odlišná dynamika od energie
M=
N X n=1
|x[n]|
Další charakteristiky řeči v časové oblasti
(ZCR) počet průchodů nulou (zero-crossing rate) ZCR =
N 1 X |sgn x[n] − sgn x[n − 1]| · fs [Hz]. N n=1 2
- četnost přepočítána na frekvenci - použití zejména pro detekci neznělých hlásek, začátku a konce promluvy, apod.
Další charakteristiky řeči v časové oblasti Autokorelační funkce (LPC analýza, odhad fo ) 1 Rx [k] = N
N−|k|−1
X
x[n]x[n + k], pro 0 ≤ k < N
k=0
Vzájemná korelační funkce (odhad zpoždění mezi dvěma kanály) N−|k|−1 1 X x[n]y [n + k] , pro 0 ≤ k < N, N k=0 Rxy [k] = N−|k|−1 1 X x[n + k]y [n] , pro − N < k < 0 . N k=0
Koeficient korelovanosti (segmentace signálu) |Rxy [0]| rxy = p Rx [0]Ry [0]
Děkuji za pozornost