A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie Doc. Ing. Petr Pollák, CSc. Míst. 461, email: [email protected] http://noel.feld.cvut.cz/vyu/a2m31rat

16. února 2011 - 10:26

Obsah přednášky

Přehled aplikací hlasových technologií Model vzniku řeči a základní charakteristiky řeči Řečový signál - vzorkování a kvantování Základní charakteristiky řeči v časové oblasti

I. část Přehled aplikací hlasových technologií

Aplikace hlasových technologií rozpoznávání řeči (izolovaná slova, malý vs. velký slovník, spojitá řeč, spontánní řeč), hlasové ovládání, automatický přepis, diktovací systémy, automatické titulkování rozpoznávání řečníka, rozpoz. jazyka, audio-vizuální rozpoz. extrakce příznaků (analýza signálu), statistické modelování komputační lingvistika, lexikální struktura jazyka, morfologie TTS (převod textu do mluvené podoby - syntéza) dialogové systémy (informační systémy - telefonní, kiosek) kódování pro elektronické uložení promluvy, přenos telekomunikačním kanálem měření kvality řeči, měření míry zkreslení zvýrazňování řeči, odstraňování šumu (mobilní komunikace) databáze řeči, textové korpusy, slovníky automatické překladače (textový/hlasový vstup/výstup) analýza řečového signálu fonetika, fonologie, fyziologie tvorby řeči, dialekty jazyka poruchy řeči, klinická diagnostika, logopedie, výuka jazyků

Aplikace hlasových technologií - telekomunikace rozpoznávání řeči (izolovaná slova, malý vs. velký slovník, spojitá řeč, spontánní řeč), hlasové ovládání, automatický přepis, diktovací systémy, automatické titulkování rozpoznávání řečníka, rozpoz. jazyka , audio-vizuální rozpoz. extrakce příznaků (analýza signálu), statistické modelování komputační lingvistika, lexikální struktura jazyka, morfologie TTS (převod textu do mluvené podoby - syntéza) dialogové systémy (informační systémy - telefonní, kiosek) kódování pro elektronické uložení promluvy, kódování v telekomunikačním kanále měření kvality řeči, měření míry zkreslení zvýrazňování řeči, odstraňování šumu (mobilní komunikace) databáze řeči, textové korpusy, slovníky automatické překladače (textový/hlasový vstup/výstup) analýza řečového signálu fonetika, fonologie, fyziologie tvorby řeči, dialekty jazyka poruchy řeči, klinická diagnostika, logopedie, výuka jazyků

Státnicové okruhy související s problematikou zpracování řeči Společné otázky - obecné CZS Lineární a cyklická konvoluce, zpracování dlouhých signálů, vlastnosti DFT, váhování, číslicové filtry, kvantování a jeho důsledky (A2M99CZS) Převzorkování, banky filtrů, odhad parametrů náhodných signálů, spektrální a korelační analýza, modelování a lineární predikce (A2M99CZS)

Oborově specifické otázky pro obor “Sítě elektronických komunikací” Digitalizace řečového signálu, spektrální charakteristiky, vokodéry používané v telekomunikacích, subjektivní a objektivní měření kvality řečového signálu (A2M31RAT). Náhrada ztracených segmentů řeči při přenosu komunikačním kanálem, metody potlačování šumu v řečovém signálu, potlačování echa (A2M31RAT). Principy a způsoby realizace rozpoznávání řeči, syntéza řeči, dialogové komunikační systémy (A2M31RAT).

II. část Model vzniku řeči a základní charakteristiky řeči

Fyziologie hlasového ústrojí Artikulační orgány hlasového ústrojí člověka dutina nosní

zuby a rty dutina ústní jazyk

do žaludku

tvrdé patro měkké patro dutina hrdelní hlasivky do plic

Převzato z: Jan Uhlíř a kol.: Technologie hlasových komunikací. Nakladatelství ČVUT v Praze, 2007.

Model vzniku řeči

Model hlasového ústrojí člověka

dutina hrdelní

plíce

dutina nosní

nos

dutina ústní

rty

hlasivky


Model vzniku řeči Model generování řečového signálu fo generátor pulzů

Parametry hlasového G (zesílení) ústrojí

Model produkce generátor šumu

s[n]

znělá/neznělá

Model produkce řeči - AR model - nejjednodušší model - snadná identifikace parametrů AR modelu pomocí LPC analýzy - souvislost s rezonátory hlasového ústrojí

Fyziologie vnímání - percepce Ucho - sluchový aparát člověka třmínek kovadlinka kladívko

vnější zvukovod

bubínek

hlemýžď (cochlea)

bubínek + třmínek, kovadlina, kladívko: přenos kmitů na nervová zakončení nervových vláken do hlemýždě hlemýžď - nervová zakončení na obvodu zužujícího se profilu informace vedená do mozku = vyhodnocení energie ve frekvenčním spektru

Reprezentace řeči - informační obsah

Akustická úroveň časový průběh, spektrální reprezentace kvazistacionární signál (10-30 ms) kvaziperiodický vs. neperiodický (znělý vs. neznělý) pásmově omezený signál (8000 Hz resp. 4000 Hz) →

fs

Fonetická a fonologická úroveň fonetika - základní element je hláska (fón) - zvukový charakter fonologie - základní element je foném - lingvistický charakter hláska je akustickou realizací fonému česká fonetická abeceda rozlišuje 44 (42) hlásek fonetická abeceda SAMPA

Reprezentace řeči - informační obsah Elementy řečového signálu +1 [V] 0 -1 0,1

0 s

0,2 e

d

0,3 u

#-s

s-e+d s-e

e-d

X d-u+m d-u

[s]

m

se #-s+e

0,4

u-m

0,5

fonémy

sedum

slovo

dum

slabiky

u-m+# m-# X=e-d+m

trifóny difóny

III. část Řečový signál - vzorkování a kvantování

Vzorkování a kvantování signálu - PCM x(t) . . . analogový signál

x[n] . . . diskrétní signál

n

t Ts

nTs Ts

x(t) . . . analogový signál

xd [n] . . . digitální signál

t Ts

nTs Ts

n

Vzorkování řečového signálu Minimální vzorkovací kmitočet - fs = 8 kHz zajištěna srozumitelnost jednotlivých hlásek základní rozlišení hlasových charakteristik mluvčího používáno v telefonních aplikacích (nižší vzorkovací kmitočty pouze v dílčích algoritmech)

Nejrozšířenější vzorkovací kmitočet - fs = 16 kHz zlepšené rozlišení hlasových charakteristik mluvčího používán na vstupech hlasem ovládaných systémů komunikace po Interenetu (VoIP sítě)

Vyšší vzorkovací kmitočty použití spíše řidší - pozvolný nárůst sbírané řečové databáze již uchovávají data v nejvyšší kvalitě fs = 44, 1 kHz - CD kvalita fs = 48 kHz - snadné převzorkování na 16 kHz či 8 kHz

Lineárně kvantovaná reprezentace řeči 16-bitová PCM (Pulse Code Modulation) základní číslicová reprezentace řečového signálu dynamický rozsah (15 bitů pro absolutní hodnotu) 20 log 215 ≈ 90dB (dynamika řeči je asi 50 dB)

Formáty reprezentace zvukových souborů Microsoft RIFF WAV - obsahuje hlavičku 44 bytů s informacemi o vzorkovací frekvenci, počtu kanálů, počtu bitů, atd. RAW soubor (bez hlavičky) - nutno mít dodatečné informace o formátu dat pro více bytové reprezentace - pořadí bytů (Little Endian, Big Endian) další formáty pro různé platformy resp. systémy konverze mezi různými zvukovými formáty - sox (freeware)

Nelineární kvantovaní řečového signálu

Nevýhody lineárního kvantování řečového signálu řečový signál obsahuje mnoho vzorků malých hodnot hustota pravděpodobnosti rozložení hodnot není rovnoměrná ucho má též logaritmickou citlivost na amplitudu akustického tlaku

⇓ Nelineární logaritmické kvantování principiální blokové schéma . . . . využití v telefonních aplikacích nejčastěji používané standardy: A-law, µ-law

Nelineární kvantování řečového signálu - A-law

a |x[n]| · · sgn x[n] ,  Ymax · 1 + ln a Xmax     a · |x[n]| y [n] = 1 + ln    Xmax  Y · sgn x[n] , max · 1 + ln a

x[n] =

1 + ln a |y [n]|  Xmax · · sgn y [n] , ·    a Ymax      Xmax · e a

»

|y[n]|(1+ln a) Ymax

−1

–

· sgn y [n] ,

x[n] je hodnota vzorku v lineárním měřítku y [n] je hodnota v měřítku logaritmickém.

pro |x[n]| <

Xmax , a

v ostatních případech.

pro |y [n]| <

Ymax , 1 + ln a

v ostatních případech.

Nelineární kvantování řečového signálu - A-law Lineární PCM 12 bitů (11+1) - maximální hodnota 2048 2000 1500 1000 500 00

50

100

60 50 40 30 20 10 00

Detail převodní charakteristiky

5

10

15

a-law 8 bitů

20

25

30

a-law 8 bitů

35

40

45

Lineární PCM 11 bitů (10+1) - maximální hodnota 1024 1000 800 600 400 200 00

50

100

a-law 8 bitů

30 25 20 15 10 5 00

Detail převodní charakteristiky

5

10

15

20

25

30

a-law 8 bitů

35

40


45

Nelineární kvantování A-law dle ITU-T G.711

PCM 13 bitů (12+1)

3500 3000 2500 2000 1500 1000 500 00

20

40

60

80

a-law 8 bitů (7+1)

100

120


IV. část Základní charakteristiky řeči v časové oblasti

Přehled charakteristik řeči v časové oblasti

Energie (výkon), RMS, obálka Intenzita Počet průchodů nulou Autokorelační funkce

řeč je nestacionární signál krátkodobé charakteristiky segmentace (do kvazistacionárních úseků ≈ 20 − 30 ms) ⇓ Odhady resp. zpracování se provádějí VŽDY v uvedených kvazistacionárních segmentech

Energetické charakteristiky řeči v časové oblasti Energie (E ) resp. výkon (P) signálu E =

N X

x 2 [n]

P=

n=1

N 1 X 2 x [n] N n=1

(RMS) hodnota (efektivní h., pro vyjádření hlasitosti) v u N uP 2 u t n=1 x [n] RMS = N Efektivní hodnota resp. výkon v dB

PdB

! N 1 X 2 = 10 log ǫ + x [n] , RMSdB N n=1

v  u N uP 2 u   t n=1 x [n]     = 20 log ǫ +  N   

Energetické charakteristiky řeči v časové oblasti

(PP) spičková hodnota (peak-to-peak) PP = max(x[n]) − min(x[n]). Energie vs. intenzita E=

N X

x 2 [n]

n=1

- odlišná dynamika od energie

M=

N X n=1

|x[n]|

Další charakteristiky řeči v časové oblasti

(ZCR) počet průchodů nulou (zero-crossing rate) ZCR =

N 1 X |sgn x[n] − sgn x[n − 1]| · fs [Hz]. N n=1 2

- četnost přepočítána na frekvenci - použití zejména pro detekci neznělých hlásek, začátku a konce promluvy, apod.

Další charakteristiky řeči v časové oblasti Autokorelační funkce (LPC analýza, odhad fo ) 1 Rx [k] = N

N−|k|−1

X

x[n]x[n + k], pro 0 ≤ k < N

k=0

Vzájemná korelační funkce (odhad zpoždění mezi dvěma kanály)  N−|k|−1   1 X   x[n]y [n + k] , pro 0 ≤ k < N,     N k=0 Rxy [k] =   N−|k|−1   1 X   x[n + k]y [n] , pro − N < k < 0 .   N k=0

Koeficient korelovanosti (segmentace signálu) |Rxy [0]| rxy = p Rx [0]Ry [0]

Děkuji za pozornost

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

Recommend Documents