KÓDOVÁNÍ ZVUKU
Digitalizace zvuku
Digitalizace
Bitová hloubka (bit depth)
nutné zachovat schopnost reprodukovat zvukovou vlnu ovlivňuje dynamický rozsah a šum, 16 bitů dává 65 536 stupňů hlasitosti neovlivňuje frekvenční rozsah (dán vzorkováním)
Dynamický rozsah
rozdíl mezi nejtišším a nejhlasitějším zvukem
Vzorkovací frekvence
rozlišit frekvence tónů se u každého člověka liší a je frekvenčně závislá populární hudba 6 – 10 dB, obecně 1 – 15 dB
ucho slyší asi od 20 Hz do 20 kHz, vhodný vzorkovací kmitočet okolo 40kHz
Přenosová rychlost (bit rate)
jaký objem informace se přenese za jednotku času Bit rate = (bit depth) × (sampling rate) × (number of channels) př. CD: 1 411 200 = 16 × 44 100 × 2 [b/s]
Digitalizace zvuku
Dynamický rozsah a velikost šumu – odstup signálu od šumu
Signal to Noise Ratio (SNR) výkonový poměr signálu a kvantizačního šumu D = 10 log(s2/š2) [dB] kvantizační chyba rovna šířce kvantizační úrovně odstup závisí na velikosti užitečného signálu
maximální počet kvantizačních úrovní daného převodníku N
D = 20 log(2N) 6,02 N [dB] s každým přidáním bitu se zvětšuje hodnota o 6 dB
Příklady maximálního dynamického rozsahu
16 bitové kvantování u hudby na CD 24 bitové digital audio
16 × 6,02 = 96 dB 24 × 6,02 = 144 dB
některé způsoby kódování vyjadřují jinak
Frekvenční maskování
Snížená schopnost vnímání zvuku z důvodu přítomnosti jiného zvuku
stav, kdy zvuk o určité frekvenci není slyšitelný kvůli intenzivnějšímu zvuku o jiné frekvenci
Frekvence pod maskovací úrovní jsou maskovány a mohou být odstraněny
http://home.zcu.cz/~mtoman/zvuk.htm
Časové maskování
Lidské ucho bezprostředně před silným zvukem a po něm nevnímá slabší tóny
po silném zvuku
postmasking
před zvukem
premasking
http://home.zcu.cz/~mtoman/zvuk.htm
Psychoakustický model
Rozdělení zvukového signálu v kmitočtové oblasti
do několika subpásem (32) využití psychoakustického maskovacího jevu lidského sluchu v každém subpásmu
Silnější zvukové signály potlačují vnímání slabších spektrálních složek v dané oblasti kmitočtů není nutno kódovat
V každém subpásmu lze zvolit optimální bitovou hloubku, při které je kvantovací šum ještě maskován a nedochází ke slyšitelnému snížení kvality
http://www.digitalnitelevize.cz/magazin/dvb-t/dvb-t-technologie/technicke_minimum_mpeg2.html
Modifikovaná DCT a alokace šumu
Modul MDCT dále dělí pásma a výrazně zlepší frekvenční rozlišení
i bezztrátový algoritmus
Modul alokace šumu
zjišťuje množství kvantizačního šumu
dva iterační cykly – inner a outer loop
Inner loop
kvantuje spektrální hodnoty
zakóduje hodnoty pomocí Huffmanova kódování je-li výsledný počet bitů větší než předpokládaná bitrate
které byly vypočteny v MDCT
zvolí se nový kvantovací krok a celý proces se provede znovu
Outer loop
zkontroluje, zda každé pásmo má menší zkreslení než povolené
pokud je zkreslení větší, potom je pásmo zesíleno a je opakován inner loop
Úpravy dynamického rozsahu
Komprese dynamiky zvukového signálu
zmenšení dynamického rozsahu signálu
úroveň výstupního signálu (dB)
řízený nelineární zesilovač zmenšuje dynamický rozsah signálu
úroveň vstupního signálu (dB)
slabé signály zesiluje více a silné méně
Limitér
redukce zisku, zvýšení celkové hlasitosti zvedne se úroveň nižších signálů
Kompresor
redukce zisku
speciální druh kompresoru omezuje pouze nejsilnější dynamické špičky
Křivka řízení dynamiky
možné provádět kompresní a limitační nastavení
úroveň výstupního signálu (dB)
omezovat nežádoucí zvuky (pod určitým prahem hlasitosti) úroveň vstupního signálu (dB)
Úpravy dynamického rozsahu
Parametry kompresorů dynamiky
THRESHOLD
RATIO
rychlost (čas) uvolnění komprese po poklesu vstupního signálu pod práh
INPUT, OUTPUT
rychlost (čas) reakce na překročení prahu
RELEASE
nastavený poměr snížení úrovně signálu
ATTACK
nastavený práh
vstupní a výstupní úrovně
KNEE
způsob řízení komprese
úroveň výstupního signálu (dB)
úroveň vstupního signálu (dB)
Úpravy dynamického rozsahu
Úpravy dynamického rozsahu původní nahrávka
distortion (deformace)
clipping (ořez)
limiting (omezovač)
Zvýšení účinnosti kódování
Kompanze
nejčastěji logaritmická; předchází uniformní kvantizaci více zesílí malé hodnoty okamžitých výchylek signálu
Expanze
při obnovování signálu (expanzér za dekódérem)
převodní amplitudová charakteristika kompandéru
Expanzní charakteristika
převodní amplitudová charakteristika expandéru
obnoví původní rozsah signálu, vrátí vzorkům správný poměr velikostí
Kompresní charakteristika
velké hodnoty výchylek signálu jsou zesíleny jen nepatrně
má inverzní průběh ke kompresní charakteristice
Používané kompresní charakteristiky
-law (sev.Amerika, Japonsko) A-law (Evropa)
Pulzně kódová modulace (PCM)
Modulační metoda převodu analogového zvukového signálu na signál digitální
PCM (Pulse-code modulation) pravidelné odečítání hodnoty signálu pomocí A/D převodníku její zaznamenání v binární podobě
Pulzně kódová modulace
Určující parametry
vzorkovací frekvence
8 kHz u dig. tel. linek ISDN 44,1 kHz u zvukového CD vyšší hodnoty
u profesionálních zařízení
kvantování
jemnost rozlišení hodnot 8 nebo 16 bitů
256 nebo 65 536 hodnot
kvantizační šum
úroveň s rostoucím rozlišením klesá
Pulzně kódová modulace
PCM v telekomunikacích
vzorkovací frekvence 8 kHz rozlišení 8 bitů dává datový tok 64 kbit/s
základní kapacita hovorového kanálu v digitální síti ISDN někdy označováno jako DS0.
Kódování hovorového kanálu DS0
logaritmická komprese
severní Amerika a Japonsko – vyšší komprese
12- či 13-bitový signál převáděn na osmibitový signál v telefonních sítích pouze 7 bitů pro přenos hlasu osmý bit na signalizaci (typ CAS)
Evropa
pro přenos hlasu všech 8 bitů signalizace je přenášena samostatným kanálem. (Například pomocí signalizace č.7, či jinou CCS signalizací.)
Pulzně šířková modulace (PWM)
PWM
diskrétní modulace pro přenos analogového signálu
pomocí 2 hodnot
Střída
poměr časů, ve kterých je signál v jednotlivých úrovních
Nosný signál konstantní amplituda a frekvence (vyšší než modulační) pilový nebo trojúhelníkový průběh
Srovnávání okamžité hodnoty modulačního a nosného signálu pokud menší, PWM 1, jinak 0
Direct Stream Digital (DSD)
Direct Stream Digital (DSD) technologie masteringu
Sony, Philips
typ pulzně hustotní modulace (PDM)
vyjadřuje informaci počtem pulsů v nějakém časovém intervalu, přičemž na poloze pulsů v daném intervalu nezáleží
0101101111111111111101101010010000000000000100010011011101111 111111111011010100100000000000000100101
jedničky (modré) nuly (bílé) střídání jedniček a nul
(1111) odpovídají maximu (0000) minimu (1010) nule
Audio CD
Audio CD (Compact Disc Digital Audio, CDDA)
použití PCM dva kanály vzorkovací frekvence 44,1 kHz a rozlišení 16 bitů
frekvenční rozpětí do 20 kHz
přenosová rychlost 44 100 × 16 × 2 = 1 411 200 b/s jedna minuta záznamu zabere 44 100 × 16 × 2 × 60 : 8 = 10 584 000 B/min
Super Audio Compact Disc
Super Audio Compact Disc (SACD)
až 6 kanálů (5.1), 1999 Direct Stream Digital (DSD) technologie masteringu
1 bit, vzorkovací frekvence 2,8224 MHz frekvenční rozpětí do 20 kHz
vícevrstvé kvůli zpětné kompatibilitě
CD
SACD
16 bit PCM
1 bit DSD
jedna vrstva klasické CD
Format
další vrstva High Density DSD
Sampling freq.
44.1 kHz
2822.4 kHz
Dynamic range
96 dB
120 dB
20 Hz – 20 kHz
20 Hz – 50 kHz
700 MB
7.95 GB
Stereo
Yes
Yes
Discrete surround
No
Yes
Frequency range Disc capacity
DVD-Audio
DVD-Audio
kapacita 74 min, plná surround kvalita, 2000 vzorkovací frekvence
5.1 až 96 kHz stereo až 192 kHz
až 24 bitová hloubka
44.1 kHz Mono (1.0) Yes Stereo (2.0) Yes Stereo (2.1) Yes
48 kHz Yes Yes Yes
16-, 20- or 24-bit depth 88.2 kHz 96 kHz 176.4 kHz Yes Yes Yes Yes Yes Yes Yes Yes No
192 kHz Yes Yes No
Stereo + mono surround (3.0 or 3.1) Yes
Yes
Yes
Yes
No
No
Quad (4.0 or 4.1) Yes 3-stereo (3.0 or 3.1) Yes
Yes Yes
Yes Yes
Yes Yes
No No
No No
3-stereo + mono surround (4.0 or 4.1) Yes
Yes
Yes
Yes
No
No
Full surround (5.0 or 5.1) Yes
Yes
Yes
Yes
No
No
Datový tok
Velikost datového objemu Vzorkovací Bitová frekvence hloubka [Hz] b 44 100 16 48 000 16 96 000 16 192 000 16 48 000 16 48 000 16
Velikost za hodinu 605 MB 659 MB 1,29 GB 2,57 GB 1,93 GB 2.57 GB
datový tok je konstantní za každých okolností (typický případ u PCM)
VBR - variable bitrate
2 2 2 2 5.I 7.I
Velikost za minutu [MB] 10 11 22 44 33 44
CBR - constant bitrate
Počet kanálů
datový tok se mění a není přesně definovaný
ABR - average bitrate
průměrný datový tok v určitém časovém okně je konstantní
v průběhu okna se ale může měnit
Audioformáty
Nekomprimované
Bezztrátové
PCM, WAV FLAC (Free Lossless Audio Codec)
Ztrátové DTS (Digital Theater System) AC3 – Dolby Digital (DVD) MP3 WMA AAC (Advanced Audio Coding)
Nekomprimované audioformáty
WAV
přípona .wav (Windows) většinou nekomprimovaný zvuk PCM stejně jako CD
velikost WAV souboru omezena na 4 GB
odpovídá asi 6.6 hodinám záznamu v CD kvalitě
možnost komprimace součást formátu RIFF (používá jeho strukturu)
snadný převod
WAV (Windows audio) AVI (Windows audiovisual) RMI (Windows "RIFF MIDIfile") CDR (CorelDRAW vector graphics file) ANI (Animated Windows cursors)
AIFF
standardní audioformát Apple, obdoba wav pro Mac
Bezztrátové audioformáty
RAW
podpora komprimace libovolným kodekem, nejčastěji PCM audio
AU
standardní formát audia, Sun Microsystems PCM nebo kodeky μ-law, a-μlaw nebo G729
bezztrátový kodek, podobný jako zip; špatný kompresní poměr vhodný k archivaci PCM souborů s důrazem na kvalitu
MPEG-4 ALS (Audio Lossless Coding ) Monkey’s Audio
o něco lepší než FLAC, freeware,
užívaný Sun, Unix a Java
FLAC (Free Lossless Audio Codec)
zřídka používán
.ape, metadata .ap1
Dolby TrueHD a DTS-HD Master Audio
Audioformáty
Dolby Digital (AC-3)
digitální ztrátová komprese zvuku, 1991 standard pro filmy v kinech, digitální televizi a DVD možná součást videosouborů
maximální datový tok 640 kb/s DVD video max. 448 kbit/s, nejčastěji:
AVI, OGM, nebo MKV
192 nebo 224 kb/s pro konfiguraci 2.0 a 2.0 Surround 384 nebo 448 kb/s pro konfigurace 5.0 a 5.1 448 kb/s pro konfigurace 5.1 EX
digitální televizní vysílání max. 448 kb/s (ATSC 384 kb/s)
Digital Theater Systém (DTS)
digitální formát prostorového ozvučení se ztrátovou kompresí především pro ozvučení filmů v kinech a DVD Video maximální datový tok 1536 kb/s
DVD 768 kb/s
Audioformáty
MP2
MPEG-1 Layer-2, někdy nesprávně Musicam standard pro vysílání DAB (Digital Audio Broadcasting) srovnatelný se špičkovými kodeky jako Dolby Digital AC-3
MP3
MPEG-1 Layer-3
nejpopulárnější formát pro stahování a ukládání hudby komprimováno na zhruba desetinu velikosti PCM při zachování dobré kvality
u hlasu horší poměr – zkráceny pauzy …
snaha odstranit redundanci zvukového signálu
licencovaný
na základě psychoakustického modelu ze vstupního signálu se odeberou informace, jež člověk neslyší, nebo si je neuvědomuje využívá se principů časového a frekvenčního maskování
zahrnuje 3 vrstvy, jež se liší kvalitou a obtížností implementace
Audioformáty
AAC (Advanced Audio Coding)
pův. MPEG-2 Part 7, MPEG-4 Part 3; známý i jako MPEG-4 AAC špičkový, nástupce MP3, lepší zvuk pří stejném bitrate
založen na modifikované diskrétní kosinové transformaci
použití psychoakustického modelu
vyvinut pův. Apple (iTunes)
optimální hifi kvalita při 256 kb/s, nejčastěji 128 kb/s
bez licence, licence nutná pouze pro vývoj AAC kodeků
WMA (Windows Media Audio)
Microsoft, pův. jako náhrada MP3
licencovaný
podpora Digital Rights Management (DRM) do verze 9 nezajímavý, dnes špičkový téměř výhradně kontejner ASF (.asf, .wma)
Audioformáty
OGG Vorbis
součást Ogg open source kontejneru podporujícího množství kodeků hlavní zvuková data ve střední až vysoké úrovni VBR
kvalitní – komprese podobá MP3
~16 500 kbit/s/kanál méně rozšířen (podporuje i Matroska)
MPC, Musepack
pův. MPEGplus, MPEG+ or MP+ open source ztrátový audiokodek, vyvinut na základě MP2 optimalizován pro transparentní kompresi sterea při bitratech 160–180 kbt/s
spolu s Ogg Vorbis nejvhodnější vysoce kvalitní ztrátová komprese ještě méně používán
Audioformáty pro záznam řeči
GSM kodeky
DCT
formát pro telefonickou kvalitu, v Evropě dobrý kompromis mezi velikostí a kvalitou kodekem GSM možno kódovat i soubory wav variabilní formát určený k záznamu řeči (diktafony) možnost kódování
VOX
přenos řeči při nízké vzorkovací frekvenci
nejčastěji používá kodek Dialogic ADPCM (Adaptive Differential PCM)
diferenční (delta) – hodnoty kóduje jako rozdíl oproti předpovězené adaptivní – rozdílný kvantizační krok komprimuje do 4 bitů neobsahuje informace o vzorkovací frekvenci a počtu kanálů – musí být specifikováno předem
Speex
svobodný zvukový kodek ke kompresi řeči, součást projektu ogg hlasová data v nízkém bitratu (~8, 16, 32 kb/s/kanál)