Formáty určené na distribúciu digitálnych audio signálov
Výroba príspevkov – LPCM so vzorkovaním 48 kHz alebo 96 kHz, bitová hĺbka 16 – 24 bitov Distribúcia príspevkov - zachovanie primeranej kvality pri minimalizovaní nárokov na kapacitu prenosového média/kanálu – nutná kompresia signálu. Kompresia audio signálu využíva: vlastnosti signálu vo frekvenčnej oblasti – stanovovanie parametrov prenosu pre individuálne subpásma – kanály. Prechod do frekvenčnej oblasti používa rýchlu Fourierovu transformáciu, FFT perceptuálne vlastnosti sluchu – psychoakustiku. Hlavné faktory – maskovacie efekty vo frekvenčnej, časovej a amplitúdovej oblasti. ¾ ¾ ¾
„netreba prenášať signály pod prahom počutia“ „netreba prenášať signály maskované iným zvukom s blízkou frekvenciou“ pri stereofónnom signále je časť zložiek zhodných v oboch kanáloch – je možné kódovať a prenášať spolu („Joint Stereo“)
Nekomprimovaný audio signál PCM: 48 kHz, 16 bitov, 768 kb/s. Odstup signál/kvantovací šum: SNRQ = 6b + 1,8 [dB] 16 bitov – SNR = 98 dB
Ľudské ucho – prah počutia je frekvenčne závislý Maskovací efekt: Silnejší signál maskuje slabší signál – rozdiel v úrovniach signálov závisí na frekvenčnom odstupe a frekvenčnej polohe oboch signálov a ich charaktere
Prenášaný tón maskuje šum, ktorý sa vyskytuje v okolí tónu Šum, ktorý je pod prahom maskovania ucho „nepočuje“ Mmin – minimálna úroveň šumového spektra, ktorú ešte treba prenášať Užitočný signál maskuje aj šum – aj kvantizačný: nie je nevyhnutné prenášať všetky signály s rovnakým počtom kvantizačných hladín – stupeň
kvantizácie je možné regulovať podľa amplitúdy signálu a jeho polohy v spektre
Celé akustické spektrum rozdelené do 32 subpásiem – kanálov fH = n * 750 Hz, n = 1, 2,...31 V každom kanáli sú rozdielne hodnoty počuteľnosti kvantovacieho šumu Maskovanie kvantizačného šumu pre tri tóny (250 Hz, 1 kHz, 4 kHz) s hladinou 60 dB [Vít, V.: Televízna technika. BEN, 1997. ]
Maskovanie v časovej oblasti: Ak trvá akustický vnem aspoň 200 ms, nezáleží na jeho časovom usporiadaní, len frekvenčnoamplitúdovom Maskovací efekt v časovej oblasti vzniká ak:
maskovaný zvuk začne do 10 ms po skončení maskovacieho zvuku (účinok klesá s predlžovaním času, pri 200 ms zaniká) Ak maskovaný zvuk príde v predstihu max. 5 ms pred maskujúcim zvukom. V praxi kombinácia časového a frekvenčného maskovania.
KÓDOVACIE MECHANIZMY V ŠTANDARDE MPEG 1 – AUDIO MPEG-1 Audio Layer 1 (MP1) Najstarší kodek pre zvuk v štandarde MPEG. Subpásmové kódovanie – 32 pásiem. SBC (Sub-Band Coding) je metóda na efektívne kódovanie audia s využitím maskovacích efektov – všetky signály pod maskovacím prahom sa odstránia. Vstupný dátový tok sa segmentuje do rámcov 8 ms, 384 vzoriek Prechod do frekvenčnej oblasti pomocou FFT a rozdelenie do 32 frekvenčne delených kanálov Vzorkovanie amplitúdy signálov v jednotlivých pásmach – subsampling 48 kHz : 32 = 1,5 kHz V kanáli je 12 vzoriek PCM, kvantovaných do 64 hladín (6 bitov) V každom kanáli výber vzorky s maximálnou úrovňou (merítko, Scale Factor), celkovo 32 FFT vstupného signálu na množine 512 vzoriek a definovanie psychoakustického modelu Podľa SF a modelu sa priradí pre 12 vzoriek v jednom kanáli počet bitov b.
Počet bitov je rovnaký pre celú skupinu, ale rôzny pre jednotlivé kanály Výstupné dáta z banky filtrov sa normalizujú pomocou SF a lineárne kvantujú (2...15 bitov podľa výstupu z Banky) Výsledné bity sú multiplexované spolu s údajmi o škálovacom faktore a metadátami do výsledného toku. Multiplex jedného rámca:
Záhlavie: synchronizácia, úroveň a typ kodeku, vzorkovacia rýchlosť, formát mono, stereo,... Pridelený počet bitov: 4 bitové slovo (2,...15 bitov na jeden kanál) Merítko – Scale Factor (6 bitové slovo pre každý kanál Ostatné metadáta. Veľmi dobrá kompatibilita, vyvinutý pre Philips Digital Compact Cassette, DCC. Prenosová rýchlosť 358 kb/s pre 2 kanály audio. Pri použití 44,1 kHz/16 bitov sa vyrovnáva rýchlosť na uvedenú hodnotu z 384 kb/s pridaním výplne. Výsledný signál sa líši od pôvodného, ale nie príliš. Použiteľné vzorkovacie frekvencie: 32, 44,1 alebo 48 kHz, výsledný tok po kompresii dosahuje 32 kb/s .......192 kb/s na jeden kanál. MPEG-1 Audio Layer 2 (MP2, MUSICAM = Masking pattern adapted Universal Subband Integrated Coding And Multiplexig) Audio kodek definovaný v ISO / IEC 11172-3 a rozšírený v ISO / IEC 13818 - 3. Štandart sa dominantne používa vo vysielaní audia ako súčasť digitálneho rozhlasu DAB (Digital Audio Broadcasting) a digitálnej televízie DVB (Digital Video Broadcasting), digitálnych nosičoch DVD. Princíp rovnaký ako MPEG -1 Layer 1, zmena niektorých parametrov:
32 frekvenčných pásiem, každé obsahuje 36 vzorkov, 1152 vzorkov v rámci 24 ms. Rýchle zmeny signálu: 3 vzorky s max. hodnotou, pri pomalších len 2 alebo jedna. Nízkofrekvenčné zložky signálu: kvantovanie do 2...15 bitov Stredné frekvencie: 8 úrovní (3 bity) Pásma 23 až 26: 4 úrovne – 0, 3, 5, 65 535 (2 bity) Pásma 27 – 31: len pri vzorkovaní s frekvenciou 32 kHz FFT pre psychoakustický model na šírke 1024 vzoriek
Vzorkovacie frekvencie: 32, 44.1 a 48 kHz Prenosové rýchlosti: 32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320, 384 kbit/s Doplnenie podľa ISO/IEC 13818-3: pridané vzork. frekvencie: 16, 22.05 a 24 kHz, pridané prenos. rýchlosti: 8, 16, 24, 40, 144 kbit/s formáty: mono stereo joint stereo dvojkanálový zvuk MPEG-1 Audio Layer 3 (MP3) Je navrhnutý pre značnú redukciu množstva dát reprezentujúceho audiozáznam. Komprimovaný audiozáznam verne reprodukuje pôvodné nekomprimované audio pre väčšinu poslucháčov. Bol vyvinutý v rámci výskumného programu EUREKA 147 DAB a stal sa ISO štandartom v roku 1991. Dosahuje najvyšší kompresný pomer pri relatívne veľmi dobrej subjektívnej kvalite. Rámcový princíp kódovania do formátu je podobný ako predtým, ale: Dvojitý prechod do frekvenčnej oblasti – banka filtrov a MDCT V každom kanáli 18 spektrálnych koeficientov, celkovo 32*18= 576 koeficientov
Ale: úzka filtrácia vo frekvenčnej oblasti – nízka presnosť v časovej a opačne Prepínanie počtu koeficientov 18/6 (576/192) podľa charakteru signálu Nelineárny kvantovací obvod – lepšie sleduje vlastnosti ucha Použitie Huffmanovo kódu na potlačenie redundantných informácií.
Mpeg3: 1. Výber vhodnej prenosovej rýchlosti 56 kb/s ....512 kb/s (LPCM 44kHz/16/2k = 1,41 Mb/s) 2. Zoskupenie vzoriek do skupín po 1152 (bloky dĺžky asi 26, 12 ms) 3. Prechod každej skupiny 32 -pásmovým digitálnym filtrom – stanovenie úrovne v každom pásme 4. Zapracovanie vplyvu psychoakustiky (čo maskovať ....) 5. Definitívna analýza spekrálnej oblasti 6. Priradenie adekvátneho počtu bitov v súlade s krokom 1 (väšia úroveň – viac bitov,.... maskované spektrum – žiadny bit)
7. Prekódovanie pridelených kódových slov Huffmanovým pravdepodobnostným kódom 8. Prenos po médiu alebo uloženie súboru. Proces dekódovania je podstatne jednoduchší: Dátový tok sa koriguje – CRC a demultiplexuje Rekonštrukcia pôvodných vzoriek cez inverznú banku filtrov Prechod do časovej oblasti – IFFT, výsledok LPCM Prípadný prevod D/A na analógový signál Kompresný štandard 13818-3]:
MPEG-2 v časti 3 - audio [ISO/IEC
doplňuje funkcionalitu kódovacieho štandardu MPEG1/L2 pri zachovaní jeho hlavných princípov rozšírenie počtu kanálov na systém kanálov 5.1 so spätnou kompatibilitou (tzv. Downmixing) zníženie dátového toku na 128 - 256 kb.s-1 na kanál.
MPEG 2 /Layer 7 - MPEG AAC (Advanced Audio Coding) AAC (Advanced Audio Coding) je otvorený kompresný audio štandart vyvinutý medzinárodnou spoločnosťou Fraunhofer IIS, AT&T, Dolby a Sony. Najefektívnejšia MPEG metóda na vysoko kvalitnú a vysoko efektívnu kompresiu audio dát Medzinárodný ISO štandart (1997) v rámci MPEG-2 a v roku 1999 v rámci MPEG-4. Zlepšené predikčné mechanizmy pre harmonické signály Kompresný pomer 16:1 (96 kb/s pre 44,1 kHz/16b) zabezpečuje takmer CD audio kvalitu.
Prenos 1 kanálu audia v štúdiovej kvalite podľa EBU po linke s rýchlosťou 64 kb/s Podpora variabilného počtu kanálov od 1 do 48 vrátane formátov surround 5.1, 6.1 a 7.1 Nízka výpočtová náročnosť (PIII 600 MHz, 11 x rýchlejšie enkódovanie ako reálny čas, dekódovanie ešte úspornejšie)
Vzorkovacia frekvencia 8 kHz .....96 kHz
Verzia AAC – LD (Low delay) dosahuje oneskorenie 20 ms, vhodné pre služby v reálnom čase Banka filtrov s premenlivou dĺžkou okna1024/128 vzoriek, jednostupňový filter na báze DCT Impulzová odozva okolo 5 ms (MP3 - 15 ms), znížené pre-echo Predikcia na základe predchádzajúcich dát
Viackanálové zvukové systémy
Prvé zmienky o viackanálových systémoch v rokoch 1950 – 1970, masovejší nástup experimentov s viackanálovým zvukom po roku 1971 Experimenty s vnímaním priestorového zvuky poslucháčmi využívajúce psychakustické modely a nedokonalosť ucha: Haas (SRN, 1951), Damaske (1968), Hafler (1970) a iní... „lokalizáciu priameho zvuku určujú relatívne intenzity kanálov“ „ak sú oba rovnaké s časovým rozdielom (2 – 20 ms), ucho/mozog posunie lokalizáciu smerom k prvému zvuku“ „informácie vpredu sú podstatne významnejšia ako zo zadu alebo zboku“ „zvuk „zo zadu“ nie je nutné reprodukovať zo zadu, úplne postačuje zboku“ „Rozhodujúca je aj výšková poloha zdroja zvuku“..... Technické: „Nie je problém viackanálový záznam nahrať v štúdiu, ale preniesť k poslucháčovi“ požiadavky na viackanálové systémy (1970-1980) Spätná kompatibilita s mono/stereofónnym záznamom (korelátory, vektorové analyzátory) Možnosť záznamu a reprodukcie cez dostupné prostriedky {rozhlas (38 kHz + 67 kHz), gramofónová platňa (67 kHz nosná), mg. záznam}
Verne preniesť (High Fidelity) zvukovú atmosféru koncertu SQ (Stereo-kvadro) – lineárna kódovacia a dekódovacia matica
Štandardný filmový zvuk: optická/magnetická stopa Viackanálový filmový zvuk – netreba kompatibilitu s komerčnými systémami, treba riešiť len dostatok zvukových stôp na filmovom nosiči (a konkurenčné médium, špecifiká kina): 35 mm film CinemaScope „Surround Sound“ – 4 kanály (L, C, R, S) na mg. stopách 70 mm film: 6 kanálov DOLBY labs – zpočiatku len systémy na zvýšenie dynamiky mg. záznamu (Dolby A, B, C, S, dBx ) – riadenie zisku, frekvenčného pásma... Dolby Stereo – návrat k optickému zvuku, ale 2 kanály (šírka!) a Dolby A/B Dolby Surround: ako dostať 4 kanály LCRS do dvoch stôp? Návrat k maticovým systémom: Enkóder pre Dolby Surround
PF:
100 Hz....7 kHz
Dekóder pre Dolby Surround:
Dolby ProLogic
Lepšia separácia kanálov, plné LCRS.Riadené zosilňovače VCA zaradené do ciest zložiek LCRS(Gain Riding) Detekcia smeru a povahy dominantného zvuku GR: znížime úroveň kanálu, ktorý „neobsahuje“ zvuk: Napr. Zvuk v strede, Lt = Rt preto C = 90, L = R =5
Channel Cancellation – pripočítame do kanálu zvuk v protifáze s úrovňou vhodnou na zrušenie presluchu.... Udržiavanie konštantného výstupného výkonu
Dva režimy činnosti: Detekcia dominantného zvuku (nájdenie vektora domin. zvuku) na jednej pozícii: rýchly režim regulácie VCA Podprahová hodnota dominantnej zložky – pomalé reakcie na zachovanie rozloženia zvukového poľa
DIGITÁLNE VIACKANÁLOVÉ SYSTÉMY
5.1 Surround Sound Kanály L, C, R, LS, RS, LFE (Low Frequency Effect) Rozdiel medzi LFE a Subwooferom Dolby Digital Podpora 5.1 SS na 35 mm filme pomocou digitálnej optickej stopy Bass management V1: signály všetkých kanálov sa sčítajú (5 x -15 dB, LFE – 5 dB), po priechode DP (120 Hz) a VCA (0 ...+15 dB) sa privedú na Subwoofer Bass management V2:
Dolby AC3 (Dolby Digital) Redukcia dátového toku kompresiou podobnou MPEG 1 Layer 3. Zakódovanie od 1 kanálu po 5.1 kanálov. Psychoakustické princípy, banka filtrov adaptívna alokácia bitov. Kodér AC3: Prevod PCM vzoriek cez banku digitálnych filtrov a FFT do spektrálnej oblasti a stanovenie veľkosti frekvenčných koeficientov v tvare „mantisa – exponent“. Exponenty definujú spektrálnu obálku (maskovania a pod redukcia objemu dát) a definujú počet bitov alokovaných na mantisu. Dekóder toku AC3: Rámec AC3 nesie info o 6 zakódovaných kanáloch (1536 vzorkov). Parametre: 20 Hz – 20kHz (20 Hz ...120 Hz pre LFE), 20 – 24 bitov, 32 kHz, 44,1 kHz, 48 kHz. Prenosová rýchlosť od 32 kb/s do 640 kB/s, typicky 2 kanály 192 kb/s, 5.1 kanálov 384 kb/s. Usporiadanie posluchového priestoru pre Dolby Surround 5.1 /AC3 Definuje ITU – optimum pre jedného poslucháča, prijateľné pre niekoľko poslucháčov
Dolby Laboratories – rôzne odporúčania pre rôzne priestory, certifikácia DL. Nie vždy je možné usporiadanie podľa optima – treba kompenzácia vo výkonovej a časovej oblasti Zvuk membrány pre L >>D sa šíri guľovou vlnou – akustický tlak px klesá linearne so vzdialenosťou:
X – kanál, DimX vzdialenosť poslucháč –
membrána. Musí platiť:
Zmenu vzdialenosti vyrovnáme elektricky zmenou výkonu. Oneskorenie signálu: Ideálne nulová diferencia Zmena oneskorenia
signálu:
Dekodér musí umožňovať nastavenie výkonu a oneskorenia pre jednotlivé kanály.
Digital Theatre Sound (DTS) Podobný systém 5.1 ako Dolby Digital, odlišné kódovanie ako AC3 (Koherentná akustická kompresia), ADPCM ale podobné princípy (psychakustika, delenie pásma do frekvenčných subpásiem). Dátový tok 1509 kb/s (full rate) alebo polovičný (half-rate) Externé médium – filmový pás opticky nahratý časový kód, zvuk na externom CD, synchonizácia pomocou časového kódu. 6.1 Surround Sound Rozšírený formát 5.1, podpora L, C, R, LFE, R, LS, RS
Dolby Digital Surround EX Prídavný kanál Rs analógovo pripočítaný do LS, LS.
Digital Theatre Sound – ES (Extended surround) Princíp zhodný s Surround EX, zadný centrálny kanál kódovaný algoritmom Neo:6 Digital Theatre Sound – ES Discrete 6.1. 7 samostatných zvukových kanálov s vyššou kompresiou (zachovanie dátového toku rovnakého ako 5+1. Kompatibilita s formátom 5.1zachovaná umiestením pridaného kanálu do poľa Extension.
7.1 kanálový formát Surround Sound 3 hlavné a 4 priestorové kanály – vysoká presnosť lokalizácie vzadu
7.1 kanálový formát Surround SDDS (Sony Dynamic Digital Sound) Vysoká presnosť lokalizácie vpredu – veľké plátno: 5 predných kanálov: L-LC (Left of Center) –RC – R.
Zmena počtu kanálov – Upmix, Downmix Výroba zvukovej zložky – vždy samostatné stopy/kanály na viackanálovom záznamovom médiu Finálny mastering – zmena počtu kanálov a/alebo ich zakódovanie podľa možností použitého média Zachovanie kompatibility medzi formátmi, a to aj smerom digitálne ->analógové Ideálne: ak záznamové médium umožňuje zápis paralelných zvukových stôp (DVD, Super Audio Compact Disc – SACD. Mpeg Multichannel) Rôzne stopy, rôzne formáty: Stopa1 – Dolby AC3 Stopa2 – Dolby Surround
Stopa3 – 2 kanál/stereo Príklad dekódovania 5.1 Dolby Digital na rôzne formáty:
Ak počet výsledných kanálov je menší ako počet originálnych, treba zmiešať jednotlivé výstupné informácie (Downmix), a opačne (Upmix). Upmix zabezpečuje len kompatibilitu, rozšíriť efektový priestor nedokáže. Príklad konvertora typu Downmix z Dolby Digital 5.1 na Dolby Surround (typ B):
Príklad konvertora typu Downmix z Dolby Digital 5.1 na Stereo:
Upmix LCRS na 5.1: Vybratie spodnej časti pásma z kanálov do LFE S – prenášaný s úrovňou -3 dB oboma zadnými kanálmi (často v protifáze)
MP3 Surround Spätná kompatibilita s MP3 stereo Kódovanie typu Binaural Cue Coding – parametrická reprezentácia priestorového zvuku Enkóder vytvára z multikanálového zvuku 2 zložky, prenášané oddelene: Downmix zvukových signálov Metadátové informácie obsahujúce info o: Časových diferenciách medzi kanálmi (Interchannel Time Difference) Diferenciách v úrovni (inter channel Level Difference) Koherenciu medzi kanálmi (ICC)