Rok / Year: 2010
Svazek / Volume: 12
Číslo / Number: 1
Digitální zvukové efekty pro Surround Sound Digital Audio Effects for Surround Sound Jiří Schimmel, Michal Trzos
[email protected],
[email protected] Ústav telekomunikací FEKT Vysoké učení technické v Brně.
Abstrakt: Tento článek popisuje současný stav vývoje systémů Surround Sound a zabývá se metodikou modifikace několika typů jednokanálových algoritmů zvukových efektů pro tyto systémy. Detailněji popisuje návrh algoritmu ambisonického polohování a možnosti implementace zvukových efektů pro Surround Sound pro systémy zpracování zvukových signálů v reálném čase.
Abstract: This paper describes state-of-the-art in evolution of Surround Sound and deals with methods of modification of several types of monophonic audio effects for these systems. It describes in details design of algorithm of ambisonic panner and possibilities of implementation of Surround Sound audio effects for real time audio processing systems.
2010/2 – 20. 1. 2010
VOL.12, NO.1, FEBRUARY 2010
DIGITÁLNÍ ZVUKOVÉ EFEKTY PRO SURROUND SOUND Ing. Jiří Schimmel, Ph.D., Ing. Michal Trzos Ústav telekomunikací FEKT, Vysoké učení technické v Brně Purkyňova 118, 612 00 Brno Email:
[email protected],
[email protected] Abstrakt – Tento článek popisuje současný stav vývoje systémů Surround Sound a zabývá se metodikou modifikace několika typů jednokanálových algoritmů zvukových efektů pro tyto systémy. Detailněji popisuje návrh algoritmu ambisonického polohování a možnosti implementace zvukových efektů pro Surround Sound pro systémy zpracování zvukových signálů v reálném čase.
Jedná se tedy o systém 10.2. Dva z těchto kanálů jsou umístěny mimo horizontální rovinu. Na obr. 1 je schématicky uvedeno rozmístění jednotlivých reproduktorových soustav v systémech Dolby a DTS 5.1 a 6.1, SDDS, a TMH.
1. ÚVOD Aplikace vícekanálové zvukové reprodukce pomocí reproduktorových soustav obklopujících posluchače je označována jako systém Surround Sound. Systémy Surround Sound se používají ve zvukových systémech pro kina, v herní konzolách, počítačových hrách, v domácích kinech, multimediálních uměleckých produkcích a ve stále rostoucím počtu dalších aplikací. Nejznámější pro širokou veřejnost jsou stále systémy 5.1 a 6.1 využívané technologiemi Dolby Digital [1] a DTS [2]. Jednotlivé zvukové kanály systémů Surround Sound mají definovány své charakteristiky, zejména šířku spektra reprodukovaného zvukového signálu, polohu vzhledem k posluchači a účel, tj. složku zvukového obrazu, na jejíž reprodukci se podílejí. Vícekanálové zpracování zvukového signálu v systému Surround Sound nemůže být prováděno v každém kanálu zcela individuálně, při návrhu algoritmů číslicového zpracování signálů pro vícekanálové zvukové efekty je nutné uvažovat zmíněné charakteristiky jednotlivých kanálů systému.
Dolby DTS SDDS TMH Dolby EX DTS ES
SDDS TMH
Dolby DTS SDDS TMH Dolby EX DTS ES
SDDS TMH
Dolby DTS SDDS TMH Dolby EX DTS ES
TMH
TMH
Dolby DTS SDDS TMH Dolby EX DTS ES
Dolby DTS SDDS TMH Dolby EX DTS ES
TMH Dolby EX DTS ES
; Obr. 1: Rozmístění reproduktorů 2D systémů Surround Sound. Od začátku tohoto století se tým pod vedením prof. Kimio Hamasaki v laboratořích NHK Science & Technical Research Laboratories japonské televizní a rozhlasové společnosti NHK v Tokiu zabývá vývojem systému 22.2 určeného pro moderní digitální vysílání s vysokým rozlišením (HDTV) pod označením Super Hi-Vision (7680 x 4320 bodů) [3]. Kanály systému jsou podle umístění reproduktorových soustav rozděleny do tří hladin: horní, střední a dolní. Nejvíce kanálů, deset, obsahuje střední hladina (všechny pozice na obr. 1), která se nejvíce podílí na přesnosti odhadu směru v horizontální rovině. Horní hladina disponuje devíti kanály a dolní třemi plus dvěma kanály LFE [6]. Rozmístění pěti předních reproduktorů střední hladiny odpovídá systému SDDS, čtyři boční (po dvou na každé straně) a jeden zadní jsou umístěny jako v systému TMH. Reproduktory horní hladiny jsou umístěny stejně jako reproduktory střední hladiny, pouze není použit levý střední a pravý střední kanál a navíc je jeden kanál určen pro reprodukci soustavami umístěnými nad hlavou posluchače. Tři reproduktory dolní hladiny, levý, střední a pravý, jsou umístěny vpředu, stejně jako subwoofery pro reprodukci kanálů LFE. Rozmístění reproduktorů je voleno s ohledem na kompatibilitu se staršími formáty a pro škálovatelnost počtu přenášených kanálů. Obr. 2 schématicky ukazuje rozmístění reproduktorů v horní a dolní hladině reprodukce systému TMH a Super Hi-Vision.
2. TREND VÝVOJE SYSTÉMŮ SURROUND SOUND Hlavním trendem vývoje systémů Surround Sound pro film je přidání dalších tzv. hladin reprodukce. Systémy 5.1, 6.1 a SDDS [3] mají všechny reproduktorové soustavy určené k reprodukci jednotlivých kanálů (kromě kanálu LFE) umístěny ve stejné výšce, tj. v jedné rovině, která by se měla shodovat s horizontální rovinou poslechu (dle doporučení Dolby ve výšce 1,2 m [4]). Tyto systémy tedy poskytují dvourozměrnou reprodukci zvuku s dobrou rozlišitelností směru přicházejícího zvuku v horizontální rovině. Novým trendem je tady přidání dalších zvukových kanálů s reproduktorovými soustavami umístěnými v jiné výšce, tj. v rovině neshodující se s horizontální rovinou poslechu. Tím je umožněno rozlišit směr přicházejícího zvuku i v mediální rovině. Protože schopnost lidského sluchu určit směr přicházejícího zvuku v mediální rovině je horší než v horizontální rovině poslechu [5], je počet kanálů pro reprodukci zvukového signálu v hladinách mimo horizontální rovinu nižší než v ní. Tyto systémy jsou označovány jako 3D Surround nebo „Surround with height“. K těmto systémům patří zvukový systém v kinech IMAX nebo systém TMH [3], který používá kromě tří surroundových kanálů a dvou kanálů pro subwoofer (se signálem posunutým o +45° a –45°) celkem sedm předních kanálů. 2-1
2010/2 – 20. 1. 2010
TMH Super Hi-Vision
Super Hi-Vision
Super Hi-Vision
TMH Super Hi-Vision
VOL.12, NO.1, FEBRUARY 2010
Super Hi-Vision
Super Hi-Vision
poloha pravého reproduktoru a referenční poslechová pozice tvoří vrcholy rovnostranného trojúhelníku, což je doporučená konfigurace pro stereofonní poslech.
Super Hi-Vision
Super Hi-Vision
B
Super Hi-Vision Super Hi-Vision
Super Hi-Vision
30° Super Hi-Vision
D 20° °−1 100
Obr. 2: Rozmístění reproduktorů v horní (vlevo) a dolní (vpravo) hladině reprodukce 3D systémů.
3. VNÍMÁNÍ PROSTOROVÉHO ZVUKU Uspořádání poslechového prostoru je důležitou součástí vícekanálových zvukových systémů. Důležité je umístění reproduktorů nejen z hlediska směru, ze kterého zvuk přichází, ale také z hlediska vzdálenosti, která má vliv na intenzitu zvukového vlnění a na jeho zpoždění. Člověk je schopen rozpoznat s poměrně značnou přesností směr přicházejícího zvuku a orientovat se podle sluchového vjemu o vlastnostech prostoru, v němž zvukový děj probíhá. Lokalizací zdroje zvuku je myšlena schopnost sluchu určit směr v třírozměrném prostoru, tj. jeho azimut v horizontální rovině poslechu, elevaci v mediální rovině a vzdálenost zdroje zvuku. Lokalizace v prostoru se lépe daří u složených zvuků a hluků než u čistých tónů, vyvíjí se během života zkušenostmi, spojováním zrakových a sluchových vjemů a závisí na několika faktorech, z nichž každý sám o sobě nestačí k přesnému určení směru [5].
Obr. č. 3: Rozmístění reproduktorů systému 5.1 Surround Sound podle doporučení ITU-R BS.775 [7]. Stejná vzdálenost všech reproduktorů od místa posluchače je nutná z hlediska vnímání směru přicházejícího zvuku. Hlavními činiteli podílejícími se na rozpoznání směru přicházejícího zvuku jsou totiž rozdíly intenzity a času s jakými je zvuk vnímán každým uchem, tzv. interaurální diference časové a intenzitní (Interaural Intensity Difference IID, Interaural Time Difference ITD) [5]. Tyto rozdíly jsou způsobeny rozdílnou vzdáleností zdroje zvuku od obou uší, na které je závislý útlum intenzity zdroje zvuku a časový rozdíl dopadajících vln. Tzv. binaurální rozdíl vzdáleností ∆l lze určit [9]
Na obr. 3 je uvedeno rozmístění reproduktorů pětikanálového systému typu 3/2 ve zvukovém studiu podle doporučení ITU-R BS.775-1 [7]. V profesionální oblasti se při zpracování zvukového signálu používá pro vícekanálové systémy označení M/N, kde M je počet předních kanálů a N počet zadních/stranových kanálů. Tím je přesněji definován účel zvukových kanálů: přední kanály jsou určeny zejména pro přenos zvukového signálu lokalizovaného divákem na plátně, zatímco zadní/stranové kanály (označované v různých systémech jako „effects“, „surround“, „room impresion“ nebo ambience“ [8]) slouží k vytvoření zvukové kulisy obklopující diváka, kde na přesné lokalizaci směru přicházejícího zvuku nezáleží. V dalším textu bude tato druhá skupina označována jako surroundové kanály.
∆l = d sin α ,
(1)
kde α je azimut zdroje zvuku a d je vzdálenost uší. Ta je samozřejmě individuální, ale při výpočtech se většinou používá hodnota 15 cm [9]. To, zda se na vnímání směru podílí více rozdíl intenzit nebo fází, závisí na kmitočtu zvukového vlnění, jeho charakteru a vzdálenosti zdroje zvuku. Zejména interaurální intenzitní diference je silně kmitočtově závislá, protože na ni má vliv také akustický stín hlavy [5]. Na rozpoznání azimutu i elevace směru přicházejícího zvuku se také podílí odrazy od ramen a ve vnějším uchu [5]. Všechny tyto faktory lze změřit a vyjádřit pomocí tzv. přenosové funkce hlavy (Head Related Transfer Function HRTF), což je přenosová funkce levého a pravého ucha závislá na azimutu a elevaci zdroje zvuku [5]. Pro rozpoznání, zda zvuk přichází zepředu nebo zezadu, je důležité téměř neznatelné otáčení hlavy, které při snaze lokalizovat zdroj zvuku nevědomky děláme, což ale HRTF nezohledňuje.
Doporučení ITU-R BS.775-1 vychází z kruhové konfigurace, ve které jsou vzdálenosti všech reproduktorů od posluchače stejné. Tato vzdálenost odpovídá vzájemné vzdálenosti levého a pravého reproduktoru a v obr. 3 je označena B. Referenční poslechová pozice je ve středu pomyslného kruhu, na jehož obvodu jsou umístěny reproduktory všech kanálů přenášejících celé akustické pásmo kmitočtů. Reproduktor středního kanálu je umístěn přímo proti posluchači, tj. v úhlu 0°, levý a pravý surroundový kanál v úhlu ±100° až ±120° a levý a pravý přední kanál v úhlu ±30°. Tím vznikne mezi levým a pravým předním kanálem úhel 60°, takže poloha levého reproduktoru,
Důležitým jevem je také tzv. jev priority (precedence effect, law of the first wavefront) [10], jehož vliv na směrové slyšení definoval Lothar Cremer na základě výzkumu vlivu odrazů v uzavřeném prostoru na lokalizaci zdroje zvuku, který publikoval ve své disertační práci Helmut Haas v roce 1949 [11] (také se mu říká Haasův jev). Lid2-2
2010/2 – 20. 1. 2010
VOL.12, NO.1, FEBRUARY 2010
ský sluch vnímá směr přicházejícího zvuku podle toho, do kterého ucha dorazí zvukové vlnění dřív a to i v případě, že intenzita zvukového vlnění v druhém uchu je o 7 až 10 dB vyšší. To platí až do zpoždění kolem 30 ms, až při vyšších zpožděních je zvuk vnímán jako přímý a odražený.
Z výše uvedeného textu vyplývá rozpor s tím, jak jsou umístěny surroundové reproduktory v kinosále a jak mohou být podle doporučení Dolby [4] a dalších umístěny při domácím poslechu. Značná tolerance vzdáleností těchto reproduktorů od posluchače je možná jen díky tomu, že surroundové kanály jsou určeny k reprodukci ambientních zvuků, nikoliv k přesné lokalizaci polohy zdroje zvuku. Ta je nutná pouze na promítacím plátně, čili u předních reproduktorů. Více surroundových kanálů se používá z důvodu možnosti panorámování zvuků v celém prostoru kolem posluchače, ale protože sluchový vjem není v případě ambientních zvuků spojen s vizuálním, je už při vytváření zvukové stopy filmu ve studiu počítáno s určitým rozostřením lokalizace (localization blur) [5].
Výzkumem kombinovaného vlivu rozdíl intenzit a zpoždění na lokalizaci při stereofonní reprodukci se v minulém století zabýval Van de Boer [12]. Výsledkem jeho výzkumu bylo, že při zpoždění mezi kanály do 4 ms se lokalizace řídí rozdílem intenzit, při zpoždění mezi 4 ms a 30 ms se uplatňuje Haasův jev, tj. až do rozdílu intenzit 6 dB se lokalizace řídí první příchozí vlnou, a nad 40 ms doje k tzv. směšování, kdy už signál není vnímán jako jediný. Novější meta-teorie směrové lokalizace Michaela Gerzona [13], která se zabývá vícekanálovou reprodukcí, říká, že člověk používá různé mechanismy pro sluchovou lokalizaci a že kromě případů, kdy jsou jednotlivé sluchové podněty silně v konfliktu, je celkový sluchový dojem dán většinou souhlasných podnětů. Teorie popisuje hierarchii modelů, z nichž pro každý derivuje lokalizační vektor, jehož směr určuje předpokládaný směr zvuku a jeho velikost popisuje stabilitu lokalizace. Pro reálný jednobodový zdroj je velikost lokalizačního vektoru 1. Pokud je velikost lokalizačního vektoru menší nebo větší, vnímaný směr se pohybuje, pokud posluchač otočí hlavou. Dva nejjednodušší modely jsou model akustické částicové rychlosti a model proudění energie, který koresponduje s Van de Boerovým modelem. Tyto modely jsou také nazývány model rychlosti a model energie s přidruženými lokalizačními vektory nazývanými vektor rychlosti a vektor energie. Tyto vektory korelují s měřeními interaurální časové a intenzitní diference [13].
4. NÁVRH ZVUKOVÝCH EFEKTŮ PRO SYSTÉMY SURROUND SOUND Pro efektové zpracování zvukových signálů v systémech Surround Sound lze samozřejmě použít stejných algoritmů jako pro zpracování monofonních a stereofonních signálů. Zvukové efekty pro Surround Sound jsou určeny již pro cílový vícekanálový systém, kdy je nutné pracovat s vícekanálovým zvukovým formátem jako celkem. V předcházejícím textu byly už kanály systémů Surround Sound rozděleny do tří skupin: přední, surroundové a LFE. Řízení algoritmů číslicového zpracování signálů je nutné alespoň v rámci těchto skupin sjednotit. Otázkou zůstává, jak rozpoznat, která ze zpracovávaných zvukových stop odpovídá danému kanálu systému Surround Sound. Pro výměnu a zpracování vícekanálového zvukového materiálu udávají přiřazení osmi zvukových stop jednotlivým kanálům doporučení SMPTE ITU-R 10C/11, EBU R 91 a ITU-R BS.1384 [8] (viz tab. 1). Čtvrtá stopa může být kromě kanálu LFE volitelně využita pro jiný kanál, např. monofonní mix surroundových kanálů. Pokud se jedná o formát 3/1, je ve stopě 5 a 6 tentýž monofonní surroundový kanál s úrovní sníženou o 3 dB. Poslední dvě stopy jsou využity v závislosti na formátu Surround Sound. U formátu 5/2 (SDDS) obsahují zvukové signály levého a pravého středního kanálu, u formátu 3/3 (6.1) signál zadního surroundového kanálu. U formátů, které používají šest nebo méně kanálů (včetně LFE) tyto stopy prioritně obsahují signály smíchané do stereofonní stopy 2/0 nebo maticově zakódované signály Lt a Rt [16] Dolby Surround. Mohou ale obsahovat i komentáře [8].
Z výše zmíněných výzkumů vyplývá základní nevýhoda vícekanálových systémů reprodukce zvuku: ideální lokalizace je dosaženo pouze v referenční pozici posluchače a v jejím blízkém okolí. Lidský sluch stejně jako ostatní smysly nedokonalý a veškeré vjemy jsou charakterizovány určitou prahovou hodnotou, jejíž překroční je nutné, aby byl vjem rozpoznán, a minimální změnou této hodnoty, která je daným smyslem rozpoznatelná. U interaurální časové diference také existuje minimální časový rozdíl, tzv. diskriminační práh ITDmin [9], který je lidským uchem rozeznatelný. Hodnota ITD je ovšem uváděna 30 µs [9], což je poměrně malá hodnota. Ve směru k reproduktorové soustavě to znamená toleranci pozice posluchače pouhý 1 cm a ve směru kolmém při vzdálenosti reproduktorové soustavy 5 m toleranci asi 32 cm. Tyto teoretické výsledky jsou ovšem rozporu s Van de Boerovou závislostí, která říká, že do rozdílu zpoždění 4 ms se na lokalizaci podílí pouze rozdíl intenzit. V tom případě, je tolerance pozice posluchače ve směru k reproduktorové soustavě přibližně 1,35 m a ve směru kolmém při vzdálenosti reproduktorové soustavy 5 m dokonce 3,9 m. Dle Van de Boerova modelu a Gerzonova modelu proudění energie se na chybě lokalizace při změně pozice posluchače budou podílet jen změny rozdílů intenzit způsobené změnou pozice posluchače. Otázku standardizace referenční pozice posluchače řeší např. [14] nebo EBU 3276 [15], kde je definována jako kruh s poloměrem maximálně 80 cm.
Tab. 1: Přiřazení stop kanálům Surround Sound stopa 1 2 3 4 5 6 7 8
2-3
kanál Levý Pravý Střední Low-frequency Levý surround Pravý surround volné využití volné využití
označení L R C LFE LS RS
2010/2 – 20. 1. 2010
VOL.12, NO.1, FEBRUARY 2010
Profesionální technologie číslicového zpracování zvukových signálů na osobních počítačích umožňují efektovému modulu zjistit, kolik kanálů využívá zvuková sběrnice, do které byl efekt vložen. Přesto je ale nutné znát formát nebo počet kanálů formátu Surround Sound, který chceme efektem zpracovávat. Ostatní kanály sběrnice je nutné přenášet ze vstupu na výstup efektu beze změny (tzv. bypass), protože mohou obsahovat signály smíchanédo menšího počtu stop nebo alternativní zvukový formát. Budeme-li uvažovat v současné době běžné formáty, tj. s maximálním počtem osm kanálů, lze čísla zvukových stop do jednotlivých skupin kanálů rozdělit podle tab. 2. První dva řádky odpovídají systému Dolby Surround [1], třetí řádek systému Dolby Digital [1] a DTS [2], čtvrtý řádek systémům Dolby Digital EX [1], DTS-ES a DTS Discrete 6.1 [17] a poslední řádek systému SDDS [13].
L C
přední 1,2,3 1,2,3 1,2,3 1,2,3 1,2,3,7,8
surround 5,6 5,6 5,6 5,6,7 5,6
LFE 4 4 4 4
C A
+
A
+
A
+
A
+
R
R
LS
LS
RS
LFE
RS +10dB
A
SUB
+
Obr. 4: Konfigurace 1 správy nízkofrekvenčních složek zvukového signálu Surround Sound.
4.2. ZMĚNA DYNAMIKY ZVUKOVÝCH SIGNÁLŮ Dynamické zpracování zvukových signálů je založeno na systému detekce úrovně signálu pomocí sledovače obálky a dále na algoritmu, který ze signálu sledovače obálky odvozuje zesilovací činitel pro napětím řízený zesilovač, který váhuje vstupní signál (viz obr. 5) [20]. Systém řízení dynamiky signálu se skládá z přímé cesty a řídicí větve, která provádí měření úrovně signálu a výpočet zesilovacího činitele g[n]. U moderních digitálních dynamických procesorů lze do přímé větve zařadit zpožďovací linku, která zpozdí vstupní signál o dobu reakce řídicí větve na změnu úrovně signálu. Tyto zvukové efekty měnící dynamiku signálu jsou označovány jako dynamické procesory s nulovou reakční dobou.
Tab. 2: Rozdělení stop do skupin kanálů Surround Sound počet stop 4 (4.0) 5 (4.1) 6 (5.1) 7 (6.1) 8 (SDDS)
L A
bypass 4,7,8 7,8 7,8 8
4.1. SPRÁVA NÍZKOFREKVENČNÍCH SLOŽEK Algoritmy pro správu nízkofrekvenčních složek zvukového signálu Surround Sound, tzv. Bass Management [4], umožňují kombinování nízkofrekvenčních signálů jednotlivých kanálů na výstupu pro subwoofer nebo v hlavních reproduktorových soustavách. Kromě signálu LFE kanálu může subwoofer navíc reprodukovat nízkofrekvenční signál ostatních kanálů, pokud jej nejsou schopné reprodukovat jejich reproduktorové soustavy. Na obr. 4 je uvedena konfigurace, která byla použita pro návrh efektu. Zpoždění ve všech kanálech musí být konstantní, proto jsou horní i dolní propusti navrženy podle [18] jako filtry šestého řádu s aproximací přenosové funkce typu Linkwitz–Rilley, které jsou realizovány jako kaskáda filtrů druhého řádu a to v druhé kanonické formě [19]. Dělicí kmitočet filtrů je podle doporučení Dolby 80 Hz. Dříve LFE kanál ve zvukových stopách filmu obsahoval signály až do kmitočtu 120 Hz [4], proto je nutné mít k dispozici filtry s oběma dělicími kmitočty.
U vícekanálové komprese dynamiky zvukových signálů je důležité udržet kompresní poměr pro všechny kanály skupiny stejný, aby nedošlo k narušení vzájemného poměru intenzit signálů, což má za následek posun nebo úplnou ztrátu lokalizace signálu. Proto je řídicí větev použita pouze jedna pro každou skupinu nebo dokonce jediná pro všechny kanály kromě LFE a samozřejmě signálů efektem pouze procházejících (bypass). Kanál LFE je třeba ze zpracování zcela vyloučit kvůli jeho dynamice, která by způsobila tzv. dýchání komprese [21]. z−D
x[n−D] y[n] g[n]
sledovač obálky
Blokový diagram správy nízkofrekvenčních složek pro systém 5.1 na obr. 4 je označován jako konfigurace 1 a je určen pro případ, kdy je k dispozici subwoofer a hlavní reproduktorové soustavy nejsou schopné signály nízkých kmitočtů reprodukovat. Před sloučením signálů je potřeba snížit jejich úroveň pomocí článku s útlumem A, který je vypočítán podle počtu kanálů. Signál kanálu LFE je přenášen kvůli jeho dynamice s úrovní o 10 dB nižší, proto je potřeba jej před sloučením zesílit [4]. Existuje také druhá konfigurace, kterou používají dekodéry v systémech domácího kina a to pro případ, kdy není subwoofer k dispozici a přední levá a pravá reproduktorová soustava je schopná efektivně reprodukovat zvukové signály s nízkým kmitočtem [4].
f(x[n])
dynamický filtr
Obr. 5: Princip efektů pro změnu dynamiky signálu. Klíčovým blokem vícekanálové modifikace algoritmu je sledovač obálky, který se stává systémem s několika vstupy a jedním výstupem. Detekce amplitudové obálky signálu dle její definice [22] je výpočetně náročný algoritmus, proto sledovače obálky využívají jednoduchých algoritmů pracujících jako detektor efektivní nebo špičkové hodnoty signálu. Jedná se většinou o kmitočtové filtry typu dolní propust prvního řádu s nízkým mezním kmitočtem zařazené za detektor signálu, kterým může být jednocestný nebo dvojcestný usměrňovač signálu, systém počítající druhou mocninu signálu atd. [20]. V řídicí větvi na blok sledovače obálky navazuje blok nelineárního 2-4
2010/2 – 20. 1. 2010
VOL.12, NO.1, FEBRUARY 2010
systému s funkcí převodní charakteristiky f(x[n]), která určuje typ dynamického procesoru [20], a dynamický filtr měnící čas náběhu a poklesu signálu řídicí větve. Tento čas je zejména u předních kanálů třeba volit s ohledem na možnost, že je v nich za účelem lokalizace dialogů použito zpoždění. Podle Van de Boerova modelu je vhodné volit časovou konstantu dynamického filtru mezi 30 a 40 ms, aby se zamezilo kolísání komprese vlivem zpožděných signálů předních kanálů.
lace, fázové zkreslení a aliasing při rychlých změnách výšky signálu směrem nahoru, což odpovídá podvzorkování vstupního signálu [23]. Proto byla při implementaci zvolena interpolace pomocí číslicového filtru s konečnou impulsní charakteristikou [19] typu dolní propust. Zpoždění zpožďovací linky je řízeno speciálním generátorem, většinou sub-akustickým oscilátorem LFO (LowFrequency Oscillator) s kmitočtem řádově od 0,1 do 10 Hz. Kmitočet LFO určuje rychlost a amplituda hloubku modulace. Používají se harmonické, impulsní, pilové, trojúhelníkové i náhodné průběhy. Nejznámější zvukové efekty využívající zpožďovací linku s proměnným zpožděním jsou vibráto, chorus a flanger. Časově proměnné zpoždění linky v konečném důsledku způsobí u efektů chorus a flanger časově proměnný posun maxim a minim modulové kmitočtové charakteristiky. Vícekanálová modifikace dává smysl pouze u těchto dvou efektů. Hlavním rozdílem jejich algoritmu je, že efekt chorus má přenos zpětnovazební větve filtru aFB = 0 [20].
4.3. VÍCEKANÁLOVÉ MODULAČNÍ EFEKTY Řada zvukových efektů je založena na využití zpožďovací linky. Základní blokové schéma těchto efektů ve tvaru podobném druhé kanonické struktuře číslicových filtrů [19] je znázorněno na obr. 6. Vstupní signál je v přímé větvi násoben konstantou aBL (blend) a sečten se signálem zpožděným o M vzorků násobeným konstantou aFF (feed-forward). Z výstupu zpožďovací linky je na její vstup opět přiváděn zpětnovazební signál násobený konstantou aFB (feedback).
U modifikace pro vícekanálové zvukové systémy lze vyjít ze struktury vícefázových modulačních efektů [23], která využívá několika zpožďovacích linek, jejichž zpoždění je řízeno pomocí vzájemně fázově posunutých LFO, a jejich výstupy se sčítají. To se v modulové kmitočtové charakteristice projeví vznikem většího počtu minim a maxim, jejichž hodnota bude závislá na vzájemném poměru koeficientů aBL resp. aFB. Pozice těchto minim a maxim se samozřejmě bude měnit s aktuální hodnotu zpoždění.
aBL
x[n]
+
z −M
+
aFF
y[n]
aFB
Obr. 6: Princip zvukových efektů se zpožďovací linkou.
Stereofonní varianta efektů, zejména efektu chorus, používá modifikaci blokového schématu na obr. 6, kdy signály přímé a zpožďovací větve nejsou sečteny, ale přivedeny zvlášť do levého a pravého kanálu. Díky vlastnosti lidského sluchu označované jako binaurální sumace [24] dojde při poslechu v uzavřeném zvukovém systému (sluchátka) ke sloučení sluchového vjemu zobou uší až v mozku. Při poslechu v otevřeném zvukovém systému (reproduktory) dojde k superpozici fázově posunutých signálů již při jejich šíření dle přenosové funkce hlavy, uvažujeme-li reprodukci v prostoru bez odrazů. U vícekanálového systému je situace stejná, pouze dochází k superpozici více signálů. Otázka volby fázových zpoždění jednotlivých zpožďovacích větví je předmětem spíše experimentů než empirické analýzy.
Jedná se o tzv. univerzální hřebenový filtr (dle tvaru modulové kmitočtové charakteristiky filtru). Bude-li zesílení přímé větve aBL = 1, zesílení zpětnovazební větve aFB = 0 a zesílení zpožděného signálu aFF = g, bude se jednat o hřebenový filtr FIR s přenosovou funkcí H(z) = 1 + gz–1. Budeli g > 0, budou maxima modulové kmitočtové charakteristiky o velikosti 1 + g ležet na kmitočtech kfVZ/M a minima o velikosti 1 – g na kmitočtech (k + 0,5)∙fVZ/M, kde k = 0, 1, 2, 3 …. Bude-li g < 0, budou polohy maxim a minim přenosové funkce vzájemně zaměněny. Bude-li naopak zesílení přímé větve aBL = 1, zesílení zpětnovazební větve aFB = g a zesílení zpožděného signálu aFF = 0, bude se jednat o hřebenový filtr IIR s přenosovou funkcí H(z) = 1/(1 + gz–1). Tvar jeho přenosové funkce pro g > 0 a g < 0 bude inverzní než u hřebenového filtru typu FIR s rozdílem, že maxima přenosové funkce budou mít velikost 1/(1–g) a minima 1/(1 + g).
Jedním z možných přístupů je vyjít z požadavku stejné interaurální časové diference zvukového signálu všech reproduktorů v místě posluchače. Pokud zdroje zvuku leží na kružnici s poloměrem r, jejíž střed je v pozici posluchače, získáme pomocí kosinové věty pro závislost interaurální časové diference ITD(α) na azimutu daného kanálu systému Surround Sound α (viz obr. 3)rovnici
Zvukové efekty se zpožďovací linkou, jejíž doba zpoždění se s časem periodicky mění, se často označují jako modulační efekty. Protože ve vyrovnávací paměti digitální zpožďovací linky jsou uloženy vzorky signálu v diskrétním čase, je potřeba velikosti vzorků výstupního signálu zpožďovací linky při čase zpoždění nacházejícím se mezi časem dvou sousedních vzorků linky interpolovat. Nelze použít zaokrouhlení na nejbližší vzorek, tím vzniká značné harmonické zkreslení signálu. Lineární interpolace vzorků ale také není ideálním řešením, protože způsobuje ztrátu vyšších kmitočtů. Konečným důsledkem lineární interpolace je amplitudové zkreslení, amplitudová modu-
ITD(α ) =
2rd sin α , v0
(2)
kde v0 je rychlost zvuku (340 m/s u hladiny moře při 15°C) a d je opět vzdálenost uší. Budeme-li chtít dosáhnou u signálů všech reproduktorů konstantní hodnotu interaurální časové diference ITD0, je potřeba odpovídající zpožďovací lince přidat zpoždění ∆t(α), pro které platí 2-5
2010/2 – 20. 1. 2010 ∆t (α ) = ITD0 −
VOL.12, NO.1, FEBRUARY 2010
kde tD je výchozí hodnota zpoždění a m hloubka modulace použité pro všechny zpožďovací linky.
Modifikace zvukových efektů využívajících kmitočtových filtrů se statickým řízením spočívá v podstatě pouze v jejich sjednoceném řízení pro každou skupinu kanálů nebo pro všechny kanály s výjimkou kanálu LFE, který přenáší zvukový signál pouze v prvních třech oktávových pásmech. Pokud by byla kmitočtová filtrace prováděna individuálně v jednotlivých kanálech, došlo by na nízkých kmitočtech, kde při lokalizaci převládá interaurální intenzitní rozdíl, ke změně polohy virtuálního zdroje zvuku, což by u zvuků se širokým spektrem kmitočtů znamenalo rozostření lokalizace. Pokud by byl v některých kanálech efekt zapnut a v jiných ne nebo by bylo použito jiné kaskády filtrů, mohlo by dojít k dalšímu rozostření lokalizace vlivem rozdílného kmitočtově závislého skupinového zpoždění signálu v jednotlivých kanálech, které je u filtrů typu IIR nelineární [19]. U zvukových efektů využívajících kmitočtových filtrů s dynamickým řízením je samozřejmě nutné společné řízení parametrů, tj. u efektu phaser společný LFO.
4.4. VÍCEKANÁLOVÁ FILTRACE ZVUKOVÝCH SIGNÁLŮ
4.5. PANORÁMOVÁNÍ VIRTUÁLNÍHO ZDROJE ZVUKU
Kmitočtová filtrace zvukového signálu má v oblasti zvukových efektů celou řadu aplikací, jak technických, tak i uměleckých. V číslicové oblasti se jedná o diskrétním časově invariantní lineární systém popsaný diferenční rovnicí m tého řádu s přenosovou funkcí ve tvaru ryze lomené racionální funkce [19], jejíž koeficienty ai a bi jsou nastavovány podle požadované modifikace spektra zvukového signálu, a to buďto staticky nebo dynamicky. V oblasti digitálních zvukových efektů se využívají téměř výhradně filtry s nekonečnou impulsní odezvou (Infinite Impulse Response IIR) [19]. Jejich hlavní výhodou je, že pro dosažení stejných požadavků tolerančního schématu není nutné používat tak vysoký řád přenosové funkce jako u filtrů s konečnou impulsní charakteristikou (Finite Impulse Response FIR [19]). S tím souvisí i menší požadavky na výpočetní výkon a paměť a malé zpoždění při zpracování signálu. Hlavní nevýhoda filtrů typu IIR, tj. nemožnost dosažení přesně lineárního průběhu fázové kmitočtové charakteristiky, není u zpracování signálů zvukovými efekty tak závažná, protože dle Ohmova akustického zákona [25] není lidský sluch schopen vnímat fázové poměry spektrálních složek zvukového signálu.
Pro algoritmy polohování virtuálního zdroje zvukového signál vytváří systémy Surround Sound zcela nový prostor. U stereofonní reprodukce bylo nejčastěji používanou metodou amplitudové panorámování [26]. Spočívá v aplikaci zesilovacího faktoru na signály přiváděné do reproduktorů. Tato technika je použitelná i pro více reproduktorů, které ovšem musí být umístěny ekvidistantně kolem posluchače. Vjemu směru přicházejícího zvuku je dosaženo pouze pomocí změny zesílení signálu jednotlivých kanálů, které lze vypočítat pomocí sinového [26] nebo tangentového zákona [27].
2rd sin α . v0
(3)
Sečteme-li takto zpožděné signály se signálem přímé větve, získáme v místě posluchače pro všechny signály stejnou přenosovou funkci, tj. stejné pozice jejích minim a maxim. Jakýkoliv pohyb hlavy posluchače bude mít za následek změnu barvy zvuku. Alternativě lze signál přímé větve přivést do reproduktorové soustavy s azimutem 0 a do ostatních pouze signály zpožděné, čili k superpozici dojde až při šíření zvuku. Při použití LFO s harmonickým průběhem získáme fázový posun dané zpožďovací linky ϕ0(α) potřebný k dosažení požadované hodnoty přidaného zpoždění ∆t(α) jako tD , m
ϕ0 (α ) = arcsin
(4)
Modifikací této metody je vektorově bázové amplitudové polohování (Vector Based Amplitude Positioning, VBAP). Jedná se o techniku umožňující použití neomezeného počtu reproduktorů ve dvourozměrném nebo trojrozměrném prostoru. Touto metodou lze vytvářet stacionární i pohyblivé virtuální zdroje zvuku v jakémkoli prostoru osazeném reproduktory [27]. Dvoukanálová stereofonní konfigurace je zde přeformulována jako dvojrozměrná vektorová báze. Tato báze je na obr. 7 definována jednotkovými vektory intenzity I, které směřují na reproduktory 2, resp. 3. Metoda může být použita pro téměř jakoukoli konfiguraci reproduktorů v horizontální rovině, protože takový systém může být také formulován vektorovými bázemi [27]. Na obr. 7 je znázorněna aplikace dvojrozměrného VBAP na reproduktorový systém s pěti reproduktory. Virtuální zdroj zvuku může být vytvořen na spojnici mezi těmi reproduktory, na jejichž vektorové bázi se nachází. Zvukové pole, které může být vytvořeno metodou VBAP, je tedy spojením aktivních oblouků jednotlivých vektorových bází. U dvojrozměrného VBAP je nejvhodnější utvořit vektorové báze přilehlými reproduktory. Na obr. 8 jsou vektorové báze reproduktorů zvoleny jako L12, L23, L34, L45 a L51. Jednotlivé vektorové báze se nepřekrývají. Při přechodu z jedné vektorové báze do druhé se zesilovací faktor g vzdálenějšího reproduktoru snižuje na nulu, což umožňuje vytváření plynule navazujících pohyblivých virtuálních zdrojů zvuku.
Nejčastěji používanými filtry při zpracování zvukových signálů jsou parametrické a grafické ekvalizéry, které jsou kaskádním spojením filtrů typu shelving a peaking [20]. Zatímco u parametrického ekvalizéru může uživatel nastavovat všechny parametry filtru (zisk, kmitočet, jakost), u grafického lze nastavovat jen zisk filtru. Kmitočet je nastaven v logaritmických intervalech a jakost tak, aby přenosová funkce celého ekvalizéru byla v krajních mezích zisku všech filtrů pokud možno konstantní [20]. Tyto dva typy filtrů jsou zástupci filtrů se statickým řízením. V hudbě je nejčastěji používaným filtrem s dynamickým řízením efekt phaser, jehož jedna z možných realizací je založena na průchodu signálu kaskádou filtrů typu notch s časově proměnným kmitočtem řízeným LFO [20].
2-6
2010/2 – 20. 1. 2010
VOL.12, NO.1, FEBRUARY 2010
že vertikální souřadnice z ani poloměr válce ρ nenesou pro horizontální ambisonii žádnou informaci, lze dosadit za z = 0 a ρ = 0. Z (6) lze již odvodit zjednodušenou rovnici horizontálního ambisonického kódování prvního řádu
1 I1
5 L51
2 L12
I5
g2I2
I2
W 1 2 X = cosθ S , Y sin θ
L45 L23 g3I3 4
I4
L34
I3
kde W, X a Y jsou ambisonické signály, θ je azimut a S je vstupní signál. Obecně lze vyjádřit vztah pro dvojrozměrné ambisonické kódování řádu M jako dekompozici rozložení delta do cirkulárních Fouriérových koeficientů
3
Obr. 7: Vektorový popis 2D konfigurace reproduktorů.
4.5.1. A MBISONICKÉ POLOHOVÁNÍ
T
1 B(θ ) = S , cos(θ ), sin(θ ), cos(2θ ), sin (2θ )... , 2
Jinou metodou je tzv. ambisonické polohování. To je založeno na dekompozici sférických harmonických funkcí zvukového pole [28], kterou definoval Michael Gerzon. Hlavním rozdílem, kterým se ambisonie liší od ostatních technik reprodukce prostorového zvuku, je separace počtu kanálů potřebných pro přenos a počtu reproduktorů potřebných pro reprodukci. Typicky se používá větší množství reproduktorů než přenosových kanálů. Čím více reproduktorů, tím stabilnější je výsledné zvukové pole.
U trojrozměrného ambisonického kódování prvního řádu lze kódovací rovnici získat převodem ze sférické soustavy souřadnic do kartézské soustavy souřadnic [30] W 1 2 X = cosθ sin α S , Y sin θ sin α Z cos α
Kódování virtuálního zdroje do ambisonických signálů je založeno na předpokladu, že zdroj zvuku je dostatečně vzdálený, v ideálním případě v nekonečnu, aby jeho příspěvek byl aproximovatelný rovinnou vlnou. Sférická harmonická dekompozice rovinné vlny přicházející ze směru (θS, αS), nesoucí signál S vede k jednoduchému tvaru vyjadřujícímu ambisonické komponenty [29] Bmn = S .YBmn (θ Sα S ), σ
(9)
kde W, X, Y a Z jsou ambisonické signály, θ je azimut virtuálního zdroje a α elevace virtuálního zdroje.
4.5.3. A MBISONICKÉ DEKÓDOVÁNÍ Ambisonické dekódování je postup, který vhodnou lineární kombinací ambisonických signálů (W, X, Y, Z, …) pro každý reproduktor v systému reprodukuje tlak a částicovou rychlost ve středové pozici systému. Takové lineární kombinaci se říká exaktní dekódovací matice, v literatuře taktéž často rychlostní dekódování. Každá reproduktorová konfigurace má unikátní dekódovací matici. Obecně lze rozlišit tři typy reproduktorových konfigurací: regulární polygony, neregulární polygony s protilehlými páry a obecné neregulární polygony, např. dle ITU-R BS.775 [7]. Pro první a druhý typ reproduktorových konfigurací lze odvodit exaktní řešení, pro třetí typ ale neexistuje a je třeba jej získat numerickými metodami.
(5)
kde Bmn vyjadřuje ambisonické komponenty řádu m a stupně n s σ = ±1, kde komponenty s s σ = –1 jsou otočeny o 90°/m kolem osy z oproti komponentům s σ = 1. Signál S ze vzdáleného pole je tedy kódován aplikací reálných kódovacích koeficientů, které jsou vyjádřeny sférickými harmonickými funkcemi. Reálnost kódovacích koeficientů má význam v tom, že vlastnosti ambisonických komponentů jsou neměnné s kmitočtem [29]. Rovnice ambisonického kódování ve tvaru (5) platí pro obecné trojrozměrné zvukové pole. Prvním zjednodušením pro dvojrozměrné horizontální zvukové pole je eliminace sférických harmonických složek, které jsou definovány podél osy z (vertikální osa). Použijí se tedy pouze ty sférické harmonické funkce Ymn , u kterých je m = n. Se stoupajícím řádem sférické harmonické funkce se zvyšuje její úhlové rozlišení. Sférické harmonické funkce bez vertikální informace lze zjednodušit na cylindrické harmonické funkce, které jsou popsány v kartézském systému souřadnic [30] x = ρ cosθ , y = ρ sin θ , z = z,
(8)
kde B(θ) jsou horizontální ambisonické komponenty a je směr, ze kterého rovinná vlna přichází.
4.5.2. A MBISONICKÉ KÓDOVÁNÍ
σ
(7)
Za předpokladu, že jsou reproduktory dostatečně vzdáleny od poslechového bodu, jejich signály Si jsou kódovány jako rovinné vlny s vektorem koeficientů ci [29] Y00+1 (θ i , α i ) B00+1 S1 +1 +1 S Y (θ , α ) B ci = 01 i i , B = 01 , S = 2 , ... ... ... σ1 +1 S N Ymn (θ i , α i ) Bmn
(9)
(6) kde S je vektor signálů vysílaných reproduktory a B je vektor ambisonických komponentů, které jsou při dekódování znovu skládány principem znovu zakódování. Ten
kde x a y jsou pozice bodu v kartézském systému souřadnic, θ je azimut v cylindrickém systému souřadnic. Proto2-7
2010/2 – 20. 1. 2010
VOL.12, NO.1, FEBRUARY 2010
to druh dekódování byl označen za nejlepší pro velké prostory [32].
lze napsat v maticové formě jako B = CS, kde C = [c1, c2, ..., cN] je matice kódování. Aby byl vektor dekódovaných ambisonických komponentů shodný s vektorem komponentů získaných principem znovu zakódování, je třeba nalézt dekódovací matici D pseudoinverzní k matici C. Dekódované signály S z původních ambisonických signálů B poté získáme pomocí rovnice
[
(
S = DB = CT C ⋅ CT
)
−1
]⋅ B.
U odděleného dekódování ambisonických formátů v dekodérech „max rE“ a ,,ve fázi” je důležité, aby filtry v něm použité byly ve fázi v celém kmitočtovém rozsahu. K tomu lze použít fázově kompenzovaných filtrů typu FIR, které při součtu dvou filtrem oddělených pásem mají plochou modulovou kmitočtovou charakteristiku [19].
(10)
Rovnice (10) platí pouze v případě, že reproduktorů je stejně nebo více než ambisonických signálů, které jsou dekódovány.
4.5.5. I MPLEMENTACE KODÉRU A DEKODÉRU Ambisonické polohování se principielně skládá ze dvou základních částí, z kodéru a dekodéru. Kodér zakóduje zvuk spolu s informací o požadovaném umístění v prostoru do ambisonických signálů. Tyto signály pak lze přenášet, ukládat, či dekódovat. Dekodér poté dekóduje tyto signály tak, aby reprezentovaly co nejlépe původní zvuk i jeho umístění v prostoru pro libovolnou reproduktorovou konfiguraci.
4.5.4. P SYCHOAKUSTICKÁ OPTIMALIZACE DEKODÉRU Psychoakustická optimalizace vychází z Gerzonovy metatorie sluchové lokalizace [13]. Dekodér nebo reprodukční systém pro Surround Sound je definován jako ambisonický, pokud je navržen tak, aby • směr rychlostního vektoru a vektoru energie byl souhlasný alespoň do kmitočtu okolo 4 kHz, s tím, že se reprodukovaný azimut modelu rychlosti θV je shodný s azimutem modelu energie θV a výrazně nemění s kmitočtem,
Od řádu ambisonie se odvíjí počet kanálů nutných pro přenos ambisonických signálů. Pro počet ambisonických signálů N horizontální ambisonie řádu M platí
• na nízkých kmitočtech okolo 400 Hz byla velikost rychlostního vektoru blízko jedné pro všechny reprodukované azimuty a
Z toho vyplývá, že pro druhý a třetí řád ambisonie je vhodný přenos na médiích, které se v současnosti používají pro přenos šestikanálového, resp. osmikanálového zvuku. Od řádu ambisonie se také odvíjí počet reproduktorů S potřebných pro stabilní reprodukci dvojrozměrného zvukového pole, ten je dán vztahem
N = 2M + 1.
• na středních a vysokých kmitočtech, okolo 700 Hz až 4 kHz, byla velikost vektoru energie rE maximalizována na co největší části poslechového prostoru.
S = 2M + 2.
Nejlepší možná lokalizace pro danou reproduktorovou konfiguraci nastává, pokud je velikost rychlostního lokalizačního vektoru na nízkých kmitočtech rovna jedné a velikost energiového lokalizačního vektoru je maximalizována na středních kmitočtech s tím, že přechod mezi těmito dvěma pásmy je mezi 300 Hz a 700 Hz [13]. Vektor rychlosti ve středu reproduktorové soustavy je vypočítán jako suma příspěvků vektorů rychlosti každého z reproduktorů a má vždy jednotkovou velikost ve směru předpokládaného zdroje. Velikost vektoru rychlosti rV a energie rE pro střed reproduktorové soustavy je dle [28] ∑ Gi ui rV = Re i =1n , rE = ∑ Gi i =1 n
∑G
2
i
∑G i =1
(12)
Pokud tato podmínka není splněna, reprodukované zvukové pole není stabilní a dochází ke kolísání kvality lokalizace, která je vidět na obr. 8. Ambisonie je však hierarchická metoda a snížením počtu dekódovaných kanálů lze snížit řád ambisonie a získat tak stabilní zvukové pole. 90 1 120
60 0.8 0.6
150
30 0.4
n
i =1 n
(12)
ui ,
(11)
0.2
2
Reproduktor Vektor rychlosti Vektor energie
180
i
0
kde Gi je zesílení ze zdroje do reproduktoru i a u je jednotkový vektor směřující na reproduktor i. Pro nízké kmitočty existují modifikace výše zmíněného dekódování, které zohledňují další kritéria vnímání směru zvuku na nízkých kmitočtech. Dekodér „max rE“ aplikuje před dekódováním pomocí filtru typu shelving dodatečné zesílení signálů na nízkých kmitočtech. Dekodér ,,ve fázi” dekóduje ambisonické komponenty se směrovou charakteristikou ve tvaru kardioidu. Jeho směrová charakteristika neobsahuje části se zápornou polaritou. Ten-
210
330
240
300 270
Obr. 8: Kolísání velikosti vektoru energie při nedostatečném počtu reproduktorů ambisonie třetího řádu. 2-8
2010/2 – 20. 1. 2010
VOL.12, NO.1, FEBRUARY 2010
Implementace ambisonického kodéru je jednodušší částí algoritmu. Vychází z (8), kde azimut virtuálního zdroje zvuku θ je uživatelem nastavovaným parametrem.
L
Blokové schéma ambisonického dekodéru s psychoakustickou optimalizací je zobrazeno na obr. 9. Skládá se z fázově kompenzovaných filtrů pro dvoupásmové zpracování a dvojice dekódovacích matic pro nízké a vysoké kmitočty.
+
Lc
C
Rc
Sl
R
Sr
Tfl
Tfc
Tsl
Tfr
Tsr Tm
Ls
Lcs
S/Cs
Rcs
Rs
Trl
Trc
Trr
Obr. 10: Pozice a označení reproduktorů vícekanálových zvukových formátů v technologii VST 3.0.1. +
+
Porovnáním obr. 10 s obr. 1 a 2 zjistíme, že VST 3.0.1 podporuje všechny formáty Surround Sound kromě dolní hladiny reprodukce systému Super Hi-Vison. Navíc je k dispozici bit i pro střední levý a střední pravý surroundový kanál. Definice jednotlivých bitů lze najít v hlavičkovém souboru vsttypes.h SDK (Software Developer Kit) této technologie. V něm jsou také předdefinovány konstanty pro 40 konfigurací reproduktorů.
+
Obr. 9: Blokové schéma ambisonického dekodéru. Hlavním implementačním problémem plynoucím z rovnice (10) je získání pseudoinverzní matice. K tomuto účelu je použita metoda dekompozice singulárních hodnot SVD [33].
Hostitelská aplikace sděluje VST plug-in modulu aktuální konfiguraci reproduktorů pomocí volání funkce setBusArrangements rozhraní plug-in modulu a to zvlášť pro vstup a výstup modulu. Pořadí kanálů na vstupních a výstupních sběrnicích modulu by pak mělo odpovídat pořadí nenulových bitů v proměnné Speaker Arrangement počínaje nejméně významným bitem. Díky tomu jsou známy čísla jednotlivých stop zvukového signálu Surround Sound a lze je rozdělit do skupin podle tab. 2 a zpracovat podle doporučení uvedených v kapitole 4. Pokud hostitelská aplikace funkci setBusArrangements při zavedení plug-in modulu nevolá, je nutné předpokládat přiřazení kanálů podle doporučení uvedených v tab. 1. Vzhledem k tomu, že nelze u hostitelské aplikace zaručit podporu Dynamic Speaker Arrangements, je vhodné uživateli plug-in modulu umožnit přiřazení kanálů Surround Sound číslům stop zvukového signálu.
5. IMPLEMENTACE SURROUND SOUND EFEKTŮ V současné době neexistuje mnoho volně dostupných profesionálních technologií pro zpracování zvukových signálů v reálném čase, které by podporovaly implementaci zvukových efektů pro systémy Surround Sound. Jen podpora vícekanálových signálů není dostačující, efektový modul musí znát také konfiguraci systému. Tuto podporu má například technologie VST (Virtual Studio Technology, [34]), která je určená pro zpracování toku zvukových dat systémem zásuvných (plug-in) modulů. Neobsahuje žádné prostředky pro zachytávání a přehrávání zvukových signálů, proto je nutné ji používat společně s tzv. hostitelskou aplikací, která zajistí zachytávání a přehrávání zvukového signálu. Technologie VST podporuje dynamickou změnu počtu kanálů a sběrnic a je nezávislá na formátu zvukových dat. Plug-in moduly technologie VST verze 3 používají rozhraní programový model Edit – Control – View, tj. oddělení samotného zpracování zvukového signálu (tzv. procesor) od řízení parametrů a zobrazení grafického uživatelského rozhraní (tzv. editor).
6. ZÁVĚR Z vícekanálových zvukových efektů popsaných v kapitole 4 byly pomocí technologie VST realizovány následující: modul správy nízkofrekvenčních složek zvukového signálu (Bass Management) v konfiguraci 1, efekty Compressor, Chorus, Flanger a Phaser, grafický a parametrický ekvalizér, moduly pro polohování virtuálního zdroje zvuku pomocí metody VBAP a ambisonie prvního až třetího řádu a také ambisonický kodér a dekodér, které lze snadno realizovat oddělením kódovací a dekódovací části algoritmu ambisonického polohování. Demo verze těchto plug-in modulů lze nalézt na adrese
K nastavením procesoru patří nastavení tzv. Dynamic Speaker Arrangements. Jedná se o 64 bitovou proměnnou SpeakerArrangement, jejíž jednotlivé bity představují určité kanály systému Surround Sound. Pokud je daný bit nastaven, znamená to, že aktuální vícekanálová konfigurace systému tento kanál využívá. Na obr. 10 jsou schématicky znázorněny polohy reproduktorů podporované ve VST 3.0.1. Podporována je pouze střední (na obr. 10 vlevo) a horní hladina reprodukce (tzv. Top, na obr. 10 vpravo). Další bity proměnné SpeakerArrangement jsou rezervovány pro dva kanály LFE (Lfe, Lfe2), monofonní kanál (M) a kanály ambisonie prvního řádu (W, X, Y, Z). Pokud se jedná o systém s pouze jedním surroundovým kanálem, používá se pro něj bit Cs (střední surround).
http://www.audified.com/projekt/ft-ta3010/download/ download.html Moduly podporují vícekanálové zvukové formáty podle tab. 2, v budoucnosti bude implementována podpora všech formátů definovaných v Dynamic Speaker Arrangements VST 3. 2-9
2010/2 – 20. 1. 2010
VOL.12, NO.1, FEBRUARY 2010
[18] Hosoi, S., Hamada, H., Kameyama, N., An Improvement in Sound Quality of LFE by Flattening Group Delay. 116th AES Convention, Paper No. 6115, 2004. [19] Vích, R., Smékal, Z., Číslicové filtry. Academia, 2001. ISBN: 80-200-0761-X. [20] Zölzer, U. DAFX – Digital Audio Effects, 1st ed. John Wiley & Sons, Ltd, 2002. ISBN 0-471-49078-4. [21] Šubert, A., Mastering – téma měsíce [online].Muzikus, březen 2002. Dostupné z
[22] Hartmann, W., M., Signals, Sound, and Sensation. Springer-Verlag, 1998. ISBN: 1-56396-283-7. [23] Dattoro, J., „Effect Design, part 2: Delay-Line Modulation and Chorus“. Joural of the AES, October 1997, vol. 45, no. 10, pp. 764-788. ISSN: 0004-7554. [24] Zwicker, E., Fastl, H. Psychoacoustics, Facts and Models, 2nd ed. Springer-Verlag, 1999. ISBN: 3-54065063-6. [25] Syrový, V. Hudební akustika, 1. vyd. Praha: Nakladatelství AMU, 2003. ISBN: 80-7331-901-2. [26] Bernfeld, B. „Attempts for Better Understanding of the Direction Sterephonic Listening Mechanism“. Journal of the AES, vol. 21, 1973. ISSN: 0004-7554. [27] Pulkki, V., Virtual source positioning using vector base amplitude panning. Espoo: Helsinki University of Technology, 2001. ISSN 1456-6303. [28] Benjamin, E. M., Lee, R., Heller, A. J., Localization in Horizontal-Only Ambisonic Systems. 121st AES Convention, Paper No. 6967, 2007. [29] Daniel, J., Nicol, R., Moreau, S. Further Investigations of High Order Ambisonics and Wave Field Synthesis for Holophonic Sound Imaging. 114th AES Convention, Amsterdam, The Netherlands, 2003. pp. 136-153. [30] Moreau, S. Étude et réalisation d’outils avancés d’encodage spatial pour la technique de spatialisation sonore Higher Order Ambisonics: microphone 3D et contrôle de distance. Le Mans, Francie : University of Maine, 2006. 189 s. Dizertační práce. [31] Wiggins, B., An investigation into the real-time manipulation and control of three-dimensional sound fields. University Of Derby. Dostupný z:
[32] Malham, D. G. „Experience with large area 3-D ambisonic sound systems“. Journnal of the Institute of Acoustics. 1992, vol. 5, no. 14, s. 209-215. [33] GOLUB, G., KAHAN, W. “Calculating the Singular Values and Pseudo-Inverse of a Matrix”. Journal of the Society for Industrial and Applied Mathematics : Series B, Numerical Analysis. 2nd edition.1965. s. 205224. [34] VST Plug-Ins Software Developer Kit 3.0.1. Steinberg Media Technologies GmbH. 2008.
PODĚKOVÁNÍ Tento projekt byl realizován za finanční podpory z prostředků státního rozpočtu prostřednictvím Ministerstva průmyslu a obchodu v rámci projektu ev. č. FT-TA3/010.
LITERATURA [1] The Evolution of Dolby Film Sound. Dolby Laboratories Inc., 2005. [2] Bosi, M., Smyth, S., Smith, P., DTS Surround Sound for Multiple Applications. AES UK 14th Conference: Audio - The Second Century, 1999. Paper No: ASC-21. [3] Hamasaki, K., Nishiguchi, T., Hiyama, K., Ono, K. Advanced Multichannel Audio Systems with Superior Impression of Presence and Reality. 116th AES Convention, Paper No. 6053, 2004. [4] 5.1-Channel Music Production Guidelines, issue 3. Dolby Laboratories, Inc. 2005 [5] Blauert, J. Spatial Hearing, The Psychophisics of Human Sound Localization. The MIT Press, 1997. ISBN 0-262-02413-6. [6] What is the LFE channel? Dolby Laboratories Inc., 2000. [7] ITU-R BS.775-1, Multichannel Stereophonic Sound System with and without Acompanying Picture. International Telecommunication Union, 1994. [8] Multichannel Surround Sound Systems and Operations. AES Technical Council-MBAT Information Document AESTD10001.0.01-05 [9] Maršálek, P. Kódování zvuku ve sluchové dráze a jeho aplikace na prostorové slyšení [online]. VUT v Brně, 29.10.2008. Dostupné z . [10] Streicher, R., Everest, F., A. The New Stereo SoundBook, 3rd edition. Audio Engineering Associates, 2006. ISBN 978-0-9665162-1-0. [11] Haas, H., Über den Einfluss eines Einfachechos auf die Hörsamkeit von Sprache. University of Göttingen, Germany, 1949. [12] De Boer, K. „Stereophonic Sound Production“. Phillips Technical Review. 1940, s. 107-144. [13] Gerzon, M., A., General Metatheory of Auditory Localisation. 92nd AES Convention, Paper No. 3306, 1992. [14] Steinke, G., Surround Sound: Relations of Listening and Viewing Configurations. 116th AES Convention, Paper No. 6019, 2004. [15] Recommendation EBU Tech 3276-E: Listening conditions for the assessment of sound programme material, Sup. 1: Multichannel Sound. Geneva, 1999. [16] Dressler, R., Dolby Surround Pro Logic Decoder Principles of Operation. Dolby Laboratories Inc., 2005. [17] Buettner, S. DTS-ES Discrete 6.1 The Ultimate Backward Compatible Surround Format. Widescreen Review, Vol. 41, 2001.
2-10