1 Komprese obrazových signálů Proč je potřeba data komprimovat? Odpověď je jednoduchá, zmenšení objemu dat a tím úspora potřebné paměti pro jejich uchování nebo kapacity přenosového kanálu. V případě obrazového signálu nám možnosti komprese značně usnadní vlastnosti a nedokonalost lidského zraku. Nejpodstatnější je to, že lidské oko je citlivější na jas než na barvu. U malých detailů vnímá oko jen jas. Proto k prvotnímu zmenšení objemu dat obrazového signálu dochází již při digitalizaci, kdy jsou barvonosné signály i pro studiové použití vzorkovány poloviční vzorkovací frekvencí než signál jasový.
1.1 Bezeztrátové komprese Komprese můžeme obecně rozdělit na bezeztrátové a ztrátové. Bezeztrátové komprese odstraní ze signálu pouze redundantní (nadbytečná) data. Ta nejsou pro přesnou interpretaci potřeba, dekomprimovaný signál je totožný se signálem před kompresí. U bezeztrátových kompresí dochází jen k malé redukci dat, přesto jsou součástí většiny složitějších kompresních standardů. K nejběžněji používaným metodám patří RLE, slovníkové metody, entropické kódování, vektorová kvantizace a metody založené na predikci či diferenci mezi vzorky. Tyto metody nyní rozebereme.
RLE RLE neboli Run Length Encoding patří k nejjednodušším metodám bezeztrátové komprese, snadno se implementuje do systému a velmi rychle se dekóduje. Nejúčinnější je pro data, která obsahují sekvence shodných bitů či znaků.
A
A
A
B
B
A
A
A
A
A
RLE
3
A
2
B
5
A
Obr. 1 Vhodné použití RLE
Na obrázku 1 je ukázka posloupnosti, pro kterou je použití RLE kódu vhodné. Dochází zde ke kompresi na 60 % objemu původních dat, aniž by došlo ke ztrátě informací.
-1-
A
B
B
A
B
A
A
B
A
A
RLE
1
A
2
B
1
A
1
B
2
A
1
B
2
A
Obr. 2 Nevhodné použití RLE
Na obr. 2 je vidět případ, kdy je použití RLE kódu zcela nevhodné, nedochází ke kompresi, ale k expanzi dat na 130 % původního objemu. RLE kód se používá u obrazových souborů TIFF a BMP a jako pomocná komprese u JPEG a MPEG. Nejlepších výsledků dosahuje pro černobílé obrazy, obecně pak pro data v binárním kódu, kdy se střídají pouze 2 hodnoty.
Slovníkové metody Slovníkové metody komprese, jak samotný název napovídá, pracují se slovníkem opakujících se částí dat. Opakující se část dat je uložena vždy jen jednou, při prvním výskytu, a při jejím opakování se na ni jen odkazuje. Za všechny metody uveďme jako příklad metodu LempelZiv-Welch (LZW), která nese jména svých tvůrců. Metoda bezeztrátové komprese LZW je rychlá a relativně snadná, nevýhodu může být to, že komprimovaná data již nelze komprimovat další metodou k dosažení lepšího výsledku. Princip metody je následující, uvažujme abecedu se znaky X, Y, Z. Naším úkolem je přenést sekvenci XZXYXZXYX, viz vstup u 1. krok v tabulce 1. Pořadí kroku
Vstup
Nalezená fráze
Výstup
1 2 3 4 5 6 7
XZXYXZXYX ZXYXZXYX XYXZXYX YXZXYX XZXYX XYX X
X Z X Y XZ XY X
0 2 0 1 3 5 0
Nová fráze X Y Z XZ ZX XY YX XZX XYX
Index nové fráze 0 1 2 3 4 5 6 7 8 9
Tab. 1 Příklad LZW kódování
Nejdříve se do slovníku zapíší všechny znaky abecedy. Na vstup přijde sekvence, najde se nejdelší zapsaná fráze a její index se pošle na výstup. Tato nalezená fráze se ze
-2-
vstupu odstraní a jako nová fráze se do slovníku zapíše již nalezená fráze a první znak vstupu. Takto se postupuje do té doby, než se přenese celá vstupní sekvence. Výstupem z naší ukázky bude 0201350. Dochází tu ke kompresi na 78 % původního objemu dat, při delším vstupním slově by se kompresní poměr ještě zlepšoval. Komprese LZW se používá u souborů TIFF a GIF a nebo pro komprimované soubory ZIP.
Entropické kódování Metody entropického kódování mají pohyblivou délku kódového slova. Typickým představitelem je Huffmanovo kódování. U Huffmanova kódování závisí délka kódového slova na četnosti výskytu kódovaného symbolu. Symboly, které se vyskytují nejčastěji, mají přiřazen nejkratší kód a symboly, které se vyskytují méně, kód delší. Huffmanovo kódování probíhá ve dvou krocích. V prvním kroku se zjistí pravděpodobnost výskytu jednotlivých symbolů a ve druhém kroku se podle této pravděpodobnosti jednotlivým symbolům přiřazuje různě dlouhý binární kód (viz tabulka 2). Symbol
Pravděpodobnost výskytu
Kód
A
0,50
1 bit
0
B
0,25
2 bity
10
C
0,125
3 bity
110
D
0,125
3 bity
111
Tab. 2 Příklad Huffmanova kódování
Jako u bezeztrátových kompresí představených v předchozích kapitolách i u Huffmanova kódování je nejvýhodnější mít posloupnost, kde se stejný symbol bude často opakovat. Bude tak mít vysokou pravděpodobnost a díky tomu krátké kódové slovo. Huffmanovo kódování se využívá v souborech TIFF, ale je i nedílnou součástí ztrátových kompresních standardů skupiny JPEG a MPEG, kde se spolu s RLE kódem používá v posledních krocích komprese.
DPCM Diferenční pulzní kódová modulace vychází z pulzní kódové modulace, která slouží k reprezentaci kódového slova v binárním kódu. DPCM navíc dokáže komprimovat objem výstupních dat. U vzorkovaného a kvantovaného analogového signálu většinou nedochází -3-
k velkým změnám v amplitudě jednotlivých vzorků. Bez použití DPCM se musí přenášet jejich plná velikost. Při použití DPCM se přenáší jen rozdíly v amplitudě mezi vzorky.
s0
Δ
Δ = s0 - sp
sp
sp
+
Zpoždění
Δ + sp
(sp)n= (Δ + sp )n ) Obr. 3 Zjednodušené blokové schéma DPCM
Nejjednodušší je zpoždění jednoho vzorku, v televizní technice je možné s využitím paměti použít predikci meziřádkovou nebo mezisnímkovou. Nám bude pro názornost stačit základní varianta, kterou vidíme na obrázku 3. Signál S0 je vstupní signál, Sp je signál zpožděný o jeden vzorek. 40 Hodnota vzorku
35 30 25 20 15 10 5 0 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 Číslo vzorku
Obr. 4 Přenášené informace bez použití DPCM
-4-
Hodnota Δ
25 20 15 10 5 0 -5 -10 -15 -20 -25
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
Číslo vzorku
Obr. 5 Přenášené informace s použitím DPCM
Na obrázku 4 je ukázka kvantovaného signálu bez použití DPCM. Je vidět, že signál obsahuje velké množství informací. Na obrázku 5 můžeme vidět, k jaké redukci informací dojde po použití DPCM, kdy se přenáší jen rozdíly mezi vzorkem N a N-1. Díky tomu, že tato modulace nezanáší do signálu žádné výrazné zkreslení, je často používána jako předstupeň složitějších aplikací.
Otázky k opakování 1. Na jakém principu fungují bezeztrátové komprese? (Co z dat odstraňují a jaký to má vliv na dekomprimovaný signál) 2. Jaké metody bezeztrátové komprese rozlišujeme? 3. Jaký je základní princip RLE, Huffmanova kódování a DPCM?
-5-
1.2 Ztrátové komprese Druhou možností jsou komprese ztrátové, u kterých se už nikdy po dekompresi nedostanou původní data. Dochází zde k odstranění irelevantních (nedůležitých) informací. Díky tomu se dosahuje větší redukce přenášených dat. U obrazových signálů se za irelevantní informace považují ty, jejichž odstranění nevede k patrnému zhoršení zrakového vjemu. Kolik informací je možné odstranit bez přílišné degradace, tedy kompresní poměr, se zjišťuje pomocí subjektivních testů. V oblasti komprese obrazových dat jsou nejrozšířenější metody JPEG pro statické obrazy a MPEG 2 a MPEG 4 pro video. Všechny tyto standardy mají podobný základ, protože využívají transformační kódování. To spočívá v tom, že se nepřenáší hodnoty kvantovaných vzorků digitálního signálu, ale hodnoty spektrálních koeficientů ve frekvenční oblasti.
Diskrétní kosinová transformace Diskrétní kosinová transformace se používá u většiny kompresních kodeků pro kompresi obrazových dat. Tvoří základ standardu JPEG i MPEG 2. Principielně vychází z Fourierovi transformace, jejím výsledkem jsou ale koeficienty jen v reálné množině čísel (FT má koeficienty reálné a imaginární). Princip DCT spočívá v oddělení nízkofrekvenčních složek od vysokofrekvenčních. Nejvyšší hodnotu u obrazových signálů má koeficient stejnosměrné složky a směrem k vyšším frekvencím se jejich hodnota snižuje (obr. 6).
Obr. 6 Koeficienty DCT
-6-
Obrázek 6 ukazuje rozložení velikosti koeficientů DCT v obraze. V levém horním rohu je stejnosměrná složka a směrem k pravému dolnímu rohu frekvence roste. Vidíme, že u obrazu je většina informace obsažená v koeficientech s nižší frekvencí. Na tomto faktu je komprese pomocí DCT založena. Po výpočtu koeficientů se pomocí kvantizační matice hodnoty jednotlivých koeficientů v závislosti na frekvenci vydělí. Kvantizační matice je vlastně tabulka, která jednotlivým koeficientům DCT přiřazuje váhu podle jejich umístění (viz tabulky 3 a 4).
946 -54,5 -1,73 -8,19 -0,88 -0,09 1,39 -0,87
72,6 -0,88 0,20 0,61 1,01 -1,93 0,86 0,52
-1,17 -1,29 -1,44 -1,98 -1,88 3,75 0,66 -0,72
8,82 0,12 -1,38 0,07 -1,57 1,67 -0,02 -1,72
-0,63 -0,70 -2,60 -0,08 -0,37 0,48 -2,05 0,68
-0,17 1,14 0,12 1,76 0,23 -1,95 -1,86 0,96
1,43 -0,76 0,91 2,97 0,36 1,09 0,91 -0,13
Tab. 3 Koeficienty DCT
1 1 1 1 1 2 4 6
1 1 1 1 2 3 5 7
1 1 1 2 3 4 6 8
1 2 2 2 4 5 7 8
2 2 3 4 5 6 8 9
3 5 5 7 9 8 10 8
4 5 6 6 8 9 10 8
5 4 4 5 6 7 8 8
Tab.4 Kvatizační matice
946 -54 -2 -8 -1 0 0 0
73 -1 0 1 1 -1 0 0
-1 -1 -1 -1 -1 1 0 0
9 0 -1 0 0 0 0 0
0 0 -1 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
Tab. 5 Kvantované koeficienty
-7-
0 1 0 0 0 0 0 0
0,95 3,61 -1,79 0,62 -0,88 -0,74 -1,03 0,77
Koeficienty DCT se vydělí kvatizační maticí a zaokrouhlí. Výsledek operace můžeme vidět v tabulce 5. Vysokofrekvenční koeficienty, které nejsou pro zrakový vjem podstatné, se vynulovaly a není je tedy potřeba přenášet. Díky tomu dojde k velké úspoře dat. Jak si ukážeme v dalších kapitolách, diskrétní kosinová transformace se na obraz aplikuje v blocích 8x8 bodů. Při velké kompresi jsou bloky v obraze viditelné, takže je důležité volit vhodná kompresní poměr, aby se tomuto jevu předešlo.
JPEG Standard JPEG ( Joint Photographic Expert Group) sloužící pro kompresi statických obrazů, především fotografií, začal vznikat v roce 1986. Celý standard byl dokončen v roce 1994 a v dnešní době to je nejrozšířenější formát pro komprimování statických fotografií i dalších digitálních grafických obrazů.
-8-
Obrazová data
Transformace barev RGB
2D DCT bloků 8x8
Decimace barev YCrCb
Bloky 8x8
Kvantizace každého bloku
Zig-zag čtení kvantovaných koeficientů
Podvzorkování 4:2:0
Posun stejnosměrné složky -128
RLE kódování
Huffmanovo kódování Kódovací tabulky Kvantizační matice
Kódovaná data
Obr. 7 Blokové schéma JPEG
Blokové schéma na obrázku 7 nám ukazuje základní kroky metody JPEG. Na vstupu kompresní metody jsou digitální obrazová data v barevné soustavě RGB. Ta jsou převedena do soustavy YCRCB (digitální Y, R-Y, B-Y), aby bylo možné pracovat zvlášť s jasovou a barevnou složkou signálu. Barevný signál je vzorkován 4:2:2. Vzhledem k tomu, že lidské oko je citlivější na změny jasu než barvy, dochází v dalším okamžiku k decimaci (snížení vzorkovací frekvence) barevných kanálů. Výsledkem je signál vzorkovaný 4:2:0. U takto podvzorkovaného signálu dochází k potlačení stejnosměrné složky. Než se na data aplikuje diskrétní kosinová transformace, dojde k rozdělení na bloky 8x8 bodů. V těchto blocích pak
-9-
transformace probíhá. Zig-zag čtení kvantovaných koeficientů (obrázek 8) slouží k tomu, že se dále přenáší jen ty koeficienty, po kterých následuje alespoň jeden nenulový koeficient.
946 -54 -2 -8 -1 0 0 0
73 -1 0 1 1 -1 0 0
-1 -1 -1 -1 -1 1 0 0
9 0 -1 0 0 0 0 0
0 0 -1 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 0 0 0 0 0 0
Obr. 8 Čtení Zig-zag
RLE a Huffmanovo kódování zkomprimuje výsledná data do ještě menšího objemu dat. Na výstupu celého procesu máme ztrátově zkomprimovaný obrázek ve formátu JPEG.
MPEG 2 MPEG 2 je druhou generací komprimačního standardu pro digitální videa. První generace MPEG (Motion Pictures Experts Group) dosahovala veliké komprese s datovým tokem 1,5 Mb/s. Byla určena především pro videa s malým rozlišením a malým pohybem obraze jako jsou videohovory, záznam na CD-ROM a podobně. Pro použití v televizním vysílání je tento standard nevhodný, a tak stejná skupina vyvinula standard MPEG 2, který dokáže pracovat s rozlišením pro aplikace s malým datovým tokem, tak i s rozlišením pro FullHD televizi. Základ komprese je až na detaily jako je velikost bloků totožný se standardem JPEG, proto si v této kapitole uvedeme jen rozšíření proti JPEG. Bloky 8x8 se zde skládají do makrobloků, které tvoří 4 jasové a 2 chrominanční bloky (pro vzorkování 4:2:0). Zásadním rozdílem mezi JPEG a MPEG je fakt, že MPEG je určen pro video, tedy velké množství po sobě jdoucích snímků, které jsou na sobě závislé. Závislost snímků na sobě navzájem umožňuje zavedení mezisnímkové predikce. Při predikci stačí přenášet jen změny mezi jednotlivými snímky, takže dochází k úspoře potřebného datového toku. Podmínkou pro použití predikce je to, že jednou za čas se přenese kompletní snímek. Tento snímek se označuje I (interframe) a je komprimován podobně jako statický obraz v metodě JPEG. Vzdálenost mezi I snímky se nazývá GOP (goup of pictures). Pro použití v televizním vysílání se používá GOP 12. Mezi I snímky se přenáší snímky využívající mezisnímkovou
- 10 -
predikci. Existují 2 druhy, P snímky, které využívají k predikci předchozí a současný snímek, a B snímek, který využívá rozdíl mezi současným a minulým i současným a budoucím snímkem. U snímků P dochází ke kompresi asi na polovinu původních dat, u snímků B až na 1/8 původní velikosti. V GOP jsou snímky poskládány takto: IBBPBBPBBPBBI... . Vzhledem k potřebě mít k dispozici kromě současného i předchozí a následující snímek, přenáší se P i I snímky před dvojici B snímků. Samotný princip predikce spočívá v porovnávání každého makrobloku stávajícího snímku se všemi makrobloky snímku předchozího a v případě B snímku i snímku následujícího. Pokud se najde totožný makroblok, jsou přenášeny pouze souřadnice x, y pohybového vektoru. V případě podobného makrobloku se spočítá rozdílový makroblok, který se přenese společně s pohybovým vektorem. Když se dostatečně podobný makroblok nenajde, žádný pohybový vektor se nepřenáší a příslušný makroblok se přenese celý stejným způsobem jako u I snímku, tedy následuje DCT a další kroky (viz kapitola JPEG). Z výše uvedeného vyplývá, že nejlepší komprese se dosahuje u videí s malými změnami mezi snímky. Naopak například sportovní přenosy, kde dochází k velkým změnám mezi snímky, spotřebují mnohem větší objem dat. Soustava MPEG 2 je v dnešní době nejrozšířenějším kompresním standardem mezi amatérským zpracováním videa i zpracováním televizních pořadů pro přenos pomocí digitálního vysílání ve standardním rozlišení, kde dosahuje datového toku 15 Mb/s. Pro vysílání ve vysokém rozlišení se díky vysokému datovému toku téměř 80 Mb/s nepoužívá MPEG 2, ale jeho nástupce MPEG 4.
MPEG 4 S rostoucími požadavky na kvalitu i rozlišení videa obecně, ale i v televizním vysílání, vznikl požadavek na kvalitnější kompresní standard, který by dokázal HD video zkomprimovat na datový tok, který by nezahltil internetové servery nebo vysílací multiplexy. Tímto standardem se stal MPEG 4, konkrétně jeho 10. část s názvem H.264/AVC. Je to stále se rozšiřující standard pro kompresi videa, který vznikl v roce 2003. Ačkoliv navazuje na své předchůdce JPEG a MPEG 1 a 2, používá řadu odlišných metod. Cílem tohoto standardu je dosahovat mnohem větší komprese datového toku než jeho předchůdci při vyšší kvalitě výstupu. Základní kroky, jako je dělení na bloky, mezisnímková predikce, pohybové vektory, zůstávají, liší se způsob výpočtu. Bloky nejsou pevně dané, ale v závislosti na obsahu obrazu mají proměnou velikost od 16x16 bodů pro velké jednolité plochy až po 4x4 body pro obraz s jemnou strukturou (obr. 9). - 11 -
Pro volbu velikosti bloků se používá intrapredikce. Samotné makrobloky se dají variabilně dělit na další části. V rámci makrobloků dochází ke kompenzaci pohybu s přesností ¼ obrazového bodu v jasovém makrobloku.
Obr. 9 Dělení makrobloků u MPEG 4
Pro kompenzaci pohybu může být použito až 16 různých snímků bez rozdílu zda se jedná o snímek I, P nebo nově i B. Ke třem typům snímků z MPEG 2 se přidává snímek SP, který má hrubší kvatizaci, a tedy nižší datový tok, a snímek SI se zvýšenou odolností proti chybám. Diskrétní kosinová transformace se používá v upravené podobě. Je celočíselná, aplikuje se na bloky 4x4 a pak ještě v jednom kroku dodatečně na bloky 2x2 pro 4 stejnosměrné složky chrominance. Po transformaci probíhá kvantizace s 52 kvantizéry. Po entropickém kódování je zařazen deblocking filtr, který potlačuje blokovou strukturu v obraze bez ztráty ostrosti. Vzhledem k tomu, jak variabilní je celý kompresní řetězec, nemá H.264 definovaný datový tok. Ten záleží na obsahu videa. Nejvyšší datový tok budou mít videa s jemnou strukturou v obraze a velkými rozdíly mezi snímky. Na druhém konci pak bude video, které má v obraze velké jednolité plochy, a snímky se mezi sebou liší jen málo. V dnešní době je MPEG 4 H.264 dominantním kompresním standardem pro videa s vysokým rozlišením. Je používán pro HDTV, je nedílnou součástí formátu Blue-ray, využívají jej videoservery YouTube a Vimeo, iTunes a přehrávače jako například Abobe Flash Pleyer a Microsoft Silverlight. Dá se předpokládat, že v brzké době vytlačí standard
- 12 -
MPEG 2 především mimo sféru televizního vysílání, které si nemůže dovolit drastické změny a musí zachovávat kompatibilitu i se staršími systémy.
Otázky k opakování 1. Na jakém principu fungují ztrátové komprese? (Co z dat odstraňují a jaký to má vliv na signál po dekódování) 2. Vyjmenujte základní kroky Diskrétní kosinové transformace. 3. Jaké jsou základní kroky komprese metodou JPEG a co tyto kroky dělají? 4. Definujte pojmy GOP, I snímek, P snímek, B snímek, makroblok. 5. K čemu ve standardu MPEG 2 slouží pohybový vektor? 6. Čím MPEG 4 dosáhl snížení datového toku při zlepšení kvality obrazu v porovnání s MPEG 2? (Uveďte obecně a jednoduše.)
- 13 -
1.3 Kodeky Standardy MPEG jsou nejrozšířenější metodou pro kompresy videa, ale existují i další metody vzniklé s určitými požadavky na kvalitu obrazu a velikost komprese. Obecně se nazývají kodeky (kodér-dekodér). Asi nejrozšířenější jsou kodeky DivX, Xvid, Windows Media Video a především při profesionálním zpracování videa oblíbený Apple ProRes.
DivX DivX je založen na metodě MPEG 4 H.264. Není tak novým kompresním standardem, ale upravuje metodu H.264 především pro kompresy videí na DVD. V době svého vzniku na přelomu tisíciletí byl určen především pro kompresi filmů z DVD, které pak mohly být snadno ilegálně šiřitelé. Postupně se kodek stal podporovanou součástí většiny DVD přehrávačů i rekordérů. I v dnešní době je doménou DivX především komprimování filmů stažených z DVD ať už pro vlastní potřebu, jako například pro nahrání do mobilního telefonu, nebo harddisk k HD televizi, i pro nelegální sdílení na internetu, kterému ovšem samotná společnost neví, jak zabránit. V současné době nabízí kodek 5 různých profilů (tab. 6) s odlišnými požadavky na rozlišení a velikost datového toku.
DivX Plus HD
DivX HD 1080p
DivX HD 720p
DivX Home Theater
DivX Mobile Theater
Neomezeně
Neomezeně
4 GB
4 GB
4 GB
30 Mb/s
30 Mb/s
13 Mb/s
10 Mb/s
10 Mb/s
.mkv, .avi, .divx
.avi, .divx
.avi, .divx
.avi, .divx
.avi, .divx
Počet řádků
1080
1080
720
576 (25 s/s) 480 (30 s/s)
480
Počet snímků za sekundu
30
30
30
25/30
30
Maximální velikost souboru Maximální datový tok Přípony souboru
Tab. 6 Profily DivX
- 14 -
Xvid Xvid je na rozdíl od DivX kodeku open-source software. Ke kompresi nepoužívá jen MPEG 4 část 10, tedy H.264, ale i starší část 2. Stejně jako DivX nedává Xvid k dispozici zdrojové kódy, i když zde je to spíš kvůli předcházení problémů s patenty, než know-how. V zemích, kde jsou zaplaceny patenty MPEG 4 část 2, by Xvid neměl být používán. Použití kodeku je shodné s DivX. Kromě toho, že je, vzhledem ke své podobnosti s konkurenčním kodekem, podporován velkou částí DVD přehrávačů, je součástí programů na kopírování DVD. Xvid nabízí uživatelům 4 různé profily, jak uvádí tab. 7.
Maximální rozlišení Maximální datový tok
Xvid Mobile
Xvid Home
352x240 (30 s/s)
720x480
352x288 (25 s/s)
720x576
1,3 Mb/s
4,6 Mb/s
Xvid HD 720
Xvid HD 1080
1280x720
1920x1080
9,2 Mb/s
19,5 Mb/s
Tab. 7 Profily Xvid
Windows Media Video Tento kodek je na rozdíl od předchozích dvou formátů povinnou součástí standardů HD DVD, Blue-Ray a vzhledem ke své mateřské společnosti je i nedílnou součástí herní konzole Xbox. Metoda komprese vychází z MPEG 4 část 2 a 10, stejně jako MPEG provádí predikci pohybu, dělí snímek na bloky, provádí Diskrétní kosinovou transformaci. Metoda podporuje několik režimů datového toku. Jednou z možností je konstantní datový tok, kde si uživatel před samotným začátkem kódování nastaví požadovaný průměrný datový tok výsledného videa. Další z možností je proměnný datový tok, kdy je ale potřeba větší vyrovnávací paměť. WMV může pracovat ve 3 různých profilech (tab. 8). Profily Main a Simple jsou určeny především pro videa sdílená na internetu. Podporují několik datových toků a dokáží HD videa zkomprimovat na polovinu až třetinu datového toku videa ve formátu MPEG 2. Advanced profil podporuje prokládané řádkování, data dokáže přenášet s datovým tokem menším než 1/3 toku u MPEG 2 nezávisle na typu řádkování se stejnou kvalitou výstupu.
- 15 -
Profil
Simple
Main
Úroveň
Nízká
Střední
Nízká
Střední
Vysoká
Max. datový tok
96 kb/s
384 kb/s
2 Mb/s
10 Mb/s
20 Mb/s
Rozlišení
176x144 15s/s
240x176 30 s/s 352x288 15 s/s
480p
320x240 24 s/s
576p
1080p
Advanced L0
L1
L2
L3
L4
2 Mb/s
10 Mb/s
20 Mb/s
45 Mb/s
135 Mb/s
NTSC
480p
PAL
720p
352x288 30 s/s
1080p
1080p
1080i
2048x1536 24s/s
720p
Tab. 8 Windows Media Video
Apple ProRes Tento formát je součástí softwarů společnosti Apple, především programu pro střih videa Final Cut Studio. Dalo by se říci, že je to nástupce Apple Intermediate Codec pro videa ve vysokém a ještě vyšším rozlišení. Jeho nejdůležitější vlastností je podat co nejkvalitnější výstup bez většího ohledu na datový tok. Tím se vymezuje především pro profesionální a poloprofesionální video-tvorbu. Pro běžné uživatele společnost Apple nabízí QuickTime se soubory ve formátu .mov, který, stejně jako konkurence, vychází ze standardů MPEG. ProRes nabízí 6 různých režimů (tab. 9), které se liší vzorkováním (4:4:4 – 4:2:0), datovým tokem (500 Mb/s – 45 Mb/s) a tím i velikostí výsledných souborů.
ProRes 4444 XQ
ProRes 4444
4:4:4:4 *
4:4:4:4 *
12 b barevná hloubka
12 b barevná hloubka
16 b alfa kanál
16 b alfa kanál
Datový tok
500 Mb/s
330 Mb/s
Použití
Extrémně náročné visuální efekty
Grafika
Vzorkování barev Bitová hloubka
- 16 -
ProRes 422
422 LT
Proxy
4:2:2
4:2:2
4:2:2
147 Mb/s
102 Mb/s
45 Mb/s
Postprodukční
Pro
Offline
zpracování obrazu
menší
zpracování
s potřebou vyšší
velikosti
videa s malým
rychlosti zpracování
souborů
datovým tokem
ProRes 422
4:2:2
Vzorkování barev Bitová
10 b
hloubka Datový tok
220 Mb/s Nejkvalitnější formát
Použití
ProRes
ProRes 422 HQ
pro postprodukční zpracování obrazu
Tab. 9 Profily Apple ProRes
Otázky k opakování 1. Co je kodek? 2. Na jakém kompresním standardu jsou většinou kodeky postaveny? 3. Vyjmenujte některé kodeky a uveďte příklady využití.
Zajímavé čtení Odborné články i samotné standardy jsou v angličtině a obsahují podrobné informace. Kdo má zájem, může si je nastudovat například na stránkách ITU (Mezinárodní telekomunikační unie - http://www.itu.int/rec/T-REC-H/en), kde jsou zveřejněny standardy MPEG 2 (H.262) a MPEG 4 (H.264). Výhody kodeku ProRes představuje Apple pod záložkou Final Cut Pro. S ohledem na českou scénu je na webu České televize zajímavý článek Stanovisko České televize k volbě kódovacího systému pro digitální televizní vysílání DVB-T, kde se vysvětluje, proč se v ČR stále jako primární kompresní standard pro DVB-T používá MPEG 2 a nikoliv jeho kvalitnější nástupce MPEG 4 H.264. Pro obecné informace o kompresích, jednotlivých metodách i kodecích lze získat i na různých internetových encyklopediích, kde si je ale potřeba informace ověřit z více zdrojů.
- 17 -
Závěrečné shrnutí Komprese se dělí na bezeztrátové a ztrátové. Bezeztrátové komprese odstraňují ze signálu redundantní data, tedy ta data, která jsou v signálu navíc a na přijímači se dají zpět dopočítat. Signál před kompresí odpovídá signálu po dekompresi. Existuje několik metod bezeztrátového kódování. Mezi základní patří RLE, slovníkové
metody
jako
je
Lempel-Ziv-Welch
kódování,
entropické
kódování
(Huffamnovo kódování), vektorová kvantizace a metody založené na predikci či diferenci mezi vzorky, jejichž typickým představitelem je Diferenční pulzní kódová modulace. Ztrátové komprese odstraňují ze signálu irelevantní data, která se dopočítat zpátky nedají, ale v signálu nejsou potřeba. Například u obrazových dat to jsou ty informace, jejichž ztrátu naše oko nepostřehne. Originální signál není totožný se signálem po dekompresi. Pro zpracování
obrazových
dat
jsou
nejpodstatnější
ztrátové
komprese
založené
na
transformačním principu. Nepracuje se zde tedy se signálem v časové doméně, ale v doméně frekvenční. Nejčastěji se používá Diskrétní kosinova transformace. Kompresní metody pro videa vychází ze standardu JPEG pro kompresi statických obrazů, který využívá DCT aplikovanou na bloky 8x8 obrazových bodů i některé metody bezeztrátových kompresí, viz schéma na obrázku 7. Standard MPEG 2 rozšiřuje metodu JPEG o metody pro práci s videem jako je například mezisnímková predikce a vektor pohybu. Nástupce pro videa s rozlišením HD a vyšší, MPEG 4 v části H.264, přidává složitější výpočty a predikci i uvnitř snímku samotného, čímž se získává možnost proměnného nastavování velikosti bloků a makrobloků. To vede ke značné úspoře dat, aniž by to vedlo ke ztrátě kvality obrazu. Kodek, tedy zkratka ze slov kodér a dekodér, je souhrnné označení pro metody sloužící ke kompresi a dekompresi signálu. Většina z nejběžněji užívaných kodeků vychází z kompresního standardu MPEG 4 část 2 nebo 10. Nejrozšířenějším kodekem mezi běžnými uživateli je formát od společnosti Microsoft Windows Media Video, který je díky svému výrobci integrován v celé řadě zařízení. Podobně je tomu i kodeků společnosti Apple, jejíž QuickTime cílí na komerční užití a popisovaný ProRes patří ke špičce v postprodukčním
- 18 -
zpracování videa. Jako jediný z uvedených kodeků není založen na standardu MPEG 4. Další uvedené kodeky DivX a Xvid slouží především ke kompresi filmů stažených s DVD.
- 19 -