Elektronická podpora Tvorba prostorového obrazu a zisk 3D informace 1
Úvod, terminologie............................................................................................................. 2 1.1. Základní princip vzniku prostorové efektu a 3D obrazu........................................ 2 1.2. Základní pojmy ...................................................................................................... 3 2 3D snímání: Metody a snímače .......................................................................................... 5 2.1 Aktivní metody........................................................................................................... 5 2.1.1 Fourierovská profilometrie................................................................................. 6 2.1.2 Phase- shifting profilometrie.............................................................................. 6 2.1.3 Zástupce koherentních metod Kinec: Infra zářič a infra kamera ....................... 7 2.2 Pasivní metody ........................................................................................................... 8 3 Přenos: Kodování, formáty dat......................................................................................... 10 3.1 Metody 3D video kódování...................................................................................... 10 3.1.1 Prostorová komprese ........................................................................................ 10 3.1.2 Časový multiplex.............................................................................................. 11 3.1.3 2D + metadata .................................................................................................. 11 3.2 3D televizní vysílání: Současný standard a předpokládaný vývoj ........................... 13 4 3D zobrazovače ................................................................................................................ 15 4.1 Anaglyf: barevná separace obrazu ........................................................................... 15 4.2 Aktivní systém časovým multiplexem ..................................................................... 16 4.3 Pasivní systém s polarizačním oddělením................................................................ 17 4.4 Autostereoskopický display (3D bez brýlí).............................................................. 19 5 Fyziologie, problémy ....................................................................................................... 21 6 Rekonstrukce obrazu, tvorba hloubkových map, DIBR .................................................. 24 6.1 Rekonstrukce prostorového modelu scény............................................................... 24 6.2 Hledání korespondujících bodů................................................................................ 24 6.3 Tvorba hloubkové mapy a depth map rendering...................................................... 26 7 3D přístroje na současném trhu ........................................................................................ 27 7.1 Kamery a fotoaparáty ............................................................................................... 27 7.2 Zobrazovače ............................................................................................................. 28 7.3 Ostatní 3d zařízení: Mobilní telefony, tablety.......................................................... 28 8 Přehled dostupného softwaru ........................................................................................... 28 9 Vybavení našeho ústavu................................................................................................... 30 10 Hodnocení kvality 3D obrazu ....................................................................................... 31 11 Shrnutí ........................................................................................................................... 33 12 Užitečné odkazy ............................................................................................................ 34
1 Úvod, terminologie Téma 3D videa je aktuálním a perspektivním oborem, který neproniká jen do laboratoří a výzkumných center, ale i do našich domácností. Proto je téma 3D videa zajímavé jak pro techniky, tak pro laickou veřejnost. Z toho důvodu vznikly tyto stránky, jako podpora výuky předmětů vyučovaných na ústavu Radioelektroniky na fakultě FEKT univerzity VUT Brno. Nicméně zde představované téma Tvorba prostorového obrazu a zisk 3D informace mají širší rozsah než pouhé „3D video“. 3D film není jediná možná forma využití prostorové informace. Mimo toto čistě komerční využití je možné využít prostorové souřadnice i v dalších oblastech • modelování objektů (muzejní a jiné exponáty), • strojírenství, • stavebnictví, • lékařství, • počítačové vidění (robotika), • kriminalistika. Současně také samotné 3D video vytvářející 3D efekt na speciálním zobrazovači není jediným možným vyjádřením prostorové informace, kterou lze vyjádřit také v podobě hloubkové mapy či modelu scény. Z toho důvodu budou v textu zmíněny i tyto formy reprezentace prostorové informace a jejího zisku. Nicméně hlavní důraz je kladen na 3D video (obraz) a s ním související procesy a zařízení. V následující části první kapitoly bude následovat vysvětlení některých základních pojmů, popis vzniku prostorového efektu u 3D videa (obrazu) a základní blokové schéma. V dalších kapitolách se pak postupně seznámíme s metodami 3D snímání, způsoby zpracování a přenosu 3D videa, metodami 3D zobrazování, problémy 3D zobrazování a představíme si dostupné 3D přístroje a vybavení laboratoře ústavu UREL.
1.1.
Základní princip vzniku prostorové efektu a 3D obrazu
Základní princip vzniku prostorového efektu plně koresponduje s funkcí lidského oka a je postaven na binokulárních vodítkách (více o fyziologii lidského oka a vnímání prostoru v kapitole 5). Základem je skutečnost, že levé a pravé oko vidí odlišný obraz a 3D efekt vzniká až v mozku. Obrazy pro levé a pravé oko jsou vzájemně posunuté v horizontálním směru. Toto posunutí je možné vyjádřit pomocí horizontální paralaxy. Horizontální paralaxa nese informaci o posunutí jednotlivých objektů v obraze, přičemž různě vzdálené objekty mají různou horizontální paralaxu. Čím je objekt vzdálenější, tím je jeho paralaxa menší. Pro vznik prostorového efektu je tedy nutné mít k dispozici dva různé obrazy stejné scény (pro levé a pravé oko) a nějakým způsobem zaručit jejich diskriminaci, tak aby každý obraz viděl člověk jen jedním okem. Tím jsme se dostáli k základnímu řetězci 3D zpracování (viz Obr. 1.1). V první etapě je tedy potřeba nějak získat snímky pro levé a pravé oko (Zisk 3D obsahu), jak, to si podrobněji probereme v kapitole 3D snímání (kapitola 2), v dalším kroku je potřeba nějakým způsobem informaci zpracovat, zakódovat a přenést (Přenos 3D obsahu) a na závěr 3D informaci zobrazit na 3D zobrazovači (Zobrazení 3D informace). Různé technologie zobrazovačů budou popsány v kapitole 4.
Obr 1.1 Základní řetězec 3D systému
1.2.
Základní pojmy
Tato kapitola je věnována vysvětlení některých důležitých pojmů a aspektů. Většina z následujících pojmů je zobrazena na Obr.1.2. Korespondující body Korespondující body nazýváme dva obrazové body v obou obrazech stereopáru, které reprezentují tentýž bod v prostoru. Stereo snímky Klasické stereo snímky jsou snímky pořízené dvěma kamerami, které mají rovnoběžné osy snímání a jejichž pozice v prostoru se liší pouze v horizontálním směru o vzdálenost nazývanou stereobáze. Takové dva snímky potom nazýváme levým respektive pravým snímkem. Pozice korespondujících bodů v těchto stereo snímcích se liší pouze v horizontálním směru o tzv. horizontální paralaxu. Stereo snímky jsou potřebné jako vstup do 3D televizorů. Rektifikace V případě, že nemáme k dispozici klasické stereo snímky, lze snímky pořízené kamerami v obecné poloze převést na stereo snímky pomocí rektifikace. Rektifikace je transformace snímků, která je určena pomocí nalezení několika korespondujících bodů. Horizontální paralaxa Horizontální paralaxa px reprezentuje posunutí daného obrazového bodu mezi dvěma pohledy (stereo snímky) na danou scénu. To znamená, že je to vlastně vzdálenost korespondujících bodů. Bližší předměty změní svoji pozici více než vzdálenější a mají tedy větší paralaxu. Horizontální paralaxa je binokulární vodítko, které používá mozek pro vyhodnocení vzdáleností. Hloubková mapa Hloubková mapa je šedotónový obraz, který reprezentuje hloubkové uspořádání dané scény. Zpravidla se jedná pouze o relativní vyjádření hloubky daného obrazového bodu, který koresponduje s určitým bodem v prostoru. Většinou je používána konvence, že čím větší má obrazový bod jas tím menší má vzdálenost od pozorovatele (snímacího zařízení). Což znamená, že body v popředí jsou světlé a body v pozadí tmavé. Tato skutečnost je daná tím, že hloubková mapa je odvozena od horizontální paralaxy daného bodu (čím větší tím bližší). I když ne vždy je hloubková mapa získána opravdu pomocí nalezení horizontálních paralax, toto platí pouze pokud se bavíme o pasivní metodě stereo snímání. U aktivních metod získáváme hloubkovou mapu jinými způsoby. Depth Map Base Rendering Jedná se o proces operace vytvoření sekundárního virtuálního snímku na základě znalosti základního 2D obrazu a jemu odpovídající hloubkové mapy. Cílem metody je
generování obrazu posunutého vůči základnímu v ose x, v závislosti na vzdálenost scény určenou z hloubkové mapy. Model scény Model scény je vedle hloubkové mapy druhé možné vyjádření prostorové informace. Jedná se o klasický prostorový model, kdy jsou jednotlivé prostorové body popsány nejen hloubkou, ale i zbývajícími dvěma souřadnicemi v prostoru.
Y
Z
B [X,Y,Z]
A [X,Y,Z] x
X
x
y
y
B1 [x1, y1]
A1 [x1, y1]
Obr 1.2 Grafické vyjádření některých základních pojmů
B2 [x2, y2]
A2 [x2, y2]
2 3D snímání: Metody a snímače Nejprve je potřeba definovat, že se v rámci tohoto předmětu budeme zabývat pouze bezkontaktními metodami zisku hloubkové informace. Metody pro 3D snímání lze dělit v podstatě do dvou základních skupin a to na aktivní a pasivní metody. Jako aktivním označujeme takové metody, kdy je do scény přidána nějaká dodatečná informace a zpravidla je kromě samotného snímače (fotoaparátu/ kamery) použité další zařízení. Naopak pasivní metody jsou takové, ve kterých je jediným zařízením stereosnímač (fotoaparát/kamera). V současné době je aktuální otázka použití kombinace aktivní a pasivní metody. Současně s dělením na aktivní a pasivní metody zisku 3D informace můžeme metody dělit na metody vhodné pro 3D TV a nevhodné pro 3D TV. Jak bylo vysvětleno v první kapitole pro zobrazení 3D videa či obrázku na 3D televizoru potřebujeme mít k dispozici klasické stereo snímky, které jsou poté v zobrazovači navzájem diskriminovány pomocí jednoho ze systému popsaných v kapitole 4. Jedinou metodou, jejímž přímým výstupem jsou stereo snímky je pasivní metoda s normálním postavením kamer. Výstupem všech ostatních metod je ovšem hloubková mapa pomocí, které lze druhý snímek dopočítat. Z toho vyplívá, že zejména aktivní metody snímání se překrývají s pojmem „metody pro tvorbu hloubkové mapy“.
2.1 Aktivní metody Základním znakem je přidání dodatečné informace do scény. Informace může být přidána pomocí laseru, infra zářiče či projektoru. O těchto metodách lze mluvit jako o optických metodách měření vzdálenosti. Optické měření jsou takové, které se provádí určitým světelným paprskem. Optické metody můžeme dále dělit na koherentní a nekoherentní. Obecným principem koherentních metod je interference. Naopak nekoherentní metody jsou založeny na triangulaci [1], vždy se v měřicí soustavě vyskytuje projektor, měřený povrch a detektor. Výhodou koherentních metod je možnost rozlišit výškové rozdíly v řádu mikrometrů i méně. Principiálním problémem koherentních metod je složitost realizace měření větší scény. Tento problém je však již v dnešní době řešitelný a praktický zástupcem je například herní systém KINECT (kapitola 2.1.1). Následně se budeme věnovat metodám nekoherentním, které jsou většinou založeny na promítání nějaké optické struktury na měřený předmět a následném vyhodnocení deformací této struktury způsobené profilem předmětu vedoucí ke zjištění výškové distribuce. Měřící proces spočívá v postupném promítání vzoru na předmět (resp. Referenční rovinu) a následném zachycení obrazu kamerou. Proužkový vzor je tvořen horizontálně se opakujícím se sinusovým signálem. Fáze tohoto signálu se při dopadu na objekt mění v závislosti na tom, na tom v jaké vzdálenosti se objekt nachází. Následné rozpoznávání fáze lze obecně rozdělit na dva způsoby. Jeden ze způsobů bere při určování fáze v bodě do úvahy i okolní body obrazu předmětu. Ten druhý využívá pouze hodnotu intenzity v daném bodě, ale je jasné, že pouze z této jedné hodnoty fázi určit nelze. Při tomto způsobu je třeba více obrazů předmětu, kdy je mezi jednotlivými snímky posunuta promítající se periodická optická struktura o přesně definovanou hodnotu. Z jednotlivých intenzit v tomto bodě již fázi určit lze. Prvního způsobu pro zjištění fáze využívá tzv. Fourierovská profilometrie zatímco druhého Phase-shifting profilometrie. Tyto dva zástupce nekoherentní optických metod si v následujících kapitolách popíšeme podrobněji Výstupem pasivních metod je zpravidla hloubková mapa nebo model 3D scény a není k dispozici dvojce snímků, druhý snímek může být dopočítán pomoci metody Depth Map Rendering. Z tohoto důvodu nebývají aktivní metody používány při tvorbě 3D videa. Jako
metodu na pomezí mezi aktivními a pasivními metodami, lze pokládat metodu kdy je do scény snímané stereo snímačem přidána informace pomocí terčů, které mohou sloužit k nalezení přesných korespondencí mezi obrazy.
2.1.1 Fourierovská profilometrie Jak již název napovídá, metoda využívá pro zjištění fáze Fourierovy transformace (konkrétně její diskrétní podoby). Jednotlivé řádky jsou podrobeny tzv. rychlé Fourierově transformaci (FFT). Poté je ve Fourierově spektru provedena filtrace tak, aby byla zachována pouze první harmonická složka. Následně je provedena zpětná FFT. I přesto, že na vstupu byly čistě reálné hodnoty, zpětná FFT nám již obecně vrací řádek komplexních čísel. Fáze v daném bodě pak odpovídá argumentu komplexního čísla reprezentujícího daný bod. Tento způsob má však řadu nevýhod. Získaná data bývají často zatíženy nezanedbatelným šumem, který způsobí, že spektrální oblast odpovídající první harmonické jé téměř neidentifikovatelná. Nespornou výhodou této metody je ovšem možnost provádění měření v reálném čase. Pokud bude snímací kamera i promítací projektor nehybný, je možno zachytit referenční rovinu jenom jednou a poté již snímat pouze měnící se předmět. Při výkonnosti dnešních počítačů, kdy vyhodnocení obrazů scény trvá zlomky sekundy, se již dá mluvit o měření v reálném čase.
2.1.2 Phase- shifting profilometrie Obecně se zachytí N obrazů předmětu pro N >3 . Mezi jednotlivými obrazy je sinusová mřížka vždy posunuta o 1/N vlnové délky mřížky. Odvození vzorce pro výpočet fáze obecně pro N obrazů je velmi složitý. Pokud ale volíme specielně N = 4 , odvození se značně zjednoduší a také vzorec pro výpočet fáze nabývá jednoduchého tvaru. Proto je ve většině případů voleno právě N = 4 . I odvození v dalším odstavci je kvůli jednoduchosti ukázáno pro N =4 obrazů. Postupně je tedy na referenční plochu a na scénu projektorem promítány čtyři různé obrazy s různou počáteční fází signálu. Výstupem snímání je tedy osm snímků, 4 s promítáním na referenční osu a 4 na postavenou scénu. Následně jsou obrazy zpracovány na PC kde je využito rovnice: I ( x , y ) − I 2 ( x, y ) R ( x, y ) − R 2 ( x , y ) − arctan 1 , φ m ( x, y ) − φ r ( x, y ) = arctan 1 I 3 ( x, y ) − I 4 ( x, y ) R3 ( x, y ) − R4 ( x, y ) kde Ii reprezentují intenzitní obraz promítání vzoru na předmět (scénu) a Ri reprezentují intenzitní obraz promítání na referenční plochu. Jelikož takový je obor hodnot funkce arcustangens. Matice fáze se skládá z několika oblastí, kde v každé jednotlivé oblasti je průběh fáze spojitý. Tyto oblasti jsou však od sebe odděleny nespojitostmi, kdy při přechodu s jedné oblasti do druhé se fáze mění skokem o hodnotu 2π. Tomuto jevu se obecně říká zabalování fáze nebo wrapping. Naproti tomu proces, který tyto nespojitosti odstraňuje, se nazývá rozbalování fáze neboli unwrapping. Unwrapping, neboli rozbalování fáze, je proces sloužící k odstranění nespojitostí vznikajících při výpočtu fáze z intenzitních obrazů. Na tento algoritmus jsou kladeny vysoké nároky, jelikož nedokonalé rozbalování fáze by mohlo být zdrojem sekundárních chyb vznikajících při zpracování měření. Příčinou těchto chyb bývají např. stíny v intenzitních obrazech. Pro tyto body je totiž vypočtená fáze čistě náhodná a obecně neodpovídá topografii předmětu.
2.1.3 Zástupce koherentních metod Kinec: Infra zářič a infra kamera Firma PrimeSence jejíž technologie tvoří hardwarové řešení senzoru Kinect používá kombinaci dvou aktivních metod. Hloubková mapa je zkonstruována na základě snímání promítaného pseudonáhodného vzoru složeného z primitiv (speckle pattern). Statický pseudonáhodný vzor je promítán v blízkém infračerveném spektru a je snímán CMOS IR kamerou. Pomocí triangulace jednotlivých primitiv vzoru (při známém geometrickém uspořádání masky promítaných bodů, IR projektoru a kamery) lze určit hloubku snímaného bodu. Zde se tedy principiálně metoda neliší od profilometrie popsané v předchozí kapitole. Rozdíl lze však nalézt ve způsobu identifikace a rozlišení bodů. V případě klasické phaseshifting profilometrie je v časovém multiplexu promítána na snímaný objekt sada fázově posunutých vzorů a tedy celá plocha obrazu (kromě případných stínů a okluzí) je snímána kamerou. Tato technika dává po vyhodnocení model spojitého zakřiveného povrchu. Naproti tomu u Kinectu je triangulován každé primitivum struktury zvlášť. V případě klasické profilometrie je každý posunutý bod identifikován specifickou sekvencí fází promítaného vzoru. U Kinectu je tato informace poskytována tvarem snímaných primitiv. Pro promítání jsou totiž záměrně použity astigmatické čočky (Obr. 1 b). Ty jsou tvořeny soustavou dvou cylindrických čoček s různými ohniskovými vzdálenostmi. Promítaný vzor je tedy v závislosti na vzdálenosti od projektoru definovaným způsobem rozostřen a to variantně ve vertikální a horizontální rovině. Je tedy známa závislost impulzní odezvy optického systému na vzdálenosti: PSF = f (z). Z této je získána přibližná hodnota vzdálenosti a tedy nepřímo i identifikace daného primitiva pro klasickou triangulaci. Názorně je metoda demonstrována na Obr.2. V závislosti na hloubce z se liší tvar projekce daného primitiva (46, 48).
a)
b)
Obr 2.1 Kinect: a) Celkový pohled na zařízení b) Průřez optického svazku astigmatické soustavy čoček [4]
Obr 2.2Demonstrace funkce hloubkové kamery Kinect. [25]
Technické parametry Kinectu udávané výrobcem se vztahují na samotný hardware a lze dokázat jejich prokazatelné zlepšení použitím pokročilých metod zpracování obrazového signálu. Zde je uvádíme tedy pouze orientačně podle výrobce: Nominální rozsah hloubek: 0,8÷3,5 m Přesnost určení hloubky ve vzdálenosti 2 m: 1 cm Prostorové rozlišení (zrno) hloubkové mapy při vzdálenosti 2 m: 2 mm
2.2 Pasivní metody Základním znakem pasivních metod je zisk dvou snímků s různou pozicí kamer. Pasivní metody lze dále rozdělit, podle vzájemné pozice kamer při snímání. V prvním případě se jedná o obecný vztah kamer, kdy mohou být kamery vůči sobě posunuty ve všech třech směrech a mít různě natočenou osu snímání. Ukázka vzhledu získaných snímků je na Obr. 2.1. Při obecné poloze kamer není získán přímo levý a pravý snímek, které jsou potřeba k využití pro 3D video. Tento postup je zpravidla používán spíše při vytváření modelu scény, než pro 3D video. Nicméně i při obecném postavení kamer lze získat hloubkovou mapu a s její pomocí pak využitím metody DIBR vytvořit dva stereo snímky pro 3D video. Postup výpočtu modelu scény a hloubkové mapy budou popsány podrobněji v kapitole 6. V druhém případě se jedná o tzv. normální postavení kamer, kdy se pozice objektivů liší pouze o určitou horizontální vzdálenost a jejich optické osy jsou rovnoběžné. Vzdálenost mezi objektivy je označována jako stereobáze. V tomto případě jsou výstupem snímání přímo stereo snímky použitelné pro zobrazení 3D videa a pozice stejných „objektů“ scény se v obrazech liší pouze o horizontální paralaxu (viz obr. 1.2). V poslední době je stále běžnější situace, kdy jsou dva objektivy sloučeny do jedné kamery či fotoaparátu (viz. Kapitola 7).
Obr 2.3 Ukázka různého vzájemného postavení kamer
3 Přenos: Kodování, formáty dat Idea přenosového řetězce je naznačena na obrázku (viz Obr. 1). Jako zdroj 3D obsahu je v dnes technicky nejvyspělejším případě možno použít přímo počítačem syntetizovaný obraz. Další možností je pak signál ze stereoskopické kamery. Při použití této je jednak nutná odlišná práce kamerového technika vůči současnému 2D variantě, zejména přesně souhlasné nastavení parametrů obou kamer (matching). Tyto parametry jsou např. ohnisková vzdálenost, ostření, clona a další. Při režijním zpracování je pak nutno vyvarovat se například střihu z kladné do záporné paralaxy. Třetím zdrojem obsahu je převod 2D záznamu na 3D. V této oblasti probíhá v současnosti z pochopitelné motivace použití stávajícího obsahu vývoj, a to ve dvou základních směrech. Jednak se jedná o systémy, kde je hloubková informace manuálně zadávána pro referenční snímky a dále je pak extrapolována do dalších snímků. Dále pak jde o více či méně automatizované systémy pro vytváření hloubkové mapy na základě monokulárních vodítek hloubky, jako jsou analýza zaostření (depth from focus), geometrická perspektiva, pohybová paralaxa, texturní analýza a další.
Obr 3.1Schéma přenosového řetězce 3D televize.
3.1 Metody 3D video kódování • • •
Prostorová komprese Časový multiplex 2D + metadata o 2D + delta o 2D + depth o 2D + depth +metadata
3.1.1 Prostorová komprese Prostorová komprese, spočívá v podvzorkování obrazu pro levé a pravé oko a následné prostorové přeskládání jednotlivých pixelů obrazu. V normě [22] jsou definovány dva způsoby tohoto uspořádání, nazývané též jako Frame Compatible (FC). Side-by-Side a Topand-Bottom. Pro jiné systémy byly zkoušeny i další způsoby uspořádání (Obr. 3.2). Podrobněji popisuje způsob skládání podvzorkovaných signálů obrázek 3. Tento,
nejjednodušší způsob je v současnosti také nejčastěji užíván. Transformace se provádí ještě před komprimací metodou MPEG-4 AVC. Na přijímací straně dojde inverzně nejprve k dekompresi a poté buď v set top boxu, nebo až v zobrazovači k rozdělení a interpolaci.
Obr 3.2 Prostorová komprese videa: Side-by-side, Top-and-Bottom, Row-by-Row a Chessboard.
Obr 3.3 Popis skládání podvzorkovaných video framů do Side-by-side [22].
Popsaný a normou definovaný způsob má výhodu v použití současné infrastruktury (zcela neměnný systém pro konečné odbavení pořadu, komprimaci, modulaci, přenos až po set top box diváka) a neklade tedy na její provozovatele ani na uživatele další náklady vyjma nákupu 3D zobrazovače. Nevýhody jsou rovněž na první pohled zřejmé. Hlavní nevýhody jsou nemožnost přijmu jednoho pohledu (2D) stávající technologií, která prezentuje obraz jako podvzorkovanou dvojici obrazů s nemožností použití pouze jednoho z obrazů. Je-li tedy požadován příjem 2D obrazu stávajícími zařízeními, je při tomto systému vysílání nutno šířit paralelní datový tok s 2D mutací obsahu, což nelze považovat za efektivní využití přenosových prostředků.
3.1.2 Časový multiplex Problém popsaný v předchozím odstavci by mohl vyřešit časový multiplex. V prvních fázích vývoje bylo uvažováno o podobné prezentaci 3D obsahu jako bylo popsáno v minulém odstavci (FC), ovšem při postupném časovém střídání levého a pravého snímku. Tento způsob se však neujal. Nepřinesl by totiž výhodu zpětné kompatibility z důvodu nutnosti použití neprokládaného formátu a problémům s nekompatibilitou obrazového kodéru. Alternativou se kterou se počítá v další fázi rozvoje 3D vysílání je možnost použití dvou nezávislých obrazových toků, což zabezpečí výše zmíněnou kompatibilitu s 2D HD přijímačem. Pro 3D příjem však bude v takovém případě třeba nejen 3D zobrazovač, ale i nový set top box.
3.1.3 2D + metadata Mezi další a v současnosti využívané způsoby kódování 3D obsahu patří systém 2D+delta. Jak již název napovídá, využívá systém vysoké míry korelace mezi datovými toky pro levé a
pravé oko. Kdy je kódován pouze rozdíl mezi těmito snímky. Praktickou realizací takovéhoto kompresního standardu je například Multiview Video Coding (MVC). Tento kompresní algoritmus je zpětně kompatibilní s MPEG-4 AVC, což jej předurčuje k budoucímu nasazení pro účely 3D vysílání. V současnosti se používá například pro distribuci 3D obsahu na Bluray discích. Princip jeho funkce popisuje schematicky obrázek 4.
Obr 3.4 Schéma kompresních algoritmů pro multiview video. [25] a) Nezávislé pohledy komprimované MPEG-4 AVC b) Interpolace použitím informace I snímků referenční sekvence c) Kompletní interpolace
Je vhodné poznamenat, že při tomto způsobu zpracování informace, se počítá s více diskrétními pohledy (v tomto případě s osmi S0÷S7) a tedy i z možností budoucího použití vícepohledového displeje s horizontálním dělením pohledů. Obrázek 3.4a) demonstruje situaci s paralelně komprimovanými datovými toky popsanou v předchozí kapitole. T0÷T7 je jedna Group of Picture (GOP) známá z MPEG-4 AVC. Obrázky 3.4 b,c) pak popisují stejných 7 pohledů vzájemně zakódovaných ve dvou úrovních “časoprostorového“ kódování. Je zřejmé, že kompletní interpolace c), která se běžně používá například pro zmíněné Blue-ray disky nabízí vyšší míru komprese (snížení datového toku až o 60% proti případu a)) za cenu mírného zvýšení výpočetní náročnosti. I v tomto případě však zůstává možná zpětná kompatibilita s dekodérem MPEG-4 AVC. Popsaný systém 2D+delta však stále trpí mnohými necnostmi, jež brání jeho budoucímu univerzálnímu použití. Mezi tyto nevýhody patří například Diskrétní počet pohledů bez možnosti jednoduchého spojitého renderingu. Pohybová paralaxa je běžná pouze v horizontálním směru. Dále se jedná o problém adaptivní paralaxy. Tedy nelinearity snižování vnímané hloubky při poklesu úhlopříčky stínítka. Při tomto způsobu také není možné použít Depth Range Control (DRC), tedy uživatelsky nastavitelnou hloubku 3D vjemu. Zmíněné nevýhody by odstranily formáty 2D+depth, kde je spolu se klasickým 2D videem přenášena i hloubková mapa umožňující na straně dekodéru v určitém rozsahu spojitý rendering pohledů ve vertikálním i horizontálním směru, přizpůsobení konkrétnímu zobrazovači, DRC a další. Více o tomto způsobu kódování v kapitole 7.
3.2 3D televizní vysílání: Současný standard a předpokládaný vývoj 3D televizní vysílání je v současnosti rozšířené zejména pomocí kabelové a satelitní platformy. [24] EmiTel sice testoval na svém multiplexu ve Varšavě i pozemní šíření. Nikdy zde však nedošlo k pravidelnému vysílání. Současné vysílání se řídí dříve již zmíněnou normou ETSI. [22] tato definuje jednak použité FC uspořádání obrazu a dále pak signalizaci o přítomnosti a parametrech 3D vysílání a to jednak ve vlastních PES paketech, stejně jako v servisních tabulkách transportního toku MPEG2-TS. Dále je zde popsáno, kde se v transportním toku nachází informace o vysílání 3D obsahu, minimální a maximální disparitě obrazu (video depth range descriptor), dále jsou zde rovněž popsány scénáře přepínání mezi vysíláním 2D-HD a 3D TV obsahem. Norma definuje dvě formy stereoskopického vysílání. Jsou to jednak “mód příležitostného vysílání 3D obsahu“, a dále pak “mód dominantního 3D vysílání 24/7“. Obecně lze pro oba módy specifikovat, že informace o 3D videu je vždy určitým způsobem přenášena již v rámci PES paketů videa jako SEI (H.264/AVC Supplemental Enhancement Information). O přítomnosti této informace v transportním toku videa informuje AVC video descriptor v tabulce PMT (Program Map Table), a to nastavením indikátoru Frame_Packing_SEI_not_present_flag [22], [23]. Kromě toho je informace o vysílání 3D obsahu přítomna v tabulce SDT (Service Description Table) a nepravidelně vysílané tabulce EIT (Event Informatik Table). Tabulka SDT obsahuje 2 pro další měření relevantní decriptory. Je jím Service type (Service descricptor) a Component type (Component descriptor). Service type nabývá v režimu pravidelného 3D vysílání hodnot 0x1C, 0x1D nebo 0x1E, v případě příležitostného pak hodnot používaných též v klasickém 2D-HD vysílání, tedy 0x19, 0x1A, nebo 0x1B. Component type udává v případě 3D vysílání typ stranové komprese. Pro Side-by-side má hodnotu 0x80, pro Top-and-bottom pak 0x81.
European Broadcasting Union (EBU) rozdělila v roce 2010 (dosti optimisticky) předpokládaný vývoj 3D televize do 4 generací. První generaci popisuje současná norma [22] s výhledem systému kompatibilního s 2D HDTV přijímačem, tedy s oddělenými obrazovými toky pro levé a pravé oko (Popisováno jako fáze 1 a 3 první generace). Druhá generace by měla umožnit horizontální pohybovou paralaxu (nasazení multiview stereoskopických displejů). Třetí generace předpokládá více pohledů i ve vertikálním směru a čtvrtá využití hologramu, neboli přenos optického pole v dané oblasti. Autor je nucen poukázat na fakt, že dlouhodobé extrapolace vývoje jakéhokoli technického systému nemusí být vždy naplněny, jak se začíná projevovat i na popsaném příkladu.
4 3D zobrazovače Pro zobrazení 3D videa a obrazu existuje několik různých technologií, které můžeme dělit do dvou základních skupin. První skupinou jsou tzv. stereoskopické zobrazovače. Základním principem těchto technologii je oddělení obrazu pro levé a pravé oko. Druhou skupinu tvoří technologie volumetrické neboli objemové, jejichž cílem je vytvoření 3D obrazu v prostoru. V následujících kapitolách si představíme systémy patřící do obou skupin. Obrázky a obsah této kapitoly byly čerpány ze zdroje [1].
4.1 Anaglyf: barevná separace obrazu Anaglyf patří mezi nejjednodušší metody zobrazení stereofotografií a patří mezi stereoskopické metody. Největší výhoda tohoto systému je, že je použitelný na všech existujících zobrazovacích zařízeních, tedy na všech typech monitorů, projektorů, a samozřejmě i při tisku. Jedinou pomůckou, která je potřeba k pozorování prostorového efekt jsou anaglyfické brýle (viz Obr. 3.1), jejichž cena se pohybuje od několika desítek korun. Jeho jednoduchost je ale vykoupena několika problémy, kvůli kterým není příliš používaný. Jedním ze zásadních problémů je ztráta barevné informace či nereálnost barev. Základním principem této metody je barevné oddělení levého a pravého obrazu. Anaglyf je tvořen barvami, které jsou vzájemně doplňkové (jejich substraktivním smícháním vznikne černá, aditivním bílá). Takových kombinací barev existuje mnoho, ale ne všechny jsou vhodné. Dnes se nejčastěji používá kombinace červená - azurová (red - cyan), přičemž červený filtr bývá na levém oku, azurový na pravém. V minulosti se používaly také kombinace červená - zelená a červená - modrá, které ale nejsou přesně doplňkové. Anaglyf vznikne tak, že se obrázek pro levé oko (červený filtr) převede do azurovo bílé škály a obrázek pro pravé oko (azurový filtr) do červenobílé škály. Tyto dva obrázky se pak zobrazí přes sebe. V místech, kde se červená a azurová barva setká, vznikne černá barva, nebo odpovídající odstín šedé. Pozorovatel pak vidí každým okem černobílý obraz tvořený doplňkovou barvou k filtru brýlí a ze dvou dílčích obrazů si v mozku vytvoří prostorový vjem. Praktické vytvoření anaglyfu je velmi snadné. První možností je použití specializovaného programu, které jsou často volně šiřitelné. Druhou možností je naprogramování vlastního algoritmu ať již v jazyku C++, C#, nebo v prostředí MATLAB. Algoritmus se v podstatě skládá z pouhého násobení jednotlivých pixelů levého a pravého obrazu vhodnými maticemi P1 a P2 o rozměru 3x3, dle rovnice. output = P1 ⋅ Cl + P 2 ⋅ Cr , kde Cl a Cr jsou vektory o rozměru 3x1, které obsahují barevné složky levého a pravého obrazu a output je opět vektor o rozměru 3x1 obsahující barevné složky výsledného anaglyfu. Matice P1 a P2, mohou v nejjednodušším případě vypadat následovně 1 0 0 0 0 0
P1 = 0 0 0 P2 = 0 1 0 0 0 0 0 0 1 Což znamená, že dojde v prvním případě k zachování pouze červené složky a v druhém případě kombinace zelené a modré složky, tedy azurové barvy. M-file soubory vytvořené v prostředí MATLAB jsou ke stažení na stránkách předmětu. Kromě na začátku zmíněného problému s barevným podáním je dalším výrazným významným neduhem anaglyfů vznik duchů. Vznikají zejména na kontrastních hranách, kde se střídají tmavé a světlé plochy. Mohou vznikat ze dvou důvodů. Prvním a nejčastějším
důvodem je běžně používaný grafický formát JPEG, který i při malé kompresi ukládá obrazové informace po čtvercích. V jinak dobrém anaglyfu tím mohou vzniknout neodstranitelné duchy. Proto je vhodné pro anaglyfy používat nekomprimované formáty, jako PNG nebo TIFF. Druhým důvodem vzniku duchů mohou být nepřesné barvy vytvořeného anaglyfu. To může záviset na kvalitě i kalibraci monitoru i tiskárny. Lze se setkat i s brýlemi s nepřesnými barvami filtrů. Částečným řešením na odstranění duchů je tzv. plovoucí okno (floating window). Princip spočívá v tom, že se anaglyf sesadí tak, aby se hlavní motiv, nebo nejproblémovější část obrazu přesně překrývaly. Tím nevzniknou hrany, kde by se mohly duchové objevit. Většinou tím dojde k porušení stereoskopického okna. To pak lze napravit rámečkem plovoucím v prostoru před zobrazovací plochou.
4.2 Aktivní systém časovým multiplexem Aktivní technologie byla doposud hlavním směrem vývoje 3D televizorů a ve svém principu ji využívá i NVIDIA pro své aktivní brýle pro použití s PC. Aktivní se nazývá proto, že brýle jsou ve skutečnosti elektronickým zařízením, obsahují baterii a aktivně se podílejí na separaci stereopáru. V praxi vše funguje tak, že TV zpracovává dva obrazy. Existují dvě různé varianty: v jednom případě je každý z obrazů ve full HD rozlišení pro každé oko, v druhém případě se používá formát „half side by side“, který je často označovaný jako half SBS, ve kterém jsou vedle sebe dva obrazy v jediném HD filmovém políčku a tudíž je každý obraz zúžený na poloviční rozlišení tak, jak je vidět na následujícím obrázku Obr 4.1Základní princip aktivního systému: časová separace [1].
Dalším v současnosti používaným formátem pro použitelné přehrávání z USB pomocí interního přehrávače v TV je formát Top - Bottom označovaný jako TAB. V principu se jedná o obdobu formátu SBS, jen oba obrázky jsou umístěny v jediném políčku nad sebou. To znamená, že tentokrát je zde pro každý obraz jen polovina řádků a opět se tedy nejedná o plnohodnotné HD. TV následně tyto dva rozdílné obrazy oddělí a střídavě je zobrazuje. Jelikož jsou tedy na obrazovce současně střídavě promítány dva rozdílné obrazy, musí TV splňovat rovněž možnost zobrazovat obraz dvounásobnou frekvencí než běžné TV. Současně s 3D přehráváním je vysílán synchronizační signál pro brýle, které aktivně střídavě zakrývají levé a pravé oko tak, aby každé vidělo jen svou polovinu obrázků: Hlavní předností je, že aktivní technologie je schopna zajistit plnohodnotný HD obraz. Nevýhod je pak více. Především je to nepříjemné blikání brýlí, které je na denním světle dobře vnímatelné a proto je vhodné 3D obsah sledovat alespoň při částečném zatemnění, nebo zajistit, aby v zorném poli diváka nebylo okno s denním světlem. Rušivě mohou působit i některé druhy umělého osvětlení. Zároveň ze střídavého zakrývání očí může mít určité procento diváků nepříjemné pocity spojené s nevolností, bolestmi hlavy apod. Systém se nedoporučuje se epileptikům. Samotné brýle pak musí obsahovat nutnou elektroniku a baterii, což se nepříjemně projeví na jejich hmotnosti. Opomenout nemůžeme i nutnost brýle nabíjet, nebo čas od času v nich vyměnit baterii. Poslední, co hraje proti této technologii, je samotná cena brýlí. Nicméně poslední dvě nevýhody jsou odstranitelné. Jednak současné brýle jsou dle mého názoru zbytečně robustní, jelikož ovládací elektronika a jedna knoflíková baterie, která vydrží napájet brýle při občasném sledování 3D obsahu dlouhé měsíce, činí jen zlomek hmotnosti.
4.3 Pasivní systém s polarizačním oddělením Jelikož pasivní technologie musí být zpětně kompatibilní s již zaběhlými formáty 3D videa, je logické, že pro pasivní 3D TV je dodáván stejný obrazový materiál jako pro technologii aktivní. Rozdíl je tedy jen v jeho výsledném zobrazení. Pasivní technologie využívá jednoduchého efektu polarizačních filtrů. Pro pochopení si musíme o polarizaci světla říci něco více. Běžné světlo, které vzniká spontánní emisí, není polarizované. Velice zjednodušeně si každý světelný paprsek můžeme představit jako vlnu. Ovšem vektor intenzity elektrického pole každého paprsku světla kmitá náhodným směrem. Některé kmitají nahoru a dolů (vertikálně), jiné doleva a doprava (horizontálně), jiné náhodně šikmo. Polarizační filtr je optický prvek, který dokáže odfiltrovat jen paprsky kmitající určitým směrem.
Obr 4.2 Princip systému s oddělením pomocí polarizace [21]
Pokud tedy světlu do cesty umístíme dva filtry, záleží na jejich vzájemném pootočení, jestli světlo projde nebo neprojde. Pokud bude jeden filtr otočen vertikálně a druhý horizontálně, stane se to, že první filtr nám propustí jen vertikálně polarizované paprsky. Ty však nedokáží projít horizontálně otočeným filtrem. Pokud ovšem druhý filtr otočíme tak, aby jeho polarizace souhlasila s filtrem prvním, světlo propustí. Tohoto jevu se již dnes využívá v některých 3D kinech, kdy jsou na stříbrné plátno promítány dva obrazy, ovšem každý s jinou polarizací. Divák si pak nasadí brýle, ve kterých jsou pro každé oko jinak pootočené polarizační filtry. Bez brýlí by tedy divák viděl dva prolínající se drobně odlišné obrazy, které celkově budou působit jako jeden rozmazaný- rozdvojený obraz. Brýle však zajistí že, každé oko uvidí jen obraz polarizovaný stejně jako je filtr v brýlích před okem.
Obr 4.3 Princip pasivní stereoskopické projekce [1]
V případě 3D TV ovšem nelze jednoduše zajistit, aby se vhodně překrývaly dva rozdílně polarizované obrazy. Odlišně polarizovány jsou tedy jen jednotlivé sloupce pixelů. Ve výrobě to znamená nejen použití polarizačního filtru, který bude přesně překrývat jednotlivé sloupce pixelů, ale v případě LCD panelu i odlišného nanesení jednotlivých sloupců tekutých krystalů. Pokud si divák nasadí pasivní 3D brýle obsahující vhodně orientované polarizační filtry, uvidí jedním okem jen sudé sloupce pixelů, druhým okem jen liché sloupce. Z tohoto je zřejmé, že pasivní technologie nedokáže na obrazovkách s HD rozlišením nikdy zobrazit skutečný plnohodnotný 3D HD obraz, jelikož každé oko uvidí vždy jen polovinu pixelů. Samozřejmě, pro běžný 2D obsah je plnohodnotné HD možné, jelikož bez polarizačních brýlí obě oči uvidí plné rozlišení. Zmiňované poloviční rozlišení, kterého lze dosáhnout pří sledování 3D obsahu touto metodou je nejzásadnější nevýhodou tohoto systému. Jedinou možností jak dosáhnout HD rozlišení pro 3D by bylo vyrábět TV s dvojnásobným rozlišením obrazovky, ovšem to by se velice nepříznivě projevilo na ceně televizoru. Druhou nevýhodou je, že polarizační filtry jsou v závislosti na kvalitě citlivé na vzájemné pootočení a tak se může lehce stát, že pokud divák nebude držet hlavu zpříma a nakloní ji nalevo nebo napravo, může účinnost filtrů klesat a s tím bude klesat 3D efekt a obraz bude vnímán zdvojeně. Na straně druhé jsou tu výhody spojené s levnými lehkými brýlemi, které nepotřebují žádné baterie. Zároveň odpadá
nepříjemné blikání, které působí aktivní brýle a zároveň s tím odpadají možné zdravotní problémy.
4.4 Autostereoskopický display (3D bez brýlí) V minulosti se i mnoho odborníků domnívalo, že auto-stereoskopickým systémům patří budoucnost. Ostatně, 3D bez brýlí zní skutečně lákavě! Bohužel se ukazuje, že tyto monitory nedokáží v současnosti nabídnout kvalitní 3D obraz, který by mohl diváky uspokojit. Podle všeho se zdá, že pokud se objeví kvalitní 3D bez brýlí, bude to jiná technologie, než nabízejí stávající auto-stereoskopické monitory. O tom svědčí i ukončené financování vývoje autostereoskopických monitorů mnoha světovými firmami. Společným znakem všech auto-stereoskopických monitorů je speciální maska umístěná před LCD displejem. Je vybavena optickými hranoly, které vychylují světlo různých sloupců pixelů do různých směrů. Na obrazovce monitoru jsou podle parametrů optické masky vtěsnány obrazy pro pravé i levé oko. Maska způsobí to, že jsou obrazy pro jednotlivé oči viditelné pouze z určitých směrů. Pokud se tedy divák postaví do vhodné pozice (pro každého člověka může být jiná – to podle rozteče očí), uvidí levým okem pouze levý obraz a pravým pravý. Nevýhodou monitoru je to, že je kvalita každého obrazu pouze poloviční, než je nativní rozlišení monitoru.
Obr 4.4 Princip stereoskopického zobrazování [1]
Jak bylo řečeno, pozorování 3D obrazu na auto-stereoskopickém monitoru není příliš pohodlné, divák si musí najít pozici před monitorem, kde 3D funguje a on jej vidí dobře. Tento neduh se snaží odstranit systém pro sledování očí. Takovéto monitory jsou vybaveny kamerovým systémem, který sleduje oči diváka a fyzicky posouvá optickou masku před monitorem tak, aby se měnily pozorovací zóny v závislosti na pozici diváka před monitorem.
Výsledky těchto systémů nejsou příliš přesvědčivé a problémy nastávají obzvláště pokud se vyskytne před monitorem více diváků a systém neví, čí oči sledovat, nebo v nepříznivých světelných podmínkách, kdy není kamerový systém schopen spolehlivě vyhodnotit obraz. Jiní výrobci se snažili problém úzkých pozorovacích zón řešit jinak, než kamerovým systémem. Vyrobili proto optickou masku, která nedisponuje dvojicí obrazů, ale více, např. pěti nebo i devíti. Maska distribuuje každý obraz do jiného pozorovacího úhlu, tím vzniká vyšší počet pozorovacích zón, a je tedy pokryt větší prostor před monitorem. Dokonce je možné částečně 3D monitor obcházet a pozorovat z různých míst 3D scénu z různých úhlů. To lze díky tomu, že je 3D scéna zachycena, ne ze dvou, ale z více různých míst. Nevýhodou je fakt, že na monitoru nelze zobrazit klasické 3D stereoskopické filmy a hry (připravené pro 3D brýlové systémy) a 3D obsah se musí připravit speciálně a ne zcela jednoduše, přímo pro konkrétní monitor. Další nevýhodou je skutečnost, že se do nativního obrazu musí vtěsnat pět nebo dokonce devět obrazů, což znamená 5x či 9x nižší kvalitu dílčích obrazů. V neposlední řadě je nutné připomenout, že ani více zón nenabízí kvalitní 3D, které by diváky dokázalo jednoznačně přesvědčit. Jednoznačnou výhodu představuje skutečnost, že se divák obejde bez 3D brýlí. To je však vyváženo mnoha nevýhodami, které mnohé zájemce spolehlivě odradí. Nevýhodou je bezpochyby ne zcela přesvědčivé podání 3D obrazu, nutnost hledat místo před monitorem, kde 3D funguje dobře a snížené rozlišení obrazu.
5 Fyziologie, problémy Z anatomického hlediska se zde budeme zabývat pouze základní stavbou a částmi ovlivňujícími optickou cestu, nikoli stavbou a funkcí sítnice. Z hlediska monokulárních vodítek prostorového vidění má význam zejména řasnaté tělísko (corpus ciliare) – paprsčitě uspořádaný sval z hladké svaloviny. Na povrchu má četné výběžky, na něž je tenkými vlákny zavěšena čočka. Stahy svalstva mění zakřivení svalstva, což způsobuje potřebnou akomodaci (zakřivení) čočky. Z krve protékající vlásečnicemi řasnatého tělíska se filtrací tvoří komorová voda, která vyživuje bezcévnaté části oka a udržuje jeho tvar. Čočka, tvořená vrstvami pružných proteinů, tedy mění svou optickou mohutnost v rozsahu 0 ÷ 20 D. Tato schopnost se s věkem ztrácí. Větší optickou mohutnost má rohovka (42 D), tato rovněž vrstevnatá struktura je od vlastní čočky oddělena duhovkou, přepážkou mezi přední a zadní komorou oka, jejíž střed tvoří zornice.
Obr 5.1 Zjednodušený anatomický popis řezu oční bulvy[26].
V rámci fyziologie stereoskopického vidění rozlišujeme v zásadě dva typy prostorových vodítek, a to monokulární a binokulární. Monokulární, jež se projeví již při pozorování prostorové scény jedním okem, dále dělíme na apriorní a aposteriorní. Jak již název napovídá, první z nich poskytují informaci přímo na základě fyziologické odezvy zrakového systému. Jsou jimi pohybová paralaxa a akomodace. První z nich používá k určení relativní rychlost pohybů objektů ve zrakovém poli. Úhlový pohyb obrazů objektů na sítnici se zrychluje se zmenšující se vzdáleností těchto objektů. V případě akomodace je informace o tenzi svalů řasnatého tělíska poslána zpět do visual cortexu, kde je použita pro interpretaci hloubky.
Typickým příkladem aposteriorního monokulárního vodítka je pak hloubka zjištěná z relativní velikosti. Její přesnost je závislá na zkušenosti s jakou dokáže mozek pozorovatele určit z velikosti obrazu na sítnici vzdálenost předmětu. Dalšími zástupci jsou interpozice a perspektiva, kteréžto jsou podmíněny zkušeností s transformací optického pole do 2D obrazu na sítnici. Mezi binokulární vodítka stereoskopického vnímání řadíme konvergenci a binokulární disparitu (Obr. 2). V případě konvergence je zpracovávána informace o tenzi vnějších očních svalů. Z polohy průsečíku optických os obou bulev je tedy zjištěna hloubka a to zejména ve vzdálenostech do 10 m. Binokulární disparita je definovaná jako úhlový rozdíl projekcí jednoho bodu na sítnice obou očí. Obr. 2 b ukazuje 3 body v prostoru, jejichž obraz na sítnici pravého oka splývá, zatímco levé je rozliší rozdílnou paralaxou.
a)
b)
c)
Obr 5.2 Binokulární vodítka: a) Konvergence, b) Binokulární disparita, c) Empirický horopter
Fyziologické limity v současnosti rozšířených displejů naráží na fakt, že zatímco lidský zrak je uzpůsoben k vnímání přirozeného optického pole, je mu v případě současných technologií prezentována pouze dvojice (případně sada) plošných průmětů. Tento technologický problém je přítomen již v klasické fotografii / filmu / televizi. Volba hloubky ostrosti tedy parametru konverze trojrozměrného optického pole na jeho 2D obraz je vždy kompromisem mezi ztrátou obrazové informace v ploše obrazu jeho rozostřením a ztrátou informace o hloubce v případě vysoké hloubky ostrosti. 3D televize a zejména prezentace 3D informace (zobrazovače) dnes povětšinou tento rozpor vesměs neřeší a dnešní koncept připomíná spíše stereoskopickou či “multipohledovou“ televizi. Mezi hlavní fyziologické problémy patří různá hloubka akomodace a konvergence. Zatímco u klasického vidění (Obr. 3 a) je vzdálenost, na kterou oko akomoduje stejná jako vzdálenost průsečíku optických os očí. Mozek je naučen tomuto spojení v útlém věku dítěte a jeho neustavení lze kvalifikovat jako oční vadu “insuficienci divergence“. Podívejme se na pravou polovinu obrázku. Vidíme, že dnešní stereoskopické i autostereoskopické displeje nutí mozek tento vztah porušit, neboť jsme nuceni zaostřovat na rovinu zobrazovače i když se nám předmět jeví před/za rovinou zobrazovače. Tento problém se zvětšuje se snižující se
úhlopříčkou stínítka a tedy se snižující se vzdáleností pozorovatele. Obr.3b znázorňuje vztah mezi akomodací a konvergencí. Vymezuje zónu binokulárního vidění, kde tento rozpor ještě nezpůsobuje rozklad 3D vjemu (zeleně) a dále pak zónu komfortního stereoskopického vidění (žlutá).
a)
b)
Obr 5.3 Fyziologické problémy 3D televize: [27] a) Různá hloubka akomodace a konvergence v případě klasických (auto-)stereoskopických zobrazovačů. b) Percivalova zóna komfortního binokulárního vidění
6 Rekonstrukce obrazu, tvorba hloubkových map, DIBR Téma následující kapitoly se liší od jiných v tomto textu. Absolutní většina kapitol se totiž zabývá 3D TV a potřebným hardwarovým vybavením. Dozvěděli jsme se toho spoustu o snímání, přenosu dat, zobrazování, různých zařízení a technologiích související s 3D TV. Zatím bylo jen něco málo naznačeno o možnosti konstrukce 3D modelu a o používaných algoritmech. Tomuto tématu se budeme věnovat v této kapitole, kde budou popsány postupy používané pro rekonstrukci modelu a naznačeny základní způsoby tvorby hloubkové mapy a jejího využití k vytvoření virtuálního pohledu pomocí metody DIBR.
6.1 Rekonstrukce prostorového modelu scény K výpočtu modelu scény je potřeba mít dva vstupní snímky stejné scény (viz. Kapitola 2). Postup rekonstrukce lze rozdělit do několika fundamentálních kroků, které budou popsány v následujících kapitolách. Vyčerpávajícím způsobem je postup rekonstrukce popsán například v [3]. Celý postup je názorně zobrazen vývojovým diagramem na Obr. 6.1. Zavedením určitých omezujících podmínek lze daný postup zjednodušit. Fundamentálním krokem je vždy nalezení korespondujících bodů v obou obrazech. Korespondující body jsou obrazové body, na kterých je zobrazen tentýž bod reálné scény. Pokud se jedná o normální případ (změna pozice kamery jen v horizontálním směru), tak můžeme zavést omezení, že se korespondující body nacházejí na stejném řádku. Podrobněji je proces hledání korespondujících bodů popsaný v kapitole 6.1.1. Nalezené korespondenční body slouží k provedení vnitřní a vnější kalibrace kamery a současně jsou souřadnice vzájemně korespondujících bodů použité v závěrečném kroku samotného výpočtu prostorové souřadnice, tento proces se nazývá triangulace. Pomocí vnitřní kalibrace kamery je získána tzv. kalibrační matice reprezentující vlastnosti použitého snímače (kamery/fotoaparátu). Základními vlastnostmi jsou ohnisková vzdálenost, velikost pixelu a pozice hlavního zobrazovacího bodu. Výstupem vnější kalibrace jsou tzv. rotační matice a translační vektor, které slouží k reprezentaci vzájemné polohy kamer. Fundamentální základ kalibrace kamer bude popsán v kapitole 6.1.2. V případě, že máme k dispozici stereo snímky, které se liší pouze o posunutí v horizontální ose, je možné dopočítat se k relativní pozici v prostoru i zjednodušeným postupem bez počítání vnější a vnitřní kalibrace. V takovém případě ovšem nezískáme přesné metrické informace, ale pouze relativní pozice v prostoru. Relativní hloubka bodu v prostoru lze spočítat jako inverzní hodnota horizontální paralaxy. I v tomto případě je nutné znát souřadnice souhlasných bodů v obraze.
6.2 Hledání korespondujících bodů Jak bylo zmíněno výše, korespondující body reprezentují stejný bod v prostoru. Z toho je patrné, že tyto obrazové body budou mít stejné nebo přinejmenším podobné vlastnosti, což budeme využívat při jejich hledání. Situace však není tak jednoduchá. Pěkné shrnutí algoritmů pro hledání výrazných bodů v obraze je možné nalézt v publikaci[2]. Nejjednodušší by bylo porovnávat jas (v šedotónovém obraze) a barevné složky RGB (v barevném obraze) samostatných bodů. Tento způsob by ovšem nevedl k úspěchu a to ze dvou důvodů. Prvním důvodem je skutečnost, že obraz (a tím každý jeho bod) je reprezentován digitální hodnotou a může nabývat omezeného počtu stavů. Většinou je používán 8bitový rozsah a máme tedy k dispozici 256 různých hodnot od 0 do 255. Z toho vyplívá, že stejnou hodnotu může mít velké množství obrazových bodů a ten správný bychom nebyli schopní určit. Tento problém
je znásoben tím, že korespondující body ve skutečnosti nemusí mít zcela shodné hodnoty jasu či RGB složek, což může být způsobeno šumem a jistými vlivy při snímání. V důsledku těchto problémů je nutné použít pro hledání korespondujících bodů sofistikovanější metody. Velmi důležité je, že nejsou porovnávány jen samostatné pixely, ale porovnáváme určité jejich okolí, které může mít různé rozměry 3x3, 5x5, 9x9. Následně začaly být používány různé metriky jako, například vzájemná informace, korelace, ratio image uniformity, součet rozdílu čtverců (SAS) nebo součet rozdílů absolutních hodnot (SSAD). Ve většině metrik je jako korespondující bod označeno minimum metriky. Základní myšlenkou je hledání korespondujících bodů pro všechny obrazové body. Tento postup by byl ovšem výpočetně velmi náročný a většinou značně neefektivní. Neefektivita by byla přes opatření, které byly zmíněny výše, způsobena, tím že pro velkou skupinu bodů by bylo nemožné najít korespondující bod. Tento případ by nastal v situaci, kdy se daný bod nachází v oblasti bez kontrastu nebo v oblasti s pravidelnou texturou. V takovém případě by docházelo k tomu, že by metrika vycházela stejně pro větší množství bodů a nebylo by možné spolehlivě určit korespondenci. Navíc, pokud se bavíme o rekonstrukci modelu scény, tak ani nepotřebujeme znát korespondenci všech bodů a stačí nám znát jen korespondence omezeného počtu bodů rozložených ve scéně (minimálně 7 bodů). Hledání korespondencí pro všechny body je někdy využito při tvorbě hloubkové mapy, nicméně i tam jsou zpravidla používány metody využívající omezený počet korespondujících bodu (více v kapitole 6.2) V praxi je potřeba najít spolehlivé korespondence pro omezený počet bodů v levém stereo snímku. Z výše uvedeného je patrné, že spolehlivé určení korespondence je možné pro výrazné body v obraze. Výrazné body jsou takové mody, které mají specifické okolí, takovými body mohou být hrany, rohy, lokální minima či maxima a podobně. K vyhledávání těchto bodů v obraze bylo navrženo velké množství různých algoritmů, které často využívají detekci hran. Jako zástupce těchto metod můžeme vybrat Moravcův detektor nebo Harris Conner detektor. Výrazné body byly nalezeny v obou stereo obrazech a poté mohlo být porovnáno jejich okolí a určeny korespondence. Jakousi druhou generací v oblasti detektorů výrazných bodů jsou tzv. deskriptory. Deskriptory jsou algoritmy, které nejen naleznou v obraze výrazné body, ale současně nalezený bod popíší jeho vlastnostmi, na jejich základě jsou pak určeny korespondence. Mezi nejpoužívanější deskriptory patří SURF [4]. Zjednodušení procesu hledání korespondujících bodů lze dosáhnout zavedením určitých omezujících podmínek. Podmínkami můžeme omezit zejména oblast vyhledávání korespondence v pravém snímku. Nejdůležitějším omezením je omezení na vyhledávání pouze v řádku, na kterém leží daný bod v levém snímku. Toto omezení můžeme použít, pokud máme k dispozici stereo snímky nebo pokud jsme provedli rektifikací snímků. Dalším omezením může být maximální uvažovaná paralaxa a fakt, že u stereo snímků je nutné prohledávat pouze body napravo pozice daného bodu v levém obraze.
1.2.1. Kalibrace kamery Na začátku kapitoly bylo řečeno, že kalibrace kamery patří mezi fundamentální kroky při metrické rekonstrukci modelu scény. K provedení obou kalibrací je potřeba soubor korespondujících bodů. Jak takové body nalezneme, bylo popsáno výše. Protože rekonstrukce modelu scény není přímou součástí našeho kurzu, tak nebude rozebírat jednotlivé matematické postupy a metody, které mohou být použity k provedení kalibrace kamery. Náplní kapitoly bude popis výstupů kalibrace a jejích výsledků ve speciálních případech. Součástí bude také základní popis metodiky provedení kalibrace a popis možností jak v praxi kalibraci provést. Výstupem vnitřní kalibrace je tzv. kalibrační matice K. Matice reprezentuje kalibraci kamery a jako taková zůstává pro danou kameru neměnná za předpokladu nezměněné ohniskové vzdálenosti, tedy při shodném nastavením zoomu. Z toho vyplývá, že vnitřní kalibraci je teoreticky možné provést pro danou kameru jen
jednou. Metody pro provedení kalibrace můžeme rozdělit do dvou základních skupin online (často se používá angl. výraz „self-calibration“) a offline kalibraci. Offline kalibrace je prováděna před samotným pořízením scény, jež má být rekonstruována pomocí testovacího vzoru se známými rozměry, vzorem může být šachovnice. Online kalibrace je prováděna přímo pomocí snímků sloužících k rekonstrukci scény a nevyžaduje testovací vzor. Postup při offline kalibraci kamery je možné rozdělit na dvě základní části 1. snímkování: • do této části patří také volba testovacího pole vzhledem ke vzdálenosti snímkování a použitému objektivu. Během snímkování je nutné dodržet základní pravidla jako nepřeostřovaní, musí být vypnuté automatické doostřování obrazu kamery pro stálost PVO. Dále je nutné pořídit snímky s různým natočením kamery nebo s různým natočením kalibračního pole podle použité metody pro fixaci hlavního snímkového bodu. Na závěr snímkování je nutné změřit základní míry testovacího pole opět v závislosti na použité technologii. 2. zpracování: • zahrnuje zpracování snímků (proměření kalibračních bodů na jednotlivých snímcích) a vlastní výpočet parametrů kamery. Pokud by byla použita analogová kamera, patřilo by sem i skenování snímků. Vhodným nástrojem pro provedení vnitřní kalibrace kamery je volně šiřitelný Camera Calibration Toolbox pro Matlab. Vnější kalibrace je provedena prostřednictvím nalezení fundamentální matice. K výpočtu fundamentální matice je zpravidla využíván osmibodový algoritmus a SVD rozklad matice.
6.3 Tvorba hloubkové mapy a depth map rendering Pojem hloubková mapa byl vysvětlen v první kapitole, takže se jen připomeneme, že se jedná o vyjádření hloubky scény prostřednictvím šedotónového snímku. V této kapitole se budeme zabývat metodami pro tvorbu hloubkové mapy, konkrétně výpočtem hloubkové mapy ze dvou snímků získaných pasivní metodou. Pokud jsou vstupem snímky v obecném vztahu, máme dvě možnosti. Jedním používaným postupem je převedení snímků do normálního vztahu a následně použití stejného postupu popsaného výše. Převod z obecného stavu na normální se nazývá rektifikace snímků. Rektifikace se provádí pomocí nalezení několika korespondující bodů a transformace snímků do společného systému. Druhou možností je tvorba hloubkové mapy přímo na základě hloubky několika rekonstruovaných bodů, jejichž hloubka je získána pomocí stereofotogrammetie (viz. Kapitola 2.1). Hloubková mapa je vytvořena pomocí postupu zvaného v angličtině Densematching. Jedná se tedy o hledání „husté shody“. Metoda představuje rozšíření korespondencí bodů na korespondenci souvislých částí snímků zpravidla pomocí různých segmentačních metod často využívajících prvky umělé inteligence, optimalizace, dynamického programování. Důležitým krokem tvorby hloubkové mapy pasivní metodou je tedy vždy nalezení hloubky (korespondence) několika jednotlivých bodů (viz. Kapitola 6.1.1. Vyčerpávající studii porovnávající různé způsoby tvorby hloubkové mapy je možné najít v publikacích [5]. Algoritmů pro tvorbu hloubkových map bylo již navrženo a publikováno mnoho. V oblasti zpracování obrazu však patrně nikdy nebude existovat ideální řešení (algoritmus) a je možné pouze vybrat optimální řešení pro určité aplikace zpravidla dle obsahu snímku. Z tohoto důvodu není nezbytné zabývat se na tomto místě konkrétnímu algoritmy.
7 3D přístroje na současném trhu Sekce by měla sloužit pro 3D nadšence jako zdroj informací o zástupcích různých technologii, které byly popsány v předešlých sekcích.
7.1 Kamery a fotoaparáty V situaci, kdy je na trhu velké množství 3D zobrazovačů je zcela logické, že se stále častěji na trhu objevují i 3D fotoaparáty a kamery. Kdo by se nechtěl podívat sám na sebe či na své blízké ve 3D a moci si na své vzpomínky, tak nějak šáhnout. Možnost pořídit 3D fotografii či video dnes již nabízí i některé mobilní telefony, ale těm bude věnována následující kapitola. V současnosti je většina 3D přístrojů řešena přítomností dvou objektivů a dvou snímačů (CCD a CMOS), který každý snímají samostatnou fotografii, jiným přístupem může být určitý optický adapter, který rozdělí fotografii na dvě části a vytvoří jakýsi rámeček. Takový adaptér může být nasazený na objektiv běžné kamery. Tento přístup použila firma Panasonic u své kamery Panasonic HDC-SDT750 (viz obrázek). Tato kamera je bez nasazení nástavce kvalitní FULL HD kamerou. Po nasazení adaptéru může sloužit k natáčení 3D videa či pořízení 3D fotografii. Použitý systém ovšem má své problémy. První nevýhodou je skutečnost, že dojde k rozdělení snímku a výsledné 3D video již není FULL HD. Každý ze stereo snímků má méně než poloviční rozlišení původního FULL HD snímku, protože určitý počet pixelů navíc zastíní okraje snímku. Druhým zásadním problémem je příliš malá stereobáze kamery, která je jen cca 2 cm a kvůli tomu je 3D efekt nejvýraznější do vzdálenosti cca 3 m od kamery a ve větších vzdálenostech již působí video ploše. Patrně prvním 3D fotoaparátem s dvěma snímači byl FUJIFILM REAL 3D W1, který se objevil v roce 2009. Fotoaparátem je možné pořídit 3d fotografie s rozlišením až 3648 x 2736 a 3D video s maximálním rozlišením 640 x 480. Přístroj nabízí trojnásobný optický zoom. Fotografie jsou kodované ve speciálním formátu s příponou „mpoa“, z kterého lze v dodávaném softwaru získat samostatné stereo snímky. Fotoaparát je vybaven autostereoskopickým displejem, který umožňuje zobrazení pořízených fotek. Později byl na trh doplněn novější model FUJIFILM REAL 3D W3. V roce 2011 představil Panasonic 3D fotoaparát Lumix 3D1, který je vybaven dvěma objektivy se 4× optickým zoomem. Má také dva snímací čipy typu MOS s rozlišením 12 megapixelů a velký 3,5" LCD dotykový displej s rozlišením 460.000 bodů. Jednoznačnou nevýhodou tohoto přístroje je opět vzdálenost jeho objektivů, která je výrazně menší než přirozená stereobáze. Zajímavé řešení přinesla firma Lytro, která představila fotoaparát, který má jediný objektiv a zisk 3D obsahu vzniká na základě změny zaostření. Idea je taková, že při různém zaostření jsou ostré předměty v různé vzdálenosti a tak lze při změně ostření zjistit vzdálenosti předmětů. Zmíněné fotoaparáty lze samozřejmě používat i k natáčení 3D videa, ale většinou jen s malým rozlišením, proto zmíníme i zástupce 3D kamer. Na začátku tohoto roku připravila společnost Toshiba novou videokameru Camileo Z100, která zvládne záznam v rozlišení Full HD 3D. Stejně tak na začátku roku přišla firma SONY s novým modelem své videokamery HTR-TD20VE. Ze tří neprofesionálních kamer určených pro běžné uživatele, představuje nejvyšší třídu SONY TR-TD20VE s cenou okolo 30000 Kč. Zástupce poloprofesionálních kamer může být například Panasonic HDC-Z10000. Tato kamera na rozdíl od své předchůdkyně od firmy Panasonic obsahuje dva samostatné kamerové 3MOS moduly. Tedy dvě full-HD videokamery se synchronizovaným zoomem (cena okolo 80 000). Firma Panasonic má ve své nabídce profesionální kameru Panasonic AG-3DA1.
7.2 Zobrazovače 3D televizorů je v současné době na trhu velké množství a tak zde budou vybráni jen zástupci dostupných technologii. Na první pohled je z nabídky patrné, že prim hrají v současné době velcí hráči LG a SAMSUNG. Firma Samsung se specializuje na televizory s aktivním systémem používající časový multiplex. Zatímco LG vyrábí televizory s pasivním systémem využívající diskriminaci obrazů pomocí polarizace. Kdybychom hledali největší televizory, které lze u nás pořídit, zjistíme, že právě jmenované firmy mají na svědomí televizory s největší úhlopříčkou. LG má ve své nabídce 72 palcový LG 72LM950V s úhlopříčkou 183 cm. Samsung jako soupeře na poli obřích 3D TV nabízí 75 placový UE75ES9000 s úhlopříčkou 189 cm. Ceny těchto obrů se pohybují kolem 200 000 Kč. Naopak, nejmenšími dostupnými televizory s pasivním systémem jsou 32“ LG 32LM611S a Hyundai D3LH 32806 MP4R. Jako zástupce nejmenších 3D TV s aktivním systémem můžeme jmenovat Samsung UE32ES6300S, Toshiba 32TL933G nebo Philips 32PFL5507. Nejmenší televizory patří samozřejmě současně mezi nejlevnější a lze je pořídit za ceny okolo 10 000 Kč. Všechny zatím jmenované televizory mají obrazovku LCD podsvětlenou LED. Technologie LED výrazně v nabídce převládá. Obrazovky typu plazma ve svých 3D TV nabízí především firma Panasonic s největším zástupcem VIERA TXP65VT50 s 65“ úhlopříčkou. Doposud jsme mluvili o pasivní a aktivním systému vyžadující použití 3D brýlí a nepadla ani zmínka o nabídce autostereoskopických televizorů. Důvodem je skutečnost, že tento typ zobrazovačů není příliš rozšířený a to zejména kvůli nevýhodě spočívající v tom, že se jedná o televizor primárně určen pro jednoho diváka. Specialistou na autostereoskopické televizory je u nás firma Philips, která nabízí modely až do úhlopříčky 132 cm BDL5231VS/00. Nicméně stále zůstává faktem, že autosteskopická technologie je používána spíše pro jinou 3D techniku než 3D TV, například pro displeje 3D fotoaparátu, kamer, mobilního telefonů či tabletů. Absolutní samozřejmostí je snad u všech dostupných televizoru FULL HD rozlišení a možnost konverze 2D do 3D. Velké množství 3D TV současně patří do skupiny SMART TV. Nejnovější modely také nabízejí možnost redukovat hloubku scény a přizpůsobit si tak hloubkový vjem svým potřebám a individuálnímu vnímání. Mimo televizorů lze k zobrazení 3D obsahu použít také 3D projektor a obyčejné projekční plátno. Výrobou těchto projektorů se zabývají zejména firmy BenQ, ACER či OPTIMA. Jako zástupce tohoto typu zařízení můžeme jmenovat například BenQ MX660P (cca 10000 Kč), Acer P5403 (15 000 Kč).
7.3 Ostatní 3d zařízení: Mobilní telefony, tablety Kromě vybavení primárně sloužící k natáčení či pozorování 3D obsahu, jako jsou kamery a televizory, se objevuje čím dál větší množství mobilních telefonů nebo tabletů nabízející 3D funkce. Své modely mobilních telefonů nabízejí především firmy HTC, LG, Samsung. Zpravidla se jedná o inteligentní mobilní telefony, které disponují autostereoskopickým displejem pro zobrazení 3D fotek (videa) a dvěma objektivy pro jejich pořízení.
8 Přehled dostupného softwaru Pokud se v oblasti 3D bavíme o programovém vybavení, tak se nejčastěji jedná o programy pro tvorbu hloubkové mapy, dále je možné nalézt programu pro přehrání 3D videa na PC, případně program pro rekonstrukci 3D modelu scény.
Z programů pro přehrávání videa patří mezi nejpoužívanější NVIDIA 3D Vision Player případně Stereoscopic player [6]. Oba programy umožňují přehrávání videa jak ve formátu side-by-side v jednom souboru, tak i použití levého a pravého snímků uložené v samostatných souborech. Pokud chceme přehrávané video zobrazovat na 3D TV, tak není potřeba žádný speciální software a postačí obyčejný video přehrávač (například VLC player). V oblasti rekonstrukce 3D modelu je jasným leaderem program PhotoModeler. PhotoModeler [6] je fotogrammetrický systém určený k bezdotykovému 2D a 3D měření a modelování. Program je založen na principech metody průsekové fotogrammetrie (viz kapitola 6). Umožňuje získat mnoho údajů ze snímků daného objektu během krátké doby. Kombinuje snímky a umístění bodů v trojrozměrném prostoru. Výsledkem je 3D model, který může být exportován do jiných grafických programů. Program mimo jiné poskytuje možnost provést vnitřní kalibraci kamery. Nejrozšířenější skupinou programů jsou programy umožňující výpočet hloubkové mapy. Mezi tyto programy patří například Agisoft Stereoscan [7], Stereotracer a Triaxes DeptGate [8]. Všechny tyto programy opět akceptují jako vstup stereo snímky v jednom společném souboru nebo jako dva oddělené soubory. Další možností je využití různých programů 3D nadšenců, kteří je dávají volně k dispozici. Většinou se jedná o aplikace řešicí dílčí problémy rekonstrukce prostorových souřadnic, tvorbu hloubkové mapy či algoritmy pro DIBR. Aplikace jsou napsané bud pomocí jazyka C# využívající knihovnu Open CV, nebo o různé skripty v prostředí MATLAB. Na pomyslném vrcholu stojí volně šiřitelný toolbox pro kalibraci kamery Camera Calibration Toolbox for Matlab [9].
9 Vybavení našeho ústavu Laboratoře videotechniky a televizní techniky ústavu UREL disponují velmi dobrým vybavením v oblasti 3D technologií, které umožňuje studentům i zaměstnancům zabývat se tímto tématem ve všech jeho aspektech. V oblasti snímání máme k dispozici dvě stereo kamery Panasonic HDC-SDT750 s nepřirozeně malou stereo bázi (cca 20 mm) a stereo fotoaparát FUJIFILM REAL 3D W3 s přirozenou stereo bází 75 mm. Mimo tyto dva stereo snímače je v laboratoři k dispozici také speciální stojan pro připevnění dvou nezávislých kamer. Stojan umožňuje změnu vzdálenosti kamer a změnu jejich vzájemného úhlu natočení, přitom ovšem zaručuje perfektní shodu horizontální polohy. Pomocí snímače lze tedy získat stereo snímky s různou stereobází, což umožňuje provádění testování vlivu stereobáze. Kromě vlastního snímání je možné získat další 3D materiál ze satelitního 3D vysílání. V oblasti zobrazovacích technologii disponuje laboratoř všemi stereoskopickými technologiemi, které jsou reprezentovány následujícími přístroji: • TVLG 32LW570S LCD s pasivním polarizačním systémem, • TV Panasonic TX-P42GTT20E plasma s aktivním systémem s časovým multiplexem, • Notebook Toshiba QOSMIO F750-10M, autostereoskopický display (zakoupený z FRVŠ projektu). • 3D projektor BenQ W710ST Short Throw (zakoupený z FRVŠ projektu). Pozorování 3D efektu je možné díky dostatečnému počtu aktivních a pasivních brýlí. Kromě přístrojového vybavení je v laboratoři možné využívat dvě aplikace s uživatelským rozhraním napsané v prostředí MATLAB, které slouží k tvorbě hloubkových map a rekonstrukci 3D modelu a mimo jiné nabízejí i možnost využít tvorbu virtuálního pohledu pomocí algoritmu DIBR. Kromě vlastních vytvořených programů byla také zakoupena licence na program StereoTracer, který lze použít pro tvorbu hloubkových map ze stereo snímků. Zejména při tvorbě bakalářských či diplomových prací může být užitečná přístroj Kinect, který získává hloubkovou mapu snímané scény pomocí infra zaříče, infra kamery a běžné kamery (viz. Kapitola 2.1.3)
10 Hodnocení kvality 3D obrazu Hodnocení kvality je v současné době velmi aktuální a důležité téma téměř v jakékoliv lidské činnosti. Když se omezíme jen na různé oblasti elektrotechniky, tak si uvědomíme, že potřebujeme posoudit a ohodnotit kvalitu filtrovacích obvodů, usměrňovačů, antény, rádiového přijímače nebo vysílače, kvalitu příjmu signálu, kvalitu podání lidského hlasu a tak dále a tak dále. Když zúžíme oblast zájmu na videotechniku, tak potřebujeme nějakým způsobem posoudit kvalitu obrazu, kvalitu reprodukce zvuku. Kvalitu vždy můžeme testovat dvěma různými způsoby, tím prvním je objektivní hodnocení, které používá určité definované měřitelné parametry. Takovým základním parametrem může být poměr signál šum u přijímaného signálu. Druhým způsobem posouzení kvality je subjektivní hodnocení. Subjektivní hodnocení je typické zejména pro oblast multimedií tedy posuzování zvuku a obrazu. Subjektivní hodnocení spočívá v provádění subjektivních testů s dostatečným počtem účastníků a následným statistickým zpracováním výsledků. Protože opakované provádění subjektivní testů je časově, organizačně i finančně náročné, tak je cílem nalézt po provedení testů korelaci subjektivních výsledků s nějakým objektivním parametrem. Objektivním parametrem můžeme být i určitá kombinace většího počtu vlastností. Oblast hodnocení 3D videa a 3D obrazu je relativně nová, přestože první doporučení zabývající se tímto tématem BT.1438 [10] bylo vydáno již v roce 2000. V současné době probíhá fáze hledání nějakých objektivních parametrů a probíhá velké množství různých testů a výzkumů. První otázkou je co vlastně u 3D videa posuzovat. První vlastností, kterou můžeme hodnotit, je kvalita obrazu. Definici kvality můžeme najít v doporučení ITU-T P.10/G.100 [11] a v technické zprávě [12]. Zpravidla jsou posuzována následující poškození obrazu • • • •
Přeslechy v obraze Šum Rozmazání obrazu Kvalita podání barev
Je zřejmě, že kromě „klasické“ kvality obrazu jak je definována u 2D videa je potřeba hodnotit nějakým způsobem 3D efekt. 3D efekt je možné posuzovat jako souběh několika pocitů pozorovatele • • •
míru pocitu pozorovatele, že je součástí scény, pocit realističnosti scény, intenzitu 3D vjemu.
Když jsme schopní definovat, co chceme posuzovat, je dále potřeba si definovat, které aspekty mohou mít na posuzované vlastnosti vliv. Tato otázka je u 3D videa patrně velmi složitá, protože zejména na 3D efekt má vliv velké množství vlivů, které lze v podstatě rozdělit do čtyř skupin • • • •
parametry a okolnosti snímání video sekvence, parametry video sekvence, parametry pozorování video sekvence, fyziologická specifika pozorovatele a jeho psychické rozpoložení.
Do první skupiny patří takové parametry jako osvětlení scény, velikost stereo báze a ohniskové vzdálenosti, přesné dodržení montáže kamer. Jako velmi důležité pro hodnocení kvality se jeví parametry video sekvence. Do této skupiny můžeme zařadit časovou a prostorovou dynamiku sekvence, stejně jako časovou i prostorovou dynamiku hloubky nebo
celkový rozsah hloubky scény (rozdíl mezi největší a nejmenší horizontální paralaxou). Mezi parametry zobrazování můžeme samozřejmě zařadit velikost zobrazovače a použitou technologii, osvětlení místnosti, pozici pozorovatele, tedy jeho vzdálenost od zobrazovače a pozorovací úhel. Zásadním problémem je skutečnost, že prostorový efekt je vytvářen v mozku a prostor vnímá každý trochu jinak. Z velkého množství článků na téma hodnocení kvality můžeme vybrat například články [13],[14] shrnující téma nových požadavků při přechodu od dvojrozměrného k trojrozměrnému obrazu. Články [15]-[20] se zabývají možnostmi objektivního posuzování kvality a to zejména pomocí hodnocení přeslechů či hloubkové mapy obrazu. Jak už bylo zmíněno, v současné době probíhá množství různých testů, které zkoumají hodnocení 3D videa a zkoumají, co vše je možné zanedbat a čím se naopak má smysl zabývat. Výzkumná činnost v této oblasti probíhá poměrně intenzivně i na našem ústavu. Poněkud jinou otázku je hodnocení kvality/přesnosti prostorových modelů a používaných metod. Na rozdíl od hodnocení 3D efektu video sekvence je tento problém exaktní a přesnost může být velmi snadno posouzena podle odchylky vypočítaných pozic od reálných pozic daného bodu scény.
11 Shrnutí Oblast 3D TV a prostorových modelů je v současné době velice aktuální a současně multidisciplinární téma, které je zajímavé nejen pro studenty, ale současně i pro vědce a zvídavou veřejnost. Všem těmto skupinám by měla sloužit tato elektronická podpora, která ovšem nemůže obsáhnout celou problematiku v detailu. V první kapitole byly definovány základní pojmy související s tématem 3D TV a rekonstrukcí modelů scény a byly popsány fundamentální základy fungování 3D TV. Následující kapitoly byly věnovány téměř výhradně 3D TV. Konkrétně byly popsány způsoby zisku 3D informace a to nejen 3D videa, ale i obecné informace o hloubce (vzdálenosti od pozorovatele). Dále se čtenáři seznámili se způsoby kodování a přenosu 3D videa, tato část je věnován výhradně 3D TV stejně jako následující kapitola, která poskytuje popis různých systému používaným k zobrazení 3D videa. Tedy systémy, které se liší ve způsobu diskriminace levého a pravého snímku. Protože nic není ideální, tak v kapitole 5 se seznámíme s různými problémy, které souvisí s 3D TV včetně možných zdravotních obtíží při jeho pozorování. V této kapitole jsme se mimo jiné dozvěděli, že tento problém vyplývá přímo z principu 3D videa a nebude lehké jej v budoucnu odstranit. Další kapitola výrazně vybočuje ze zbytku příručky a zabývá se více než ostatní matematickým pozadím rekonstrukce modelu, a zpracováním obrazu, které je potřebné provést pro rekonstrukci modelu či tvorbu hloubkové mapy. Následující kapitoly se snaží zmapovat současnou nabídku 3D zařízení a softwaru na našem trhu. Pomyslná třešnička na dortu je kapitola 10, která se věnuje hodnocení kvality 3D videa a hodnocení 3D efektu, což je velmi zajímavé a aktuální téma.
12 Užitečné odkazy [1]
Gali-3D [online]. [cit. 2013-06-31]. Dostupné z: cs.gali-3D.com
[2]
MA, Y, S Soatto, Kosecka S:S Sastry. An Invitation to 3-D Vision: From Images to Geometric Models. 1st. Springer, 2003, 526 s. Interdisciplinary Applied Mathematics, 26. ISBN 978-0-387-00893-6.
[3]
RODEHORST, V., KOSCHAN, A. Comparison and Evaluation of Feature Point Detectors. In Proc of the 5th Int Symposium TurkishGerman Joint Geodetic Days TGJGD 2006, L. Gründig and M. O. Altan, eds. (Citeseer), p. 1--8. Available at: http://linkinghub.elsevier.com/retrieve/pii/S0003267003001752. BAY, H., TUYTELAARS, T., GOOL, L. V. SURF: Speeded up robust features, Proc. of the 9th European Conf. Computer Vision, pp. 404-417, 2006, URL: BROWN, M.Z.; BURSCHKA, D.; HAGER, G.D. Advances in computational stereo, Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.25, no.8, pp. 993- 1008, Aug. 2003 doi: 10.1109/TPAMI.2003.1217603 URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1217603&isnumber=27375
[4] [5]
[6] [7] [8] [9] [10] [11] [12] [13]
[14]
[15]
[16]
WIMMER, P. 3DTV. Gali-3D [online]. [cit. 2013-06-31]. Dostupné z: http://www.3dtv.at/products/player/index_ehttp://www.photomodeler.com/ Agisoft. [online]. [cit. 2013-06-31]. Dostupné z: http://agisoft.ru/products/stereoscanhttp://triaxes.com/products/ Triaxes: 3D video & photo sforware. [online]. [cit. 2013-06-31]. Dostupné z: http://triaxes.com/ Camera Calibration Toolbox for Matlab [počítačový program].: Jean-Yves Bouguet, Last updated July 9th, 2010. URL: http://www.vision.caltech.edu/bouguetj/calib_doc/. ITU-R, “Subjective assessment of stereoscopic television pictures,” Rec. BT.1438, 2000. ITU-T Recommendation P.10/G.100 (incl. Amendment 2). Vocabulary for performance and quality of service. July 2006 (2008). ETSI TR 102 643 v. 1.0.1. Human factors (HF); Quality of Experience requirements for real-time communication services.2009. CHEN, W., FOURNIER J., BARKOWKY, M., LE CALLET, P., New Requirements of subjective video quality assessment methodologies for 3DTV, VPQM 2010, Jan 2010 vpqm_p14.pdf QUAN, H., LE CALLlET, P., BARKOWSKY, M.., Video quality assessment: From 2D to 3D — Challenges and future trends, Image Processing (ICIP), 2010 17th IEEE International Conference on , vol., no., pp.4025-4028, 26-29 Sept. 2010 doi: 10.1109/ICIP.2010.5650571 URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5650571&isnumber=564879 2 LIYUAN X., JUNYONG, Y., EBRAHIMI, T., PERKIS, A. A perceptual quality metric for stereoscopic crosstalk perception, Image Processing (ICIP), 2010 17th IEEE International Conference on , vol., no., pp.4033-4036, 26-29 Sept. 2010 doi: 10.1109/ICIP.2010.5649402 URL: htp://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5649402&isnumber=5648792 LIYUAN, X., JUNYONG, Y., EBRAHIMI, T., PERKIS, A., Estimating quality of experience on stereoscopic images, Intelligent Signal Processing and Communication
[17]
[18]
[19]
[20]
[21]
[22]
[23] [24] [25]
[26]
[27] [28]
Systems (ISPACS), 2010 International Symposium on , vol., no., pp.1-4, 6-8 Dec. 2010 doi: 10.1109/ISPACS.2010.5704599 URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5704599&isnumber=570459 0 LIYUAN, X., JUNYONG, Y., EBRAHIMI, T., PERKIS, A. An objective metric for assessing quality of experience on stereoscopic images, Multimedia Signal Processing (MMSP), 2010 IEEE International Workshop on , vol., no., pp.373-378, 4-6 Oct. 2010 doi: 10.1109/MMSP.2010.5662049 URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5662049&isnumber=566197 9 JOVELURO, P.; MALEKMOHAMANDI, H.; FERNANDO, W.A.C.; KONDOZ, A.M.; , Perceptual Video Quality Metric for 3D video quality assessment, 3DTVConference: The True Vision - Capture, Transmission and Display of 3D Video (3DTVCON), 2010 , vol., no., pp.1-4, 7-9 June 2010 doi: 10.1109/3DTV.2010.5506331 URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5506331&isnumber=550620 1 SARIKAN, S.S.; OLGUM, R.F.; AK|R, G.B.; , Quality evaluation of stereoscopic videos using depth map segmentation, Quality of Multimedia Experience (QoMEX), 2011 Third International Workshop on , vol., no., pp.67-71, 7-9 Sept. 2011 doi: 10.1109/QoMEX.2011.6065714 URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6065714&isnumber=606568 2 DONGHYUN, K., DONGBO, M., JUHYUN, O., SEONGGYU, J., KWANGHOON S., Depth map quality metric for three-dimensional video, Proc. SPIE 7237, 723719 (2009); http://dx.doi.org/10.1117/12.806898 Http://umt.wikispaces.com: Vývoj technických prostředků pro záznam a zpracování vide [online]. [cit. 2013-07-31]. Dostupné z: http://umt.wikispaces.com/V%C3%BDvoj+technick%C3%BDch+prost%C5%99edk%C 5%AF+z%C3%A1znamu+a+zpracov%C3%A1n%C3%AD+videa FLIEGEL, K. Advances in 3D imaging systems: Are you ready to buy a new 3D TV set? Proceedings of 20th International Conference Radioelektronika 2010. Vysoké učení technické v Brně. Brno, 2010. s. 3 - 9. ISBN: 978-1-4244-6318-3 ETSI TS 101 547 V1.1.1 (2012-01): "Digital Video Broadcasting (DVB); Frame Compatible Plano-stereoscopic 3DTV". ETSI EN 300 468 (V1.12.1): "Digital Video Broadcasting (DVB); Specification for Service Information (SI) in DVB systems". LÍŠKA, D. Novinky v televizním vysílání. In Sborník konference RADIOKOMUNIKACE 2011. 2011. Pardubice: UNIT, 2011. s. 30-42. ISBN: 978-80905345-0- 6. FREEDMAN, B. Distance-Varying Illumination and Imaging Techniques for Depth Mapping. United States Patent Application Publication US2010/0290698 A1. Nov. 18, 2010. Dostupné také z: http://www.patentlens.net/imageserver/getimage/US_2010_0290698_A1.pdf?id=232 22535&page=all Atlas anatomie [Svojtka & Vašut, Praha, 1996] [ISBN 80-7180-092-9] BANKS, M. S., AKELEY, K., HOFFMAN, D. M., GIRSHICK, A. R. Consequences of Incorrect Focus Cues in Stereo Displays. Journal of the SOCIETY FOR INFORMATION p.10- 14 DISPLAY, July 2008, 0362-0972/07/2008-010$1.00.