ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ Fakulta elektrotechnická katedra radioelektroniky
MODEL LIDSKÉHO ZRAKU PRO HODNOCENÍ KVALITY OBRAZU Diplomová práce
Vedoucí práce: Ing. Karel Roubík, Ph. D. Diplomant: Jan Vojtíšek
3
leden 2004
Model lidského zraku pro hodnocení kvality obrazu Abstrakt: Diplomová práce se zabývá fyziologií lidského vidění a návrhem modelů lidského vidění (HVS - Human Visual System). Dále je v práci zkoumán vliv rozptylu světla při průchodu oční zorničkou na obraz na sítnici. Byl vytvořen počítačový model HVS, který je využitelný v aplikacích pro hodnocení kvality obrazu. Pomocí modelu je možné simulovat hodnocení kvality digitálního obrazu lidským subjektem. Návrh modelu HVS vychází z Dalyho prediktoru viditelných diferencí. Jeho vstupem jsou dva obrázky a pozorovací podmínky. Výstupem modelu je mapa viditelných diferencí, která určuje pravděpodobnost, že HVS je schopen vnímat rozdíly mezi těmito obrázky. Model rovněž poskytuje výstup ve formě dvou měr kvality obrazu hodnotících kvalitu obrazu jedním číslem. Algoritmus prediktoru je implementován v prostředí MATLAB. Je rozdělen na několik bloků simulujících vlastnosti optické soustavy oka, fotoreceptorů, nervových buněk, citlivost HVS na prostorovou frekvenci a na orientaci v obraze a maskovací efekt. Bylo provedeno srovnání obou měr kvality obrazu, které jsou výstupem modelu, se subjektivními testy. Srovnání bylo provedeno ve 125 případech. Pro test bylo použito pět obrázků, pět různých metod komprese a pět kompresních poměrů. Výsledky modelu korelují se subjektivními testy, které byly změřeny na skupině čtrnácti pozorovatelů. Model vykazuje dobré výsledky v predikci různých druhů poškození a funguje i pro různé typy obrázků. Mapa viditelných diferencí jednoznačně ukazuje místa predikce poškození. Model vyžaduje změnu nastavení některých parametrů při změně typu poškození nebo typu obrázku. Problémem prediktoru je jeho výpočetní náročnost. Bylo zjištěno, že rozptyl světla na zorničce má za běžných pozorovacích podmínek zanedbatelný vliv na obraz na sítnici.
Human Visual System Model for Image Quality Assessment Abstract: Human physiology and HVS (Human Visual System) model's design are discussed in the final thesis. The influence of scattering of light by a cornea on retinal image is also studied. A HVS model for image quality assessment applications has been designed. The model can simulate subjective image quality assessment. The model design is based on the Dalys's visible difference predictor. The inputs of the model are two digital images and viewing conditions. The output of the model is a visible difference map. This map determines the probability of detection of differences between two input images by the HVS. Another outputs of the model are two image quality metrics which evaluate image quality by single numbers. The model's algorithm has been written in MATLAB. It is divided into several stages, which simulate the eye optics, photoreceptors, neural cells, the HVS frequency and orientation sensitivity and masking effect. A comparison between the two image quality metrics and subjective image quality assessment was done. Five different images, five compression methods and five compression ratios were considered for the comparison. The test was performed on 125 different cases. The results obtained by model well correlate with subjective image quality assessment, which was performed on 14 observers. The model performs good results in prediction of wide variety of distortions and works well for different types of images. The visible difference map indicates regions of distortion. The models' parameters need to be changed if distortion type or image type is changed. Computational difficulty of the algorithm is problematic. The influence of light scattering by a cornea on retinal image need not to be considered in standard viewing conditions. 4
Poděkování V tomto bodě bych chtěl poděkovat především vedoucímu diplomové práce Ing. Karlu Roubíkovi, Ph. D. za odborné vedení při práci a za konzultace problematických částí modelu. Dále Ing. Jaroslavu Duškovi za poskytnutí dat ze subjektivních testů, které byly provedeny na katedře radioelektroniky FEL ČVUT. Rovněž bych rád poděkoval své mamince, která mi byla oporou v celé době studia a pomohla mi při finální úpravě diplomové práce.
Prohlášení Prohlašuji, že jsem diplomovou práci „Model lidského zraku pro hodnocení kvality obrazu“ vypracoval samostatně a použil k tomu úplný výčet citací použitých pramenů, které uvádím v seznamu přiloženém k diplomové práci. Nemám námitky proti půjčování, zveřejnění a dalšímu využití práce, pokud s tím bude souhlasit katedra radioelektroniky.
V Praze 15. ledna 2004
Jan Vojtíšek
5
Obsah ABECEDNÍ SEZNAM ZKRATEK A SYMBOLŮ..........................................8 SEZNAM OBRÁZKŮ A TABULEK ................................................................9 1 ÚVOD...............................................................................................................11 2 LIDSKÉ VIDĚNÍ A KVALITA OBRAZU..................................................12 2.1 FYZIOLOGIE LIDSKÉHO ZRAKU ........................................................................12 2.1.1 Optická část oka ...................................................................................................12 2.1.2 Sítnice ....................................................................................................................14 2.1.3 Zraková dráha ......................................................................................................16 2.2 KONTRAST V OBRAZE A JEHO VNÍMÁNÍ ........................................................18 2.2.1 Weberův kontrast.................................................................................................18 2.2.2 Michelsonův kontrast...........................................................................................18 2.2.3 Power-Law kontrast.............................................................................................19 2.2.4 Peliho definice kontrastu .....................................................................................20 2.2.5 Globální kontrast a lokální kontrast ..................................................................20 2.2.6 Citlivost HVS na prostorovou frekvenci ............................................................20 2.2.7 Nadprahový kontrast ...........................................................................................21 2.3 MASKOVACÍ EFEKT................................................................................................22 2.3.1 Kontrastní maskování..........................................................................................22 2.3.2 Aktivitní maskování a sumační efekt .................................................................24 2.4 MÍRA KVALITY OBRAZU.......................................................................................25 2.4.1 Střední kvadratická odchylka.............................................................................25 2.4.2 PSNR .....................................................................................................................25 2.4.3 Míra kvality obrazu založená na HVS ...............................................................26 2.5 SUBJEKTIVNÍ TESTY KVALITY OBRAZU.........................................................27 2.5.1 Metoda DSCQS ....................................................................................................27 2.6 MODELY HVS POPSANÉ V LITERATUŘE .........................................................28 2.6.1 Sarnoffův vizuálně diskriminační model ...........................................................28 2.6.2 Model použitý pro vyhledávání v databázích....................................................30 2.6.3 Model HVS vyvinutý pro subjektivní hodnocení kvality obrazu ....................32 2.6.4 Model HVS používající waveletovou dekompozici ...........................................33
3 MATEMATICKÝ MODEL VIDĚNÍ...........................................................35 3.1 MODEL ROZPTYLU NA OČNÍ ZORNIČCE ........................................................35 3.1.1 Závislost velikosti zorničky na okolním jasu .....................................................35 3.1.2 Bodová rozptylová funkce oka............................................................................36 3.1.3 Vytvoření konvolučního filtru.............................................................................38 3.1.4 Hodnocení použitelnosti modelu rozptylu na zorničce .....................................38 3.1.5 Srovnání simulace rozptylu světla na zorničce a komprese .............................42 3.2 PREDIKTOR VIDITELNÝCH DIFERENCÍ ..........................................................43 3.2.1 Amplitudová nelineární transformace ...............................................................44 3.2.2 Citlivost HVS na prostorovou frekvenci ............................................................46 6
3.2.3 Detekční mechanizmus ........................................................................................51 3.2.4 Prostorově-orientační rozklad obrazu ...............................................................51 3.2.5 Modelování maskovacího efektu.........................................................................59 3.2.6 Psychometrická funkce........................................................................................61 3.2.7 Sloučení pravděpodobností z jednotlivých frekvenčně-orientačních kanálů .63 3.2.8 Metody vizualizace mapy viditelných diferencí ................................................63 3.2.9 Určení míry kvality obrazu z mapy viditelných diferencí ................................67 3.2.10 Nastavení parametrů prediktoru viditelných diferencí..................................67 3.2.11 Výpočetní náročnost algoritmu VDP................................................................70 3.2.12 Hodnocení výsledků VDP a porovnání s výsledky subjektivních testů.........71 3.3 GRAFICKÉ UŽIVATELSKÉ ROZHRANÍ MODELU ..........................................78
4 ZÁVĚR ............................................................................................................80 5 KLÍČOVÁ SLOVA A REŠERŠNÍ ZDROJE ..............................................81 6 KOMENTOVANÉ REFERENCE................................................................82 PŘÍLOHY: Příloha A - Srovnání měr kvality obrazu a subjektivního hodnocení Příloha B - Struktura přiloženého CD ROM
7
Abecední seznam zkratek a symbolů 1D, 2D, 3D B BMP c C CCD CGL CIE CORTEX CRT CSF CT D DCT deg DOM DP DSCQS FAN FFT GUI HVS I IFFT IQM JND JPEG L Lab LASER LBC LCD MESA MSE MTF obr. pix prav. PSF rad RAM RGB RMSE SNR TV VDP vel. XYZ
Jednorozměrný, dvojrozměrný, trojrozměrný Byte (8 bitů) Formát obrázku Windows Bitmap Cykly (Cycles) Kontrast (Contrast) Charge Coupled Device Corpus geniculatum laterale - část zrakové dráhy Mezinárodní komise pro osvětlení (Commision Internationale de l'Éclargé) Frekvenčně-orientační filtr původně navržený Watsonem Typ monitoru s elektronkovou obrazovkou (Cathode Ray Tube) Funkce citlivosti HVS na kontrast (Contrast Sensitivity Function) Kontrastový práh (Contrast Treshold) Dioptrie Diskrétní kosinová transformace (Discrete Cosine Transform) Stupeň zorného úhlu (degree) Typ prostorově-frekvenčního filtru (Difference of MESA) Filtr typu dolní propust Metoda subjektivních testů (Double-Stimulus Continuous Quality-Scale) Typ orientačně citlivého filtru Rychlá Fourierova transformace (Fast Fourier Transform) Grafické uživatelské rozhraní (Grafic User Interface) Systém lidského vidění (Human Visual System) Intenzita (bezrozměrné číslo reprezentující hodnotu obrázku v 1 bodě) Inverzní rychlá Fourierova transformace (Inverse FFT) Míra kvality obrazu (Image quality metric) Mapa viditelných rozdílů (Just Noticeable difference) Nejpoužívanější kompresní formát (Joint Picture Experts Group) Jas (Luminance) Barevný prostor CIE L*a*b Light Amplification by Stimulated Emision of Radiation Pásmově-omezený kontrast (Local Band-limited Contrast) Typ monitoru (Liquid Crystal Display) Filtr typu dolní propust s určitou zlomovou frekvencí a šířkou přech. pásma Střední kvadratická odchylka (Mean Square Error) Modulační přenosová funkce (Modulation Tranfer Function) Obrázek Pixel - bod digitálního obrazu (Picture Element) Praděpodobnost Bodová rozptylová funkce (Point Spread Function) Jednotka velikosti úhlu v radiánech Paměť s náhodným přístupem (Random Access Memory) Základní barevný prostor (Red Grean Blue) Druhá odmocnina z MSE (Root Mean Square Error) Poměr signál/šum (Peak Signal to Noise Ratio) Televizní Prediktor viditelných diferencí (Visible Difference Predictor) Velikost Barevný prostor XYZ 8
Seznam obrázků a tabulek Obr. 2.1.1.1: Schéma komorového oka (pohled ze strany). .....................................................11 Obr. 2.1.2.1 Struktura sítnice....................................................................................................14 Obr. 2.1.2.2: Rozložení fotoreceptorů na sítnici.......................................................................15 Obr. 2.1.2.3: Citlivost receptorů sítnice na vlnovou délku.......................................................16 Obr. 2.1.3.1: Schéma zrakové dráhy u člověka ........................................................................17 Obr. 2.2.2.1: Gaborův testovací vzor........................................................................................19 Obr. 2.2.6.1: Přibližně změřená křivka CSF.............................................................................20 Obr. 2.3.1.1: Kontrastní maskování pro signály s různou frekvencí a orientací ......................21 Obr. 2.3.1.2: Kontrastní maskování v logaritmických souřadnicích ........................................23 Obr. 2.3.1.3: Vliv efektu učení na maskování ..........................................................................24 Obr. 2.4.3.1: Charakteristika filtru spektrální distorze .............................................................26 Obr. 2.6.1.1: Struktura Sarnoffova modelu ..............................................................................28 Obr. 2.6.2.1: Struktura modelu pro vyhledávání v obrazových databázích .............................30 Obr.2.6.2.2: Vícekanálový model HVS...................................................................................30 Obr. 2.6.3.1: Schéma modelu HVS ..........................................................................................33 Obr. 2.6.4.1: Blokové schéma systému pro hodnocení kvality obrazu. ...................................34 Obr. 3.1.1.1: Závislost průměru oční zornice a na jasu pozadí. ...............................................35 Obr.3.1.2.1: Graf PSF podle analytického popisu....................................................................36 Obr. 3.1.2.2: PSF podle aproximace exponenciálním polynomem..........................................37 Obr. 3.1.4.1: 3D Graf konvolučního filtru pro případ 1. ..........................................................39 Obr. 3.1.4.2: Test modelu PSF pro nekomprimovaný obrázek Leny. Parametry modelu odpovídají případu 1.........................................................................................................40 Obr. 3.1.4.3: 3D graf konvolučního filtru pro případ 2. ...........................................................40 Obr. 3.1.4.4: Test modelu PSF na nekomprimovaném obrázku Leny. Parametry modelu odpovídají případu 2.........................................................................................................40 Obr. 3.2.1: Blokové schéma prediktoru viditelných diferencí..................................................43 Obr. 3.2.1.1: Graf nelineární transformace jasu v logaritmickém měřítku osy jasu L. ............45 Obr. 3.2.1.2: Nelineární jasová transformace ...........................................................................46 Obr. 3.2.2.1: Parametrizovaná CSF podle Dalyho ...................................................................47 Obr. 3.2.2.2: Graf CSF podle Mannose a Sarkisona použitý v modelu HVS ..........................48 Obr. 3.2.2.3: Ověření modelu CSF...........................................................................................49 Obr. 3.2.2.4: Ověření modelu CSF ve frekvenční oblasti ........................................................49 Obr. 3.2.3.1: Schéma detekčního mechanizmu ........................................................................50 Obr. 3.2.4.1: Kortexový filtr.....................................................................................................52 Obr. 3.2.4.2: Parametry MESA fittru .......................................................................................53 Obr. 3.2.4.3: Frekvenční charakteristika hierarchie prostorově-frekvenčních filtrů ................55 Obr. 3.2.4.4: Frekvenční charakteristika FAN filtrů ................................................................56 Obr. 3.2.4.5: Testovací obrázek hvězdičky ..............................................................................57 Obr. 3.2.4.6: Obrázky v 1. a 3. sloupci - příklady šedotónových obrázků kortexových filtrů ve frekvenční rovině Obrázky ve 2. a 4. sloupci jsou výstupy z jednotlivých kortexových filtrů pro obrázek hvězdičky.............................................................................................57 Obr. 3.2.4.7: Kortexové filtry ve frekvenční doméně...............................................................58 Obr. 3.2.4.8: Obrázek vzniklý složením 31 kortexových kanálů pro obrázek hvězdičky.......59 Obr. 3.2.5.1: Logaritmický graf maskování v kortexových pásmech ......................................61 Obr. 3.2.6.1: Psychometrická funkce pro hodnoty α = 1 a β = 4. ............................................62 Obr. 3.2.8.1: Originální šedotónový obrázek Zerga .................................................................64 Obr. 3.2.8.2: Obrázek Zerga poškozený rozmazáním pomocí filtru typu Gaussián. ...............64
9
Obr. 3.2.8.3 Rozdílový obrázek, který vznikne odečtením originálního obrázku Zerga od poškozeného obrázku .......................................................................................................65 Obr. 3.2.8.4: Šedotónová mapa viditelných diferencí s intenzitami šedi od 0 do 255 pro poškození rozmazáním. ....................................................................................................65 Obr. 3.2.8.5: Barevná mapa diferencí pro obrázek Zerga a poškození rozmazáním................66 Obr. 3.2.10.1: Vlevo originální obrázek "Reliéf". Vpravo obrázek poškozený gaussovským šumem...............................................................................................................................68 Obr. 3.2.10.2: Vlevo rozdílový obrázek vzniklý odečtením originálního obrázku reliéfu od obrázku poškozeného aditivním šumem. Vpravo šedotónová mapa viditelných diferencí pro nastavení parametru α = -2.........................................................................................68 Obr. 3.2.10.3: Vlevo originální obrázek hvězdičky. Vpravo rozmazaný obrázek pomocí gaussovského filtru. ..........................................................................................................69 Obr. 3.2.10.4: Vliv parametru ε na mapu viditelných diferencí ...............................................69 Obr. 3.2.12.1: Nekomprimovaný obrázek s názvem "Staromák".............................................73 Obr. 3.2.12.2: Obrázek "Staromák" po kompresi JPEG...........................................................73 Obr. 3.2.12.3: Rozdílový obrázek vzniklý odečtením komprimovaného obrázku "Staromák" od nekomprimovaného obrázku. ......................................................................................74 Obr. 3.2.12.4: Šedotónová mapa viditelných diferencí. ...........................................................74 Obr. 3.2.12.5: Barevná mapa viditelných diferencí pro obrázek "Staromák" a kompresi JPEG s kompresním poměrem 37,7............................................................................................75 Obr. 3.2.12.6: Příklad srovnání výsledků subjektivních testů a měr IQM1 A IQM2 pro obrázek "Staromák" a kompresní metodu JPEG............................................................................75 Obr. 3.2.12.7: Srovnání subjektivního hodnocení jednotlivých metod komprese pro obrázek "Staromák"........................................................................................................................76 Obr. 3.2.12.8: Výpočet metriky IQM1 pro různé druhy komprese u obrázku "Staromák"......76 Obr. 3.2.12.9: IQM2 Metrika pro obrázek "Staromák" a různé druhy komprese.....................77 Obr. 3.3.1: Grafické rozhraní modelu HVS ...........................................................................777 Tab. 3.1.2.1: Airyho disk pro rozptyl na kruhové zorničce......................................................37 Tab. 3.1.5.1: Porovnání MSE pro nekomprimovaný obrázek Leny a pro obrázek s kompresí JPEG na 1/176 původní velikosti. Výpočet MSE byl proveden pro čtyři různé vzdálenosti pozorovatele od monitoru.................................................................................................41 Tab. 3.1.5.2: Porovnání MSE pro obrázek bez komprese a s kompresí JPEG. Výpočet MSE byl proveden pro čtyři různé jasy pozadí..........................................................................41 Tab. 3.2.11.1: Přibližný čas výpočtu VDP a jednotlivých jeho částí .......................................70
10
1 Úvod V posledních letech se do popředí vědy dostává výzkum a aplikace digitálního zpracování obrazu a videa. Disciplína subjektivního hodnocení kvality obrazu se snaží zjistit, kdy ještě člověk vnímá rozdíly mezi záměrně pozměněným obrazem a jeho originálem a kdy už jsou jmenované rozdíly pod hranicí rozlišitelnosti. K tomu je obvykle využit model lidského vidění HVS (Human Visual System). Tato diplomová práce je součástí projektu subjektivního hodnocení kvality obrazu, jímž se v současné době zabývá katedra radioelektroniky FEL ČVUT. Vytvořený model HVS bude sloužit pro technické a lékařské aplikace, které používají zpracování obrazu (komprese, hledání artefaktů v obrazech aj.). Model simuluje citlivost HVS na poškození šedotónového digitálního obrazu. Důležité je, aby model fungoval pro různé formy poškození i pro různé typy obrazu. Jeho výsledky by měly korelovat se subjektivními testy. Testy na ověření funkčnosti modelu musí být spolehlivě navrženy, aby jejich výsledky měly vysokou vypovídající hodnotu. Implementace počítačového modelu v prostředí MATLAB s použitím Image Processing Toolboxu umožňuje jednoduchý návrh a testování modelu. První část diplomové práce nazvaná "Lidské vidění a kvalita obrazu" se zabývá rešerší literatury a rozborem metod spojených s tvorbou modelu HVS. Druhá část nazvaná "Matematický model vidění" je popisem návrhu modelu HVS, jeho implementace v prostředí MATLAB a hodnocením výsledků modelu.
11
2 Lidské vidě ní a kvalita obrazu Tato kapitola je věnována aspektům lidského vidění a metodám zpracování digitálního obrazu, které souvisejí s modely lidského vidění a se subjektivním posuzováním kvality obrazu. Rovněž je zde uvedeno několik modelů HVS popsaných v literatuře.
2.1 Fyziologie lid ského zraku Fyziologii lidského vidění se věnuje řada publikací a studií a to jak z lékařského hlediska, tak z hlediska počítačového vidění (např. [5]). V diplomové práci je tato kapitola zmíněna informativně a přehledově se zaměřením na počítačové vidění a tvorbu modelu HVS.
2.1.1 Optická část oka Komorové oko (obr. 2.1.1.1) pracuje podobně jako kamera. Světlo vstupuje skrz rohovku a čočku, což u kamery představuje objektiv. Změnu clony zprostředkovává oční zornička. Světlo dopadá na fotocitlivou vrstvu sítnice, kde jsou stimulovány fotoreceptory (buňky citlivé na světlo). To v ekvivalentu kamery představuje fotocitlivou vrstvu (film nebo matice CCD). Dále je věnována pozornost jednotlivým částem oka.
Obr. 2.1.1.1: Schéma komorového oka (pohled ze strany). Obrázek převzat ze [7] a upraven. Bělima (sclera) Bělima je tuhá vazivová tkáň, která tvoří vnější stěnu oční koule a udržuje tvar oka. Do bělimy se upíná 6 okohybných svalů. Její přední průhlednou část tvoří rohovka. Střední část oka tvoří cévnatka, která přechází v přední části v řasnaté (ciliární) tělísko. Sval řasnatého tělíska je upevněn pomocí jemných vazivových vláken na čočku a svým stahem mění její tvar.
12
Rohovka (cornea) Chrání oko zvenčí, je tvořena asi z 15 % vysoce transparentním kolagenem. Navazuje na bělimu. Tloušťka rohovky je přibližně 0,5 - 0,6 mm v jejím středu, průměrný index lomu je 1,376 [21]. S optickou mohutností 43 D je nejvíce zodpovědná za refraktivní vlastnosti oka [9]. Struktura rohovky je heterogenní, dokonce se liší i pacient od pacienta. Rohovka nejvíce přispívá k aberacím oka. Snížení poloměru křivosti rohovky směrem k jejím okrajům snižuje sférickou aberaci [21]. Rohovku můžeme rozdělit na pět paralelních vrstev. To jsou v pořadí zevně dovnitř: epitel, membrána, stroma, Descemetova membrána a endotel. Nejdůležitější pro optické vlastnosti oka je stroma, která zabírá asi 9/10 celkové tloušťky. Stabilita stromy určuje také zakřivení rohovky [4]. Stroma obsahuje několik stovek lamel - desek s paralelní orientací kolagenových vláken. Lamely jsou obklopeny pevnými částečkami proteoglykanů (2% stromy), zbytek stromy tvoří bílkoviny (4 %), sůl (1 %) a voda (78 %). K největšímu rozptylu světla dochází právě na lamelách ve stromě. Sousední vrstvy lamel jsou vždy oproti sobě otočeny o určitý úhel. Celá struktura se podobá kolagenovému filmu. Matematický popis rozptylu světla na rohovce je nastíněn v [4], je však příliš složitý a pro počítačový model nepoužitelný. Oftalmologové v současnosti léčí některé oční vady tak, že upravují tvar rohovky pomocí LASERu. Duhovka (iris) Duhovka je přední zbarvená část cévnatky. Typ a rozložení barviva v duhovce je dán geneticky a určuje barvu oka. Zornička (pupila) Zornička je okrouhlý otvor v duhovce a nachází se mezi rohovkou a čočkou (viz obr. 2.1.1.1). Plní funkci clony a omezuje tak množství světla dopadajícího na sítnici. Dále mění numerickou aperturu zobrazovací soustavy oka. Vzhledem k aberacím nevede největší průměr otevření zorničky k nejlepší kvalitě obrazu na sítnici. Průměr otevření zorničky pro nejostřejší vidění je mezi 2 a 3 mm [21]. Změnou velikosti zorničky se nemění zorné pole oka. Čočka (lens cristallina) Oční čočka je umístěna bezprostředně za duhovkou (viz obr. 2.1.1.1). Po rohovce je druhou refraktivně nejdůležitější součástí optiky oka a její optická mohutnost se pohybuje v rozmezí 20 - 30 D. Čočka je tuhé bikonvexní tělísko tvořené pružným pouzdrem a vyplněné vláknitou tkání. U člověka není index lomu materiálu čočky ve všech místech stejný. Ve středu čočky dosahuje hodnoty okolo 1,415, ke krajům klesá na hodnotu okolo 1,37 [21]. To dává čočce lepší optické vlastnosti (menší odrazivost a rozptyl světla). Stah svalu řasnatého tělíska způsobuje zmenšování poloměru křivosti čočky (vyklenutí čočky) a zaostření na blízké objekty. Naopak relaxace vede ke zploštění čočky a k zaostření na objekty v dálce. Tento proces je nazýván akomodací oka. Čočka s věkem ztrácí svou pružnost a možnost měnit svůj tvar. Komorová tekutina (humor aquosus) Je to čirá tekutina vyplňující přední a zadní oční komoru. Přední oční komora je vymezena zadní stěnou rohovky a přední stěnou duhovky a čočky. Zadní oční komora sahá od zadní stěny čočky až po sklivec. V obou komorách cirkuluje asi 0,3 ml tekutiny [21].
13
Sklivec (humor vitreous) Sklivec je gelovitá hmota vyplňující vnitřek oka mezi čočkou a sítnicí, který je tvořen z 99% vodou a dále makromolekulárními složkami (kolageny, rozpustnými bílkovinami a kyselinou močovou). Z kolagenů jsou zde zastoupeny fibroidy o velikosti 2.10-8 až 2,5.10-8 m. Nacházejí se především na okraji sklivce. Tento průhledný viskoelastický gel udržuje tvar oka a přibližně konstantní zakřivení sítnice [10]. Fenomén, který ještě není vědecky objasněn, je řídnutí sklivce s věkem. Dosud nebyla vyvinuta žádná neinvazivní metoda na měření kvantitativních vlastností sklivce. Z optických metod se sklivcem zabývá optická rheologie. Sklivec je modelován jako prostor vyplněný gelem, který obklopuje kulová slupka. Pohyb oční bulvy způsobuje deformaci gelu a posunutí optických bodů ve sklivci [10].
2.1.2 Sítnice Sítnice (retina) je tenká vrstva buněk, která pokrývá zadní stranu oční koule za sklivcem (viz obr. 2.1.1.1). V zásadě můžeme rozdělit sítnici do tří vrstev: vrstva nervových buněk, vrstva fotoreceptorů a pigmentová vrstva (viz obr. 2.1.2.1). Světlo prostupuje jmenované vrstvy sítnice v uvedeném pořadí. Vrstva nervových buněk je pro světlo propustná. Pigmentová vrstva absorbuje světlo, minimalizuje jeho odrazy a vyživuje buňky fotoreceptorů.
Obr. 2.1.2.1 Struktura sítnice. Obrázek převzat ze [7]. Fotoreceptory Světlo prochází skrz sítnici až k fotoreceptorům, které leží ve vnější vrstvě sítnice (viz obr. 2.1.2.1). Fotoreceptory jsou světločivé buňky, které tvoří nejdůležitější část sítnice. Existují dva druhy fotoreceptorů. První z nich jsou čípky, které jsou zodpovědné za barevné a fotopické (za světla) vidění. Jejich nejvyšší koncentrace je v oblasti žluté skvrny (macula 14
lutea). Fovea je nazývána ta částí žluté skvrny, kam je zaostřen svazek paprsků (viz obr. 2.1.1.1). Zabírá asi dva stupně zorného úhlu [2]. Koncentrace čípků na sítnici mimo oblast žluté skvrny prudce klesá. Tyčinky jsou zodpovědné za vnímání světla a za vidění převážně za šera (skotopické vidění). Jejich nejvyšší koncentrace je asi 15 stupňů od žluté skvrny (viz obr. 2.1.2.2).
Obr. 2.1.2.2: Rozložení fotoreceptorů na sítnici. Převzato z [2]. Tyčinky a čípky mají podobnou buněčnou strukturu a reagují na světlo fotochemickou reakcí. Tyčinky obsahují barvivo zvané rhodopsin, které je nejvíce citlivé na světlo o vlnové délce 505 nm [7]. Čípky podle svého typu obsahují tři různá barviva citlivá na určitou barvu světla. Mají maximální citlivost na vlnových délkách 435, 535 a 570 nm, které leží v modré, zelené, resp. červené oblasti spektra [7]. V literatuře jsou někdy tyto tři druhy čípků označovány jako S (short-wavelength) M (middle-) a L (long-wavelength) čípky. Tento mechanizmus nám umožňuje barevné vidění. Závislost citlivosti receptorů na vlnové délce je uvedena na obr. 2.1.2.3. Přesný tvar křivek citlivosti fotoreceptorů na světlo je předmětem vědeckého výzkumu. Lidský zrak je schopen se adaptovat na velký rozsah okolních jasů. To je dáno jednak průměrem otevření zorničky a jednak změnou fotochemické koncentrace pigmentů v receptorech. Zatímco adaptace na světlo probíhá velmi rychle, adaptace na tmu je proces delší, který vyžaduje především zvýšení koncentrace rhodopsinu v tyčinkách [7].
15
Obr. 2.1.2.3: Citlivost receptorů sítnice na vlnovou délku. Převzato ze [7]. Ostatní nervové buňky sítnice Vrstva nervových buněk obsahuje celkem 4 druhy buněk: horizontální buňky, bipolární buňky, amakrinní a gangliové buňky (viz obr. 2.1.2.2). Receptory tvoří synapse jak s horizontálními tak s bipolárními buňkami. Signál z bipolárních buněk je veden přes synapsi do amakrinních i do gangliových buněk. Některé gangliové buňky komunikují přímo s bipolárními buňkami, jiné přes amakrinní buňky [5]. Fotoreceptory reagují na světlo nervovými vzruchy, které se šíří přes mnohé synapse ve vrstvě nervových buněk až ke gangliovým buňkám. Axony gangliových buněk se spojují do optického nervu, který vychází současně s cévním zásobením ze sítnice v části nazvané slepá skvrna. V oblasti slepé skvrny se nenacházejí žádné fotoreceptory. Optický nerv vede informaci ze sítnice dále do mozku. Lidská sítnice obsahuje asi 6 milionů čípků a 120 milionů tyčinek [2]. Optický nerv obsahuje přibližně milion vláken. Informace z fotoreceptorů před přenosem informace do mozku musí být komprimována v poměru přibližně 130:1, což zprostředkovává právě vrstva nervových buněk [7].
2.1.3 Zraková dráha Nervová dráha vedoucí od sítnice do zrakové kůry mozkové je důležitou součástí vidění obratlovců a člověka. Schématicky je znázorněna na obr. 2.1.3.1. Nervové impulzy gangliových buněk sítnice nesou důležitou prostorovou a časovou informaci o okolním světě. Zraková dráha začíná zrakovým nervem, který vystupuje ze sítnice v oblasti slepé skvrny a dále prochází očnicí do dutiny lebeční. Zorné pole oka můžeme rozdělit na dvě částí: nasální a temporální, jak je vidět na obr. 2.1.3.1. Tomu také odpovídá příslušná polovina sítnice, která nese informaci o zorném poli (levá polovina sítnice zpracovává informace z pravé části zorného pole a naopak). V oblasti nazývané chiasma opticum se kříží vlákna 16
zrakového nervu nesoucí informaci z nasálních částí sitnice u obou očí. Naopak vlákna nesoucí informaci z temporálních oblastí obou sítnic pokračují dál ve svých polovinách mozku. Tento mechanizmus zprostředkovává to, že vjemy z levé části zorného pole obou očí jsou promítány na pravé corpus geniculatum laterale (CGL) (v obrázku 2.1.3.1 vyznačeno bílou barvou). Naopak vjemy z levé části zorného pole jsou promítány na pravé CGL (v obrázku označeno šedou barvou).
Obr. 2.1.3.1: Schéma zrakové dráhy u člověka. Použit obrázek z [2]. Nervová vlákna za chiasmou opticum jsou označována v literatuře jako zrakový trakt. Asi 20% vláken zrakového traktu směřuje do coliculus superior. Coliculus superior je zodpovědný hlavně za ovládání očních pohybů. Malé množství vláken řídí akomodaci oka a otevření zorničky [2]. Naprostá většina nervových vláken ale končí v tělískách CGL, které jsou součástí thalamu (viz obr. 2.1.3.1). Thalamus je součástí mezimozku. Corpus geniculatum laterale Ve dvou tělíscích zvaných corpus geniculatum laterale (CGL) tvoří axony gangliových buněk synapse s buňkami těchto tělísek. CGL je složeno z šesti vrstev buněk. Tři vrstvy z každého tělíska přijímají informaci z levého a tři z pravého oka [2, 7]. První dvě vrstvy jsou tvořeny velkými buňkami a jsou nazývány magnocelulárními vrstvami. Tyto buňky zpracovávají signál z gangliových buněk, které nesou informaci o jasu scény [7]. Přenos informace zde probíhá velmi rychle. Zbylé čtyři vrstvy nazýváme parvocelulárními vrstvami. Přenos vzruchů je zde mnohem pomalejší než u magnocelulárních buněk. Parvocelulární vrstvy jsou zodpovědné za barevné vidění [2]. V literatuře je přirovnávána funkce CGL k relé, které spojuje vedení ze sítnice se zrakovou kůrou mozkovou. Předpokládá se, že existují i zpětnovazební mechanizmy, které realizuje CGL. Ty jsou dosud předmětem vědeckého výzkumu [7]. 17
Zraková kůra mozková Tato část mozku je zodpovědná za nejsložitější zpracování obrazu zachyceném sítnicí. Obvykle se rozděluje na primární a sekundární zrakovou kůru. Primární zraková kůra je nazývána v anglicky psané literatuře jako oblast V1 nebo podle charakteristického žlábkování tkáně "striate cortex". Informace ze sítnice jdou přes CGL do primární zrakové kůry. Odtud dále do sekundární zrakové kůry, která obklopuje primární zrakovou kůru. Primární zraková kůra obsahuje přibližně 200 milionů neuronů. V primární zrakové kůře můžeme nalézt centra, která jsou zodpovědna za: nalezení hran v obraze, citlivost na prostorovou frekvenci v obraze, citlivost na orientaci v obraze, citlivost na časové změny v obraze, barevné vidění, stereovidění a kombinace všech těchto jevů [7]. Tato část mozku je tak složitá, že k vysvětlení k příčin vidění se obvykle nepoužívá modelů, které vycházejí z fyziologického uspořádání mozku, ale spíše z psycho-fyzikálních pokusů.
2.2 Kontrast v ob raze a jeho vnímání Schopnost oka detekovat světlo je závislá na zachyceném světelném kvantu a na jasu pozadí. Lidské oko adaptované na tmu může vnímat relativně malé světelné kvantum, ale nemůže zachytit stejné světelné kvantum, pokud je okolní jas veliký. Proto je vnímání jasu HVS jak funkcí jasu pozadí, tak i rozdílu jasu světelného podnětu a pozadí. Existuje několik definic kontrastu, kterým je věnována pozornost v této kapitole. Nejobtížnější je výpočet kontrastu u komplexních obrázků [16].
2.2.1 Weberův kontra st Pro podnět s jasem Li je zavedena Weberova definice kontrastu jako: CW =
∆L Li − L = ≈ log( Li ) − log( L) pro C W << 1 , L L
Rov. 2.2.1.1
kde ∆L je změna jasu v závislosti na jasu pozadí L. Jas pozadí L může být chápán jako průměrný jas obrázku. Li je jas podnětu. Kontrastní citlivost je pak definována: SW =
1 . CW
Rov. 2.2.1.2
Měření ukazují, že kontrastní citlivost Sw s použitím Weberova kontrastu se snižuje se snižujícím se jasem pozadí [15]. Přitom kontrast by měl být nezávislý na jasu pozadí. Navíc se Cw blíží nekonečnu, pokud se jas pozadí L blíží k nule.
2.2.2 Michelsonův kon trast Michelsonova definice kontrastu je založena na skokových změnách jasu v obraze [16]. Michelsonův kontrast je definován jako: CM =
Lmax − Lmin . Lmax + Lmin
Rov. 2.2.2.1
Lmax a Lmin zde znamená maximu resp. minimum jasu v obrázku. Výpočet Michelsonova kontrastu je ukázán na Gaborově obrazovém vzoru (Gabor grating), který je uveden na obr. 2.2.2.1. Vzor je tvořen součtem dvou jednorozměrných 18
periodických funkcí typu kosinus, kde jedna z nich má několikanásobně větší frekvenci než druhá. Může být analyticky popsán: F ( x , y ) = I 0 ( 1 + a1 cos( ω 1 x ) + a 2 cos( ω 2 x ) , kde pro úhlové frekvence platí, že ω1 < ω 2 a x značí horizontální souřadnici v obrázku.
Obr. 2.2.2.1: Gaborův testovací vzor. Z obrázku je vidět, že funkce F má v bodě A své minimum (a vzor minimální jas) a v bodě B své maximum. Převzato ze [16]. Michelsonův kontrast v bodě A je přibližně: a 2 /(1 − a1 ) a v bodě B: a 2 /(1 + a1 ) . Potom Webrova frakce kontrastu je definována jako: ∆L / L , kde ∆L je jasová diference a L je jas pozadí. Fyziologické experimenty ukazují, že buňky v jednotlivých oblastech zrakové kůry mozkové jsou citlivé vždy jen na kontrast v určitém prostorově frekvenčním pásmu [16].
2.2.3 Power-Law kont rast Tento kontrast používá model HVS popsaný v [15]. Jeho definice odpovídá lidskému vidění, konkrétně přenosové funkci fotoreceptorů v nesaturované oblasti, kterou následuje rozdílová charakteristika gangliových buněk na sítnici. Power-Law kontrast je definován: 1
1
C PL = L3 − L3B ,
Rov. 2.2.3.1
a kontrastní citlivost je dána zlomkem: S PL =
1 . C PL
Rov. 2.2.3.2 1
kde L je jas stimulu a LB je jas pozadí. Pokud se LB blíží nule, pak se kontrast blíží L3 . Pokud nahradíme CPL jeho Taylorovým rozvojem v bodě L/Lb = 1, dostaneme: 1
C≈
1 3 Lb CW pro C << 1 . 3
Rov. 2.2.3.3
V pyramidovém rozkladu může být kontrast počítán jako nelineární rozdíl mezi kanály v různých rozlišeních [15].
19
2.2.4 Peliho definice k ontrastu Michelsonův nebo Weberův kontrast se nehodí pro hodnocení většiny skutečných obrazů. Jsou to kontrasty, které vycházejí z globálních parametrů obrázku jako jsou jas pozadí popř. maximální a minimální jasy v obrázku. Peli navrhl lokálně pásmově omezený kontrast LBC (Local Band-limited Contrast) a jeho výpočet je popsán v [13]. LBC se vypočítá jako poměr obrázku s filtrovaným obrázkem pro určité frekvenční pásmo. Znamená to, že na verzi obrázku filtrovanou DP filtrem se díváme jako na lokální průměr pro uvažované frekvenční pásmo. V tomto smyslu se Peliho přístup podobá Weberově definici. Peliho kontrast je dán Bk ,l [ i , j ] ° Ak ,l K + L [ i , j ] ° k ,l k −1 LBC k ,l [ i , j ] = ® Bk ,l [ i , j ] ° Ak ,l °¯ K k ,l + L
½ ∀k = 2 , K ; l = 1, L ° ° ¾, ∀k = 1, K ; l = 1, L ° °¿
Rov. 2.2.4.1
kde LBCk,l je pásmově omezený kontrast pro frekvenční pásmo k a orientační pásmo l. Lk[i, j] je obrázek filtrovaný filtrem typu DP řádu k. Bk,l[i, j] je výstup DP filtru Lk[i, j] po filtraci orientačně citlivým filtrem řádu l. L1 vyjadřuje průměr jasu obrázku, Ak,l a Kk,l jsou konstanty, které modelují frekvenční a orientační citlivost HVS. [i, j] jsou souřadnice v matici obrázku.
2.2.5 Globální kontra st a lokální kontrast Některé z modelů HVS jako např. Dalyho model [3] používají rozklad obrazu do několika frekvenčních pásem filtrováním původního obrazu pásmově-propustnými a orientačními filtry. Globální kontrast pro frekvenčně-orientační pásmo Bk,l, kde k označuje index frekvenčního kanálu a l číslo orientačního kanálu, definujeme jako CG k ,l =
Bk ,l [ i , j ] BK
.
Rov. 2.2.5.1
BK zde vyjadřuje průměrnou hodnotu jasu v obrázku, která může být nalezena jako střední hodnota základního pásma, tj. pásma s nejnižší frekvencí. [i, j] jsou souřadnice v obrázkové matici. Lokální kontrast pro frekvenčně-orientační pásmo Bk,l se pak liší od globálního jmenovatelem, který odpovídá hodnotě základního pásma v každém bodě obrázku:
C L k ,l =
Bk ,l [ i , j ] . BK [ i , j ]
Rov. 2.2.5.2
2.2.6 Citlivost HVS na prostorovou frekvenci Člověk není schopen vnímat kontrast s nekonečným prostorovým rozlišením. Práh kontrastu u HVS je závislý na prostorové frekvenci v obraze. Prostorová frekvence se obvykle udává v jednotkách c/deg (cykly/stupeň zorného úhlu). Práh kontrastu je závislý na pozorovacích podmínkách, tedy na velikosti obrázku, jeho rozlišení a na pozorovací vzdálenosti. Tento práh reprezentuje kontrast na každé prostorové frekvenci, který je člověk ještě schopen vnímat. Jinak řečeno, pokud je kontrast podnětu pod tímto prahem, není podnět vnímán. Práh kontrastu se obvykle určuje měřením na obrázcích se sinusovými vzory s různou frekvencí, které jsou předloženy řadě pozorovatelů. Pozorovatelé jsou dotázáni, zdali jsou schopni ještě 20
proužky na obrázku rozlišit, či nikoliv. Příklad použití sinusového vzoru je uveden v kap. 3.2.2. Převrácená hodnota kontrastního prahu se nazývá kontrastní citlivost HVS. V literatuře se často setkáváme s modelováním pomocí kontrastně-citlivostní funkce CSF (Contrast Senstivity Function), která je uvedena na obr. 2.2.6.1. CSF je obvykle implementována jako filtr typu pásmová propust. Tato funkce vyjadřuje citlivost HVS, která je vyvolaná optikou oka, vzorkovacími vlastnosti fotoreceptorů (především čípků) a aktivními a pasivními nervovými spoji. Všechny tyto vlastnosti jsou vysoce adaptivní, což znamená, že skutečná CSF se mění v závislosti na mnoha faktorech, jako jsou: přizpůsobení oka na okolní osvětlení, akomodace oka, excentricita, velikost obrázku ve stupních zorného úhlu, barva a šum v obrázku [3].
Obr. 2.2.6.1: Přibližně změřená křivka CSF, převzato ze [16].
Vrchol CSF křivky leží v oblasti 3-10 c/deg [16]. Vědci se pokoušeli o parametrizaci této křivky. Zjistilo se, že je závislá hlavně jasu pozadí. Watsonova aproximace parabolou pro logaritmické souřadnice je: log( 1 / CT ) = ( p1 log( L ) + q1 ) log 2 f + ( p2 log( L ) + q2 )log f + p3 log( L ) + q3 ,
Rov. 2.2.6.1
kde CT označuje práh kontrastu, L označuje jas pozadí a p a q jsou koeficienty aproximace [16]. V literatuře se setkáme i s jinými přístupy měření a parametrizace CSF [2, 3 , 6, 19]. Je dokázáno, že práh vnímání kontrastu v obraze je určen rovněž amplitudou koeficientů Fourierovy transformace.
2.2.7 Nadprahový kon trast Pokud je podnět nad prahem kontrastu, potom podnět vnímáme. Pro vyšší hodnotu kontrastu se křivka citlivosti HVS na kontrast mění z obráceného U tvaru typického pro CSF funkci na
21
konstantní funkci pro všechny frekvence. Tato křivka je však ve srovnání s CSF velmi těžko měřitelná. Teoreticky se odezva R v této oblasti dá popsat funkcí: R = k (C − CT ) p ,
Rov. 2.2.7.1
kde C je nadprahový kontrast, CT je práh kontrastu na určité frekvenci, p je exponent v rozmezí 0,4 - 0,52 a k je normovací konstanta [16].
2.3 Maskovací ef ekt Maskování modeluje snížení viditelnosti signálu A v důsledku přítomnosti maskovacího signálu B. Signál A bude v této kapitole nadále nazýván signálem a signál B bude nazýván maskerem. Existují různé druhy maskování. Autoři hovoří o tzv. kontrastním maskování a o aktivitním (entropním) maskování [7].
2.3.1 Kontrastní mask ování V kontrastním maskování mají signál a masker podobné signálové parametry. Jeden z přístupů předpokládá, že se jedná o sinusový signál, jehož viditelnost je snížena sinusovým maskerem. Tento model maskování je nazýván v literatuře fázově-koherentním maskováním [3]. Pokud obrázky se signálem a s maskerem složíme, vznikne třetí obrázek. Pokud masker dokonale maskuje signál, jeví se nám tento obrázek stejně jako samotný obrázek maskeru.
Obr. 2.3.1.1: Kontrastní maskování pro signály a maskery s různou prostorovou frekvencí a orientací. Převzato ze [7]
Maskovací efekt se dá dobře demonstrovat na obr. 2.3.1.1. V případě A má masker frekvenci mnohokrát vyšší než signál. Na obrázku B se zase signál a masker liší v orientaci o 90 stupňů. Maskovací efekt se nejvíce projevuje v případě C, kde mají signál i masker stejnou orientaci a frekvence maskeru je jen dvakrát větší než frekvence signálu. Superponovaný obrázek signálu a maskeru se nám zde jeví téměř jako samotný obrázek maskeru. 22
Další možný přístup je považovat oba signály (masker i signál) za šum. Tento model maskování bývá někdy nazýván fázově-nekoherentním maskováním [3]. Maskování se dá parametrizovat a popsat tak závislost kontrastního prahu CT (Contrast Treshold) na přítomnosti maskeru s kontrastem CM, což ukazuje graf na obr. 2.3.1.2. Při dosažení kontrastního prahu se signál stává v přítomnosti maskeru pro lidské oko viditelným. Pro nízký maskovací kontrast CM je práh kontrastu CT dán pouze kontrastní citlivostí popsanou funkcí CSF. Jakmile maskovací kontrast CM dosáhne bodu označeného CT0, začne se projevovat maskovací efekt a práh kontrastu CT se začne přibližně lineárně zvyšovat. To znamená, že silnější signál není v přítomnosti silnějšího maskeru viditelný. Toto se dá velmi dobře využít při kompresi obrazu, protože takto může být "schován" kvantizační šum [7] (v tomto případě je kvantizační šum uvažován podle předchozí teorie jako signál). Na křivkách na obr. 2.3.1.2 můžeme nalézt dva úseky, které je možno aproximovat v logaritmických souřadnicích lineárními funkcemi. První konstantní úsek charakteristiky se směrnicí přibližně rovnou nule lze popsat bodem CT0. Druhou lineárně rostoucí část charakteristiky definuje zlomový bod CT0 a směrnice přímky ε [7]. Pro případ fázověkoherentního maskování odpovídá hodnota směrnice ε přibližně 0,7 [3].
Obr. 2.3.1.2: Kontrastní maskování v logaritmických souřadnicích. Křivka A je změřena pro fázově-koherentní maskování. Křivka B charakterizuje fázově-nekoherentní maskování. Převzato ze [7].
Měření kontrastního maskování pro sinusové signály ukazují, že práh viditelnosti kontrastu CT klesá v bodě CT0 dokonce pod úroveň danou CSF. To se projevuje poklesem křivky A na obr. 2.3.1.2. Tento jev se nazývá v angličtině "facilitation effect" a projevuje se jen, pokud jsou signál i masker ve fázi [7]. Odtud pochází pojem fázově-koherentní maskování. Šumový model maskování je někdy v literatuře nazýván fázově-nekoherentním maskováním. Signál a masker zde ve fázi nejsou, "facilitation effect" nenastává a žádný pokles kontrastního prahu CT nevnímáme (viz. obr 2.3.1.2). Bylo provedeno mnoho experimentů na testovacích vzorech signálu a maskeru (jedno i dvojrozměrné vzory se statickým i dynamickým šumem). Vyplývá z nich, že směrnice ε pro fázově-nekoherentní maskování je přibližně rovna jedné [3]. Model fázově-nekoherentního maskování je popsán následující rovnicí:
23
CT = W ni2 + m 2 , Rov. 2.3.1.1 kde CT je práh kontrastu potřebný pro detekci signálu v přítomnosti maskeru, m je střední hodnota kontrastu maskeru CM. Parametr W udává poměr SNR (viz kap. 2.4.2) změřený na hranici vnímání šumu maskeru. ni2 je přímo úměrné vnitřnímu šumu v modelu HVS [3]. Efektivita detektoru je nepřímo úměrná parametru W. To znamená, že čím větší je W, tím vyšší SNR je třeba pro detekci signálu v přítomnosti maskeru. U kontrastního maskování se navíc projevuje efekt učení (learning effect). Pokud se pozorovatel dívá na obrázek s poškozením (s přítomností maskeru) opakovaně, projevuje se to snižováním hodnoty směrnice ε. To má za následek pomalejší nárůst asymptoty pro vyšší maskovací kontrast [3] (viz obr. 2.3.1.3).
Obr. 2.3.1.3: Vliv efektu učení na maskování. Obrázek převzat ze [17] a upraven.
2.3.2 Aktivitní masko vání a sumační efekt Aktivitní (entropní) maskování je jev blízký kontrastnímu maskování. Vychází ze skutečnosti, že poškození obrazu je vnímáno mnohem více v homogenních oblastech obrazu, než v oblastech se složitou texturou [7]. Literatura nazývá regiony se složitou texturou aktivními regiony, odtud aktivitní maskování. Hlavní rozdíl mezi kontrastním a aktivitním maskováním je v tom, že kontrastní maskování je uvažováno z hlediska jednoho pixelu obrázku, kdežto aktivitní se zabývá širšími regiony obrazu [7]. Aktivitní maskování není v prediktoru viditelných diferencí uvažováno. V mnoha modelech HVS je použit postup, kdy se obrázek rozloží do více frekvenčně-orientačních kanálů a je sledován maskovací efekt pro každý kanál zvlášť. Toho je využito i v implementaci prediktoru viditelných diferencí. Některé modely HVS využívají maskovacího efektu uvnitř jednotlivých kanálů. Jiné modely implementují maskování mezi kanály [7]. Jednotlivé frekvenčně-orientační kanály, nejsou striktně omezeny a interagují mezi sebou. V tomto případě hovoříme o tzv. sumačním efektu. Nadprahový kontrast v jednom
24
kanálu může vyvolat jen malou odezvu, pokud se v sousedním frekvenčně-orientačním kanálu vyskytuje vyšší podnět [16].
2.4 Míra kvality obrazu Míra kvality (podobnosti) obrazu, zkráceně IQM (Image Quality Metric), číselně vyjadřuje, jak se dva obrázky od sebe liší v jednotlivých pixelech. S použitím IQM se setkáváme v aplikacích pro hodnocení kvality obrazu, v kódování a kompresích obrazu. V zásadě můžeme IQM rozdělit do skupin diferenčních, korelačních, spektrálních, kontextových a na modelu HVS založených měr. Srovnání různých definic IQM nalezneme v práci [14]. Dobře zvolená míra podobnosti obrazů by měla odrážet všechny změny v obraze jako např. rozmazání, šum nebo poškození kompresí. Velkou pozornost věnuje literatura mírám kvality obrazu založeným na modelu HVS [8, 13, 14, 15, 16]. Tyto míry kvality obrazu jsou v některé literatuře nazývány subjektivními a v některé objektivními IQM. Za objektivní míry je lze považovat, protože hodnotí poškození obrazu na základě počítačového modelu. Na druhou stranu se tyto IQM snaží napodobit HVS a subjektivní hodnocení kvality obrazu, proto jsou někdy nazývány subjektivními. V literatuře se tak můžeme setkat s nejednoznačností pojmu subjektivní a objektivní míra v případě IQM založených na modelu HVS. Člověk je ve většině případů ten, kdo hodnotí kvalitu obrazu, a proto i výsledky IQM by měly v tomto případě korelovat se subjektivními testy. IQM často bývají přímo výstupem modelu HVS. Model HVS by měl co nejlépe napodobit zkreslení vlivem lidského zraku a citlivost zraku na jednotlivé části obrazu. Je třeba počítat i s pozorovacími podmínkami. Takto navržené IQM shrnují výsledky modelu HVS do jednoho čísla, které hodnotí kvalitu obrazu.
2.4.1 Střední kvadrati cká odchylka Střední kvadratická odchylka (MSE - Mean Square Error) dvou obrázků je nejjednodušší a nejčastěji užívanou IQM v digitálním zpracování obrazu. Jedná se o objektivní míru kvality obrazu. MSE, jak už napovídá název, vyjadřuje součet kvadrátů odchylek v jednotlivých pixelech jednoho obrazu vůči druhému: MSE =
1 N (I [ i , j ] − I 2 [ i , j ] )2 , ¦ i =1 , j =1 1 N
Rov. 2.4.1.1
kde I[i, j] je intenzita v obrázku v pixelu o souřadnicích [i, j]. Intenzitou se rozumí bezrozměrné číslo, které udává stupeň šedi v bodech obrázku. Indexy 1 a 2 zde označují první resp. druhý obrázek. N je počet pixelů v obrázcích. RMSE (Root Mean Square Error) je definován jako RMSE = MSE =
¦
N
i =1 , j =1
(I 1 [ i , j ] − I 2 [ i , j ] )2
.
Rov. 2.4.1.2
MSE podle [14] vykazuje velkou citlivost na aditivní šum, ale nekoreluje příliš přesně s vnímáním chyb v obrázku pozorovatelem a nereflektuje chyby způsobené kompresí a kódováním.
2.4.2 PSNR Objektivní míra kvality obrazu hodnotící poměr signál/šum v obraze nazvaná PSNR (Peak Signal-to-noise Ratio) je definována pro obrázek s K kvantizačními úrovněmi:
25
PSNR = 10 log
K . MSE
Rov. 2.4.2.1
Např. pro osmibitový šedotónový obrázek je počet kvantizačních úrovní K=255.
2.4.3 Míra kvality obr azu založená na HVS Zvláštní kapitolu tvoří IQM založené na modelu lidského vidění, které jsou používány v subjektivním hodnocení kvality obrazu. Jsou velmi důležité v multimediálních aplikacích, kde je člověk konečným pozorovatelem a kde se používá kódování s nízkou vahou bitu. Výsledek míry kvality obrazu založené na modelu HVS je číslo, které udává spokojenost pozorovatele při srovnání poškozeného obrazu oproti originálu a které by mělo korelovat se subjektivními testy. Je velmi těžké přesně namodelovat systém lidského vidění, proto se používá vždy nějaké zjednodušení. Za zmínku stojí model spektrální distorze založený na HVS popsaný v [14]. Originál i poškozený (modifikovaný) obraz je filtrován filtrem typu pásmová propust simulujících HVS. Filtr má přenosovou funkci danou v polárních souřadnicích:
0 ,05e ρ ρ < 7 ½° ° H( ρ ) = ® ¾, 2 ,3 °¯e −9 log ρ −log 9 ρ ≥ 7 °¿ 0 , 554
Rov. 2.4.3.1
kde ρ = u 2 + v 2 . Přenosová charakteristika filtru je vidět na obr. 2.4.3.1.
Obr. 2.4.3.1: Charakteristika filtru spektrální distorze podle [14].
Obrázek transformovaný diskrétní kosinovou transformací DCT vynásobený filtrem H ( ρ ) a . následovně: zpětně transfomovaný DCT-1 může být vyjádřen pomocí operátoru U {}
26
U {I [ i , j ]} = DCT −1 {H ( ρ )DCT {I [ i , j ] }}.
Rov. 2.4.3.2
I[i, j] zde reprezentuje intenzitu (hodnotu v pixelech) v originálním nebo modifikovaném obraze. Pro K-složkový multispektrální obraz je definována normalizovaná absolutní chyba jako: N −1
¦ U {I
1 K i , j =0 H 1 = ¦k =1 K
k
[ i , j ] }− U {I ^ k [ i , j ]} .
U {I k [ i , j ]} i , j =0
¦
N −1
Rov. 2.4.3.3
V rovnici I reprezentuje intenzitu v pixelech originálního obrázku a I^ intenzitu v pixelech poškozeného (modifikovaného) obrázku.
2.5 Subjektivní te sty kvality obrazu Subjektivní testování kvality obrazu pomocí reprezentativního počtu lidských subjektů je vhodným srovnáním modelu HVS se skutečností. Tyto testy se často využívají k hodnocení kvality zobrazovacích systémů a TV systémů, a proto došlo k jejich standardizaci, kterou udává doporučení ITU-R BT.500-10 [22, 23]. Doporučení uvádí obecné pozorovací podmínky: • • • • •
Maximální pozorovací úhel menší než 30 deg. Špičkový jas monitoru 200 cd/m2. Monitor bez digitálního zpracování obrazu. Okolní jas 200 lux. Doporučený poměr jasu startovací obrazovku k jasu špičkovému.
V doporučení uvedeno několik metod, z nichž je nejčastěji použita metoda DSCQS (DoubleStimulus Continuous Quality-Scale).
2.5.1 Metoda DSCQS Pozorovatel sleduje několikrát dvojici referenční obraz – poškozený obraz. Hodnocení provádí pozorovatelé pro dvojici obrazů v plynulé stupnici od výborné kvality po špatnou [22]. Metoda DSCQS je vhodná pro srovnání dvojice obrázků, kterými jsou originál a komprimovaný obrázek. Během měření je vždy první z dvojce obrázků referenční a druhý komprimovaný. Komprimované obrázky s různými kompresními poměry a různými kompresními metodami jsou vybrány v náhodném pořadí. Sekvence je sestavena tak, aby pokrývala potřebné množství kompresních poměrů a metod. Pozorovatel vidí tedy vždy první obrázek – originál, poté neutrální šedou obrazovku s číslem obrázku v sekvenci a následně komprimovaný obrázek, každý s těchto obrázků po dobu 10 s. Kvalita je pak zaznamenaná pomocí křížku do stupnice s číslem odpovídající příslušnému obrázku. Rozsah stupnice je 0 až 100 a měla by být vybavena slovy označujícími kvalitu: výborná, velmi dobrá, ještě dobrá, špatná, velmi špatná. Doporučení stanovuje minimálně 15 pozorovatelů různých věkových a profesních skupin s dobrým stavem zraku. Stav zraku se testuje pomocí Snellova optotestu, pozorovatel by měl přečíst poslední řádek testu ze vzdálenosti 5 m [23].
27
2.6 Modely HVS popsané v literatuře Modely HVS mají v disciplíně zpracování obrazu různá využití. Model vyvinutý pro vyhledávání v obrazových databázích je nastíněn v [8], model použitý pro optimalizovanou kompresi je popsán v [7] a v [19], model HVS využitelný pro hodnocení kvality medicínských snímků popisuje [6]. Dalyho prediktorem viditelných diferencí, který je popsán v [2] se zabývá podrobně kapitola č. 3.2.
2.6.1 Sarnoffův vizuál ně diskriminační model Sarnoffův vizuálně diskriminační model byl vytvořen pro aplikace hodnocení kvality obrazu v medicíně (např. rentgenových snímků) a pro vyhodnocování kvality komprese [6, 17, 18]. Narozdíl od Dalyho modelu nepoužívá frekvenční oblast, ale pracuje v prostorové oblasti. Jeho výpočetní náročnost je menší než u Dalyho prediktoru viditelných diferencí [17].
Obr. 2.6.1.1: Struktura Sarnoffova modelu, převzato ze [17].
Vstupem modelu jsou dva obrázky A a B a fyzikální parametry, za jakých se na tyto obrázky díváme. Obrázek A reprezentuje originální (nepoškozený) obrázek. Obrázek B je obraz s příznaky, což může být obraz poškozený ztrátovou kompresí nebo medicínský obraz s přítomností artefaktů či anomálií. Výstupem Sarnoffova modelu je mapa pravděpodobnosti vnímání rozdílů mezi obrázky A a B označovaná autorem jako JND (Just Noticeable Difference). Jeho základní bloky tvoří model oční optiky, prostorové vzorkování, pyramidová dekompozice a převod na viditelnou diferenci (viz obr. 2.6.1.1). První blok nazvaný Optika (Optics) simuluje vlastnosti optické části oka až po sítnici (rohovka, zornička, sklivec). V modelu je uvažována vzdálenost zornička - sítnice 20,3 mm. [6]. V Sarnoffově modelu je aproximována závislost průměru zorničky na osvětlení. Bodová rozptylová funkce (PSF), která je kruhově symetrická, je zde použita pro modelování přenosu přes optickou soustavu oka až na foveu. Efekt konvoluce s filtrem sestrojeným podle PSF způsobuje rozmazání vstupních obrazů.
28
Následně je signál v části Vzorkování (Sampling) převzorkován, což simuluje omezenou hustotu čípků na žluté skvrně. Pro obrázek s nulovou excentricitou je obrázek převzorkován s periodou 120 pix/deg. Pokud jsou vstupní obrázky příliš veliké, musí být rozděleny na menší bloky. V bloku Pásmopropustní kontrastní odezva (Bandpass Contrast Responses) jsou hodnoty jasu převedeny na lokální kontrast postupem, který navrhl Peli (viz kapitola 2.2.4). Nejprve je obraz rozložen do Laplaceovy pyramidy, která se skládá ze sedmi prostorověfrekvenčních úrovní. Jednotlivé úrovně pyramidy vznikají filtrací filtrem typu pásmová propust. Mají maximální frekvenci od 32 do 0,5 c/deg, kde každá pyramidová úroveň je oddělena od sousedních úrovní o oktávu. Následně je hodnota v každém bodě obrazu na každé úrovni Laplaceovy pyramidy vydělena odpovídající hodnotou ve stejném bodě obrazu ale o dvě úrovně níže v Laplaceově pyramidě. Výsledkem je lokální diference vydělená lokální střední hodnotou. Pro sinusový obrazový vzor s frekvenčním rozsahem jedné úrovně Laplaceovy pyramidy odpovídá výsledný kontrast přibližně Weberovu kontrastu: L − Lmin C = max , Lmean kde L jsou hodnoty jasu v obrázku. V dalším celku označeném Odezva na orientaci (Orientation responses) je každá úroveň Laplaceovy pyramidy konvolvována se čtyřmi orientačně-citlivými filtry. Filtry jsou vzájemně fázově posunuty o 45 stupňů. Pro rychlý výpočet je implementována metoda metoda lineární filtrace řiditelnými filtry podle Freemana a Adelsona [6]. Filtry jsou sestrojeny podle druhé derivace Gaussiánu a jeho Hilbertovy transformace. Šířka pásma směrového filtru, což je hodnota v úhlu, kde je výstup filtru roven polovině jeho maxima, je 65 stupňů. Výstupy filtrů jsou v modelu umocněné na druhou a sečteny, což vede k výpočtu tzv. lokální míry energie ei. Index i závisí na pozici v obraze, úrovni pyramidy a na orientaci. V části modelu nazvané Převodník (Transducer) je energie ei normována prahem detekce pro každou úroveň Laplaceovy pyramidy a pro každou pozici v obrázku. Práh detekce je závislý na frekvenci pyramidové úrovně, lokálním jasu a na úhlu, pod kterým vidíme obraz. Normovaná energie, označená e^i, je vstupem sigmoidní nelineární funkce, která je vyjádřena jako T (e^ i ) =
(k + 2) e^ i k e^ i
n −w
n
+ e^ im +1
,
Rov. 2.6.1.1
kde konstanty jsou zvoleny: n = 1,5, m = 1,1, w = 0,068 a k = 0,1 [6]. Výstup bloku nazvaného Převodník může být uvažován jako 28-dimensionální vektor (7 frekvenčních kanálů a 4 orientace). V bloku nazvaném Vzdálenost (Distance) je počítána vzdálenost mezi těmito vektory pro oba vstupní obrázky následovně: 1
Q ½Q N D j = ®¦ T jk ( s1 ) − T jk ( s 2 ) ¾ . ¯ k =1 ¿
Rov. 2.6.1.2
Přes index j ve vzorci je sčítáno přes pozici v obraze a index k vyjadřuje 28 frekvenčně-orientačních kanálů. Pro parametr Q byla zvolena hodnota 2,4. Hodnoty jasů v bodech originálního obrázku a obrázku s příznaky jsou označeny s1 resp. s2. Výstupem tohoto bloku je mapa JND, kterou tvoří vzdálenosti Dj pro každý bod vstupních obrázků. Na závěr v části modelu nazvané Pravděpodobnost (Probability) jsou hodnoty vzdálenosti Dj převedeny na pravděpodobnosti. Ty modelují, jak pozorovatel vnímá rozdíly ve dvou obrázcích v každém bodě. K tomuto účelu je definovaná psychometrická funkce, která vyjadřuje závislost pravděpodobnosti detekce na vzdálenosti Dj. Výstupem modelu 29
může být také maximum těchto pravděpodobností, což vyjadřuje, jestli pozorovatel vidí mezi obrázky nějaký rozdíl. Ve schématu je tento výstup označen jako "JND value".
2.6.2 Model použitý p ro vyhledávání v databázích Model popsaný Fresem a kol. [8, 15] obsahuje zakomponovaný model HVS. Slouží k vyhledávání v obrazových databázích. Jeho vstupem jsou dva obrázky. První slouží jako předloha a u druhého obrázku se zjišťuje, zdali je s ním shodný nebo do jaké míry se odlišuje. Úloha modelu může být chápána také tak, že se v obrazové databázi hledá obrázek (Target Image), který je nejpodobnější dotazovanému obrázku (Query Image). Podobnost obrázků hodnotí míra kvality obrazu IQM (Image Quality Metric).
Obr. 2.6.2.1: Struktura modelu pro vyhledávání v obrazových databázích. Převzato z [15]
Nejprve bude věnována pozornost celému modelu (viz schéma na obr. 2.6.2.1) a později bude popsán integrovaný model HVS. Zakomponovaný model HVS má tři výstupní kanály: barvu, kontrast a orientaci. Kontrastový a orientační kanál jsou tříúrovňově kvantovány (blok Q). Dále následuje blok rozpoznávání (feature-extraction), kam vstupují přímo barevný a kontrastový kanál jako první člen vektoru. Pro výpočet podobnosti dvou obrázků jsou definovány tří míry. První z nich je dµ, která vyjadřuje podobnost obou obrázků v určitém kanálu (barva, kontrast). Počítá se jako vzdálenost vektorů příslušných dvěma obrázkům metodou střední kvadratické odchylky následovně: dµ =
1 M N ( K (m, n) − K ^ (m, n)) 2 . ¦ ¦ m =1 n −1 MN
Rov. 2.6.2.1
K zde značí kontrastový nebo barevný kanál prvního a K^ kontrastový nebo barevný kanál druhého obrázku. Kanál pro barvu a pro kontrast rozdělen do Bl čtvercových bloků o velikosti strany 16/2l pixelů a je vypočítán rozptyl textury v tomto bloku. Jako další míra podobnosti je spočtena střední kvadratická odchylka rozptylů textur σ a σ^ u obou obrázků.
dσ 2 =
1 Bl
¦ (σ Bl
b =1
2
(b) − σ ^ 2 (b)
)
2
.
Rov. 2.6.2.2
30
Pro výstup z orientačního kanálu je zvolen v [15] odlišný přístup. Jako míra podobnosti zde není použit přímo výstup tohoto kanálu, ale kombinace amplitudy a fáze hran v obraze, které tvoří míru dΘ. Sloučením měr dµ, dσ2 a dΘ pro všechny kanály ve všech rozlišeních dostaneme celkem 102-prvkový vektor. Výsledná míra podobnosti je definována jako lineární kombinace prvků di tohoto vektoru: D = ¦i =1ω i d i , n
Rov. 2.6.2.3
kde ωi reprezentuje váhu, která je parametrem modelu a je navržena podle subjektivního lidského vnímání podle subjektivních testů. K tomu účelu je navržena i funkce ceny (cost), která by měla maximalizovat konzistenci mezi výstupem modelu a subjektivními testy. U integrovaného modelu HVS popsaného v [15] (viz obr. 2.6.2.2) je nejprve aplikován algoritmus Gaussovy pyramidové dekompozice pro každý kanál (kontast, barva, barevný kontrast) ve vstupním obrázku. Je využito barevného prostoru XYZ. Pyramidová dekompozice je realizovaná postupným filtrováním původního obrázku Gaussovským jádrem a dvojkovým decimováním. Výsledkem je víceúrovňová reprezentace obrázku, kde každá úroveň l má rozlišení původního obrázku vydělené 2l. Pro filtrování je použito Gaussovské jádro o velikosti 15 na 15 s rozptylem σ = 0,5. Následujícím krokem je konverze každé pyramidy do barevného prostoru CIE Lab. Je zde ukázáno, že se tento prostor nehodí jenom ke srovnání jasu a barvy mezi dvěma obrázky, ale rovněž k výpočtu kontrastu a barevného kontrastu. To se nedá říci o prostorech RGB nebo XYZ.
Obr.2.6.2.2: Vícekanálový model HVS. Převzato z [15].
31
Vstupní obraz je rozložen do Gaussových pyramid v prostoru XYZ. Pyramidy jsou převedeny do barevného prostoru Lab, kde jsou vypočteny kanály pro kontrast a barevný kontrast. Orientační kanály jsou vypočítány jako derivace Lab pyramidy. Pro jednoduchost jsou na obr. 2.6.2.2. zobrazeny jen dvě úrovně pyramidové dekompozice. V modelu je použit Power-law contrast, který odpovídá lidskému vnímání více než obvykle používaný Weberův kontrast: 1 3
1 3 B
C = Y −Y ,
Rov. 2.6.2.4
kde Y je jas (vektor Y v prostoru XYZ) stimulu popředí a YB je jas pozadí (viz kapitola 2.2.3). Ve víceúrovňovém Gaussovsko-pyramidovém rozkladu může být kontrast počítán jako nelineární diference mezi kanály tvořenými DP filtry v různých rozlišeních. Nechť Yl znamená jas v pyramidové úrovni l, kde l = 0 je nejjemnější a l = L-1 je nejhrubší rozlišení. Vzhledem k prostorově-průměrovcím vlastnostem dolnopropustních filtrů využitých v pyramidové dekompozici, je jas pozadí pro stimulus Yl dán nižšími úrovněmi Yk s k < l. Proto může být vypočítán kontrast pro l-tou úroveň jako 1
1
C ^ (l Y,i ) = Yl 3 − Yl −1 3 ,
Rov. 2.6.2.5
kde 1 ≤ i < L − 1 . Důležitá vlastnost takto definovaného kontrastu je konzistence mezi CIE XYZ a CIE Lab prostory. Úkolem orientačních kanálů je oddělit převládající orientaci hran v obraze. V modelu jsou použity úhlové mapy, které jsou složeny z hranově-úhlových a hranově-amplitudových hodnot pro každý bod obrázku a pro každou úroveň pyramidového rozkladu. Úhlové mapy jsou získány po konvoluci příslušného kanálu s horizontálně a vertikálně orientovanou derivací 2-D Gaussovského jádra.
2.6.3 Model HVS vyvi nutý pro subjektivní hodnocení kvality obrazu Vícekanálový model navržený Westenem a kol. [13] slouží k hodnocení kvality u obrazů s digitální kompresí. Obsahuje závislost na citlivosti HVS na světlo, prostorovou frekvenci a orientaci a na efekt maskování. Model je založen na konceptu pásmově omezeného kontrastu (Local Band-limited Contrast LBC) ve frekvenčně-orientačních kanálech (viz kapitola 2.2.4). Schéma modelu je uvedeno na obr. 2.6.3.1. Vstupem modelu jsou dva obrázky, originál a obrázek poškozený kompresí dané jasem v jednotlivých pixelech. Obrázky jsou obvykle reprezentovány v šedotónové stupnici, což znamená provést transformaci šedotónové stupnice na jas na monitoru. Transformační funkce je závislá na vlastnostech monitoru a není začleněna do modelu [13]. Oba obrázky jsou nejprve převedeny do LBC domény. Konverze do LBC probíhá odděleně pro frekvenční a orientační kanály. Výpočet LBC zahrnuje modelování vlivu světla a frekvenční citlivosti na HVS. Vstupní obrázky jsou filtrovány pěti frekvenčními a šesti orientačními filtry, což rozděluje signál do celkem 30-ti kanálů. Po výpočtu LBC následuje výpočet maskování pro jednotlivé frekvenční a orientační kanály jako funkce obálek LBC pro oba obrázky. Maskovací funkce, pokud se využívá prostor LBC, je podle autorů [13] jednoduše stanovitelná. Posledním krokem je kombinace odezev v jednotlivých kanálech a výpočet IQM, což je jedno číslo hodnotící kvalitu obrazu.
32
Obr. 2.6.3.1: Schéma modelu HVS, převzato z 13.
2.6.4 Model HVS pou žívající waveletovou dekompozici Model popsaný v [16] popisuje míru kvality obrazu založenou na HVS a využívající koeficienty Waveletové transformace. Fotoreceptory na sítnici jsou schopny zpracovávat světelné podněty jen z určitých směrů. Buňky ve zrakové kůře mozkové vyhodnocují vždy odezvu skupiny buněk ze sítnice, které jsou zaměřeny na shodné zrakové pole a na stejnou prostorovou frekvenci. Proto frekvenční odezva na zrakový podnět není jen omezená frekvenčním pásmem, ale je také limitovaná v prostorové oblasti. Fourierova transformace přikládá jednotlivým frekvenčním koeficientům stejnou váhu, a proto se pro popis prostorově-frekvenčních vlastvostí příliš nehodí. Proto se zde setkáváme s použitím Gaborovy transformace, která je Fourierovou transformací za použití Gaussovského okna. Parametry okna se mohou měnit v závislosti na experimentu. I zde však nacházíme některá omezení. Prvním z nich je obtížnost analyzovat, který z podnětů je zodpovědný za odezvu v překrývajících se pásmech. Další problém je pokud se použije Gaborův filtr typu IIR (Infinite Impulse Response). V praktické aplikaci je třeba počítat s konečnou odezvou, což vede k nepřesnostem. Waveletova transformace poskytuje dobré prostorově-frekvenční vlasnosti a algoritmus může být implementován pro vícekanálové filtrové soustavy (multichanel filter banks). Podporované wavelety jako je např. "Daubechies" může být implementován jako FIR filtr. Haarův wavelet je nejjednodušším bázová funkce pro waveletovu transformaci. Umožňuje ovšem spočítat kontrast přímo z odezev filtrů typu horní a dolní propust. Existuje více důvodů proč je třeba definovat kontrast ve více rozlišeních. Především kontrastní citlivost u HVS je vysoce závislá na prostorové frekvenci a vícenásobný kontrast může popisovat změny ve více rozlišeních v obrázku. Za druhé princip neurčitosti vyvolává odezvu ve více frekvenčních pásmech. Bylo dokázáno, že každé frekvenční pásmo v HVS má šířku přibližně jedné oktávy. Diskrétní waveletová transformace splňuje všechny tyto požadavky. Zpětnou rekonstrukcí s odezvami obdrženými v různých měřítcích se neztrácí 33
žádná informace. V protikadu ke Gaborově analýze, všechny filtry musí mít stejnou délku, což to způsobuje, že prostorově – frekvenční vlastnost je méně pružná.
Obr. 2.6.4.1: Blokové schéma systému pro hodnocení kvality obrazu, převzato z [16].
Navržený systém pro měření kvality obrazu vychází ze schématu na obr. 2.6.4.1. Originální i poškozený obraz prochází blokem pro waveletovou dekompozici. Zde je obraz rozložen pomocí waveletových filtrů, ve čtyřech orientacích. Je vypočítán kontrast C a práh kontrastu CT0 pro každý pixel a každé rozlišení. Práh kontrastu je dále upraven započítáním maskovacího efektu. Následně je vypočtena výsledná nadprahová odezva pro práh kontrastu podle vztahu 2.2.7.1.. Nechť Rc a Ro reprezentují nadprahovou odezvu modelu HVS pro poškozený (komprimovaný) resp. pro originální obraz. Pak je definována míra kvality obrazu D jako: D=
1 HVN
(¦
(Rc ,k [ i , j ] − Ro ,k [ i , j ] )β )β , k =1 ¦ j =1 ¦i =1 N
V
1
H
Rov. 2.6.4.1
kde V je vertikální a H horizontální rozměr obrázku. N je počet frekvenčně-orientačních kanálů. Přes indexy i a j se sčítá v rámci pixelů obou obrázků a přes index k přes pořadí kanálů. Parametr β je empirická hodnota vztažená k psychometrické funkci a v [16] pro něj byla zvolena hodnota 4. Výsledná IQM míra D je bezrozměrná stejně jako kontrast.
34
3 Matematick ý model vidění 3.1 Model rozpty lu na oční zorničce Vytvořený model geometricko-optické části oka implementovaný v prostředí MATLAB 6.0 popisuje difrakci (rozptyl) světla na kruhové apertuře, kterou tvoří oční zornička. Pro tvorbu modelu byla použita především Westheimerova publikace [1]. Vstupními parametry uvažovaného modelu jsou vzdálenost pozorovatele od monitoru, velikost pixelu na monitoru, převažující jas v zorném poli, vlnová délka světla a vstupní obrázek, který je zobrazován pozorovateli na monitoru. Výstupem modelu je obraz stejně zkreslený, jako obraz dopadající na sítnici oka, pokud uvažujeme rozptyl na zorničce.
3.1.1 Závislost velikos ti zorničky na okolním jasu Průměr zorničky závisí na převažujícím jasu v ploše zorného pole pozorovatele. Osvětlení jen malé části zorného pole neovlivní velikost zorničky. Převažující jas v ploše zorného pole pozorovatele může být nahrazen jasem pozadí. Závislost průměru zorničky na jasu pozadí podle [1] byla aproximována polynomem 4 stupně. Výpočet velikosti zorničky je použit jako vstup pro výpočet bodové rozptylové funkce oka. Polynom má tvar: a = 0 ,0137 log 3 ( L ) -0 ,0666 log 2 ( L ) -0 ,9586 log( L ) + 5 ,6360 ,
Rov. 3.1.1.1
kde a vyjadřuje průměr zorničky v mm a L jas pozadí v cd/m2. Na obrázku 3.1.1.1 je vidět, jak přesně aproximuje polynom body převzaté ze závislosti otevření zorničky na jasu pozadí uvedené v [1].
Obr. 3.1.1.1: Závislost průměru oční zornice a na jasu pozadí pro mladého pozorovatele. Křivka představuje polynomiální aproximaci závislosti, kterou určují body odečtené z charakteristiky uvedené v [1] a které jsou rovněž vyznačeny v grafu.
35
3.1.2 Bodová rozptylo vá funkce oka Klíčový bod modelu je zvolení správného modelu bodové rozptylové funkce oka PSF (Point Spread Function). Bylo použito analytického vyjádření PSF popsaného v [1]. Tato funkce reprezentuje impulzní charakteristiku oka. Jejím výstupem je obraz na sítnici, pokud byl na vstupu optické soustavy (oko) jeden bod. Vychází z difrakčního popisu rozptylu na kruhové apertuře. Analytický popis bodové rozptylová funkce oka je následovný: 2
ª J ( πaρ / λ ) º PSF ( ρ ) = « 1 » . ¬ πaρ / λ ¼
Rov. 3.1.2.1
PSF je funkcí zorného úhlu ρ udanou v radiánech, dále tvar PSF závisí na vlnové délce světla λ a na průměru zorničky a. J1 ve vzorci reprezentuje Besselovu funkci prvního řádu. Graf PSF je uveden na obr. 3.1.2.1.
Obr.3.1.2.1: Graf PSF podle analytického popisu. Výpočet proveden pro parametry: vlnová délka λ = 555 nm a průměr zorničky a = 3 mm.Vzdálenost prvních minim Besselovy funkce je zde 2,1.10-4 rad.
Besselova funkce prvního řádu je jedním z řešení diferenciální rovnice: d2y dy z2 2 + z + (z 2 − v 2 ) y = 0 , dz dz kde v je reálná konstanta. Řešení má tvar: k
§ z2 · ¨¨ − ¸¸ v 4¹ ∞ §z· J v ( z ) = ¨ ¸ k = 0 © . k!Γ(v + k + 1) © 2¹
36
Γ zde reprezentuje Gamma funkci, která je interpolací funkce n!. Pro všechna celá čísla n platí, že: Γ(n + 1) = n! . Vlnová délka λ a poloměr zorničky a musí být udány ve stejných jednotkách. PSF má v bodě ρ = 0 (nulový zorný úhel) limitu rovnou 0,25. Průběh PSF se velmi podobá Gaussiánu. Vzdálenost prvních minim PSF (prvních průsečíků s osou zorného úhlu napravo a nalevo od hlavního maxima) se nazývána Airyho disk. Dá se vyjádřit v závislosti na průměru zorničky a (viz tab. 3.1.2.1). Do průměru zorničky 2 mm se PSF zužuje přibližně nepřímo úměrně se zvětšujícím se otevřením zornice. Jakmile se průměr zorničky zvětší nad 2 mm, závislost se přestane podobat přímé úměrnosti. Průměr pupily a (mm) Rádius Airyho disku (úhlové minuty) 0,5 4,66 1 2,33 1,5 1,56 2 1,16 2,5 0,94 Tab. 3.1.2.1: Airyho disk pro rozptyl na kruhové zorničce. Převzato z [1].
V [1] je rovněž uvedena aproximace PSF pro kruhovou aperturu pomocí exponenciálního polynomu takto: Q( ρ ) = 0,952 exp(−2,59 ρ
1.36
) + 0,48 exp(−2,43 ρ
1.74
),
Rov. 3.1.2.2
kde ρ je zorný úhel v minutách a Q vyjadřuje amplitudu bodové rozptylové funkce. Graf PSF vytvořené podle této aproximace je uveden na obr. 3.1.2.2.
Obr. 3.1.2.2: PSF podle aproximace exponenciálním polynomem
37
Provedl jsem srovnání takto vypočtené PSF s výpočtem podle analytického vzorce. Bohužel v [1] nejsou uvedeny podmínky, za kterých je tato aproximace provedena, proto je pro model HVS prakticky nepoužitelná.
3.1.3 Vytvoření konvo lučního filtru Podle analytického popisu PSF (rov. 3.1.2.1) je vytvořena matice filtru H, s nímž se vstupní obrázek konvolvuje. Matice je čtvercová, má lichou velikost a je symetrická podle prostředního členu. Důležitá je volba velikosti matice H. Ta se provádí v závislosti na pozorovací vzdálenosti a v závislosti na velikosti pixelu u monitoru. Modul PSF dosahuje pro nulovou hodnotu zorného úhlu svého maxima rovného 0,25. Okrajové členy masky jsou nulové. Pro výpočet jednotlivých bodů matice filtru je zvolen následující postup. Nejprve je určen zorný úhel αpix, pod kterým pozorovatel vidí jeden pixel na monitoru h α pix = 2 arctan pix . Rov. 3.1.3.1 2d hpix zde vyjadřuje velikost strany pixelu (předpokládejme, že pixel je zobrazen jako čtverec) a d reprezentuje pozorovací vzdálenost (vzdálenost pozorovatele od monitoru). Zorný úhel αpix, pod kterým vidíme jeden pixel, je elementární část obrazu, kterou je monitor ještě schopen zobrazit. V rozsahu úhlu αpix je spočtena PSF pro určitý počet hodnot v ekvidistantních intervalech. Podle rozdílů sousedních hodnot je zvolena velikost matice filtru. Matici filtru H je třeba zvolit tak velikou, aby její členy, které se nacházejí mezi prostředním členem a okrajem matice, byly nezanedbatelné. Pokud bychom vytvořili filtr příliš velký, většina jeho členů by byla nulová a výpočet konvoluce by trval zbytečně dlouho. Filtr je nutno navrhnout podle analytického popisu PSF s nulovým argumentem (zorným úhlem) uprostřed matice a postupně se zvětšujícím argumentem směrem k jejím okrajům až k hodnotě αpix. Matice masky (filtru) H je dále normována tak, aby celková energie masky (součet všech prvků masky) byl roven jedné: H N [i , j ] =
1
¦i =1 ¦ j =1 H [ i , j ] N
N
H [ i, j ] ,
Rov. 3.1.3.2
kde HN[i, j] je normovaná hodnota matice masky v bodě s řádkovým indexem i a sloupcovým indexem j. H zde označuje matici filtru před normováním a N je velikost masky (počet řádek a zároveň počet sloupců).
3.1.4 Hodnocení použ itelnosti modelu rozptylu na zorničce Pro rozhodování, zda je nutno začlenit model rozptylu na rohovce nebo jestli se tento rozptyl dá zanedbat, je třeba vyhodnotit dvě situace. Těmi se zabývají dvě následující podkapitoly. Pro ověření návrhu filtru byl použit nekomprimovaný šedotónový obrázek Leny s 256 odstíny šedi a velikostí 512 na 512 pixelů (viz obr. 3.1.4.2). V MATLABu jsou tyto obrázky reprezentovány maticí intenzit (maticí bezrozměrných osmibitových čísel) od 0 do 255. Byla vypočítána MSE mezi originálním obrázkem a obrázkem konvolvovaným s maskou podle definice v kapitole 2.4.1. MSE vychází v rozmezí od nuly pro naprosto identické obrázky až po 2552. Pro zobrazení obrázků byl pozměněn histogram obrázků použitím funkce imagesc( ) implementované v MATLABu. To umožňuje zobrazení obrázku v šedotónové škále. Stupnice 38
šedi, která je umístěna vpravo vedle obrázků, však odpovídá reálné hodnotě intenzity obrázků (viz např. obr. 3.1.4.2).
1. Vzdálenost prvních minim PSF je menší než úhlová velikost pixelu V tomto případě není model rozptylu na rohovce třeba uvažovat, protože rozptyl na zorničce příliš neovlivní obraz na sítnici. Tento případ nastává za běžných pozorovacích podmínek. Jako příklad tohoto extrému uvádím nastavení modelu na tyto parametry: Vzdálenost pozorovatele od monitoru d: 50 cm Velikost pixelu hpix: 0,0317 cm Při vzd. d = 50 cm od monitoru vidíme tedy jeden pixel pod úhlem αpix = 6,34.10-4 rad. Převažující jas v zorném poli L: 100 cd/m2 Vlnová délka světla λ: 555 nm Vzdálenost prvních minim PSF pro uvedené pozorovací podmínky vychází přibližně 2,1.10-4 rad, což je vidět z grafu PSF na obr. 3.1.2.1, který byl vypočten pro shodné pozorovací podmínky. Úhlová velikost pixelu αpix je 6,34.10-4 rad, což je asi třikrát více než vzdálenost minim PSF. V tomto případě zvolil algoritmus velikost filtru rovnou pěti. Součet prvků matice po normování matice filtru podle rov. 3.1.3.2 je roven jedné. Ostatní prvky matice filtru jsou ve srovnání s prostředním prvkem mnohem menší (viz graf na obr. 3.1.4.1).
Obr. 3.1.4.1: 3D Graf konvolučního filtru pro případ 1.
39
Obr. 3.1.4.2: Test modelu PSF pro nekomprimovaný obrázek Leny. Model nastaven na parametry případu 1. (vzdál. 50 cm od monitoru). Vlevo originální obrázek, uprostřed obrázek konvolvovaný s maskou a vpravo rozdílový obrázek. MSE mezi originálním obrázkem a obrázkem konvolvovaným s maskou je rovna 13,72.
Konvoluce s maskou filtru na obr. 3.1.4.1 způsobuje jen nepatrné rozmazání obrázku (viz obr. 3.1.4.2). Toto rozmazání simuluje nepatrný vliv rozptylu světla na zorničce na obraz na sítnici. MSE mezi originálním obrázkem a obrázkem konvolvovaným s maskou vychází 13,72.
2. Vzdálenost prvních minim PSF je větší než s velikost pixelu V tomto případě je nutno model PSF začlenit a s rozptylem na zorničce počítat. Nejvýznamnějším parametrem, kterým může toto ovlivnit je vzdálenost očí od monitoru. Je li velká, velikost úhlu, pod kterým vidíme pixel na monitoru, je malá a srovnatelná se vzdáleností prvních minim PSF. Obrázek na sítnici je již značně zkreslen vlivem rozptylu na zorničce. Dalším faktorem je jas pozadí, který ovlivňuje průměr otevření zorničky. Jako příklad uvádím parametry shodné s extrémem 1. až na vzdálenost pozorovatele od monitoru. Vzdálenost je v tomto případě zvýšena na 250 cm. I zde je vzdálenost minim PSF asi 2,1.10-4 rad. Vzdálenost minim PSF není závislá na zorném úhlu. Ale při vzdálenosti 250cm od monitoru vidíme jeden pixel jen pod úhlem 1,27.10-4 rad, což už je menší než vzdálenost prvních minim PSF. Program zvolil velikost filtru rovnou 31. Ostatní členy matice filtru nevyjdou v porovnáním s prostředním členem matice zanedbatelné. Maska filtru je zobrazena na obr. 3.1.4.3.
40
Obr. 3.1.4.3: 3D graf konvolučního filtru pro případ 2. Pozorovací vzdálenost se zvýšila na 250 cm oproti případu 1.
Obr. 3.1.4.4: Test modelu PSF na nekomprimovaném obrázku Leny. Parametry modelu odpovídají případu 2. (Vzdálenost pozorovatele od monitoru je 250cm). Vlevo originální obrázek, uprostřed obrázek konvolvovaný s maskou a vpravo rozdílový obrázek. MSE mezi originálním obrázkem a obrázkem konvolvovaným s maskou je rovna 685,06.
41
Z obrázku 3.1.4.4 je vidět, že je obrázek po konvoluci s maskou filtru je již značně zkreslen (rozmazán). To dokládá i rozdílový obrázek. Střední kvadratická odchylka mezi originálním obrázkem a obrázkem konvolvovaným s maskou je rovna 655,06. To je 50-krát více než u případu 1.
3.1.5 Srovnání simula ce rozptylu světla na zorničce a komprese Další věc, kterou model dokazuje, je skutečnost, že rozptyl na zorničce zkresluje obraz podobně jako ztrátová komprese JPEG. Některé kompresní algoritmy jsou navrženy tak, že se kompresí "ztrácí" stejné složky obrazu jako při modelování rozptylu na oční zorničce. Jsou to především vysokofrekvenční komponenty obrazu. Pro test je použit nekomprimovaný obrázek Leny (formát BMP) a komprimovaný obrázek Leny s kompresí JPEG na přibližně jednu 176-tinu původní velikosti souboru. Oba byly šedotónové s 256 odstíny šedi. Pomocí navrženého modelu PSF byla provedena simulace rozptylu na zorničce pro čtyři různé pozorovací vzdálenosti (viz tab. 3.1.5.1) a pro čtyři různé jasy pozadí (viz tab. 3.1.5.2). Pro určité nastavení modelu byla vypočtena vždy MSE mezi originálním obrázkem a obrázkem konvolvovaným s maskou filtru vytvořenou podle modelu PSF. MSE byla vypočtena modelem dvakrát, jednou pro nekomprimovaný a jednou pro komprimovaný obrázek. Pro takto definované obrázky vychází MSE v rozsahu od 0 do 65025. Vzdálenost od monit. d [cm] MSE nekomprimovaného obr. MSE obr. s kompresí JPEG
50 13,72 12,06
100 133,84 127,78
150 305,92 303,22
250 685,06 681,94
Tab. 3.1.5.1: Porovnání MSE pro nekomprimovaný obrázek Leny a pro obrázek s kompresí JPEG na 1/176 původní velikosti. Výpočet MSE byl proveden pro čtyři různé vzdálenosti pozorovatele od monitoru. Pozorovací podmínky: velikost pixelu hpix = 0,0317 cm, jas pozadí L = 100 cd/m2, vlnová délka světla λ = 555 nm. Jas pozadí L [cd/m2] MSE nekomprimovaného obr. MSE obr. s kompresí JPEG
10 0,1296 0,1198
100 13,72 12,06
1000 26,49 24,5
10000 145,14 139,33
Tab. 3.1.5.2: Porovnání MSE pro obrázek bez komprese a s kompresí JPEG. Výpočet MSE byl proveden pro čtyři různé jasy pozadí. Pozorovací podmínky: velikost pixelu hpix = 0,0317 cm, vzdálenost pozorovatele od monitoru d = 50 cm, vlnová délka světla λ = 555 nm.
Pro všechna testovaná nastavení parametrů modelu vychází MSE vždy menší pro případ komprimovaného obrázku ve srovnání s nekomprimovaným obrázkem. V komprimovaném obrázku byly již vysokofrekvenční složky odstraněny kompresí, proto se po simulaci rozptylu na zorničce obrázek nezmění tolik, jako tomu je u nekomprimovaného obrázku. To má za následek i menší hodnotu MSE u komprimovaného obrázku.
42
3.2 Prediktor vid itelných diferencí Dalyho prediktor viditelných diferencí (VDP - Visible Difference Predictor) popsaný v [3], [17] a [18], založený na modelu HVS, je jedením z nejcitovanějších přístupů v této problematice. Jeho schéma je uvedeno na obr. 3.2.1. Cílem prediktoru je vyjádřit stupeň, jak jsou fyzické rozdíly ve dvou šedotónových obrázcích viditelné pro člověka. Vstupem VDP je sada dvou obrázků a parametry, které popisují pozorovací podmínky. Na rozdíl od ostatních modelů HVS není jeho výstupem pouze jedno číslo hodnotící podobnost nebo rozdílnost obrázků, ale mapa pravděpodobnosti detekce rozdílu mezi dvěma vstupními obrázky.
Obr. 3.2.1: Blokové schéma prediktoru viditelných diferencí, převzato ze [17] a upraveno.
V diplomové práci je tento model HVS model implementován v prostředí MATLAB. Úkolem je ověřit funkčnost modelu a schopnost predikce pro různé typy poškození obrazu. Výstup z modelu by měl korelovat se subjektivními testy. Ověření výsledků u konkrétních poškození obrazu je zde jednodušší než u ostatních modelů, protože, jak již bylo řečeno, model hodnotí rozdíly ve dvou obrázcích v každém jejich bodě. Model se zaměřuje především na modelování citlivosti receptorů na sítnici a maskovacího efektu. U Dalyho prediktoru jsou výpočty prováděny především ve frekvenční oblasti. Pro převod do frekvenční oblasti a nazpět je v modelu použit algoritmus FFT (Fast Fourier Transformation) resp. FFT-1 (inverzní FFT), který je již výpočetně optimalizován a který urychluje výpočet transformace. V první části modelu nazvaném Amplitudová nelinearita je modelována citlivost sítnice jako funkce osvětlení a adaptace sítnice na světlo. Využívá se nelineární jasové transformace. Tento blok také zahrnuje model monitoru. Původní Dalyho návrh VDP model monitoru neuvažuje [3, 17, 18].
43
Následně je obrázek převeden do frekvenční oblasti. V bloku nazvaném CSF (Contrast Sensitivity Function) je modelována citlivost zraku v závislosti na prostorové frekvenci. Tato frekvenční závislost je způsobena optikou oka a citlivostí nervových buněk. CSF je obecně funkcí prostorové frekvence, orientace, úrovně přizpůsobení jasu u HVS, velikosti obrázku, akomodace oční čočky a pozorovací vzdálenosti [3]. Pokud uvažujeme lineární systémy, může být v modelu HVS použita MTF (modulační přenosová funkce) nebo CSF, která je inverzní funkcí k MTF. Nelinearity použité v algoritmu VDP a nelinearita samotného HVS by mohly do tohoto přístupu vnášet problémy, ale podle [18] má nelinearita na výpočet jen nepatrný vliv a systém může být považován za lineární. Modelování CSF v algoritmu prediktoru viditelných diferencí je implementováno jako filtrace frekvenčním filtrem typu pásmová propust. Po amplitudové nelineární transformaci a po průchodu částí modelu, která zajišťuje modelování CSF, je obraz rozdělen do 31 frekvenčně-orientačních kanálů. Pro frekvenčněorientační dekompozici obrazu je použit upravený algoritmus kortexové filtrace [20]. Je známo, že HVS má různou citlivost na různou orientaci v obraze (v modelu jsou kanály rozděleny po 60 stupních) a na prostorovou frekvenci (kanál má šíři přibližně jedné oktávy) [3]. V modelu je uvažováno pět prostorově-frekvenčních kanálů, které jsou kombinovány s šesti orientačními kanály, to dává u Dalyho prediktoru dohromady třicet kanálů. Navíc je vytvořen jeden orientačně nezávislý kanál pro nejnižší frekvenční pásmo. Každý kanál vzniká filtrací obrazu, který je modifikován průchodem dvěma výše popsanými částmi modelu, příslušným kortexovým filtrem. Velikost obrazové matice v každém ze 31 frekvenčněorientačních kanálů je stejně veliká jako velikost vstupního obrazu. Dekompozice do kanálů se provádí pro oba vstupní obrázky, tedy pro originál i pro poškozený obrázek. Proto je ta část, kde se zpracovává obraz rozložený do kanálů, výpočetně nejnáročnější z celého algoritmu prediktoru viditelných diferencí. V bloku nazvaném Modelování maskovacího efektu je prováděn výpočet maskování. Maskováním nazýváme změnu citlivosti HVS v důsledku obsahu obrazového signálu, kterou způsobují především nervová spojení mezi sítnicí a zrakovou kůrou mozkovou [3]. Zde dochází ke kombinaci frekvenčně-orientačních složek obou obrázků při výpočtu vzájemného maskování. Maskování je možné chápat rovněž jako zvýšení prahu viditelnosti rozdílů v obraze, který je schopen zachytit HVS. V tomto smyslu tato část modelu určuje zvýšení prahu viditelnosti rozdílů pro každý frekvenčně-orientační kanál. Maskování podrobně popisuje kap. 2.3. Úkolem dalšího bloku je určit pravděpodobnost detekce rozdílu v obrázcích. K tomu slouží psychometrická funkce. Určuje pravděpodobnost detekce rozdílů ze zvýšení prahu viditelnosti rozdílů mezi dvěma obrázky. Pravděpodobnosti detekce pro jednotlivé kanály jsou sloučeny a výstupem algoritmu je výsledná mapa pravděpodobnosti detekce rozdílu pro každý bod obrázku. Mapa je znázorněna jako šedotónový obrázek nebo v jiné barvě zakreslena přímo do původního šedotónového obrázku. Model zpracovává tedy každý pixel obrázku zvlášť. V následujících kapitolách bude věnována pozornost jednotlivým částem modelu.
3.2.1 Amplitudová ne lineární transformace Digitální obrázek je reprezentován maticí bezrozměrných čísel s určitým počtem bitů b. Tato čísla budou nadále v textu nazývána intenzitou v obrázku v bodě o souřadnicích [i, j] a bude označena I[i, j]. Intenzita se pohybuje v rozmezí I min = 0 < I [ i , j ] < I max = 2 b − 1 . Hodnota intenzity rovná 0 odpovídá v šedotónové stupnici černé a maximální hodnota intenzity potom bílé. Monitor je schopen zobrazit hodnoty intenzity pomocí určitého jasu na 44
stínítku v mezích od Lmin do Lmax. Parametr Lmin je roven 0 cd/m2, parametr Lmax se liší podle typu monitoru. Pro CRT (Cathode Ray Tube) monitory se jeho hodnota pohybuje okolo 100 cd/m2, pro LCD (Liquid Crystal Display) monitory dosahuje hodnoty okolo 250 cd/m2. Při návrhu modelu je uvažováno následující mapování intenzity na jas: L[ i , j ] =
I [ i , j ] Lmax . I max
Rov. 3.2.1.1
Uvažujeme - li monitor, který zobrazí maximální jas Lmax 100 cd/m2 a 8-bitovou šedotónovou stupnici intenzity, pak maximální hodnota intenzity 255 (bílá barva) je zobrazená jasem na monitoru právě 100 cd/m2. Vnímání jasu je nelineární funkcí osvětlení. Podle [3] se dá tato funkce zjednodušit, pokud předpokládáme, že se pozorovatel soustředí a adaptuje své oči na určitou část obrazu. Tento přístup zanedbává modelování očních pohybů. Nelineární funkce je implementována jako funkce hodnoty jasu (intenzity v jednotlivých pixelech obrázku) L[i, j] následovně: R[ i , j ] =
L[ i , j ] I max . L [ i , j ] + ( c1 L [ i . j ])b
Rov. 3.2.1.2
Pro jednotky jasu cd/m2 je konstanta b zvolena 0,63 a konstanta c1 je rovná 12,6 [3]. Pro rozsah jasu na hodnotách stovky cd/m2 se nelineární funkce příliš neliší, proto ji můžeme nezměněnou použít pro běžně dostupné typy monitorů. R[i, j] značí nelineární odezvu modelu v bodě obrázku o souřadnicích [i, j]. Průběh odezvy je vidět na obr. 3.2.1.1. Odezva vychází v rozsahu stejném jako je intenzita vstupního obrázku. Proto můžou být obě matice nelineární odezvy, tvořené prvky vypočtenými pro oba vstupní obrázky (originál a poškozený obrázek), použity jako vstup pro další blok algoritmu modelující CSF.
Obr. 3.2.1.1: Graf nelineární transformace jasu v logaritmickém měřítku osy jasu L.
V modelu je využito přímo hodnot jasu v jednotlivých pixelech obrázku. Psychofyzikální měření ukazují, že lidský zrak se není schopen adaptovat na tak malou část obrázku. Předpokládá se však, že pozorovatel může vidět obrázek z libovolně malé
45
vzdálenosti. Tento předpoklad odstraňuje frekvenční závislost, která je modelována až v následující části nazvané CSF [3]. Výpočet amplitudové nelineární transformace je prováděn v prostorové oblasti.
Obr. 3.2.1.2: Nelineární jasová transformace. Nahoře obrázek Leny a jeho histogram před nelineární transformací jasů, dole obrázek a histogram po transformaci.
Z histogramu obrázku Leny na obr. 3.2.1.2 je vidět, že transformace posouvá hodnoty intenzit více doprava. To činí nelineárně transformovaný obrázek světlejším.
3.2.2 Citlivost HVS na prostorovou frekvenci Blok CSF (Contrast Sensitivity Function) popisuje citlivost HVS na prostorovou frekvenci. V Dalyho modelu [3] je CSF parametrizovaná vztahem
ρ S ( ρ ,θ , l , i 2 , d , e) = P min S1 ( , l , i 2 ), S1 ( ρ , l , i 2 ) , ra re rθ
46
Rov. 3.2.2.1
kde P je absolutní špičková senzitivita, která závisí na individualitě pozorovatele a v literatuře je uváděna hodnota 250. Parametr ra modeluje závislost CSF na akomodaci oka: ra = 0,856d 0,14 , kde d je vzdálenost pozorovatele od monitoru v m. Závislost CSF na excentricitě reprezentuje parametr 1 , Re = 1 + 0 ,24 e kde e je excentricita ve stupních zorného úhlu. Závislost CSF na orientaci je modelována parametrem Rθ = 0 ,11cos( 4θ ) + 0 ,11 , kde θ je orientace ve stupních. Funkce S1 modeluje závislost CSF na velikosti obrázku a adaptaci na oka na světlo a na frekvenci, S1 ( ρ ,l ,i ) = 0 ,9(( 3,23( ρ i ) 2
2 2
−0 ,3
1 5
) + 1 ) A1 ρe −0 ,9 B1 ρ 1 + 0 ,006 e 0 ,9 B1 ρ , 5
Rov. 3.2.2.2
kde ρ je prostorová frekvence v c/deg, l je adaptační úroveň oka cd/m2 a i je velikost obrazu ve stupních zorného úhlu, § 1,7 · A1 = 0,801¨ ¸ © l ¹ § 101 · B1 = 0,3¨ ¸ © l ¹
−0 , 2
a
0 ,15
.
Obr. 3.2.2.1: Parametrizovaná CSF podle Dalyho, čárkovaně S1, čerchovaně S2 a plnou čarou výsledná CSF.
CSF na obrázku 3.2.2.1 byla vypočtena pro běžné pozorovací podmínky: vzdálenost d = 0,3m, adaptace na světlo l = 100 cd/m2, orientace θ = 0° a velikost obrázku i = 15° zorného
47
úhlu. V těchto podmínkách by se příliš neměla projevit frekvenční závislost zraku, a měli bychom obrázek vidět téměř nezkresleně. Normování je provedeno vydělením všech bodů CSF její maximální hodnotou. Vážným problémem tohoto modelu CSF je, že pro nulové frekvence má CSF limitu rovnou nule. Toto neodpovídá fyzikální realitě, lidské oko je citlivé na stejnosměrnou složku v obraze. Model CSF je navíc poměrně složitý a jeho funkčnost se dá velmi těžko fyzikálně ověřit. Proto je pro prediktor viditelných diferencí použit jiný model CSF. Vychází z modelu CSF původně navrženého Mannosem a Sarkisonem popsaného v [19]. Model je jednodušší a předpokládá pouze závislost HVS na prostorové frekvenci ρ. 1 ,1 H ( ρ ) = 2 ,6 (0 ,192 + 0 ,114 ρ )e −[( 0 ,114 ρ ) ]
Rov. 3.2.2.3
Obr. 3.2.2.2: Graf CSF podle Mannose a Sarkisona použitý v modelu HVS
CSF má maximum na frekvenci přibližně 6,5 c/deg. K nižším a k vyšším hodnotám prostorové frekvence se citlivost zraku snižuje. Důležitým krokem je návrh frekvenčního filtru podle charakteristiky CSF. V návrhu je třeba zohlednit zorný úhel, pod kterým vidíme obrázek. Obvykle jsou známé pozorovací podmínky jako vzdálenost pozorovatele od monitoru d a velikost obrázku h. Předpokládáme, že obrázek je čtvercový. Zorný úhel α ve stupních je možné vypočítat jako: h α = 2 arctan . Rov. 3.2.2.4 2d Obvykle nemá smysl simulovat vidění obrázku z určité vzdálenosti d. Proto je zvolena vzdálenost d v závislosti na velikosti obrázku, jak je často použito v literatuře, d = 4 h . Úhel α pak vychází konstantní a je roven přibližně 14,25 deg. CSF funkcí prostorové frekvence udáváné v jednotkách c/deg. Maximální frekvence obsažená ve spektru obrázku ρmax je daná velikostí r tohoto obrázku v pixelech a vychází v jednotkách c/pix. Proto musí být i maximálni hodnota v matici použitého filtru navrženého na základě CSF dána jako: 48
filtrmax = H
r , α
Rov. 3.2.2.5
kde H značí analyticky vyjádřenou CSF funkci. V modelu vytvořeném v MATLABu je využito algoritmu rychlé Fourierovy transformace FFT. Algoritmus počítá oboustranné spektrum, proto i filtr musí být navržen s nejnižší hodnotou prostorové frekvence uprostřed matice a s hodnotami frekvence rostoucími směrem k okrajům matice až k hodnotě ρmax. Model předpokládá stejnou frekvenční citlivost ve vodorovném i ve svislém směru, proto je matice symetrická podle středu. Nejprve je vstupní obrázek transformován do frekvenční oblasti. Koeficienty obrázku ve frekvenční oblasti jsou vynásobeny filtrem navrženým podle CSF. Výsledek je potom zpětně transformován do prostorové oblasti zpětnou FFT.
Obr. 3.2.2.3: Ověření modelu CSF. Testovací obrázek obsahující 2 prostorové frekvence (nahoře), obrázek filtrovaný filtrem navrženým podle CSF (uprostřed) a rozdílový obrázek (dole). Vpravo je uvedena stupnice šedi v obrázku.
Pro ověření funkčnosti CSF filtru byl vygenerován šedotónový testovací obrázek o velikosti 50 na 50 pixelů (viz obr. 3.2.2.3). Obrázek obsahuje stejnosměrnou složku a dvě
49
frekvence o hodnotách úhlové frekvence 10 c/pix a 100 c/pix v horizontálním směru. Intenzita ve vertikálním směru v obrázku je konstantní a v horizontálním směru je I ( x) = 1 + sin(10 x) + sin(100 x) , kde x je souřadnice ve vertikálním směru v obrázku. Na uvedeném obrázku reprezentuje vyšší ze dvou frekvencí užší proužky a pomalejší širší pruhy. Už z výsledného filtrovaného obrázku je zřetelně vidět, že v něm je téměř potlačena vyšší frekvenční složka.
Obr. 3.2.2.4: Ověření modelu CSF ve frekvenční oblasti. Navržená matice filtru (nahoře), amplitudové spektrum testovacího obrázku (uprostřed) a spektra obrázku vynásobeného filtrem (dole)
To dokládá i obr. 3.2.2.4 z frekvenční oblasti. V původním obrázku jsou v jedné polovině spektra vidět 3 peaky. Peak o souřadnicích [0,0] v rovině frekvencí odpovídá stejnosměrné složce. Druhý peak nejblíže středu odpovídá složce 10 c/pix a třetí peak nejvíce u okraje složce signálu na nejvyšší frekvenci tj. 100 c/pix. V amplitudovém spektru výsledného obrázku je patrné, že nejvyšší frekvenční složka je nejvíce potlačena. Rovněž je vidět, že je snížen i podíl stejnosměrné složky oproti původnímu obrázku, což způsobuje pokles CSF směrem k frekvencím nižším než je 6,5 c/deg. Model byl při testování nastaven na parametry: Velikost obrázku r = 50 pixelů a vzdálenost pozorovatele od monitoru d = 1 m. Na 17-ti palcovém monitoru v rozlišení 1024 na 768, kde je jeden pixel veliký přibližně 0,000317 m, vidíme tento obrázek s velikostí strany přibližně 1,6 cm. Obrázek zaujímá zorný úhel α asi 0,91 deg. Je patrné, že pozorovací podmínky už značně ovlivňují vnímání obrázku pozorovatelem. Toto je dáno hlavně poklesem CSF na vyšších frekvencích. Ve výsledku to pak znamená, že pozorovatel už tyto
50
frekvenční složky v obraze není schopen vnímat a použitý model CSF to věrně simuluje. Stejný efekt potlačení vysokofrekvenčních složek nastává i při volbě obrázku s větší velikostí a většími prostorovými frekvencemi. Pokud je model nastaven na běžné pozorovací podmínky (pozorovací vzdálenost je rovná čtyřnásobku velikosti obrazu), model CSF příliš obraz neovlivňuje.
3.2.3 Detekční mechan izmus Závěrečná část HVS modelu je složená ze čtyř celků a je nazvána detekční mechanizmus. První blok nazvaný Frekvenčně-orientační rozklad dekomponuje vstupní obrázky celkem do 31 frekvenčně-orientačních kanálů, které jsou vstupem pro blok Maskovací funkce, kde je modelován maskovací efekt. Psychometrická funkce prahuje výstup z maskovacích funkcí u obou obrázků a vytváří z nich pravděpodobnost vidění rozdílu mezi obrázky. Poslední blok slučuje pravděpodobnosti ze všech kanálů do jediného kanálu (mapy pravděpodobnosti) a je vstupem pro vizualizaci pravděpodobnostní mapy.
Obr. 3.2.3.1: Schéma detekčního mechanizmu, převzato ze [17] a upraveno.
3.2.4 Prostorově-orien tační rozklad obrazu Neurofyzikální výzkumy lidského mozku prokazují, že ve zrakové kůře mozkové existují mechanizmy, které jsou citlivé jen na určitá úzká prostorově-frekvenční a orientační pásma o šířce přibližně jedné oktávy [3, 13, 17]. HVS je různě citlivý na různé orientace v obraze. Největší citlivost je na horizontální a vertikální směry, nejnižší na podněty pod úhly 45° a 135°. Směrová citlivost je odlišná pro různé typy buněk (sítnice, zraková kůra mozková) [16]. V literatuře najdeme mnoho přístupů, které využívají k simulaci frekvenčně-orientační citlivosti HVS Gaborových filtrů [12], waveletových filtrů [16, 19] nebo pyramidové dekompozice [12, 17]. Pro rozklad obrazu do frekvenčně-orientačních kanálů využívá Dalyho model upravený mechanizmus kortexových filtrů, který byl původně navržený Watsonem pro kortexovou transformaci [20]. Kortexový filtr vznikne vynásobením prostorověfrekvenčního filtru s příslušným orientačním filtrem. To dává filtru vlastnost, že je citlivý jen na úzké prostorově-frekvenční pásmo a jen na některý směr v obraze. V textu bude nadále
51
používán termín rozklad obrázku do kortexových kanálů. Rozklad vznikne filtrací obrázku sadou kortexových filtrů.
Obr. 3.2.4.1: Kortexový filtr c vzniká násobením prostorově-frekvenčního filtru a s orientačním filtrem b ve frekvenční doméně. Převzato z [20].
Frekvenční selektivita je modelována hierarchií DOM filtrů. Název DOM vznikl zkratkou z anglického "Difference of Mesa", což naznačuje, že filtr vzniká rozdílem dvou MESA filtrů. Návrh DOM filtrů pomocí MESA filtrů musí zajišťovat, že sada DOM filtrů má součet roven 1 ve všech bodech frekvenční domény. MESA je filtr typu dolní propust. Na rozdíl od původního Watsonova návrhu MESA filtry nejsou tvořeny Gaussiánem ale Hanningovou funkcí. DP MESA filtr je popsán charakteristikou: tω 1 pro ρ < ρ1 / 2 − 2 tω tω 1 π ( ρ − ρ1 / 2 + t ω / 2 ) MESA( ρ ) = 1 + cos < ρ < ρ1/2 + , pro ρ1/2 − tω 2 2 2 tω 0 pro ρ > ρ1 / 2 + 2
Rov. 3.2.4.1
kde ρ1/2 hodnota střední je frekvence MESA filtru. Je to hodnota, na které odezva filtru poklesne na polovinu a tω je šířka přechodového pásma MESA filtru.
52
Obr. 3.2.4.2: A) Vliv šířky přechodového pásma tω na MESA filtr s hodnotou střední frekvence ρ1/2 rovnou 0,5 c/pix; Hodnoty přechodových pásem v grafu jsou 0,2 c/pix, 0,5 c/pix a 1 c/pix. B) Vliv parametru střední frekvence ρ1/2 na MESA filtr s šířkou přechodového pásma tω rovnou 0,5 c/pix; Odezvy MESA filtrů pro ρ1/2= 0,2 c/pix, 0,4 c/pix a 0,6 c/pix.
DOM filtr vzniká rozdílem dvou MESA filtrů s odlišnými frekvencemi ρ1/2. V pořadí k-tý DOM filtr je definován:
DOM k ( ρ ) = MESA( ρ ) | ρ
1 / 2 =2
− k −1
− MESA( ρ ) | ρ
1 / 2 =2
−k
.
Rov. 3.2.4.2
Výraz za svislou čarou ve vztahu značí MESA filtr vypočítaný pro střední frekvenci ρ1/2. Pro šířku přechodového pásma MESA filtrů při návrhu u DOM filtrů platí: tω =
2 ρ1 / 2 . 3
Rov. 3.2.4.3
Vyšší hodnota k značí vyšší stupeň filtru v pyramidové hierarchii a filtr s nižším frekvenčněpropustním pásmem. Dalyho model uvažuje celkem 5 takto navržených filtrů. Filtr s nejnižším frekvencí je označován jako baseband. Je implementován jako dolnofrekvenční propust. Jeho návrh se odlišuje od ostatních DOM filtrů, je popsán oříznutou Gaussovskou funkcí −ρ2 tω ½ pro ρ < ρ1/2 + °° °°e 2σ 2¾. baseband ( ρ ) = ® t ω °0 pro ρ ≥ ρ + ° 1/2 °¯ °¿ 2 2
53
Rov. 3.2.4.4
Rozptyl Gaussiánu σ pro střední frekvenci ρ1/2 a šířku přechodového pásma tω je dán: 1§ tω · σ = ¨ ρ1 / 2 + ¸ . 9© 2 ¹
Rov. 3.2.4.5
Parametry ρ1/2 a tω zde slouží k oříznutí Gaussovské exponenciální funkce na hranici nejvyšší frekvence tohoto filtru, která je rovna 9σ. V celkovém návrhu prostorově-frekvenčních filtrů, které musí v každém bodě sumovat na hodnotu 1, se musí rovněž odrazit návrh filtru v základním pásmu baseband. Konkrétně se musí pozměnit návrh nejnižšího DOM filtru. Výsledná hierarchie DOM filtrů po úpravě je popsána: ° MESA( ρ ) | ρ1 / 2 =2−( k −1) − MESA( ρ ) | ρ1 / 2 =2− k pro k = 1, K - 2 ½° DOM k ( ρ ) = ® ¾, °¯ MESA( ρ ) | ρ1 / 2 =2−( k −1) −baseband ( ρ ) | ρ1 / 2 =2− k pro k = K - 1°¿
Rov. 3.2.4.6
kde K je celkový počet prostorově-frekvenčních filtrů, v algoritmu je použito K = 6. V návrhu filtrů byla zvolena trojnásobná hodnota rozptylu Gaussiánu σ určujícího baseband proti původnímu Dalyho návrhu, aby maximum odezvy filtru DOM5 vycházela stejně jako u ostatních DOM filtrů. Obr. 3.2.4.3 dokazuje, že sada spojitých filtrů skutečně sumuje na hodnotu 1 v každém bodě frekvenční odezvy.
54
Obr. 3.2.4.3: Frekvenční charakteristika hierarchie prostorově-frekvenčních filtrů; A) lineární souřadnice, B) logaritmické souřadnice frekvenční osy.
Orientační selektivita HVS je reprezentována sadou orientačních filtrů označovaných jako FAN filtry. Filtrů je celkem 6 a zabírají celou frekvenční rovinu. Rozsah jednoho filtru je tedy 30 stupňů. Pro jejich návrh je opět použito Hanningovo okno. Pro orientaci θ udanou ve stupních úhlu ve frekvenční rovině je l-tý FAN filtr definován jako: 1 ° § π θ − θc(l) ·½° ¸¾ ° ®1 + cos¨¨ ¸° FAN l (θ ) = ® 2 °¯ θ tw © ¹¿ °0 ¯
½ pro θ − θc(l) ≤ θtw ° ¾, pro θ − θc(l) > θtw °¿
Rov. 3.2.4.7
kde θtw je šířka přechodového pásma FAN filtru, v našem případě tedy 30 stupňů. θc(l) je orientace středu tohoto filtru a zároveň hodnota orientace, kde má filtr nevyšší odezvu a pro v pořadí l-tý FAN e definována jako:
θ c ( l ) = ( l − 1 )θ tw − 90 ° .
Rov. 3.2.4.8
55
Obr. 3.2.4.4: Frekvenční charakteristika FAN filtrů; A) lineární souřadnice odezvy filtrů, B) logaritmické souřadnice odezvy filtrů.
Z charakteristiky FAN filtrů uvedené na obr. 3.2.4.4 je patrné, že sada FAN filtrů sumuje na hodnotu 1 v každém bodě. V návrhu prediktoru viditelných diferencí se předpokládá, že HVS je stejně citlivý na horizontální i vertikální prostorové frekvence. Proto se z jednorozměrné charakteristiky DOM filtru určí dvojrozměrná charakteristika nahrazením:
ρ = ( fx2 + f y2 ) , kde fx a fy jsou kartézské souřadnice frekvenční domény. Podobný postup můžeme použít i pro FAN filtry kde nahradíme: θ = arg( f x + f y i ) , kde i je imaginární jednotka a arg značí argument komplexního čísla. Alternativní možností návrhu dvojrozměrných orientačních filtrů je vytvoření matice FAN filtru pouze pro jeden směr. Následným otáčením o příslušný úhel podle středu matice a interpolací hodnot vznikají FAN filtry pro další směry. Kortexové filtry vznikají násobením charakteristik frekvenčních DOM filtrů a orientačních FAN filtrů. Pokud charakteristiky DOM a FAN filtry reprezentují dvojrozměrné matice, je vytvoření kortexového filtru jen otázkou vynásobení příslušných dvou matic prvek po prvku: ° DOM k ( ρ )FAN l ( θ ) CORTEX k ,l ( ρ ,θ ) = ® °¯baseband ( ρ )
56
pro k = 1, K-1; l = 1, L ½° ¾. °¿ pro k = K
Rov. 3.2.4.9
Index k v tomto vztahu označuje pořadí v hierarchii DOM filtrů a index l pořadí v hierarchii FAN filtrů. Příklad kortexových filtrů pro třetí prostorově-frekvenční pásmo (k = 3) je uveden na obr. 3.2.4.6.
Obr. 3.2.4.5: Testovací obrázek hvězdičky, která obsahuje celkem 4 orientace v obraze (0°, 45°, 90°, a 135°)
Obr. 3.2.4.6: Obrázky v 1. a 3. sloupci - příklady šedotónových obrázků kortexových filtrů ve frekvenční rovině pro prostorově-frekvenční pásmo k = 3 a pro orientace l = 1 až 6. Obrázky ve 2. a 4. sloupci jsou výstupy z jednotlivých kortexových filtrů pro výše obrázek hvězdičky uvedený na obr. 3.2.4.5.
Čím blíže středu frekvenční roviny je maximum dvourozměrného kortexového filtru, na tím nižší frekvence v obrázku filtr reaguje. S odezvou na orientaci reagují kortexové filtry 57
posunutě o 90 stupňů. Tedy např., jak je vidět u prvního kortexového filtru na obr. 3.2.4.6., filtr s maximem ve vertikálním směru reaguje nejvíce na horizontální směr v obraze. Pro kortexové filtry platí, jak by se dalo předpokládat, že
¦ ¦ CORTEX
k =1− K l =1− L
k ,l
( ρ ,θ ) = 1 pro všechna ρ, θ.
Rov. 3.2.4.10
Celkový počet kortexových filtrů je obecně ( K − 1 )L + 1 , v případě prediktoru viditelných diferencí je to 31 (k = 5, l = 6, + baseband). Schématický obrázek celé sady kortexových filtrů je uveden na obr. 3.2.4.7.
Obr. 3.2.4.7: Kortexové filtry ve frekvenční doméně. Použit obrázek ze [17].
I když kortexové filtry sumují na hodnotu 1 v každém bodě frekvenční roviny, neplatí, že složením všech obrázků vzniklých filtrací 31 kortexovými filtry, dostaneme původní obrázek. Ani rozsah intenzit v takto vzniklém obrázku neodpovídá rozsahu intenzit u původního obrázku. To demonstruje obr. 3.2.4.8, kde jsou vidět zázněje jednotlivých kortexových filtrů a navíc se intenzita z původního rozsahu 0 - 255 posunula na rozsah 0 600. Tato skutečnost ale neomezuje využití frekvenčně-orientačních (kortexových) kanálů v dalších blocích prediktoru.
58
Obr. 3.2.4.8: Obrázek vzniklý složením 31 kortexových kanálů pro obrázek hvězdičky.
3.2.5 Modelování mask ovacího efektu V prediktoru viditelných diferencí je uvažováno kontrastní maskování v kortexových kanálech [3]. VDP vychází z fázově-nekoherentního modelu maskování (šumový model maskování) (viz kap. 2.3.1). Je důležité poznamenat, že u Dalyho prediktoru viditelných diferencí jsou role signálu a maskeru prohozeny. Vstupní obrázky uvažujeme jako masker a zajímá nás detekce rozdílů mezi obrázky (eventuelně detekce poškození jednoho z nich) za pomoci modelu HVS. Proto je třeba uvažovat rozdíly mezi obrázky (poškození obrázku) jako signál, u něhož chceme určit pravděpodobnost detekce. Navíc je do modelu zakomponován efekt učení popsaný v kapitole 2.3.1 [3]. V použité aproximaci je přihlédnuto k tomu, že jednotlivé kanály neobsahují pouze jednu frekvenci, ale širší pásmo frekvencí. Proto by měl model reagovat na všechny frekvence obsažené v jednom kanálu určeném kortexovým filtrem. V modelu je využito i mezikanálové maskování. Normovaný maskovací kontrast mn pro jeden kortexový kanál určený indexy k, l (viz kapitola 3.2.4) v bodě o souřadnicích [i, j] je definován jako mnk ,l [ i , j ] = F −1 {F {N[i,j] } CSF[u,v] CORTEX k,l [u,v]}.
Rov. 3.2.5.1
F zde označuje Fourierovu transformaci F-1 zpětnou Fourierovu transformaci, N[i, j] nelineární transformaci jasu, CSF[u, v] aplikaci modelu CSF funkce, CORTEXk,l[u, v] filtraci kortexovým filtrem a u, v jsou kartézské souřadnice ve frekvenční rovině. Normovaný maskovací kontrast může být kladný nebo záporný. Jeho absolutní hodnota ovlivňuje funkci zvýšení prahu detekce Te (Treshold Elevation). Tato funkce je definována pro každý pixel v obrázku o souřadnicích [i, j] následovně:
(
)
1
ε b ·b § § k ,l k ,l Te [ i , j ] = ¨ 1 + ¨ k 1 k 2 mn [ i , j ] ·¸ ¸ . ¹ ¹ © ©
Rov. 3.2.5.2
Konstanta ε odpovídá směrnici asymptoty u vyššího maskovacího kontrastu a pohybuje se v rozsahu od 0,6 do 1 v závislosti na frekvenčním pásmu [3]. Pro pásmo označené baseband
59
je zvolena hodnota 0,7, která lineárně roste až na hodnotu 1 pro nejvyšší frekvence. Hodnotu ε určíme pro jednotlivé kortexové filtry takto:
°ε baseband = 0 ,7 ® °¯ε k = ε baseband + 0 ,06 k
½° ¾, pro k = 1,5°¿
Rov. 3.2.5.3
kde k je frekvenční index kortexového filtru (viz kapitola 3.2.4). Tento fakt by měl odrážet skutečnost, že se efekt učení více projevuje na nižších prostorových frekvencích než na vyšších (viz obr. 3.2.5.1). Určení hodnoty parametru ε závisí na typu obrázku a je podrobněji diskutováno v části 3.2.10. Konstanty k1 a k2 jsou určeny jako: k1 = W k2 = W
1−
1 1−Q
1 1−Q
,
Rov. 3.2.5.4
kde Q je směrnice asymptoty vyššího maskovacího kontrastu v bodě, kdy asymptota prochází hodnotou 1,0 na logaritmické ose normovaného maskovacího kontrastu. Hodnota parametru W použitá v návrhu Dalyho prediktoru je 6, hodnota parametru Q je zvolena 0,7 a hodnota parametru b je rovna 4 [3]. Pokud spočteme hodnoty Te pro všechny indexy [i, j], vznikne obrázek zvýšení prahu detekce pro určitý kortexový kanál označený jako Tek,l. V modeluje je využito tzv. vzájemného maskování, což znamená, že výsledný obrázek zvýšení prahu detekce vznikne kombinací obrázků zvýšení prahů detekce vypočtených pro oba vstupní obrázky Te1k ,l [i, j ] a Tek2 ,l [i, j ] (originál a poškozený obrázek) jako
{
}
Temk ,l [i, j ] = max Te1k ,l [i, j ], Tek2,l [i, j ] .
Rov. 3.2.5.5
Autor [3] používá pro určení Tem místo funkce maxima ze dvou obrázků funkci minimum ze dvou obrázků v každém jejich bodě. Tento přístup ale selhává, pokud je obrázek poškozen např. přidanými objekty, které v originálním obrázku nejsou. Model pak takové poškození vůbec nepredikuje. Také bylo autorem [3] testováno určení výsledného zvýšení prahu detekce pouze z jednoho ze dvou obrázků. Pokud byl použit originální obrázek, model nebyl schopen predikovat ani jednoduchá poškození jako rozmazání. Pokud byl pro určení prahu použit jen poškozený obrázek, model byl schopen predikovat dobře poškození rozmazáním, ale pro složitější poškození i tento přístup selhával [3].
60
Obr. 3.2.5.1: Logaritmický graf maskování v kortexových pásmech. Směrnice ε strmější části charakteristik jsou zleva 1, 0,94, 0,88, 0,82, 0,76 a 0,7, což odpovídá kortexovému filtru pro nejvyšší prostorovou frekvenci až po baseband.
3.2.6 Psychometrická funkce Při modelování odezvy nervových buněk se velmi často využívá sigmoidní funkce. Zde je tato funkce využita k určení pravděpodobnosti detekce rozdílu mezi dvěma obrázky v závislosti na kontrastu a je zde nazývána psychometrickou funkcí. Je definována jako P( C ) = 1 − e
§C· −¨ ¸ ©α ¹
β
.
Rov. 3.2.6.1
P(C) je pravděpodobnost detekce signálu s kontrastem C, která vychází v mezích od 0 do 1. Se vzrůstajícím parametrem α se posouvá psychometrická funkce v ose kontrastu více doprava, v hodnotě kontrastu rovném α je pravděpodobnost detekce přesně 1/2. Hodnota β určuje strmost sigmoidy. Graf psychometrické funkce je uveden na obr. 3.2.6.1. Relativním kontrastem se zde rozumí poměr C/α. Pravděpodobnost detekce rozdílů mezi dvěma obrázky v jednotlivých bodech se určí následovně. Nejprve se určí kontrastový rozdíl pro každý bod obrázků
∆C k ,l [ i , j ] = CG 1k ,l [ i , j ] − CG 2k ,l [ i , j ] =
B1k ,l [ i , j ] BK
−
B 2k ,l [ i , j ] BK
.
Rov. 3.2.6.2
Model využívá globálního kontrastu (viz kap. 2.2.5). ∆C k ,l [ i , j ] je rozdílový kontrast pro kortexové pásmo určené indexy k, l. B1k ,l [ i , j ] a B 2k ,l [ i , j ] jsou filtrované vstupní obrázky kortexovými filtry s indexy k, l. Čísla 1 a 2 ve výše uvedené rovnici označují originál resp. poškozený obrázek.
61
Obr. 3.2.6.1: Psychometrická funkce pro hodnoty α = 1 a β = 4.
Psychometrická funkce se uplatňuje pro výpočet pravděpodobnosti detekce rozdílu pro kortexový kanál určený indexy k, l v bodě o souřadnicích [i, j] podle následujícího vztahu:
( Pk ,l [ i , j ] = 1 − e
− ∆Ck ,l [ i , j ]( Tem [ i , j ])α
)β
,
Rov. 3.2.6.3
kde ∆C je hodnoty již dříve zmiňovaného rozdílového kontrastu (viz rov. 3.2.6.2) a Tem je zvýšení prahu detekce (viz rov. 3.2.5.5). Vypočítaná pravděpodobnost Pkl[i, j] vychází v mezích od 0 do 1. Počet takto určených matic Pkl, které jsou stejně veliké jako vstupní obrázky, je stejný jako počet frekvenčně-orientačních kanálů, tedy 31. Parametr β určuje sklon sigmoidy psychometrické funkce, v algoritmu je zvolena jeho hodnota rovná 4. Parametr α vyjadřuje hodnotu poměru rozdílu kontrastu a maskování na pravděpodobnost. Daly zvolil hodnotu tohoto parametru rovnou -1. Dobrá predikce všech typů poškození obrazu ale žádá změnu tohoto parametru v závislosti na typu poškození. Nastavením parametrů modelu VDP se podrobně věnuje kapitola 3.2.10. Znaménková funkce pravděpodobnosti pro příslušný kanál vyjadřuje skutečnost, jestli poškozený obrázek oproti originálu vnímáme světleji nebo tmavěji. Určí se ze znaménka kontrastu a je váhována pravděpodobností detekce. Zde je uveden výpočet znaménkové funkce pro příslušný kortexový kanál určený indexy k, l v bodech obrázku [i, j] : S k ,l [ i , j ] = sign( ∆C k ,l [ i , j ])Pk ,l [ i , j ] .
Rov. 3.2.6.4
Znaménková funkce Sk,l[i, j] vychází v hodnotách od -1 do 1. Fukce sign je v modelu definována pro reálná čísla x jako: sign( x ) =
x . x
62
3.2.7 Sloučení pravdě podobností frekvenčně-orientačních kanálů
z
jednotlivých
V předchází kapitole byly vypočítány pravděpodobnosti detekce rozdílů pro všechny frekvenčně-orientační kanály modelu. Celková pravděpodobnost detekce rozdílů mezi dvěma obrázky (originálem a poškozeným obrázkem) je sloučena jako:
∏1 − P
PT [ i , j ] = 1 −
k ,l
[ i, j ] ,
Rov. 3.2.7.1
k =1 ,K ;l =1 ,L
kde Pkl[i, j] jsou pravděpodobnosti detekce pro kanál určený indexy k, l. Takto vznikne matice pravděpodobností stejně velká jako oba vstupní obrázky. Její prvky vychází v rozmezí od 0 do 1. Celkové znaménko pravděpodobnosti, přesněji matice se znaménky celkové pravděpodobnosti se určí:
(
)
ST [ i , j ] = sign ¦k ,l S k ,l [ i , j ] .
Rov. 3.2.7.2
Výsledné znaménko (+1 nebo -1) v matici na pozici [i, j] je tedy dáno převažujícími znaménky ve znaménkové funkci Sk,l[i, j] . Výslednou matici neboli mapu pravděpodobnosti se znaménkem, tj. s určením, jestli je rozdíl poškozeného obrázku oproti originálu vnímán světleji nebo tmavěji dostaneme jako SPT [ i , j ] = PT [i, j] ST [ i , j ] .
Rov. 3.2.7.3
Takto vytvořená mapa pravděpodobnosti detekce by měla dobře odrážet predikování různých typů poškození, jako jsou rozmazání, konturování (hranování), poškození kompresí nebo poškození šumem. Mapa pravděpodobnosti detekce je někdy nazývána rovněž mapou viditelných diferencí. Její prvky v bodech [i, j] vycházejí v rozmezí od -1 do 1.
3.2.8 Metody vizualiza ce mapy viditelných diferencí Aby mohla být mapa viditelných diferencí zobrazena na monitoru musí být nejprve přetransformována. Pro model byly vyvinuty dvě metody vizualizace. První z nich vykresluje mapu pravděpodobností (mapu viditelných diferencí) v odstínech šedi. Pokud uvažujeme display, který je schopný zobrazit intenzity (bezrozměrná čísla v obrázkové matici) od 0 do Imax, mapa může viditelných diferencí být zobrazena jako Map [ i , j ] = SPT [ i , j ]
I max I max + . 2 2
Rov. 3.2.8.1
SPT zde označuje znaménkovou pravděpodobnost z rov. 3.2.7.3. Předpokládejme, že hodnota intenzity rovná 0 je na monitoru reprezentována černou a hodnota Imax bílou. V osmibitové reprezentaci šedotónové intenzity obrázku je hodnodnota Imax rovna 255. Body takto vytvořené mapy, které vidíme světleji na originálu oproti poškozenému obrázku s pravděpodobností 1, jsou v mapě zobrazeny bílou barvou. Se snižující se pravděpodobností rozdílu jsou body mapy zobrazeny tmavěji až po pravděpodobnost -1, která je zobrazena černou barvou. Takto je využitý celý rozsah šedotónové stupnice. Problémem šedotónové mapy je, že nevidíme mapu současně se vstupními obrázky.
63
Obr. 3.2.8.1: Originální šedotónový obrázek Zerga, 256 odstínů šedi, velikost 150 na 150 bodů. Obrázek převzat ze hry Starcraft. Vpravo stupnice šedi.
Obr. 3.2.8.2: Obrázek Zerga poškozený rozmazáním pomocí filtru typu Gaussián.
64
Obr. 3.2.8.3 Rozdílový obrázek, který vznikne odečtením originálního obrázku Zerga od poškozeného obrázku. Světle jsou zobrazeny kladné diference, tmavě záporné.
Obr. 3.2.8.4: Šedotónová mapa viditelných diferencí s intenzitami šedi od 0 do 255 pro poškození rozmazáním.
Druhý přístup, který tento problém řeší, využívá zakreslení mapy do originálního obrázku pomocí barev. Předpokládejme že barevný libovolný obrázek může být složen ze tří hladin, které jsou tvořeny barevnými složkami červenou (R), zelenou (G) a modrou (B). Nejprve je zkopírován originální (nepoškozený) šedotónový obrázek do všech tří hladin. Pokud tyto hladiny opět složíme, výsledek se jeví jako původní šedotónový obrázek. Pro zakreslení mapy viditelných diferencí jsou využity složky červené a modré. Kladné prvky mapy pravděpodobnosti jsou zakresleny červeně a záporné modře. Přesný popis mapování do
65
tří barevných složek, který umožňuje nejlepší vizualizaci mapy viditelných diferencí je popsán: R [ i , j ] = IM [ i , j ] + SPT [ i , j ] I max G [ i , j ] = IM [ i , j ]
,
Rov. 3.2.8.2
B [ i , j ] = IM [ i , j ] − SPT [ i , j ] I max
kde IM[i, j] značí originální (nepoškozený) obrázek, SPT[i, j] potom výslednou matici pravděpodobnosti se znaménkem, která byla odvozena v kap. 3.2.7. Tak diference s kladnou pravděpodobností přispívá kladně k červené složce a záporně k modré složce a naopak. Tóny původního obrázku vidíme v důsledku zakreslení mapy do obrázku zkresleně, ale pro sledování míst a tvarů poškození toto zobrazení postačuje.
Obr. 3.2.8.5: Barevná mapa viditelných diferencí pro obrázek Zerga a poškození rozmazáním, kladné diference jsou zakresleny červeně, záporné modře. Použita osmibitová intenzita barev R, G, B.
Na obrázku 3.2.8.4 šedotónové mapy viditelných diferencí i na obrázku barevné mapy 3.2.8.5 pro poškození rozmazáním Gaussovským filtrem je zřetelně patrná podobnost s rozdílovým obrázkem 3.2.8.3. Rozmazání nejvíce vnímáme v regionech obrázku s ostrými hranami. To modeluje i prediktor viditelných diferencí a dokládá to mapa viditelných diferencí. Na příkladu obrázku Zerga se to projevuje tak, že v oblastech hlavy a těla Zerga predikuje model značně veliké diference. Naproti tomu v oblasti obrázku, kde je v originálním obrázku značně neostré slunce (pravý horní roh), nepredikuje model téměř žádné rozdíly.
66
3.2.9 Určení míry kva lity obrazu z mapy viditelných diferencí Pro srovnání se subjektivními testy je zapotřebí kvalitu obrazu ohodnotit jedním číslem. Toto zajišťuje IQM, která vypočítává z mapy viditelných diferencí jedno číslo určující kvalitu obrazu. Pro VDP jsou navrženy dvě míry kvality obrazu, které jsou textu v textu nazývány IQM1 a IQM2. První míra kvality obrazu je navržena: M N 1 IQM 1 = ⌡ 1 − P [ i , j ] .100 [%] ⌠ ⌠ i =1 j =1 T MN
pro PT [ i , j ] = 1 ,
Rov. 3.2.9.1
kde PT[i, j] je pravděpodobnost detekce rozdílu v pixelu o souřadnicích [i, j] , M je horizontální a N vertikální rozměr mapy pravděpodobnosti. Tato IQM sumuje pouze ty prvky mapy viditelných diferencí, které jsou rovny jedné. Bere tedy v úvahu jen ty pixely, kde vidíme rozdíly mezi originálním a poškozeným obrázkem s pravděpodobností rovnou jedné. Druhá míra kvality obrazu sumuje všechny prvky mapy viditelných diferencí a je definována: M N 1 § · IQM 2 = ¨ 1 − P [ i , j ] ¸.100 [% ] ¦ i =1 ¦ j =1 T © MN ¹
pro všechna PT [ i , j ] .
Rov. 3.2.9.2
Hodnoty obou IQM se pohybují od hodnoty 100 % pro naprosto nepoškozený obraz až po hodnotu 0 %. Toto hodnocení odpovídá stostupňové škále použité při subjektivních testech a umožňuje jednoduché srovnání (viz kap. 2.5.1). Pro míry kvality obrazu vždy platí, že IQM 1 ≥ IQM 2 , pro všechny obrázky a nastavení parametrů modelu VDP. V původním Dalyho návrhu byla míra kvality obrazu určená jako IQM Daly = max( PT [ i , j ]) . Tento výpočet ale nebere v úvahu to, že obraz může být poškozen jen v jednom nebo několika málo bodech. V mapě pravděpodobnosti se to projeví hodnotami pravděpodobnosti v těchto pixelech rovnými jedné. Také výsledná IQM je v tomto případě rovná jedné, což vyjadřuje nejhorší kvalitu obrazu, přitom tak malé poškození obvykle ani nevnímáme.
3.2.10 Nastavení diferencí
param etrů
prediktoru
viditelných
Algorimus VDP vychází z původního Dalyho popisu. Návrh je v několika bodech upraven, aby model lépe odpovídal realitě. Autoři [3, 17, 18] se příliš nevěnují analýze parametrů jednotlivých částí modelu za různých podmínek. Zatím nebylo publikováno ani srovnání modelu VDP se subjektivními testy. Při analýze návrhu VDP je třeba se zabývat dvěma otázkami. Predikce různých typů poškození Model byl testován na poškození rozmazáním, zostřením (konturováním), směrovým rozmazáním, aditivním šumem (s normálním a Gaussovským rozložením) a různými kompresemi. Poškození obrázků bylo záměrně do obrázků přidáno. Pro úpravu obrázků byl použit program Adobe Photoshop 5.0. Nejvyšší vliv na predikci různých typů poškození má psychometrická funkce (rov. 3.2.6.3). V návrhu psychometrické funkce se efekt poškození dá modelovat parametrem α. V zásadě lze typy poškození rozdělit do dvou skupin. První z nich je hranové poškození obrazu. Sem spadají rozostření, konturování a směrové rozmazání. Obrázky (originál a poškozený obrázek) se liší především v oblastech
67
ostrých jasových přechodů. V těchto případech nejlépe vyhovuje α v rozsahu 1 - 1,5. Mapa viditelných diferencí jednoznačně ukazuje, že body mapy s největší pravděpodobností detekce rozdílů leží právě v oblasti hran obrázku. To je vidět na obrázku Zerga (viz mapy na obr. 3.2.8.4 a 3.2.8.5), který byl záměrně poškozen rozmazáním. Druhý typ poškození je poškození artefakty (šum, artefakty komprese). Toto poškození se na tvaru hran v obraze příliš neprojevuje. V tomto případě se značně uplatňuje maskovací efekt. V oblastech s hustou texturou poškození příliš nevnímáme, ale v oblastech s jednoduchou texturou HVS vnímá artefakty poškození velmi výrazně. Při tomto typu poškození je třeba zvolit zápornou hodnotu parametru α. Hodnota parametru α rovná -1,5 až -2 dobře funguje jak pro poškození aditivním šumem, tak pro většinu kompresí. Poškození aditivním šumem s gaussovským rozložením bylo testováno na obrázku "Reliéf" (viz obr. 3.2.10.1).
Obr. 3.2.10.1: Vlevo originální obrázek "Reliéf". Převzato z [18]. Vpravo obrázek poškozený gaussovským šumem.
Obr. 3.2.10.2: Vlevo rozdílový obrázek vzniklý odečtením originálního obrázku reliéfu od obrázku poškozeného aditivním šumem. Vpravo šedotónová mapa viditelných diferencí pro nastavení parametru α = -2.
V obrázku se vyskytují tři regiony s různou složitostí textury. Mapa viditelných diferencí na obr. 3.2.10.2 ukazuje, že nejvíce diferencí způsobených šumem je predikováno v regionu pozadí, který je monochromatický. Dále následuje reliéf vlevo, který má jednodušší texturu než reliéf vpravo. Nejméně rozdílů vykazuje mapa v oblastech reliéfu vpravo, který má z celého obrázku nejsložitější texturu. To odpovídá i lidskému vjemu v tomto případě.
68
Obrazové komprese mohou být považovány za poměrně komplexní poškození obrazu a hodnota parametru α značně závisí na kompresní metodě. Mapa viditelných diferencí v tomto případě dokládá, že největší pravděpodobnost detekce přítomnosti artefaktů leží v oblastech obrázku s jednoduchou texturou (viz obr. 3.2.12.1 - 3.2.12.4). Predikce pro různé druhy obrázků Bylo vygenerováno několik jednoduchých testovacích obrázků (čára, hvězdička, sinus, reliéf) a dále bylo testováno na několika obrázcích komplexních scén (Lena, Zerg). Všechny obrázky jsou uvedeny na přiloženém CD ROM. Pokusy ukázaly, že vliv maskovacího efektu a je značně závislý na volbě směrnice ε z rovnice 3.2.6.1. Nejprve bude diskutována hodnota parametru ε bez simulace efektu učení, tedy stejná hodnota ε pro všechny kortexové kanály. Parametr ε se pohybuje pro všechny obrázky v rozmezí od 0,4 do 1. Obecně je možné říci, že čím komplexnější je obrázek, tím větší hodnotu parametru ε VDP vyžaduje. Například pro poškození rozmazáním u jednoduchého obrázku hvězdičky (obr. 3.2.10.3) nejlépe predikuje model pro hodnotu směrnice ε rovnou 0,4.
Obr. 3.2.10.3: Vlevo originální obrázek hvězdičky. Vpravo rozmazaný obrázek pomocí gaussovského filtru.
Obr. 3.2.10.4: Vliv parametru ε na mapu viditelných diferencí. Vlevo je uvedena šedotónová mapa viditelných diferencí pro obrázek hvězdičky a poškození rozmazáním pro směrnici ε = 0,4, vpravo mapa pro ε = 1.
69
Pro vyšší hodnoty ε je v mapě viditelných diferencí pravděpodobnost detekce rovná jedné v příliš širokém okolí hvězdičky, ačkoliv HVS tam není schopen už žádné rozdíly zachytit. Také se projevují zázněje jednotlivých kortexových kanálů. Dobrou a špatnou volbu parametru ε na šedotónové mapě viditelných diferencí demonstruje obr. 3.2.10.4. Naproti tomu pro komplexnější obrázek Zerga (obr. 3.2.8.1) model funguje nejlépe pro ε = 0,6 a pro obrázek Leny až pro hodnotu ε = 0,9. Měřítko komplexnosti obrázku je možné určit z intenzity obrázku poměrně těžko. Jednou z možností by bylo obrázek rozmazat (např. filtrem typu Gaussián) a zkoumat MSE mezi původním a rozmazaným obrázkem. Z hodnoty MSE je možné následně určit hodnotu parametru ε. Snižování hodnoty ε pro kortexový kanál s nižší prostorovou frekvencí, která má simulovat efekt učení odpovídá realitě. V modelu byl zvolen rovnoměrný pokles hodnoty ε. Pro kortexové kanály s největší prostorovou frekvencí je hodnota ε rovná εmax. Hodnota ε postupně klesá pro kanály s nižší frekvencí až na hodnotu 70% hodnoty εmax pro kanál základního pásma (baseband). Vliv strmosti psychometrické funkce Strmost sigmoidy psychometrické funkce je dána parametrem β z rov. 3.2.6.1. Zvyšování parametru β vede ke zvýšení gradientu v mapě pravděpodobnosti detekce (mapě viditelných diferencí). To se projeví zvýšeným výskytem nul a jedniček v mapě na místo hodnot ležících v tomto intervalu. Hodnota β rovná 4 dobře funguje pro všechny typy poškození i pro všechny typy obrázků, pokud jsou dobře nastaveny ostatní parametry modelu.
3.2.11 Výpočetní nároč nost algoritmu VDP Model VDP je implementován v prostředí MATLAB 6.0. Je navržen pro šedotónové obrázky. Je rozčleněn celkem do sedmi skriptů. V souladu se schématem modelu VDP na obr. 3.2.1 zajišťují jednotlivé skripty (funkce) následující operace: • • • • • • •
Načtení a převzorkování obrázků Amplitudovou nelineární transformaci Modelování CSF Rozdělení do kortexových kanálů a výpočet maskování Výpočet pravděpodobnosti detekce pomocí psychometrické funkce Vizualizace mapy viditelných diferencí Výpočet výsledné IQM z mapy viditelných diferencí
Celý algoritmus VDP je značně výpočetně náročný. Pokud je obraz příliš velký musí být začátku zmenšen (převzorkován). K tomu je použito bikubické interpolace, která dává pro většinu obrázků nejlepší výsledky ve srovnání s jinými metodami interpolace (metoda nejbližších sousedů, bilineární interpolace). Nelineární amplitudová transformace je nejméně náročná z celého algoritmu. Modelování CSF vyžaduje FFT transformaci, ale ta je také v MATLABu velmi dobře optimalizována, tak výpočet není příliš náročný. Výpočetně nejnáročnejší z algoritmu VDP je rozdělení do kortexových kanálů a výpočet maskování. Nejprve jsou vypočítány matice 31 kortexových filtrů, jejichž velikost je stejná jako velikost vstupních obrázků. Dále jsou Fourierovská spektra obou obrázků (originálu i poškozeného obrázku) vynásobena postupně maticemi kortexových filtrů. Následně je ještě pro každý kanál u obou obrázků vypočítáno zvýšení prahu detekce rozdílů. Dosti výpočetně náročná je i část, která pomocí psychometrické funkce určuje ve všech 31 kanálech pravděpodobnost detekce a následně tyto
70
kanály slučuje a určuje znaménko pravděpodobnosti. Vizualizace mapy pravděpodobnosti (viditelných diferencí) a výpočet IQM probíhá velmi rychle. Byl změřen čas predikce rozdílů modelem vytvořeným v MATLABu pro obrázek převzorkovaný na různou velikost. Pro test byly použity dva obrázky o velikosti 512 x 512 pixelů, které byl postupně převzorkovány od velikosti 100x100 pixelů až po 300x300 pixelů. Čas výpočtu nezávisí na obsahu vstupních obrázků, pouze na jejich velikosti. Algoritmus byl testován na PC s procesorem Intel Celeron 466 MHz, 128 MB RAM a systémem Windows 2000. Následující tabulka ukazuje výpočetní náročnost jednotlivých částí VDP.
Část algoritmu / Vel. strany obrázku [pixelů] Načtení a převzorkování Nelineární transformace Modelování CSF Maskování a výpočet zvýšení prahu detekce Psychometrická funkce a sloučení prav. Výpočet IQM Celkový čas výpočtu algoritmu VDP
100 7,75 0,13 0,26 15,2 2,31 0,01 25,8
Čas výpočtu [s] 150 200 250 300 7,29 7,76 8,7 8,97 0,32 0,64 0,98 1,5 0,52 0,91 1,62 2,32 35,4 63,7 101 151 8,31 13,4 34,5 77,3 0,07 0,7 0,95 1,58 52,1 87,8 152 247
Tab. 3.2.11.1: Přibližný čas výpočtu VDP a jednotlivých jeho částí. Použit byl obrázek o velikosti 512 x 512.
Algoritmus je rovněž značně paměťově náročný. V okamžiku výpočtu psychometrické funkce musí být uloženo celkem ( 31.4 + 1 ). p = 249. p čísel, kde 31 je počet kanálů VDP, 4 je počet obrazových matic v jednom kanálu pro oba obrázky (matice jasů a matice zvýšení prahu detekce). Navíc je zapotřebí 1 matice na uložení hodnot pravděpodobnosti detekce. Číslo p vyjadřuje počet pixelů ve vstupních obrázcích. Předpokládejme, že jsou čísla v MATLABu v obrazových maticích jednotlivých kortexových kanálu uložena ve formátu double o velikosti 8B. Pokud uvažujeme, že výpočet budeme provádět pro vstupní obrázky převzorkované na velikost 300x300 pixelů, vyžaduje výpočet 90 MB paměti. Takovýto výpočet paměťové náročnosti je pouze orientační, protože využití paměti závisí rovněž na jejím stránkování a přidělování paměti operačním systémem.
3.2.12 Hodnocení výsle dků VDP a porovnání s výsledky subjektivních testů Podmínky pro měření subjektivních testů Metoda subjektivních testů DSCQS byla implementována jako jedna z úloh předmětu Televize na katedře radioelektroniky FEL ČVUT. Odtud také pocházejí naměřená data, která mi poskytl Ing. Jaroslav Dušek, použitá v této práci. Data slouží k hodnocení korelace výsledků modelu HVS se subjektivními testy [23]. Měření byla provedena na studiovém monitoru SONY Trinitron BMV–20F1E s kontrolní jednotkou BKM–10R a měřicí sondou. Pro spouštění testů byl použit skript v prostředí MATLAB. Testy byly provedeny na 14 pozorovatelích. Testovalo se celkem 5 šedotónových obrázků (názvy obrázků: Kristýny, Ovoce, Plakáty, Staromák a Zahrada). Bylo použito pět 5 kompresních metod (DCT, fraktálová komprese, JPEG, JPEG2000 a Lurawave). Všechny obrázky byly ve formátu BMP. Fraktálová kompresní metoda je navržena pro
71
čtvercové obrázky, proto i všechny obrázky potřebné pro tuto metody byly převzorkovány na čtvercovou velikost. Všechny obrázky jsou uvedeny na přiloženém CD ROM. Srovnání výsledků modelu a výsledků subjektivních testů Každý obrázek byl zkomprimován všemi kompresními metodami s pěti postupně se zvyšujícími kompresními poměry. S nárůstem kompresního poměru se rovněž zvyšuje hodnota MSE a RMSE mezi originálem a komprimovaným obrázkem. Poměry u jednotlivých kompresních metod se liší [23]. Např. pro kompresní metodu, která používá diskrétní kosinové transformace (ozn. DCT), se kompresní poměr pro jednotlivé obrázky pohybuje v rozsahu od 1 do 10. Pro metodu JPEG2000 je rozsah kompresních poměrů od 1 do 151. V příloze jsou uvedeny grafy srovnání výsledků subjektivních testů s mírami kvality obrazu IQM1 a IQM2 (viz kap. 3.2.9), které jsou výstupem VDP. U subjektivního hodnocení kvality obrazu jsou uvedeny chybové úsečky, které udávají rozptyl hodnot mezi pozorovateli. Pro výpočet pomocí modelu VDP byly všechny obrázky převzorkovány na velikost 150 x 150 pixelů. To vyžadovala především rozumná doba výpočtu. Algoritmus VDP byl použit celkem pro 125 dvojic obrázků (originál a komprimovaný obrázek). Pro test srovnání kompresí nebylo nastavení parametrů modelu měněno. V příloze uvedené grafy uvádí závislost subjektivního hodnocení a obou IQM na kompresním poměru. Kvalita obrazu se zpravidla se zvyšujícím se kompresním poměrem snižuje. Příklad tohoto grafu závislosti hodnocení kvality na kompresním poměru pro předlohu "Staromák" a kompresi JPEG je uveden na obr. 3.2.12.6. Pro demonstraci funkce VDP je uveden originální obrázek (3.2.12.1), komprimovaný obrázek s nejvyšším kompresním poměrem 37,7 (3.2.12.2), rozdílový obrázek (3.2.12.3) a dále šedotónová (3.2.12.4) a barevná mapa viditelných diferencí (3.2.12.5). Bylo provedeno porovnání jednotlivých kompresních metod použitých na obrázek "Staromák". Grafy na obrázcích 3.2.12.7 - 3.2.12.9 demonstrují srovnání subjektivní kvality obrazu, míry IQM1 a míry IQM2 pro použité komprese.
72
Obr. 3.2.12.1: Nekomprimovaný obrázek s názvem "Staromák".
Obr. 3.2.12.2: Obrázek "Staromák" po kompresi JPEG (kompresní poměr 37,7).
73
Obr. 3.2.12.3: Rozdílový obrázek vzniklý odečtením komprimovaného obrázku "Staromák" od nekomprimovaného obrázku.
Obr. 3.2.12.4: Šedotónová mapa viditelných diferencí (pravděpodobnosti detekce rozdílů mezi nekomprimovaným a komprimovaným obrázkem "Staromák").
74
Obr. 3.2.12.5: Barevná mapa viditelných diferencí pro obrázek "Staromák" a kompresi JPEG s kompresním poměrem 37,7.
JPEG - Obr. Staromák - 14 pozorovatelů
Hodnocení [%]
100 90 80 70 60
Subj.
50 40
IQM1 IQM2
30 20 10 0 1,0
10,2
14,2
18,0
25,9
37,7
Kompresní poměr
Obr. 3.2.12.6: Příklad srovnání výsledků subjektivních testů a měr IQM1 A IQM2 pro obrázek "Staromák" a kompresní metodu JPEG.
75
Obr. 3.2.12.7: Srovnání subjektivního hodnocení jednotlivých metod komprese pro obrázek "Staromák". Využita byla metoda testů DSCQS. Obrázek byl hodnocen 14-ti pozorovateli.
Obr. 3.2.12.8: Výpočet metriky IQM1 pro různé druhy komprese u obrázku "Staromák"
76
Obr. 3.2.12.9: IQM2 Metrika pro obrázek "Staromák" a různé druhy komprese.
Ze srovnání hodnocení jednotlivých kompresních metod se dá hodnotit i korelace jednotlivých metod se subjektivním vnímáním kvality obrazu. Je patrné, že např. metoda DCT i pro velmi nízký kompresní poměr již obraz značně poškozuje. Naopak u komprese JPEG2000 i pro vysoké kompresní poměry (nad 100) se subjektivní kvalita obrazu příliš nesnižuje. Hodnocení jednotlivých kompresních metod není náplní této práce, pozornost této tématice je věnována v [2] nebo v [7]. Hodnoty obou IQM měr korelují s výsledky subjektivních testů. U některých typů kompresí jako např. u DCT komprese se míry od subjektivního hodnocení v některých bodech odchylují. Je třeba vzít v úvahu, že VDP není specificky zaměřen jen na poškození kompresí, ale na poškození obrazu obecně. Lepší korelace mezi výstupem VDP a kompresní metodou by se dalo dosáhnout nastavením parametrů prediktoru na danou kompresi. Obecně je možno říci, že obě IQM neklesají s kompresním poměrem tolik, jako klesá subjektivní hodnocení kvality obrazu. Tento efekt se projevuje nejvíce u kompresí DCT a Lurawave.
77
3.3 Grafické uživ atelské rozhraní modelu Pro model HVS bylo v MATLABu vytvořeno grafické uživatelské rozhraní GUI (Grafical User Interface), které umožňuje provádět simulace a testování pro dva vstupní obrázky. Grafická podoba hlavního okna GUI je vidět na obr. 3.3.1 Pro tvorbu GUI byl využita funkce "guide", která je součástí MATLABu 6.0 a umožňuje jednoduchou práci s grafickými prvky. Grafické rozhraní se spustí pomocí funkce nazvané "ModelGUI", která je rovněž uložena na přiloženém CD ROM.
Obr. 3.3.1: Grafické rozhraní modelu HVS
GUI umožňuje načtení dvou obrázků z disku. Předpokládá se, že se jedná o obrázky stejné velikosti, nepoškozený a poškozený obrázek. Pro výpočet VDP jsou oba obrázky převzorkovány na čtvercovou velikost uvedenou v poli označeném "Velikost strany převzorkování". Výběr obrázku je možný buď pomocí zadání jména souboru v textovém poli nahoře v okně nebo pomocí výběru souboru v menu, které se objeví po stisku tlačítka "Načíst". Program umožňuje načtení obrázku ve formátu BMP nebo JPEG. V panelu nazvaném "Pozorovací podmínky a parametry modelu" je možné nastavit celkem 8 parametrů, jejichž význam je vysvětlen v kapitolách 3.1 a 3.2. Zaškrtávací políčko s textem "Aut." umožňuje volbu pozorovací vzdálenost buď automaticky na čtyřnásobek velikosti obrázku nebo manuálně na hodnotu v textovém poli. Program je doplněn kontextovou nápovědou, která se objevuje při zastavení kurzoru myši nad některým z grafických prvků GUI. Stiskem tlačítka PSF je spuštěna simulace rozptylu na oční zorničce. Při označení zaškrtávacího pole s nápisem "Plot" jsou vykreslovány všechny potřebné obrázky do dalších oken (figur). Do textového pole, které je umístěno ve spodní části hlavního okna programu, jsou vypisovány výsledky. V tomto případě jsou to MSE mezi obrázky 1 a 2 a obrázky, které vzniknou konvolucí těchto obrázků s maskou filtru vytvořenou podle analytického popisu PSF. To je vidět na obr. 3.3.1.
78
Tlačítko "Prediktor" spouští výpočet algoritmu VDP pro obrázky 1 a 2. Pokud je označeno pole "Plot", jsou vykresleny oba vstupní obrázky, rozdílový obrázek a dále šedotónová a barevná mapa viditelných diferencí. Vpravo vedle obrázků je zobrazena stupnice šedi. Při pohybu kurzoru nad body obrázku se uživateli zobrazuje v poli pod obrázkem hodnota intenzity v určitém bodě. V případě barevné mapy viditelných diferencí se zobrazují intenzity barevných složek (červená, modrá, zelená) v určitém bodě obrázku. Při výpočtu prediktoru se vypisují časy výpočtu jednotlivých částí algoritmu VDP do textového pole. Jsou vypočteny míry kvality obrazu IQM1 a IQM2 a jejich hodnoty jsou rovněž přidány do textového pole. Tlačítko s názvem "MSE" slouží k výpočtu střední kvadraticé odchylky mezi obrázkem 1 a obrázkem 2. Stiskem tlačítka "Zobrazit Obrázky" jsou v dalších oknech zobrazeny obrázek 1, obrázek 2 a rozdílový obrázek. Tlačítko "Zavřít Figury" zavře všechna otevřená okna mimo hlavního okna GUI. U všech vykreslovaných obrázků je pozměněn histogram obrázků použitím funkce "imagesc" implementované v MATLABu. To umožňuje zobrazení obrázku v šedotónové škále. Stupnice šedi, která je umístěna vpravo vedle obrázků, však odpovídá reálné hodnotě intenzity obrázků. Vymazat text v poli textového výstupu je možné stiskem tlačítka "Smazat text".
79
4 Závěr V prostředí MATLAB byl implementován prediktor viditelných diferencí (VDP), který vychází z Dalyho návrhu a byla ověřena jeho funkčnost. Původní návrh byl v několika bodech pozměněn a vylepšen. Model byl testován pro různé druhy šedotónových digitálních obrazů a pro různé typy poškození. VDP je schopen pomocí mapy viditelných diferencí dobře predikovat místa v obrázku, kde člověk vnímá nejvyšší rozdíly mezi originálem a poškozeným obrázkem. Model dobře funguje pro jednoduchá poškození jako jsou rozmazání, směrové rozmazání, zostření (konturování) nebo poškození aditivním šumem. Je však schopen predikovat i složitější poškození, jakými jsou různé druhy obrazových kompresí. Modularita modelu umožňuje testovat jednotlivé části odděleně. Pro model bylo vytvořeno grafické uživatelské rozhraní, které umožňuje jednoduché ovládání a změnu parametrů modelu. Byl potvrzen předpoklad korelace měr kvality obrazu, které jsou výstupem modelu, se subjektivními testy. Porovnání výsledků VDP i měření subjektivních testů bylo provedeno na 5 obrázcích, bylo použito 5 kompresních metod a každý obrázek byl komprimován celkem s pěti kompresními poměry. Subjektivní testy byly změřeny na 14 pozorovatelích. Ukázalo se, že míry kvality obrazu dobře korelují se subjektivními testy, i pokud se parametry modelu během testování nemění. Byl vytvořen model rozptylu na oční zorničce, který popisuje bodová rozptylová funkce oka. Bylo zjištěno, že za běžných pozorovacích podmínek rozptyl na zorničce příliš neovlivňuje obraz na sítnici. Začleňovat tuto část je tedy nutné, pouze pokud to vyžadují pozorovací podmínky (např. velká vzdálenost pozorovatele od monitoru). Případné začlenění této části je naprosto bezproblémové a její výstup může být použit jako vstup pro VDP. Bylo zjištěno, že model VDP je značně závislý na nastavení jeho parametrů. Změna typu obrazu nebo změna testovaného poškození obrazu vyžaduje změnu nastavení těchto parametrů. Model by v budoucnosti mohl být doplněn o části, které určují parametry modelu v závislosti na vlastnostech vstupních obrazů a v závislosti na typu predikovaného poškození. Zúžení aplikace modelu by mohlo vést k zpřesnění predikce a ke zvýšení korelace se subjektivními testy. Zajímavým úkolem by bylo doplnit model o barevnou citlivost vidění. Problémem modelu VDP je jeho velká výpočetní náročnost. Ta je dána především vícekanálovým zpracováním obrazu a výpočtem maskování a mapy viditelných diferencí. Nemožnost měření a testování in-vivo na pacientech a dále neobjasněnost přesné funkce sítnice a zrakové dráhy návrh modelu HVS značně komplikuje. Přesto mají modely lidského vidění a počítačové hodnocení kvality obrazu v současnosti velké uplatnění v technických a lékařských aplikacích.
80
5 Klíčová slov a a rešeršní zdroje Klíčová slova Human visual system model, Human eye model, Visible difference predictor, Subjective image quality, Image quality metric, Just noticeable difference, Point spread function, Contrast sensitivity function, Retina receptors, Cornea model. Rešeršní zdroje • Knihovní služba Dialog - Databáze Inspec [http://www.knihovny.cvut.cz] • Databáze vědeckých článků a citací CiteSeer [http://www.citeseer.com] • Databáze lékařské literatury Medline - PubMed [http://www.ncbi.nlm.nih.gov/PubMed] • Amazon.com [http://www.amazon.com] • Vyhledávací server Google.com [http://www.google.com]
81
6 Komentova né reference [1] WESTHEIMER, G. a kol. The eye as an optical instrument. In Handbook of Perception and Human Performance, John Wiley and Sons, New York, USA, 1986. Volume 1- Sensory Processes and Perception - Chapter 2.4. Jedná se o 1 díl sborníku, který se zaměřuje na studium struktury a funkce lidského zraku a adaptaci buněk oka na světlo, podpořenou mnoha provedenými pokusy. [2] OSBERGER, W. Perceptual Vision Models for Picture Quality Assesment and Compression Applications. Doctoral thesis, Queensland University of Technology, Brisbane, Austrálie 1999. Doktorská práce, která pojímá formou rešerše subjektivní vnímání kvality obrazu, zvláště se zaměřuje na aplikace pro komprese a subjektivní hodnocení. [3] DALY, S. The visible difference predictor: An algorithm for assessment of image fidelity. In Digital Images and Human Vision. Massachusetts Institute of Technology, USA, 1993. Návrh prediktoru viditelných diferencí využitelný pro hodnocení kvality obrazu. [4] KUMBAR, M., BETTELHEIM, F. A. Cornea model: Light scattering patterns from a two dimensional non-random assembly af an anisotropical rods. In: Polymer Journal. č. 7: s. 449452, 1975. Článek popisující model vytvořený pro rozptyl na oční rohovce. [5] BRUCE, V., GREEN, P. R. Visual perception: Physiology, psychology and ecology. 2. vyd. Lawrence Erbalum Associated Ltd., Hove, Velká Británie, 1992. Kniha popisující fyziologii zraku u obratlovců a u člověka. Dále se zaměřuje na principy vidění, rozpoznávání objektů, pohybu a stereovidění. [6] LUBIN, J. The use of psychophysical data and models in the analysis of display performance. In Digital Images and Human Vision. Massachusetts Institute of Technology, USA, 1993. Sarnoffův diskriminační model. [7] NADENAU, M. Integration of hunan color vision models into high quality image compression, Doctoral thesis, Ecole Polytechnique Federale de Lausanne. Lausanne, Švýcarsko 2000. Disertace s tématem využití modelu HVS pro zlepšení kvality obrazové komprese. [8] FRESE T., BOUMAN, C. A. AND ALLEBACH, J. P. A Methodology for Designing Image Similarity Metrics Based on Human Visual System Models. Technical Report, School of Electrical and Computer Engineering, Purdue University, West Lafayette, USA 1997. Report popisuje užití Vícekanálového modelu lidského vidění využitý pro kontextové vyhledávání v obrazových databázích. [9] SCHEERER, K. P., EGGERT, H., GUTH, H. a kol. Structural mechanics of biological tissue of the human eye. Report, Institut für Angewandte Informatik, Forschungszentrum Karlsruhe GmbH, 1 Städtisches Klinikum Karlsruhe, Augenklinik, Karlsruhe, Německo, 1998. Metodou konečných prvků popsaný model rohovky, vyvinutý podle post mortem testů, který by měl sloužit pro chirurgické operace rohovky.
82
[10] BARBU, D.: Biomechanical human eye model. In Buletin of Transylvania University of Brasov, Brasov, Rumunsko 2000. Model sklivce a diferenciální rovnice charakterizující pohyb jednotlivých bodů sklivce při pohybu oka. [11] BLACK, D., PANCHNATHAN, S. Using a model of human visual system to identify and enhance object contours in natural images. In: Image and video communications and processing, Arizona State University, USA 2000. Za hledání kontur a segmentaci v 2D obrazech je zodpovědný LGN a visual cortex. [12] ZETZSCHE, C., HAUSKE, G. Multiple chanel model for prediction of subjective image quality. In: Human vision, visual processing amd digital display, Lehrstuhl fuer Nachrichttechnik, Technische Universitaet München, Mnichov, Německo 1989. Víceúrovňový model lidského visuálního systému využívající pyramidový rozklad, orientačně selektivní Gaborovy filtry a maskování. [13] WESTEN, S.J.P, LAGENDIJK, R. L., BIEMOND, J. Perceptual image quality based on a multiple channel HVS model. Department of electrical engineering, Delft University of Technology, Nizozemí 1995. Vícekanálový HVS model použitelný pro obrazovou kompresi. [14] AVCIBAS, I. a kol. Statistical Evaluation of Image Quality Measures. Department of electrical engineering, University Bursa, Turkey; Department of electrical engineering, Bogazici University, Istambul, Turkey; Department of electrical engineering, University of Nebraska at Lincoln, USA, 1999. Statistický přístup k mírám podobnosti obrázků, diferenční, korelační, spektrální, kontextové a na HVS založené míry. [15] FRESE, T., BOWMAN, CH. A., ALLEBACH, J. P. A Metodology for Designing Image Similarity Metrics Based on Human Visal System Models. School of Electrical and Computer Engineering, Purdue University, West Lafayette, USA 1996. Míra podobnosti obrázků, využitá pro obsahové vyhledávání v databázi založená na vícekanálovémHVS. [16] LAI, Y. K, KUO, J. Image quality measurement using the Haar waveletl. Department of Electrical Engineering - Systems, University of Southern California, Los Angeles, USA 1998. Model založený na HVS používající Haarův wavelet. [17] LI, B., MAYER, G. W., KLASSEN, R. V. A Comparison of two image quality models. Computer Science Department, University of Oregon, Color and Digital Imaging Systems, Xerox Corporation, USA 1998. Shrnutí [3, 6], srovnání Dalyho prediktoru a Sarnoffova diskriminačního modelu. [18] LI, B. And analysis and comparison of two image quality models. Computer Science Department, University of Oregon, USA 1997. Podrobnější analýza a srovnání Dalyho prediktoru a Sarnoffova diskriminačního modelu. [19] BEEGAN, A. P. Wavelet-based image compression using human visual system model. . Department of Electrical Engineering, Virginia Politechnic Institute and State University, Blacksburg, USA 2001. Optimalizovaná waveletová komprese používající model HVS. [20] WATSON, A. B. The cortex transform: Rapid compotation of simulated neural images. Perception and Cognition Group, NASA Ames Research center, Moffet field, USA 1996. Návrh frekvenčně-orientačního rozkladu obrázku pomocí kortexové transformace.
83
[21] ROORDA, A. Human visual system - image formation. College of Opthometry, University of Houston, Houston, USA 2001. Popis optiky oka a jeho aberací. [21] SLANINKA, V. Objektivní hodnocení kvality obrazu. Diplomová práce na katedře radioelektroniky, Fakulta elektrotechnická, ČVUT v Praze, 2002. Implementace Sarnoffova modelu JND a popis metod subjektivních testů. [22] KLÍMA M. a kol. Návody na cvičení z předmětu Televize - Úloha subjektivní kvalita obrazu [online]. Katedra radioelektroniky, Fakulta elektrotechnická, ČVUT v Praze 2002, poslední revize 29. 2. 2002. Dostupné z
Popis měření subjektivních testů metodou DSCQS.
84
Příloha A - Srovnání měr kvality obrazu a subjektivního hodnocení
Hodnocení [%]
DCT - Obr. Kristýny - 14 pozorovatelů
100 90 80 70 60 50 40 30 20 10 0
subj. IQM1 IQM2
1
2,4
2,9
4,2
6,7
10
Kompresní poměr
DCT - Obr. Ovoce - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 1
2,7
4
5,3
7,7
9,6
-20 Kompresní poměr
DCT - Obr. Plakáty - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 1
2,3
3,2
5
-20 Kompresní poměr
85
8,1
9,4
DCT - Obr. Staromák - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 1
2
3,3
4,1
6,7
8,1
-20 Kompresní poměr
Hodnocení [%]
DCT - Obr. Zahrada - 14 pozorovatelů
100 90 80 70 60 50 40 30 20 10 0
subj. IQM1 IQM2
1
2
2,5
3,1
6
7,8
Kompresní poměr
Hodnocení [%]
Fraktál - Obr. Kristýny - 14 pozorovatelů
100 90 80 70 60 50 40 30 20 10 0
subj. IQM1 IQM2
1
7
12
29
Kompresní poměr
86
34
46
Fraktál - Obr. Ovoce - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 -20
1
4
11
35
44
104
-40 Kompresní poměr
Fraktál - Obr. Plakáty - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 1
6
16
22
24
30
-20 Kompresní poměr
Fraktál - Obr. Staromák - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1
40
IQM2 20 0 1
7
18
24
-20 Kompresní poměr
87
28
33
Fraktál - Obr. Zahrada - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 1
5
15
17
23
28
-20 Kompresní poměr
Hodnocení [%]
JPEG - Obr. Kristýny - 14 pozorovatelů
100 90 80 70 60 50 40 30 20 10 0
Subj. IQM1 IQM2
1
16,3
22,8
28,9
36,7
54,6
Kompresní poměr
JPEG - Obr. Ovoce - 14 pozorovatelů
100
Hodnocení [%]
80 60 Subj. IQM1 IQM2
40 20 0 1
14
20
26,5
-20 Kompresní poměr
88
34,6
57,4
Hodnocení [%]
JPEG - Obr. Plakáty - 14 pozorovatelů
100 90 80 70 60 50 40 30 20 10 0
Subj. IQM1 IQM2
1
7,3
11,1
16,6
24,2
39,7
Kompresní poměr
Hodnocení [%]
JPEG - Obr. Staromák - 14 pozorovatelů
100 90 80 70 60 50 40 30 20 10 0
Subj. IQM1 IQM2
1
10,2
14,2
18
25,9
37,7
Kompresní poměr
Hodnocení [%]
JPEG - Obr. Zahrada - 14 pozorovatelů
100 90 80 70 60 50 40 30 20 10 0
Subj. IQM1 IQM2
1
8
10,7
14,8
Kompresní poměr
89
22,8
35,9
Hodnocení [%]
JPEG 2000 - Obr. Kristýny - 14 pozorovatelů
100 90 80 70 60 50 40 30 20 10 0
subj. IQM1 IQM2
1
31
51,1
76,2
101,2
151,4
Kompresní poměr
JPEG 2000 - Obr. Ovoce - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 1
26,1
41,1
66,2
91,2
126,6
-20 Kompresní poměr
JPEG 2000 - Obr. Plakáty - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 1
16
31
51,1
-20 Kompresní poměr
90
76,2
111,4
JPEG 2000 - Obr. Staromák - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 -20
1
16
26,1
41,1
66,1
101,3
-40 Kompresní poměr
JPEG 2000 - Obr. Zahrada - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 1
11
26,1
41,1
66,1
101,2
-20 Kompresní poměr
Hodnocení [%]
Lurawave - Obr. Kristýny - 14 pozorovatelů
100 90 80 70 60 50 40 30 20 10 0
subj. IQM1 IQM2
1
30
50
70
Kompresní poměr
91
90
130
Lurawave - Obr. Ovoce - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 1
15
30
50
80
100
-20 Kompresní poměr
Lurawave - Obr. Plakáty - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 -20
1
15
25
40
60
90
-40 Kompresní poměr
Lurawave - Obr. Staromák - 14 pozorovatelů
100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 1
8
15
25
-20 Kompresní poměr
92
40
60
Lurawave - Obr. Zahrada - 14 pozorovatelů 100
Hodnocení [%]
80 60 subj. IQM1 IQM2
40 20 0 1
10
20
30
50
-20
Kompresní poměr
93
80
Příloha B - Struktura přiloženého CD ROM Přehled souborů na přiloženém CD ROM Přiložené CD ROM obsahuje soubory skriptů a funkcí MATLABu (tzv. m-fily) a testovací obrázky. Skripty a funkce pro MATLAB tvořící program modelu HVS jsou uvedeny v adresáři nazvaném "Model". Abecední seznam a podrobnější popis funkce jednotlivých m-filů je uveden v této příloze. Soubory jsou opatřeny komentáři a to jednak na začátcích souborů (vstupy, výstupy, úkol funkce nebo skriptu) a jednak u jednotlivých kroků programu. To umožňuje rychlou orientaci v programu a možnost dalších změn. M-fily se jménem končící na "_test" slouží k ověření funkčnosti jednotlivých částí modelu. Soubory se jménem končící na "_spust" jsou soubory rutin (v angličtině oznčováno jako "callback") jednotlivých grafických prvků v GUI. Ostatní m-fily jsou části modelu HVS. Testovací obrázky jsou rozděleny do dvou adresářů. V adresáři "Testovaci_obrazky" jsou obrázky vygenerované pro ověření funkce modelu. V adresáři "Testovaci_obrazky2" jsou šedotónové komplexní obrázky s pěti různými předlohami, které byly použity pro subjektivní testy (viz kap. 3.2.12). Názvy těchto obrázků jsou: Kristýny (nekomprimovaný obrázek je v souboru Kri.bmp), Ovoce, Plakáty, Staromák a Zahrada. Pro tyto obrázky bylo také provedeno srovnání modelu HVS se subjektivními testy. Jména souborů těchto obrázků byla zvolena následovně. První část jména je název obrázku, druhá část za podtržítkem označuje použitou kompresní metodu a třetí část názvu vyjadřuje kompresní stupeň. Pokud stupeň není uveden, jedná se o nekomprimovaný obrázek. Stupeň 1 odpovídá nejnižšímu a stupeň 5 nejvyššímu kompresnímu poměru.
Abecední seznam souborů programu a popis jejich funkce •
amplitude_nonlinearity.m Amplitudová nelineární transformace jasu. Vstupem je obrázek, výstupem je transformovaný obrázek.
•
amplitude_nonlinearity_test.m Testovací skript amplitudové nelineární transformace. Zobrazení histogramu intenzity obrázků Leny před transformací a po transformaci.
•
cortex2_filters_test.m Testovací skript 2D kortexových filtrů.
•
csf.m Funkce vrací obrázek filtrovaný filtrem vytvořeným na základe modelu CSF podle Manosova popisu. Vstupem je obrázek, pozorovací vzdálenost a velikost pixelu na monitoru.
•
csf_daly_test.m Testovací skript CSF funkce navržené Dalym.
•
csf_test.m Skript porovnávající CSF funkci podle popisu Manose a podle popisu Dalyho.
•
dom_filters_test.m Test sady 1D DOM filtrů. Vykreslení charakteristik DOM filtrů.
94
•
fan.m Výpočet 1D FAN filtru pro určité orientační pásmo a pro střední orientační úhel.
•
fan2.m Výpočet 2D FAN filtru pro určité orientační pásmo a pro střední orientační úhel.
•
fan_filters_test.m Testovací skript sady FAN filtrů. Vykreslení charakteristik filtrů.
•
ffmap.m Vykreslí šedotónovou mapu viditelných diferencí (Free Field Difference Map). Vstupem jsou znaménková matice pravděpodobnosti SPT a hodnota maximální intenzity monitoru.
•
icmap.m Barevná mapa viditelných diferencí (In Context Difference Map) zakreslená do obrázku. Vstupem je určitý obrázek, znaménková matice pravděpodobnosti SPT a hodnota maximální intenzity monitoru. Funkce vrací matice R, G a B složek barevné mapy.
•
iqm_hvs_test.m Testovací skript míry kvality obrazu založené na modelu HVS.
•
iqm_prediktor.m Výpočet dvou měr kvality obrazu využitých pro VDP nazvaných IQM1 a IQM2. Vstupem je matice znaménkové pravděpodobnosti SPT.
•
konvoluce.m 2D konvoluce obrázku s maskou. Funkce vrací matici stejně velkou jako vstupní obrázek.
•
konvoluce_zobr.m 2D konvoluce obrázku s maskou. Funkce vrací matici stejně velkou jako vstupní obrázek. Navíc je vykreslen vstupní obrázek, obrázek po konvoluci a rozdílový obrázek.
•
masking.m Filtrace obrázku pomocí sady kortexových filtrů do 31 kanálů. Výpočet zvýšení prahu detekce (Treshold Elevation) a vzájemného maskování. Funkce vrací 31 kortexových kanálů a 31 kanálů po "Treshold Elevation". Vstupními parametry jsou matice jasu v obrázku a směrnice maskování ε.
•
mesa.m Výpočet 1D MESA filtru. Vstupními parametry jsou prostorová frekvence, "Half Amplitude Frequency" a šířka přechodového pásma filtru.
•
mesa2.m Výpočet 2D MESA filtru. Vstupními parametry jsou prostorová frekvence, "Half Amplitude Frequency" a šířka přechodového pásma filtru.
•
mesa_test.m Testovací skript 1D MESA filtru, vykreslení charakteristiky filtru.
•
ModelGUI.fig Soubor MATLABu s popisem grafických prvků GUI. Vytvořeno automaticky pomocí funkce "guide".
95
•
ModelGUI.m Spouštěcí soubor grafického rozhraní programu (GUI). Soubor byl vytvořen automaticky pomocí funkce "guide". Do souboru byly dopsány "callback" funkce některých grafických prvků GUI. Více informacích o GUI je uvedeno v kap. 3.3.
•
mse_obrazku.m Výpočet střední kvadratické odchylky mezi dvěma obrázky.
•
mse_spust.m Callback tlačítka v GUI s názvem "MSE".
•
prediktor.m Výpočet prediktoru viditelných diferencí mezi dvěma obrázky. Výstupem je mapa znaménkových pravděpodobností SPT a míry kvality obrazu IQM1 a IQM2. Dále jsou vykresleny oba vstupní obrázky, rozdílový obrázek a šedotónová a barevná mapa viditelných diferencí. V hlavním okně MATLABu se vypisuje se čas výpočtu jednotlivých kroků VDP. V kódu funkce je možno změnit nastavení parametrů VDP: ε, α a β (viz kap. 3.2.10).
•
prumer_zornicky.m Výpočet průměru zorničky. Vstupem funkce je převažující jas v okolí pozorovatele (jas pozadí).
•
psf_filtr.m Vytvoření filtru podle analytického popisu PSF. Vstupem je průměr zorničky, vzdálenost pozorovatele od monitoru, velikost pixelu na monitoru a vlnová délka světla. Velikost filtru je určena automaticky.
•
psf_limita_test.m Výpočet limity PSF pro nulový úhel.
•
psychometric.m Výpočet mapy znaménkové pravděpodobnosti SPT pomocí psychometrické funkce. Vstupem jsou jasy dvou obrázků a zvýšeni prahu detekce (Treshold Elevation) u obou obrázků. Dalšími vstupy jsou parametry psychometrické funkce α a β. (viz popis v kap. 3.2.10).
•
psychometric_test.m Vykreslení průběhu psychometrické funkce.
•
rozptyl_spust.m Callback tlačítka nazvaného "PSF" v GUI.
•
rozptyl_test.m Testovací skript modelu rozptylu na zorničce. Je zde možno nastavit pozorovací podmínky.
•
srovnani_kompresi_test.m Testovací skript, který vykresluje grafy IQM1 a IQM2 a subjektivního hodnocení u jednotlivých metod komprese pro obrázek "Staromák".
•
treshold_elevation_test.m Testovací skript maskovacího efektu. Vykresluje grafy zvýšení prahu detekce.
96
•
vdp_spust.m Callback tlačítka s názvem "Prediktor" v GUI. Výpočet prediktoru viditelných diferencí pro dva obrázky a vykreslení všech obrázků jako u m-filu "prediktor.m".
•
vdp_test.m Skript (dávka) pro testovaní VDP pro různé obrázky a různá poškození. Odstraněním komentářů (%) může být vybrán příslušný obrázek nebo skupinu obrázku pro testování. Nutno začlenit testovací obrázky do cesty v MATLABu. Parametry modelu se nastavují v souboru "prediktor.m".
•
vypis_listbox.m Skript vypisující text do listboxu textového výstupu v GUI. Posunutí kurzoru v listboxu.
•
zobraz.m Zobrazí šedotónový obrázek v libovolném rozsahu intenzity. Vpravo vedle obrázku je zobrazena stupnice šedi.
•
zobrazit_spust.m Callback pro tlačítko v GUI s názvem "Zobrazit Obrazky".
97