Veszteséges képtömörítő eljárások pszichovizuális összehasonlítása Berke József1 - Kocsis Péter2 - Kovács József2 1 - Pannon Agrártudományi Egyetem, Georgikon, Mezőgazdaságtudományi Kar, Szaktanácsadási, Továbbképzési és Informatikai Központ, Keszthely 2 - Gábor Dénes Főiskola, Keszthelyi Központ
Bevezetés A digitalizált vizuális információ (mozgó, álló) meghatározó szerepet tölt be a legtöbb multimédia alapú anyagban. A CD-ROM-ot, mint adathordozót napjainkra szinte kinőtték az igényesebb alkalmazások. Ugyan az elmúlt év végén bevezetésre került egy új technológia /DVD/, azonban az erre optimalizált vizuális adatstruktúra is erőteljesen épít a redundáns vizuális információ veszteséges tömörítésére. Jól kidolgozott eljárások terjedtek el, melyeknek az adaptív DCT képezi az alapját. A fejlesztők és felhasználók számára kevésbé ismert, de rendkívül hatékony eljárás a képek belső szerkezeti szabályainak felismerésén alapuló, fraktál tömörítő eljárás alkalmazása. Végfelhasználói szempontokat is alapúl véve, pszichovizuális összehasonlító vizsgálatot végeztünk két veszteséges (JPEG és FIF) tömörítő eljárás egymás közötti és tömörítetlen képekkel történő összehasonlítására.
A JPEG szabvány A JPEG (Joint Photographic Experts Group) szabvány (adaptív) diszkrét koszinusz transzformáción (DCT) alapuló képtömörítési eljárás, melyeket az ISO (International Standards Organization) és a CCITT (Consultation Committee on International Telephon and Telegraph) szervezetek által 1986-ban felállított munkacsoport fejlesztett ki. A látvány kismértékű romlása árán kb. 1/30 arányú tömörítés érhető el. A tömörítési arány illetve az esetleges minőségromlás mértéke felhasználói paraméterrel állítható. A JPEG szabvány kialakításakor ügyeltek a fejlesztők arra, hogy hardver és szoftver úton is egyaránt hatékonyan lehessen az eljárást alkalmazni. Az eljárás az egyes színösszetevőket (RGB) egymástól függetlenül kezeli. Ha a tömörítés veszteségmentes lenne, nem lenne túl nagy jelentősége annak, hogy a képpontértékek milyen színrendszerben vannak ábrázolva. Mivel azonban a JPEG szabvány megengedi a veszteséget, értelemszerűen célszerű azt a képpontérték-ábrázolást választani, amely az elkövetett hibával szemben a legkevésbé érzékeny, illetve amelyben az adatok belső összefüggései a legnagyobb tömörítési arány elérését teszik lehetővé. Így a szokásos RGB színrendszer helyett az YUV színrendszert használja a JPEG. Ezáltal a színösszetevők adatai a látás szempontjából fontosabb és kevésbé fontos adatokra válnak szét. Az emberi látás ugyanis az ún. krominancia összetevőkre sokkal kevésbé érzékeny, mint az
ún. luminancia összetevőre. Ebből következően, célszerű a színes képet a tömörítés előtt ebbe a színrendszerbe transzformálni. A tömörítő eljárás részletes leírásával nem kívánunk foglalkozni, mivel számos irodalmi hivatkozásban megtalálható, csupán röviden foglaljuk össze a szabvány lényeges elemeit: Az adott színösszetevőt ábrázoló képsávot egymástól független, 8*8 képpontból álló blokkokra bontjuk. A transzformáció végrehajtásával blokkonként 8*8 = 64 db., 2D (kétdimenziós) diszkrét bázis-függvényhez tartozó együtthatót kapunk. Az eljárás képlettel a következőképpen fejezhető ki:
ahol:
a blokk mérete (a JPEG szabványban: 8) a képpontérték blokk-relatív pozíciók
Az előbbi képlet közvetlen számításokra alkalmatlan, mivel valós adatokon nagyszámú művelet elvégzését igényli. A transzformáció igen hatékonyan számítható közelítése pl. az RVFFT (Real Valued Fast Fourier Transform) eljáráson alapul. Míg a blokk 64 képpontja egymással többnyire erősen korrelál, a transzformáció után kapott 64 együttható gyakorlatilag nem mutat belső összefüggést. A pszichovizuális kísérletek igazolták, hogy e 64 együttható nem azonos mértékben fontos az eredetit közelítő látvány létrehozásához (a magasabb frekvenciájú képtartalom-változást reprezentáló bázisfüggvények a látvány létrehozásában nem játszanak túl nagy szerepet). Így az együtthatók kvantálásakor figyelembe veszik, hogy a magasabb frekvenciájú összetevőkhöz tartozó együtthatók “pontatlanabbul” kódolhatók, mint az alacsony frekvenciához tartozóak. A szabvány rendkívül elterjedt (WWW, Multimédia, DVD, stb), ismert és könnyen adaptálható tetszőleges alkalmazáshoz.
Fraktál alapú tömörítés A DCT transzformáción alapuló eljárásoktól gyökeresen eltérő, rendkívül hatékony képtömörítési módszer Michael Barnsley fraktál transzformáción alapuló eljárása. Az eljárás lényege: A tónusos vagy színes képek fraktálok alkalmazásával való előállításának szabályait keresi meg a kép elemzésével, s e szabályokat tárolja. A valós világról készített digitális képeken található objektumok kontrakció révén tetszőlegesen kicsire zsugoríthatók. A mögötte lévő matematikai transzformációs eljárások ismertek. Feladat a képen található objektumok “felismerése“ és meghatározása fraktálok
segítségével. A részletes matematikai eljárás (Barnsley – Hurd, 1993) ismertetésétől eltekintve megállapítható, hogy létezik a transzformációnak hatékony implementációja. Ugyan jelentős a tömörítés irányú számításigénye az eljárásnak (800x600x24 pixelxpixelxbites kép esetén, Pentium 100 processzorral kb. 1-2 perc), azonban a jelenlegi “populáris” processzorok számítási teljesítménye már alkalmas a feladat elvégzésére. Mivel a kitömörítés (helyreállítás) sokkal gyorsabban elvégezhető (800x600x24 pixelxpixelxbit-es kép esetén, Pentium 100 processzorral kb. kb. 1-2 másodperc) mint a betömörítés, a multimédiás alkalmazásoknál gyakran használt állóképek esetén a felhasználók szinte nem is veszik észre. A helyreállítás után a kép nagyítható, s ekkor látszatra új részletek jönnek elő a globális mintázatok lokális ismétlésével.
Anyag (képek, tömörítő programok) Az eredeti képek mindegyike professzionális Kodak színes diára készült, majd PhotoCD-re került átírásra Kodak RFS 2035 scanner digitalizálásával. A JPEG képeket Photoshop 3.0 képfeldolgozó program segítségével készítettük, melyek 24 bites tömörítetlen TIFF képek alapján kerültek tömörítésre. A fraktál alapú tömörítések az Iterated Systems, Incorporation szerveréről (http://www.iterated.com) szabadon letölthető program (Fractal Imager 1.1) segítségével készült. Minden kép mérete 640 x 480 x 24 (pixel x pixel x bit) volt. Az eredeti képpel történő összehasonlítások során a kétféle tömörítő eljárás minőségi faktorait úgy választottuk, hogy a kapott file-ok átlagos mérete közel hasonló legyen. Így is a JPEG képek mérete közel kétszerese volt a FIF képekének. Az egymással történő összehasonlítás során a maximális minőségi faktort állítottuk mindkét tömörítés esetén. Ekkor is a JPEG képek mérete kétszerese volt a FIF képekének.
Tesztkérdések A tesztkérdések összeállításakor az alábbi szakmai és technikai szempontokat vettük figyelembe: • • • • • •
A kérdések minimális szakmai ismeretekkel megválaszolhatók legyenek. WWW-re könnyen adaptálhatók legyenek a kérdések. Közel azonos körülmények biztosításával történjen a válaszadás. Rövid, egyszerű kérdéseket tartalmazzon a tesztlap. Könnyű legyen a válaszadás (megfelelő válasz beikszeléssel). Maximálisan 10 kérdést tartalmazhat egy-egy tesztlap.
Az alábbi táblázat a kérdések kiértékelés szempontjából fontos elemeinek összehasonlítását szemlélteti: Kérdések lényegi szempontja(i) Részletgazdagság eredeti +
Kapcsolódó kérdések száma 2+2
Tömörítetlen JPEG
2
Tömörítetlen JPEG
nagyított
Színárnyalatok
Összehasonlítás
Színtelítettség Részletgazdagság eredeti +
2
Tömörítetlen JPEG
2+2
Tömörítetlen - FIF
Színárnyalatok
2
Tömörítetlen - FIF
Színtelítettség
2
Tömörítetlen - FIF
Színárnyalatok
1
FIF-JPEG
Felismerhetőség
1
FIF-JPEG
nagyított
1. táblázat A kérdések kiértékelés szempontjából fontos elemeinek összehasonlítása Minden válaszadó két tesztlapot töltött ki. Az egyik a tömörítetlen és a JPEG tömörített képeket, míg a másik a tömörítetlen és a fraktál tömörített képeket hasonlította össze. Mindkét kérdéssorozat között elhelyeztünk két-két azonos kérdést, amely a JPEG és fraktál alapú eljárásokat hasonlította össze. A kérdések egy részének Internet-es változatai az alábbi helyen találhatók: http://jnos.georgikon.pate.hu.
Eredmények Az eddig elvégzett vizsgálatok több mint 100 fővel történtek. Ezek közel 80 %-a tanult felsőfokú informatikát. A teljes létszám 40 %-a multimédia alapú tantárgyakat is hallgatott (multimédia eszközök, multimédia szoftverek, számítógépes grafika). A kísérletben résztvevők 10 %-a pedig digitális képfeldolgozást gyakorlati és elméleti szinten hallgatott. A tömörítetlen és a JPEG tömörített képek összehasonlító vizsgálatainak eredménye azt mutatja, hogy szinte minden feltett kérdés esetén a felhasználók jelentősnek, azaz zavarónak ítélték a JPEG 1/30 arányban tömörített képek és a tömörítetlen képek közötti eltérést. Különösen zavaró (idegen) volt szinte mindenki számára, a képek nagyításakor jelentkező “digitális” hatás. Ugyanezen kérdésekre adott válaszok során a felhasználók a fraktál tömörített és a tömörítetlen képek esetén észrevehetőnek, néhány esetben zavarónak ítélték az eltérést. Az emberi agy számára idegen “digitális” hatás nem volt érezhető a felhasználók között. A két tömörítő eljárás összehasonlításakor egyértelmű különbség mutatkozott a fraktál tömörített képek javára (1. Ábra). Ez elsősorban a színárnyalatok visszaadása során volt feltűnően érezhető.
1. ábra JPEG - Fraktál tömörített képek összehasonlítása
Irodalom BARNSLEY, M. F. - HURD, P. L. (1993): Fractal image compression, AK Peters, Ltd., Wellesley. BERKE, J. - HEGEDŰS, GY. CS. - KELEMEN, D. - SZABÓ, J. (1996): Digitális képfeldolgozás és alkalmazásai. Keszthelyi Akadémia Alapítvány, Keszthely. ENCARNACAO, J.L. – PEITGEN, H.-O. – SAKAS, G. – ENGLERT, G. editors (1992): Fractal Geometry and Computer Graphics, Springer-Verlag, Berlin Heidelberg. PEITGEN, H.-O. – SAUPE, D. editors (1988): The Science of Fractal Images, Springer-Verlag, Berlin Heidelberg.