HEXIUM Műszaki Fejlesztő Kft., 1093 Budapest, Lónyay u. 13/b Tel: (+36 1) 217-2800, Fax: (+36 1) 218-5703, Email:
[email protected], Honlap: www.hexium.hu
LADÁNYI PÉTER (PATKÓ TAMÁS, DR. NAGY TAMÁS, MÁTHÉ JÓZSEF)
Digitális videorendszerek III. Mozgóképek tömörítése
BEVEZETÉS ................................................................................................................................................................................2 1. ÁLLÓKÉP-MOZGÓKÉP .......................................................................................................................................................2 2. A MOZGÓKÉPEK FAJTÁI ...................................................................................................................................................2 2.1 GENERÁLT MOZGÓKÉPEK .....................................................................................................................................................2 2.2 DIGITALIZÁLT (VALÓS) MOZGÓKÉPEK ..................................................................................................................................2 3. ELMÉLETI ÉS GYAKORLATI MEGOLDÁSOK ..............................................................................................................2 3.1 MOZGÁS MEGÁLLAPÍTÁSA AZONOS KÉPTARTOMÁNYOK ALAPJÁN ........................................................................................3 3.2 EGYÉB KORRELÁCIÓS TECHNIKÁK ........................................................................................................................................3 3.3 HIERARCHIKUS MÓDSZEREK .................................................................................................................................................3 3.4 MOZGÁS-KOMPENZÁLT INTERPOLÁCIÓ .................................................................................................................................3 3.5 EGYÉB MEGOLDÁSOK ...........................................................................................................................................................4 4. MOZGÓKÉP FORMÁTUMOK ÉS TECHNOLÓGIÁK ....................................................................................................4 4.1 CCITT H.261 ......................................................................................................................................................................4 4.2 CINEPAK ...............................................................................................................................................................................5 4.3 M-JPEG ...............................................................................................................................................................................5 4.4 MPEG..................................................................................................................................................................................5 4.5 MPEG-1...............................................................................................................................................................................6 4.5.1 I - Intra frames (különálló kép)....................................................................................................................................6 4.5.2 P - Predicted frames (elõrebecsült kép).......................................................................................................................6 4.5.3 B - Bidirectional frames (kétirányú kép)......................................................................................................................6 4.6 MPEG-2...............................................................................................................................................................................6 4.6.1 Különbségek.................................................................................................................................................................7 4.6.2 Az MPEG-2 jelenlegi alkalmazásai .............................................................................................................................7 4.7 MPEG-3...............................................................................................................................................................................7 4.8 MPEG-4...............................................................................................................................................................................7 4.9 QUICKTIME ..........................................................................................................................................................................8 4.10 VIDEO FOR WINDOWS ........................................................................................................................................................8 5. IRODALOM, HIVATKOZÁSOK ..........................................................................................................................................8
(C) HEXIUM - DIGITÁLIS VIDEORENDSZEREK III.
1
HEXIUM Műszaki Fejlesztő Kft., 1093 Budapest, Lónyay u. 13/b Tel: (+36 1) 217-2800, Fax: (+36 1) 218-5703, Email:
[email protected], Honlap: www.hexium.hu
Bevezetés Sorozatunk előző részében az állóképek tömörítésének néhány módját ismertettünk, most tekintsük át a képsorozatok, mozgóképek tömörítésének lehetőségeit is.
1. Állókép-mozgókép Az összes állókép-tömörítő algoritmus jellemzője, hogy a tömörített adathalmaz önmagában, azaz más információ nélkül elegendő a teljes kép reprodukálásához. Mivel a mozgókép tulajdonképpen állóképek sorozata, így elvileg az állóképek tömörítésénél használt bármelyik algoritmus felhasználható mozgások tömörítésére. Azonban a mozgóképek memóriaigénye óriási (lásd az előző rész 1. táblázatát). Mivel a mozgóképeknél az egymás után következő képek között általában csak kis különbség van, valószínűsíthető, hogy létezik optimálisabb megoldás is ezen óriási redundancia tömörítésére, tárolására. Alkalmazásfüggően felmerülhet a hang tárolása is, mely csak növeli a mozgás tárolásához szükséges adatmennyiséget.
2. A mozgóképek fajtái A konkrét tömörítési algoritmusok ismertetése előtt vizsgáljuk meg egy kicsit közelebbről a mozgóképek fajtáit. A csoportosítás a mozgókép forrása szerint a következő:
2.1 Generált mozgóképek A számítógépes grafika egyik jelentős területe, multimédiás alkalmazásokban, játékszoftverekben találkozhatunk velük. Fő jellemzőjük, hogy a bevitel nem digitalizálás útján (pl. kamerával), hanem egyéb módon történik. Ezeket a mozgóképeket (animációkat) lényegében kétféle csoportba sorolhatjuk aszerint, hogy ember által rajzolt, vagy a gép által számolt animációról van szó. Az első esetben a mozgókép előállításában a számítógépnek csak annyi a feladata, hogy a rajzoló (animátor) által berajzolt, egymást követő képeket tömörítse, tárolja, ill. megjelenítse. Számolt animáció esetén a rajzoló a háromdimenziós világot modellezi, melyet a számítógép megfelelő algoritmusok által "kiszámol". Az ilyen módon készített mozgóképek általában sokkal életszerűbbek az előbbinél, hiszen a fények és árnyékok élethű ábrázolásával plasztikusabb eredmény kapható [1.]. Mivel az ilyen mozgóképek biztonságtechnikai jelentősége csekély (csak egyes felügyeleti szoftverek felhasználói felülete tartalmaz néhány ilyen animációt), nem foglalkozunk vele részletesen.
2.2 Digitalizált (valós) mozgóképek Közös jellemzőjük, hogy a képek forrása a külvilág, és a feldolgozás valamilyen digitalizáló eszközzel történik (pl. a kameráról érkező videojelet digitalizálják egy arra alkalmas hardver-eszközzel, lásd cikksorozatunk első részében). A feldolgozáshoz nagyobb teljesítményre van szükség, mint a generált képek esetén, hiszen a digitalizált kép tartalma nem kiszámítható, a legkedvezőbb esetben is csak sejthető. Nem kérdéses a digitalizált mozgóképek szerepe a biztonságtechnikában a digitális videorendszerek területén, így a következőkben ezek tömörítésével foglalkozunk.
3. Elméleti és gyakorlati megoldások A mozgóképek tömörítésének számos algoritmusa létezik. Azonban az elméleti megvalósítások hamar korlátokba ütközhetnek, ha az alkalmazás nem képes szoftveresen megfelelő hatékonyságot elérni, ill. az adott algoritmusra nincsen alkalmas hardver-támogatás. Ezt láthattuk például az összes DCT alapú tömörítésnél, hiszen maga a Diszkrét Koszinusz Transzformáció -számításigénye miatt- még nem alkalmazható tisztán szoftveres megvalósítású valósidejű rendszerekben. A jelenlegi technikai lehetőségek szerint még szükséges olyan hardver-elem alkalmazása, melynek segítségével az időigényes számítások valós időben végrehajthatók, és a szoftvernek csak az egyszerűbb (ennélfogva gyorsan megvalósítható) teendőkkel kell foglalkoznia. A mozgások kódolásánál triviális módszernek tűnik a képsorozat egymást követő képei közötti különbségek tárolása, megfelelő kódolása (pontról pontra). Ez valóban egy igen gyakran alkalmazott technika, számos algoritmusnak része, ill. alapja. Azonban csupán ezzel a módszerrel elérhető tömörítési arány átlagosan csak 20-30 százalékkal ad jobb eredményt, mintha a képeket egyedileg tömörítettük volna össze. Ez ugyan eredmény, de egy egyórás nagyfelbontású valósidejű mozgás eltárolásához (képenként tömörítve) 1-4 GByte szükséges. Elég rossz eredmény ahhoz képest, hogy a reálisan feldolgozható és kezelhető adatmennyiség ennél sokkal kevesebb, gondoljunk csak a felvett anyag mentésének és archíválásának költségeire, ill. a mentés lebonyolítására. Szükséges tehát, hogy legyen egyéb technika, megfelelő
(C) HEXIUM - DIGITÁLIS VIDEORENDSZEREK III.
2
HEXIUM Műszaki Fejlesztő Kft., 1093 Budapest, Lónyay u. 13/b Tel: (+36 1) 217-2800, Fax: (+36 1) 218-5703, Email:
[email protected], Honlap: www.hexium.hu
algoritmus, applikáció ezen óriási adatmennyiség csökkentésére. Részben már léteznek megvalósítható és használható módszerek, de ez a témakör ma még korántsincs kiaknázva, a szakmai folyóiratok és konferenciák napjainkban is folyamatosan foglalkoznak a mozgás összefüggéseivel [2.], [3.], [4.], [5.], [6.]. A következőkben néhány elméleti módszert ismertetünk.
3.1 Mozgás megállapítása azonos képtartományok alapján A módszer azon alapul, hogy az egymás utáni képek kisebb területei (blokkjai) nem, vagy csak igen csekély mértékben változnak meg, illetve mozdulnak el. Az egymás utáni képek tárolásánál jelentős megtakarítás érhető el, ha ezek a hasonlóságok nem képként, hanem hivatkozásként kerülnek tárolásra. Az algoritmus elve az, hogy az aktuális kép egy bizonyos blokkjának fényesség értékeit az előző kép azonos pozícióján, vagy közelében lévő blokk fényesség értékeivel összehasonlítva azt a mozgásvektort kell megkeresni, ahol nincs, vagy elhanyagolható a különbség.
y
x
első pozíciók Az egyező blokk megkeresésére számos algoritmus létezik. Ezek következő pozíciók közül a legegyszerűbb, ha az összes lehetőséget megvizsgáljuk (full utolsó pozíciók search motion estimation). Ez a vizsgált tartomány szerinti összes vizsgálatot jelenti, és bár a műveletek számát tekintve ez sok időt 3.1. ábra, Két dimenziós logaritmikus keresés vesz igénybe, ez az egyetlen módszer arra, hogy tényleg a tartományon belüli minimális különbségű helyet megkapjuk (globális minimum). A logaritmikus keresésnél (melyre egy példa látható a 3.1. ábrán) más az algoritmus. A keresés több lépésből áll, minden lépésnél csak kevés számú helyet kell megvizsgálni. A következő lépésben vizsgálandó helyeket az előző lépésben kapott minimum pont szerint kell kiválasztani. Így a teljes kereséshez képest sokkal kevesebb pozíciót kell megvizsgálni, viszont a kapott eredmény nem globális, hanem csak lokális minimum. Ez azt jelenti, hogy a mozgásvektor csak valószínű, hogy a helyes irányt mutatja, lehet, hogy a tartományon belül van egy másik pont, ahol az eredmény kedvezőbb lett volna.
3.2 Egyéb korrelációs technikák Ezen módszerek lényege, hogy hasonló blokkokat kell keresni az aktuális és az előző kép között. Az előbb ismertetett eljárás is ilyen, de számos egyéb algoritmus (korrelációs operátor, függvény) is használható. Létezik diszkrét keresztkorrelációs függvénnyel, de Fourier függvénnyel megvalósított módszer is. Az elért eredményt növelni lehet, ha a blokkterületre egy megfelelő súlyozó (ablak) függvény kerül, mellyel a négyzetalakú területek által okozott hibák kiküszöbölhetők.
3.3 Hierarchikus módszerek A módszerek a hasonló, de méretben eltérő területeket keresik. Ennek szemléltetésére legegyszerűbben egy piramis alkalmas (3.3. ábra). Tételezzük fel, hogy egy 256x256 képpontból álló képrészletet át kell alakítani egy 64x64 képpontból álló területté. Az eljárás egyszerű, a megfelelő területeket átlagolni kell (pl. egy egyszerű számtani átlaggal). Ha a műveletet tovább folytatjuk és a kapott képrészleteket egymás fölé helyezzük, piramis-szerű építményt kapunk. Általában ilyen szerkezeti felépítés az alapja ezen algoritmusoknak. Természetesen más méretű képrészletek, más átlagolási szempontok is lehetségesek. Ezt követően a piramisnak megfelelően az eltérő méretű képterületek is összehasonlíthatók, megkereshetők és tárolhatók. 3.3. ábra, Piramis szerkezet
3.4 Mozgás-kompenzált interpoláció A mozgóképek alacsony sebességű átvitele alkalmazások egész sorát tenné lehetővé, nem beszélve a költségek csökkenéséről. Erre kellene valamilyen megoldást találni a televíziós technikához hasonlóan. Ott a váltott soros üzemmód (interlace) alkalmazásával a szükséges sávszélesség feleannyi, mint amennyi az azonos felbontású sorfolytonos képhez
(C) HEXIUM - DIGITÁLIS VIDEORENDSZEREK III.
3
HEXIUM Műszaki Fejlesztő Kft., 1093 Budapest, Lónyay u. 13/b Tel: (+36 1) 217-2800, Fax: (+36 1) 218-5703, Email:
[email protected], Honlap: www.hexium.hu
lenne szükséges. A sebesség (és/vagy költség) érzékeny alkalmazásoknál valamilyen hasonló megoldással kellene az adatátviteli sebességet lecsökkenteni (vagy az átvitt információt megnövelni). A feladat tehát: a t és a t-2 időpillanatban lévő képek rendelkezésre állnak, és ezekből kell meghatározni a t-1 időpillanathoz tartozó képet. Ilyen feladatokra az interpoláció alkalmazásával lehet megoldást találni. A kérdés csak az, hogy a két szélső képnek (vagy képrészletnek) adatai alapján milyen függvény írja le a közbülső adott kép (képrészlet) adatait. Erre alacsonyabb követelmény szint esetén van megoldás, a két szélső kép adataiból számtani átlaggal megkaphatók a középső kép adatai. Egy képrészlet szempontjából valójában négyféle eset lehetséges: 1:mozgó objektumok, 2:állandó háttér, 3:háttérbe bemozgó objektum, 4:háttérből kimozgó objektum. Mind a négyféle esetre eltérő algoritmus szükséges, mellyel a közbenső kép adatai kiszámíthatók. Ehhez azonban ismerni kell a képen található objektumokat, hátteret, ezek határfelületeit, egyszóval a képet szegmentálni kell. A szegmentálásra számos algoritmus létezik már, de időigényességük miatt valósidejű alkalmazásuk még nem terjedt el [7.]. Tehát az alacsony átviteli sebességért cserébe nagyobb feldolgozási teljesítmény, gyorsabb (drágább) vételi berendezés szükséges.
3.5 Egyéb megoldások Természetesen a fenti algoritmusokon és módszereken kívül számos más elvi és gyakorlati megoldás létezik, sőt a téma aktuális volta miatt ez még nem teljesen feltárt terület. A mozgások jellemzőinek értékelésére, a kódolásra, tárolásra sok ötlet és megoldás létezik, melyek akár teljesen új megközelítésben vizsgálják a képsorozatokat és többé-kevésbé egyszerűen kezelhető matematikai formulákat adnak. Egy lehetséges megoldásként például tárolni lehetne a hátteret külön, és az előtte levő mozgásinformációt kódolva szintén csökkenthetővé válna a képsorozatokban lévő óriási redundancia. A képen lévő objektumokat külön-külön kezelve és mozgásaikat eltárolva szintén nyerhetünk némi egérutat. A fraktálok tulajdonságait vizsgálva új dimenziók nyílhatnak meg előttünk, hiszen egy kép, különösen a természet szülte digitalizált kép tele van olyan apró részletekkel, melyeket más méretben a képen máshol megtalálhatunk. Ezek tárolása szintén óriási megtakarítást tud eredményezni, vagy ott vannak a neurális hálózatok… A további felsorolás helyett azonban álljunk meg egy pillanatra! A képi információ óriási adatmennyiséget jelent, ráadásul ha képsorozatokról, azaz mozgási információról van szó, azonnal beleütközünk az adatkezelés hagyományos módszereinek korlátaiba. Új szemléletre, új koncepciókra és nem utolsó sorban a megoldásokat támogatni és megvalósítani tudó technikai háttérre van szükség, ha a mozgást absztrakt módon kezelni és a mindennapi életünk részévé akarjuk tenni.
4. Mozgókép formátumok és technológiák Az elmélet után nézzünk meg néhány mozgókép formátumot és technológiát. Az alábbiakban felsoroltakat nem a teljesség igényével, hanem jelentőségük miatt tartottuk érdemesnek a részletesebb ismertetésre. Természetesen a piacon kapható hardver-, szoftver- és biztonságtechnikai video-rendszerek egyéb, az alábbiakban nem részletezett szabványos (vagy “háziszabványos”) formátumokat is felkínálhatnak.
4.1 CCITT H.261 Az ajánlás 1990-ben született, melynek fő célja a videokonferencia, videotelefon és egyéb audiovizuális alkalmazások megvalósítása p x 64 kbit/s sebesség mellett (p értéke 1..30 lehet). Az ajánlás támogatja az ISDN vonalon történő audio- és video-információ továbbítását. Az átviteli sebesség egyébként átlagosan 40 kbit/s és 2 Mbit/s közötti. A video-információ kódolása a CCIR 601 szabvány szerinti YCrCb formátum szerint történik, a kép felbontása rendkívül alacsony (4.2. táblázat). Ez főként akkor eredményez jelentős minőségromlást, ha az átviteli sebesség 64 kbit/s körüli.
formátum
szerkezet
PAL PAL NTSC NTSC
CIF QCIF CIF QCIF
a világosságjel felbontása 352x288 176x144 352x240 -
a színjel felbontása 176x144 88x72 176x120 -
4.2. táblázat
A tömörítés egyébként öt főbb részből áll: mozgás-kompenzálás, transzformáció, kvantálás és két különböző veszteségmentes kódolás [6.], [8.].
(C) HEXIUM - DIGITÁLIS VIDEORENDSZEREK III.
4
HEXIUM Műszaki Fejlesztő Kft., 1093 Budapest, Lónyay u. 13/b Tel: (+36 1) 217-2800, Fax: (+36 1) 218-5703, Email:
[email protected], Honlap: www.hexium.hu
4.2 Cinepak A Cinepak egy nagyon széles körben alkalmazott, tisztán szoftveres úton megvalósított, skálázható codec (compressor-decompressor = tömörítő-kicsomagoló) mozgóképek tömörítésére CDROM-on, interneten való felhasználásra. Számos számítógép-, operációs rendszer-, chip- és játékgép gyártó alkalmazza (Apple-QuickTime, Microsoft-Video for Windows, 3DO, Atari Jaguar, Sega, NEXT, Cirrus Logic, Weitek, Western Digital, Creative Labs, stb.). Jellemzője, hogy a tömörített video-anyag visszajátszásához nem szükséges óriási teljesítmény, egy 20 MHzes 386-os processzor is elboldogul vele. A gyors visszajátszás titka egy vektor-kvantáló algoritmus.
4.3 M-JPEG A bevezőben már említésre került, hogy a mozgóképek tömörítése bármely állókép-tömörítési technikával megvalósítható. Erre ad példát az M-JPEG formátum, melynek nevében az M betű a Motion (=mozgás) szó kezdőbetűje [7.]. A formátummal viszonylag rossz minőségű képek tárolhatók, általában 1:24 arányú tömörítéssel. A szükséges 1.3 MB/s sokszor nem biztosítható, ekkor a felbontás csökkentésével érhető el a kimenet bemenet megfelelő frissítési sebesség. Jellemzője, hogy a lecsökkentett Dekódolás Kódolás felbontással az eredmény csak Mozgás megállapítás Mozgás megközelíti a hagyományos VHS és kompenzáció kompenzáció minőséget (352H x 288V), viszont az így szükséges 0.32 MB/s már többnyire biztosítható. Diszkrét Koszinusz Inverz DCT Transzformáció
4.4 MPEG
Az MPEG csoport (Moving Pictures Kvantálás Inverz kvantálás Experts Group) 1988-ban alakult, céljuk a digitális mozgókép és hang tömörítési (és kicsomagolási) eljárások szabványosítása [8.], [9.]. Modell kódolás Modell dekódolás A munkájuk során elért eredményeket nemzetközi szabványokban rögzítik. Törekvésük, Veszteségmentes hogy gyártófüggetlen és viszonylag Kicsomagolás Tömörítés széles körben alkalmazható algoritmusokat dolgozzanak ki. A csoport tagjai egy évben négyszer találkoznak, eközben a munka nagyrészét elvégzik, így a találkozók alkalmával hatékonyan tudnak megszületni az új szabványok és Továbbítás, tárolás technológiák. Maga az MPEG egyébként egy becenév, a csoport hivatalos neve ennél sokkal 4.4. ábra, Az MPEG tömörítés működése bonyolultabb: ISO/IEC JTC1 SC29 WG11. A jelentések: ISO: International Organization for Standardization IEC: International Electro-technical Comission JCT1: Joint Technical Comittee 1 SC29: Sub-comittee 29 WG11: Work Group 11 (moving pictures and audio) Az MPEG csoport neve fémjelzi az egyre szélesebb körben alkalmazott mozgókép tömörítési eljárást. Ezt a működésük alatt óta folyamatosan tökéletesítették (és tökéletesítik), és mivel jelentősége óriási, mi is kicsit részletesebben foglalkozunk vele.
(C) HEXIUM - DIGITÁLIS VIDEORENDSZEREK III.
5
HEXIUM Műszaki Fejlesztő Kft., 1093 Budapest, Lónyay u. 13/b Tel: (+36 1) 217-2800, Fax: (+36 1) 218-5703, Email:
[email protected], Honlap: www.hexium.hu
4.5 MPEG-1 Kezdetnek a 352H x 240V x 30 kép/s (NTSC) minőségű mozgókép és CD minőségű hang kódolását oldották meg (ez kb. egy átlagos VHS minőségnek felel meg). A színes képeket YUV formátumban tárolják ahol minden negyedik világosságjelhez tartozik egy színjel. A továbbiakban a felbontásoknál az Y jel felbontását adjuk meg (pl. a 16x16-os makroblokk felbontása 16x16 Y, valamint a hozzátartozó 8x8 U és 8x8V pontot jelenti). Alapvetően az MPEG-1 formátumú mozgóképek kódolása képről képre történik, a kódolás során számos algoritmust használnak (4.4. ábra). Az ún. 16x16 pontos makroblokk-mozgások megállapítása (ezeket mozgásvektorokkal tárolják) és a 8x8 pontos területekre alkalmazott DCT transzformáció után következik a kvantálás (ez osztást jelent), melynek eredményeként az alsó bitek elvesznek (adatvesztés). Végül a keletkező adathalmazt egy adatvesztés nélküli RLE-Huffman kódolással tömörítik össze [6.], [8.], [9.].
4.5. ábra, Az MPEG formátumú mozgókép felépítése Tévesen terjedt el, hogy az MPEG-1 nem képes az említett 352H x 240V felbontásnál nagyobb képsorozatok kezelésére. Valójában a szabvány a mozgóképeket egészen 4095H x 4095V x 60 kép/s felbontásig képes kezelni (ebben a CCIR-601 felbontás is szerepel: 704H x 480V). Az MPEG tömörített mozgókép felépítése a 4.5. ábrán látható, az ábrán látható képek típusai az alábbiak lehetnek:
4.5.1 I - Intra frames (különálló kép) Állóképként kerül kódolásra és nem tartalmaz semmilyen hivatkozást a mozgókép többi képére vonatkozóan, a JPEG formátumhoz hasonló kép [10.]. A későbbiekben ez a kép szolgál referenciaként a többi kép számára, így a tömörítési arány nem túl nagy. Általában 12 képenként tárolnak el egy új I képet, ez 0.4 másodperces időt jelent (PAL esetén kb. fél másodperc).
4.5.2 P - Predicted frames (előrebecsült kép) Minden makroblokkhoz az aktuális kép és a legutóbbi I vagy P kép közötti különbségeket tárolja el (a DCT együtthatók és egy mozgásvektor segítségével), vagy túl nagy különbségek esetén az I képekhez hasonló kódolás történik.
4.5.3 B - Bidirectional frames (kétirányú kép) Igen jelentős tömörítési arány érhető el a B képek alkalmazásával. Itt a kétirányúság azt jelenti, hogy az előző és a következő I vagy P kép közti kapcsolatról van szó. A hasonló blokkok tárolásához három dolog szükséges: egy előre- és egy hátramutató mozgásvektor, ill. a két blokk különbségét meghatározó információ. Ez utóbbi úgy kapható meg, hogy a múltbeli és a jövőbeli blokk átlagát az aktuális kép kódolandó blokkjából ki kell vonni. Ha ez az algoritmus nem ad megfelelő eredményt, a blokkot az I képekhez hasonlóan kódolják.
4.6 MPEG-2 Az MPEG csoport egy New York-i összejövetelen három definíciót véglegesített: MPEG-2 Video, MPEG-2 Audio és MPEG-2 Systems. 1993 novemberében adták ki az MPEG-2 szabvány mindhárom részének vázlatát (Comittee Drafts). A végleges változat 1994 novemberében készült el [11.].
(C) HEXIUM - DIGITÁLIS VIDEORENDSZEREK III.
6
HEXIUM Műszaki Fejlesztő Kft., 1093 Budapest, Lónyay u. 13/b Tel: (+36 1) 217-2800, Fax: (+36 1) 218-5703, Email:
[email protected], Honlap: www.hexium.hu
4.6.1 Különbségek Az MPEG-2 koncepciója sok szempontból hasonlít az MPEG-1-hez, viszont a széleskörű alkalmazhatóság érdekében számos bővítést alkalmaztak. Elsődlegesen a TV minőségű, teljes mértékben digitális műsorszórást kívánták biztosítani 4-9 Mbit/s átviteli sebességen. Talán a legfontosabb változás, hogy az MPEG-2 támogatja a váltott soros (interlaced) üzemmódot, erre utal pl. a 16x8 pont méretű makroblokkok alkalmazása is. Bővítették számos már meglévő technológia lehetőségeit is. Újításként került bele, hogy a formátum a video tárolását több felbontásban, minőségben vagy sebességben is támogatja. A különbségek részletes ismertetésére jelen cikk keretében sajnos nincs lehetőség, csak vázlatos felsorolásukra a feldolgozó rétegek szempontjából: Szekvencia réteg: többféle képarány; a felbontásnak 16 többszörösének kell lennie (váltott soros üzemmód esetén a függőleges felbontás 32 többszöröse); 4:2:2 és 4:4:4 formátumú makroblokkok; az elméleti maximális felbontás 16383H x 16383V; többféle videoformátum támogatása (NTSC, PAL, SECAM, MAC); négyféle skálázható üzemmód; Kép réteg: módosult a mozgásvektorok tárolása; a DCT egyenkomponense választható pontosságú (8, 9, 10 vagy 11 bites); rejtett mozgásvektorok lehetősége mindhárom képtípusnál (I, P és B); nem lineáris kvantálás lehetősége (MPEG-2:0.5-56, MPEG-1:1-31); új VLC táblák; az eredeti Zig-Zag mellett egyéb sorrend-minták alkalmazása (4.6.1. ábra); bővített színformátumok (4:2:0-tól 4:2:2-ig); váltott soros és sorfolytonos üzemmód; új képtípus bevezetése a váltott soros üzemmód miatt (field-pictures); képcsoportok (GOP); Makroblokk réteg: kétféle mód a váltott soros üzemmód miatt; egyszerűsítés a futamhossz kódolásban (24 bites kód); külön-külön kvantáló táblák lehetősége; a DCT együtthatók pontosságának kibővítése; számos új becslési és makroblokk üzemmód;
4.6.2 Az MPEG-2 jelenlegi alkalmazásai Az MPEG-2 szabványnak megfelelő videokódolást már számos helyen alkalmazzák. Jelentős szerepe van a közvetlen műholdas műsorszórásban (pl. az MPEG-2 formátumot használó északamerikai Hughes/USSB szolgáltatás 1994-ben kezdte meg működését), a kábeltelevíziós rendszerekben, a HDTV rendszerben, ahol támogatja mind a váltott soros (1440H x 960V x 30 Hz), mind a sorfolytonos üzemmódot (1280H x 720V x 60 Hz).
4.6.1. ábra, A DCT transzformáció együtthatóinak eredeti Zig-zag sorrendje
Azonban valószínűleg a legjelentősebb alkalmazása a digitális video műsorszórás (Digital Video Broadcasting - DVB) területe. 1993 szeptemberében egy 85 európai vállalatot magában foglaló konzorcium elhatározta, hogy 1994 végére kifejleszt egy szabványt a földi- és a kábeles műsorszórásra, mely az MPEG-2 szabvány fogja használni. Ezzel a lépéssel megkezdődött az analóg és a digitális-analóg hibrid rendszerek fokozatos kiszorítása a teljesen digitális HDTV minőségű átvitel érdekében.
4.7 MPEG-3 Az MPEG szabványok következő állomása 1991, a HDTV (High Definition Television) alkalmazások támogatása lett volna. A HDTV-nél a felbontás rendkívül nagy lett volna (maximálisan 1920H x 1080V x 30 Hz), a szükséges átviteli sebesség ehhez 20 és 40 Mbit/s. A feltételes mód oka az, hogy kicsit elkéstek az MPEG szabvány HDTV-hez való illesztésével (ez lett volna az MPEG-3), hiszen időközben az MPEG-1 és MPEG-2 formátum kiválóan használhatónak bizonyult erre az alkalmazásra is, csak a megfelelő egyensúlyt kellett megtalálni a mintavételi- és bit-idők között. Jelenleg a HDTV támogatás az “MPEG-2 High1440 Level and High Level Toolkit” része.
4.8 MPEG-4 1993 szeptemberében kezdődött és napjainkban is tart az MPEG-4 specifikációs és szabványosítási folyamat. Mint már említettük, a nagyon alacsony átviteli sebességgel történő mozgókép és hang átvitelét tűzték ki célként. Ez
(C) HEXIUM - DIGITÁLIS VIDEORENDSZEREK III.
7
HEXIUM Műszaki Fejlesztő Kft., 1093 Budapest, Lónyay u. 13/b Tel: (+36 1) 217-2800, Fax: (+36 1) 218-5703, Email:
[email protected], Honlap: www.hexium.hu
gyökeresen új algoritmusokat és technológiákat igényel (például morfológiai, fraktál, modell alapú technikák), ezek tökéletesítése még napjainkban is folyik. Ha a szabvány elkészül, az MPEG-4 új alkalmazások egész sorát teszi majd lehetővé, úgymint interaktív mobil multimédiás alkalmazások, videotelefon, mobil audio-vizuális kommunikáció, távérzékelés, játékok, interaktív multimédiás adatbázisok, stb. A sort természetesen szinte vég nélkül lehetne folytatni, azonban a konkrét alkalmazásokra egy keveset még várni kell. Bár már az 1994 július 20-án tartott MPEG szeminárium is számos ötlettel és megoldással szolgált, a munkaterv szerint a hivatalos szabvány javaslatát előreláthatólag ez év decemberében fogják jóváhagyni.
4.9 QuickTime A QuickTime az Apple cég által kifejlesztett video-, hang-, zenei-, 3D és virtuális valóság rendszer, a Macintosh operációs rendszer része. A multimédiás anyagot tartalmazó alkalmazások jelentős része használja. A PC-n külön meghajtó szoftver (driver) szükséges a QuickTime formátumú file-ok lejátszásához. Számos tömörítést támogat (Cinepak, JPEG, MPEG). Új fejlemény (1998 február), hogy az ISO szabványtestületi döntése szerint az új MPEG-4 szabvány megalkotásakor a QuickTime formátumot fogják alapul venni.
4.10 Video for Windows A formátumot a Microsoft fejlesztette ki video- és audio információ tárolására. A formátum a képi információt DIB, a hanginformációt WAV formátumban tárolja. A formátum AVI RIFF fájlokban jelenik meg, a támogatott legnagyobb felbontás a 320H x 240V x 30 kép/s. Az alacsony felbontásból adódóan a Video for Windows nem igényel hardver támogatást, tisztán szoftveres úton is működöképes. Talán emiatt (talán azért, mert Microsoft termék) ez a formátum rendkívül elterjedt a multimédia alkalmazásokban. Számos tömörítési technikát támogat: RLE, Indeo, Cinepak. Az Apple cég QuickTime formátuma komoly vetélytársa a Video for Windows-nak.
5. Irodalom, hivatkozások [1.]
Donald Hearn, M. Pauline Baker: Computer Graphics (second edition) Prentice Hall, ISBN 0-13-159690-X
[2.]
IEEE ICASSP-94 International conference on acoustics, speech, and signal processing (1994), Adelaide
[3.]
IEEE ICASSP-95 International conference on acoustics, speech, and signal processing (1995 May), Detroit
[4.]
IEEE Vehicular Technology Conference (VTC) 1994 in Stockholm, Sweden
[5.]
Magyar Képfeldolgozók és Alakfelismerõk Országos konferenciája (KÉPAF), Keszthely 1997. október 9-11.
[6.]
R. J. Clarke: Digital Compression of Still Images and Video Academic Press, ISBN 0-12-175720-X
[7.]
Berke József, Hegedûs Gy. Csaba, Kelemen Dezsõ, Szabó József: Digitális képfeldolgozás és alkalmazásai Keszthelyi Akadémia Alapítvány, ISBN 963-04-7466-2, ISBN 963 03 5 116 1
[8.]
C. Wazne Brown and Barrz J. Shepherd: Graphics File Formats Manning ISBN 1-884777-00-7 Prentice Hall ISBN 0-13-303405-4
[9.]
MPEG standard; Information Technology, Coding of moving pictures and associated audio, For digital storage media at up to about 1.5 MBit/s: ISO CD 11172
[10.] JPEG standard; Digital Compression and Coding of Continuous-Tone Still Images, ISO 10918 (ISO/IEC comittee JTC1/SC29/WG10) [11.] MPEG-2 Systems, MPEG-2 Video, MPEG-2 Audio ISO/IEC 13818-1/2/3
(C) HEXIUM - DIGITÁLIS VIDEORENDSZEREK III.
8