A hangtömörítés és az audiokodekek

„A digitális valamely változó jelenségnek, vagy fizikai mennyiségnek diszkrét (nem folytonos), megszámlálhatóan felaprózott, s így számokkal meghatározható, felírható értékeinek halmaza (például: jel (informatika), számítógép, szélessávú internetkapcsolatok, digitális fényképezők, digitális hangrögzítés, stb.).”[1] „Hangnak nevezzük egy rezgő testnek (hangforrás) rugalmas közegben (hangtér) terjedő rezgéseit és hullámait, ha azok a hallószervben hangérzetet keltenek.” Minden hang, hangeffekt vagy zene analógnak, azaz folyamatos adatnak számít, amit csak a digitalizálást (a bináris jelsorozattá alakítást) követően tudunk számítógépen ábrázolni. A digitalizált audioállományok mintavételezett hangok: a másodperc törtrészében a hangból mintát veszünk, a minták amplitúdóértékeit bináris számokká alakítjuk (kvantálás), a bitek és bájtok formájában reprezentált digitális információt pedig tároljuk. Minél gyakrabban (tehát egy másodpercben minél többször) és minél nagyobb méretű mintákat vételezünk a hangokból, annál finomabb felbontású és jobb minőségű digitális állományt kapunk. Mintaméretként a leggyakrabban 8, illetve 16 bitet választanak. Minél nagyobb a minta, az adatok annál pontosabban írják le a rögzített hangot. A mintavételezés (sampling) során a számítógép a kapott analóg jelből egy ún. ADC (analogdigital converter) segítségével digitális adatot gyárt. Ennek a – már – digitális hanganyagnak a megszólaltatása a DAC (digitalanalog converter) feladata lesz. A mintavételezési gyakoriság (sampling frequency) adja meg azt, hogy az ADC másodpercenként hány mintát vegyen a hangból. Egy hangminőségszabvány szerinti (ISO 10149 – „Red Book”) Audio CD minőségű hang 44100 Hz, azaz az ADC másodpercenként 44100 alkalommal vett mintát. A minőség másik meghatározó tulajdonsága a mintavétel mellet a bitmélység vagy hangfelbontás (bit depth). A bitmélység függvénye, hogy a hallható tartományból milyen széles tartományt tudunk rögzíteni számítógéppel. Minél jobb egy hangállomány minősége, annál nagyobb lesz az azt reprezentáló audiofájl mérete is. A hangtömörítés és az audiokodekek Egy audio CD minőségű hangfelvétel egyetlen perce 10,5 Mb méretű fájlt eredményez.[7] Éppen ezért szükséges az állomány méretének csökkentése, melyet tömörítő eljárásokkal lehet kivitelezni. A hanganyag nem tartalmaz ismétléseket, nem redundáns, ezért bonyolultabb eljárásra van szükség, mint egy szöveg tömörítésénél. A tömörítés választott mértéke mindig kompromisszum az átviteli minőség és az átviteli kapacitásszükséglet között. Hangot úgy érdemes tömörítetten tárolni, hogy azt kicsomagolási procedúra nélkül, ún. real time programokkal meg lehessen hallgatni.[8] Az eredmény minősége szempontjából kétféle tömörítést különböztethetünk meg: veszteségmentes és veszteséges tömörítést. Veszteségmentes tömörítés során az adatok mérete csökken, ám azok minősége nem változik, így kerülve el az adatvesztést. Veszteséges tömörítés

folyamán információ vész el; a cél az, hogy az információvesztés minél kisebb minőségromlást eredményezzen. A kodek kifejezés a coderdecoder szavak összevonása, és olyan eszközt vagy programot ír le, ami adatfolyam vagy jel továbbításának módját határozza meg. Egy kodek tartalmaz egy kódoló és egy dekodoló komponenst is. A kodoló komponens kódolja a fájlt a létrehozás alatt, az utóbbi pedig dekódolja, hogy meglehessen azt tekinteni.[9] Többféle audiotömörítő eljárás létezik [ilyenek például az az adaptív differenciális impulzuskódolású moduláció (ADPCM), az Interactive Multimedia Association ADPCM (IMA ADPCM), az A és ULaw eljárás vagy a Creative Labs által kidolgozott VOCtömörítés], de szócikkünkben csak az MPEG tömörítéssel foglalkozunk átfogóan. A digitális hangállományok méretét az ISO albizottsága, az MPEG (Motion Picture Expert Group) által kidolgozott digitális kódolási eljárással is lehet csökkenteni. Az eljárás neve MPEG Audio, alapja pedig a pszichoakusztikus redundancia.[10] „Az MPEG Audio veszteséges tömörítési eljárás…” ami „még 1:12 tömörítési arány mellett is CD hangminőséget biztosít.”[11] Az eljárás nem a hangállomány jellege szerint, hanem az ember által nem hallott hangelemek eltávolítása tömörít, ezért jórészt nem érzékelhető torzítást okoz. Az MPEG szabvány folyamatosan fejlődött a multimédia terén egyre növekvő igényeknek megfelelően. Az MPEGnek három fő szintje van: MPEG1: Mozgó kép és társított hang digitális tárolás, tömörítés (Coding of Moving Pictures and Associated Audio for Digital Storage Media). MPEG2: Általános mozgókép és társított hanginformáció tömörítés (Generic Coding of Moving Pictures and Associated Audio Information). MPEG3: eredetileg főként HDTV alkalmazásokhoz tervezték; később összevonták az MPEG2vel. MPEG4: “Coding of AudioVisual Objects” Az MPEG Audio szabvány, illetve eljárás három réteg (Layer) szerinti tömörítés közötti választást tesz lehetővé. Az egyes rétegekben különböző tömörítési arányok mellett különböző hangminőség érhető el. Az ún. Layer 1 a legegyszerűbb eljárás, mely 128 kb/s fölötti bitsebesség esetén használható. A Layer 2 közepes bonyolultságú eljárás, mely 128 kb/s bitsebesség körül használható. A Layer 3 (az ún. MP3 eljárás) a legbonyolultabb eljárás, mely a legjobb hangminőséget csatornánként 64 kb/s bitsebesség mellett biztosítja. A digitális hangformátumok

A számítástechnika és a multimédia világában manapság számos (több mint harmincféle) digitális audio formátum létezik. Valamennyi áttekintésére a szócikk terjedelme miatt nem nyílik lehetőség, ezért ebben a fejezetben csak a fontosabb, illetve legtöbbet használt hangformátumokat ismertjük részletesebben. (A szócikk „PC centrikussága” miatt a különböző DVD hangsávokkal, illetve különböző Dolby Digital formátumokkal, valamint a „féldigitális” MIDI formátummal sem foglalkozunk). Az MP3 Az MPEG Audio Layer 3 (azaz az MP3) a második fejezetben ismertetett MPEG család leghatékonyabb tagja. „Megadott hangminőség esetén a legkisebb bitsebesség érhető el vele, azaz egy adott bitsebességhez vele érhető el a legjobb hangminőség.”[14] A formátum kiterjesztése .mp3. A német Fraunhoffer Institute által 1992ben kifejlesztett MP3, hasonlóan az MPEG család többi tagjához, pszichoakusztikus elveket figyelembe vevő tömörítést használ. A .mp3 fájl egy veszteséges tömörítésen alapuló zenei fájlformátum, melynek a használt tömörítő (azaz kodek) szerint számos különböző változata lehet.[15] Az MP3 fájl minősége függ a tömörítő programtól és a kódolandó jel bonyolultságától. Az MP3 veszteséges: információt hagy el, hogy tárhelyet nyerjen. Az MPEG–1es szabvány nem ad pontos meghatározásokat egy MP3 tömörítő számára, csak az algoritmus és a fájlformátum mint körvonal adottak. „A szabványt implementálóknak maguk kell meghatározni a megfelelő algoritmusokat a hangoknak az eredeti audióból történő elhagyására.”[16] A formátumhoz kapcsolódnak úgynevezett ID3 vagy ID4 tagek, amelyek lehetőséget biztosítanak arra, hogy különböző információkat tároljunk el az adott hanganyagról, mint például cím, szerző, album címe, műfaja, stb.[17] Az MP3, annak ellenére, hogy nagyon népszerű és a „mindennapi élethez” tökéletes formátum, algoritmusában tartalmaz néhány hibát. Nagy hátránya, hogy a hanganyag pontos lejátszási idejét nem lehet tömöríteni. Az időbeni felbontás túl alacsony a változékony jelekhez, és a bitsűrűsége 320 kb/sig van behatárolva. Az MP3 mellett pár éve megjelent az MP4 formátum, mely megpróbálja megújítani, illetve a kor követelményeinek megfelelővé tenni az eredeti MP3 formátumot, valamint az MP3 Pro, mely azonos minőséget tud nyújtani fele akkora tárhelyen.[18] A WAV formátum A WAV (Resource Interchange Format RIFF WAVE) a Microsoft által kiadott, 8/16 bit mélységű hangformátum, melyet operációs rendszeréhez, a Windowshoz fejlesztett ki, és mára már szabványos formátumnak tekinthető. Ilyen formátumban van eltárolva minden olyan hangeffektus, amelyet a Windows indításakor, leállításakor, illetve egyes hibák

esetében hallhatunk. Ugyancsak ezt a formátumot használja a Windows hangrögzítő programja is. Digitális hanghullámokat tartalmaz, monó vagy sztereó hangokat is rögzíthet.[19] Szemben az MPEG szabványú adatformátumokkal a WAV formátum nem tömöríti az audioadatokat, így bár a többi tömörített formátumhoz képest hatalmas méretű, de hangminősége kiváló. A formátum kiterjesztése .wav. Ezt a kódolási formát PCMnek, azaz Pulse Code Modulationnek is nevezik. Egy WAV állományban három adatblokk van, ezek az ún. chunkok. A Riffrész az állomány azonosítja WAVállományként, a formátumrész jellemzőket tárol (például a gyűjtési gyakoriságot), az adat részben (data particion) a tényleges adatok vannak.[20] A WAV formátumú fájlok lejátszásához dekóderprogram szükséges. A hangállományt először teljes egészében tárolni kell, és csak utána lejátszható. A WAV formátum nagy hátránya, hogy valós idejű (real time) hangközvetítésre alkalmatlan.[21] A nagy fájlméret kiküszöbölésére a WAV formátumnál két tömörítési eljárást szoktak használni. Az egyik a Differential Pulse Code Modulation (DPCM), amelynél nem a mért amplitúdó értékek kerülnek tárolásra, hanem az előző amplitúdó értéktől való eltérés. A másik ilyen tömörítési eljárás az Adaptive Pulse Code Modulation (ADPCM).[22] Itt általában egy 4 bites skálatényezőt adnak a mintához, amely azt adja meg, hogy mennyivel kell megszorozni az előző amplitúdó értéket, hogy megkapják a következőt. „A skálatényező mértékétől függően ez az eljárás akár az eredeti méret egynegyedére is képes tömöríteni a hangzó dokumentumot.”[23] A WMA formátum A WMA (Windows Media Audio) szintén a Microsoft formátuma, de az „alap” WAV formátummal ellentétben veszteségesen tömörített audioformátum. Hangminősége azonos bitrátánál jobb, mint az MP3 fájloké, azonban a „népszerűségi listán” csak a második helyett foglalja el a jóval népszerűbb MPEG szabványú formátum mögött. A WMA formátumot éppen ezért sokan az MP3 és az Apple iTunes Music Store cég formátuma, az AAC vetélytársának tartják.[24] A WMA jogdíjköteles tömörítési algoritmust használ. A formátum kiterjesztése .wma. A WMA formátum lejátszását – az MP3hoz hasonlóan – számos eszköz támogatja. A szoftverek közül a Windows Media Player, a Winamp és a RealPlayer mellett számos, kisebb hang és videólejátszó program is támogatja (Crystal Player, BS Player, stb.). Az ASF formátum Az ASF (kezdetben Advanced Streaming Format, manapság Advanced Systems Format) szintén a Microsoft által szabadalmaztatott digitális audio/digitális video tömörítő

(konténer), amit a médiafolyamatok továbbítására szántak. Az ASF a WMAhoz és a WMV videoformátumhoz hasonlóan része a Windows Media keretrendszernek.[25] Az ASF formátum csak az audiotartalom struktúráját határozza meg, de a folyam kódolását már nem, tehát alapjában véve bármilyen kodekkel kódolt audioinformáció szerepelhet az ASF formátumú fájlokban. Ez hasonló funkció ahhoz, amit például az Ogg (lásd a következő fejezetet) formátum valósít meg. Az ASF formátum sorosított objektumokra épül, melyek ún. guid jelzővel azonosított bájt sorozatok. „ASF szintén tartalmazhat metaadat modulokat, mint artist (művész neve), title (cím), album és genre (műfaj) egy hangfelvételhez, vagy director (rendező) videó v[agy] filmanyag esetén, hasonlóan az MP3 formátum ID3 címkéihez.”[26] Az ASF bővíthető fájlformátum, amely kialakítása révén szinkronizált multimédiás adatok tárolására képes. Támogatja az adattovábbítást sokféle hálózaton és protokollon keresztül, miközben alkalmas marad a helyi lejátszásra. Az ASF olyan fejlett multimédiás szolgáltatásokat támogat, mint például a bővíthető médiatípusok, az összetevők letöltése, a méretezhető médiatípusok, a készítő által megadott adatfolyamprioritás, több nyelv támogatása, valamint széles körű könyvtártechnikai képességek, többek között a dokumentum és tartalomkezelés is.[27] Az ASF szerkezet az Amerikai Egyesült Államokban a Microsoft által bejegyzett United States Patent 6,041,345 Levi, et al. March 21, 2000 szabadalom alatt védett.[28] A Vorbis (Ogg) formátum Az Vorbis egy nyílt forráskódú és ingyenes veszteséges hangtömörítés, melyet a Xiph.org alapítvány (Xiph.org Foundation) fejleszt. Gyakran használják – Ogg Vorbis néven az Ogg konténerrel együtt.[29] A Vorbis formátum kiterjesztése .ogg. Az Ogg bitfolyam (bitstream) formátum, egy keretrendszer, melynek célja az olyan multimédiás formátumok támogatása, melyek szabadóan felhasználhatóak anélkül, hogy azok után jogdíjat kelljen fizetni, vagy felhasználhatóságuk korlátozva lenne.[30] A Vorbis fejlesztése 1998ban kezdődött, a kodek és formátumának első stabil verziója 2002ben jelent meg a piacon. „A Vorbis módosított diszkrét koszinusztranszformációt (MDCT) használ a hang időtartományból frekvenciatartományba történő konvertálásához. Az eredményül kapott frekvenciadomain zajszintre és maradék komponensekre oszlik, melyet kvantálnak és entrópiakódolást hajtanak végre rajta.”[31] A FLAC formátum A FLAC (Free Losless Audio Codec) formátum veszteségmentes tömörítő formátum, tehát tömörítés közben a hanganyag egyáltalán nem veszít a minőségéből. A tömörítetlen hangfájlokhoz képest akár 3050%os méretcsökkenés is elérhető vele,[32] ám a fájl

mérete még így is duplája marad akár egy MP3 formátumú fájlénak. A FLAC formátum nemrég kezdett teret hódítani magának az internet világában, ám egyre többen használják. Személyes tapasztalatunk alapján nem ajánljuk „házi használatra”, mérete nagy, speciális lejátszóprogram tudja csak kezelni, és a minősége nem áll ezekkel fordított arányosságban. „A FLAC csak fixpontos mintákat támogat, lebegőpontosakat nem. Bármilyen PCM kódolást képes kezelni 4től 32 bites mintákig, bármilyen mintavételezési frekvenciát 1 és 1 048 570 Hz között 1 Hzes lépésekben és 1 és 8 között bármennyi csatornát. A csatornák csoportosíthatóak, így a sztereó vagy 5.1 surround hanganyag esetén a kódolás kihasználja a csatornák közötti hasonlóságokat is. A FLAC CRC ellenőrzőösszegeket használ a sérült adatok felismerésére (ami streaming médiák esetében fontos), és a nyers PCM audio adatfolyamra egy MD5 ellenőrző kódot is tartalmaz a STREAMINFO metaadatokban.”[33] A FLAC tömörítés teljesen ingyenes, sok platform alatt elérhető és használható. A Real Audio formátum Az Interneten egyre nagyobb nyilvánosságot kap az ún. streaming media fogalma. Ez azt jelenti, hogy a nézett oldalt tartalmazó („távoli") gépen létezik egy hangfájl, amit annak letöltése közben is tudunk hallgatni. Mivel az Internet a legtöbb esetben nem teszi lehetővé a gyors adatátvitelt, ezért ezek a zenék, hanganyagok a kisebb méret érdekében gyengébb minőségűek. A legelterjedtebb ilyen streaming formátum az RA (Real Audio).[34] A Real Audio egy olyan, valós idejű digitális, veszteséges tömörítést alkalmazó hangátviteli eljárás, amely elvben már 28,8 kbit/s sebességű modemkapcsolattal elfogadható hangminőséget produkál. A hatékony kódolás következtében a Real Audio állományok terjedelme akár öt százaléka lehet egy CD minőségű WAV állománynak. A hozzá szükséges RealPlayer dekódoló program az internetről ingyenesen letölthető, akárcsak a kódolóprogram egyszerű változata. „A legtöbb ismert rádióállomás és egyre több privát adó szolgáltat bizonyos időpontokban RealAudio közvetítéseket, melyek hangminősége körülbelül a hagyományos AM adások minőségének felel meg.”[35] Az AAC formátumok Az AAC (Advanced Audio Encoding) egy veszteséges tömörítési fomátum. Szintén „régi motoros”; a szabványt 1997ben mutatta be az MPEG munkacsoport, egy nemzetközi szabványként. Az AACt az MP3hoz képest javított teljesítményű kodeknek tervezték, közepes és magas bitrátákhoz. Legfontosabb előnye, hogy széles mintavételezési

frekvenciatartományt alkalmaz, nagyobb a kódolási hatékonysága.[36] Az AAC+ az AAC formátum módosítása, hozzá képest azonos bitrátánál jobb hangminőséget produkál. A High Efficiency AAC (HEAAC) veszteséges adattömörítést végez streaming adatátvitelhez. „Az MPEG 4en alapul, de három technológiát kombinál: Advanced Audio Coding (AAC), Spectral Band Replication (SBR) és Parametric Stereo (PS).”[37] Nagyon alacsony bitrátán is képes működni.

A hangtömörítés és az audiokodekek

Recommend Documents