Převody datových formátů Cíl kapitoly: Žák popíše data používaná v informatice, jejich rozdělení, používané formáty souborů a jejich přípony, vysvětlí převody formátů. Klíčové pojmy: Data Typ souboru (formát souboru) Komprese Komprese ztrátová Komprese bezeztrátová Spustitelný soubor Datový soubor Data binární, textová a archív Čistý a prostý text Formáty rastrové grafiky (GIF, JPEG/JPG, BMP, TIFF, PNG) Formáty vektorové grafiky (WMF, AI, EPS, DWG, SWF) Audiovizuální data Datový tok (bit rate) Variabilní tok (VBR) Kodek a dekodek Zvuková data Formáty audio souborů (WAV, MP3, VORBIS, WMA, AAC, MIDI/MID, RA) Formáty video souborů (RV, WMV, Theora) Multimediální kontejner (AVI, MPEG/MPG, MOV, Matroska, OGG, RealMedia) Texty (ASCII text, RTF, PDF, DOC, ODF, XML, HTML) Konverze
Data v informatice Data lze zjednodušeně charakterizovat jako libovolnou posloupnost znaků. Pojem informace je spojen až s nějakým konkrétním významem. Lze říci, že z dat se stávají informace teprve tehdy, pokud z nich jejich příjemce je schopen získat nějaké poznatky, vědomosti. Pokud tedy příjemce rozumí významu, který je v nich ukryt, znamenají pro něj data také nějakou informaci. Ne všechna data musí nést nějakou informaci. Data se ukládají na paměťová média v podobě souborů. Soubor představuje pojmenovanou ucelenou jednotku, která obsahuje údaje určitého typu v předem dané formě (formátu), která určuje smysl dat. 24.2.2012
Převody datových formátů
1/9
V operačních systémech typu DOS a Windows se rozlišují typy souborů dle přípony. Pro zpracování informací je zapotřebí nějaký počítačový program, nějaká aplikace, která dokáže s informacemi pracovat. Existuje množství různých aplikací určených pro zpracování jednotlivých typů informací. Typ souboru (formát souboru) Určuje význam dat v elektronickém souboru. Existuje množství různých formátů, které jsou přizpůsobeny pro ukládání různých typů informací. Některé formáty jsou navrženy pro ukládání přesně daného typu dat, jiné mohou sloužit pro několik typů dat. Data v souboru mohou být uložena v komprimované (zhuštěné) podobě. Komprese Je způsob zhušťování dat. Komprimovaná data mají při zachování určité kvality menší datovou velikost. • Komprese ztrátová Tento typ komprimování má vliv na kvalitu dat (obrazu, zvuku). Nenávratně se snižuje kvalita, ale tak, aby to bylo pokud možno co nejméně pozorovatelné. Tato komprese je vysoce účinná, dokáže zmenšit velikost dat až na zlomek původní velikosti. Při komprimaci jsou vynechána některá data, využívá se nedokonalosti lidského zraku a sluchu. Ze zkomprimovaných dat nelze zrekonstruovat identickou kopii původní předlohy. • Komprese bezeztrátová V datech se nachází určité vzorce a data jsou nahrazena odkazy na tyto vzorce. Zmenšení není tak výrazné jako při ztrátové kompresi, data jsou komprimována jedním z mnoha kompresních algoritmů.
Typy souborů Soubory dělíme na spustitelné a datové. Spustitelné soubory Spustitelný soubor obsahuje instrukce, pomocí kterých počítač provede určitou činnost. Může se jednat o strojový kód nějakého procesoru nebo o zdrojový kód pro interpretovaný programovací jazyk (skript). Pod MS Windows obvykle mají spustitelné soubory se strojovým kódem příponu exe, com, scr, pif. Skripty přímo interpretované MS Windows mají příponu bat nebo vbs. Datové soubory Tyto soubory obsahují jakákoliv data, která jsou následně zpracovávána počítačovým programem. Data v souboru mohou být buď binární, nebo textová (přímo zobrazitelný text). Zvláštním druhem binárního datového souboru je tzv. archív, který obsahuje jeden nebo více komprimovaných souborů.
24.2.2012
Převody datových formátů
2/9
Textová data Pro jejich označení se používá termín čistý nebo prostý text (plain text). Text je uložen bez formátovacích informací. Hlavní výhodou prostého textu je jeho přímá čitelnost bez nutnosti interpretovat obsah speciálním programem, možnost upravovat jakýmkoliv jednoduchým textovým editorem. V prostém textu jsou obvykle ukládány zdrojové kódy pro počítačové programy a konfigurační soubory.
Binární data Obrázky Některé typy souborů jsou určeny výhradně k uložení rastrové grafiky, jiné typy souborů jsou určeny výhradně pro uložení vektorové grafiky, některé formáty dokáží uložit rastrovou i vektorovou grafiku. Některé formáty obrázky zkomprimují (zhustí), jiné uchovávají obrázek v původním stavu. Formáty rastrové grafiky GIF Umí tzv. jednobitovou průhlednost a animace, používá bezeztrátovou kompresi, je tvořen rámci a každý rámec může obsahovat maximálně 256 barev, je vhodný pro internet. JPEG/JPG Je vhodný pro finální obrázek, protože používá ztrátovou kompresi, je vhodný pro internet, archivaci digitálních fotografií. BMP Je to formát aplikací Windows, snadno dostupný, nekomprimovaný. TIFF Je to nekomprimovaný formát, dosahuje špičkové nezkreslené kvality, používá se v přetiskové přípravě. PNG Obsahuje tzv. osmibitovou průhlednost (alfa kanál), pracuje se 24 bitovou barevnou hloubkou, je vhodný pro internet, podporuje bezeztrátovou kompresi. Formáty vektorové grafiky WMF Je to formát aplikací Windows určený pro kliparty. AI Je to formát Adobe Illustratoru, tento formát je rozšířen v profesionální grafice, amatérské programy s ním pracovat neumějí.
24.2.2012
Převody datových formátů
3/9
EPS Je používán jako univerzální formát pro výměnu vektorových dat, umožňuje v sobě nést jak vektorové, tak zapouzdřené rastrové obrázky. DWG Jedná se o formát CAD/CAM aplikací, je to nekonstrukční vektorový formát. SWF Vektorový formát určený pro prezentaci interaktivní a animované grafiky.
Audiovizuální data Audiovizuální data jsou souhrnný pojem pro data zvuková a obrazová. Video je technologie pro zachycování, zaznamenávání, přehrávání, přenos a obnovu pohyblivých obrázků. V případě zpracování digitálního videa je důležité zmínit, že výsledný soubor videa má velké požadavky na paměť a diskový prostor. Kvalita videa je závislá na metodě zachycování a ukládání obrazu. Nejdůležitějším kritériem je formát uložení. Různé formáty mají různý poměr kvalita/objem. Datový tok (bit rate) Vyjadřuje množství digitálních dat přenesených za určitou časovou jednotku. Počítá se většinou v Megabitech za sekundu (Mb/s). Obecně platí, že čím větší hodnota, tím kvalitnější video. Variabilní tok (VBR) Je to způsob maximalizace kvality videa při snaze o co nejnižší množství přenesených dat. Není-li třeba pro popsání obrazu tolik bitů, nepřenesou se, naopak je-li jich potřeba více, přenáší se jich více. Znamená to tedy, že ve scénách s rychlými pohyby je datový tok daleko vyšší, než ve scénách bez pohybu. Kodek Složenina vytvořená z počátečních slabik slov „kodér“ a „dekodér“ (komprese a dekomprese). Počítačový program, který dokáže transformovat datový proud (stream) nebo signál. Kodeky ukládají data do zakódované formy (většinou za účelem přenosu, uchování, šifrování), častěji se používají k obnovení přesně nebo přibližně původní formy dat (dekodeky). Názvy formátů jsou často mylně zaměňovány s kodeky. Kodek je transformační program, formát určuje význam dat v souboru.
Zvuková data Zvuk je uložen v podobě křivky, která představuje jeho průběh. U zvukového záznamu je uloženo 44 100 změn za sekundu. Snížením počtu změn dojde ke snížení kvality, ale hlavně velikosti, neboť není nutné uchovávat tolik hodnot, které lidské ucho není schopno vnímat.
24.2.2012
Převody datových formátů
4/9
Formáty audio souborů WAV (Waveform Audio File Format) Tento zvukový formát vytvořily firmy IBM a Microsoft pro ukládání zvuku na PC. Stejným způsobem je uložen zvuk na Audio CD, což umožňuje snadný převod mezi těmito formáty. Je to běžný formát používaný v systémech Windows většinou pro nekomprimovaná data určená k dalšímu zpracování. MP3 (MPEG-1 nebo MPEG-2 Audio Layer III) Formát ztrátové komprese zvukových souborů, kompresní poměr 1:12. Do MP3 se nejčastěji komprimuje při hodnotě 128 – 320kb/s. Poslechová kvalita Audio CD pro lidské ucho je 256 kb/s. Tento formát je vhodný pro převod mluveného slova a hudby. VORBIS (OGG Vorbis) Kontejnerový formát se ztrátovou kompresí. Vorbis audio bývá nejčastěji uloženo v kontejneru OGG a v tomto spojení je nazýváno OGG Vorbis. WMA (Windows Media Audio) Komprimovaný zvukový formát, který byl vyvinut pro Windows Media Player. AAC (Advanced Audio Coding) Formát pro ztrátovou kompresi zvuku, který byl vyvinut jako logický následovník formátuMP3. MIDI/MID (Musical Instrument Digital Interface) Formát určený pro komunikaci mezi hudebními nástroji a je využíván především hudebníky při komponování hudby v digitální podobě. RA (Real Audio) Komerční formát firmy Real.com, který je nejčastěji využíván pro přenos zvuku prostřednictvím internetových rádií. Pro jeho zpracování je zapotřebí komerční software.
Videa Formáty video souborů MPEG-4 Jedná se o kolekci patentovaných metod definujících kompresi a uložení zvukových a obrazových dat. Tento formát je poskytován následujícími kodeky: • DivX Kodek, který je kompatibilní se standardem MPEG-4. Díky své schopnosti kvalitní komprese filmů na výrazně menší velikost je velice často používán pro nelegální šíření filmů chráněných autorskými právy. Velká část moderních DVD přehrávačů podporuje přehrávání filmů kódovaných kodekem DivX. • Xvid Jedná se MPEG-4 kompatibilní kodek, který je open source a svobodný 24.2.2012
Převody datových formátů
5/9
software a na rozdíl od kodeku DivX se dá používat na mnoha různých operačních systémech a platformách. RV (Real Video) Formát byl vyvinut jako speciální formát pro přenos videa po internetu v podobě tzv. streamu ve webovém prohlížeči. WMV (Windows Media Video) Windows Media Video (WMV) je komprimovaný souborový videoformát pro několik proprietárních kodeků vyvinutých společností Microsoft. Původní kodek známý jako WMV byl navržen pro internetové streamingové aplikace jako konkurence pro již zavedený RealVideo. Tento vizuální formát přehraje Windows Media Player, který je součástí samotného OS Windows. Často je používán pro přehrávání videa v HTML stránkách. Theora Patentově nezatížený formát komprese digitálního videa, který byl vyvinut jako součást projektu Ogg. Multimediální kontejner Audiovizuální data se skládají minimálně ze dvou částí, jedné vizuální a jedné zvukové. Pro uložení těchto částí se používá multimediální kontejner. Multimediální kontejner je obálka souboru nebo datového toku, obsahující jeden nebo více proudů multimediálních dat (stop, streamů). Do jednoho souboru tak lze například uložit jednu video stopu, několik zvukových stop v různých jazycích a několik titulků, je zajištěna jejich synchronizace. Uživatel si tak při přehrávání může vybrat, kterou kombinaci multimediálních dat chce použít. AVI (Audio Video Interleave) AVI funguje jako multimediální kontejner, který obsahuje jednu nebo více datových stop. Každá stopa ukládá jeden typ dat: zvuk, video, efekty či text (pro zobrazení titulků). Každá stopa také obsahuje digitálně zakódovaný mediální tok (zakódován pomocí specifického kodeku). MPEG/MPG (Motion Picture Experts Group) Velmi často používaný audiovizuální formát využívající ztrátovou kompresi. MOV (Apple Quicktime, Movie File Format) Jedná se o multimediální kontejner, který využívají zejména grafická studia pro svou prezentaci. Pro přehrání je potřeba vhodný software (pro Windows Quick Time). Matroska (rusky Матрёшка, česky Matrjoška) je moderní otevřený svobodný multimediální kontejner (podobný AVI), který umožňuje pojmout většinu moderních video a audio formátů. Dokáže též pojmout několik různých audio stop včetně prostorového zvuku. OGG Otevřený svobodný multimediální kontejner používaný především pro formáty Vorbis a Theora. 24.2.2012
Převody datových formátů
6/9
RealMedia Využívá se především v internetovém vysílání. Používá formáty RealVideo a RealAudio.
Texty ASCII text Čistý text bez jakékoliv podpory formátu. Viz textová data. RTF Nezávislý formát obsahující rozsáhlou množinu formátovacích příkazů, umožňuje uchovávat i obrázky. Při hledání zdrojového kódu je v něm možno identifikovat jednotlivé příkazy. PDF Přenosný formát dokumentů. Může obsahovat text, obrázky, vektorové objekty, animace, hypertextové odkazy a další prvky používané v oblasti grafiky a polygrafie. Je nezávislý na softwaru a hardwaru. Formátování a rozložení textu jsou při zobrazení a tisku stejná jako v původním dokumentu. DOC Jedná se o formáty firmy Microsoft, dokáže uchovávat textové i grafické informace. ODF Formát kancelářského balíku Open Office. Jeho struktura je založená na XML formátu. XML Je zjednodušenou podobou staršího značkovacího jazyka SGML. Jazyk je určen pro výměnu dat mezi aplikacemi a pro publikování dokumentů, u kterých popisuje strukturu z hlediska věcného obsahu, nezabývá se vzhledem, ten zajistí kaskádové styly. Umožňuje transformaci do jiného dokumentu nebo jiné aplikace XML. HTML Představuje značkovací jazyk, který se nejčastěji používá na vytváření webových stránek. Značky umožňují nastavovat formát písma, vkládat speciální objekty (obrázky, tabulky) a kromě samotného zobrazování podporují i funkci hypertextu.
Převody datových formátů Konverze Tento termín označuje převod informace do jiného zobrazení, zejména do jiného kódu, jiného formátu nebo jiné číselné soustavy. Každá informace, pokud má být informaticky zpracována, musí být zobrazena v určitém kódu a dodržovat nějaký formát. Ačkoli se kódy i formáty standardizují, užívá se jich celá řada, takže konverze patří mezi velmi časté operace. Je sice obvykle algoritmicky jednoduchá, ale vzhledem k objemům dat může být časově velmi náročná. Konverze obrazových informací je obvykle složitá i algoritmicky. 24.2.2012
Převody datových formátů
7/9
V zásadě existují v zásadě tři možnosti: 1. Bezztrátový převod Během tohoto převodu nejsou ztracena žádná data. To je případ, když dva kompatibilní formáty jsou vzájemně převoditelné. Například převod rastrového obrazu z TIFF do PNG. 2. Ztrátový převod. Ke ztrátě dat může dojít z následujících důvodů: • Ztrátová komprese dat Kompresí jsou vypuštěna nepotřebná data. Jedním z příkladů je převod zvukového souboru z WAV do MP3. • Cílovému formátu chybí možnost přeložit všechna data pocházející ze zdrojového. Příkladem je konverze HTML do textového souboru, u které dochází ke ztrátě veškerého formátování. 3. Významová konverze Tato konverze je smysluplná, pokud jde o data. Vzorce a formáty se nepřevedou. U tohoto typu převodu může dojít ke ztrátě informací, nebo naopak může dojít k obohacení o další informační zdroje. Příkladem je převod tabulky z Microsoft Excel XLS do formátu CSV, nebo naopak.
Kontrolní otázky Jak dělíme data v informatice? Co je to komprese? Jak se liší ztrátová a bezeztrátová komprese? Co jsou to spustitelné soubory? Co jsou to datové soubory? Jaká data mohou obsahovat datové soubory? Která data se řadí mezi binární? Které formáty řadíme mezi rastrové? Které formáty řadíme mezi vektorové? Co jsou to audiovizuální data? Co je to datový tok? Co je to kodek? Co je to multimediální kontejner? Jak se ukládá zvuk? Které formáty řadíme mezi zvukové? Které formáty řadíme mezi video formáty? Které formáty řadíme mezi textové? Co je to konverze? Jaké existují možnosti pro převody datových formátů?
24.2.2012
Převody datových formátů
8/9
Použitá literatura KLIMEŠ, C. - SKALKA, J. – LOVÁSZOVÁ, G. – ŠVEC, P. Informatika pro maturanty a zájemce o studium na vysokých školách. České vydání. Nitra: ENIGMA, 2008. 460 s. ISBN 970-80-89132-71-3. NAVRÁTIL, Pavel. Počítačová grafika. Vydání první. Kralice na Hané: Computer Media s.r.o., 2007. 112 s. ISBN 80-86686-77-9 Audio Video Interleave – Wikipedie [online]. poslední revize 9. 4. 2011 Dostupný z
Binární soubor – Wikipedie [online]. poslední revize 13. 3. 2010 [cit. 2011-05-06]. Dostupný z Čistý text – Wikipedie [online]. poslední revize 7. 2. 2011 [cit. 2011-05-06]. Dostupný z < http://cs.wikipedia.org/wiki/Čistý_text> Formát souboru – Wikipedie [online]. poslední revize 3. 5. 2011 [cit. 2011-05-06]. Dostupný z Video – Wikipedie [online]. poslední revize 6. 5. 2011 [cit. 2011-05-06]. Dostupný z Konvertierung (Informatik) – Wikipedia [online]. poslední revize 9. 4. 2011 [cit. 2011-0506]. Dostupný z < http://de.wikipedia.org/wiki/Konvertierung_(Informatik)>
24.2.2012
Převody datových formátů
9/9