.
2/36
Osnova přednášky .
Datové formáty
Formáty uložení dat
.
— vyjádření hodnot datového typu — formátová specifikace — textový a binární formát
Výpočetní technika I
Souborové formáty
Ing. Pavel Haluza ústav informatiky PEF MENDELU v Brně
— otevřený a uzavřený formát — rozpoznávání formátu — asociace a konverze
[email protected]
Komprimace a archivace — komprimační metody — archivace a zálohování — metody a postupy archivace
.
Výpočetní technika I
.
Přednáška 3: Formáty uložení dat
Výpočetní technika I
Datové formáty
Datové formáty
Vyjádření hodnot datového typu
Vyjádření hodnot datového typu
3/36
Vyjádření hodnot datového typu
Příklad 2: příjmení osoby – Cimrman a) s určením délky
a) převod čísla do dvojkové soustavy 11010
00011010
1a
7
'C' 'i' 'm' 'r' 'm' 'a' 'n'
07
43
69
6d
72
6d
61
6e
43
69
6d
72
6d
61
6e
00
'C' 'i' 'm' 'r' 'm' 'a' 'n' ' '
''
''
43
69
6d
72
6d
61
6e
20
20
20
43
69
6d
72
6d
61
6e
0d
0a
b) zápis čísla pomocí znaků (znakový kód) 110010 110110
Výpočetní technika I
00110010 00110110
Přednáška 3: Formáty uložení dat
4/36
Vyjádření hodnot datového typu
Datový formát – způsob uložení dat v jakékoli paměti počítače Příklad 1: věk osoby – 26 let
.
Přednáška 3: Formáty uložení dat
32 36
b) s oddělovači
.
Výpočetní technika I
Přednáška 3: Formáty uložení dat
.
Datové formáty
Datové formáty
Formátová specifikace
Vyjádření hodnot datového typu
5/36
Porovnání způsobů uložení
V operační paměti jsou obvykle data ve tvaru vhodném pro zpracování (výpočty, řazení, …)
Tvar použitý v operační paměti 43
69
6d
72
6d
61
6e
00
1a
Viditelný tvar (tiskárna, displej, klávesnice, …) musí být složen výhradně z čitelných (zobrazitelných) znaků
Tvar použitý pro vstup nebo výstup 43
69
6d
6e
20
20
20
32
'C' 'i' 'm' 'r' 'm' 'a' 'n'
''
''
''
'2' '6'
72
6d
61
6/36
Formátová specifikace
Formátová specifikace – popis formátu, tj. přesný význam jednotlivých bitů (bytů) dat Příklad formátové specifikace:
36
— délka příjmení L – jeden byte — příjmení – řetězec, ISO 8859-2, L bytů — věk – binárně, jeden byte 07
.
Výpočetní technika I
43
.
Přednáška 3: Formáty uložení dat
69
6d
Výpočetní technika I
72
6d
61
6e
1b
Přednáška 3: Formáty uložení dat
Datové formáty
Datové formáty
Textový a binární formát
Textový a binární formát
7/36
Druh formátu
8/36
Definice formátu Intuitivní definice
Textový formát – data jsou připravena pro zobrazení a přímé čtení člověkem
— textový formát: všechny prvky formátu jsou složeny výhradně ze zobrazitelných znaků — binární formát: alespoň některé prvky formátu jsou řešeny jiným způsobem (řídicími znaky)
Netextový (binární) formát – data jsou připravena pro aritmetické a logické operace v paměti počítače
Problémy — kolik řádků může mít soubor, je-li v textovém formátu? — jak poznáte konec souboru?
Upravená definice — textový formát: všechny prvky formátu jsou složeny ze zobrazitelných znaků, mezi nimiž jsou použity jako oddělovače konce řádků a na konci dat nejvýše jeden znak konce souboru
.
Výpočetní technika I
Přednáška 3: Formáty uložení dat
.
Výpočetní technika I
Přednáška 3: Formáty uložení dat
.
Datové formáty
Datové formáty
Textový a binární formát
Textový a binární formát
9/36
Konec řádku a konec souboru
10/36
Textový formát – vlastnosti
V různých operačních systémech jsou řídicí znaky různé
Data jsou přímo čitelná člověkem
Vedlejší efekt: podle tvaru konce řádku lze zjistit operační systém, ve kterém byl soubor vytvořen
Pro zpracování je obvykle nutná změna vyjádření Zpracovatelný celou škálou obecných programů a služeb každého operačního systému, což zvyšuje přenositelnost
Dnešní kvalitní textové editory dokážou řídicí znak změnit
Odolnost vůči porušení (ztrátě) informací
.
Operační systém
Konec řádku
Název znaku
Konec souboru
Název znaku
Unix Mac MS
0a 0d 0d 0a
LF CR CR LF
04 04 1a
EOT EOT ESC
Výpočetní technika I
Nenapadnutelné virem Většinou nižší úspornost zobrazení
.
Přednáška 3: Formáty uložení dat
Výpočetní technika I
Přednáška 3: Formáty uložení dat
Souborové formáty
Datové formáty Textový a binární formát
11/36
Binární formát – vlastnosti
12/36
Souborový formát
Data nejsou přímo čitelná člověkem
Pojem odvozený z pojmu „datový formát“
Vhodný pro přímé zpracování
Specifikace tvaru dat uložených v souboru
Nízká přenositelnost, závisí na určitém programu, který zná přesnou a detailní strukturu dat
Místo podrobného popisu dat používáme jména formátů Dokument – soubor obsahující
Snadná ztráta všech informací při porušení
— vlastní text — formátovací značky
Napadnutelné virem, lze ukrýt mnoho informací
Dělení souborů podle tvaru značek
Někdy maximálně úsporný (ale i naopak)
— textové – HTML, XML, RTF, PostScript, TEX, CSV — binární – DOC, DOCX, SAM, INDD, PDF, Text602
Datové soubory programů určitého zaměření mohou být v obojím formátu – mají rozdílné vlastnosti a možnosti použití .
Výpočetní technika I
Přednáška 3: Formáty uložení dat
.
Výpočetní technika I
Přednáška 3: Formáty uložení dat
.
Souborové formáty
Souborové formáty
Otevřený a uzavřený formát
Otevřený a uzavřený formát
13/36
Otevřený a uzavřený formát
Přehled základních souborových formátů Textové formáty
Otevřený formát — specifikace formátu je volně dostupná — prostředek pro výměnu informací, efektivní využití a zpracování uložených dat — příklady: JPG, PNG, PDF, všechny textové
— — — —
Uzavřený formát
Výpočetní technika I
— historie: SAM, INDD, T602 — dokumenty: DOC(X), XLS(X), PPT(X), ODF, PDF — grafika: BMP, JPG, PNG, GIF, TIFF, CDR, EPS
.
Přednáška 3: Formáty uložení dat
Výpočetní technika I
Přednáška 3: Formáty uložení dat
Souborové formáty
Souborové formáty
Rozpoznávání formátu
Otevřený a uzavřený formát
15/36
Přenositelnost formátu
První krok — roztřídění na textové a binární formáty — využití běžných programů (type, more)
Důležitým faktorem je podpora zpracování formátu v různých operačních systémech
Druhý krok — rozšířené textové formáty – rozpoznání kódování národních znaků a operační systém, v němž soubor pravděpodobně vznikl — binární formáty – použití rozpoznávacích programů — Unix: file, enca, od — Windows: není nástroj (zkusmo?)
Přenositelnost je také úzce svázána s otevřeností formátu, ale závisí také na majiteli formátu (DOC × PDF) Přenositelnost textových formátů je obecně daleko větší Binární otevřené formáty rovněž přenositelné
Výpočetní technika I
Přednáška 3: Formáty uložení dat
16/36
Rozpoznávání formátu
Lze pracovně definovat jako množství programů schopných zpracovat tento formát
.
webové aplikace: HTML, XHTML, XML, MHT, CSS zdrojové kódy: JS, PAS, JAVA, PL, PHP, ASP dokumenty: RTF, PS, CSV, TEX, TXT grafika: SVG
Binární formáty
— specifikace formátu je utajována — umožňuje získat monopol pro jeho zpracování a zároveň silně omezuje možnosti využití uložených dat — příklad: CDR, dříve MS Office (DOC, XLS, PPT)
.
14/36
.
Výpočetní technika I
Přednáška 3: Formáty uložení dat
.
Souborové formáty
Souborové formáty
Asociace a konverze
Asociace a konverze
17/36
Asociace formátů a aplikací
Více formátů → 1 aplikace
Udává, která aplikace bude pracovat se souborem dané přípony
— časté, ale neproblematické
Laikům usnadňuje zpracování dat v operačním systému
1 formát → více aplikací
Princip – tabulka s řádky „formát → aplikace“ (Tento počítač; Nástroje/Možnosti složky)
— problém nejednoznačnosti, nepříjemné řešení — aktivuje se buď posledně instalovaná aplikace, nebo podle výběru z nabídky
Spouštění aplikace v případě aktivace souboru příslušného formátu (stažení přes prohlížeč, dvojklik v manažeru, výběr v dokumentech apod.)
1 formát → žádná aplikace
Orientace jen podle rozšíření (přípony) jména souboru může vést ke zmatkům Ideální stav: 1 formát → 1 aplikace — platí pro speciální případy, např. CDR → CorelDraw!
Žádný formát → 1 aplikace
.
Výpočetní technika I
18/36
Problémové případy
— chybové hlášení s nabídkou instalovaných aplikací, z nichž uživatel může vybrat (prakticky nikdy nevede k úspěchu) — Windows XP: rozšíření nabídky programů z Internetu — buď aplikace žádné formáty nepotřebuje, nebo se jedná o aplikaci DOS, nebo o chybnou instalaci
.
Přednáška 3: Formáty uložení dat
Výpočetní technika I
Přednáška 3: Formáty uložení dat
Komprimace a archivace
Souborové formáty Asociace a konverze
19/36
Konverze formátů
20/36
Potřebnost komprimace Redundance v datech – nutná pro zpracování dat Vznik redundance
Změna souborového formátu bez změny informačního obsahu
V praxi vzácné ideální případy
– nedokonalým kódováním dat – nutností rychlého přístupu k datům – přidáním zabezpečovacích zařízení
Často vede ke ztrátě, ale i k nabytí informací Provedení konverze — speciálním konverzním programem — služby Open a Save (As) běžných programů
Odstranění (snížení) redundance – použitím komprimace
Příklady — — — —
.
konverze čísel mezi textovou a binární podobou konverze obrazových formátů (Unix: convert) konverze kódování národních znaků (cstocs) konverze dokumentních formátů (DOC → RTF) Výpočetní technika I
Přednáška 3: Formáty uložení dat
.
Výpočetní technika I
Přednáška 3: Formáty uložení dat
.
Komprimace a archivace
Komprimace a archivace
Komprimační metody
21/36
Základní pojmy Hrubá data – data před komprimací Čistá (komprimovaná) data – data po komprimaci Komprimační poměr – poměr délek hrubých a komprimovaných dat, vyjadřuje se různým způsobem – h/k – udává násobek hrubých dat – k/h · 100 – udává, na kolik procent se data zmenšují – (1 − k/h) · 100 – udává, o kolik procent se data zmenšují Záporná komprimace – data se komprimací zvětšují Ztrátová komprimace – některá data se vynechávají Adaptivní komprimace – komprimační metoda pracuje v závislosti na hrubých datech Symetrická komprimace – čas komprimace a dekomprimace je stejný
.
Výpočetní technika I
Logická komprimace – jiný (kratší) způsob vyjádření stejných informací – je nutné znát detailně sémantiku (význam) dat – příklady – zkracování slov (těsnopis), čb fotografie vyjádřená v odstínech šedi
Fyzická komprimace – hledání lepšího (kratšího) kódu – nezávisí na sémantice dat
.
Přednáška 3: Formáty uložení dat
Výpočetní technika I
Přednáška 3: Formáty uložení dat
Komprimace a archivace
Komprimace a archivace
Komprimační metody
Komprimační metody
23/36
Metoda RLE
Lempel, Ziv, Welch (1977, vylepšeno 1984) – algoritmus a jeho implementace Princip
Run Length Encoding – kódování délkou běhu Základní princip – opakovač, hodnota
– hledání optimálního kódu pro zadaná hrubá data – prvkem hrubých dat, který se kóduje, jsou posloupnosti
– hrubá data – 65 65 65 65 78 78 78 32 32 32 32 32 – výsledek – 4 65 3 78 5 32
Postup
Problém – střídavá data; může dojít k záporné kompresi, řeší se speciálním tvarem opakovače
– data se analyzují, zjišťují se posloupnosti a jejich četnost – na základě analýzy a vzniklého slovníku se hledá optimální kód
Bitová / bytová / pixelová úroveň
Výpočetní technika I
Přednáška 3: Formáty uložení dat
24/36
Metoda LZW
Běh – posloupnost stejných hodnot
.
22/36
Komprimační metody
LZMA – Lempel, Ziv, Markov-Chain Algorithm, pomalejší, ale s lepším komprimačním poměrem
.
Výpočetní technika I
Přednáška 3: Formáty uložení dat
.
Komprimace a archivace
Komprimace a archivace
Komprimační metody
Komprimační metody
25/36
Metoda CCITT
Vlastnosti komprimačních metod
26/36
Metoda RLE
Princip
– jednoduchá – závislá na bězích v hrubých datech – nízký komprimační poměr
– stejný jako u LZW – používá se však pevný slovník
Implementace
Metoda LZW
– CCITT Group 4 pro monochromatická obrazová data (formáty BMP, TIFF, PCX)
– – – –
nejsložitější adaptivní, nezávislá na datech vysoký komprimační poměr univerzální použití, kvalitu lze ovlivnit hloubkou analýzy
Metoda CCITT – jednoduchá – závislá na prvcích odpovídajících slovníku – nízký komprimační poměr
.
Výpočetní technika I
.
Přednáška 3: Formáty uložení dat
Přednáška 3: Formáty uložení dat
Komprimace a archivace
Komprimace a archivace
Komprimační metody
Komprimační metody
27/36
Implementace
Soubor vytvořený komprimátorem, obsahuje čistá data a režijní informace Procento režijní informace závisí na velikosti a počtu komprimovaných souborů
Komprimace pod OS třídy Unix – gzip, zip/unzip Komprimace pod OS Windows – pkzip/pkunzip, WinZIP, WinRAR, arj, 7zip apod.
Formát archivu je pro každý komprimátor jiný Moderní komprimátory jsou schopny číst a někdy i vytvářet archivy různých typů
Různé komprimátory – různé formáty archivů, různé ovládání, ale prakticky vždy metoda LZW (LZMA) s mírnými modifikacemi
Výpočetní technika I
Přednáška 3: Formáty uložení dat
28/36
Archivy
Komprimátory – programy schopné komprimovat, ale také archivovat, pracovat se soubory a adresáři, šifrovat obsah, vkládat poznámky apod.
.
Výpočetní technika I
.
Výpočetní technika I
Přednáška 3: Formáty uložení dat
.
Komprimace a archivace
Komprimace a archivace
Komprimační metody
Komprimační metody
29/36
Vnitřní fragmentace
Implementace uvnitř jiného programu – služby Otevřít (Open) a Uložit (Save, Save As)
Každý disk je složen z alokačních bloků určité délky Uložený soubor zabírá vždy určitý celočíselný počet alokačních bloků
Při běžné práci se skrytě komprimuje a dekomprimuje
Velikost souboru ≤ velikost na disku
Používáno u programů pracujících s vnitřně komprimovanými daty, například obrazové editory, zpracování hudebních dat a videodat
Shrnutí více souborů do jednoho archivu znamená eliminaci vnitřní fragmentace (i bez komprimace jde o zmenšení prostoru na disku)
Použita symetrická komprimace – čas otevření a uložení je podobný, menší nároky na kvalitu komprimace, často i ztrátová komprimace
Poslední alokační blok souboru není zcela využit – vnitřní fragmentace
.
Výpočetní technika I
.
Přednáška 3: Formáty uložení dat
Výpočetní technika I
Přednáška 3: Formáty uložení dat
Komprimace a archivace
Komprimace a archivace
Archivace a zálohování
Archivace a zálohování
31/36
Archivace a zálohování
Záloha dat, záloha programů Zálohují se soubory, adresářové podstromy, disky, systémové soubory a oblasti Výchozí záloha – kopie původního systému, provádí se po první instalaci Úplná záloha – všechna data, která byla k dispozici v okamžiku jejího vytvoření Rozdílová (diferenciální) záloha – pouze data, která byla změněna od úplné zálohy Přírůstková (inkrementální) záloha – pouze data, která byla změněna od vytvoření poslední plné nebo přírůstkové zálohy Plán záloh
– uchování dat pro budoucí použití – nutnost uchování dokladů o provedených pracích
Zálohování – ochrana před poškozením nebo ztrátou dat (viry, požár, povodeň, chyby uživatelů)
Vzdálenost archivu – – – –
příruční – na stejném disku odkládací – na stejném počítači, ale jiném disku bezpečnostní – mimo počítač, archivní média podle vzdálenosti roste i bezpečnost uchování
Výpočetní technika I
Přednáška 3: Formáty uložení dat
32/36
Způsoby zálohování
Archivace
.
30/36
On-line komprimace
.
Výpočetní technika I
Přednáška 3: Formáty uložení dat
.
Komprimace a archivace
Komprimace a archivace
Metody a postupy archivace
Metody a postupy archivace
33/36
Metody a postupy archivace Vytváření archivních souborů – většinou vhodným komprimátorem nebo specializovanými programy
Program tar (tape archive) a jeho kombinace s bezztrátovou komprimací gzip – soubory .tar, .tgz
Četnost archivace – podle vzdálenosti archivu, po každé modifikaci dat, jednou denně, jednou týdně, jednou měsíčně, … Média pro zálohy a archivy
Vytvoření skriptu (uživatelské dávky) pro archivaci vybraných souborů a adresářů Nastavení času a periodicity archivace – cron
– pevné disky – v počítači (oblast téhož disku, jiný disk, mirror) – zálohy – přenosná média (CD, DVD, magnetické pásky, flash disky) – zálohy i archivy – NAS (Network Attached Storage) – síťově dostupné úložiště – zálohování
.
Výpočetní technika I
Automatizované posílání archivů případně na jiný stroj (připojení disku jiného stroje do souborového systému)
.
Přednáška 3: Formáty uložení dat
Výpočetní technika I
Přednáška 3: Formáty uložení dat
Komprimace a archivace
Komprimace a archivace
Metody a postupy archivace
Metody a postupy archivace
35/36
Archivace ve Windows
Úvod do teorie informace — základní pojmy — měření množství informace ve zprávě — přenos a kódování dat
Možnosti zálohy systémových záznamů a jejich obnova v případě havárie
Ochrana dat
Zálohování souborů – výběr zdrojů a umístění archivů
— parita — kontrolní součet — samoopravný kód
Plánovač úloh – možnost volby času zálohování a periodicity
Výpočetní technika I
Přednáška 3: Formáty uložení dat
36/36
Osnova příští přednášky
Program backup – varianta v příkazovém řádku nebo interaktivní (i s průvodcem)
.
34/36
Archivace v Unixu
.
Výpočetní technika I
Přednáška 3: Formáty uložení dat