Formáty WWW zdrojů
Mgr. Filip Vojtášek
[email protected]
http://webarchiv.nkp.cz
Formáty: obecný pohled !
!
http://webarchiv.nkp.cz
Způsob uspořádání dat do sekvence pomocí binární soustavy " bit stream (logický formát) Způsob vnější prezentace datového souboru pomocí aplikačního softwaru a výstupního hardwarového zařízení (fyzický formát)
MIME
(Multipurpose Internet Mail Extension) !
!
!
! !
Původně konvence pro přenos zpráv elektronickou poštou a jejích příloh v jiné podobě než v ASCII Princip se uplatňuje i v protokolu HTTP: součástí hlaviček (headers), které doprovázejí data jako odpověď webového serveru na požadavek klienta, je i specifikace jejich typu Content-Type: základní typ/upřesnění obsahu (= formátu) RFC 2045-2049 Registrované typy (IANA): ftp://ftp.isi.edu/innotes/iana/assignments/media-types/
http://webarchiv.nkp.cz
MIME Jednoduché typy příklady text
html, plain, xml
image
gif, jpeg, png
audio
wav
video
mpeg
application
msword, pdf, rtf, postscript
model
vrml
Složené typy
příklady
message
rfc822
multipart
encrypted
Vlastní typ: image/x-djvu (nutná úprava konfigurace webového serveru) http://webarchiv.nkp.cz
HTTP/1.0 200 OK Server: Netscape-FastTrack/2.01 Date: Thu, 14 Jun 2001 13:49:20 GMT Accept-ranges: bytes Last-modified: Wed, 13 Jun 2001 10:39:49 GMT Content-length: 1940 Content-type: text/html <TITLE>Titulek
Kapitola
...
Formáty dnes ! !
! ! !
http://webarchiv.nkp.cz
Text: HTML 4.0 Rastrová grafika: JPEG a GIF (naděje vkládané do PNG se nepotvrdily) Distribuce: PDF Audio: MP3 Statické (hierarchické) systémy
Zastoupení formátů na WWW !
http://webarchiv.nkp.cz
Švédsko (automatické indexování – harvesting v rámci projektu Kulturarw3, 1998 a 2000) MIME typ/podtyp
1998
2000
text/html
56
52
image/gif
20
24
image/jpeg
10
20
text/plain
9
2
application/pdf
1,3
application/msword
0,3
image/png
0,3
Zastoupení formátů na WWW !
http://webarchiv.nkp.cz
Nizozemí (projekt DNEP, 2000) MIME typ/podtyp
2000
text/html
66
image/gif
24
image/jpeg
6
text/plain
2
ostatní
2
Zastoupení formátů na WWW !
Česká republika (průzkum v databázích vyhledávacích služeb AltaVista a Google, červen 2001) AltaVista ostatní 38 %
.html+.htm 62 %
Google .pdf 4%
http://webarchiv.nkp.cz
.txt 2%
ostatní 21 %
.html+.htm 73 %
Webové prohlížeče !
! !
!
!
http://webarchiv.nkp.cz
Univerzální prostředek pro přístup k elektronickým zdrojům v jednom (webovém) rozhraní On-line > off-line Standardy (W3) vs. reálná podpora ze strany prohlížečů „Čisté” HTML minulostí (vnořené objekty a externí soubory) Plug-in jako nezbytný doplněk pro práci s netradičními datovými formáty (.djvu, .lwf, .svg, .pdf, .swf…)
Podíl přístupů podle prohlížeče (servery internet.com, květen 2001)
IE 4.x 10 %
NN 4.x 8%
NN 6.x 3%
IE 5.x 79 %
Formáty zítra I? !
Text: XML/schémata XML (AML, WML, NewsML, CML, MathML, DocBook aj.) + XHTML místo HTML # # # # # # #
!
!
!
http://webarchiv.nkp.cz
WWW Intranet E-business Databázové aplikace WAP DTP DMS
Distribuce: PDF (elektronické časopisy aj.) místo postskriptu a TEX? Rastrová grafika: wavelet technologie (JPEG 2000 aj.) místo JPEG? Vektorová grafika: SVG (W3), Flash místo GIF?
Formáty zítra II? ! ! ! !
!
http://webarchiv.nkp.cz
Audio: MP3 Video: MPEG 4, MPEG 7 Živé vysílání (audio, video) Elektronické knihy: kompatibilní s OEB (Open eBook Publication Structure) – Microsoft a další Dynamické systémy (SQL + ASP/PHP)
Formáty a archivace elektronických zdrojů
!
Rychlé morální stárnutí komponent digitálního prostředí (aplikační SW, operační systém, HW platforma) = nástrojů interpretace elektronických zdrojů Primární faktor ovlivňující čitelnost elektronických zdrojů (x fyzická životnost nosiče) Formáty:
!
Všeobecné (široká podpora různými producenty SW z dané kategorie – TXT, HTML, XML, JPEG, GIF, RTF, MP3…) # Proprietární (ideální dekódování zajišťuje pouze jeden aplikační SW – DOC, PPT, PDF, RAM, WPD, CDR…) „Jistota”: zpětná kompatibilita u SW téhož
!
!
#
!
http://webarchiv.nkp.cz
!
producenta Klíčová otázka: Uchovat obsah nebo obsah + formu? Dvě metody: migrace a emulace
Migrace ! !
! !
http://webarchiv.nkp.cz
Co uchovat? Obsah Jak? Včasná cyklická konverze elektronických zdrojů ze staršího digitálního prostředí do nového Proč ano? Praktické zkušenosti Proč ne? Hrozí nebezpečí postupné ztráty integrity zdroje (nutnost výběru perspektivního formátu)
Emulace !
!
! !
http://webarchiv.nkp.cz
Co uchovat? Zdroj v originálním formátu (tj. obsah i formu) Jak? Spolu se zdrojem uložen příslušný aplikační SW a operační systém v původní podobě + specifikace HW platformy pro budoucí emulaci (= oživení) zastaralého digitálního prostředí Proč ano? Teoreticky efektivnější a levnější Proč ne? V reálných podmínkách neověřeno (ve stádiu testování - projekty NEDLIB, CAMiLEON)