Návrh opatření pro prodloužení životnosti obsahu CD a DVD disků ve sbírkách NK Mgr. Jan Hutař; Mgr. Marek Melichar Manažerské shrnutí Národní knihovna má ve svých sbírkách tisíce nosičů elektronických dat typu CD a DVD nebo jiných. Ročně získává Národní knihovna do svého fondu v rámci povinného výtisku přes tisíc dokumentů v elektronické formě, a to jak jako součást či přílohu tištěných publikací, tak jako jednotlivé dokumenty (viz [s.a.] Evidence ISO Obrazů v rámci Registru Digitalizace). Tato média mají velmi různorodý obsah (audiovizuální obsahy, texty, software a aplikace). Vzhledem k tomu, že jsou tyto nosiče ohroženy fyzickou degradací, je žádoucí připravit a zveřejnit strategii dlouhodobé ochrany tohoto typu dokumentů a obsah těchto médií převést na úložiště NK. Cílem převodu by mělo být zajištění dlouhodobé dostupnosti obsahu těchto médií, příprava těchto dat pro další zpřístupnění přímo z úložiště a také tato data připravit pro vstup do LTP systému budovaného v rámci projektu NDK. Základní průzkum kvality těchto médií provedla firma INCAD s poměrně dobrými výsledky. (Méně než 1 procentu nepoužitelných nosičů). Tento text navrhuje základ strategie pro převod výše zmíněných nosičů na úložiště (archiv NK). Základními principy strategie pro dlouhodobou ochranu jsou a) vytvoření výchozí metodiky selekce medií určených k dalšímu zpracování, b) využití doporučení zahraničních knihoven, které již podobné operace prováděly, c) explicitní vyjmenování formátů, které je NK schopna zpracovat a ochraňovat, d) zveřejnění pracovního postupu převodu dat, jejich validace a doplnění dostatečných metadat. Stávající situace Národní knihovna má ve svých fondech tisíce nosičů CD, DVD, a také stovky magnetofonových pásek. Jedná se jak o samostatné dokumenty s vlastním záznamem v katalogu, tak o různé typy příloh (ke knihám, periodikům apod.). Pracovníci OSOF provedli testovací převod části těchto nosičů na úložiště s cílem zjistit kvalitu těchto nosičů. Na úložiště bylo převedeno cca 1TB dat, ze dvou signatur (GD, ZC). Data obsahují jak zvukové dokumenty, tak ISO image surových dat. Média byla vybrána s cílem zjistit procento vadných nebo nečitelných CD/DVD nosičů. Data (soubory ISO nebo složky) jsou pojmenovány číslem signatury. Jiná metadata, ani popisná ani technická, v tomto projektu nevznikala a nejsou s objekty uložena. Ukázalo se, že procento nečitelných nebo vadných nosičů je velmi nízké. (viz [s.a.] Evidence ISO Obrazů v rámci Registru Digitalizace).
1
V testovacím převodu se negenerovaly kontrolní součty, nezaznamenávaly se žádné informace o validaci převodu. Z hlediska použití pro uživatele a pro potřeby dlouhodobé ochrany jsou tato data (ISO image) bez metadat a údajích o převodu z fyzického nosiče prakticky nepoužitelná.
1) CD a DVD nosiče ve sbírkách NK Typy záznamu v katalogu - samostatný záznam - záznam jako elektronický zdroj, který není online. Týká se všech typů dokumentů (zvuk, video, ale i CD-ROM, DVD-ROM) - záznam CD jako přílohy monografie - někdy samostatná jednotka, někdy jen záznam v poli 300 - záznam CD jako přílohy periodika - pouze zmínka v poli 5xx Kolika dokumentů/nosičů se problém týká? Přesné zjištění skutečného počtu položek CD a DVD vyžaduje složitější analýzu knihovního katalogu. Orientačně jsme zjistili: - položky v katalogu NKC označené jako zvukový záznam (16809), - videozáznam (497), - CD-ROM přes 3 tisíce, - DVD určitě také stovky Dále analogová média: 3500 gramofonových desek, magnetické pásky a kazety. Dokumenty na CD/DVD nosičích se do NK dostávají dvěma cestami: 1. jako povinný výtisk – nastane v případě, že a. CD/DVD má ISBN/ISSN (např. elektronické encyklopedie apod.) b. jde o součást periodika nebo monografie, která přijde jako povinný výtisk 2. na dobrovolné bázi – do NK přijde nezanedbatelné množství datových nosičů (audio a audio-vizuálních), které jejich producenti posílají dobrovolně, ačkoliv tyto dokumenty jsou vyjmuty z povinného výtisku (viz Zákon o neperiodických publikacích 37/1995 Sb. paragrafu 1 článek 3a) Má smysl zveřejňovat seznam převedených dokumentů/nosičů zveřejnit v RD.CZ? Zveřejnění v RD.CZ má smysl, pokud jsme schopni data správně identifikovat, pokud budou uložena s metadaty a někde zpřístupněna pro ostatní knihovny nebo čtenáře. Pokud má RD.CZ sloužit svému účelu (zabránit redundantnímu zpracování dokumentů) měli bychom být schopni ISO image a další kopie CD a DVD poskytnout dalším institucím nebo je nabízet nějak online. Pokud nebudeme ISO image zpřístupňovat a mají sloužit pouze náhradě existujících nosičů, je registrace RD.CZ podle nás zbytečná. Každá instituce si bude vytvářet sama své ISO image ze CD/DVD nosičů a povede si interní evidenci.
2
2) Návrh mechanismu selekce materiálu pro archivaci V současnosti neexistuje jasná strategie, která by říkala, jak se dokumenty k převodu na úložiště vybírají. Vychází se pouze z předpokladu, že všechny nosiče CD/DVD, které jsou v NK uloženy, jsou povinným výtiskem a je nutno je ochránit. Bylo by dobré si ujasnit, zda chceme například zvukové dokumenty v budoucnu někdy zpřístupnit z úložiště koncovým uživatelům. Pokud ne, a převod na úložiště (v podobě ISO image nebo zvukových souborů) má sloužit pouze jako zdroj pro náhradu poškozených nebo jinak degradovaných nosičů, bylo by dobré analyzovat, které nosiče je třeba převádět přednostně z důvodu velké obrátkovosti při půjčování nebo vzhledem k jejich stáří a jiným rizikům. Převod nosičů na úložiště pouze pro zajištění náhrady existujících nosičů je z hlediska dlouhodobé archivace velmi krátkozraká strategie. Bez patřičných popisných metadat, bookletů a alespoň základních technických metadat popisujících jak způsob převodu na úložiště, tak validace a použité nástroje, se vystavujeme budoucím ztrátám dat. Dalším důvodem je, že CD/DVD nosiče se nebudou využívat věčně, tj. v určitém okamžiku bude možnost vytvoření fyzického CD/DVD z ISO image naprosto zbytečná. Naše snaha by měla jít spíše směrem uložení dat na úložišti a dlouhodobé ochrany těchto dat, ať už ISO image nebo zvukových souborů. Samozřejmě za předpokladu, že máme odpovídající metadata. V NK by měla vzniknout explicitní a veřejná strategie nakládání s tímto druhem materiálu. Měla by být stanovena jasná selekční kritéria pro nosiče, které je třeba zachovat, nastaveno workflow, které bude umožňovat převod CD a DVD s metadaty, validaci, a skutečnou správu těchto dat. Základními principy strategie dlouhodobé archivace obsahu CD a DVD v NK by měly být: - selekce materiálu - stanovení cíle strategie převodu na úložiště, který by měl být v souladu s cíli instituce - využití zkušeností a doporučení zahraničních archivů a projektů - explicitní vyjmenování konkrétních typů formátu a jejich verzí, které bude NK archivovat - zveřejnění pracovních postupů, metodiky selekce materiálů, technologie a postupu převodu na úložiště Návrh kritérií selekce (tematické okruhy): 1) Uživatelské hledisko - selekce nosičů, které jsou pro uživatele potenciálně nejzajímavější, a které si uživatelé skutečně půjčují. 2) Hledisko obsahu - některé typy CD a DVD má smysl archivovat pro jejich obsah, i když nebudou nikdy velmi často půjčovány. Některé z těchto dokumentů mohou patřit mezi born digital dokumenty. Jde především o elektronické publikace sborníků z konferencí, nebo přílohy ke sborníkům, některé části příloh k časopisům nebo monografiím. Lze předpokládat, že tyto digital born nemají tištěnou kopii a je tedy prvořadým úkolem je ochránit. 3) Ochranné hledisko – z technického hlediska má smysl a lze ochraňovat jen některé typy obsahu na CD a DVD. Silně komprimované zvukové záznamy (WMA, MP3 aj.), které na
3
discích ve sbírkách NK někdy jsou, má smysl archivovat asi jen u mluveného slova1, ovšem u vážné hudby je archivace takových souborů zbytečná (předpokládá se existence stejných dokumentů v lepší kvalitě jinde – archiv rozhlasu, vydavatele apod.). Existuje ale velká množina nosičů, které obsahují software, databáze, aplikace, hry, návody k softwaru apod. Není v silách ani cílem NK nosiče obsahující software dostatečně dlouhodobě uchránit. Tento typ obsahu není uživatelsky dlouhodobě zajímavý, není zajímavý ani z hlediska cílů a povinností NK. Převod technicky neudržovatelného typu obsahu na úložiště NK je podle nás zbytečný, prostá archivace ISO image takových CD není adekvátní komplexnosti jejich obsahu. 4) Hledisko autorsko-právní - je třeba mít jasno, zda u daného typu obsahu máme právo ho v budoucnu z úložiště přímo zpřístupnit, nebo vyrábět další kopie. 5) Hledisko povinnosti uchování audio nebo audio-vizuálních děl ve sbírkách NK – bylo by vhodné rozhodnout, zda pokud jsou audio dokumenty (CD, kazety) do NK dodány na dobrovolném základě, je opravdu potřeba je dlouhodobě uchovávat a vynakládat finance na něco, co má dělat např. jiná instituce. Nevíme, zda existuje nějaká zákonná povinnost toto dělat, pokud ne, bylo by dobré zamyslet se nad vynakládáním financí na tyto účely (katalogizace, ochrana, převody na jiný formát). Např. v katalogu NK v předmětovém hesle Populární písně 2001-2010 je 1740 záznamů v NKC. Nutnost uchovávat tyto CD je u mnoha titulů přinejmenším diskutabilní (pokud nepřišly jako povinný výtisk). Zákon o neperiodických publikacích 37/1995 Sb. říká v paragrafu 1 článku 3a) doslova: Tento zákon se nevztahuje na tyto neperiodické publikace: a) rozmnoženiny audiovizuálních děl. Samozřejmě pokud má nosič (CD/DVD, kazeta aj.) číslo ISBN nebo ISSN, tak je součástí povinného výtisku a NK má povinnost je uchovávat a chránit. Nevíme ovšem, jak bude vypadat povinný výtisk za několik let, NK může dostat za povinnost shromažďovat a chránit např. hudební nosiče.
3) Doporučené postupy převodu - workflow Obecně dle typologie nosičů typ obsahu CD/ DVD nosiče
zpracování
validace
metadata
další doporučené součásti archivní jednotky
1.
Software - instalační CD/DVD k softwaru
nearchivovat, nepřevádět na úložiště
NA
NA
NA
2.
Software - přílohy k
nearchivovat,
NA
NA
NA
1
lze nabízet uživatelům jako audio knihy apod.
4
časopisům
nepřevádět na úložiště, případně archivovat 2 výběrově
3.
Audio - vysoká kvalita (klasické lisované CD)
Převod do bezkompresního WAV
1. validace pomocí WAV JHOVE 2. kontrola obsahu s popisem v záznamu v katalogu NK
popisná, technická o vzniku a obsahu, kontrolní součty
připojit sken obalu, bookletu, foto CD
4.
Audio - komprimovaný (WMA, MP3 apod.)
Převádět mluvené slovo, ostatní nikoli > zachování původního formátu, případná normalizace
validace původního nebo nového formátu formátu
popisná, technická o vzniku a obsahu, kontrolní součty
připojit sken obalu, bookletu, foto CD
5.
Video DVD, BD (blue ray)
převod do ISO image
Linux validace ISO souboru
popisná a technická o obsahu a vzniku, kontrolní součty
připojit sken obalu, bookletu, foto CD
6.
Video - jiné formáty (AVI, MPEG aj.)
1) převod do ISO image 2) archivace zdrojového formátu videa
Linux validace ISO souboru; validace formátu video
popisná a technická o obsahu a vzniku, kontrolní součty
připojit sken obalu, bookletu, foto CD
7.
Texty (PDF, TXT apod.)
Zvážit možnosti: 1) převod do ISO image 2) archivace zdrojových souborů v balíku 3) pokud
Linux validace ISO image; validace původních formátů; validace nových
popisná a technická o obsahu a vzniku, kontrolní součty
připojit sken obalu, bookletu, foto CD
2
přílohy k časopisům na CD/DVD nosičích obsahují demo verze SW, ostré verze SW apod. Tyto verze jsou nahrazovány novými verzemi, které jsou zveřejněné v následujících číslech/přílohách. Zcela jistě nechceme uchovávat všechny, a není asi třeba uchovávat SW vůbec. POZOR – přílohy časopisů vedle SW obsahují velmi často i textové dokumenty (v HTML, flash animacích apod.) – tady by stálo za to tyto dokumenty uchovat. V těchto případech postupovat jako pro typ dokumentů Text – viz tabulka.
5
8.
Komplexní dokumenty (texty, interlinked HTML, flash prezentace apod.)
obsahuje pouze MS WORD nebo PDF nebo TXT tak bude lepší normalizace do PDF/A a uložení v úložišti
formátů -
převod do ISO image
Linux validace ISO image;
popisná a technická o obsahu a vzniku, kontrolní součty
připojit sken obalu, bookletu, foto CD
Technické parametry workflow pro převod na úložiště a metadata, převod do LTP systému Navrhovaná workflow pro převod do ISO image musí vždy produkovat - tzv. hybrid ISO image. - log file popisující proces kopírování a kontrolu dat - seznam obsahu CD/DVD - složek a souborů Názvy CD/DVD je potřeba při převodu změnit – navrhujeme použít čČNB do názvu ISO image. Předpokladem je, že v okamžiku migrace do ISO už metadata z katalogu k dispozici.
Typ - Video DVD, video jiné formáty, případně texty (převod do ISO image) Intelektuální entita, balík vzniklý převodem obsahuje: 1) metadata - Popisná - stahování z Alephu, konvertovaná do jednoduchého záznamu MODS (obsahuje také seznam obsahu CD/DVD – názvy stop, seznam souborů apod.) - Technická (PREMIS – popis vzniku – software, nastavení převodu + metadata o formátu ISO) 2) data - ISO Image – kopie file systému CD podle standardu ISO 9660 Dostupné nástroje na tvorbu ISO image: na linuxu - CDRtools a jeho příkazy: - mkisofs – výroba ISO image – příkaz na stažení ISO z média v mechanice PC - isoinfo a isovfy pro verifikaci ISO Image - unix diff pro srovnání zdroje CD s ISO obrazem - validace 3) další součásti intelektuální entity/balíčku
6
-
Sken obalu, bookletu (jpg), 300DPI, příslušná technická metadata pro obrazový soubor, alespoň výstup JHOVE XML (obsahuje md5, formáty apod.) log file popisující proces kopírování a kontrolu dat seznam obsahu CD/DVD - složek a souborů (TXT nebo XML)
4) kontrolní součty 5) identifikátory (stáhnout čČNB s bibliografickým záznamem, signatura, URN:NBN) Nástroje pro validaci, extrakci metadat: CDRtools http://cdrecord.berlios.de/private/cdrecord.html EXACT FILE http://www.exactfile.com (checksumy) Exif tool diff
Typ - Audio Pouze zachování formátů nebo převod do jiných formátů. Nevzniká ISO image. Pro všechny typy audio obsahu bez ohledu na nosiče. Balík obsahuje: 1) metadata - Popisná - stahování z Alephu, konverze do jednoduchého záznamu MODS (obsahuje také seznam obsahu CD/DVD – názvy stop, seznam souborů apod.) - Technická – extrakce (NZME3, Exif tool, FITs aj.) - Technická (PREMIS – popis vzniku – software, nastavení převodu, validace pro nové i původní formáty dat) 2) data Doporučení Loc.gov4 pro převod zvukových formátů - Vysoká sampling rate - Linearní PCM bez komprese - Vyšší data rate (128kbits) a vyšší - Doporučené formáty – pro náš případ nejlépe (WAVE-LPCM, WAVE Audio File Format with LPCM Audio5, případně mp36) 3) další součásti intelektuální entity/balíčku - Sken obalu, bookletu (jpg), 300DPI, příslušná technická metadata pro zvukový soubor, alespoň výstup JHOVE XML (obsahuje md5, formáty apod.) 4) kontrolní součty (pro všechny soubory v intelektuální entitě – tj. včetně skenu bookletu, obalu) 3
http://meta-extractor.sourceforge.net/ http://www.digitalpreservation.gov/formats/content/sound_preferences.shtml#device 5 http://www.digitalpreservation.gov/formats/fdd/fdd000002.shtml 6 http://www.digitalpreservation.gov/formats/fdd/fdd000105.shtml 4
7
5) identifikátory (stáhnout čČNB s bibliografickým záznamem, signatura, URN:NBN)
Typ – Texty, hyperlinked text (normalizace do archivních formátů) Pro všechny typy obsahu bez ohledu na nosiče. Následné uložení v úložišti NK jako jednotlivé soubory. 1) metadata - Popisná - stahování z Alephu, konverze do MODS - Technická – extrakce pomocí nástroje JHOVE - Technická (PREMIS – popis vzniku – software, nastavení převodu, validace pro nové i původní formáty dat) 2) data -
normalizace do PDF/A, nebo do jiného archivního formátu
3) další součásti intelektuální entity/balíčku - Sken obalu, bookletu (jpg) pokud existuje a má určitou vypovídací hodnotu - 300DPI, příslušná technická metadata pro zvukový soubor, alespoň výstup JHOVE XML (obsahuje md5, formáty apod.) 4) kontrolní součty (pro všechny soubory v intelektuální entitě – tj. včetně skenu bookletu pokud nějaký existoval) 5) identifikátory (stáhnout čČNB s bibliografickým záznamem, signatura, URN:NBN) Nástroje pro validaci, extrakci metadat: - NZME - http://meta-extractor.sourceforge.net/ - Exif tool - http://www.sno.phy.queensu.ca/~phil/exiftool/ - FITs - http://code.google.com/p/fits/ - JHOVE - http://hul.harvard.edu/jhove/
4) Zpřístupnění Dlouhodobým cílem aktivit na uchování obsahu CD/DVD by nemělo být zpětné vytváření fyzických nosičů (stejně jako z digitalizovaných obrazů netiskneme knihy), ale zpřístupnění v elektronické podobě! ISO image i další data by měla být ukládána s dostatečnými metadaty, tak aby bylo možno v budoucnu zajistit jejich vyhledání a zpřístupnění. Zvukové soubory a textové soubory by bylo možné pravděpodobně zpřístupnit po nějakém dalším vývoji v systému Kramerius nebo v jiném systému. Existují také open-source content management systémy pro správu zvukového obsahu. Problém bude působit zpřístupnění ISO
8
image. Jednou z možností je zcela jistě emulace HW a SW (tj. mechaniky a prostředí ke spuštění obsahu ISO image) – viz projekt KEEP http://www.keep-project.eu. Otázky k dořešení: - jak ISO image z úložiště zpřístupnit? - v jakém systému? - jak se uživatel dostane k informaci, že se obsah CD dá někde půjčit? Z jakého systému? - zpřístupnění ve studovně a/nebo doma všem? - CD burn on demand? 5) Možnosti využití současného archivu (k prosinci 2010 cca 500 ISO souborů, 500 CD s hudbou) Současná data a ISO image vytvořené firmou INCAD lze použít pouze pro zpětné vypálení CD/DVD disků. A to podle excelové tabulky, která spojuje datový soubor na úložišti NK a katalogizační záznam v katalogu NK. Pro zpřístupnění uživatelům v podobě dat je nutné postupovat dle údajů v tabulce doporučené postupy (technologie a standardy) pro jednotlivé typy CD/DVD obsahů, tj. doplnit metadata, kontroly, validace apod. V podstatě to znamená udělat práci znovu. 6) obsahy CD/DVD v LTP systému a možnosti řešení V rámci workflow pro vstup do LTP systému NDK by Transformační modul/ nebo ingest fáze 1 měl z každého ISO image vytvořit archivní intelektuální entitu, která by odpovídala jedné ze specifikací v části 3 tohoto dokumentu a byla pak zabalena do formátu pro LTP systém. V další fázi zpracování v LTP systému by měla být doplněna další technická metadata. Protože k již existujícím datům neexistuje dostatečná dokumentace, technická metadata ani kontrolní součty, bude nemožné doplnit vše. Data vzniklá v testu firmy INCAD navrhujeme vložit, tak jak jsou a generovat technická metadata a kontrolní součty v druhé fázi vstupu dat do LTP. Nezbytné ovšem bude alespoň doplnění základních popisných metadat a vygenerování kontrolních součtů. Validace pomocí nástrojů typu JHOVE nebo NZME může proběhnout uvnitř LTP systému. Nově vznikající data (ISO image a další soubory) by měla vznikat už takovým postupem, který by umožnil zjednodušit zpracování v transformačním modulu a LTP systému – viz část 3 tohoto dokumentu. V případě, že by tvorba ISO image byla součástí projektu NDK, tak by jedno z možných workflow Transformačního modulu pro nové zpracování CD a DVD mohlo dělat následující kroky (kopíruje část 3 tohoto dokumentu)7: - přečtení čarového kódu - stažení záznamu z katalogu, jeho uložení do MODS XML, validace - založení složky dokumentu 7
v případě, že tvorba ISO image nebude součástí NDK, lze toto workflow provádět odděleně od projektu NDK v rámci jiné aktivity
9
-
stažení ISO image - mksofs validace ISO - isoinfo, resp isovfy porovnání ISO souboru s obsahem CD/DVD programem diff generování kontrolních součtů připojení doplňujících dat (sken bookletu v jpg) doplnění metadat (struktura CD/DVD - seznam souborů a složek na file systému CD/DVD) doplnění metadat (PREMIS - vznik dokumentu) zabalení do formátu pro LTP systému spuštění workflow pro vstup do LTP systému
Vzhledem k tomu, že ISO image jsou v současné politice NK jen záloha na opětovné vytvoření fyzického CD/DVD, nebudou na stávajících a pokud se nezmění politika NK, tak ani na nově vzniklých ISO souborech v rámci LTP systému prováděny žádné akce dlouhodobé ochrany, stejně jako např. na ALTO XML souborech. Tj. je otázkou, zda ISO image mají vůbec v LTP končit v archivním modulu, nebo zda mají být uloženy např. v pracovním prostoru.
6) Závěr Problematika zachování obsahů CD/DVD disků je velmi komplexní. Je třeba rozhodnout, co je cílem této aktivity. Od toho se odvíjí další možné postupy. Obsahy lze uchovat jako ISO image (data, video) a jako soubory WAV nebo jiné (audio, texty, PDF apod.). Je třeba zvážit, jaké typy obsahu mát smysl dlouhodobě archivovat. Software, složité aplikace jako jsou elektronické hry, asi nemá smysl ukládat vůbec, protože nejsme schopni zajistit ani jejich ochranu ani zpřístupnění (pokud nás k tomu nezavazuje zákonná povinnost). Pro audiovizuální nebo audio obsah existují doporučení k archivaci, doporučené formáty a metadata, a doporučené nástroje pro validaci. Technicky není problém navrhnout workflow pro převod tohoto typu dat, ovšem aby archivace byla smysluplná, musí být data doprovázena popisnými a technickými metadaty, převod validován a dobře dokumentován. Především zvukové záznamy představují pro NK zásadní potenciál k rozvíjení dalších služeb uživatelům knihovny, ovšem jakékoli zpřístupňování se bez metadat neobejde. Politika uchování a zacházení s obsahy CD/DVD by měla vycházet ze strategie NK ČR.
10