Zpráva ze zahraniční služební cesty Jméno účastníka cesty Pracoviště – instituce, adresa Pracoviště – zařazení Důvod cesty Místo – město Místo – země Datum (od-do) Podrobný časový harmonogram
Spolucestující z NK Finanční zajištění Cíle cesty
PhDr.Jiří Polišenský Národní knihovna ČR Vedoucí odboru správy a ochrany fondů Projekt digitalizace novin konference Materiál Handling and Logistics Conference Park City Marriott Library, Salt Lake City USA 16. 9. – 23. 9. 2007 16. 9.2007 přílet 17.9. – 18. 9. Materiál Handling and Logistics Conference 19..9. – 21.9. Marriott Library 22.9.2007 odlet Cesta byla hrazena v prostředků výzkumného záměru a z rozpočtu NK ČR Získání poznatků z realizace projektu digitalizace novin Konsorciální spolupráce Účast na konferenci „Materiál Handling and Logistics Conference“ Seznámení s fungováním systémů pro automatické skladování dokumentů (ASRS)
Plnění cílů cesty Program a další podrobnější informace Přivezené materiály Datum předložení zprávy Podpis předkladatele zprávy
Stanovaných cílů cesty bylo dosaženo Viz příloha Přivezené materiály jsou k dispozici v odboru správy a ochrany fondů NK ČR 2. 10. 2007
Projekt digitalizace novin a konsorciální spolupráce v podmínkách srovnatelných knihoven v USA Jiří Polišenský Novinové sbírky se v ČR digitalizují od r. 1999, kdy byl realizován projekt Digitalizace mikromédií. V rámci řešení projektu byla zvolena hybridní metoda reformátování a pořízen skener na mikrofilmy SunRise a navržen formát metadat založený na standardu SGML. V r. 2003 bylo doplněno technické vybavení pracoviště digitalizace NK ČR o hybridní kameru umožňující zhotovování mikrofilmu i digitálního záznamu při jednom zpracování. Současně došlo ke změně formátu metadat a přechodu na standard XML s DTD pro jednotlivé typy dokumentů. V současné době se zvažuje revize východisek pro digitalizaci a možný další vývoj v oblasti digitalizace novinových formátů. Problémy které bude třeba řešit je možné shrnout do následujících bodů: a) setrvání na hybridní technologii, která je výrazně nákladnější než přímá digitalizace b) změny ve standardizaci metadat c) zvýšení kapacity rozšířením stávajících pracovišť nebo spoluprací s dodavatelskými firmami, d) spolupráce institucí Situace v Evropě je zhruba zmapována, evropské instituce ale nejsou v současné době na vrcholu digitalizačních aktivit, resp. projevuje se zde určité zaostávání, které může mít více důvodů (postoj EU k financování digitalizačních projektů, nedůvěra v trvanlivost digitálního formátu apod.). Pro porovnání se situací v ČR byla vybrána srovnatelná knihovna v USA na které jsme se pokusili prověřit dosavadní výsledky našich aktivit a poučit se o vývoji do budoucnosti. J. Willard Marriott Library je univerzitní knihovnou University of Utah. Rozsahem svých sbírek (necelé 3mil. svazků) a služeb odpovídá střední kategorii knihoven, kam spadá i NK ČR. Digitalizace novin má v knihovně již delší tradici a má i zkušenosti s hybridní metodou reformátování (skenování mikrofilmů). Na realizaci projektu spolupracuje s Brigham Young University. Výsledky jsou k dispozici v rámci širších kooperativních aktivit zastřešených Mountain West Digital Library, jejímž hlavním iniciátorem je též Marriott Library. Porovnání parametrů Marriott Library Spolupráce 2 knihoven (Marriott Library a Brigham Young University Tvorba digitálních dokumentů Kombinace přímé digitalizace (65%) a hybridní technologie (skenování mikrofilmu) Období 1850 až 1950 Způsob realizace ve spolupráci s dodavateli Technické vybavení Digital Camera back @ 22MP Mekel, SunRise Personální zabezpečení
Národní knihovna ČR Spolupráce více než 20 knihoven v rámci Národního programu Kramerius Tvorba digitálních dokumentů Pouze hybridní technologie (skenování mikrofilmu a hybridní snímkování Období 1801 až 1989 Způsob realizace částečně ve spolupráci s dodavateli, částečně na vlastní pracovištích Technické vybavení ProServ (DualProfi) SunRise, Wick and Wilson Personální zabezpečení
100% project manager 100% web developer 20% system administrator Formáty obrazových souborů skenování JPEG, GS 8bit - 256 úrovní, 50MB archivace JPEG, GS 4bit - 16 úrovní, 28 MB zobrazení PDF1bit , BW a JPEG GS 8bit Úpravy předloh čištění a opravy před snímkováním
Přístup k datům page level article level (zónování stran) Tvorba metadat automatizovaný proces manuální proces Tvorba plnostránkového indexu automatické OCR keyboarding (manuální) hybridní (opravené OCR) automatické OWR (trojnásobné OCR) Typy metadat deskriptivní, technická, administrativní, strukturální a „Preservation Metadata“ Komunikační protokoly Z 39.50, OAI PMH Copyright do r. 1923 volné dokumenty po tomto roce případ od případu Fund Raising federální zdroje NDNP (National Digital Newspapers Program) státní a lokální zdroje LSTA (Library Services and Technology Act)
bez speciálního personálního vybavení, pouze s klíčovými zaměstnanci Formáty obrazových souborů skenování a archivace JPEG, GS 8bit - 256 úrovní, 85% komprese, až 10MB zobrazení DjVu GS 8bit Úpravy předloh opravy a knihařské úpravy vazby před snímkováním, zhotovení archivního obalu po snímkování Přístup k datům pouze page level Tvorba metadat manuální proces postupně se automatizující Tvorba plnostránkového indexu automatické OCR, projekt na vytvoření jazykových znalostních bází jako prostředku zlepšení přesnosti OCR Typy metadat deskriptivní, technická, administrativní, strukturální a „Preservation Metadata“ Komunikační protokoly Z 39.50, OAI PMH Copyright 70 let po smrti autora volné (periodika před r. 1880) Fund Raising národní zdroje Ministerstvo kultury ČR
Výsledky porovnání Pořizování dat NK ČR i dodavatelé v ČR jsou na srovnatelné technické úrovni co se týče pořizování obrazových souborů. Pro přímou digitalizaci se v případě projektu UDN používá velmi kvalitní digitální zadní stěna 22 MP Digital Kamera Back, srovnatelné výsledky ale lze dosáhnout v případě ČR i na hybridní kameře, která je k dispozici na pracovišti NK ČR a od letošního roku i u dodavatele (MICRONA). Mikrofilmové skenery SunRise a Mekel patří do nejvyšší výkonové třídy, stejně jakou Wick and Wilson v NK. Dále jsou v ČR k dispozici starší typ přístroje SunRise (NK ČR) a Mekel (AMPACO). V projektu UDN se potýkají se stejným problémem v případě skenování mikrofilmů jako v ČR: limit rozlišovací schopnosti v případě velkých formátů, absence barvy. Řešení v ČR
vychází z podmínek v našich knihovnách. Mikrofilmování jako prostředek uchování ohrožených dokumentů se začalo využívat až po r. 1989, takže je v současné době málo mikrofilmů k dispozici. Situace v USA je zcela jiná, vzhledem k dlouhé tradici ochranného mikrofilmování je většina významných novinových titulů již převedena na mikrofilm a je možné (tam kde to dovolí fyzický stav dokumentu) přímou digitalizací získat digitální kopii. Vzhledem k tomu, že NDNP (National Digital Newspaper Program) nepodporuje přímou digitalizaci jako metodu reformátování novin, je obtížné získat na tuto činnost dotaci.V našich podmínkách je třeba zhotovit i mikrofilm. Vhodnou strategií v ČR do budoucnosti by bylo nahrazovat zastaralé mikrografické kamery hybridními přístroji vhodné konstrukce. Přímá digitalizace novinových titulů není většinou podporována národními knihovnami velkými národními projekty. Postupně se však prosazuje „zdola“, což je pochopitelné vzhledem k úspoře finančních prostředků. Jediná národní knihovna, která přímou digitalizací nahradila hybridní metodu byla Královská knihovna v Haagu, která ale má k dispozici spolehlivé úložiště pro dlouhodobé uchování digitálních objektů. Obdobnou strategii je možné doporučit i v našem případě a hybridní metodu opustit až po zprovoznění a ověření trusted repository. Tvorba metadat Pro tvorbu metadat se v projektu UDN využívá jako standard Dublin Core. Projekt UDN se realizuje jako součást Mountain West Digital Library pro které je tento standard závazný. Účastníci programu mají k dispozici manuál (Metadata Guidelines for the Mountain West Digital Library), který může být využíván pro 14 typů dokumentů nebo objektů. Rozsah metadat je obdobný jako u projektů v ČR, kde byla metadata rozšířena o části sloužící pro dlouhodobé uchovávání (administrativní a technická metadata). Standard pro metadata v ČR vyhlášený NK ČR řeší jen omezený počet typů novodobých dokumentů (periodika, monografie, zvuk). V nástrojích pro tvorbu a zpřístupňování digitálních dokumentů se však využívají pouze DTD pro periodika a monografie. Další rozšíření Systému Kramerius o nový typ dokumentu je velmi nákladné, proto např. zvuk nebyl dosud v tomto systému implementován. Je třeba zvážit, zda standard pro další typy dokumentů by neměl být řešen návrhem univerzální popisné struktury opírající se o formát Dublin Core nebo MARC 21. V projektu se připouští dvojí přístup ke strukturaci novin na nejnižší úrovni. Jedná se buď o rovinu Page Level, která je blízká i našemu projektu a znamená, že nejmenší jednotkou která se zobrazuje je celá stránka dokumentu. Druhý přístup je Article Level, kdy nejmenší jednotkou je článek. Tato metoda předpokládá zónové zpracování a zobrazování. Tento přístup je pracnější a vyžaduje speciální nástroje. V našem případě je základním přístupem Page Level, nástroje pro tvorbu metadat však umožňují i popis individuálních článků (komponent parts). Tato funkce se ale využívá jen v případě vědeckých časopisů. V případě novin je druhá metoda přístupu problematická, protože se dokument rozpadá na obrovské množství drobných samostatných částí, které musí nést různé popisné a identifikační údaje. Popis component parts v případě rozsáhlých novin je časově velmi náročný proces a vytváření takových popisů by bylo na úkor objemu digitalizovaných dokumentů a to je v rozporu s naší strategií co nejrychlejšího reformátování vzhledem ke kritickému stavu dokumentů. V případě Article Level je stránka novin nečitelná, čitelné jsou pouze zvětšené zóny s konkrétním článkem. Takové řešení ztěžuje „prohlížení“ (viewing), které patří mezi základní metody využívání digitalizovaných novin našimi uživateli.
Problémem je také nízká nebo nestejnoměrná úroveň přesnosti rozpoznání technologií OCR, daná většinou vysokým stupněm degradace papíru dokumentu.. Ta nám znemožňuje přejímat názvy článků z novin zónovým rozpoznáváním poloautomatickým způsobem a vkládat je do metadat. V současné době NK ČR spolu s KNAV a firmou Elsyst Engineering řeší programový projekt zaměřený na zlepšení výsledků OCR pomocí znalostních bází starších vrstev jazyka a sad archaických fontů. V případě výrazného zvýšení úspěšnosti OCR by automatizované „vyčítání“ názvů článků v případě novin bylo reálné. Zdá se, že čitelné obrazové soubory obsahující stránku novin v kombinaci s kvalitním OCR, umožňujícím vysoké procento úspěšnosti a popisem vnitřních částí dokumentů založeným na zlepšeném zónovém rozpoznávání je lepší variantou k přístupu k datům metodou Article Level. Archivace digitálních dokumentů Archivace digitálních dokumentů není v projektu UDN uspokojivě řešena. V rámci MWDL využívají jednotlivé knihovny buď 2 paré DVD nebo magnetické pásky LTO Utrinum s týdenním zálohováním. Jedno paré DVD nebo kopie na páskách je uchovávána v Archives and Records Management Center University of Utah. Technická a administrativní metadata, vytvářená v průběhu digitalizace, budou využita v budoucnosti při uložení ve spolehlivém repozitáři založeném na konceptu OAIS. Lze předpokládat, že vybudování spolehlivého repozitáře pro dlouhodobé uložení digitálních dokumentů je otázkou blízké budoucnosti. Vzhledem k tomu, že v rámci programu Kramerius už bylo digitalizováno více než 3 mil. stran novinových dokumentů a v blízké budoucnosti k nim přibude dalších 2,5 mil. stran monografií, je dlouhodobé uchování digitálních dokumentů prostřednictvím spolehlivého repozitáře jedinou možnou alternativou. Personální zabezpečení Projekt UDN má k dispozici speciální pracovníky, na plný úvazek vedoucího projektu a webového designera, na 20% systémového administrátora. Taktéž speciální vyčleněné pracovníky má i MWDL. V našich podmínkách je možné plánovat zvláštní pracovníky pouze u projektů VaV. V případě programu VISK byla tato možnost systémově vyloučena. Konsorcia a financování Projekt Utah Digital Newspapers se realizuje v prostředí propojených sítí tvořených konsorcii a speciálními institucemi jako jsou UALC (Utah Academic Library Consorcium), NDNP (National Digital Newspapers Program), IMLS (Institute of Museum and Library Services), LSTA (Library Services and Technology Act), MWDL (Mountain West Digital Library) a dalšími. Tato konsorcia a instituce se nejen starají o podporu a rozvoj podobných projektů, ale zajišťují i jejich částečné nebo úplné financování. Např. dlouhodobá udržitelnost projektu Utah Digital Newspapers po ukončení financování je dána závazkem obou knihoven financovat i nadále provoz digitálních sbírek a webových stránek. K tomu ještě existuje závazek UALC dlouhodobě udržovat a vést Mountain West Digital Library, což je konsorcium digitálních sbírek kam přispívají svými výsledky realizovanými v rámci projektu UDN i obě instituce. Jedná se o závazky, které byly zabudovány přímo do rozpočtů daných institucí. V rámci MWDL se řeší archivace i dalších sbírek příbuzných digitalizačních projektů. Např. Archives and Records Management center University of Utah archivuje jednu kopii DVD s digitálními dokumenty, druhá je uložena u příslušné instituce, která vlastní papírový nebo mikrofilmový originál. Marriott Library zálohuje týdně digitální obsah na páskách LTO
Ultrinum. Jedna kopie digitálního obsahu na těchto páskách je také uložena v Archives and Records Management Center. Instituce jako MWDL může např.zformovat pracovní skupinu z různých odborníků pro řešení některých odborných problémů. Např. se tímto způsobem řešila otázka standardizace metadat pro projekty realizované v rámci MWDL. V našem případě se program Kramerius podporovaný MK ČR prostřednictvím programu VISK (Veřejné informační služby Knihoven) blíží konsorciálnímu modelu, aniž bylo nutno konsorcia oficiálně utvářet. V podmínkách USA instituce financující projekty také stanovují podmínky realizace projektů a často jsou tvůrci základní strategie jak na národní (NDNP National Digital Newspapers Program, NEH National Endowment for the Humanities), tak na lokální/státní úrovni (UALC Utah Academic Libraries Consorcium). Každá instituce, ale i každý projekt má jmenovanou dozorčí radu (Advisory Board) které plní několik funkcí. Především se jedná o veřejnou kontrolu nad použitím finančních prostředků, zejména v takovém prostředí není možné podvodem použít finance na jiný účel nebo k vlastnímu obohacení. Dalším stupněm kontroly je ověřování optimálního využití, tzn. zda byly pro digitalizaci vybrány nejvhodnější dokumenty podle předem zvolených kritérií. Dozorčí rada ale také vykonává lobbing a public relations ve prospěch projektu, pomáhá s rozhodováním v programových a strategických záležitostech, atd. Takovýto systém je velmi účinný a pracuje s efektivními zpětnými vazbami. Např. další kontroly nejsou nutné, pouze v případě potřeby je možné provést externí audit. V případě programu VISK má každý podprogram odbornou komisi, která doporučuje projekty ke schválení a financování. V případě nedostatku finančních prostředků rozhoduje také o tom, které projekty a v jaké výši bude třeba krátit. Komise ale současně vykonává efektivní kontrolu realizace projektů a využití finančních prostředků. Jednotlivé instituce, ale i dodavatelé jsou tak pod veřejnou kontrolou. Pro realizaci projektů jsou vyhlášeny závazné zadávací podklady, jejichž nerespektování je důvodem nepřidělení dotace. Kromě toho existuje ještě rozvětvený systém kontrol (resortní, NKÚ atd.), které ale prověřují realizaci projektů pouze po formální stránce, naplnění nebo porušení konkrétních předpisů vztahujících se k této činnosti. Ty nemají žádný vliv na hospodárnost realizace a už vůbec nejsou schopny posoudit adekvátnost vybraných dokumentů apod. Dominantní formální charakter těchto činností je ve srovnání se systémem v USA zarážející. Financování realizace rozsáhlých programů i jednotlivých projektů je vícezdrojové a není přímo závislé na státním rozpočtu. Např. projekt UDN se financuje z federálních zdrojů (NDNP, NEH), lokálních zdrojů (UALC, LSTA), od individuálních sponzorů a z prostředků obou institucí. Rozdělování finančních prostředků na projekty je nezávislé na politických rozhodnutích či konkrétní politické reprezentaci vzešlé z voleb. Velké instituce jako NDNP, NEH apod. nejsou ohroženy změnou vlády na své dlouholeté existenci a tím není ohrožena ani realizace schválených projektů. V některých obdobích může být méně finančních prostředků k rozdělení. Projekty digitalizace v ČR jsou financovány z prostředků MK ČR (70%) a rozpočtu jednotlivých institucí (30%). Výše finančních prostředků na celonárodní program VISK je výsledkem vyjednávání uvnitř MK ČR a příp. lobbingem pracovníků knihoven přímo v Parlamentu při projednávání návrhu rozpočtu. Není jisté, zda celý program VISK bude v následujícím roce financován. Jsou případy, kdy není při tvorbě rozpočtu respektováno usnesení vlády a schválené programy neobdrží příslušnou dotaci. Program reformátování
novodobých dokumentů je natolik podfinancován, že u rozsáhlejších titulů je kompletní reformátování plánováno na 8 ale i více let. Stávající systém v rámci VISK 7 poskytuje již značnou míru efektivity i objektivity při rozdělování a realizaci digitalizačních projektů. Bylo by však třeba jej dále optimalizovat, oprostit od formálního přístupu, zajistit větší míru stability a kontinuity financování.