Současné trendy v digitalizaci novodobých dokumentů Jiří Polišenský
Obsah příspěvku
Národní program Kramerius VISK 7 „Norské fondy“ Tvorba fulltextu a OCR Národní digitální knihovna a národní kulturní dědictví Replikace digitalizovaných dokumentů Technologie robotického skenování Projektový záměr IOP Knihovny současnosti 2008
Národní program Kramerius
Vznikl jako součást programu CASLIN Zaměřen na záchranu dokumentů ohrožených degradací papíru reformátováním Využívá technologii ochranného mikrofilmování a hybridní technologii Oživena 4 pracoviště mikrofilmování v České republice, 1 na Slovensku Knihovny současnosti 2008
VISK 7
Program MK ČR na financování projektů reformátování ohrožených dokumentů Podpora pracovišť ochranného reformátování
Knihovny současnosti 2008
Výsledky programu VISK 7
V letech 2001 až 2007 bylo mikrofilmováno a digitalizováno téměř 300 titulů poeriodik 35 institucí, což představuje 3,5 mil. stran NK ČR zajišťuje archivaci mikrofilmů a zálohování zdrojových i uživatelských digitálních dat Digitalizované dokumenty se zpřístupňují prostřednictvím médií (CD-R, DVD) nebo pomocí systému Kramerius Knihovny současnosti 2008
VISK 7 finace v l. 2001-2007 2001
2002
2003
2004
2005
2006
2007
Pož Požadová adováno Kč Kč
4 522 370
3 079 507
2 498 060
4 896 204
4 881 205
5 004 000
8 061 353
Přidě iděleno Kč Kč
2 919 000
1 400 000
415 000
2 482 000
2 116 000
2 200 000
7 351 000
64,55
45,46
16,61*
50,69
43,35
43,96
91,19
%
Knihovny současnosti 2008
VISK 7 – problémy
Malý objem finančních prostředků v příp. rozsáhlých titulů trvá reformátování neúnosně dlouho Závislost na omezeném počtu dodavatelských firem Rychlé zastarávání HW i SW prostředků Potřeba rozsáhlého vývoje a inovací Limitovaný prostor paměťových prostředků pro zálohování (archivaci) Knihovny současnosti 2008
Projekt „Norské fondy“ NK ČR
Záchrana bohemikálních neperiodických dokumentů 19. stol., ohrožených degradací papíru V rámci projektu bude reformátováno hybridní metodou 2,4 mil. stran (více než 16.000 svazků) monografií Termín realizace 6/2007 – 12/2009 Finanční objem 1 mil EUR dotace, 0,2 mil. EUR splufinancování Projekt je postaven na dodavatelských službách nezahrnuje investice Knihovny současnosti 2008
Projekt „Norské fondy“ NK ČR
V současné době je zpřístupněno v systému Kramerius více než 1 mil. stran monografií Dlouhé schvalovací období zkrátilo dobu na realizaci Základní harmonogram (Project Implementation Plan) rozdělen po čtvrtletích Možné úpravy harmonogramu a čerpání finančních prostředků Velké nároky na přípravu dokumentů pro reformátování, předávání a přejímaní dávek dokumentů, mikrofilmů a dat a jejich kontrola Informace o digitalizovaných dokumentech jsou dostupné na adrese: http://www.nkp.cz/files/norske_fondy.xls Knihovny současnosti 2008
Tvorba fulltextu pro vyhledávání a problematika OCR
Digitalizace degradovaných dokumentů přináší podstatně zhoršené výsledky rozpoznávání technologií OCR Další snahy o vylepšování kvality obrazuových souborů nepřináší podstatné zlepšení NK ČR, KNAV a firma ELSYST realizují projekt na zlepšení kvality pomocí znalostních bází jazykových vrstev českého jazyka Pro potřeby projektu bylo třeba zvolit 5 časových etap a 12 tématických skupin NK ČR se podílí na realizaci evropského projektu TEL+ zaměřeného na OCR Knihovny současnosti 2008
Národní digitální knihovna a národní kulturní dědictví
Do Národní digitální knihovny by měly být zařazovány následující typy dokumentů: obecně dokumenty v okamžiku, kdy nejsou k dispozici na knižním trhu starší vrstvy novodobých dokumentů (např. 19. stol.) v relativní úplnosti bez ohledu na tematické členění starší vědecká literatura z oblasti společenských a přírodních věd (před rokem 1989, novější by měla být předmětem archivace oborových repozitářů) starší literatura z oblasti technických oborů dokumenty z oblasti literatury, poezie a umění dokumenty z různých zájmových a zábavních oblastí, zpravodajství a publicistiky významné starší regionální dokumenty (nejnovější regionální dokumenty by měly být archivovány prostřednictvím lokálních repozitářů) Některé speciální dokumenty jako mapy, kalendáře, plakáty, grafika apod. další dokumenty z různých oblastí, jejichž význam je dán individuálními rysy. Knihovny současnosti 2008
Národní digitální knihovna a národní kulturní dědictví
Národní digitální knihovna nebude uchovávat: současné učebnice včetně vysokoškolských, současné kvalifikační vysokoškolské práce, sborníky z vědeckých a odborných seminářů a konferencí, účelové publikace ústavů, úřadů, obcí, škol, firem apod. Pokud budou tyto typy dokumentů do Národní digitální knihovny zařazovány, tak pouze výběrově a s delším časovým zpožděním.
Knihovny současnosti 2008
Národní digitální knihovna a národní kulturní dědictví
Archivace digitálních dokumentů pro jiné aktivity kromě VISK 7 bude možná až po zprovoznění spolehlivého repozitáře a rozšíření datového úložiště
Knihovny současnosti 2008
Replikace digitalizovaných dokumentů
Digitální kopie by měly v maximální míře nahradit degradované dokumenty Nejsnadnější způsob zhotovení digitální kopie je její replikace V případě replikací může být poskytující knihovna ve dvojí roli:
Jako výrobce digitální kopie (replikací) Jako poskytovatel práv k vlastní kopii
V prvém případě poskytující knihovna nemůže nijak limitovat způsob využití digitální kopie u druhé instituce, ve druhém případě tak může učinit (např. omezit na nekomerční využití) Knihovny současnosti 2008
Technologie robotnického skenování
Využívá přístroje, které maximálně automatizují proces skenování vázaných dokumentů bez jejich rozvazby Přístroje dosahují výkony od 300 do 3000 stran za hodinu podle typu dokumentu a nastavení skenovacích parametrů Proces skenování je nejen rychlý, ale i šetrný vůči dokumentům Těmito přístroji lze podle zkušeností skenovat 60 až 80% dokumentů knihovny Přístroje nelze použít pro dokumenty s poškozenou vazbou, rozkládací přílohy, volné listy apod. Knihovny současnosti 2008
Technologie robotnického skenování
V současné době existují na trhu 4 robotické skenery:
4DigitalBooks Treventus Kirtas Qidenus
Přístroje se od sebe liší způsobem snímkování, upnutím předlohy při skenování, mechanismem obracení stránek Knihovny současnosti 2008
4DigitalBooks
Knihovny současnosti 2008
4DigitalBooks MOV01412.MPG MOV01401.MPG
Knihovny současnosti 2008
Treventus
http://www.treventus.com/buchscanner_s canrobot_fotos.html http://www.youtube.com/watch?v=y16rN qnxj0U
Knihovny současnosti 2008
Kirtas
http://www.kirtas.com/products.html http://www.youtube.com/watch?v=nVIR8 HHUsIg
Knihovny současnosti 2008
Qidenus
Knihovny současnosti 2008
Qidenus
MOV01443.MPG
Knihovny současnosti 2008
Qidenus
http://images.google.cz/imgres?imgurl=ht tp%3A%2F%2Fwww.qidenus.com%2FQiS can%2Fimages%2Fprodukt_img_pro.jpg&i mgrefurl=http%3A%2F%2Fwww.qidenus. com%2FQiScan%2Fenglish%2Fprodukte.p hp&hl=cs&tbnh=110&tbnw=112
Knihovny současnosti 2008
Záměr IOP
Společný projektový záměr NK ČR a MZK Cílem je vybudování dvou pracovišť hromadné digitalizace a pracoviště dlouhodobé archivace digitálních dokumentů Pracoviště digitalizace budou schopna digitalizovat bohemikální produkci 19. a 20. stol. během 20ti let (1,1 mil. svazků, cca 300 mil. stran) V rámci projektu (2010 až 2014) se předpokládá digitalizace cca 320 tis. sv., 80 mil. str. Knihovny současnosti 2008
Záměr IOP
Pracoviště digitalizace NK ČR bude vybaveno 8 robotickými skenery a 2 manuálními Sestává ze tří částí: Příprava dokumentů Skenování Úpravy dat a tvorba metadat
Na pracovišti NK ČR bude 39 pracovníků Knihovny současnosti 2008
Záměr IOP
Pro realizace projektu se předpokládá přizpůsobení stávajících programových nástrojů Kramerius a Relief a pořízení nových nástrojů (4DB, CCS) Pro automatickou tvorbu metadat bude třeba přejít na standard MARC XML a METS ALTO Systém Relief (Registr digitalizace CZ) bude poskytovat potřebné údaje uživatelům a knihovníkům o digitalizovaných dokumentech a knihovním systémům pro propojení elektronických katalogů NKC, MZK a SKC s digitální knihovnou
Knihovny současnosti 2008
Knihovny současnosti 2008
Knihovny současnosti 2008
Knihovny současnosti 2008
Děkuji za pozornost
[email protected]
Knihovny současnosti 2008