Digitalizace knihovních dokumentů Jiří Polišenský
Obsah prezentace • • • • •
Základní prvky digitalizace Formáty a standardy Skenery Digitalizační work flow Systémy pro prezentaci a evidenci digitalizovaných dokumentů • Projekt Národní digitální knihovna
Základní prvky digitalizace Digitální objekty + metadata Digitální objekty • Obrazové soubory • Zvuk • Video • atd.
Funkce digitálních objektů • Archival master – archivní soubor • Modified master – modifikovaný soubor • User copy – uživatelská kopie
Obrazové soubory • Základní bitmapa získaná skenováním • Různé způsoby komprese podle použitých obrazových formátů • Ztrátová a bezztrátová komprese • Vlastnosti obrazových souborů – Obrazový formát – Rozlišovací schopnost v dpi – Černobílé zobrazení, šedá škála, barva – Velikost v bytech
Formáty obrazových souborů • • • • •
TIFF JPEG JP2 PNG DjVu
• PDF
neztrátový ztrátový neztrátový neztrátový ztrátový
Metadata • Popisná metadata • Strukturální metadata • Administrativní a technická metadata
Standardy • Popisná metadata – V současné době NK používá národní standard založený na UNIMARCu a DTD pro periodika a monografie, XML – Další používané standardy: • Dublin Core • MARC XML • MODS
• Administrativní a technická metadata – PREMIS, MIX
Příprava dokumentů pro digitalizaci • Selekce dokumentů – stanovit selekční kriteria • Kontrola stavu zpracování v elektronickém katalogu • Čárový kód • Fyzický stav • Přílohy – volné, rozkládací apod. • Jazyk a písmo (OCR)
Skenery Skenery pro různé typy dokumentů: • Knižní skenery – – – –
Manuální Robotické Kombinované Hybridní kamery
• Skenery pro jiné typy dokumentů – – – –
Průběžné Bubnové Mikrofilmové Atd.
Vlastnosti skenovacích zařízení • • • • •
Maximální velikost předlohy Způsob uložení knihy (bookcradle) Maximální dpi v celé ploše Rychlost skenování Přenos souborů
Zpracování obrazových souborů • •
Separace jednotlivých stránek dokumentu Narovnání – –
•
Ořez – –
•
Manuální Poloautomatické Uvnitř stránky dokumentu Vně stránky dokumentu
Zlepšení kvality – –
Potlačení pozadí (průtisků) Odstranění šumu
OCR • Optical Character Recognition – Antikva – Fraktura německá – Fraktura česká
• Formáty – TXT, PDF, PDF HT, METS ALTO, ALTO XML, PAGE XML
• Příčiny nízké úspěšnosti rozpoznávání – – – –
Nízká kvalita předlohy Chyby v nastavení skenovacích parametrů (např. nízké dpi) Zastaralý typ písma Starší podoba jazyka
Struktura dokumentu • Jednostránkové soubory / dvoustránkové / vícestránkové • Jendosvazkové /vícesvazkové dokumenty • Seriály a nepravá periodika • Pravá periodika • Noviny
Struktura dokumentu • Složité struktury, např. noviny – Titul – Ročník – Výtisk – Strana – Reprezentace strany
metadata
digitální objekt
Struktura dokumentu • Struktura pro zpřístupnění archivaci: PSP, SIP – Popisná metadata – xml – Složka JP2 – Modified master (neztrátová komprese) – Složka JP2 – User copy (ztrátová komprese) – Složka METS ALTO
Kontrola kvality • Kontrola kvality obrazových souborů – DPI, stupně šedé barvy, věrnost barevného podání podle obrazce, atd.
• Kontrola úspěšnosti OCR – Na písmena (vícenásobné selhání u stejného písmene) – Na slova
• Validace XML • Konsistence struktury dokumentu
Nástroje pro digitalizaci • Skenery • Programové nástroje pro zpracování obrazu • OCR • Nástroje pro vytvoření struktury dokumentu • Nástroje pro tvorbu metadat (XML editor) • Kompletní work flow (DocWorks, Sirius, Goobi, atd.)
Automatizace procesu digitalizace • Tvorba popisných metadat konverzí záznamu z elektronického katalogu • Generování administrativních a technických metadat v průběhu digitalizace nebo archivace • Automatizované operace s daty umožňuje využívání identifikátorů (čárový kód, číslo ČNB, ISSN, ISBN, atd.)
Prezentace digitalizovaných dokumentů • Aplikace pro digitální knihovnu - Kramerius 3, Kramerius 4(open source): http://kramerius.nkp.cz/ • Vyhledávání dokumentů podle metadat a fulltextu • Jednotná informační brána • Federované katalogy • Europeana, TEL
Evidence digitalizovaných dokumentů • Evidence digitalizovaných dokumentů, nebo vybraných pro digitalizaci, je důležitá pro: – Eliminaci duplicitních neekonomických činností – Zjišťování informací o digitalizovaných dokumentech – http://sluzby.incad.cz/esp/rdcz/
Národní program Kramerius • VISK 7 program zaměřený na mikrofilmování a digitalizaci dokumentů ohroženýchz degradací kyselého papíru • Podporuje MK ČR – hradí 70% nákladů • Otevřený všem veřejným knihovnám registrovaným MK ČR • Výzva k podávání projektů listopad 2010, uzávěrka leden 2011 • Informace na webu NK ČR
Projekt Národní digitální knihovna • Integrovaný operační program, Smart administration • Trvání 2010 – 2014 • Udržitelnost 2015 – 2019 • Celkem digitalizace 26 mil. stran • V rámci projektu budou vybudována dvě pracoviště digitalizace NK ČR a MZK • Využití robotických skenerů • Nové standardy a formáty (konverze a migrace dat)
Děkuji za pozornost
[email protected]