DIGITALIZACE
Synergie archivních institucí a poskytovatelů služeb v přípravné fázi digitalizace fondů
Ústí nad Labem 4. září 2013
scanservice a.s. Náchodská 2397/23 193 00 Praha 9 ing. Miroslav Khodl technologický konzultant
[email protected]
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
KNIŽNÍ SKENOVÁNÍ
Co lze očekávat od masivní digitalizace
Kalkulovaný počet stran
120 – 180 stran / hodinu / os.
Maximální počet svazků:
velikost, stav -> skener (RKS, M)
Průměrná skenovací rychlost pro bezproblémové svazky (1sken = 2 st.)
180 – 700 stran / hod
Písmo Gotika : Latinka
70 % gotika, 30 % latinka
Ruční zpracování gotického OCR
5 – 28 min /stránku (cca 11 000 znaků A3+)
Hranice pro manuální zpracování:
od 10 -20 % gotika od 5 -10 % latinka
(častý a nepředpokládaný mix)
Prioritizace M+P na úkor ostatních
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
2
KNIŽNÍ SKENOVÁNÍ
IDEÁLY versus REALITA Zdigitalizujeme všechen uměnovědní fond Zeměkoule (Europeana apod.)
psaný i sázený, hudební, fotografický, malířský, architektonický, sběratelský…
Zdigitalizujeme veškeré písemnosti obývaného regionu a sem tam přidáme vybraný 3D objekt, hudbu
knihovny, muzea, galerie, archivy, soukromé sbírky a jejich kombinace
Zkusíme zajistit financování pro ohrožené fondy a vzácnosti
příprava dle podmínek finančního donátora (IOP, granty, sponzoring, „výhodné smlouvy“)
Abychom stihli využít prostředky, vybereme cokoliv snadno a rychle digitalizovatelného, protože čas a množství jsou měřenými jednotkami
Několik desítek ročníků seriálových titulů s velkým počtem stran, sebrané spisy, slovníky vydané koncem 20. století…
Nemusíme nic moc chystat, Zhotovitel je tu od toho
mnohdy fatální stav připravenosti, díla nevhodná pro průmyslové zpracování, typově neodpovídající zadání…
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
3
KNIŽNÍ SKENOVÁNÍ
IDEÁLY versus REALITA Všechny tituly chceme digitalizovat na nejméně 600 dpi (pokud se vyskytne obrázek)
workflow na zakázku umí zpravidla jednu hodnotu rozlišení, více průchodů je užíváné zejména kvůli typologii svazků
Máme napočítáno přesně 350 000 stránek, ale když na to příjde, můžeme jakékoli množství přidat nebo ubrat při zachování vysoutěžené ceny
dodavatelé zaměstnávají lidi, platí amortizace strojů a aby přežili, zpracovávají paralelně větší množství zakázek. Větší změna bývá špatně v každém případě
Podmínka účasti ve výběrovém řízení: dodávka pro vždy platných licencí na technologie (M$, Kakadu, ocr, db…)
klíčový používaný a osvědčený SW je zpravidla placen ročně nebo cpp, svobodný SW zatím pokulhává
Další z podmínek: projekt musí plně odpovídat standardu NDK, ale navíc chceme… (dodávku PS_tiff, pdf, aby se obrázky nedaly stáhnout z internetu…)
kombinace mnohdy technicky protichůdných požadavků, např. „strojové OCR“ dle NDK a chybovost pod např. 5 % OCR…
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
4
KNIŽNÍ SKENOVÁNÍ
IDEÁLY versus REALITA Digitalizujte periodika a monografie, ale naceňte nám stránky podle A3, A2, A1… (ale nikoli dle PLOCHY těchto formátů)
který účastník běžně pracuje s novinami přesných A formátů nechť zvedne ruku, dokud si jej nevšimnu ;) –užitečnější je zadání rozsahu skladby a
Další z podmínek: projekt musí plně odpovídat standardu NDK, ale dodáme vám sbírkové předměty nebohemikální provenience a evidované navíc nejlépe pouze jako sbírkový předmět
Naskenovat lze prakticky vše včetně díry obklopené kovovým masivem, spojitost se standardy NDK ovšem očekáváme začátkem roku 3024
Domněnka manažerů: Národní knihovna definuje bezchybné standardy pro každou digitalizaci
Zkušenost: NK definuje pro vnitřní systém digitalizace své de-facto podnikové standardy, navenek fungují jako doporučení. Závaznost plyne spíše ze záměru užití LTP. Každý reálná proces obsahuje chyby a jejich odstraňováním se vyvíjí.
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
5
KNIŽNÍ SKENOVÁNÍ
IDEÁLY versus REALITA Se svazky nemusíme už nic dělat, jsou v technicky dobrém stavu.
těsná vazba ve hřbetu znamožní kvalitní celostránkový sken, sníží se kvalita OCR a chybí sloupce písmen v obraze pro LTP i K4/5 Součástí přípravy Zadavatele musí být posouzení vhodnosti rozvolnit.
Když dodáme předlohy na kyselém papíře, zajístíte odkyselení. Nevíme ale, kolika stránek se to týká, nicméně cena je konečná a neměnná,poraďte si…
N.C. ;)
Cena za znovuvyvázání svazku je moc velká, ústav na ni nemá, raději nebudeme rozvolňovat
Cílem digitalizace je krom úschovy a zpřístupnění právě odstavení originálu z procesu výpůjček, stačí tedy uložit do archivního boxu např. z produkce EMBy
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
6
KNIŽNÍ SKENOVÁNÍ
Mántry řídících pracovníků •
Mántrou projektových pracovníků jsou harmonogramy…, přičemž Zhotovitelům není prakticky nikdy dopředu znám stav příprav na straně Objednatele. Mnohdy ani ředitelé „zúčastněných institucí“ nevědí nic o tom, že se počítá se zápůjčkou jejich fondu…
•
Harmonogam je pomůcka pro dynamické řízení projektu, nikoli konstanta. Aktualizujte beze strachu a podle vzájemné potřeby!
•
Nevyžadujte vrácení fondu „do 4 - 6 týdnů“, není-li to zhola nezbytné. Díky chybám v číslování je fyzická předloha dobrou pomůckou a v případě poškození skenu nezbytností. Děje se to, kdyby ne, neexistovaly by procesy toto řešící!
•
Platíme vám dost. (Všechny projekty IOP, VISK apod. jsou hrazeny po úplné akceptaci části nebo celého díla. Zhotovitel nese náklady ke své tíži i několik měsíců po finální předávce, zálohy neexistují.)
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
7
KNIŽNÍ SKENOVÁNÍ
Mántry řídících pracovníků •
Lidí je všude dostatek, nákup technologií je důležitější. Neobydlený dům vlhne od základů, nepracující technologie je mrtvá už při nákupu.
•
Tuto práci může dělat skoro každý. -> Odbornost a dostatečná kapacita budoucího personálu KDJ či osob zpřístupňujících statisíce PSP balíčků s jednotlivými výstupy monografií a periodik je podmínkou nutnou. Dokud byla produkce spíše testem možností, mohli být tyto práce vykonávány „bokem“. Údržba a správa rostoucí digitální knihovny je kvalifikovaná práce na pomezí knihovníka – programátora – pracovníka IT…
•
Digitalizace znamená naskenovat, nafotit, popsat a vrátit. -> Spektrum přípravných prací je mnohem širší. Je například nutné dohodnout pojištění děl, hranice odpovědností, závozy, počítat s průběžnou údržbou, s vymezením prostor na velmi dlouhou dobu (přestěhování technologie v podobě tunového skeneru je noční můra), s rozvolněním děl, očistou od prachu apod., s popisem děl po přejímce list po listu, popřípadě i s dobou pro nákup a vyzkoušení nových technologií (např. zpracování RTG snímků, skleněných desek s požadavkem na >10 tisíc dpi, letecké snímkování, prostorové 3D skeny apod.)
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
8
KNIŽNÍ SKENOVÁNÍ
JAK LZE SPOLUPRACOVAT NA DÁLKU – dynamika nestíhaných projektů
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
9
KNIŽNÍ SKENOVÁNÍ
Knižní skenery 4DigitalBook – co by měl vědět „projekťák“ MINI-DL-i & Scan2Page - vytěžování strojů 2x A3
2 x A2+
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
10
KNIŽNÍ SKENOVÁNÍ
Knižní skenery 4DigitalBook Kniha založená v knižní kolébce •
mapy a volné nadrozměrné přílohy se skenují na průtahovém skeneru A0 – leckdy prohlášeny za vhodné pro robotické zpracování i v případě složených leporel apod.
přílohy
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
11
KNIŽNÍ SKENOVÁNÍ
Řešení Scan4Book – 6 bodů zapamatování Procesy pro digitalizaci monografií a periodik dle NDK 2012
Založení zakázky
Pořízení obrazů
PT
•Safebook •Zakázka = monografie nebo svazek periodik = čárový kód •Protokoly, fyzický stav svazků •Logování operací
•Skenování pomocí aplikace pro obsluhu knižního skeneru •Vložení naskenovaných obrazů do zakázky, přiřazení profilů s metadaty pomocí aplikace ScanPortal.
•ScanBus •Návrh a manuální korekce úprav obrazů •Ořez, vyrovnání textu, snížení průsvitu
OCR
MDE PSP
•ScanBus + Abbyy SDK •Rozpoznání textu pomocí OCR •Tvorba ALTO XML (boxing), TXT (fulltext) •Výpočty úspěšnosti rozpoznání znaků a slov
•Safebook MDE: paginace, určení typu stran, rekatalogizace •Doplnění popisných metadat •Rozdělení svazku na intelektuální entity •Přesun a mazání stran •Začlenění obrázků po importu, sloučení •Kontroly - prevalidace
•Safebook •Získání URN:NBN z Resolveru •Kompletace PSP dle NDK 2012 •Verifikace validátorem NDK
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
12
Přehled svazků (knihovny, archivy) KNIŽNÍ SKENOVÁNÍ Hmotnost a velikost svazků • obvyklé podmínky pro skenování: do 10 cm výšky hřbetu a 10 kg
R E A L I T A
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
13
KNIŽNÍ SKENOVÁNÍ
Příprava projektu: 2 - 3 roky, synergie ve fázi příprav
Co předchází výběru svazků pro digitalizaci – fyz. příprava a založení do RD
• vyhledání zdrojů v katalozích i fyzicky • zjištění stavu a úplnosti knihovních, archivních a sbírkových fondů • akviziční činnost pro kompletaci sbírek • doplnění identifikátorů (ččnb, kde lze) prostřednictvím NK • předání dat Registru digitalizace, příznak připravenosti
• vyjednání zápůjček od archivních institucí • vyjednání zápůjček od mimoregionálních institucí • fyzická příprava vybraných děl k určeným datům na místa svozu po spuštění pr.
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
14
Přehled svazků (knihovny, archivy) KNIŽNÍ SKENOVÁNÍ Svazek periodika s přílohou snadno opomenutelnou při robotickém skenování
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
15
Přehled svazků (knihovny, archivy) KNIŽNÍ SKENOVÁNÍ Svazky periodik: a. se všitou reklamou b. se dvěma deníky a občasnými přílohami
a) reklama na šicí stroje (neřezáno)
b) dvojí nepravidelně se střídající ččnb
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
16
Přehled svazků (knihovny, archivy) KNIŽNÍ SKENOVÁNÍ Vzhled některých stránek… Tmavé oblasti na okrajích - průhledná páska scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
17
Přehled svazků (knihovny, archivy) KNIŽNÍ SKENOVÁNÍ
P
Není alcát jako Palcát aneb změna formátu během roku… vhodné upozornit v poznámce o knize
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
18
KNIŽNÍ SKENOVÁNÍ
Přehled svazků (knihovny, archivy) Monografie má smysl skenovat v barvě; (u periodik na denní bázi jde spíše o nejasné autoritativní kompetence…)
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
19
KNIŽNÍ SKENOVÁNÍ
Přehled svazků (knihovny, archivy) Dlooouuuhéééé a šíroké stránky
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
20
KNIŽNÍ SKENOVÁNÍ
Děkujeme za pozornost
Ústí nad Labem 4. září. 2013
SYNERGIE = „Ten umí to a ten zas tohle, a všichni dohromady uděláme moc”
scanservice a.s. | Náchodská 2397/23 | 193 00 Praha 9 | E-mail:
[email protected] | www.scanservice.cz
21