RETROSPEKTIVNÍ KONVERZE METODOU SKENOVÁNÍ Libor Thiel Firma Comdat se sídlem v Praze se specializuje na proces retrokonverzí knihovnických katalogů s maximálním využitím výpočetní techniky. Comdat dodává komplexní řešení retrokonverzí včetně specializovaného hardware a software. Software byl vyvinut za spolupráce s Národní knihovnou České republiky. Systém je navržen tak, že jednotlivé etapy technického řešení na sebe plynule navazují, ale zároveň mohou být samostatnými celky využitelnými ke zlepšení přístupu ke knižním fondům. Tento přístup přináší maximální snížení nákladů na retrokonverzi a umožňuje postupné financování projektu retrospektivní konverze v reálném časovém rozmezí. Náklady na úplnou retrokonverzi touto metodou dosahují zhruba 50% v porovnání se standardními metodami používanými v současné době. Za vstup retrokonverze je z našeho hlediska považován katalogizační lístek v celém rozsahu kvality (podkladu i záznamu) a velikosti tak jak se v knihovnách vyskytuje. Za výstup z procesu retrokonverze je považován strukturovaný tvar záznamu dle standardu UNIMARC, US MARC popřípadě jiný strukturovaný tvar záznamu. Výstupní strukturovaný tvar v sobě obsahuje všechny použitelné informace uvedené na katalogizačním lístku a je schopen přenesení do vyššího výpočetního systému jakým je např. ALEPH, BIBIS, TINLIB a pod. Specializovaný SW firmy COMDAT je vyvinut tak, aby odborná práce knihovníků mohla být prováděna s maximální efektivností a úsporou času. Celý proces retrospektivní konverze metodou COMDAT má tyto tři etapy: I. Skenování a archivace II. Přepis záznamu do textového tvaru III. Strukturování textového tvaru do formátu UNIMARC, US MARC, a pod.
213
Graf procesu retrokonverze
I. SCANNOVÁNÍ a ARCHIVACE SCANNOVÁNÍ a ARCHIVACE je první etapou s těmito cíli: • převedení záznamů do elektronické podoby v podobě „obrázku“ • minimální narušení provozu katalogů • čitelnost elektronické podoby záznamu na úrovni původního záznamu • archivace záznamů v elektronické podobě s dlouhodobou životností
214
• rozhodnutí o způsobu přepisu do textového tvaru • možnost využití archivovaných záznamů jako základu k jiným způsobům zpřístupnění katalogů než je úplná retrokonverze do strukturovaného UNIMARC, US MARC • vytvoření jednoduché struktury záznamů na principu „jeden záznam = jeden soubor“ II. PŘEPIS PŘEPIS je druhou etapou s tímto cílem: • převod záznamů do textové podoby při zajištění přesnosti 99% III. STRUKTUROVÁNÍ STRUKTUROVÁNÍ je třetí etapou s těmito cíli: • převod záznamů do strukturovaného tvaru (UNIMARC, US MARC) • konečná kontrola gramatická • konečná kontrola struktury popř. její změna • Etapy retrokonverze I. SCANNOVÁNÍ – ARCHIVACE Stručný popis metody. Archivace dokumentů prostřednictvím scannování a následného uložení nascannovaných dokumentů na magnetooptická media je metoda, která využívá moderních způsobů počítačového zpracování a ukládání obrazových informací. Metoda spočívá v sejmutí obrazu scannerem při zachování všech obrazových informací originálu a jeho převedení do elektronické podoby. Scannování a následné zobrazení dokumentů se v dnešní době vyrovnalo svou kvalitou metodám mikrofišování a ve využívání zpracovaných informací ji předčila. Vzhledem k velmi značným rozdílům v kvalitě katalogizačních lístků je nutné použít scannery jež nastavují automaticky svoje parametry v průběhu scannování. Parametry scanneru se nastavují jak v závislosti na podkladu na kterém je záznam pořízen, tak i na kvalitě záznamu samotného. Archivace je prováděna pomocí tzv. JUKE BOXů na magnetooptická media jež se vyznačují schopností archivovat velké objemy dat a to jak v podobě přepisovatelné tak v podobě (WORM) jež po jediném zapsání již nelze nikdy přepsat což výrazně zvyšuje bezpečnost uložených informací. Z takto uložených informací lze pořizovat libovolné množství kopií s minimálními náklady. Celková archivace je procesem, který není nutný z hlediska retrokonverze jako takové, ale některé knihovny ji mohou využít. Zvláště pak v případě, že lískový katalog je cenným historickým dokumentem.
215
Renomovaní výrobci magnetooptických nosičů záznamu dávají záruku na archivované informace po dobu 50 let, přičemž efektivní doba uchování informací je odhadována na dobu 100 let. Z výše uvedených skutečností vyplývá, že fyzická životnost výše uvedených medií je mnohem vyšší než předpokládaná technologická životnost tohoto principu archivace. V současné době lze jen velmi těžko odhadnout na jaké technologické úrovni bude archivace informací za dvacet let. Lze však s jistotou předpokládat přenositelnost takto pořízených záznamů na všechny nově vyvíjené systémy archivace, neboť jednou ze základních podmínek nového vývoje v této oblasti je kompatibilita se systémy předchozími. Technické zařízení nutné k retrokonverzi katalogu včetně archivace o rozsahu přibližně 3 mil. záznamů je znázorněno v následujícím schématu.
216
Pro scennování a archivaci většího počtu záznamů než 3 mil. stoupá počet scennovacích pracovišť s každý milionem o jedno pracoviště. Při scannování 3 mil. záznamů bude převedení celého katalogu do elektronické podoby trvat přibližně 6 měsíců. Tuto dobu lze zkrátit při nasazení pracovníků provádějících skenování v nepřetržitém provozu až na polovinu. Doba zpracování jednoho záznamu včetně kontroly z celého rozsahu 3 mil. záznamů je 5 vteřin se započtením času na manipulaci a času rezervního. Přičemž doba průchodu katalogizačního lístku scannerem je přibližně 0,5 vteřiny. Prakticky bylo prověřeno, že u katalogu menšího rozsahu se doba zpracování pohybuje okolo 3 vteřin. Tyto doby předpokládají scannování v místě instalace lístkového katalogu, nejhůře však ve stejné budově, přičemž doba vyřazení jednotlivého lístku z katalogu je několik desítek minut. Po této etapě se pracuje v procesu retrokonverze již jen s elektronickou podobou katalogizačního lístku. Katalog lístkový tak již nebude více „obtěžován“. Tento způsob tak umožňuje využívání lístkového katalogu po celou dobu retrokonverze bez jakýchkoliv omezení. Významné je také to, že nascannované záznamy jsou okamžitě k dispozici uživatelům stejně jako v lístkovém katalogu. Toto je umožněno specializovanými programy ARTIF a KATALOG vyvinutými firmou Comdat. Pro katalogy s rozsahem do 500 tis. katalogizačních lístků není nutné pro scannování budovat celou počítačovou síť. Postačí vybudovat jedno lokální pracoviště s externí diskovou jednotkou optického disku a scannerem vhodným pro tento účel. Takovéto pracoviště musí být vybaveno programy firmy Comdat pro tento účel. Program Comdat ARTIF Textový program speciálně vyvinutý firmou Comdat je nejdůležitějším článkem celého procesu scannování. Umožňuje jeho uživatelům přímo obsluhovat scanner, sejmuté lístky zobrazit, rozhodnout o jejich kvalitě a uložit na předem zvolené místo.
217
Po této proceduře jsou sejmuté předlohy kdykoliv přístupné pomocí dalšího programu Comdat KATALOG. Tím je zaručen kvalitní a rychlý vstup do procesu retrokonverze, který nabízí možnost dále pracovat pouze s obrazovými kopiemi původních katalogových lístků. Rozhodování o způsobu přepisu provádí obsluha na základě jednoduchého školení popřípadě zkušeností z práce s OCR softwarem . Velmi důležitým bodem první etapy je rozhodnutí obsluhy scanneru o způsobu přepisu záznamu. Po průchodu lístku scannerem se proces na okamžik zastaví a obsluha stisknutím jednoho ze dvou možných tlačítek rozhodne o tom, zda bude přepis proveden ručně nebo automaticky prostřednictvím OCR programu.
218
Zpřístupnění obrazových předloh Pro zpřístupnění obrazových předloh je použit další speciálně vyvinutý software – Comdat KATALOG.
Tento program je možno využít jak pro pracovníky knihovny, tak i pro běžné uživatele. Nabízí totiž možnost rychlého přístupu ke katalogizačním záznamům. Ve kterých je možno prohledávat stejně jako v klasickém katalogu, navíc je zde nabídnuta možnost vyhledání konkrétního záznamu podle jeho připojeného popisu. II. PŘEPIS V procesu přepisu do textového tvaru je využito roztřídění záznamů určených pro ruční zpracování a pro zpracování OCR. Toto roztřídění bylo provedeno během scannování a archivace viz. graf procesu retrokonverze. Přepis si klade za cíl pouze převedení záznamu do textového tvaru a to s co největší rychlostí a zároveň nejvyšší možnou přesností. V průběhu pře-
219
pisu není žádoucí jakékoliv strukturování, jež by neúměrně proces zpomalilo. Částečné strukturování v námi navrhovaném systému nemá význam pro celkovou efektivnost konverze. Ruční přepis Pro dosažení maximální efektivnosti přepisu musí mít písařka dokonale připravené podklady k přepisu. V praxi to znamená, že se písařce zobrazí jak předloha tak přepisovaný text v jednom pohledu na obrazovce k čemuž je využíván následující program vyvinutý firmou Comdat pro tento účel. Program Comdat TEXTIF Program Comdat TEXTIF 1.0 je určen pro ruční přepis předloh, které nebudou v dostatečné kvalitě pro zpracování pomocí OCR.
Pro dosažení maximální efektivnosti přepisu musí mít písařka dokonale připravené podklady k přepisu. V praxi to znamená, že se písařce zobrazí jak předloha tak přepisovaný text v jednom pohledu na obrazovce. Na obrázku
220
můžete v horní části pohledu vidět obrazovou předlohu přepisovaného textu a v dolní části přepisovaný text již ve znakové (textovém) tvaru. Přepis záznamů pomocí inteligentního OCR Dobře čitelné záznamy lze zpracovávat pomocí vhodného OCR programu. Zpracování záznamů touto metodou trvá několik sekund. Tento údaj byl prověřen na významném vzorku katalogizačních lístků různé kvality. Množství záznamů, jež lze přepisovat pomocí OCR je do značné míry závislé na kvalitě převáděných záznamů. V Národní knihovně České republiky, kde průměrná kvalita katalogizačních lístků (záznamů) je poměrně nízká, bude přepisováno cca. 30 záznamů prostřednictvím OCR programu. Katalogizační lístky ručně psané a špatně čitelné nelze převést jinak než ručním přepisem. V průběhu přepisování není počítáno se strojovou kontrolou pravopisu. Zpracovávané záznamy obsahují velké množství jmen, názvů, cizích slov a pod., proto by pravopisná kontrola nebyla efektivní a celý proces by výrazně zpomalila.
221
III. Strukturování Strukturování do konečného formátu např. UNIMARC musí být provedeno profesionálním knihovníkem. K čemuž slouží program Comdat ProTag. Tagovací program Comdat ProTag Program výrazně ulehčuje poslední fázi retrokonverze. Nabízí profesionálnímu knihovníkovi možnost přímého zatřídění převedených textů (textů vzniklých použitím OCR systému nebo ručním přepisem s využitím programu TEXTIF) do strukturovaného tvaru.
Tímto postupem je odborná práce knihovníka využívána s maximální efektivností. Knihovník záznamy nepřepisuje ale pouze rozhoduje o zatřídění položek v záznamu. Položky kontroluje, opravuje. Přepsané záznamy v textové podobě se přímo zobrazují v horní části obrazovky, knihovník si úseky textu, patřící k jednotlivému tagu, automaticky
222
vkládá na editační řádku a po jejich kontrole text stisknutím tlačítka příslušného tagu již zatřiďuje na určité místo v dané položce. Po odsouhlasení „roztagovaného“ záznamu je text uložen v požadované struktuře. Strukturu a tvar záznamu lze předem definovat. Výstupní struktura tak může být ve tvaru UNIMARC, US MARC, a pod. Program Comdat ProTag je možno rozšířit o funkci automatického roztřídění zdrojového záznamu do jednotlivých složek a tagů. Na základě přesné a jednoznačné specifikace oddělovačů, používaných na katalogizačních lístcích, stanovené zadavatelem retrospektivní konverze, lze doplnit program ProTag o modul automatického tagování. Náklady Náklady na techniku pro knihovnu s počtem svazků okolo 3 mil. se pohybují v rozmezí 4 až 5mil. Kč (150.000,- až 190.000,- tis.USD) včetně nutného programového vybavení. Etapa scannování si vyžádá nasazení asi 8-10 pracovníků s dobrou znalostí práce na počítači po dobu cca. 6 měsíců. Pro knihovnu okolo 500tis. svazků jsou náklady na techniku asi 0.8 až 1 mil. Kč. (cca. 40.000,-USD) Přičemž při nižším počtu svazků tyto náklady již neklesají. 3 pracovníci po dobu 6 měsíců budou nasazeni na tuto práci. Z uvedeného technického řešení retrokonverze vyplývá, že až v poslední etapě je nutné využít odborné práce knihovníka. První dvě etapy vyžadují spolupráci knihovny při přípravě, ale není nutná jeho přímá účast v samotném průběhu etap. První dvě etapy tak lze zadat externímu dodavateli, který na sebe převezme rutinní práci spojenou se scannováním a přepisem a zároveň náročnou práci organizační jenž si realizace prvních dvou etap vyžádá. Třetí etapu pak dokončí knihovníci zadavatele. V případě, že externí dodavatel disponuje zkušeným týmem knihovníků lze celý proces retrokonverze zadat tomuto externímu dodavateli. Celkové náklady na retrokonverzi jednoho záznamu se pohybují okolo 25,-Kč, přibližně 1,- USD na záznam, což je výrazné snížení nákladů v porovnání s metodami ve světě běžně používanými. Velkou výhodou tohoto systému je i snadná lokalizace pro jiná jazyková prostředí. V současné době je připravována verze pro pro anglický, německý a polský jazyk. Hlavní výhody retrokonverze metodou skenování • minimální zatížení konvertovaného lístkového katalogu v průběhu retrokonverze • možnost zadat první dvě etapy retrokonverze popř. celou retrokonverzi externímu dodavateli • maximální využití odborné práce knihovníků tím, že jsou ušetřeni přepisování záznamů do textové podoby a pracují se záznamem v průběhu
223
retrokonverze pouze jednou a to v konečné fázi • zpřístupnění katalogu v digitální podobě již po první etapě retrokonverze • snížení nákladů na úplnou retrokonverzi do standardního tvaru (např. UNIMARC, US MARC) v porovnání se současně používanými metodami • výrazné zkrácení doby nutné k provedení retrokonverze v porovnání se standardními metodami
224