Příloha č. 1
Návrh aplikace pro správu a archivaci XML dokumentů Zpracoval: Ing. Jan Smolík, CSc
Praha, listopad 2006
Obsah: I. Specifikace zadání II. Popis řešení II.1 Popis výchozího stavu II.2 Způsob práce II.3 Vzhled řešení II.4 Datová struktura II.5 Programované funkce II.6 Technické informace III. Harmonogram a způsob realizace
I. Specifikace zadání Pronájem aplikace vytvořené nebo upravené pro potřeby Národní knihovny ČR, která bude provozována na serveru NK ČR s operačním systémem DEBIAN. Cílem řešení je vytvořit databázové prostředí pro archivaci XML dokumentů, evidenci digitalizovaných materiálů a řízení výroby digitalizace (evidence zakázek, sledování jejich stavu, úkolů a postupu prací na jednotlivých zakázkách).
II. Popis řešení II.1 Popis výchozího stavu Stávající evidence digitalizovaných materiálů je v tabulkách MS Excel. XLS soubor – 20 sloupců, cca 10 tisíc záznamů. XML soubory velikosti 1-100 MB. Rozsah dat : 20GB v XML. Ostatní evidence v papírové podobě. Data uložená v excelových tabulkách budou vygenerována / znovu zapsána do databáze prostřednictvím webového rozhraní aplikace. Struktura vstupních dat: Digitalizované periodikum Obsahuje údaje o digitalizovaném časopisu, novinách či jiném periodickém dokumentu. Digitalizovaná monografie Obsahuje údaje o digitalizované knize, či jiném neperiodickém dokumentu. XML soubor Obsahuje údaje o XML dokumentu vytvářeném podle definice DTD pro periodika nebo monografie. Součástí jsou odkazy na obrazové a textové soubory. Zakázky Obsahuje údaje o dávce během digitalizace dokumentu a jeho další existence. Číslo zakázky tvoří část jedinečného identifikátoru dokumentů a jednotlivých souborů (digitálních objektů). Osoby Obsahuje údaje o operátorech s uvedením jimi prováděných činností v procesu digitalizace. Úkol Obsahuje údaje o činnostech v procesu digitalizace.
Digitalizované periodikum Název
Datový typ
Obsah
Číslo záznamu
string
systémem generovaná číselná řada s prefixem PE, bez ruční editace
Název
string
ruční vstup
ISSN
string
ruční vstup, zapisuje se včetně pomlčky
Poznámka
string
XML soubory
opakovaná vazba
vazba vytvořená na základě ISSN, možný i ruční vstup
Zakázka
opakovaná vazba
ručně vytvořená vazba
Digitalizovaná monografie Název
Datový typ
Obsah
Číslo záznamu
string
systémem generovaná číselná řada s prefixem MO, bez ruční editace
Název
string
ruční vstup
Jméno autora
string
ruční vstup
Příjmení autora
string
ruční vstup
Poznámka
string
ruční vstup
XML soubory
opakovaná vazba
ručně vytvořená vazba
Zakázka
opakovaná vazba
ručně vytvořená vazba
XML soubor Název
Datový typ
XML soubor
bindata
Jméno souboru
string
systémem doplněné jméno souboru, bez ručního vstupu
Velikost XML souboru (kB)
number
systémem doplněná velikost XML souboru, bez ručního vstupu
Datum uložení
date
systémem doplněné datum založení záznamu, bez ručního vstupu
Uložil
string
systémem doplněný login uživatele, který záznam založil, bez ručního vstupu
Rozsah
string
doplněné z XML, bez ručního vstupu
Celkový počet IMG
number
systémem doplněný počet odkazů na obrázky v XML souboru, bez ručního vstupu
Zakázky
opakované pole
data získaná z XML souboru, bez ručního vstupu
Číslo zakázky Počet obrázků
Obsah
Zakázky Název
Datový typ
Obsah
Číslo zakázky
String
systémem generovaná pětimístná číselná řada s možností ručního vstupu, kontrola jedinečnosti
Stav
integer/combobox
stav záznamu může nabývat hodnot "Aktivní" a "Dokončen"
Digitalizovaný dokument
Reference
výběr ze záznamů agend "Digitalizované periodikum" a "Digitalizovaná monografie"
Rozsah
String
ruční vstup
Velikost zakázky (MB)
Number
ruční vstup
Sigla vlastníka
String
ruční vstup
Sigla spoluvlastníka
String
ruční vstup
Zpracovatel
String
ruční vstup
Úkol
opakovaná vazba
přidružené záznamy z agendy Úkol
Poznámka
String
ruční vstup
Datum založení
Date
systémem doplněné datum založení záznamu, bez ručního vstupu
Založil
string
systémem doplněný "uživatel", bez ručního vstupu
Datum dokončení
date
systémem doplněné datum dokončení záznamu, závislé na obsahu pole Stav
Dokončil
string
systémem doplněný "uživatel, závislé na obsahu pole Stav
Osoby Název
Datový typ
Obsah
Příjmení
string
ruční vstup
Jméno
string
ruční vstup
Úkol
opakovaná vazba
přidružené záznamy z agendy Úkol
Název
Datový typ
Obsah
Typ práce
integer/combobox
ruční vstup, může nabývat hodnot "Archivace, "Konverze FREE", "Konverze PROFI", "OCR", "Ořez", "Skenování", "Tvorba metadat", "Zpřístupnění"
Úkol
Stav
integer/combobox
stav záznamu může nabývat hodnot "Aktivní" a "Dokončen", ruční vstup
Osoba (Příjmení, Jméno)
reference
výběr ze záznamů agendy Osoba
Poznámka
string
ruční vstup
Datum založení
date
systémem doplněné datum založení záznamu, bez ručního vstupu
Založil
string
systémem doplněný "uživatel", bez ručního vstupu
Datum dokončení
date
systémem doplněné datum dokončení záznamu, závislé na obsahu pole Stav
Dokončil
string
systémem doplněný "uživatel", závislé na obsahu pole Stav
Zakázka
reference
výběr ze záznamů agendy Zakázky
II.2 Způsob práce Zápis dat o digitalizovaném periodiku Uživatel otevře agendu "Digitalizované periodikum", založí nový záznam a vyplní formulář. Zápis dat o digitalizované monografii Uživatel otevře agendu "Digitalizovaná monografie", založí nový záznam a vyplní formulář. Zápis dat o zakázce A) Uživatel otevře agendu "Zakázky", založí nový záznam a vyplní formulář. Vytvoří vazbu na záznam o digitalizovaném dokumentu. B) Otevře agendu "Digitalizované periodikum" (resp. "Digitalizovaná monografie"), najde záznam daného dokumentu a založí novou zakázku. Import XML souboru Uživatel otevře agendu "XML soubory", založí nový záznam a pomocí dialogu vloží XML soubor. "OnUpdate" se vyplní popisná data převzetím z XML (Název souboru, Velikost souboru, Rozsah, Celkový počet IMG, Zakázka, Počet obrázků).Vytvoří se vazba na existující zakázky na základě čísla zakázky. Doporučená velikost na server služby <5 MB [může být větší – 10 MB = 2min. Uložení na server] Offline editace XML Uživatel má možnost vyzvednout zvolený XML soubor pro editaci. Po skončení editace znovu naimportuje XML soubor. Při každé změně souboru budou popisná data automaticky aktualizována.
II.3 Vzhled řešení Řešení bude koncipováno jako webové formuláře.
II.4 Datová struktura
II.5 Programované funkce Automatické doplnění popisných polí v agendě "XML soubor" a agendě Zakázky na základě analýzy XML. pole
zdroj údajů
Rozsah
Informace z atributu
. Položky budou odděleny středníkem ";".
Celkový počet IMG
Počet výskytů odkazu na obrázek<PageImage ...> v celém XML souboru.
Zakázka.Číslo zakázky (opakované)
Prvních pět číslic názvu obrázku<PageImage ...>
Zakázka.Počet obrázků
Počet obrázků s daným číselným prefixem zakázky.
(opakované) Titul.ISSN
Automatická vazba na agendu Digitalizované periodikum vytvořená na základě ISSN . V případě, že nebude nalezen odpovídající Titul, bude uživatel informován a údaje budou zapsány do poznámky.
Kontrola jedinečnosti zakázek. Při založení zakázky systém zkontroluje zda neexistuje jiná zakázka na stejná čísla periodika a monografie. O výsledku kontroly upozorní uživatele.
Export XML souboru jako celek nebo po částech (ročník, výtisk u periodik, volné části u monografií) Sloučení XML do jednoho souboru. Slučovat u periodik výtisky do ročníků, ročníky do titulů, u monografií volné části do titulů. Sledování stavu Úkolů a Zakázek. Automatické doplnění data dokončení úkolu, resp. zakázky a uživatele, který stav změnil. Přidělování práv operátorům.
II.6 Technické informace NK ČR preferuje AMD procesor, OS DEBIAN, v případě využití HW NK ČR. Ověřovací část proběhne na serveru NK ČR v Centrálním depozitáři v Hostivaři. Aplikace bude podporovat webové prohlížeče MSIE, Mozilla FireFox.
III. Harmonogram a způsob realizace Předpokládané časové nároky na vytvoření aplikace a její implementaci: Do 4 týdnů od rozhodnutí o dodavateli vytvořit či přizpůsobit aplikaci a realizovat její prezentaci na zařízení dodavatele. Do 6 týdnů od rozhodnutí provést implementaci v NK ČR a zaškolení operátorů. Cena zařízení by se měla odvíjet od způsobu realizace. V podstatě jsou dvě varianty, příp. jejich kombinace. Vzhledem k dalším záměrům NK ČR není třeba aplikaci pořizovat jako investici, je možné ji získat pronájmem. Varianty Uchazeč může nabídnout následující varianty: pronájem aplikace, pronájem aplikace a HW, provoz v prostorách NK ČR pronájem aplikace a HW, provoz v prostorách dodavatele U navržených variant by měl dodavatel vyčíslit konečnou cenu pronájmu jednotlivě za aplikaci, HW a příp. rozdíl v ceně u provozu v NK ČR a ve vlastních prostorách.