1 ZPŘÍSTUPNĚNÍ OBJEMNÝCH OBRAZOVÝCH DATOVÝCH SOUBORŮ V MANUSCRIPTORIU s cílem zrychlit odezvu a snížit datové přenosy Zpráva k Dodatku č. 8 ke Smlouvě...
ZPŘÍSTUPNĚNÍ OBJEMNÝCH OBRAZOVÝCH DATOVÝCH SOUBORŮ V MANUSCRIPTORIU s cílem zrychlit odezvu a snížit datové přenosy Zpráva k Dodatku č. 8 ke Smlouvě o spolupráci ve výzkumu a vývoji
verze 1.0
Autor: ing. Tomáš Psohlavec a kolektiv AiP Beroun s.r.o.
8.12.2010
-1-
Obsah 1
Úvod o dokumentu ...............................................................3 1.1
1 Úvod o dokumentu AiP Beroun uzavřela s Národní knihovnou České republiky dne 2.8. 2004 Smlouvu o spolupráci ve výzkumu a vývoji za účelem optimalizace zpřístupnění rukopisů a dalších historických materiálů v programu Memoriae Mundi Series Bohemica. 13.5.2010 byl k této smlouvě uzavřen dodatek č. 8, který se zabývá „analýzou možností zefektivnění datového zázemí a poskytování obrazových dat s cílem zrychlit odezvu a snížit datové přenosy“. Výsledkem měla být „náhrada technologie MrSID a Express Serveru firmy Lizardtech při zpřístupnění objemných obrazových datových souborů, zejména historických map“. Tento dokument je zprávou o vybraném řešení.
1.1 Účel Tento dokument zpravuje čtenáře o důvodech nutné změny způsobu poskytování dat, o vybraném řešení a jeho výhodách. Výsledky implementace dokumentuje i příklady a ukázkami z realizace.
1.2 Předpokládaný čtenář Tento dokument je určen především pro zadavatele (NKČR), ale může dobře sloužit též jako zdroj praktických informací pro případného partnera Manuscriptoria, který by rád využil možnosti spolupráce níže popsaným způsobem (např. při prezentaci map).
1.3 Termíny a konvence Termíny a konvence použité v tomto dokumentu, pokud zde nejsou přímo vysvětleny, jsou popsány a definovány v dokumentu [1] .
1.3.1 DB MNS NKČR
Použité zkratky
– Databáze – systém Manuscriptorium – www.manuscriptorium.com – Národní knihovna České republiky
1.4 Reference V dokumentu se odkazujeme na následující dokumenty: [1] Manuscriptorium v.2.0 – analýza systému, AiP Beroun 2004 [2] IIPImage - http://iipimage.sourceforge.net/
2 Úvo d Systém Manuscriptorium v roce 2010 zprostředkovává přístup k obrazovým datům, která jsou rozptýlena v síti různých datových úložišť spravovaných jednotlivými partnerskými institucemi (součástí této sítě je i vlastní úložiště Manuscriptoria). V tomto heterogenním prostředí se obrazová data vyznačují velmi rozdílnými vlastnostmi a setkat se v praxi můžeme nejen s obrazy, jejichž velikost (tj. rozlišení, komprese) je optimalizována pro použití v prostředí internetových služeb, ale i s obrazy, které tuto optimalizaci postrádají (v případě dokumentů, u kterých se setkáváme např. s neodůvodněně vysokým rozlišením), nebo kde obvyklými prostředky této optimalizace nelze dosáhnout (například u map, či jiných fyzicky rozměrných či velmi detailních dokumentů). Protože jedním ze základních cílů Manucriptoria je nabídnout uživatelům přístup k informacím v homogenním uživatelském prostředí bez nutnosti instalace speciálního SW (pluginů), jsou za obvyklé prostředky považovány soudobé internetové prohlížeče, které standardně podporují jen obvyklé obrazové formáty (JPEG, PNG, GIF). Toto technické omezení přináší v případě objemnějších obrazových dat poměrně vysokou míru uživatelského diskomfortu. V minulosti byla tato situace řešena konverzí vybraných obrazových dat do formátu MrSID a začleněním aplikace Express Server od firmy Lizardtech do prezentačního systému MNS (řešení umožňuje i poskytování výseků JPEG obrazů bez nutnosti využívat speciální pluginy na straně uživatele). V souvislosti s realizací evropského projektu ENRICH toto řešení přestalo být vyhovující, neboť jej lze využít prakticky jen pro obrazy umístěné centrálně, přímo v serverovém systému MNS. Po ukončení projektu ENRICH však naopak převažují data distribuovaná na externích úložištích, stejně tak poslední vývoj digitalizační praxe v České republice jasně ukazuje, že distribuované uložení obrazových dat je cestou, se kterou je nutno počítat.
3 Přípustná řešení S ohledem na rozvoj existujících řešení poskytování objemných obrazových dat, jež je patrný v posledních letech i běžným uživatelům (viz. Google Maps, mapy.cz, různé aplikace Zoomify atp.), jsme od počátku uvažovali pouze o výběru a implementaci již existující technologie. Při výběru byla klíčová následující hlediska (seřazeno přibližně dle významnosti):
8.12.2010
technická realizovatelnost v síti distribuovaných úložišť, možnost využívání bez nutnosti instalace dodatečného SW u koncového uživatele služby, -4-
(pluginů)
možnost implementace do prostředí MNS bez narušení homogenity uživatelského prostředí, dostupnost řešení (finanční i technická) pro partnerské instituce, pokud řešení bude vyžadovat implementační kroky na straně jejich úložišť, soulad s dosavadní praxi českých institucí při digitalizaci a zpřístupňování výsledků (zejména s ohledem na VISK 6), soulad s praxí zahraničních institucí, jak byla poznána během projektu ENRICH, soulad s technickým zázemím projektu Manuscriptorium.
Do užšího výběru byla zahrnuta následující tři řešení:
IIPImage [2], Zoomify [3] (jehož zajímavým využitím je např. OpenLayers [4]), AJAX-ZOOM [5].
Všechna tři řešení vychází z velmi podobného principu poskytování dat pomocí sad předzpracovaných dlaždic. Tyto dlaždice jsou generovány pro různé úrovně rozlišení obrazu (tj. „přiblížení“) a jsou k uživateli přenášeny postupně: vždy jen tolik dílčích dlaždic obrazu, které lze na obrazovce uživatele právě zobrazit. Tím je minimalizován objem přenášených dat a zobrazení daného výseku obrazu je prakticky okamžité i při posouvání obrazu. S ohledem na výše uvedené byl při rešerši dostupných řešení posuzován především způsob získávání a poskytování dlaždic, neboť se od počátku počítalo s implementací do homogenního prostředí Manuscriptoria a tedy do již existující zobrazovací aplikace. Omezením prvních dvou zmíněných řešení je především nutnost generovat dlaždice obrazu před jeho zveřejněním on-line, což mírně komplikuje přípravu obrazových dat k prezentaci. Na druhou stranu jde o řešení minimalizující nároky na zdroje serverového systému. Řešení AJAX-ZOOM naopak umožňuje generovat obrazové dlaždice přímo na webovém serveru, porovnáním uváděné náročnosti generování dlaždic v reálném čase a skutečného provozu systému MNS jsme došli k závěru, že toto řešení je bezpečně realizovatelné, pokud by pro generování dlaždic byl vyčleněn dedikovaný server s dostatečnou kapacitou pro mezipaměť (cache pro dočasné uchování již jednou vygenerovaných dlaždic). Toto řešení by navíc mohlo být využito pro generování a dočasné uchovávání obrazových kvalitativních hladin vhodných pro zobrazování náhledů a galerií při listování digitálním dokumentem. Tyto kvalitativní hladiny v partnerských datových úložištích často chybí (jsou dostupné pouze obrazy vyššího rozlišení), což v důsledku
8.12.2010
-5-
zbytečně zatěžuje uživatelské počítače (převzorkování totiž probíhá na straně klienta). Přesto, s ohledem na nutné výdaje na technickou realizaci (pořízení nového HW a rozšíření serverového systému MNS) a s ohledem na rozšíření dalších dvou vyjmenovaných řešení, jsme od realizace záměru s využitím AJAX-ZOOM ustoupili, avšak toto či podobné řešení považujeme do budoucna za vhodnou alternativu, která by mohla služby MNS dále zkvalitnit.
4 Vybrané řešení K implementaci bylo nakonec vybráno řešení Zoomify od fy. Zoomify Inc. V porovnání s IIPImage v jeho prospěch rozhodla především:
míra jeho rozšíření (i v prostředí českých knihoven, tento formát používá mj. Moravská zemská knihovna v Brně), snadnost implementace změn v úložištích (v centrálním úložišti i na straně partnerů), snadnost implementace do hotových aplikací MNS.
4.1 Implementace v úložišti Volně je ke stažení k dispozici jednoduchá aplikace Zoomify Image converter, jež ze zvolených souborů generuje potřebné dlaždice. Aplikace podporuje i dávkové zpracování více souborů. Jedinými vstupními parametry jsou jména obrazových souborů ve formátu JPEG, které mají být zpracovány. Vygenerování dlaždic z již existujících JPEG souborů je velmi snadné. Tato jednoduchost by mohla být považována za problematickou, neboť není možné při konverzi nastavovat žádné jiné parametry (rozměr dlaždice a tím ani počet obrazových hladin, kompresi atp.), nicméně jediné dostupné nastavení plně vyhovuje potřebám prohlížení obrazů online. Z hlediska Manuscriptoria je mnohem podstatnější fakt, že takový technologický postup si snadno osvojí kterýkoliv potenciální poskytovatel dat. Po zpracování jednotlivých obrazů pomocí Zoomify Image converter jsou jako výstup ve stejném umístění vygenerovány nové složky se stejným názvem, jako měl původní obraz, a tyto složky jsou naplněny dlaždicemi jednotlivých vrstev přiblížení.
8.12.2010
-6-
Obr 1: struktura vygenerovaná z jednoho vstupního obrazu JPEG Zároveň je vytvořen XML soubor s definicí vlastností obrazu a dlaždic. Tento soubor je klíčový pro další využití vygenerovaných výsledků, neboť ze základních údajů v něm uvedených lze odvodit všechny údaje potřebné pro zobrazování obrazových dat.
Obr 2: informace o struktuře dlaždic v souboru ImageProperties.xml Podobně jako u konvenčních dokumentů musí být kompletní připravená data (vygenerovaná struktura, včetně ImageProperties.xml) dostupná pro Manuscriptorium on-line (přes HTTP protokol, přímo či nepřímo prostřednictvím skriptu). Zároveň je nutné, aby ve strukturálních metadatech existoval pro každý jednotlivý obraz dokumentu odpovídající soubor ImageProperties.xml. Například metadata dokumentu přímo kompatibilního s MNS (formát TEI P5) by měla vypadat takto: <surface xml:id="ID0001"> <desc> <surface xml:id="ID0002"> <desc> … … … <surface xml:id="ID00N"> <desc>
8.12.2010
-7-
(Tj. atribut @xml:base obsahuje základní cestu k místu, odkud jsou data pro dokument poskytována a element graphic obsahuje v atributu @url zbytek cesty ke konkrétní definici vlastností obrazu.) Manuscriptorium pak zcela v souladu s dosavadními principy fungování připraví vazbu digitálního dokumentu k naplnění v prohlížeči uživatele, do kterého jsou pak data přenášena přímo.
4.2 Implementace v uživatelském rozhraní Technologie Zoomify byla implementována do uživatelského rozhraní Manuscriptoria tak, že k jejímu fungování není potřeba žádný plugin (pro Zoomify to bývá obvykle Flash) a zároveň z hlediska uživatele nedochází k žádné změně ovládání či chování systému. Jedinou novinkou při prohlížení dokumentu je postupné načítání jednotlivých dlaždic, které se však děje okamžitě po posunu obrazu a puštění tlačítka myši.
8.12.2010
-8-
Obr 3: Altmannovo panoráma Vltavy v Manuscriptoriu (dokument Královské kanonie premonstrátů na Strahově)
8.12.2010
-9-
5 Závěr Ke konci listopadu 2010 je v Manuscriptoriu zpřístupněno pomocí vybrané technologie prvních cca 30 ks historických map a to přímo z úložiště MNS. Další budou přibývat, předpokládáme např. brzké zařazení dokumentů zpřístupňovaných Moravskou zemskou knihovnou. V době předání této zprávy je v Manuscriptoriu k dispozici například Altmannovo panoráma Vltavy ze sbírek Královské kanonie premonstrátů na Strahově, či mapy ze sbírek Západočeského muzea v Plzni (signatury začínající „MP“, např. MP 66.2 Nejnovější a nejúplnější Plán král. města Plzně). Prvním dokumentem zpřístupněným ze vzdáleného úložiště je sig. „A 1“ ze sbírek Moravské zemské knihovny v Brně. Tento stav sám o sobě dokladuje úspěšnost řešení úkolu. Navíc dále předpokládáme, že zvolený způsob řešení přinese další užitek při agregaci zdrojů do Manuscriptoria, která se může rozšířit na nové druhy dokumentů (obrazy s vysokým rozlišením). Služby Express Server (jehož prostřednictvím byly mapy dostupné dosud) mohou být tedy koncem roku 2010 ukončeny spolu s posledními službami předchozí verze MNS. Předpokládanými dalšími kroky vývoje mohou být implementace podpory technologie Zoomify do aplikací M-Tool (vytváření a verifikace nových metadat partnery) a M-Can (předávání nových metadat do Manuscriptoria), pokud toto bude vyžadováno spolupracujícími partnery.