Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií Studijní program: Aplikovaná informatika Obor: Informační systémy a technologie
Diplomant: Pavel Hromádka Vedoucí diplomové práce: Ing. Jiří Hradec Recenzent: Ing. Stanislava Mildeová, CSc.
NÁRODNÍ METADATOVÝ KATALOG
školní rok 2005/2006
Národní metadatový katalog
Vysoká škola ekonomická Fakulta informatiky a statistiky
Katedra informačních technologií Školní rok 2005/2006
ZADÁNÍ DIPLOMOVÉ PRÁCE Jméno Obor:
: Pavel Hromádka : Informační systémy a technologie
Vedoucí katedry Vám ve smyslu nařízení vlády o státních závěrečných zkouškách a státních rigorózních zkouškách určuje tuto diplomovou práci: Téma Osnova: 1. 2. 3. 4. 5. 6. 7.
: Národní metadatový katalog Úvod, vymezení Metainformační systémy veřejné správy MIS MŽP (Metainformační systém Ministerstva životního prostředí ČR SMS (Statistický metainformační systém) MIDAS (Metainformační databázový systém) Národní metadatový katalog Závěr
-2-
Národní metadatový katalog Seznam literatury : 1. Normy řady ISO 19100 (např. ČSN ISO 19115) 2. DCMI Metadata Terms, Dublin Core Metadata Initiative, http://www.dublincore.org/ 3. Metodický pokyn pro popis elektronických informačních zdrojů veřejné správy, Ministerstvo informatiky ČR, http://www.micr.cz/files/1973/MICR-metodicky_pokyn_EIZVS_final.pdf
Vedoucí diplomové práce: Ing. Jiří Hradec Datum zadání diplomové práce: 28/02/2006
................................................... Vedoucí katedry
.................................................. Děkan V Praze, dne 28.2.2006
-3-
Národní metadatový katalog
Prohlášení Prohlašuji, že jsem diplomovou práci zpracoval(a) samostatně a že jsem uvedl(a) všechny použité prameny a literaturu, ze kterých jsem čerpal(a).
V Praze dne 1.5.2006 ………………………………. podpis
-4-
Národní metadatový katalog
Abstrakt Cílem této práce je navrhnout datovou strukturu Národního metadatového katalogu. Tato struktura musí umožňovat integraci výstupů ostatních metainformačních systémů veřejné správy a umožnit tak uživatelům vyhledávání požadovaných datových zdrojů na jednom místě. Tento návrh vychází z nejvýznamnějších metadatových standardů, zejména ze standardu ČSN ISO 19115 – Geografická informace – metadata. Značná pozornost je věnována také definování pojmu metadata a příkladům využití metadat v praxi. Součástí práce je také popis současné situace na poli metainformačních systémů veřejné správy a analýza současného stavu nejvýznamnějších představitelů těchto metasystémů (MIS MŽP, MIDAS, SMS). V závěru práce je naznačen budoucí vývoj Národního metadatového katalogu a v souladu s vytyčenými požadavky a cíli je navržena jeho datová struktura.
Abstract Purpose of this diploma thesis is to design a data structure of The National Metadata Catalogue. This concept must allow an integration of outputs from other public administration metainformation systems. If this purpose is met, users can search for required data sources at one place. This design is based on the most important metadata standards, especially on standard ČSN ISO 19115 – Geographical information – metadata. A considerable attention is dedicated to definition of the term „metadata“ and to the practical examples of the metadata use. An important part of the thesis is also the analysis of the actual situation of public administration metainformation systems. Most important systems (MIS MŽP, MIDAS and SMS) are described in detail. Conclusion of the thesis is dedicated to the designing of The National Metadata Catalogue data structure according to the forementioned objectives.
-5-
Národní metadatový katalog
Obsah 1.
Úvod ................................................................................................................................... 8 1.1 Vymezení obsahu a cíle diplomové práce.................................................................. 8 1.1.1 Vymezení obsahu práce ..................................................................................... 8 1.1.2 Cíl diplomové práce ........................................................................................... 8 1.2 Předpoklady a omezení .............................................................................................. 9 1.3 Určení materiálu......................................................................................................... 9 1.4 Zdroje informací......................................................................................................... 9 2. Metadata ........................................................................................................................... 11 2.1 Co jsou to vlastně metadata?.................................................................................... 11 2.2 Metadata v běžném životě........................................................................................ 12 2.2.1 Knihovní záznamy............................................................................................ 12 2.2.2 Hudební metadata............................................................................................. 13 2.2.3 Metadata na WWW.......................................................................................... 14 2.2.4 Fotografická metadata ...................................................................................... 16 2.3 Metadata v databázích.............................................................................................. 17 2.3.1 Metadata relačních databází ............................................................................. 17 2.3.2 Metadata datových skladů................................................................................ 17 2.3.3 Metadata souborových systémů ....................................................................... 20 2.4 Shrnutí ...................................................................................................................... 20 3. Metadatové standardy ...................................................................................................... 21 3.1 Dublin Core .............................................................................................................. 21 3.1.1 O standardu ...................................................................................................... 21 3.1.2 Prvky Dublin Core ........................................................................................... 23 3.1.3 Kvalifikovaný Dublin Core.............................................................................. 28 3.1.4 Česká lokalizace Dublin Core .......................................................................... 30 3.2 ISO 15836 ................................................................................................................ 31 3.3 ČSN ISO 19115........................................................................................................ 31 3.3.1 Obsah normy .................................................................................................... 32 3.4 ISVS ......................................................................................................................... 33 3.4.1 Metadata v XML dokumentech........................................................................ 35 3.5 Ostatní standardy...................................................................................................... 36 3.6 Shrnutí ...................................................................................................................... 37 4. Metainformační systémy veřejné správy.......................................................................... 38 4.1 Typologie metainformačních systémů ..................................................................... 38 4.1.1 Charakter obsahu.............................................................................................. 39 4.1.2 Zodpovědnost za obsah .................................................................................... 40 4.1.3 Použitý jazyk .................................................................................................... 40 4.1.4 Technologie prezentace a vstupu metadat........................................................ 41 4.1.5 Předmětná oblast .............................................................................................. 42 4.2 Současný stav ........................................................................................................... 43 4.3 Nedostatky použití metadat...................................................................................... 44 4.4 Shrnutí ...................................................................................................................... 47 5. MIS MŽP.......................................................................................................................... 48 5.1 Povinnost informovat ............................................................................................... 48 5.2 Historie MIS MŽP.................................................................................................... 49 5.2.1 Úkoly správce MIS MŽP ................................................................................. 49 5.2.2 Přestavba MIS MŽP ......................................................................................... 50 5.3 Vkládání dat do MIS MŽP ....................................................................................... 50 5.3.1 Uživatelské role................................................................................................ 50 -6-
Národní metadatový katalog 5.3.2 Spolupráce s editory ......................................................................................... 52 5.4 Současný stav ........................................................................................................... 52 5.5 Metadatová struktura................................................................................................ 53 5.6 INSPIRE................................................................................................................... 54 5.7 Shrnutí ...................................................................................................................... 56 6. MIDAS ............................................................................................................................. 57 6.1 Historie MIDAS ....................................................................................................... 57 6.2 Současný stav MIDAS ............................................................................................. 58 6.3 Struktura systému MIDAS ....................................................................................... 58 6.4 Metadata v MIDAS .................................................................................................. 60 6.4.1 Metadatové třídy .............................................................................................. 60 6.4.2 Správci metadat ................................................................................................ 61 6.5 Shrnutí ...................................................................................................................... 61 7. SMS.................................................................................................................................. 62 7.1 Historie SMS ............................................................................................................ 62 7.2 Struktura SMS .......................................................................................................... 63 7.2.1 Bloky statistických metadat ............................................................................. 63 7.2.2 Úloha SMS ....................................................................................................... 63 7.2.3 Vývoj SMS....................................................................................................... 64 7.2.4 Modul KLAS.................................................................................................... 65 7.2.5 Role .................................................................................................................. 65 7.3 Shrnutí ...................................................................................................................... 66 8. Národní metadatový katalog ............................................................................................ 67 8.1 Členění centrálních metainformačních systémů ...................................................... 67 8.1.1 Centrální metasystémy ..................................................................................... 67 8.1.2 Metadatové katalogy ........................................................................................ 68 8.1.3 Distribuované portály....................................................................................... 68 8.1.4 Volba formy NMK ........................................................................................... 69 8.2 Architektura metainformační infrastruktury ............................................................ 69 8.3 Zvolený standard ...................................................................................................... 71 8.4 Návrh struktury ........................................................................................................ 71 8.4.1 Východiska návrhu........................................................................................... 71 8.4.2 Struktura NMK................................................................................................. 72 8.5 Shrnutí ...................................................................................................................... 75 9. Závěr................................................................................................................................. 76 10. Přehled literatury a zdrojů ............................................................................................ 77 10.1 Seznam obrázků ....................................................................................................... 81 10.2 Seznam tabulek ........................................................................................................ 81 11. Terminologický slovník ............................................................................................... 82 11.1 Termíny přejaté z terminologického slovníku ČSSI ................................................ 82 11.2 Ostatní termíny......................................................................................................... 84 11.3 Seznam použitých zkratek........................................................................................ 85 12. Přílohy .......................................................................................................................... 87 12.1 Příloha 1 – Struktura MIS MŽP (dle ČSN ISO 19115) ........................................... 87 12.2 Příloha 2 – Analýza datových zdrojů pro naplňování směrnice INSPIRE .............. 91 12.3 Příloha 3 – Obsah jednotlivých bloků SMS ............................................................. 92
-7-
Národní metadatový katalog
1. Úvod 1.1 Vymezení obsahu a cíle diplomové práce 1.1.1 Vymezení obsahu práce Tato diplomová práce je zaměřena na metadatové informační systémy. Po obecném úvodu o metadatech, jejich využití v běžné praxi a jejich využití ve veřejné správě popisuji zástupce jednotlivých typů metadatových informačních systémů tak, jak jsou v současnosti v ČR používány. Část práce věnuji i seznámení s jednotlivými metadatovými standardy. V hlavní části práce navrhuji Národní metadatový katalog tak, aby mohl odpovídajícím způsobem obsáhnout metadata konkrétních metadatových systémů veřejné správy. V závěru zmíním přínosy a nedostatky jednotlivých variant realizace takto navrženého katalogu. Tuto diplomovou práci jsem si zvolil poté, co jsem se jako student specializace Informační technologie / Ekonomika životního prostředí blíže seznámil s Metainformačním systémem životního prostředí [MIS1].
1.1.2 Cíl diplomové práce Hlavním cílem této diplomové práce je navrhnout datovou strukturu zastřešujícího „Národního metadatového katalogu“ tak, aby v sobě mohl integrovat tzv. „core data“ ostatních metainformačních systémů veřejné správy. Vedlejším cílem této diplomové práce je pak shrnout čtenáři současnou situaci na poli metadatových informačních systémů používaných v jednotlivých oblastech veřejné správy a navrhnout další směry, kterými by se další rozvoj jednotlivých systémů mohl ubírat a to tak, aby byly odstraněny některé nedostatky současného stavu. Největším problémem v oblasti metainformačních systémů, které mají svým uživatelům poskytovat cenné informace, je paradoxně právě nedostatek informací. Značným problémem se tak může stát i jen zjištění, zdali metainformační systém daného typu v konkrétní organizaci vůbec existuje, o podrobnějších informacích pro širší veřejnost ani nemluvě. Snažil jsem se proto čtenáři zprostředkovat informace, které nejsou běžně dostupné a zároveň takto poskytnuté informace, údaje a data hodnotit, analyzovat a zasazovat do širšího kontextu.
-8-
Národní metadatový katalog
1.2 Předpoklady a omezení Základní nedostatek, se kterým je při čtení této diplomové práce nutno počítat je omezená časová platnost textu. Práce byla zpracovávána v období listopad 2005 – duben 2006 a je nutno poznamenat, že zde popisované metainformační systémy v tomto období procházely (a do budoucna jistě také budou) poměrně bouřlivým vývojem. První ze tří systémů MIS [MIS1] za sebou má kompletní restrukturalizaci, druhý SMS [SMS] jím v době odevzdání této práce prochází a přestavba posledního MIDASu [MIDAS] právě začíná. Při návrhu Národního metadatového katalogu jsem úmyslně z větší části zanedbal organizační stránku případné realizace a věnoval jsem se spíše technologickým aspektům takového projektu. V dalším textu budu používat pojmy metainformační systém, metadatový systém a metasystém v podstatě jako synonyma.
1.3 Určení materiálu Text této práce je určen širší veřejnosti, jakožto i odborníkům pracujícím s metadaty. Užitečný může být zejména pro ty, co se touží dozvědět něco bližšího o některém ze zde popisovaných metasystémů, případně pro ty, kteří se v praxi musí zabývat integrací metadatových systémů. Může též posloužit jako průvodce současným stavem na poli metainformačních systémů, ačkoliv tyto informace zřejmě brzy zastarají. Vzhledem k tomu, že se práce s metadaty zasahuje prakticky všechny oblasti informačních a komunikačních technologií, předpokládám u čtenáře alespoň obecný přehled o informačních technologiích a zájem o oblast metadat a metainformačních systémů. Komplexnější znalost problematiky není vyžadována.
1.4 Zdroje informací Pro oblast metainformačních systémů zdroje v českém jazyce prakticky neexistují. Výjimku tvoří několik málo zdrojů z konkrétních oblastí, ale i přesto je drtivá většina zdrojů v angličtině. Dalším problémem je nedostupnost zdrojů – ať už z důvodů cenových (zahraniční publikace renomovaných autorů se mohou značně prodražit) či z důvodů omezené dostupnosti. Mnoho textů k předmětným oblastem je dostupných pouze pro omezený okruh uživatelů. Částečně je to dáno tím, že je řada textů publikována v periodikách dostupných
-9-
Národní metadatový katalog pouze odborníkům a pracovníkům dané oblasti, částečně pak tím, že například dokumentace jednotlivých systémů může obsahovat citlivé vnitrofiremní (vnitroorganizační) informace. Nejdůležitějšími zdroji pro mě při zpracovávání této práce byla projektová dokumentace a koncepční materiály jednotlivých metainformačních systémů, jež mi laskavě poskytli Ing. Ebbo Petrikovits (Český statistický úřad), Dr. Ing. Bronislava Horáková + Ing. Jan Růžička (VŠB – Technická univerzita Ostrava) a zvláště pak Ing. Jarmila Cikánková (Česká informační agentura životního prostředí) za což jim tímto velice děkuji. Pro analýzu a návrh katalogu pak byly směrodatné technické normy s metadaty související - zejména mezinárodní metadatový standard Dublin Core [DCMI1], metodiky ISVS [ISVS], norma ČSN ISO 19115 [ČSN/ISO19115] a samozřejmě i odpovídající zahraniční literatura (dostupná převážně na webu). Nezbytné bylo též vedení této diplomové práce. Ing. Jiří Hradec (Česká informační agentura životního prostředí) vedl mou práci po odborné stránce a RNDr. Vladimír Tichý (Vysoká škola ekonomická) se staral o formální náležitosti práce. Oběma bych na tomto místě tedy velice rád poděkoval, neboť bez nich by tato práce nikdy nevznikla.
- 10 -
Národní metadatový katalog
2. Metadata „Metadata is an amazing topic in the data warehouse world. Considering that we don’t know exactly what it is or where it is, we spend more time talking about it, more time worrying about it than any other topic.” [Metadata jsou ve světě datových skladů úžasným tématem. Vezmeme-li v úvahu, že nevíme přesně co to je nebo kde to je, strávíme hovory o nich či strachováním se o ně mnohem více času, než nad jakýmkoli jiným tématem.] Ralph Kimball [KIM1] V této úvodní kapitole bych rád vysvětlil, co jsou to vlastně metadata, kde se s nimi můžeme běžně setkat (často aniž bychom si uvědomovali, že jde o metadata) a k čemu se dají využít.
2.1 Co jsou to vlastně metadata? Co jsou to vlastně metadata? Položíme-li tuto otázku laikovi, dostane se nám maximálně pokrčených ramen nebo udiveného pohledu. Nezřídka se bohužel setkávám s tím, že podobně reagují i informatici tzv. „z praxe“. Přitom je odpověď v podstatě velmi prostá. Metadata jsou, jednoduše řečeno, „data o datech.“ Předpona meta- (µετά) [WIKI1] pochází z řečtiny a její význam se dá přeložit jako „o,“ „mezi“ či „za“. Tato předpona označuje koncept, který vzniká abstrakcí jiného konceptu a zároveň původní koncept popisuje a analyzuje. Metadata jsou tedy podle této definice strukturovaná data popisující jiná data či datové zdroje, v rámci metaprogramování se vytváří programy, které manipulují s jinými programy (programy o programech), a metajazyk je jazyk popisující ostatní jazyky. To platí analogicky i pro další pojmy uvozené předponou meta. Mírně odlišnou definici metadat nabízí s ohledem na využití metadat na internetu otec internetu, Tim Berners-Lee [BERN1]: „Metadata jsou stroji srozumitelné informace o webových zdrojích nebo dalších věcech“. Klíčový je v této definici výraz „stroji srozumitelné“ (narozdíl od obvyklejšího „strojem čitelné“), který zdůrazňuje, že metadata by měla být zpracovatelná pomocí inteligentních programů, tzv. agentů.
- 11 -
Národní metadatový katalog Propojení mezi metadatovým záznamem a zdrojem/daty, které popisuje, může nabývat dvou základních podob. Metadatový záznam může být umístěn samostatně, tj. odděleně od předmětu který popisuje (příklad knihovního katalogu) Může být uložen se zdrojem (příklad metatagů v hlavičkách HTML souboru) K oběma variantám se vrátím v dalším textu. Rád bych zde ještě upozornil, že význam pojmu metadata je v této práci výrazně širší, než uvádí například terminologický slovník [ČSSI1] České Společnosti pro Systémovou Integraci (ČSSI) [ČSSI]. Definice z terminologického slovníku:“Metadata jsou informace o datech v produkčních databázích tj. názvy tabulek, názvy atributů, datové typy, primární klíče, vazby, komentáře, atd.“ totiž popisuje pouze jeden určitý typ metadat, zatímco v této práci bude tento pojem vnímán značně obecněji. Metadata relačních databází, kterých se týká definice z ČSSI podrobněji rozeberu v kapitolách 2.3.1 a 2.3.2. V rámci této práce budou také pojmy „metadata“ a „metainformace“ používány jako synonyma.
2.2 Metadata v běžném životě Jak jsou metadata definována již víme. Ale kde se s metadaty můžeme běžně setkat v praxi? Překvapivě častěji, než by se zdálo. S metadaty totiž často pracujeme, aniž bychom tušili, že se jedná o metadata.
2.2.1 Knihovní záznamy Nejjednodušším ilustrativním příkladem využití metadat jsou knihovní záznamy [WIKI3]. Běžný záznam o knize v knihovně zpravidla obsahuje autory, název, interní identifikační číslo v rámci knihovny, ISBN, umístění knihy, rok vydání, nakladatelství, klíčová slova, počet stran a celou řadu dalších údajů. Knihovní záznam tak představuje typická metadata, neboť se jedná o strukturovaná data o něčem (v tomto případě o knize), která slouží k vyhledávání, třídění, evidenci a zároveň popisují danou knihu. Bez knihovních záznamů (a tedy metadat) by informační hodnota knihovny byla paradoxně nepřímo úměrná velikosti knihovního fondu. Knihovna, jejíž obsah by nedokázal obsáhnout jediný knihovník by byla díky své rozsáhlosti bez metadat k ničemu. Protože je však možné s pomocí metadat každou knihu přesně popsat a zaevidovat, můžeme dnes vyhledávat a ověřovat dostupnost knih (a analogicky i ostatních médií) - 12 -
Národní metadatový katalog v knihovnách po celém světě. Jsou-li knihovní záznamy dobře strukturované, což v drtivé většině případů jsou, protože oblast knihovních záznamů má ve standardizaci dlouhou tradici, můžeme hledat a vybírat knihy pomocí různých kritérií. Knihovní záznamy samy o sobě stejně jako metadata nejsou ničím novým. S pomocí moderních informačních a komunikačních technologií (ICT) je ale lze využívat způsobem, který dříve nebyl možný. Pro další studium ohledně knihovních záznamů a metadat doporučuji v českém jazyce [BRAT], kde je mimo jiné podrobně vysvětleno pozadí terminologického sporu metadata/bibliografické záznamy. Zajímavým zdrojem v anglickém jazyce pak je [LISWIKI1].
2.2.2 Hudební metadata Každé oficiálně vydané hudební CD má své (víceméně) unikátní ID. Vložíte-li hudební CD do počítačové CD mechaniky, počítač CD identifikuje1 a v některé z licenčních databází získá název interpreta, název alba, pojmenování jednotlivých písniček, žánr a celou řadu dalších doplňkových informací. Tato technologie šetří čas uživatele, který by si jinak musel pracně údaje vyplňovat sám, leckdy může pomoci i s identifikací neznámého CD. Příkladem takových služeb může být např. CDDB [GRA] či FreeDB [FREEDB]. Existují i projekty, které stejně jako CDDB a FreeDB začínaly jako metadatové katalogy s hudebními CD, ale v současnosti poskytují větší rozsah služeb. MusicBrainz [MB] tak nabízí i informace o interpretech, jejich nahrávkách a vztazích mezi nahrávkami, zatímco All Music Guide [AMG] obsahuje například podobná díla, recenze nebo uživatelské hodnocení. Na stejném principu fungují i metadata u hudební souborů, například populárních MP3, které používají metadatové tagy ve formátu ID3 [ID3]. Jejich obsah se liší podle konkrétní verze ID3 standardu, ale je prakticky totožný s databázemi hudebních CD – název písně, interpret, název alba, rok vydání, komentář, práva ke skladbě, žánr + případné další doplňkové informace.
1
Pochopitelně máte-li připojení k Internetu, případně lokální kopii podobné databáze a je-li vydané CD v takové databázi evidované. - 13 -
Národní metadatový katalog
Obr. 1: Metadata ve formátu ID3 v programu WinAmp
2.2.3 Metadata na WWW Skutečně masové používání metadat přinesl až nástup Internetu. V éře Internetu došlo ke změně informačního paradigmatu, informací je nyní dostatek (až přebytek) [WIKI2] a uměním je v záplavě informací najít ty správné. Metadata to do značné míry mohou hledajícímu ulehčit. V prostředí WWW metadata dodávají datům přidanou hodnotu, protože zajišťují jejich konzistenci a umožňují lépe popsat, co stránka obsahuje. Metadata se na webové stránky umisťují pomocí metatagů [W3C1]. Metatagy jsou způsobem, jak vyhledávačům předat jak určité informace o webové stránce (jazyk, kódování, autor), tak o jejím obsahu. Lze tedy například vytvořit popis stránky, přiřadit stránce odpovídajících klíčová slova, definovat synonyma atd. W3C [W3C] definuje metatag následujícím způsobem:
lang, dir, for use with content -HTTP response header name -metainformation name -associated information -select form of content --
Obr. 2: Definice Metatagu (Zdroj: [W3C1])
Pokud bych tuto diplomovou práci umístil na WWW ve formátu HTML, hlavička s metadaty příslušného HTML souboru by mohla vypadat takto:
- 14 -
Národní metadatový katalog <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=windows-1250"/> <META NAME="author" CONTENT="Pavel Hromádka, [email protected]" /> <META NAME="description" CONTENT="Diplomová práce Národní metadatový katalog" /> <META NAME="keywords" CONTENT="Národní metadatový katalog, diplomová práce, metainformační systémy, metasystémy, metadata, SMS, MIDAS, MIS MŽP" /> <META NAME="robots" CONTENT="all, follow" /> <META NAME="editor" CONTENT="Microsoft Word 2000; jEdit 4.2 final"> Obr. 3: Vzorová hlavička webové stránky s metadaty
Rozbor jednotlivých položek, zejména pak např. ROBOTS či HTTP-EQUIV by překračoval rámec této práce, nicméně předpokládám, že způsob, jakým se do HTML souboru dá pomocí metatagů zapsat autor, klíčová slova či popis daného dokumentu by čtenáři měl být z tohoto obrázku více než zřejmý. Metadata zapsaná takto v HTML hlavičce jsou příkladem metadat uložených současně s popisovanými daty, viz. kapitola 2.1. Tento způsob uložení metadat nelze nahradit uložením externím, neboť vyhledávače načítání dat z externích metazáznamů nepodporují. Bohužel je však uložení s daty zdrojem mnoha potíží. Tyto záznamy jsou totiž obtížně zpracovatelné a uložitelné v metainformačních systémech. Buď by takové záznamy musely být ukládány i se zdrojovými daty, což je náročné na prostor i na definování struktury datového úložiště, nebo je možno extrahovat ze zdrojových dat metadatové prvky, což může být následně zdrojem nekonzistencí a navíc to odporuje samotné filosofii vnořených metadat. V některých případech může navíc objem metadat v HTML souboru značně převýšit objem užitkových dat, což škodí uživateli – takový soubor zbytečně zatěžuje přenosové kapacity uživatele a zároveň mu při běžném prohlížení/čtení souboru nepřináší žádné dodatečné informace – metadata v hlavičce HTML souboru jsou totiž pro uživatele neviditelná2. I využití vnořených metadat vyhledávači je poněkud diskutabilní, neboť metatagy jsou potenciálně snadno zneužitelné (lze například uvádět klíčová slova která nesouvisejí s obsahem stránky (sex, casino), zato zajistí velkou návštěvnost). Celá řada vyhledávačů tak metatagy zčásti nebo zcela ignoruje, čímž se bohužel naprosto ztrácí smysl jejich využití. Východiskem do budoucna by mohlo být hodnocení relevance metadat dle důvěryhodnosti zdroje, nicméně to vyžaduje předběžnou znalost zdroje a způsob, jakým hodnotit důvěryhodnost. To prozatím nebylo uspokojivě vyřešeno ani kategorizací internetu (lidskými silami je internet neobsáhnutelný), ani aplikací umělé inteligence (prozatím v plenkách) či matematickými metodami (jako je Page Rank fy. Google).
2
Uživatel se k těmto metadatům může dostat, pouze bude-li si prohlížet zdrojový kód stránky. - 15 -
Národní metadatový katalog Další možností, která se teprve začíná využívat, by mohlo být tzv. nálepkování obsahu [TAGS] webových stránek dle principů WEB 2.0 prováděné uživateli či uživatelskými komunitami určitých serverů. To je poměrně funkční idea, ale záběr takto popsaných dat či informací bude vždy nutně omezený.
2.2.4 Fotografická metadata Další oblastí, kde se lze běžně setkat s metadaty je digitální fotografie. S digitální fotografií jsou spojeny dva základní standardy, které umožňují využití metadat: Exchangeable image file format – EXIF [EXIF] a TIFF [TIFF]. EXIF je formát používaný digitálními kamerami a fotoaparáty. Pro uložení grafických dat využívá standardní grafické formáty jako JPG nebo TIFF a doplňuje je velkým množstvím metatagů, které obsahují převážně technické podrobnosti o nastavení fotoaparátu během vytvoření dané fotografie. Stejně jako EXIF i TIFF umožňuje používání metatagů a je využíván v počítačové grafice či při scanování dokumentů. S pomocí metatagů lze popsat co je na fotografii zobrazeno a umožnit tak například jiným uživatelům serverů zaměřených na publikování fotografií, aby podle takto vyplněných údajů fotografie vyhledávali a prohlíželi. Funkční implementací nálepkování (viz. závěr kap. 2.2.3) a využití fotografických metadat je webová služba/komunitní portál na sdílení digitálních fotografií FLICKR [FLICKR]. Následující obrázek zobrazuje částečný výpis vzorových metadat sledovaných u EXIF formátu. Lze z něj vyčíst uživatelský popis fotografie, typ aparátu, kterým byla fotografie vyrobena, čas pořízení snímku a další technické informace o nastavení fotoaparátu. File: - E:\FOTO\vzorove_foto.jpg ImageDescription – Popis vzorové fotografie Make - NIKON Model - E2500 Software - E2500v1.1 DateTime - 2005:11:07 13:05:54 YCbCrPositioning - Centered ExifOffset - 284 ExposureTime - 1/823 seconds FNumber - 4.50 ExposureProgram - Normal program ISOSpeedRatings - 100 ExifVersion – 0220 Obr. 4: Metadata v EXIF formátu
- 16 -
Národní metadatový katalog
2.3 Metadata v databázích V kapitole 2.2 jsem uváděl příklady metadat, se kterými se může setkat běžný uživatel domácího počítače. V této kapitole bych rád popsal metadata, která se vyskytují v různých databázích v běžné podnikové praxi.
2.3.1 Metadata relačních databází Metadata v relačních databázích mohou obsahovat [WIKI2] [MySQL1]: Tabulku všech tabulek v databázi s jejich jmény, velikostmi, počty záznamů. Tabulku všech sloupců a jejich typů. Tabulku se seznamem uživatelských práv Tabulku statistik Tabulku s triggery V závislosti na konkrétním relačně-databázovém systému další tabulky V databázové terminologii se tyto metadata nazývají „katalog“ a jazyk SQL specifikuje jednotný přístup k takovým metadatům nazývaný INFORMATION_SCHEMA (informační schéma). Každý relačně-databázový systém ho implementuje svým vlastním způsobem (některé dokonce vůbec ne), ale například v MySQL [MySQL1] jde vpodstatě o mírně modifikovanou systémovou databázi obsahující veškerá metadata. Bez těchto dat by systémy řízení datové báze (SŘBD) vůbec nemohly fungovat a práce s metadaty je tak nedílnou součástí každého databázového systému. Mimo tohoto druhu metadat relačních databázích, který popisuje spíše technologickou realizaci databáze a jejích tabulek můžeme samozřejmě mít také metadata, která budou popisovat typy a obsah jednotlivých sloupců či řádků. Podrobněji rozeberu databázová metadata v následující kapitole.
2.3.2 Metadata datových skladů Datové sklady používají metadata dvojího typu: Back Room metadata – metadata popisující procesy a používané pro podporu ETL funkcí při OLTP nahrávání dat z relačních databází do datových skladů. Front Room metadata – metadata používaná pro popis výstupů a generování různých reportů.
- 17 -
Národní metadatový katalog S trochou nadsázky lze Back Room a Front Room definovat takto [KIM3]: “Back room is where the DBAs hang out, and the front room is where the MBAs hang out.”. Neboli: “V back room pracují databázoví specialisté, ve front room MBA3.“ Mnohem podrobnější pohled na metadata ve světě databází nabízí R. Kimball (jak již napověděl úvodní citát v kap. 2) ve svém článku nazvaném poněkud ironicky „Meta Meta Data Data.“ [KIM2]. Chceme-li se v pozici datového manažera dobrat toho, co bychom vlastně s metadaty měli dělat, můžeme aplikací klasického IT manažerského přístupu udělat následující: Vytvořit seznam všech metadat s poznámkami Rozhodnout jak důležitá která část je Převzít za ně zodpovědnost nebo zodpovědnost delegovat Zjistit z čeho se skládá konsistentní množina dat s kterou lze pracovat Rozhodnout zda si nástroje na správu metadat vyrobit nebo koupit Někde je ukládat jako zálohu pro obnovy Zpřístupnit je lidem, kteří je potřebují Zajistit jejich kvalitu, kompletnost a aktuálnost Řídit je z jednoho místa Toto všechno zdokumentovat tak, aby bylo možno tuto práci rychle někomu předat. Poslední bod již představuje data o metadatech a tedy meta meta data data. Kimball se také pokusil vytvořit co nejkompletnější seznam všech druhů metadat týkajících se datových skladů. Tento vyčerpávající seznam rozhodně doporučuji ke shlédnutí [KIM2]. Základními druhy metadat jsou tedy podle Kimballa: Metadata zdrojových systémů - specifikace zdrojů, popisy zdrojů, informace o zpracování Metadata Data stage - informace o získaných datech, správa dimenzionálních tabulek, transformace a agregace, audity, logy a dokumentace Metadata SŘBD Metadata Front Room
3
MBA – Master of Business Administration: titul pro absolventy obchodních/ekonomických/manažerských vysokých škol. Ve front room tedy obvykle pracují manažeři a ekonomové. - 18 -
Národní metadatový katalog
Obr. 5: Role metadat v datových skladech (Zdroj: [KIM1], str. 444)
Obr. 5 zobrazuje metadatové a datové toky v rámci tvorby a provozu datového skladu. Význam metadat pro provoz datového skladu nejsnáze zdůrazní skutečnost, že pouze 3 z 12ti činností uvedených na diagramu zahrnují práci s daty jako takovými. Všechny ostatní činnosti pracují s metadaty. Metadata v datových skladech jsou tedy prakticky úplně všechno, až na data samotná. To nás přivedlo k jednomu ze základních problémů práce s metadaty – náročnost. Tvorba, správa a využití metadat je technicky vzato náročnější, než práce se samotnými daty. Vzhledem k obchodním prioritám firem a obeznámenosti s problematikou
- 19 -
Národní metadatový katalog metadat mezi jednotlivými IT pracovníky je pak jen logické, že je tato oblast buď zcela opomíjena, nebo jí není věnována patřičná pozornost. Metadata v metadatovém skladu jsou uložena v metadatovém katalogu. Stejně jako R. Kimball se v názvu této práce přikláním k volbě termínu „katalog“, ačkoliv existuje celá řada synonym. Pro úplnost lze uvést také varianty: informační knihovna, úložiště či metadatabáze.
2.3.3 Metadata souborových systémů Souborový systém sice není přímo databáze, ale stejně jako databáze představuje mechanismus pro uchovávání a správu dat. Z tohoto důvodu jsem se rozhodl souborové systémy také zařadit do této kapitoly. Souborové systémy si o souborech udržují metadatové záznamy. Některé si je udržují v adresářích, jiné v inode či jménech souborů. O souborech můžou být mimo jiné vedena následující metadata: čas vytvoření, čas poslední změny, přístupová práva, ikonky, komentáře, různé atributy a další hodnoty vyžadované konkrétním souborovým systémem.
2.4 Shrnutí Metadata jsou strukturovaná data o jiných datech. Ačkoliv si toho obvykle nejsme vědomi, jsou nedílnou součástí téměř jakékoliv oblasti ICT. S metadaty se můžeme běžně setkat pokud chceme na počítači poslouchat hudbu, prohlížet si fotografie či vyhledávat na internetu. Jsou též nepostradatelným nástrojem při práci s databázemi či při práci s datovými sklady, kde jsou nepostradatelná doslova v každé transakci. Metadata mohou být uloženy v metadatových katalozích odděleně od dat, která popisují nebo mohou být uloženy přímo v rámci těchto dat.
- 20 -
Národní metadatový katalog
3. Metadatové standardy Stejně jako všechny ostatní oblasti ICT je i oblast metadat nerozlučně spjata s některými standardy. Metadatové systémy (metasystémy) popisují jiná data, databáze a informační systémy. Protože mezi základní vlastnosti metadat patří to, že jsou strukturovaná, je otázka volby vhodné struktury životně důležitá pro použitelnost daného metasystému. U metasystémů veřejné správy (a zejména Národního metadatového katalogu, o který se zde jedná) jednoznačně platí, že čím univerzálnější (a čím více metadat z jiných systémů dokáže zpracovat) daný systém je, tím lépe. Aby bylo možno v katalogu obsáhnout co nejvíce metadat z ostatních metasystémů, je nutno, aby jak tyto metasystémy tak Národní metadatový katalog vycházely z určitých, vzájemně kompatibilních standardů. V této kapitole popíši standardy, které se vztahují k tématu této práce a ze kterých budu vycházet při návrhu Národního metadatového katalogu. Podrobně se budu věnovat zejména standardu Dublin Core, neboť je nejuniverzálnější a lze na něm nejlépe ilustrovat způsob, jakým jsou metadatové standardy tvořeny. Zásadní je rovněž metadatový standard ČSN ISO 19115 a zmíněn bude též český standard pro Informační Systémy Veřejné Správy (ISVS) [ISVS] a některé další.
3.1 Dublin Core 3.1.1 O standardu Dublin Core Metadata Initiative (dále DCMI) [DCMI1] je iniciativa, která se věnuje tvorbě mezinárodního univerzálního metadatového standardu Dublin Core (Dublin Metadata Core Element Set, dále zkratka DC) [DCMI2]. Cílem DCMI je poskytnout jednoduché standardy pro snadné vyhledávání, sdílení a správu informací a to pomocí: Vývoje a tvorby mezinárodních standardů pro popis datových zdrojů Podpory celosvětové komunity uživatelů a vývojářů Propagace řešení metasystémů na bázi DC standardu. DCMI pro metainformační systémy znamená zhruba totéž, co W3C [W3C] pro svět WWW. DCMI může být (podobně jako W3C) charakterizována pomocí těchto pojmů: Nezávislá (DCMI není spojena s žádnou komerční organizací a její řešení tedy nevyžadují určitá specifická technická řešení) - 21 -
Národní metadatový katalog Mezinárodní (DCMI podporuje zapojení organizací z celého světa, řešení podporují různé lingvistické a kulturní rozdíly) Ovlivnitelná (DCMI je otevřenou organizací zaměřenou na dosahování konsensu mezi účastníky projektu, nikdo není z řešení apriori vyloučen) DC byl navržen [BART] jako minimální universální popis informačního zdroje. Je koncipován tak jednoduše, aby ho mohli používat i neškolení uživatelé. Zároveň díky své jednoduchosti představuje základnu pro sémantickou interoperabilitu mezi jinými formáty. Původně byl zaměřen na popis objektů dokumentového typu, ale dnes ho lze používat pro popis mnohem širšího spektra zdrojů. Závisí samozřejmě na tom, jak dalece lze zvolený zdroj popsat podle typické struktury dokumentů. Seznam implementací (projektů) DC pro různé typy objektů je dostupný na [DCMI3]. K pochopení toho, jaký vztah mezi sebou v DC mají metadata a jimi popisované zdroje je nutné zmínit zde ještě tři principy [DCMI4] používané v DC. 1. Princip 1-1 (jedna-jedna, one-to-one). Metadata v DC popisují konkrétní reprezentaci nebo verzi zdroje. Úvaha, že konkrétní ztělesnění zdroje je zástupcem pro zdroj jako takový, je chybná. Jako vysvětlující příklad lze uvést digitální fotografii ve formátu JPG známého obrazu Mona Lisa. Zdroj popsaný metadaty
by
měla
být
přímo
tato
fotografie,
ne
obraz
samotný.
Producentem/tvůrcem dat by tedy měl být fotograf, ne Leonardo da Vinci. Vztah mezi metadaty pro originální malbu a fotografii lze popsat jinými mechanismy (viz. 3.1.2), které DC poskytuje a proto by nemělo dojít k zaměňování jednotlivých reprezentací daného objektu. 2. Princip Dumb-down (lze volně přeložit jako princip ohlupování, zhloupnutí, omezování. V dalším textu budu preferovat anglickou variantu). Kvalifikování vlastností jednotlivých DC prvků (bude podrobně rozebráno v kap. 3.1.2) se musí řídit principem dumb-down. Podle tohoto pravidla se může uživatel metadatových záznamů kdykoliv rozhodnout, že bude libovolné kvalifikátory ignorovat. Původní hodnoty ke kterým se kvalifikátory vztahovaly sice mohou ztratit něco na své specifičnosti, ale i tak musí zůstat správné, přesné a užitečné. Kvalifikátory jsou tedy určeny ke zjemňování a upřesňování a ne k rozšiřování sémantického významu vlastností.
- 22 -
Národní metadatový katalog 3. Princip odpovídajících hodnot (vhodných hodnot, appropriate values). Tzv. Best practices (osvědčené přístupy a metody) se u prvků a kvalifikátorů mohou lišit dle kontextu, ale implementátor nemůže předpokládat, že metadata budou pokaždé strojově interpretována. To může klást jistá omezení na konstrukci metadat, ale vždy je třeba mít na paměti, že metadata mají v první řadě přinášet nové informace a rozšiřovat poznání o zdroji. Více o historii DCMI a standardu DC se lze v českém jazyce dočíst například na [DCC1].
3.1.2 Prvky Dublin Core Standard Dublin Core má dvě úrovně, jednoduchou a kvalifikovanou (qualified). Jednoduchý DC obsahuje 15 prvků (elements). Kvalifikovaný DC má o tři prvky více a obsahuje dále celou řadu tzv. kvalifikátorů (qualifiers), které upřesňují význam některých prvků tak, aby v konkrétním kontextu byly jejich hodnoty lépe použitelné. Na tyto kvalifikátory se vztahují pravidla dumb-down a odpovídajících hodnot, jak jsem zmiňoval v kap. 3.1.1. Aktuální specifikaci standardu DC lze nalézt na [DCMI2]. Nyní popíši standard DC verze 1.1 v podobě platné od 13. 6. 2005. Každý termín zmíněný v dalším textu je popsán minimální sadou 7 atributů (vlastností). Tam, kde je to vhodné, mohou být použity některé z dalších 7 nepovinných atributů. Seznam atributů je uveden v následující tabulce. POVINNÉ ATRIBUTY Atribut
Čs. překlad
Popis atributu
Name
Jméno
Jednoznačné označení termínu
URI
URI
URI jednoznačně identifikující termín
Label
Návěští
Název termínu v podobě čitelné lidským čtenářem
Definition
Definice
Popis konceptu a podstaty termínu
Type of Term
Typ termínu
Typ termínu (např. prvek/schéma)
Status
Stav
Stav termínu (dle příslušného orgánu DCMI)
Date Issued
Datum vydání
Datum prvního vydání termínu
Tab. 1: Povinné atributy prvků DC
- 23 -
Národní metadatový katalog
NEPOVINNÉ ATRIBUTY Atribut
Čs. překlad
Popis atributu
Comment
Komentář
Doplňující informace o termínu či způsobech jeho využití
See
Ke shlédnutí
Odkaz na směrodatnou dokumentaci
References
Reference
Citace nebo URL zdroje zmíněného v definici či komentáři
Refines
Zpřesňuje
Odkaz na upřesňovaný termín
Qualifies
Kvalifikuje
Odkaz na kvalifikovaný termín
Broader Than
Širší než
Odkaz z obecnějšího termínu na termín specifičtější
Narrower Than
Užší než
Odkaz ze specifičtějšího termínu na obecnější termín Tab. 2: Nepovinné atributy prvků DC
Přepisovat zde kompletní specifikaci všech prvků DC metadatového záznamu by představovalo pouze plýtvání místem a jako takové nemělo žádný smysl. Zvídavý čtenář si z poskytnutých URI jistě sám v případě dalšího zájmu aktuální informace dohledá. Proto zde uvedu jen ukázkovou kompletní definici prvku contributor (přispěvatel) a další základní prvky uvedu jen s nejdůležitějšími údaji. Kvalifikátory a zpřesňující elementy pak uvádím již jen ve stručnosti. Term Name: contributor URI:
http://purl.org/dc/elements/1.1/contributor
Label:
Contributor
Definition:
An entity responsible for making contributions to the content of the resource.
Comment:
Examples of a Contributor include a person, an organisation, or a service. Typically, the name of a Contributor should be used to indicate the entity.
Národní metadatový katalog Jak jsem již zmiňoval, jednoduchý standard DC obsahuje 15 prvků. Tam, kde to bylo možné, využívám terminologii danou Iniciativou Dublin Core Czech [DCC2] (více v kap. 3.1.4). Základní prvky jsou (abecedně): contributor / Contributor / Přispěvatel4 URI:
http://purl.org/dc/elements/1.1/contributor
Definice:
Entita zodpovědná za přispívání k obsahu zdroje.
Komentář: Přispěvatel obvykle bývá osoba, organizace nebo služba. Jméno přispěvatele by mělo identifikovat konkrétní entitu. coverage / Coverage / Pokrytí URI:
http://purl.org/dc/elements/1.1/coverage
Definice:
Rozsah nebo působnost zdroje.
Komentář: Pokrytí bude typicky obsahovat prostorové umístění (jméno místa nebo zeměpisné souřadnice), časové období (označení období, datum nebo časový interval) nebo jurisdikci (např. jméno administrativní jednotky). Doporučuje se vybírat hodnotu z řízeného slovníku (např. Thesaurus of Geographic Names [TGN]) a tam, kde je to vhodné, uvádět místa nebo časové úseky spíše jménem než číselnými identifikátory jako jsou soubory souřadnic nebo časové intervaly. creator / Creator / Tvůrce URI:
http://purl.org/dc/elements/1.1/creator
Definice:
Entita primárně zodpovědná za vytvoření obsahu zdroje.
Komentář: Příklady Tvůrce zahrnují osobu, organizaci nebo službu. K označení entity se typicky používá jméno tvůrce.
4
Záhlaví tabulky každého prvku uvádím ve formátu: název prvku / návěští prvku / český název (příp. české návěští, pokud se liší od názvu) - 25 -
Národní metadatový katalog
date / Date / Datum URI:
http://purl.org/dc/elements/1.1/date
Definice:
Datum spojené s určitou událostí během existence zdroje.
Komentář: Datum bude typicky spojeno s vytvořením nebo zpřístupněním zdroje. Doporučený postup pro kódování hodnoty data je definován v ISO 8601 [W3CDTF]: formát RRRR-MM-DD. description / Description / Popis URI:
http://purl.org/dc/elements/1.1/description
Definice:
Vysvětlení obsahu zdroje
Komentář: Popis může obsahovat (mimo jiné): abstrakt, obsah, odkaz na grafické nebo volné textové vyjádření obsahu. format / Format / Formát URI:
http://purl.org/dc/elements/1.1/format
Definice:
Fyzická nebo digitální reprezentace zdroje.
Komentář: Typicky může Formát obsahovat typ média nebo rozměry zdroje. Formát lze používat k určení softwaru, hardwaru nebo dalšího zařízení potřebného k zobrazení nebo k manipulaci se zdrojem. Příklady rozměrů zahrnují velikost a dobu trvání. Doporučuje se vybírat hodnotu z řízeného slovníku (např. seznam typů internetových médií [MIME] definující formáty počítačových médií). identifier / Resource Identifier / Identifikátor (Identifikátor zdroje) URI:
http://purl.org/dc/elements/1.1/identifier
Definice:
Jednoznačný odkaz na zdroj v rámci daného kontextu.
Komentář: Doporučuje se identifikovat zdroj znakovým řetězcem nebo číslem odpovídajícím některému
z formálních
identifikačních
systémů.
Příklady
formálních
identifikačních systémů zahrnují Uniform Resource Identifier (URI) (včetně Uniform Resource Locator (URL)), Digital Object Identifier (DOI) a Mezinárodní standardní číslo knihy (ISBN).
- 26 -
Národní metadatový katalog language / Language / Jazyk URI:
http://purl.org/dc/elements/1.1/language
Definice:
Jazyk intelektuálního obsahu zdroje.
Komentář: Doporučený postup pro hodnoty prvku Jazyk je definován v RFC 1766 [RFC1766]: dvouznakový kód jazyka (převzatý z normy ISO 639 [ISO639]) volitelně následovaný dvouznakovým kódem země (převzatým z normy ISO 3166 [ISO3166]). Například 'en' pro angličtinu, 'fr' pro francouzštinu, 'cs' pro češtinu, nebo 'en-uk' pro angličtinu užívanou ve Spojeném království. publisher / Publisher / Vydavatel URI:
http://purl.org/dc/elements/1.1/publisher
Definice:
Entita odpovědná za zpřístupnění zdroje.
Komentář: Příklady Vydavatele zahrnují osobu, organizaci nebo službu. K označení entity se typicky používá jméno vydavatele. relation / Relation / Vztah URI:
http://purl.org/dc/elements/1.1/relation
Definice:
Odkaz na příbuzný zdroj.
Komentář: Doporučuje se odkazovat zdroj znakovým řetězcem nebo číslem odpovídajícím některému z formálních identifikačních systémů. rights / Rights Management / Práva (Správa autorských práv) URI:
http://purl.org/dc/elements/1.1/contributor
Definice:
Informace o právech vztahujících se k popisovanému zdroji.
Komentář: Prvek Práva bude typicky obsahovat ustanovení o správě autorských/vlastnických práv ke zdroji nebo odkaz na službu poskytující takovéto informace. Informace o právech často zahrnují práva duševního vlastnictví (IPR), autorské právo a různá vlastnická práva. Jestliže prvek Práva chybí, nelze odvozovat žádné předpoklady o stavu těchto a jiných práv vztahujících se k popisovanému zdroji.
- 27 -
Národní metadatový katalog
source / Source / Zdroj URI:
http://purl.org/dc/elements/1.1/source
Definice:
Odkaz na zdroj, z něhož je popisovaný zdroj odvozen.
Komentář: Popisovaný zdroj může být zcela nebo zčásti odvozen ze zdroje uvedeného v prvku Zdroj. Doporučuje se odkazovat zdroj znakovým řetězcem nebo číslem odpovídajícím některému z formálních identifikačních systémů. subject / Subject and Keywords / Předmět (Předmět a klíčová slova) URI:
http://purl.org/dc/elements/1.1/subject
Definice:
Téma obsahu zdroje.
Komentář: Předmět bude typicky vyjádřen pomocí klíčových slov, klíčových frází nebo klasifikačních znaků popisujících téma zdroje. Doporučuje se vybírat hodnotu prvku z řízeného slovníku nebo formálního klasifikačního schématu. title / Title / Název URI:
http://purl.org/dc/elements/1.1/title
Definice:
Jméno dané zdroji.
Komentář: Název bude typicky jméno, pod nímž je zdroj oficiálně znám. type / Resource Type / Typ (Typ zdroje) URI:
http://purl.org/dc/elements/1.1/type
Definice:
Povaha nebo druh obsahu zdroje.
Komentář: Typ obsahuje termíny popisující obecné kategorie, funkce, druhy nebo agregační úrovně obsahu. Doporučuje se vybírat hodnotu z řízeného slovníku (např. pracovní návrh seznamu Typů Dublin Core [DCT1]). K popisu fyzické nebo digitální reprezentace zdroje užijte prvek Formát.
3.1.3 Kvalifikovaný Dublin Core Výhodou jednoduchého DC je jednoznačně jeho jednoduchost a univerzálnost použití. Někdy je však vhodné mít metadata popsána přesněji a konkrétněji. V takovém případě lze používat tzv. „kvalifikovaný“ DC, který má oproti jednoduchému DC definovány navíc některé další - 28 -
Národní metadatový katalog prvky a navíc mohou metadata obsahovat celou řadu dalších zpřesňujících kvalifikátorů [DCC3]. Pro specifické oblasti a aplikace je v případě potřeby možno vytvářet další vlastní kvalifikátory, ale při jejich návrhu je z hlediska zpětné kompatibility s obecným standardem nutno dodržovat pravidla zmíněná v kap. 3.1.1, zejména pak pravidlo dumb-down, aby bylo kdykoliv možno takto „zjemněná“ data použít i v obecných systémech. Kvalifikátory mohou být rozděleny na dvě základní skupiny: Kvalifikátor prvku: Zjemňují a upřesňují význam prvku. Přebírají význam od nekvalifikovaného prvku a upřesňují (omezují) ho. Podle pravidla dumb-down může uživatel metadat tento kvalifikátor kdykoliv ignorovat. Hodnota metadat pak musí dávat smysl i bez kvalifikátoru. Definici zjemňujících termínů je nutno vystavit veřejně. Kvalifikátor hodnoty: Tyto kvalifikátory určují schémata, která napomáhají interpretaci hodnoty prvku. Obvykle se jedná o využití řízených slovníků či norem pro formální notace. Popisy schémat pro kódování a řízené slovníky by rovněž měly být veřejně přístupné. Schválené (a tedy běžně používané) kvalifikátory prvků jsou Audience, Accrual Method, Accrual Policy, Instructional Method, Provenance a Rights Holder. V následující tabulce, která volně vychází z mírně zastaralé [DCC3] uvádím seznam běžně používaných kvalifikátorů (pro názornost používám anglická návěští). Tento výčet kvalifikátorů rozhodně nemá být vyčerpávající, naznačuje spíše způsob, jakým jsou kvalifikátory konstruovány. Návěští prvku
Návěští kvalifikátoru prvku
Audience
Audience Education Level, Mediator
Coverage
Spatial, Temporal
Date
Available, Created, Date Accepted, Date Copyrighted, Date Submitted, Issued, Modified, Valid
Description
Abstract, Table Of Contents,
Format
Medium,
Identifier
Bibliographic Citation
Title
Alternative
Rights Management
Access Rights, License,
- 29 -
Národní metadatový katalog Návěští prvku
Návěští kvalifikátoru prvku
Relation
Conforms To, Has Format, Has Part, Has Version, Is Format Of, Is Part Of, Is Referenced By, Is Replaced By, Is Required By, Is Version Of, References, Replaces, Requires, Tab. 4: Kvalifikátory prvků (Zdroj: [DCC3 + DCMI2])
Kvalifikátory hodnot mají nejčastěji podobu řízených slovníků nebo různých schémat. Vysvětlivky a příklady k jednotlivým řízeným slovníkům a schématům lze v angličtině najít na [DCMI5]. Některé české ekvivalenty pak [DCC3]. Návěští prvku
Návěští kvalifikátoru hodnoty
Coverage – Spatial
DCMI Box ISO 3116 Point The Getty Thesaurus of Geographic Names (TGN) [TGN] Period W3CDTF Internet Media Type of the Resource (IMT) URI ISO 639-2 [ISO639] RFC 1766 [RFC1766] RFC 3066 Dewey Decimal Classification (DDC) Library of Congress Clasification (LCC) Library of Congress Subject Headings (LCSH) Medical Subject Headings (MeSH) National Library of Medicine Classification (NLM) Universal Decimal Classification (UDC) DCMI Type Vocabulary
Date + Temporal Format Identifier + Source + Relation Language
Subject
Type
Tab. 5: Kvalifikátory hodnoty (Zdroj: [DCC3])
3.1.4 Česká lokalizace Dublin Core DCMI komunita se mimo jiných aktivit snaží i o překlad DC do dalších jazyků [DCMI6]. Celkem existuje asi 25 jazykových mutacích v různých fázích kompletace. V předchozích kapitolách jsem se několikrát odkazoval na český překlad standardu DC - Dublin Core Czech (dále DCC) [DCC]. Tuto verzi (resp. tento překlad) vytvořil v roce 2000 Ústav výpočetní techniky Masarykovy Univerzity v Brně. Bohužel tento projekt nebyl - 30 -
Národní metadatový katalog od roku 2000 aktualizován, takže je jeho aktuální využitelnost diskutabilní. Rozhodně však představuje cenný zdroj pro korektní převody termínů z DC do českého jazyka tak, aby nedocházelo k nejednoznačnosti termínů a zmatení významů. DCC je přeložená jednoduchá DC verze 1.1. Termíny z jednoduchého DC v této diplomové práci jsou tedy plně v souladu s DCC. Současná verze kvalifikovaného DC už se od české verze překladů liší a proto jsem v kvalifikovaném DC ponechával spíše anglické názvy termínů, aby nedocházelo ke zmatení pojmů neodborným/nepřesným překladem. Nedostatkem českého překladu je také struktura v jaké je překlad publikován. Tato struktura se od originálních materiálů DCMI liší natolik, že i obyčejné dohledání českého ekvivalentu k anglickému termínu může představovat značný problém. Zjistit, v kterých bodech se zastaralé DCC a aktuální DC liší znamenalo strávit značný čas mravenčí prací a porovnáváním.
3.2 ISO 15836 Norma ISO 15836 [ISO15836] byla připravena technickým výborem ISO/TC 46 Informací a dokumentace, podvýborem SC4, technické spolupráce. Název normy je „Information and documentation — The Dublin Core metadata element set.“ Tato norma integruje jednoduchý patnáctiprvkový standard DC 1.1 do soustavy norem ISO. To není nic neobvyklého, neboť účelem standardu DC není nahrazovat ostatní standardy, ale spíše koexistovat s nimi. Dublin Core byl přijat také CEN/ISSS (Evropskou komisí pro standardizaci), W3C [W3C], standardem Z39.50 a je rovněž schválenou normou ANSI/NISO Z39.85. Základních 15 prvků obsažených v normě ISO 15836 tedy je: Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage.
3.3 ČSN ISO 19115 Digitální geografická data a jejich zpracování představují značně specifickou aplikační oblast. Tyto data jsou pokusem o modelování a popis reálného světa a umožňují počítačovou analýzu a grafické zobrazení prostorových informací. Představují pouhý model reality a jako takové nejsou její přesnou kopií. Digitální geografická data mohou z různých důvodů být nepřesná, duplicitní, zjednodušená, nekompletní či nesprávná. Pro jejich co nejlepší využití je však třeba, aby uživatel těchto dat byl o takových nedostatcích co nejpřesněji informován. Ve většině případů totiž producent geografických dat není jejich uživatelem. Někdo - 31 -
Národní metadatový katalog (organizace/osoba) data vyprodukuje a někdo jiný je používá. Uživatel, který by za běžné situace neznal omezení dat získaných z externího zdroje by vinou své nevědomosti mohl utrpět značnou škodu. Digitální geografická data jsou vzhledem ke své povaze velmi náročná na tvorbu a následnou údržbu. Jsou-li tedy jednou vytvořena, je žádoucí aby byla poskytnuta a použita v co největším množství dalších aplikací. Aby bylo možno používat geografická data i v jiných, než zdrojových aplikacích, je nutné, aby existoval jejich co nejlepší veřejně dostupný popis. Prostředkem pro popis těchto dat a jejich vlastností jsou právě metadata. Producent dat může s pomocí metadat popsat svá geografická data a na základě tohoto popisu je nabídnout širšímu okruhu zájemců. Je zcela zřejmé, že mají-li geografická metadata plnit úspěšně svou úlohu prostředníka mezi producenty a uživateli geografických dat, musí mít jednotnou strukturu a odpovídat určitým zásadám. Tato struktura a tyto zásady jsou předmětem české technické normy ČSN ISO 19115 [ČSN/ISO19115].
3.3.1 Obsah normy Česká technická norma ČSN ISO 19115:2003 [ČSN/ISO19115] je českou verzí mezinárodní normy ISO 19115:2003. Tato norma definuje prvky metadat, schémata a zakládá obecnou množinu terminologie metadat, definic a rozšiřujících procedur tak, aby byla jasně dána struktura pro popis digitálních geografických dat. Producentům umožňuje patřičně popisovat jejich geografická data, organizovat a řídit metadata. Uživatelům geografických dat umožňuje vyhledat, nalézt, poznat a aplikovat požadovaná geografická data. Norma ČSN ISO 19115 je mnohem rozsáhlejší a složitější (dokument má 135 stran a přes 300 prvků) než standard Dublin Core. Drtivá většina z metadatových prvků, metadatových entit a balíčků obsažených v této normě jsou speciální položky použitelné pouze pro popis geografických dat. Norma používá pro popis vztahů mezi jednotlivými objekty notaci UML a obsahuje stejně jako DC povinné a nepovinné entity (prvky). Metadata jsou strukturována v tzv. balíčcích (notace UML) a metadatových entitách. Každý balíček obsahuje jednu nebo více metadatových entit (tříd UML). Entity mohou obsahovat jiné entity či metadatové prvky (atributy UML) a vcelku libovolně se agregovat či opakovat. Základním balíčkem je entita MD_Metadata. Ta je povinná a může obsahovat až 11 dalších entit. Významná je zejména entita MD_Identification, která obsahuje údaje nezbytně nutné pro identifikaci dat.
- 32 -
Národní metadatový katalog V praxi se samozřejmě z tak rozsáhlé množiny metadatových prvků, jakou popisuje tato norma používají jen určité podmnožiny. Vzhledem k zaměření této práce je tedy nutné zmínit se alespoň o podmnožině povinných prvků. Ta představuje minimální množinu prvků, která je striktně vyžadována pro katalogizační účely a odpovídá alespoň na ty nejzákladnější otázky ohledně popisovaných dat (co? kde? kdy? kdo?). Uvedu zde české názvy prvků a jejich označení v modelu UML. Povinnými prvky tedy jsou ([ČSN/ISO19115], strana 24): Titul množiny dat (Dataset title) MD_Metadata > MD_DataIdentification.citation > CI_Citation.title Referenční kalendářní datum množiny dat (Dataset reference date) MD_Metadata > MD_DataIdentification.citation > CI_Citation.date Jazyk množiny dat (Dataset language) MD_Metadata > MD_DataIdentification.language Kategorie tématu množiny dat (Dataset topic category) MD_Metadata > MD_DataIdentification.topicCategory Výtah popisující množinu dat (Abstract describing the dataset) MD_Metadata > MD_DataIdentification.abstract Kontaktní místo metadat (Metadata point of contact) MD_Metadata.contact > CI_ResponsibleParty Datumové razítko metadat (Metadata date stamp) MD_Metadata.dateStamp
3.4 ISVS Informační systémy veřejné správy (ISVS [ISVS]) jsou souborem informačních systémů, které slouží pro výkon veřejné správy. Spadají mezi ně i informační systémy zajišťující činnosti podle zvláštních zákonů (o státní statistické službě, živnostenský zákon, o veřejném zdravotním pojištění, obchodní zákoník, o správě daní a poplatků). Stejně jako kterákoliv jiná oblast jsou i ISVS předmětem standardizace vedené Ministerstvem informatiky ve spolupráci s orgány veřejné správy. I zde došlo v poslední době k určitým změnám [MICR1]. 31. 3. 2006 tak byl zrušen 011/01.02 - Standard ISVS pro strukturu a výměnný formát metadat informačních zdrojů. Právě na tomto standardu byla založena struktura metasystému MIDAS. V souladu s trendem nahrazování standardů spíše pružnějšími metodikami a doporučeními je tedy nyní směrodatný pouze Metodický pokyn pro popis elektronických informačních zdrojů veřejné správy (dále MPEIZVS) [MPEIZVS]. Metainformační systémy a
- 33 -
Národní metadatový katalog navrhovaný národní metadatový katalog popisované v této práci jsou informačními systémy veřejné správy a proto by měly být v souladu s tímto metodickým pokynem. MPEIZVS je dobře napsaný a snadno pochopitelný dokument, který byl koncipován za účelem zpřehlednění informačních zdrojů ve veřejné správě. Je to v podstatě návod pro zavádění metadat k jednotlivým elektronickým informačním zdrojům. Vychází jednoznačně ze standardu DC verze 1.1 tak, jak jsem ho popsal v kap. 3.1. Metodický pokyn definuje množinu prvků a volitelných upřesňujících prvků, které popisují základní vlastnosti informačního zdroje tak, aby bylo možno s nimi popsat informační zdroje různých resortů. Existují-li metadata informačních zdrojů odpovídající MPEIZVS, měla by být přístupná a integrovatelná prostřednictvím internetu dalším metainformačním systémům. Následující tabulka shrnuje povinné a upřesňující prvky MPEIZVS. Typ prvku
Alternativní název, Médium, Velikost, Datum zpřístupnění, Datum vydání, Datum aktualizace, Datum platnosti (doporučený) Tab. 6: Prvky MPEIZVS
Zajímavé je na tomto metodickém pokynu to, že poskytuje návod jak zapisovat metadata v prostředí internetu. První metoda, tj. zápis v hlavičce HTML/XHTML souboru, je příkladem metadat uložených s daty (viz. kap. 2.1 a 2.2.3 ). Obr. 6 ukazuje způsob, jakým lze do hlavičky HTML souboru zapsat metadata standardu DC5. Druhý způsob, tj. XML dokument si zaslouží větší pozornost a podrobněji ho rozeberu v následující kapitole. <meta name="DC.title" content="MICR-metpokyn-EIZVS" /> <meta name="DCTERMS.alternative" content="MIČR - metodický pokyn - popis elektronických informačních zdrojů veřejné správy" /> <meta name="DC.subject" content="Metodický pokyn, informační zdroje, metadatové prvky" /> <meta name="DC.description" content="Metodický pokyn, které definuje povinné i nepovinné prvky určené pro popis elektronických informačních zdrojů veřejné správy" /> Obr. 6: Zápis metadat pomocí HTML (Zdroj: [MPEIZVS], str. 14)
5
V tomto případě se jedná o metadata popisující právě metodický pokyn [MPEIZVS]. - 34 -
Národní metadatový katalog
3.4.1 Metadata v XML dokumentech eXtensible Markup Language (XML) je univerzálním otevřeným značkovacím jazykem sloužícím pro výměnu a uchovávání strukturovaných dokumentů. Čtenářům, kteří nejsou s jazykem XML obeznámeni bych doporučil vynikající seriál o XML [KOS1]. Díky charakteristice jazyka XML se jeho použití pro uchovávání a výměnu metadat samo přímo nabízí. Ukládání metadat v hlavičkách HTML souborů má celou řadu nedostatků (jak již bylo zmíněno dříve). Mezi jinými jmenujme alespoň obtížnou zpracovatelnost a uložitelnost takových dat, problémy s velikostí takových souborů, problémy s kódováním a nedostatek vhodných nástrojů. Budeme-li ukládat metadata do externích XML dokumentů, můžeme veškeré zmíněné nedostatky snadno eliminovat. V XML dokumentech lze libovolně míchat použité jazyky, standard je veřejně dostupný, hojně používaný a dobře zdokumentovaný. Obr. 7 ukazuje, jakým způsobem mohou být zapsána metadata v XML dokumentu. Na první pohled je tento zápis podobný syntaxi použité v HTML souborech, ale jeho praktické využití má několik podstatných výhod. <metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/"> MICR-metodika-IZVSMIČR - metodický pokyn - popis elektronických informačních zdrojů veřejné správyMetodický pokyn, informační zdroje, metadatové prvkyMetodický pokyn, který definuje povinné i nepovinné prvky určené pro popis elektronických informačních zdrojů veřejné správy Obr. 7: Zápis metadat pomocí XML (Zdroj: [MPEIZVS], str. 15)
Formát XML byl vyvinut jako univerzální výměnný formát. Tomu odpovídá množství existujících nástrojů. Podpora XML je obsažena prakticky v libovolném vývojovém prostředí, existuje celá řada předpřipravených nástrojů a řešení, jakožto i fungujících B2B aplikací založených právě na XML. Existují i speciální databáze určené pro uchovávání XML dokumentů i když jejich praktická využitelnost zůstává stále poněkud diskutabilní. Formát je založen na obyčejném textu – XML dokumenty jsou
tedy snadno upravitelné a
interpretovatelné uživateli. Vzhledem k relativní datové nenáročnosti takových dokumentů je lze snadno přenášet či komprimovat. Největší výhodou XML je však vysoký informační obsah. Značky v jazyce XML (které si může vytvářet sám uživatel) přiřazují jednotlivým částem textu jasný význam. - 35 -
Národní metadatový katalog V jazyce HTML určujeme značkami jak má text vypadat, v XML pak co text znamená. Uživatel sice může dle libosti označovat význam jednotlivých částí dokumentu, ale zároveň má možnost pomocí definičních schémat (např. DTD – Definice Typu Dokumentu, RelaxNG aj.) přesně stanovit, co musí dokument obsahovat, dále v jakém pořadí značky budou umístěny a jak se jednotlivé prvky mohou opakovat, které značky jsou povinné, které nepovinné atd. Pomocí DTD lze tedy zajistit aby dokument určený například k importu do našeho systému měl všechny náležitosti, které od něj vyžadujeme. Možnost vytvářet vlastní značky a libovolně je kombinovat (v tzv. jmenných prostorech) je ale dvousečná zbraň, která svádí k nejednoznačnosti pojmů a vede tak k nekonzistenci dat. Z tohoto důvodu vznikla celá řada sdružení, které pro dané předmětné oblasti definují DTD či schémata, která by se v dané oblasti měla používat. Jako příklad by nám mohl posloužit právě [MPEIZVS], který pro jednotlivé prvky definuje jejich odpovídající XML značky. Nezanedbatelnou výhodou XML dokumentů je též možnost tyto dokumenty prohledávat (s pomocí různých dotazovacích jazyků, např. XPath) a vybírat z nich libovolné části nebo data. Podporovány jsou i konverze do celé řady dalších formátů či stylové transformace pro zobrazení dokumentů jako takových. Máme-li před sebou takto shrnuté fakta, můžeme dojít jen k jedinému závěru. XML je pro ukládání, zpracování a přenos metadat jednoznačně vhodnějším formátem, než HTML.
3.5 Ostatní standardy Mimo metadatových standardů, které jsem zmínil v předchozím textu existuje samozřejmě i celá řada dalších. Jejich používání je však buď na ústupu, nebo popisují specifická metadata a netýkají se tak zde popisované předmětné oblasti univerzálního katalogu. Mezi takové standardy patří ukončený CEN (prEN 12657 Geographic information – Metadata), jenž poskytl základ pro standardy ISO nebo FDGC (FDGC – Standard for Digital Geospatial Metadata), případně již zrušený Standard ISVS pro strukturu a výměnný formát metadat informačních zdrojů (011/01.02). Zájemcům o tyto standardy mohu doporučit [RUZ1, kap. 3.3 + 3.4], případně pro stručnější přehled [RUZ2].
- 36 -
Národní metadatový katalog
3.6 Shrnutí Aby bylo možno metadata využívat v metainformačních systémech, musí mít předepsanou strukturu. Definování této struktury metadatových záznamů je předmětem mnoha různých metadatových standardů. Jednotlivé standardy se od sebe liší především typem metadat, který popisují, mírou podrobnosti a tím, jak jsou v praxi využívány. Nejdůležitějšími metadatovými standardy pro účely této práce jsou Dublin Core, ČSN ISO 19115 a Metodický pokyn pro popis elektronických informačních zdrojů Ministerstva informatiky České republiky. Dublin Core je universální otevřený metadatový standard určený k popisu libovolných informačních zdrojů. DC má buď podobu jednoduchou, nebo tzv. kvalifikovanou. Základem jednoduchého DC je soustava 15ti povinných prvků. Kvalifikovaný DC je tvořen dalšími zjemňujícími prvky, tzv. kvalifikátory, které upřesňují význam některých prvků jednoduchého DC. Jednoduchý DC je předmětem normy ISO 15836. ČSN ISO 19115 je rozsáhlou normou, která upravuje strukturu metadat sloužících k popisu digitálních geografických dat. Tato norma definuje přes 300 prvků, z nichž je ovšem pouze zlomek povinný. Metodický pokyn pro popis elektronických informačních zdrojů veřejné správy (MPEIZVS) Ministerstva informatiky České republiky upravuje způsob, jakým by pomocí metadat měly být popisovány veřejné informační zdroje. Vychází ze standardu DC verze 1.1 a definuje povinné, doporučené, nepovinné a upřesňující prvky používané k popisu těchto zdrojů, stejně tak jako jejich notaci v HTML a XML. Pro uchovávání a přenos metadat je díky svým vlastnostem XML v současnosti jednoznačně vhodnějším formátem.
- 37 -
Národní metadatový katalog
4. Metainformační systémy veřejné správy Nedílnou součástí každého informačního systému (viz. kap. 2.3.1 a 2.3.2) jsou metadata popisující data tohoto systému. Metainformační systém (dále také METIS) je informační systém, který umožňuje ukládání, správu a publikaci těchto metadat. Metainformační systém veřejné správy (dále také MISVS) je takový systém, jenž je spravován organizací veřejné správy, obsahuje metadata popisující data obsažená v některém informačním systému veřejné správy a umožňuje veřejnosti přistupovat k těmto metadatům [MPEIZVS]. S tím, jak stoupá množství zveřejňovaných informací v rámci veřejné správy (zákony, vyhlášky, pokyny, adresáře, číselníky, klasifikace, normy, statistické informace, povinně zveřejňované informace, informace o činnosti úřadů, elektronické formuláře, registry, rejstříky, nabídky, poptávky, tiskové zprávy, publikace, krizové informace a další.) stoupá i význam souvisejících metadat. Během zveřejňování těchto informací na internetu totiž často dochází ke ztrátě identifikace informačního zdroje, např. není jasné kdo informaci zveřejnil, kdo je za ní zodpovědný, zda je aktuální, zda byla zveřejněna včas apod. Korektně zpracovaná metadata dokáží těmto chybám zabránit a zároveň umožňují vyhledávat data, která uživatel (občan) vyžaduje. Metainformační systémy veřejné správy tak mají svou nezastupitelnou úlohu v rámci informačních systémů dostupných na internetu. V této části práce rozeberu podrobněji vlastnosti MISVS a jejich typologii.
4.1 Typologie metainformačních systémů Vlastnosti metainformačních systémů mohou být popsány a klasifikovány. Na základě tohoto popisu pak mohou vznikat určité kategorie systémů se společnými charakteristikami. Rozdělení systémů podle společných znaků je velmi užitečné, neboť umožňuje identifikovat, co mají jednotlivé metainformační systémy společného a v čem se liší, což je nezbytné pro návrh společné metadatové struktury. Typologie metainformačních systémů, kterou zde použiji vychází z [RUZ1, kap. 4.2]. METIS mohou být rozděleny podle následujících kritérií:
- 38 -
Národní metadatový katalog 1. Podle charakteru obsahu (zejména jaká metadata jsou spravována a režim práce s takovými metadaty) 2. Podle zodpovědnosti za obsah 3. Podle použitého jazyka 4. Podle technologie prezentace a vstupu metadat. K tomuto rozdělení bych ještě doplnil páté kritérium, které dle mého názoru má rovněž své opodstatnění a tím je: 5. Podle předmětné oblasti.
4.1.1 Charakter obsahu Podle charakteru obsahu můžeme METIS rozdělit na: podnikové oborové národní nadnárodní Národní metadatový katalog je pochopitelně příkladem národního metainformačního systému, zatímco ostatní METIS popsané v této práce jsou metasystémy oborové. Podnikové metainformační systémy jsou v rámci této klasifikace nejodlišnější kategorií. Spravují metadata o podnikových procesech a vnitropodnikových datech, přičemž uživatelé těchto metadat jsou téměř výhradně pouze zaměstnanci daného podniku. Metadata v těchto systémech bývají značně specifická, tvořená čistě pro firemní využití a s jejich sdílením do jiných metainformačních systémů nebo s jejich veřejnou prezentací se nepočítá. Dělící čára mezi oborovými a národními METIS nemusí být příliš zřetelná. Některé oborové METIS totiž mohou v rámci oboru fungovat jako systémy národní a stejně tak národní systém může shromažďovat data pouze vybraných oborů. Oborové systémy shromažďují specifická metadata pro vybraný obor (nebo skupinu oborů), obvyklé je i využívání oborových číselníků a tezaurů. Oborové systémy jsou buď veřejně přístupné, nebo určené pro pracovníky v daném oboru. Naopak Národní METIS jsou již z podstaty věci koncipovány vždy jako veřejně přístupné. Spravují metadata týkající se určitého území (státu) a jejich správci/provozovateli bývají organizace veřejné správy. Nadnárodní METIS představují určitou nadstavbu národních metasystémů a počítá se v nich s metadaty uloženými ve více jazycích.
- 39 -
Národní metadatový katalog
4.1.2 Zodpovědnost za obsah Podle zodpovědnosti za obsah rozeznáváme následující druhy METIS: za obsah zodpovídá provozovatel za obsah zodpovídají vlastníci jednotlivých metadatových záznamů hybridní přístup Tato klasifikace má své opodstatnění pouze v případech, kdy metainformační systém obsahuje metadatové záznamy od více subjektů, neboť ve firemních či organizačních systémech úloha provozovatele a vlastníka splývá. U MISVS nabývá tato otázka ovšem značné důležitosti. Nese-li zodpovědnost za data provozovatel, znamená to, že je nucen metadata a jejich faktickou správnou kontrolovat a ověřovat stejně tak jako zajišťovat jejich aktualizaci a aktuálnost. Z pohledu provozovatele se pochopitelně nejedná o příliš vhodné uspořádání, neboť tyto kontroly jsou velmi náročné a navíc jsou možnosti provozovatele MISVS prosadit u poskytovatele dat jejich opravu nutně značně omezené. Druhý model, kdy za metadatové záznamy nesou zodpovědnost jejich vlastníci je v praxi mnohem častější. Vlastník záznamu se tak stará o věcnou správnost publikovaných metadat, zatímco provozovatel METIS hraje víceméně roli technického správce – zajišťuje bezproblémový chod systému, příjem, zpracování a publikování metadat získaných od jejich vlastníků. Poslední možností jsou tzv. hybridní systémy, které jsou kombinací obou výše zmíněných přístupů. Provozovatel METIS v takovém případě za část dat sám zodpovídá (zpravidla je totiž zároveň tvůrcem části metadat). Metadata, jejichž původcem není provozovatel systému, garantují opět jejich vlastníci.
4.1.3 Použitý jazyk Podle použitého jazyka lze metainformační systémy rozdělit na: jednojazyčné dvojjazyčné vícejazyčné Jednojazyčné METIS, jak již název napovídá, jsou takové systémy, jejichž metadata jsou ukládána
pouze v jediném jazyce. Tvorba a následná správa takových systémů je
pochopitelně nejjednodušší. Dvojjazyčné metasystémy pracují s metadaty ve dvou různých jazycích, v drtivé většině případů se jedná o jazyk národní a angličtinu. Mimo překladu samotného metadatového obsahu je nutno také vyřešit překlad číselníků, mechanismus - 40 -
Národní metadatový katalog uložení vícejazyčných dat, překlad tezaurů, manuálů a uživatelského rozhraní. Vícejazyčné systémy jsou nejkomplikovanější formou. Jejich návrhu je nutno věnovat největší pozornost tak, aby byla zajištěna co největší flexibilita navržené struktury. Návrh by měl být dostatečně otevřený a modifikovatelný, aby bylo možno přidávat či ubírat další jazyky bez nutnosti kompletního redesignu METIS. Významnou roli hraje také úroveň propracovanosti odborné terminologie v jednotlivých jazycích. Databáze ve které budou data uloženy by také měla podporovat co nejvíce různých znakových sad.
4.1.4 Technologie prezentace a vstupu metadat Podle technologie prezentace a vstupu metadat se metainformační systémy dělí na: desktopy www aplikace kombinované Desktopy umožňují prezentaci a editaci dat s pomocí speciálních desktop aplikací, které jsou schopny načítat metadata z metadatového systému (a to ať lokálního či vzdáleného). Tyto metadata lze číst buďto přímo ze METIS nebo z dat exportovaných z databáze metasystému. Aplikace mohou být vytvořeny v libovolném programovacím jazyce, důležitá je jejich schopnost prezentovat metadata uživateli nebo metadata v METIS upravovat. Je účelné tyto desktop aplikace dále rozdělit na tři skupiny: speciálně naprogramované aplikace určené k prezentaci dat konkrétní nebo obecné databáze metadat. modul, který je součástí vnitropodnikového informačního systému (metasystém informačního systému) aplikace, která pracuje s některým ze standardních formátů dat a ten zpřístupňuje uživateli (XML, RTF, PDF, RDF) Další možností jak uživateli zpřístupnit metadata z METIS, je využít prostředků jež nabízí technologie WWW. Pro národní metadatový katalog je tento způsob nejvýhodnější, neboť účelem národních metakatalogů je zpřístupnit výstupy z katalogu co nejširšímu okruhu uživatelů. Přístup k metadatům prostřednictvím WWW toto zadání vzhledem k dostupnosti internetu a internetových prohlížečů splňuje nejlépe. Metadata jsou v tomto případě zveřejňována v některém běžném formátu, který jsou prohlížeče schopny zpracovat (obvykle HTML nebo XML + XSLT). Výhodou tohoto přístupu je rovněž snadný vývoj a správa uživatelského rozhraní, neboť tvorba WWW aplikací je v porovnání s desktopovými - 41 -
Národní metadatový katalog aplikacemi mnohem jednodušší. Kombinovaný přístup pak (jak již název napovídá) zahrnuje kombinaci obou předchozích přístupů.
4.1.5 Předmětná oblast Posledním kritériem, podle kterého lze třídit metainformační systémy, je kritérium předmětné oblasti. Toto rozdělení je velice blízké oborovému rozdělení. Jde o to, jaký typ dat je v metainformačním systému obsažen. Je možno říci, že obsažená data svým charakterem určují celou řadu dalších vlastností METIS (veřejný/neveřejný, použité standardy, způsob prezentace atd.) V současnosti jsou v Česku zastoupeny metasystémy pokrývající následující předmětné oblasti: knihovnické statistické životní prostředí GIS jiné Knihovnické metasystémy představují značně specifickou oblast. Jak jsem již zmiňoval v 2.2.1, využívání metadat v knihovnictví není ničím novým. Naopak, knihovníci a knihovny mají při tvorbě a využívání metadatových standardů zcela nezastupitelnou úlohu. Bibliografické metasystémy jsou v adaptaci a implementaci standardů a metadat vzhledem ke své povaze vždy daleko před ostatními. V ostatních předmětných oblastech mají metadata obvykle povahu něčeho navíc, ale v knihovnictví se veškerá činnost točí kolem metadat v podobě knihovních záznamů. Zároveň se ale rozsahem spravovaných dat (řádově desetitisíce
až
miliony
záznamů)
a
jejich
zaměřením
(čistě
informace
o knihách/časopisech/jiných médiích) vymykají možným pokusům o integraci. Integrovat například katalog Národní knihovny České republiky do Národního metadatového katalogu by mělo jediný důsledek – eliminaci významu ostatních metasystémů, neboť by se v záplavě metadat Národní knihovny výstupy ostatních metasystémů (řádově tisíce položek) zcela ztratily. Knihovnické databáze má smysl integrovat a propojovat pouze mezi sebou, používat jejich výstupy jinde až na výjimky není příliš přínosné. Statistická metadata postupně nabývají na významu s tím, jak stoupá množství statistických dat (a souvisejících metadat) produkovaných různými orgány veřejné správy. Statistiky, statistické ukazatele a statistické průzkumy přitom nelze interpretovat bez znalosti toho, jakým způsobem byly údaje sbírány, zpracovány a modifikovány. Statistická metadata - 42 -
Národní metadatový katalog jsou tedy nezbytná pro plnohodnotné využití statistických dat. Podrobněji rozeberu statistická metadata v kap. 7.2. Životní prostředí je informačně velice dobře pokrytou oblastí, což se zrcadlí i ve velkém množství dostupných informačních zdrojů a databází. Zároveň je však toto množství důvodem, proč je oblast velice nepřehledná a dohledat určitá, byť existující data, může být někdy velmi komplikované. I proto je Metainformační systém životního prostředí zřejmě nejznámějším českým veřejně používaným metasystémem. Potenciální okruh uživatelů MIS MŽP je totiž větší než okruh uživatelů systému MIDAS. Využívání GIS aplikací a GIS dat je v současné době na vzestupu. Mimo využití geografických dat v oblastech kde byly zcela nezbytné nyní dochází k jejich využití i v aplikacích, ve kterých přináší tzv. „přidanou hodnotu.“ Tvorba GIS dat je však velice náročná (viz. kap. 3.3) a tak zde figuruje oprávněná snaha znovupoužívat již existujících data. Se stoupajícím počtem aplikací není možné, aby jedinci (byť experti v dané oblasti) měli přehled o veškerých publikovaných datech vhodných k dalšímu použití. Zároveň začínají s GIS daty pracovat lidé, kteří se GIS systémům nevěnovali dlouhodobě a jejich přehled o situaci je tak ještě menší. Do popředí se tak dostává snaha geografická data řádně popisovat pomocí metadat, tyto metadata spravovat v metadatových informačních systémech a umožnit uživatelům vyhledávání požadovaných digitálních geografických dat. GIS metasystémy jsou rovněž předmětem mnoha standardů (např. ČSN/ISO 19115, viz. kap. 3.3) a je zde patrná i jasná snaha o jejich integraci na národní a nadnárodní úrovni. Mimo základních typů metasystémů popsaných výše existují samozřejmě i další metasystémy (metadata lze tvořit prakticky k libovolným datům), jejich zastoupení v Česku však není příliš patrné. Většina podnikových METIS by spadala do této kategorie, neboť metadata v takových systémech jsou tvořeny s ohledem na potřeby konkrétního podniku a nejsou tak snadno přiřaditelná ke konkrétnímu typu metadat.
4.2 Současný stav V první řadě je třeba si přiznat, že situace v České republice není z hlediska metainformačních systémů nijak růžová. Podnikové METIS jsou neveřejnou záležitostí, a vzhledem k tomu, že neexistují žádné dostupné případové studie, nelze o vývoji METIS podnikové sféry říci prakticky nic. Dlouhodobě fungující metainformační systémy veřejné správy lze spočítat na prstech jedné ruky. Jde o MIS MŽP [MIS1], MIDAS [MIDAS] a do budoucna lze počítat též s SMS [SMS] či metadatovým systémy Ministerstva zemědělství a - 43 -
Národní metadatový katalog Ministerstva pro místní rozvoj. Jak již bylo zmíněno dříve, veřejně dostupnou aplikaci metadat představují ještě veškeré knihovnické katalogy, ale ty stojí z hlediska Národního metadatového katalogu na okraji našeho zájmu. Všechny zmíněné metasystémy však procházejí poměrně bouřlivým vývojem (ač snad již koordinovaným, viz. dále) a tak jsou jakékoli hlubší rozbory aktuálního stavu odsouzeny k okamžitému zastarání. Tato neradostná situace je způsobena tím, že část institucí metadata vůbec nevytváří, část nemá vyřešeny autorská práva a podmínky distribuce a část postrádá znalosti a zkušenosti pro realizaci takových projektů. Svůj podíl na nedostatečném rozšíření metadatových systémů nesou i některé problémy, se kterými je nutno při práci s metadaty počítat. Podrobněji tyto nedostatky rozeberu v následující kapitole. Největší pozornost bude v dalším textu věnována MIS MŽP a MIDAS, které z hlediska rozvoje představují páteř českých MISVS. Zejména v souvislosti s odlišností statistických metadat věnuji část textu i SMS.
4.3 Nedostatky použití metadat Je také třeba vzít na vědomí, že metadata a metadatové informační systémy nejsou samospasitelnými. Metadata mohou v mnohém napomoci uspokojovat naše informační potřeby, ale svět, kde by každá informace byla metadaty dokonale a přesně popsána, je bohužel čistou fikcí. Nedostatky popsané v této kapitole jsou jedním z důvodů, proč je tvorba metadatových katalogů tak komplikovanou záležitostí. Tyto nedostatky ilustruji pomocí názorného příkladu [DOCT]. Mějme několik výrobců praček. Ti se sejdou a dohodnou se na společném metadatovém standardu pro popis praček. Standard bude obsahovat údaje jako je velikost, kapacita, spotřeba vody a energie, cena, barva, seznam programů apod. Každý z nich na základě tohoto standardu popíše své zboží a uloží tyto data do společné, veřejně přístupné databáze. Všichni zákazníci a odběratelé tak mohou přistupovat do databáze a kdykoliv si najít všechny pračky vyhovující požadovaným kritériím. Ideální, že? Kdyby se na podobném principu popisovaly veškerá data, vyhledávání jakýchkoliv informací by bylo velice jednoduché a přesné. Bohužel, metadata samotná ve svém konceptu obsahují několik nedostatků, které podobnou utopii efektivně znemožní. Zásadní nedostatky se kterými je při práci s metadaty nutno počítat jsou [DOCT]:
- 44 -
Národní metadatový katalog 1. Lidé lžou 2. Lidé jsou líní 3. Lidé jsou nepozorní. 4. Lidé jsou nepřesní. 5. Schémata nejsou neutrální 6. Metriky ovlivňují výsledky 7. Existuje více způsobů, jak něco popsat Lidé lžou. V našem příkladu panuje konkurenční prostředí – lze tedy (bohužel oprávněně) očekávat, že někteří výrobci zkreslí údaje, např. záměrně sníží spotřebu svých praček, aby získali konkurenční výhodu a zvýšili tak své prodeje. Z tohoto důvodu také většina vyhledávačů nebere v úvahu (případně podstatně snižuje váhu) metadat v hlavičkách HTML dokumentů (viz. 2.2.3), neboť záměrná manipulace s těmito hlavičkami naprosto znemožňuje vyhledávat relevantní dokumenty. Lidské lhaní, příp. falšování údajů značně komplikuje realizaci metainformačních systémů s komerčním potenciálem. U MISVS tento bod nehraje takovou roli, neboť ve většině případů chybí tvůrcům dat motivace uvádět nesprávné údaje. Lidé jsou líní. Tento smutný fakt má jasný důsledek – metadata často nebudou vyplněna, vyplněna pečlivě nebo vůbec vytvořena. Na příkladu metadat v datových skladech (kap. 2.3.2) jsme si ukázali, že někdy může být práce s metadaty náročnější, než práce s daty samotnými. A protože přínos dat se vyjadřuje snadněji než přínos metadat, je jasné, čemu dá tvůrce dat v časové tísni přednost. Tento problém se dá odstranit pomocí školení tvůrců dat, důsledného definování významu metadat a tvorby takových podnikových postupů či politik, aby bylo nevytváření patřičných metadatových záznamů znemožněno. Pokud se totiž nelze na kompletnost metadatové databáze spolehnout, rapidně klesá její hodnota. Lidé jsou nepozorní. I pokud tvůrci dat chápou význam metadat a vědí, v čem jsou správná, přesná a úplná metadata přínosná, stejně se nevyhnou chybám. Překlepy, pravopisné a gramatické chyby jsou bohužel častým jevem v jakýchkoli textech, metadatové záznamy nevyjímaje. Překlep v názvu může znamenat, že záznam (a jemu odpovídající data) bude nevyhledatelný. V databázích můžeme rovněž často narazit na testovací záznamy, které tam umístili správci databází v testovací fázi a při uvedení do ostrého provozu je zapomněli smazat, nebo které tam zkusmo umístili uživatelé při seznamování s novým prostředím. Lidé jsou nepřesní. V mnoha případech může dojít k uvedení chybných údajů i přesto, že jejich tvůrce měl ty nejlepší úmysly. Jak dlouho bude trvat tento IT projekt? Jak - 45 -
Národní metadatový katalog dlouho bude trvat oprava? Kolik bude stát tento projekt? Ačkoliv respondent může mít snahu zodpovědět otázku korektně, projekty prakticky vždy trvají déle a stojí více, než byl původní plán. Tento poznatek již pronikl i do učebnic, kde se lze nezřídka setkat s poučkou typu: „Původní odhad vynásobte 2x.“ Schémata nejsou neutrální. Aneb když dva dělají totéž, není to totéž. Necháme-li dva výrobce praček navrhnout metadatový záznam k popisu pračky, téměř nevyhnutelně skončíme s dvěma různými návrhy. Kategorizace a hierarchie totiž nutně upřednostňuje některé informace před jinými, přičemž se hodnotové žebříčky tvůrců metadat budou nutně lišit. Malý výrobce ekologicky šetrných praček by tak navrhl podobnou strukturu: spotřeba energie spotřeba vody spolehlivost velikost kapacita
moderních designérsky vyspělých praček by ovšem nesouhlasil a upřednostnil
následující hierarchii: barva
velikost programovatelnost spolehlivost
(povinné) (povinné) (doporučené) (volitelné)
Shodnout se na hodnotově neutrálním schématu může být v mezi-podnikových systémech značný problém. U MISVS tento problém není tak velký, nicméně v Národním metadatovém katalogu může být komplikované určit, které položky jsou skutečně důležité napříč podřízenými oborovými metasystémy. Metriky ovlivňují výsledky. Zvolíme-li nějaké kritérium pro hodnocení určitých produktů, nevyhnutelně tak zvýhodníme produkty, které mají tuto měřenou hodnotu dobrou. Dopouštíme se tak určitého zjednodušení, neboť nejlepší dosažené hodnoty jednoho typu nemusí říkat nic o vhodnosti daného produktu pro naše konkrétní účely. Je-li výrobek nejlevnější, bývá to často za cenu jistého „ale...“. Existuje více způsobů, jak něco popsat. Problémem může být jednak používání synonym (které lze v některých případech odstranit používáním tezaurů a řízených slovníků), ale také zcela odlišná terminologie v závislosti na zkušenostech, znalostech a přístupu osob provádějících popis dat. Můžeme tak použít synonyma auto, automobil či osobní vozidlo, ale například také zcela odlišná označení bourák či křáp. Známe-li tyto nedostatky metadatových záznamů, můžeme je aplikováním zdravé míry opatrnosti obvykle odstranit. Při práci s metadaty je tedy třeba vždy mít na paměti zásadu „důvěřuj, ale prověřuj“ - kdo a proč metadata vytvářel může vysvětlit mnohé. - 46 -
Národní metadatový katalog
4.4 Shrnutí Metainformační systémy veřejné správy jsou informační systémy obsahující metadata jedné nebo více organizací (informačních systémů) veřejné správy. Bývají spravovány nezávislou organizací, nebo institucí veřejné správy. Jejich nejdůležitějším znakem je snaha zpřístupnit tyto metadata co nejširšímu okruhu potencionálních uživatelů (občanů). Nejznámějšími českými MISVS jsou MIS MŽP a MIDAS. Obecně můžeme MISVS dělit podle charakteru obsahu (podnikové / oborové / národní / nadnárodní), zodpovědnosti za obsah (správce / tvůrce dat / hybridní), jazyka (jednojazyčné / dvoujazyčné / vícejazyčné), technologie prezentace a vstupu metadat (desktopy / www aplikace / hybridní) a předmětné oblasti (statistické / životní prostředí / GIS / knihovnické / jiné). Využívání metadat má i svá nezanedbatelná úskalí, která jsou způsobena zčásti lidským faktorem a zčásti povahou metadat jako takových.
- 47 -
Národní metadatový katalog
5. MIS MŽP Metainformační systém (MIS) Ministerstva životního prostředí (MŽP) [MIS1] zpřístupňuje veřejnosti metainformace z oblasti životního prostředí a umožňuje tak uživatelům zodpovídat dotazy typu: Jaké informace o životním prostředí jsou k dispozici? Kdo je za ně zodpovědný? Kde je lze získat? Životní prostředí je oblastí bohatou na informace i informační zdroje a tak je MIS MŽP užitečným nástrojem, který jedincům hledajícím informace tyto informace umí zprostředkovat. V této kapitole nejprve vysvětlím, čím je životní prostředí tak vyjímečné a poté se budu věnovat historii metainformačního systému životního prostředí. Naváži popisem vkládání dat do systému, rozborem uživatelských rolí, podrobně analyzuji strukturu metadatových záznamů, zmíním mezinárodní souvislosti a vysvětlím současnou situaci ohledně MIS MŽP.
5.1 Povinnost informovat Čím je však životní prostředí tak zajímavé, že právě zde je tolik veřejně dostupných informací a právě pro něj vznikl metainformační systém? Odpověď je jednoznačná. „Vinen“ je zákon 123/1998 Sbírky o právu na informace o životním prostředí. Směrodatný je pro účely této práce zejména § 10a „Aktivní zpřístupňování informací,“ který tzv. povinným subjektům ukládá zpracovávat informace vztahující se k jejich působnosti a též vést a aktualizovat veřejně přístupné elektronické databáze s těmito informacemi. Aktivně zpřístupňovány (tzn. poskytovány neomezenému okruhu subjektů, aniž by subjekty musely podávat žádost) mají být zejména: koncepce, politiky, strategie, plány a programy týkající se životního prostředí a zprávy o jejich provádění (pokud jsou zpracovávány) zprávy o stavu životního prostředí (pokud jsou zpracovávány) souhrny údajů o sledování činností, které mají nebo by mohly mít vliv na životní prostředí a celá řada dalších informací (správní rozhodnutí, pokud bylo podmíněno EIA hodnocením, hodnocení rizik, seznam informací, které mají mít povinné subjekty k dispozici, mezinárodní smlouvy a dohody atd.) Povinnými subjekty ve smyslu zákona se mimo jiné rozumí: správní úřady, orgány územních samosprávních celků, právnické nebo fyzické osoby vykonávající na základě zvláštních - 48 -
Národní metadatový katalog předpisů v oblasti veřejné správy působnost vztahující se přímo nebo nepřímo k životnímu prostředí. Povinnými subjekty jsou též právnické nebo fyzické osoby založené nebo zřízené zmíněnými subjekty, které na základě právních předpisů nebo dohody poskytují služby které ovlivňují stav životního prostředí a jeho jednotlivých složek. Velké množství různých informačních zdrojů v oblasti životního prostředí je tak přímým důsledkem platnosti tohoto zákona, neboť tento zákon ukládá institucím veřejné správy povinnost publikovat ohledně životního prostředí mnohem více informací, než v jakékoli jiné oblasti veřejné správy. Vysoká potenciální dostupnost informací o životním prostředí je jistě dobrou zprávou, ale praktická situace je o něco horší, neboť je často problémem existující informace najít. I zkušený pracovník, který s informačními zdroji pracuje denně, může snadno narazit na databáze o jejichž existenci ani netušil.
5.2 Historie MIS MŽP První funkční verze MIS MŽP se v reakci na zákon 123/1998 Sb. objevila v roce 2000. Tato verze byla ještě šířena na CD a nebyla přístupná na internetu. Tvůrcem první verze bylo Ministerstvo životního prostředí a programována byla externí firmou. Webový portál metainformačního systému (http://mis.env.cz) začal fungovat v roce 2001. Pouze s menšími úpravami pak provoz pokračoval až do konce roku 2004. V té době byl MIS MŽP postaven na standardech Evropské agentury životního prostředí. V roce 2005 se ministerstvo rozhodlo převést zodpovědnost za provoz portálu životního prostředí (http://portal.env.cz) (a to včetně indikátorového serveru (http://indikatory.env.cz) a MIS MŽP) na CENIA (Česká informační agentura životního prostředí, dříve ČEÚ - Český ekologický ústav). V průběhu roku 2005 tedy postupně převzala provoz a rozvoj portálu ŽP CENIA. Přístup k administrátorskému profilu portálu byl předán 28.6.2005, k administrátorskému profilu MIS MŽP pak 11.8.2005.
5.2.1 Úkoly správce MIS MŽP CENIA, která mimo portálu ŽP spravuje celou řadu dalších databází z oblasti životního prostředí (namátkově registr EMAS, informační systém EIA/SEA, databáze místních Agend21 a další), tak nyní zajišťuje jak provoz, tak rozvoj MIS MŽP. Mezi základní úkoly CENIA patří:
- 49 -
Národní metadatový katalog Správa a zajištění aktualizace portal.env.cz Aktivní spolupráce na zajištění technického rozvoje portálu Doplňování aplikací do portálu dle uživatelského zadání Propagace systému V souvislosti s MIS MŽP jsou to: Správa a zajištění aktualizace mis.env.cz Aktivní spolupráce na zajištění technického rozvoje MIS Návrh a tvorba aplikací nad MIS dle uživatelského zadání Zajištění přechodu na standard ISO 19115 v souladu s požadavky EU.
5.2.2 Přestavba MIS MŽP Další rozvoj metainformačního systému v podobě, v jaké byl převzat od MŽP, však nebyl možný. Servery na kterých je systém provozován totiž fyzicky zůstaly v péči ministerstva a zároveň CENIA nebyly zpřístupněny zdrojové kódy metasystému. CENIA tedy neměla žádnou možnost jak dále rozvíjet metasystém na stávající struktuře. Zároveň se také do centra pozornosti dostaly jiné metadatové standardy a tak bylo rozhodnuto o kompletním redesignu MIS MŽP. Tento redesign proběhl na přelomu let 2005/2006 a nyní se nová verze MIS MŽP nachází v testovací fázi. Podrobnosti o způsobu vkládání a editace dat uvedu v kap. 5.3, o současném stavu MIS MŽP v kapitole 5.4, o struktuře metadatových záznamů v kap. 5.5 a o mezinárodních souvislostech v kap. 5.6.
5.3 Vkládání dat do MIS MŽP Jak již bylo řečeno, za provoz MIS MŽP zodpovídá CENIA. Kdo však zodpovídá za správnost metadatových záznamů? Odpověď na tuto otázku souvisí s tím, že v MIS MŽP existuje více tzv. uživatelských rolí.
5.3.1 Uživatelské role Uživatelské role umožňují definovat určitá přístupová práva různým skupinám uživatelů. V MIS MŽP lze identifikovat následující role:
- 50 -
Národní metadatový katalog administrátor editor tvůrce datových záznamů uživatel Tyto role lze s určitými obměnami identifikovat ve většině metadatových systémů. Administrátor systému je správcem systému s možností upravovat aplikační logiku i data metainformačního systému. Má na starosti jeho bezproblémový chod. Administrátor nemusí být jedna osoba, ale zpravidla se jedná o tým složený s programátorů, databázových specialistů, analytiků, GIS expertů a podobně. Roli administrátora v MIS MŽP hraje CENIA. Editoři mohou vstupovat do systému a vkládat a upravovat v něm metadatové záznamy. Nesou zodpovědnost za správnost a přesnost metadat. Obecně mohou být editoři zároveň i administrátory, nebo mohou tyto role na sobě být nezávislé (což je případ právě MIS MŽP). Pro MIS MŽP existují tzv. podřízené organizace, (na základě příkazu ministra ŽP 22/2000) které mají povinnost vkládat do MIS MŽP metadata o svých datech. Každá taková organizace má jednoho či více editorů, kteří vkládání metadat do MIS MŽP zajišťují. Organizacemi, které vkládají metadata do MIS MŽP jsou Agentura ochrany přírody a krajiny, CENIA, Česká geologická služba, Česká geologická služba-GEOFOND, Česká inspekce životního prostředí, Český hydrometeorologický ústav, Krkonošský národní park, Ministerstvo životního prostředí, Národní park České Švýcarsko, Národní park Podyjí, Správa NP a chráněné krajinné oblasti Šumava, Správa ochrany přírody, Státní fond životního prostředí, Výzkumný ústav okrasného zahradnictví S. Taroucy a Výzkumný ústav vodohospodářský. Podrobněji bude spolupráce s editory popsána v následující kapitole (kap. 5.3.2). Tvůrci datových záznamů do metainformačního systému přímo nevstupují. Jsou však autory dat, které editoři popisují metadaty v MIS MŽP. Mohou editorům připomínkovat způsob, jakým jsou data popsány a poskytují data, pokud si je uživatelé vyžádají (poté, co je našli s využitím metadat v MIS MŽP). Tvůrci dat jsou podřízené organizace. Uživatel může být občan, úředník, expert v oblasti životního prostředí či kdokoliv jiný, kdo chce použít MIS MŽP k vyhledávání metadat. Základním principem ISVS je, že uživatel může k MIS MŽP přistupovat prostřednictvím internetu s použitím webového prohlížeče. Rozdělení rolí může být samozřejmě i mnohem podrobnější a detailnější. Například norma ČSN ISO 19115 rozeznává tyto role: - 51 -
resourceProvider (poskytovatel zdroje),
Národní metadatový katalog custodian (opatrovník), owner (vlastník), user (uživatel), distributor (distributor), originator (původce), pointOfContact (ten, kdo má informace o zdroji nebo zdroj), principalInvestigator (klíčová osoba zodpovědná za sběr dat či výzkum), processor (zpracovatel), publisher (zveřejňovatel) a author (autor). V dalším textu zmíním přínosy a nedostatky vkládání metadat nezávislými editory.
5.3.2 Spolupráce s editory Informace pro text této části jsem čerpal převážně z [GAB1]. Jak vyplynulo z popisu různých rolí, největší vliv na výslednou kvalitu a obsažnost metadat mají jednotliví editoři. Na osobnostech vybraných editorů, jejich pečlivosti, znalostech a zodpovědnosti závisí použitelnost metadat. Do MIS MŽP vkládá data 15 organizací, avšak některé instituce jmenovaly více editorů. Celkově však jejich počet nepřesáhl 40, což umožnilo jistou dávku lidského kontaktu a systém tak nepůsobil zcela anonymně. Většina editorů ke své práci přistupovala dostatečně zodpovědně, nicméně bylo možno nalézt i několik „černých ovcí,“ které tvořily metadata výrazně nižší kvality. Instituce měly jmenovat své editory na základě příkazu ministra č. 22/2000, který se však v praxi ukázal být naprosto nefunkčním. Často tedy docházelo k tomu, že funkce editora byla někomu přidělena navíc k jeho obvyklým povinnostem, což se pochopitelně negativně odráželo na kvalitě výsledných metadat. Některé organizace se také brání zveřejňování informací, ačkoliv je to v rozporu se zákonem č. 123/1998 Sb. Navíc u většiny editorů chybí odbornost pro práci s GIS daty. Mezi přínosy zapojení externích editorů lze zahrnout nutnost vytvoření přehledů datových zdrojů, což výrazně napomohlo orientaci v dané oblasti a potenciální využití MIS MŽP v informačních systémech podřízených organizací.
5.4 Současný stav MIS MŽP se nyní nachází v testovací fázi nové verze. Na webu (http://mis.env.cz) je stále zpřístupněna stará verze, souběžně však probíhá testování nové verze metasystému běžící na metainformačním katalogu MIcKA [MICKA] společnosti Help Service Remote Sensing. Nový návrh struktury metadat byl proveden s ohledem na mezinárodní iniciativu INSPIRE (viz. kap. 5.6) a je plně v souladu s normou ČSN ISO 19115. Lze si klást otázku, proč byl cílem nového návrhu soulad právě s touto normou, která je zaměřena spíše na popis digitálních geografických dat než na popis obecných metadat. Faktorů, které toto rozhodnutí ovlivnily je několik. Předně, nezanedbatelnou část MIS MŽP tvoří právě popis digitálních - 52 -
Národní metadatový katalog geografických dat. Dalším důvodem je standardizace - mezinárodní iniciativa INSPIRE staví z velké části právě na normě ISO 19115 a zároveň další z významných českých metainformačních systémů, MIDAS, rovněž přechází na ISO 19115. Posledním důvodem byla kompatibilita s publikačním systémem MIcKA, který ISO 19115 plně implementuje. MIS MŽP v současnosti obsahuje několik set metadatových záznamů. Nyní popíši metadatovou strukturu této nové verze MIS MŽP.
5.5 Metadatová struktura Kompletní struktura MIS MŽP je zachycena v: Příloha 1 – Struktura MIS MŽP (dle ČSN ISO 19115). I přesto, že je struktura metadat definována pomocí normy pro geografické informace, je patrná jasná snaha o co nejobecnější návrh struktury tak, aby bylo možno popisovat i data a datové zdroje, jež v sobě neobsahují prostorovou složku. Výskyt prvků popisujících geografické atributy dat je omezen na nejnutnější minimum a zároveň žádný takový prvek není povinný. Pojďme se podívat na nejdůležitější body této struktury. 1. Základní informaci o samotném metadatovém záznamu poskytuje metadatová entita (prvek) MD_Metadata.
Ta obsahuje údaje o pověřené osobě (buďto
organizaci nebo jednotlivci), její funkci a její kontaktní informace (adresa, e-mail, telefon, web), datum vytvoření metadat a jazyk, ve kterém jsou metadata uložena. Volitelnými parametry jsou pak jednoznačný identifikátor metadatového souboru, název použité metadatové normy (ČSN ISO 19115), její verze (česká) a URL popisovaného zdroje dat. 2. Identifikaci zdroje zajišťuje entita MD_Identification. Obsahuje název a nepovinně i alternativní název zdroje, referenční datum (datum vytvoření, uveřejnění či revize zdroje), abstrakt, jazyk zdroje. Nepovinné prvky jsou téma zdroje dat, stav zdroje, shrnutí záměrů vytvoření zdroje, kódování zdroje a identifikační údaje o pověřených osobách a organizaci (analogicky k pověřené osobě zodpovědné za metadatový záznam jako takový. Pro popis prostorových dat je určen typ prostorové reprezentace. Pouze tyto dvě základní entity (MD_Metadata a MD_Identification) jsou navrženy jako povinné, všech zbylých sedm už je pouze volitelných. 3. Klíčová slova obsahuje entita MD_Keywords. Mohou v ní být uložena jak klíčová slova (povinně), tak pojmy z tezauru (volitelně) - 53 -
Národní metadatový katalog 4. Entita MD_Format obsahuje informace o formátu – název formátu a verzi formátu. 5. Entita EX_Extent umožňuje popsat rozsah dat. Lze toho dosáhnout buď textovým popisem prostorového a časového rozsahu dat nebo množinou geografických souřadnic, identifikátorem geografické oblasti, časovou periodou pokrytou daty nebo výškovým rozsahem množiny dat. 6. Entita LI_Lineage objasňuje původ množiny dat. 7. Prvek MD_Constraints definuje omezení kladená na získání dat. Může se jednat o copyright, patent, obchodní značku, licenci, duševní vlastnictví nebo celou řadu dalších omezení. 8. MD_ReferenceSystem určuje referenční systém pro geografická data. Obsahuje název referenčního systému a jeho popis. 9. Poslední entitou uváděnou v MIS MŽP je MD_Distribution. Jsou v ní obsaženy informace o distribuci zdroje – kontaktní údaje na distributora zdroje, popis formátu, ve kterém jsou data distribuována a informace o možnostech získání zdroje a souvisejících poplatcích. Nyní, když známe rámcově strukturu metadat spravovaných v MIS MŽP, se můžeme podívat na mezinárodní iniciativu INSPIRE.
5.6 INSPIRE INSPIRE – INfrastructure for SPatial InfoRmation in Europe [INSPIRE] je směrnice, která vzešla z iniciativy Evropské komise. Cílem této směrnice je zajistit na celoevropské úrovni všem úřadům od obcí po ministerstva přístup k datům o životním prostředí a souvisejících tématech, poskytovaných datovými zdroji v ČR a ostatních členských státech EU. Směrnice samotná má zajistit evropskou legislativu potřebnou k vytvoření a poskytování jednotlivých prostorových informací, podle kterých je možno lépe rozhodovat v oblasti politiky životního prostředí (nebo jiných politik, které mají vliv na životní prostředí). Česká republika se projektu účastní od dubna 2002, kdy v přípravných projektech za ČR vystupovala Česká asociace pro geoinformace (CAGI) (mimo jiné provozovatel MIDAS). Nyní zde vystupuje Ministerstvo životního prostředí (v zastoupení CENIA) a Ministerstvo informatiky. Rozhodovací a schvalovací procesy Evropské unie jsou ovšem velmi komplikované a tak je v současnosti schvalován (a některými orgány již schválen) přípravný text směrnice. Přijetí - 54 -
Národní metadatový katalog směrnice v EU se očekává v letošním roce, transpozice do národní legislativy by měla proběhnout v letech 2007-2008. Text této kapitoly vychází z předběžných textů směrnice, tudíž není vyloučeno, že u některých zde popsaných skutečností dojde ke změnám. Infrastrukturou pro prostorové informace jsou v rámci této směrnice myšleny: metadata (informace popisující soubory prostorových dat nebo služby na nich založené a umožňující vyhledávání, třídění a používání) prostorová data (data, jež přímo nebo nepřímo odkazují na konkrétní polohu nebo oblast) soubor prostorových dat a služby založené na prostorových datech (identifikovatelná skupina prostorových dat a možné formy zpracování prostorových dat obsažených v takových skupinách) související síťové služby a technologie dohody o sdílení, přístupu a používání prostorových dat. mechanismy koordinace a sledování využití prostorových dat. procesy a postupy zavedené, prováděné nebo zpřístupněné v souladu s touto směrnicí. Směrnice se týká těch souborů prostorových dat, které se vztahují k oblasti ve které stát má nebo vykonává svrchovaná práva a zároveň jsou drženy v elektronické podobě orgánem veřejné správy (nebo třetí stranou dle určitých pravidel). Nevyžaduje přitom tvorbu nových prostorových dat, ale spíše přizpůsobení dat stávajících. Členské státy se na základě této směrnice zavazují k zřízení a poskytování následujících služeb: Vyhledávací služby (discovery services) umožňující vyhledání souborů prostorových dat nebo služeb na těchto datech založených na základě obsahu odpovídajících metadat a umožňující zobrazení těchto metadat. Prohlížecí služby umožňující zobrazit, procházet, přiblížit či oddálit, posouvat nebo překrývat zobrazitelné soubory prostorových dat a zobrazit vysvětlivky či jakýkoliv další významný obsah metadat. Služby stahování dat umožňující stáhnutí úplných prostorových dat, nebo alespoň jejich částí tam, kde je to možné. Transformační služby umožňující transformaci prostorových dat za účelem dosažení jejich interoperability (možnost kombinace prostorových dat a vzájemná komunikace mezi službami) Služby umožňující spouštění služeb založených na prostorových datech. - 55 -
Národní metadatový katalog Budoucí realizace těchto služeb samozřejmě vyžaduje značné zásahy jak do legislativy, tak do struktury a funkčnosti jednotlivých metainformačních systémů. Na národní úrovni je připravována Národní implementační strategie INSPIRE (dále NIS). Vytvoření NIS předchází analýza dostupných datových zdrojů INSPIRE, analýza legislativních přesahů a implementační analýza. Aktuálně probíhá analýza dostupných datových zdrojů. Tato analýza mapuje nalezené datové zdroje, jejichž vytváření řídí veřejná správa ČR. Její výsledek je vystaven v Příloha 2 – Analýza datových zdrojů pro naplňování směrnice INSPIRE. Tento výstup bude použit k oslovení dotčených resortů a krajů s žádostí o spolupráci a součinnost. Za povšimnutí v této analýze mimo jiné stojí seznam 34 témat prostorových dat, která identifikuje směrnice. Po dokončení všech analýz je předpokládán vznik čtyř pracovních skupin pro tyto oblasti: Analýza nákladů/výhod, proveditelnosti a finančních aspektů aplikace INSPIRE v ČR. Legislativní aspekty INSPIRE, přesahy do současné legislativy Technické aspekty INSPIRE, implementace technických požadavků Standardizační skupina INSPIRE Zájemce o podrobnější popis infrastruktury, na níž by v budoucnu měly fungovat služby vyžadované směrnicí INSPIRE odkazuji na kapitolu 8.1.3. V souvislosti s Národním metadatovým katalogem pak není bez zajímavosti, že jsou obecně předpokládány 2 modely publikování dat jejich poskytovateli. Často aktualizovaná, operativní, velmi rozsáhlá či jinak specifická data budou publikována jednotlivými poskytovateli dat buď ve vytvořeném publikačním systému nebo aplikaci Mapmaker. Zřídka aktualizovaná či méně obsáhlá data bude možné hostovat společně s metadaty na infrastruktuře CENIA. Tato možnost v určité podobě funguje již dnes. Pro řadu organizací je tento přístup mnohem vhodnější, neboť není třeba pro správu metadat vytvářet vlastní infrastrukturu náročnou jak na práci, tak na znalosti.
5.7 Shrnutí Životní prostředí je díky zákonu 123/1998 Sb. oblastí státní správy bohatou na informační zdroje. Významnou úlohu v informování veřejnosti zde hraje Metainformační systém Ministerstva životního prostředí (MIS MŽP), který je spravován Českou informační agenturou životního prostředí (CENIA). MIS MŽP obsahuje metadata popisující informační zdroje z oblasti životního prostředí která do něj vkládají editoři tzv. podřízených organizací. - 56 -
Národní metadatový katalog Nová verze systému, která je nyní v testovací fázi, je postavena na normě ČSN ISO 19115 a metadatovém katalogu MIcKA tak, aby bylo v systému možno popisovat jak data prostorová, tak data ostatní. Do budoucna se počítá se zapojením MIS MŽP do infrastruktury INSPIRE.
6. MIDAS MetaInformační DAtabázový Systém
(MIDAS) [MIDAS] je nejstarší a nejpoužívanější
metainformační systém veřejné správy v ČR. MIDAS byl vyvinut a je provozován Českou asociací pro geoinformace
(CAGI), respektive její odbornou komisí, jejíž členové jsou
Vysoká škola báňská - Technická univerzita Ostrava a České vysoké učení technické v Praze. Původně byl navržen jako metasystém pro popis datových souborů geografických informací, ale jeho současná funkčnost je poněkud širší. Vzhledem k zapojení kolektivu VŠB – TUO (a akademické sféry obecně) je také nejlépe popsaným a zdokumentovaným metasystémem veřejné správy ČR. Nejdůležitějšími zdroji pro mě při zpracování této kapitoly (mimo samotného [MIDAS]) byly [RUZ1] a [RUZ2].
6.1 Historie MIDAS Projekt metainformačního systému veřejné správy v ČR, jehož výstupem je MIDAS, se zrodil již v roce 1998. Tento projekt byl realizován na sdruženém pracovišti CAGI + HGF VŠB – TUV. V průběhu roku 1999 byla vypracována úvodní studie a zahájeny práce na systému. Koncem roku již byla vyvinuta první verze systému s několika funkčními moduly (zejména s modulem pro editaci a vkládání metadat prostřednictvím WWW a modulem pro vyhledání a zobrazení metadat, které zajišťují základní funkčnost systému) a na přelomu roku 1999/2000 proběhl první sběr metadat. V roce 2000 získal tento projekt název MIDAS a jako takový byl průběžně modifikován a zároveň intenzivně propagován v zahraničí. MIDAS byl původně navržen jako metasystém pro evidenci geodat. CAGI však v roce 2000 uzavřelo smlouvu s Úřadem pro veřejné informační systémy a MIDAS začal být používán jako centrální metainformační systém veřejné správy. V průběhu roku 2001 byl dokončen standard ISVS (který přestal platit v březnu tohoto roku, viz. kap. 3.4) a následně došlo k úpravě datového modelu metasystému v souladu s novým standardem. MIDAS je skutečně „žijícím“ projektem, menší úpravy jsou na něm prováděny prakticky neustále.
- 57 -
Národní metadatový katalog
6.2 Současný stav MIDAS MIDAS se nyní v souvislosti se snahou o vytvoření národního metainformačního systému pozvolna začíná vracet do své původní role, tj. národně-oborového metainformačního systému pro geodata. V rámci národního metadatového katalogu by měl
fungovat jako
podsystém pro digitální geografická data. Největší změnou, která MIDAS očekává je přechod na nový standard. Standard ISVS, na kterém je MIDAS postaven, byl zrušen a do popředí zájmu se dostala již mnohokrát zmiňovaná norma pro popis geografických dat ČSN ISO 19115. S budoucím přechodem na tuto normu se pro MIDAS počítalo již od roku 2002 a nedávno se začalo s jeho realizací. Počítá se též se zapojením MIDAS do infrastruktury INSPIRE. Výsledná struktura MIDAS tak bude s největší pravděpodobností velice podobná struktuře MIS MŽP, neboť oba systémy budou založeny na stejném standardu a týmy řešitelů jsou díky iniciativě INSPIRE v těsném kontaktu.
6.3 Struktura systému MIDAS Struktura systému MIDAS je znázorněna na Obr. 8. Jak z obrázku vyplývá, MIDAS je složen z několika integrovaných modulů. Funkčnosti vybraných modulů bych se zde rád věnoval blíže.
Obr. 8: Struktura systému MIDAS (Zdroj: [RUZ1], str. 100) - 58 -
Národní metadatový katalog Stejně jako MIS MŽP i MIDAS je orientován na WWW rozhraní. Pracovat s MIDASem tak lze přes standardní webové prohlížeče. Dva moduly vyznačené na obrázku čárkovanými čarami ovšem k práci s MIDASem toto rozhraní nepoužívají. Správa databáze je řešena v MS Access jako soustava formulářů a dotazů. Umožňuje správu číselníků, nápovědy, uživatelů a vlastnictví datových sad. MIDASLite je offline desktop aplikace (viz. kap. 4.1.4) sloužící k pořizování a editaci metadat mimo prostředí WWW. Pro uživatele nezvyklé na práci s daty v prostředí WWW byla vytvořena aplikace MIDASLite, která nabízí v podstatě totožné možnosti jako webové rozhraní MIDAS. Aplikace je vytvořena v jazyce Visual Basic a pracuje nad databází MS Access. Uživatelské rozhraní je koncipováno analogicky k webovému rozhraní a vytvořená metadata (s totožnou datovou strukturou jako metadata na webu) lze zaslat administrátorovi systému, který je do systému vloží. Nejčastějším způsobem, jak jsou data vkládány je již zmíněné webové rozhraní. Na obrázku je zachycen jako Import z formuláře. Správci metadatových záznamů (obdoba editorů u MIS MŽP) mohou data upravovat prostřednictvím formulářů, které jsou po odeslání převedeny na PHP skripty a v případě vyhovujících hodnot uloženy do databáze. Další zajímavou možností je import/export dat ve formátu XML. Tuto funkci má MIDAS již od roku 2001, zatímco např. MIS MŽP bude importy/exporty v XML podporovat až v nové verzi. Tento modul umožňuje načíst metadata z XML dokumentu, jehož struktura odpovídá DTD pro výměnný formát (v tomto případě je v souladu s DTD definovaným na základě standardu ISVS) a vložit je do systému. Možností je též vyexportovat z MIDAS libovolná data v XML pro použití v jiných systémech či aplikacích. Modul vyhledání nabízí formuláře pro zadání podmínek vyhledání metadatových záznamů a zajišťuje následné spojení s databází a vyhledání odpovídajících výsledků. Modul používá služeb modulů přístup k datům, autentizace, mapový server a nápověda. V závislosti na tom, zda uživatel je či není přihlášen (modul autentizace) jsou modifikovány výsledky vyhledávání. Modul zobrazení generuje HTML kód pro prezentaci požadovaných metadat a modul editace umožňuje pomocí formulářů vkládání nových či editaci stávajících dat. S modulem správa uživatelů pracují administrátoři systému a s jeho pomocí do systému vkládají nové uživatele. Modul přístup k datům zajišťuje spojení s databází, spouštění dotazů a zpracování jejich výsledků. Modul mapový server poskytuje specifickou funkcionalitu spojenou s geodaty. Umožňuje vygenerování elektronicky publikované mapy za účelem vyhledávání podle plošného pokrytí, sestavení dotazů za účelem vyhledání podle plošného pokrytí, vygenerování - 59 -
Národní metadatový katalog elektronicky publikovatelné mapy za účelem zobrazení plošného pokrytí v mapě a vygenerování formulářů pro textové zadání plošného pokrytí. Modul nápověda umožňuje generovat HTML kód pro zobrazení různých položek nápovědy. S jeho pomocí lze v položkách nápovědy i vyhledávat.
6.4 Metadata v MIDAS 6.4.1 Metadatové třídy V souladu se standardem ISVS jsou v systému MIDAS metadata rozděleny do tzv. metadatových tříd. Každá metadatová třída obsahuje odlišná metadata shromažďovaná k různým účelům. Následující tabulka shrnuje existující třídy systému MIDAS. Třída (modul) Datový soubor Organizace Osoba Událost Služba Aplikační software Dokument
Popis Data tvořící logický celek v rámci informačního souboru či datové báze. Může se jednat o jeden soubor či kolekci těchto souborů. Organizační subjekt (firma, odbor, úřad, instituce, agentura, ...), který je ve vztahu k jiným objektům v systému. Osoba, která je ve vztahu k jiným objektům v systému. Jakákoliv událost, např. konference, seminář, kontrolní schůzka, zasedání městského zastupitelstva, která má (nebo může mít) vztah k datovému souboru. Služby především spojené se zpracováním datových souborů (pořízení dat, metadat). Programové vybavení účelově zaměřené a ve vztahu k datovým souborům. Jakýkoliv dokument, který popisuje (nebo je ve vztahu) některý z objektů v systému. Tab. 7: Metadatové třídy systému MIDAS (Zdroj: [RUZ1], str. 102)
Každé z těchto tříd také odpovídají odlišné způsoby, jak vyhledávat datové sady v rámci této datové třídy. Nejširší možnosti pochopitelně nabízí datový soubor. Datové soubory lze: vybírat ze seznamu podle abecedy vybírat ze seznamu podle kategorie z číselníku vyhledat podle organizace vyhledat podle zadaného textového řetězce vyhledat podle plošného pokrytí v mapě Ostatní třídy lze vypisovat podle abecedy nebo vyhledávat podle textového řetězce, třídy osoba, služba a aplikační software je navíc možno vyhledávat i podle příslušné organizace. - 60 -
Národní metadatový katalog Koncept datových tříd však s největší pravděpodobností s přechodem na novou verzi systému zanikne, nebo bude alespoň významně modifikován, neboť v ČSN ISO 19115 data nejsou rozděleny do analogických tříd.
6.4.2 Správci metadat V systému MIDAS můžeme identifikovat tři základní uživatelské role. Běžné uživatele, kteří si mohou vyhledávat a prohlížet metadata v běžném uživatelském rozhraní. Správci metadat mají podobnou úlohu jako editoři v MIS MŽP. Mohou se přihlásit do systému a vkládat či editovat své metadatové záznamy. Administrátoři druhého stupně mají na starosti správu uživatelských účtů a správu systému jako takového. Hlavním rozdílem oproti MIS MŽP je mnohem větší počet správců metadat. MIDAS je totiž i objemem dat mnohem větším systémem. Obsahuje přes 4000 datových sad, z toho cca 80% záznamů bylo pořízeno správci prostorových dat na okresních úřadech. Stejně jako u systému MIS MŽP je problémem nestejná úroveň popisu datových sad.
6.5 Shrnutí MIDAS je nejstarší a nejpropracovanější metainformační systém veřejné správy ČR. Obsahuje přes 4000 záznamů, zejména pak datové sady popisující geodata (digitální geografická data). Je provozován Českou asociací pro geoinformace ve spolupráci s Vysokou školou báňskou – technickou univerzitou Ostrava. Je vyvíjen od roku 1998 a založen na již neplatném standardu ISVS. Nedávno byl zahájen jeho přechod na novou strukturu dle normy ČSN ISO 19115. Mimo vkládání, editace a zobrazování metadatových záznamů na rozhraní WWW podporuje i vkládání datových sad přes desktop aplikaci MIDASLite. Možný je rovněž import/export dat v XML formátu. Součástí MIDAS je modul mapový server který umožňuje zobrazení plošných dat a práci s nimi. MIDAS má v koncepci národního metainformačního systému hrát úlohu podsystému pro geodata a počítá se i s jeho zapojením do infrastruktury INSPIRE.
- 61 -
Národní metadatový katalog
7. SMS Statistický Metainformační Systém je národně-oborovým metainformačním systémem Českého statistického úřadu (ČSÚ). Svým charakterem se značně liší od dříve popsaných metasystémů MIS MŽP a MIDAS. Ačkoliv je svým zaměřením cílen jako národní metasystém, svým charakterem odpovídá spíše podnikovému metainformačnímu systému. Je koncipován jako jedna ze součástí informačního systému ČSÚ a měl by být běžně využíván pracovníky ČSÚ při veškerých procesech týkajících se sběru, zpracování a diseminace statistických dat. SMS ve své podstatě informuje o statistickém informačním systému (SIS). Informace obsažené v této kapitole jsem čerpal zejména z [MEL], [SMS] a neveřejné projektové dokumentace SMS. SMS vychází z metadatových standardů pro popis statistických metadat, které vytvářejí Eurostat, OECD a EKH/OSN.
7.1 Historie SMS Jednoznačně shrnout historii SMS není příliš jednoduchý úkol. Na jednu stranu lze říci, že SMS je teprve ve vývoji, na druhou stranu má Český statistický úřad ve využívání metadat značnou praxi. Reálně fungující metainformační systém SMS s jasnou koncepcí je ale v současnosti skutečně teprve vyvíjen. Statistická metadata jako nedílná součást statistických dat jsou ovšem v ČSÚ nahodile v různé formě používána již velice dlouho. SMS byl původně budován čistě po technické stránce a docházelo tak k tvorbě vzájemně nepropojených modulů. Koordinace mezi těmito moduly byla finančně i z hlediska potřebných lidských kapacit velmi neefektivní, ne-li rovnou nemožná. Vzhledem k nesystematické práci s metadaty se vyskytovaly datové duplicity, docházelo k zastarávání dat nebo data zcela chyběla. K hlavní změně v prioritě funkcí SMS došlo s nástupem internetu. Možnosti elektronického sběru dat, interaktivní komunikace uživatelů a zajištění elektronických informací pro uživatele statistických dat tvoří poptávku po kvalitních statistických metadatech. Postup budování SMS tak byl zcela přehodnocen a přednost dostala (jak je obvyklé v řadě národních statistických úřadů) oblast obsahová a metodická. Statistická metadata jsou velmi rozmanitá a projekt tvorby SMS je tak nutně dlouhodobou a náročnou záležitostí. Tvorba „nového“ SMS začala v roce 2004, v roce 2005 byla schválena koncepce SMS [SMS]. V současnosti jsou řešeny 4 bloky SMS (viz. kap. 7.2.1), každý z nich se nachází v různé fázi realizace (viz. kap. 7.2.2.)
- 62 -
Národní metadatový katalog
7.2 Struktura SMS V této kapitole popíši navrženou strukturu SMS. Ta je navržena tak, aby SMS co nejlépe podporoval dosažení vize SMS. SMS musí zajistit systematické využívání metainformací uvnitř i vně SIS. Koncepce SMS je nedílnou součástí strategie ČSÚ.
7.2.1 Bloky statistických metadat Jak již bylo uvedeno v úvodu této kapitoly, struktura SMS je díky povaze statistických dat a úloze metasystému v informačním systému ČSÚ značně komplikovanější, než je struktura jiných METIS. SMS je tvořen tzv. funkčními bloky. Schéma koncepčního návrhu těchto bloků (červená - interní uživatelé v ČSÚ, modrá - externí uživatelé) zobrazuje Obr. 9.
Obr. 9: Schéma koncepčního návrhu SMS (Zdroj: [SMS], příloha 1)
Obsah jednotlivých bloků je podrobněji rozepsán v Příloha 3 – Obsah jednotlivých bloků SMS. Tyto bloky se sice z hlediska obsahu značně liší, jsou však mezi sebou vzájemně provázány.
7.2.2 Úloha SMS Navržená koncepce SMS respektuje tyto základní požadavky: a) Metodické činnosti uvnitř ČSÚ jsou řízeny pomocí metadat. Funkce metadat v oblasti metodické má rozhodující roli.
- 63 -
Národní metadatový katalog b) Metainformace jsou klíčovým nástrojem při posuzování kvality statistických informací. Hodnocení kvality statistických dat je významným rysem statistické činnosti. Za tímto účelem byla statistickými organizacemi přijata celá řada kritérií kvality. c) Metainformace jsou klíčovým nástrojem při poskytování informací uživatelům. Uživatelé potřebují kvalitní a spolehlivá metadata pro vyhledávání, výběr a interpretaci získaných statistických informací. Metadata jsou též nezbytným předpokladem dalšího zpracování získaných statistických informací. d) Metadata jsou integračním nástrojem mezi SIS, dalšími informačními systémy ve veřejné správě (zejména s dalšími pracovišti státní statistické služby) a informačními systémy respondentů. e) Metadata jsou integračním nástrojem mezi SIS a nadnárodními statistickými informačními systémy. Rozhodující mezinárodní organizace (Eurostat, OECD, EHK/OSN, IMF a další) kladou zvýšené nároky na jednotlivá metadata přejímaná z národních statistických úřadů. f) Poskytovat potřebné nástroje pro definování procesů sběru, zpracování a diseminace statistických dat a informací. Vytvářet prostředky, které umožní unifikovat a standardizovat pracovní postupy uvnitř ČSÚ a vytvářet tím nezbytnou bázi znalostí SIS. g) Poskytovat nástroje pro podporu a řízení zpracování statistických úloh, pro plánování, návrh, implementaci a vyhodnocení statistického zpracování. h) Vytvářet jednotnou statistickou terminologii jako nástroje pro srozumitelnou komunikaci tvůrců i uživatelů statistických dat.
7.2.3 Vývoj SMS Vývoj SMS probíhá po blocích. V souladu s navrženým plánem mají být jednotlivé funkční bloky řešeny postupně podle svého významu a návaznosti na ostatní bloky. Pro představu zde zmíním aktuální situaci z dubna 2006. Jako první byl odděleně od ostatních řešen Blok 5 – Statistické klasifikace. Ten je nyní rozpracován nejvíce a nachází se již ve fázi přípravy úvodní verze programové aplikace. Blok 6 – Ukazatele má ukončené zadání a rozbíhají se práce na přípravě technického projektu. U bloků 1+2 – Statistické úlohy a statistická zjišťování bylo zahájeno zadání. U ostatních bloků se prozatím pracuje pouze na problematice kvality dat. - 64 -
Národní metadatový katalog
7.2.4 Modul KLAS Modul/blok Klasifikace a číselníky (KLAS) je prozatím nejpropracovanějším blokem SMS. Doposud platný systém vedení klasifikací a číselníků slouží jako jeden ze základních integračních nástrojů statistiky již od roku 1996. Tento systém je nezbytné inovovat aby byly odstraněny nekonzistence současného systému, aby bylo možno vyhovět rostoucím informačním požadavkům a aby bylo možno zvýšit počet číselníků. Inovovaný modul KLAS bude základním informačním zdrojem pro všechny uživatele SMS. Představuje rovněž východisko pro všechny ostatní bloky. V rámci bloku KLAS je obsah bloku definován v rámci několika různých položek: katalog klasifikací, katalog číselníků (oba katalogy jsou v roli meta meta dat) položka klasifikace a číselníku, katalog vazeb a vazby mezi klasifikacemi a číselníky. Pro lepší pochopení obsahu jednotlivých položek zde uvedu strukturu metadat položky klasifikace a číselníku. Položka klasifikace nebo číselníku je tedy tvořena těmito metainformacemi: kód položky zkrácený text položky klasifikace/číselníku plný text položky klasifikace/číselníku časová platnost definice položky klasifikace/číselníku kvantitativní atributy další popisné atributy geografické atributy vazbou připojené položky číselníků – atributy položky klasifikace/číselníku informace o stavu položky klasifikace/číselníku Jak je vidno, jedná se skutečně o strukturu metadatového záznamu značně odlišnou od struktury systémů MIDAS či MIS MŽP.
7.2.5 Role Pro blok KLAS lze definovat 4 základní uživatelské role (analogicky je lze definovat i na úrovni SMS). Jsou to: Technologická správa (správci systému, práce s databází, úpravy struktury) Obsahová správa – gestoři (aktualizace a vytváření klasifikací a číselníků) Ostatní vnitřní uživatelé (přístup ke všem klasifikacím a číselníkům) Vnější uživatelé (přístup k oficiálním klasifikacím a číselníkům) - 65 -
Národní metadatový katalog Z tohoto rozdělení rolí (ostatní vnitřní uživatelé VS vnější uživatelé) jasně vyplývá, že ne všechna metadata obsažená v SMS jsou určena pro všechny uživatele a stejně tak, že k exportu do nadnárodních metasystémů nebude určen kompletní obsah metainformačního systému. Alternativní rozdělení uživatelů zahrnuje třídění podle profesní příslušnosti uživatelů. vnitřní uživatelé (technologická správa systému KLAS, obsahová správa systému KLAS, statistické odbory, navrhovatelé a projektanti statistických úloh, programátoři a zpracovatelé statistických úloh, poskytování a prezentace klasifikací a číselníků, analýzy) vnější uživatelé (pracoviště státní statistické služby, zpravodajské jednotky, veřejná správa, laická veřejnost, odborná veřejnost, Eurostat a ostatní mezinárodní instituce)
7.3 Shrnutí Statistický Metainformační Systém je metainformačním systémem Českého statistického úřadu a tedy i metainformačním systémem státní statistické služby. Svou strukturou odpovídá spíše podnikovým metasystémům, neboť by měl být využíván v rámci veškerých procesů spojených se statistickými daty. V současnosti probíhá jeho přestavba z nekoncepčně vytvořených modulů na metodicky a obsahově vyspělý metainformační systém veřejné správy. Bude složen z deseti vzájemně provázaných funkčních bloků navrhovaných na základě standardů vytvářených organizacemi Eurostat, OECD a EKH/OSN. Jednotlivé bloky jsou vytvářeny postupně, v současnosti jsou rozpracovány první čtyři bloky. Nejdále je v realizaci modul KLAS – klasifikace a číselníky.
- 66 -
Národní metadatový katalog
8. Národní metadatový katalog V této části práce navrhnu datovou strukturu Národního metadatového katalogu (dále také NMK) tak, aby bylo možno v tomto katalogu integrovat a využívat metadata z ostatních metainformačních systémů veřejné správy. Národní metadatový katalog tak bude představovat centrální zdroj pro uživatele vyhledávající datové zdroje pomocí metadat. Nejprve si ale uvedeme předpoklady ze kterých bude návrh tohoto systému vycházet.
8.1 Členění centrálních metainformačních systémů Centrální metainformační systémy6 lze podle míry centralizace v zásadě rozdělit do tří základních skupin. Jsou to [RUZ1]: Centrální metasystémy Metadatové katalogy Distribuované portály
8.1.1 Centrální metasystémy Centrální metasystémy představují takovou variantu, při které jsou veškerá metadata v kompletní podobě uložena na jednom centrálním serveru. Fyzicky mohou být uložena navíc i ve zdrojových metasystémech, ze kterých pochází, ale centrální metasystém má jejich kopii a veškeré vyhledávání metadat, jejich prohlížení či jejich editace se odehrává na jediném místě. Z implementačního hlediska by se mohlo zdát, že jde o nejjednodušší variantu, ale ve skutečnosti jde o variantu spíše teoretickou. Na úrovni metadatových systémů, které v sobě obsahují metadata z více oblastí (a tedy více různých struktur) je nepřekonatelnou překážkou právě rozdílnost těchto metadatových struktur. Vytvořit návrh databáze, která by v sobě obsahovala několik desítek až několik stovek různých metadatových prvků (či atributů), přičemž by valná většina hodnot nebyla vůbec vyplněna, je velmi namáhavé a zcela neúčelné. Nad různými metadaty, jejichž průnik společné struktury je velmi malý, lze navíc jen velmi těžko vyhledávat. Tento model je tedy aplikovatelný pouze pokud mají zdrojové metainformační systémy veškerá data ve stejné struktuře. To ovšem není případ NMK.
6
Tedy takové systémy, které v sobě integrují metadata z jiných (podřízených) metasystémů a umožňují v těchto metadatech vyhledávat - 67 -
Národní metadatový katalog
8.1.2 Metadatové katalogy Varianta metadatový katalog (někdy také nazývána distribuce metadat vertikálním a horizontálním členěním) vychází z těchto předpokladů: Veškeré veřejné metainformační systémy připojené do katalogu mají určitou část metadat, tzv. core metadata ve stejné struktuře, tzn. evidují u nich shodné údaje. Tyto core metadata jsou importovány (pravidelně nebo nepravidelně) přes určitý výměnný formát (např. XML) do databáze metadatového katalogu. Metadatový katalog tak eviduje core metadata všech ostatních METIS, ostatní metadata (doplňková) zůstávají evidována na příslušných METIS. Uživatel, který chce vyhledat metadata tak využije rozhraní WWW pro přístup do metadatového katalogu. Po zadání podmínek pro hledání probíhá vyhledávání nad core metadaty uloženými v katalogu. Základní údaje o nalezených metadatových záznamech jsou uživateli zobrazena rovněž přímo z databáze katalogu. Vyžaduje-li uživatel doplňující údaje (tj. kompletní výpis metadatového záznamu se všemi náležitostmi, tedy nejen core daty) vznáší katalog dotaz na METIS z kterého data pocházejí a buď: Získá prostřednictvím výměnného formátu kompletní metadatový záznam a prezentuje jej na WWW uživateli, nebo Přesměruje uživatele na zdrojový METIS, který uživateli data zobrazí. Druhá varianta je pochopitelně jednodušší na implementaci, ale uživatel přichází o jednotné uživatelské a prezentační rozhraní. Z hlediska implementace NMK jsou metadatové katalogy rozumnou volbou, nepříliš náročnou na realizaci. Jediným vážnějším problémem může být otázka včasné aktualizace (importu) core dat do katalogu, kdy může docházet k dočasným datovým nekonzistencím.
8.1.3 Distribuované portály Poslední, z hlediska implementace jednoznačně nejsložitější volbou, jsou distribuované portály. Varianta distribuovaných portálů počítá s těmito předpoklady: Všechny metainformační systémy mají určitou část metadat, tzv. core metadata ve shodné struktuře. Veškerá metadata jsou evidovány pouze na patřičných zdrojových serverech
- 68 -
Národní metadatový katalog Chce-li uživatel vyhledat metadata, připojí se k portálu a zadá požadavek. Portál si ve své databázi najde seznam přístupných metasystémů a jejich komunikačních protokolů a na základě těchto informací na všechny přes patřičná rozhraní odešle požadavek uživatele. Jednotlivé METIS požadavek zpracují a přes rozhraní zašlou zpět na portál nalezené záznamy. Pokud si chce uživatel některý ze záznamů prohlédnout, zadá na portálu požadavek na zobrazení kompletního metadatového záznamu, portál si metadata vyžádá v konkrétním METIS, přes rozhraní je obdrží a prezentuje je uživateli. Stejně jako u varianty s katalogem i zde mohou závěrečnou fázi zobrazení obsahu metadat zprostředkovat jednotlivé METIS. Tento model je jediným skutečně dynamickým modelem a nedochází zde k žádnému duplikování dat. Zájemce o hlubší náhled do problematiky odkazuji na kap. 8.2, případně [RUZ1] a [HOR].
8.1.4 Volba formy NMK Která varianta řešení NMK by ale byla nejvhodnější? S klidným svědomím je možno zamítnout variantu centrálního metasystému. Odpověď na otázku, zda použít variantu metadatového katalogu či distribuovaný portál by ale už tak jednoduchá nebyla. Pro metadatový katalog hovoří mnohem jednodušší návrh a implementace, pro distribuovaný portál fakt, že jde skutečně o nejdokonalejší řešení které by v případě úspěšné realizace představovalo nesmírně zajímavý projekt. Vzhledem k účelu této práce ale není nutné dospět k jednoznačnému rozhodnutí. Z hlediska návrhu struktury core metadat, která je cílem této diplomové práce, jsou obě varianty rovnocenné. Obě varianty pracují se stejnou strukturou core dat, ač každá jiným způsobem. Národní metadatový katalog, který zřejmě vznikne díky projektu Architektura národní metainformační infrastruktury (viz. následující kapitola 8.2) však půjde cestou distribuovaného portálu.
8.2 Architektura metainformační infrastruktury „Architektura metainformační infrastruktury“ je název grantové přihlášky standardního projektu Grantové agentury České republiky (GAČR). Navrhovatelem projektu je Dr. Ing. Bronislava Horáková (VŠB – TUO, MIDAS), spolunavrhovateli pak Masarykova univerzita v Brně (např. Dublin Core Czech), CENIA (MIS MŽP) a Help service remote sensing s. r. o. (metadatový katalog MIcKA). Cílem tohoto projektu (pokud bude schválen) bude v horizontu tří let navrhnout, vyvinout a ověřit prototyp technologické části metainformační infrastruktury ([HOR], část Abstrakt). Navržené řešení bude ověřováno v pilotní oblasti resortu životního - 69 -
Národní metadatový katalog prostředí (tedy MIS MŽP), vybrané s ohledem na iniciativu INSPIRE. Tříletý projekt, jehož se budou účastnit všichni významnější hráči na současném poli MISVS, je tedy zaměřen na realizaci infrastruktury Národního metadatového katalogu formou distribuovaného portálu. Výstupem projektu budou specifikace pro základní prvky a komponenty metainformační infrastruktury, což zahrnuje především komunikační rozhraní pro zpřístupnění informací o heterogenních datech, informacích a službách v prostředí internetu; a prototyp Metaportálu umožňující vstup do distribuované sítě a zpřístupňující její zdroje a služby poskytované různými systémy bez ohledu na jejich architekturu a použité zázemí. Výsledkem by měla být architektura, která bude založena na dynamických vyhledávacích službách (tzv. discovery services) s využitím metainformací a to na pravidlově orientovaném stroji, který bude poskytovat znalosti vybrané podle jeho implementované logiky. Roli metaportálu v této infrastruktuře nejlépe vysvětlí Obr. 10.
Obr. 10: Koncept použití metaportálu v rámci infrastruktury (Zdroj: [HOR])
Důležitou komponentou navrhované architektury je tzv. metadata crosswalk (metadatový přechod/překlad), který má zajišťovat komunikaci s různými rozhraními METIS založených na různých metadatových standardech. Jeho funkce je znázorněna na Obr. 11.
- 70 -
Národní metadatový katalog
Obr. 11: Role "metadata crosswalk" v komunikačním rozhraní distribuovaného portálu (Zdroj: [HOR])
8.3 Zvolený standard Jak vyplynulo z předchozího textu, dominantní normou v oboru metainformačních systémů se stala ČSN ISO 19115 [ČSN/ISO19115]. Je to způsobeno zejména tím, že oba nejvýznamnější MISVS v ČR (MIDAS a MIS MŽP) obsahují vysoký podíl geodat. Zároveň je norma ČSN ISO 19115 normou, která je směrodatná i pro zapojení NMK do nadnárodní infrastruktury INSPIRE a představuje tedy ideální volbu pro strukturu NMK. Z dalších norem je vhodné mít na zřeteli metodický pokyn ISVS [ISVS] pro popis metadatových informačních zdrojů.
8.4 Návrh struktury 8.4.1 Východiska návrhu Návrh metadatové struktury NMK tedy bude proveden v souladu s normou ČSN ISO 19115. Výsledný návrh core metadat musí respektovat dva požadavky: Core data musí mít takovou strukturu, aby byla vyplněna a evidována u všech METIS u záznamů, u kterých to má smysl (tedy co nejstručnější pojetí). Core data musí být natolik obsažná, aby nad jejich strukturou mohlo být prováděno dotazování a vyhledávání podle mnoha různých parametrů (tedy zároveň co nejobsáhlejší). Důsledkem těchto podmínek je snížení relevance položek s textovými popisy – ačkoliv je uživatel může použít k pochopení vhodnosti metadat pro jeho účely, nelze je příliš využít k vyhledávání metadat. Zobrazení takových položek bude uživateli umožněno na vyžádání ze zdrojových systémů. Dále je zřejmé, že u všech záznamů nemohou být vyplněny všechny - 71 -
Národní metadatový katalog položky, neboť například metadata, která nemají prostorovou složku nemohou mít vyplněny údaje o geografickém rozsahu, zároveň však je kvůli metadatům s prostorovou složkou nutno geografický rozsah evidovat. Vyřazovány byly často rovněž ty položky u nichž lze oprávněně předpokládat, že nebudou vyplňovány korektně (viz. kap. 4.3), resp. u kterých lze předpokládat neaktuálnost údajů.
8.4.2 Struktura NMK Zásadní roli ve struktuře NMK hraje informace o metadatech a informace o zdroji. Volím následující formu zápisu: 1. NÁZEV PRVKU (krátký název v notaci ČSN ISO 19115), položka ve sborníku dat, povinnost záznamu ((M)–povinné;(O)–volitelné;(C)–podmíněné za určitých okolností) [hierarchie entity v ČSN ISO 19115], datový obsah , maximální výskyt, případný komentář k prvku. A teď tedy již k samotnému návrhu: I. INFORMACE O MNOŽINĚ METADATOVÝCH ENTIT (Metadata), B.2.1 (M) [MD_Metadata], třída, 1 2. Pověřená osoba pro metadatovou informaci (mdContact), B.2.1 (M) [MD_Metadata.contact], třída, N Příjmení, jméno a titul pověřené osoby (rpIndName), B.3.2.1 (C) [CI_ResponsibleParty.individualName], volný text, 1 Název pověřené organizace (rpOrgName), B.3.2.1 (C) [CI_ResponsibleParty.organisationName], volný text, 1 - vyplněn musí být buď název pověřené organizace nebo pověřená osoba Funkce pověřené osoby (role), B.3.2.1 (M) [CI_ResponsibleParty.role > CI_RoleCode], kódy rolí (001-011) B.5.5, 1 Kontaktní informace (rpCntInfo), B.3.2.1 (O) [CI_ResponsibleParty.contactInfo > CI_Contact], třída, 1 a) Adresa (cntAddress), B.3.2.3, (O) [CI_Contact.address > CI_Address], třída, 1 b) Telefon a fax (cntPhone), B.3.2.3 (O) [CI_Contact.phone > CI_Telephone], třída, 1 c) Internetová kontaktní adresa (cntOnlineRes), B.3.2.3 (O) [CI_Contact.onlineResource > CI_OnlineResource], třída, 1 3. Jedinečný identifikátor datového souboru (mdFileID), B.2.1 (O) - 72 -
Národní metadatový katalog [MD_Metadata.fileIdentifier], volný text, 1 4. Jazyk metadat (mdLang), B.2.1 (M) [MD_Metadata.language], kód jazyka dle [ISO639], 1 5. Datum vytvoření metadat (mdDateSt), B.2.1 (M) [MD_Metadata.dateStamp], datum ve formátu RRRR-MM-DD (ISO 8601), 1 6. Internetová adresa (URI) zdroje dat (dataSetURI), B.2.1 (O) [MD_metadata.dataSetURI], volný text (URI), 1 Oproti struktuře systému MIS MŽP jsem zde vypustil nepovinné informací o použité metadatové normě, jejím názvu a její použité verzi. Tyto informace lze stále získat z příslušných metainformačních systémů, ale nebudou zahrnuty v core datech. Následující struktura může být využita jak k identifikaci zdroje dat, tak identifikaci množiny dat. Informace o zdroji/množině dat bude v NMK mít následující strukturu: II. INFORMACE O IDENTIFIKACI DAT(DataIdent), B.2.2 (M) [MD_DataIdentification], třída 1. Citační údaje (idCitation), B.2.2.1.24, (M) [MD_DataIdentification > CI_Citation], třída, 1 Název zdroje (resTitle), B.3.2 (M) [CI_Citation.title], volný text, 1 Alternativní název (resAltTitle), B.3.2 (O) [CI_Citation.alternateTitle], volný text, N Referenční kalendářní datum (resRefDate), B.3.2 (M) [CI_Citation.date > CI_Date], třída, N a) Datum (refDate), B.3.2.4 (M) [CI_Date.date], datum ve formátu RRRR-MM-DD (ISO 8601), 1 b) Událost (refDateType), B.3.2.4 (M) [CI_Date.dateType], kódy událostí 001-003 dle B.5.2 ke kterým se datum vztahuje (vytvoření/uveřejnění/revize zdroje) 2. Identifikační údaje o pověřených osobách a organizacích (idPoC), B.2.2, (O) [MD_DataIdentification.pointOfContact > CI_ResponsibleParty] - dále je tato struktura totožná s pověřenou osobou pro metadatovou informaci, obsahuje tedy příjmení, jméno a titul pověřené osoby (případně název pověřené organizace), její funkci a kontaktní informace. 3. Abstrakt (idAbs), B.2.2, (M) [MD_DataIdentification.Abstract], text, 1
4. Téma množiny dat (tpCat), B.2.2 (C) - 73 -
Národní metadatový katalog [MD_DataIdentification.topicCategory > MD_topicCategoryCode], kódy 001-019 dle B.5.27, N, uvádí se, pokud jde o množinu dat 5. Jazyk(y) datového zdroje (dataLang), B.2.2 (M) [MD_DataIdentification.language], kód jazyka dle [ISO639], N 6. Kódování zdroje (dataChar), B.2.2, (O) [MD_DataIdentification.characterSet > MD_CharacterSetCode], kód 001-029 dle B.5.10, N 7. Typ prostorové reprezentace (spatRpType), B.2.2. (O) [MD_DataIdentification.spatialRepresentationType > MD_SpatialRepresentationTypeCode], kód typu 001-006 dle B.5.26 Vypuštěny byly oproti MIS MŽP informace o stavu zdroje a shrnutí záměrů vytvoření zdroje. Typ prostorové reprezentace je údajem sledovaným u metainformací popisujících prostorová data. Údaji, které v metadatovém katalogu budou navíc oproti ostatním MISVS, jsou údaje o spřaženém zdroji, které budou identifikovat MISVS ze kterého byla core data získána. Tyto údaje budou vyplňovány v závislosti na tom, ze kterého MISVS data pochází III. INFORMACE O SPŘAŽENÉM ZDROJI [OnlineRes], B.3.2.5 (O) [CI_Contact.onlineResource > CI_OnlineResource], třída, 1 1. Odkaz na zdroj (linkage), B.3.2.5, (M) [CI_OnlineResource.linkage], URL, 1 2. Spojovací protokol (protocol), B.3.2.5, (O) [CI_OnlineResource.protocol], text, 1 3. Název spřaženého zdroje (orName) B.3.2.5, (O) [CI_OnlineResource.name], text, 1 4. Popis spřaženého zdroje (orDesc), B.3.2.5, (O) [CI_OnlineResource.description], text, 1 Nepovinné informace o formátu (MD_Format), rozsahu (EX_Extent), omezeních (MD_Constraints) a referenčním systému (MD_ReferenceSystem) přebírám ze struktury MIS MŽP beze změny. Považuji za neúčelné je tu tedy znovu uvádět a pro popis struktury těchto informací odkazuji na Příloha 1 – Struktura MIS MŽP (dle ČSN ISO 19115). Po zralé úvaze navrhuji též z core dat zcela vyřadit informace o distribuci zdroje (MD_Distribution) a o původu zdroje (LI_Lineage) a ponechat tyto metainformace dostupné uživateli až na vyžádání ze zdrojových systémů. Posledním blokem metainformací jsou tedy informace o klíčových slovech. Ty navrhuji v následující struktuře:
- 74 -
Národní metadatový katalog IV. INFORMACE O KLÍČOVÝCH SLOVECH (Keywords), B.2.2.3 (O) [MD_Metadata > MD_DataIdentification > MD_Keywords], třída, 1 5. Klíčová slova popisující zdroj či data (keyword), B.2.2.3 (M) [MD_Keywords.keyword], volný text, N V sekci věnované klíčovým slovům navrhuji vypustit položku tezauru, protože není možné koncipovat tezaurus NMK „zdola“ importováním jednotlivých položek ze zdrojových systémů. Tento přístup by zcela jistě vedl k nekonzistentnímu a vnitřně neuspořádanému tezauru. Tezaurus je nutno tvořit shora navržením určité zastřešující struktury. Kvůli podpoře vyhledávání je též možno zvážit, zda by informace o klíčových slovech neměla být povinnou položkou.
8.5 Shrnutí Zastřešující metainformační systémy lze realizovat třemi základními způsoby. Prvním způsobem je centrální metasystém obsahující kopie veškerých metadat z podřízených METIS. Nad těmito kopiemi pak probíhají veškeré operace, tj. vyhledávání, prezentace výsledků vyhledávání a výpisy kompletních metadatových záznamů na vyžádání uživatelem. Druhou variantou je metadatový katalog, který obsahuje a přes importní rozhraní získává tzv. core data (shodná pro všechny systémy). Nad těmito daty provádí vyhledávání a vrací výsledky vyhledávání, kompletní metadatové záznamy zpřístupňuje on-line stahováním ze zdrojových METIS na vyžádání. Technicky nejkomplikovanější a zároveň nejdokonalejší variantou je tzv. distribuovaný portál. Ten na základě požadavků uživatele prohledává přes příslušná komunikační rozhraní dynamicky core metadata jednotlivých systémů a výsledky vyhledávání i kompletních data stahuje na vyžádání ze zdrojových metasystémů. Důležitou komponentou distribuovaného portálu je tzv. metadata crosswalk (metadatový překladač), který umožňuje komunikaci s různými METIS postavenými na různých metadatových standardech. Rozvoj metainformačních systémů v ČR zřejmě půjde cestou distribuovaného portálu, neboť VŠB – TUO ve spolupráci s MUNI, CENIA a Help Remote sensing s. r. o. podala žádost o grant na vybudování „Architektury metainformačního systému.“ Národní metadatový katalog má být v této architektuře založen právě na distribuovaném portálu. V této kapitole jsem navrhl metadatovou strukturu core dat podle normy ČSN ISO 19115 tak, aby na této struktuře bylo možno vybudovat Národní metadatový katalog.
- 75 -
Národní metadatový katalog
9. Závěr Hlavním cílem této diplomové práce bylo navrhnout datovou strukturu Národního metadatového katalogu tak, aby uživatelům umožnil vyhledávání informačních zdrojů a dat na jediném místě a obsáhl v sobě informace obsažené v ostatních metainformačních katalozích veřejné správy. Vedlejším cílem pak bylo zmapovat současnou situaci na poli metainformačních systémů veřejné správy. Úvodní část této práce jsem věnoval vysvětlení pojmu „metadata,“ neboť mezi širokou veřejností i IT specialisty stále panuje velmi nízké povědomí o významu tohoto pojmu. Uvedl jsem též nejběžnější situace, kdy se lze s metadaty v praxi setkat. Zvláštní pozornost jsem věnoval metadatům v prostředí datových skladů. Metadatové záznamy a metainformační systémy jsou předmětem mnoha norem a standardů. Další část jsem tedy věnoval představení nejdůležitějších standardů a jejich struktury, aby tak byl položen teoretický základ pro další kapitoly. Čtenář měl možnost seznámit se se standardem ČSN ISO 19115 pro popis geografických dat, universálním mezinárodním metadatovým standardem Dublin Core i metodickým pokynem pro popis metadatových zdrojů ISVS a mezinárodní iniciativou INSPIRE. Zmíněn byl i datový formát XML, který je využíván k importům/exportům metadat mezi jednotlivými metasystémy. V kapitole Metainformační systémy veřejné správy a v úvodní části kapitoly Národní metadatový katalog jsem popsal zvláštnosti metainformačních systémů veřejné správy a naznačil vlastnosti, na základě kterých je můžeme rozdělovat do různých skupin. Střední část práce byla věnována mapování současné situace MISVS. Popsal jsem nejvýznamnější MISVS (MIS MŽP, MIDAS, SMS), jejich historii, jejich současný vývoj a jejich strukturu. Bohužel je nutno přiznat, že toto zmapování situace má pouze omezenou časovou platnost, neboť všechny systémy prochází poměrně zásadními změnami. I přesto se však jedná o zásadní počin, neboť tyto informace nejsou veřejně dostupné. V závěrečné části jsem pak navrhl strukturu Národního metadatového katalogu v souladu se všemi vytyčenými požadavky a cíli. Věřím, že jsem dosáhl stanovených cílů a vytvořil práci pro čtenáře čtivou a užitečnou. Doufám, že se mi podařilo vložit do této práce maximum poznatků, které jsem já sám získal při studiu uvedených informačních zdrojů a že pro čtenáře bude čtení této práce nejméně tak zábavné, jako pro mne získávání nových informací a objevování nových souvislostí. - 76 -
Národní metadatový katalog
10. Přehled literatury a zdrojů [AMG] All Music Guide http://www.allmusic.com/ [BART] Bartošek M., Vyhledávání v Internetu a DUBLIN CORE. Zpravodaj ÚVT MU. ISSN 1212-0901, 1999, roč. 9, č. 4, s. 1-4 [BERN1] Berners-Lee Tim, Metadata Architecture, W3C http://www.w3.org/DesignIssues/Metadata.html (cit: 2006-02-26) [BRAT] Bratková Eva, Metadata jako nový nástroj pro komunikaci webových informačních zdrojů, Národní knihovna – knihovnická revue, ISSN 1214-0678, 1999, č. 4, s. 178 – 195 http://full.nkp.cz/NKKR/Nkkr9904/9904178.html [ČSN/ISO19115] Geografická informace – Metadata, ČSN ISO 19115 Český normalizační institut, 2004 [ČSSI] ČSSI on line, Česká společnost pro systémovou integraci http://www.cssi.cz/ [ČSSI1] Terminologický slovník České společnosti pro systémovou integraci http://www.cssi.cz/all_terminologie.asp (cit: 2006-02-26) [DCC] Dublin Core Czech, 2000 http://www.ics.muni.cz/dublin_core/ (cit: 2006-02-26) [DCC1] Historie iniciativy Dublin Core, Dublin Core Czech, 2000 http://www.ics.muni.cz/dublin_core/historie.html (cit: 2006-02-26) [DCC2] Soubor metadatových prvků Dublin Core, verze 1.1, Dublin Core Czech, 2000 http://www.ics.muni.cz/dublin_core/DC-czech-1.1.html (cit: 2006-02-26) [DCC3] Kvalifikátory Dublin Core, Dublin Core Czech, 2000 http://www.ics.muni.cz/dublin_core/DC-kvalif.html (cit: 2006-02-20) [DCES1] Dublin Core Metadata Element Set – contributor http://dublincore.org/2003/03/24/dces#contributor (cit: 2006-02-20) [DCMI1] About the Initiative, Dublin Core Metadata Initiative http://www.dublincore.org/about/ (cit: 2006-02-26) [DCMI2] DCMI Metadata Terms, Dublin Core Metadata Initiative http://www.dublincore.org/documents/dcmi-terms/ (cit: 2006-02-26)
- 77 -
Národní metadatový katalog [DCMI3] Dublin Core Projects, Dublin Core Metadata Initiative http://www.dublincore.org/projects/ (cit: 2006-02-20) [DCMI4] What is the Dublic Core? Dublin Core Metadata Initiative http://www.dublincore.org/documents/usageguide/#whatis (cit: 2005-11-07) [DCMI5] DCMI Metadata Terms, Section 4: Encoding Schemes http://www.dublincore.org/documents/dcmi-terms/#H4 (cit: 2006-02-20) [DCMI6] Translation of DCMI Documents, Dublin Core Metadata Initiative http://www.dublincore.org/resources/translations/ (cit: 2006-02-20) [DCT1] List of Resource Types. Dublin Core Draft Working Group Report. http://purl.org/DC/documents/wd-typelist.htm (cit: 2006-02-20) [DOCT] Doctorow C., Metacrap: Putting the torch to seven straw-men of the meta-utopia http://www.well.com/~doctorow/metacrap.htm (cit: 2006-02-20) [EXIF] Exchangeable image file format, Wikipedia The Free Encyclopedia http://en.wikipedia.org/wiki/Exchangeable_image_file_format (cit: 2006-03-17) [FLICKR] Flickr http://www.flickr.com/ [FREEDB] Freedb.org http://www.freedb.org/ [GAB1] Gábrišová M., Analýza Metainformačního systému MŽP, CENIA, seminář. [GRA] CDDB, Gracenote http://www.gracenote.com/prof/music/index_old.html [HOR] Horáková B., Architecture for Metainformation Infrastructure, GAČR projekt 201/07/1328, Description and Substantiation of the Project, Part C [ID3] ID3v2, The audience is informed http://www.id3.org/ [INSPIRE] Směrnice INSPIRE http://www.cenia.cz/inspire (cit: 2006-04-10) [INSPIRE1] Závěr analýz dostupnosti datových zdrojů pro naplňování směrnice INSPIRE, CENIA, (cit: 2006-04-20) http://www.cenia.cz/www/webapp.nsf/webfiles/files-GIS-prilohy.pdf/$FILE/prilohy.pdf
- 78 -
Národní metadatový katalog [ISO639] ISO 639 - Codes for the representation of names of languages. http://www.oasis-open.org/cover/iso639a.html [ISO3166] ISO 3166 - Codes for the representation of names of countries. http://www.oasis-open.org/cover/country3166.html [ISO15836] ISO 15836:2003 - Information and documentation. The Dublin Core metadata element set http://www.niso.org/international/SC4/n515.pdf [ISVS] Informační Systémy Veřejné Správy http://www.isvs.cz/ [KIM1] Kimball R., The Data Warehouse Lifecycle toolkit, Wiley, 1998, ISBN 0471255475 [KIM2] Kimball R., Meta Meta Data Data http://www.fortunecity.com/skyscraper/oracle/699/orahtml/dbmsmag/9803d05.html [KIM3] Kimball R., The Data Warehouse Toolkit, Wiley, 1996, ISBN 0471153370 [KOS1] Kosek J., Seriál o XML pro Softwarové noviny, 2000 http://www.kosek.cz/clanky/swn-xml/index.html [LISWIKI1] Metadata, LISWiki http://www.liswiki.com/wiki/Metadata (cit: 2006-02-26) [MB] MusicBrainz – community music metadatabase http://musicbrainz.org/ [MEL] Melíšková J., Metadata – integrační nástroj statistiky, Statistika č. 3/2004, s. 201-212, ISSN 0322-788X [MICKA] Metainformační katalog MIcKA, Help Service Remote Sensing http://www.bnhelp.cz/bnhelp/micka.htm [MICR1] Přehled platnosti standardů ISVS, Ministerstvo informatiky České republiky http://www.micr.cz/scripts/detail.php?id=1964 [MIDAS] MIDAS – MetaInformační DAtabázový Systém http://gis.vsb.cz/midas/ [MIME] Internet Media Types. http://www.isi.edu/in-notes/iana/assignments/media-types/media-types [MIS1] MIS – Metainformační systém Ministerstva životního prostředí http://mis.env.cz/ - 79 -
Národní metadatový katalog [MPEIZVS] Metodický pokyn pro popis elektronických informačních zdrojů veřejné správy, Ministerstvo informatiky České republiky http://www.micr.cz/files/1973/MICR-metodicky_pokyn_EIZVS_final.pdf [MySQL1] The INFORMATION_SCHEMA Database http://dev.mysql.com/doc/refman/5.1/en/information-schema.html [RFC1766] Tags for the Identification of Languages, Internet RFC 1766. http://www.ietf.org/rfc/rfc1766.txt [RUZ1] Růžička J., Metadata pro prostorová data (Doktorská disertační práce), Ostrava, 2002 http://gis.vsb.cz/seminarMetadata/SeminarMetadata.zip [RUZ2] Růžička J., Duchoslav T., Seminář metadata a metainformační systémy, Ostrava, 2003. http://gis.vsb.cz/seminarMetadata/Index.php [SMS] Koncepce statistického metainformačního systému (SMS), Materiál pro poradu vedení ČSÚ, 2005 [TAGS] Tags, Wikipedia The Free Encyclopedia http://en.wikipedia.org/wiki/Tags [TGN] Getty Thesaurus of Geographic Names http://www.getty.edu/research/tools/vocabulary/tgn/index.html [TIFF] Tagged Image File Format, Wikipedia The Free Encyclopedia http://en.wikipedia.org/wiki/TIFF (cit: 2006-03-29) [W3C] World Wide Web Consortium http://www.w3.org/ [W3C1] Meta data, The global structure of an HTML document http://www.w3.org/TR/html4/struct/global.html#h-7.4.4 [W3CDTF] Date and Time Formats, W3C Note http://www.w3.org/TR/NOTE-datetime [WIKI1] Meta-, Wikipedia The Free Encyclopedia http://en.wikipedia.org/wiki/Meta- (cit: 2006-02-26) [WIKI2] Metadata, Wikipedia The Free Encyclopedia http://en.wikipedia.org/wiki/Metadata (cit: 2006-02-26) [WIKI3] Library catalog, Wikipedia The Free Encyclopedia http://en.wikipedia.org/wiki/Library_catalog (cit: 2006-02-26) - 80 -
Národní metadatový katalog
10.1 Seznam obrázků Obr. 1: Metadata ve formátu ID3 v programu WinAmp.......................................................... 14 Obr. 2: Definice Metatagu (Zdroj: [W3C1]) ............................................................................ 14 Obr. 3: Vzorová hlavička webové stránky s metadaty............................................................. 15 Obr. 4: Metadata v EXIF formátu ............................................................................................ 16 Obr. 5: Role metadat v datových skladech (Zdroj: [KIM1], str. 444)...................................... 19 Obr. 6: Zápis metadat pomocí HTML (Zdroj: [MPEIZVS], str. 14) ....................................... 34 Obr. 7: Zápis metadat pomocí XML (Zdroj: [MPEIZVS], str. 15).......................................... 35 Obr. 8: Struktura systému MIDAS (Zdroj: [RUZ1], str. 100) ................................................. 58 Obr. 9: Schéma koncepčního návrhu SMS (Zdroj: [SMS], příloha 1)..................................... 63 Obr. 10: Koncept použití metaportálu v rámci infrastruktury (Zdroj: [HOR]) ........................ 70 Obr. 11: Role "metadata crosswalk" v komunikačním rozhraní distribuovaného portálu (Zdroj: [HOR]) ................................................................................................................. 71 Obr. 12: Analýza datových zdrojů pro naplňování směrnice INSPIRE (Zdroj: [INSPIRE1]) 91
10.2 Seznam tabulek Tab. 1: Povinné atributy prvků DC .......................................................................................... 23 Tab. 2: Nepovinné atributy prvků DC...................................................................................... 24 Tab. 3: Definice prvku "contributor" (Zdroj: [DCES1]).......................................................... 24 Tab. 4: Kvalifikátory prvků (Zdroj: [DCC3 + DCMI2]) ......................................................... 30 Tab. 5: Kvalifikátory hodnoty (Zdroj: [DCC3]) ...................................................................... 30 Tab. 6: Prvky MPEIZVS.......................................................................................................... 34 Tab. 7: Metadatové třídy systému MIDAS (Zdroj: [RUZ1], str. 102)..................................... 60 Tab. 8: Obsah jednotlivých bloků SMS (Zdroj: [SMS], příloha 2).......................................... 92
- 81 -
Národní metadatový katalog
11. Terminologický slovník 11.1 Termíny přejaté z terminologického slovníku ČSSI Termín
Význam
Termíny přejaté z terminologického slovníku České společnosti pro systémovou integraci Analýza
Postup, jehož výstupem je logický (esenciální) systému
Atribut
Atribut je vlastnost entity nebo sloupec/pole u databázové tabulky nebo položka v datovém souboru.
Autentizace
Ověřování proklamované identity subjektu
Data
Fyzikální struktura, účelně využívaná pro vyjádření informace je nazývána signál a proměnlivost (prostorová či časová) zvolené fyzikální veličiny „nese“ informaci. Obecně jsou data fyzickou strukturou, kterou je schopen určitý systém rozlišovat a reagovat na ni.
Databáze
Databáze (datová základna) je integrovaná počítačově zpracovávaná množina dat.
Databáze relační
Datová základna ( Databáze) konstruovaná na principech relačního modelu dat. Na základě relačního modelu dat jsou vybudovány dnes nejpoužívanější databázové systémy
Databázový systém
Databázový systém je souhrnné označení pro datovou základnu jím spravovanou.
Datový sklad
Předmětně orientovaná, integrovaná, časově proměnná, nevolatilní kolekce dat umožňující rozsáhlé analýzy. (Bill Inmon)
Datový typ
Označuje typ dat uložených v proměnné např. číslo, text, instanci konkrétní třídy
Distribuovaný systém
model vytvářeného
systém řízení báze dat a
informační Informační systém s (typicky) geograficky rozmístěnými uzly (počítači), které vzájemně komunikují a spolupracují na plnění aplikačních programů uživatele. Zásadní jeho vlastností je transparence systému, tj. skutečnost, že uživateli se jeví jako „jeden lokální systém“.
Dotazovací jazyk
Umožňují uživateli neprogramátorovi formulovat dotazy či získávat informace z databáze formulací požadavku v běžném jazyce např. angličtině
DTD
Popisuje strukturu dokumentu XML, ale neumí určit, jaké se v něm budou používat datové typy. Další nevýhodou je, že nepoužívá syntaxi XML.
Entita / Prvek
Označení obecného jasně definovaného prvku, příklady entit: třída, objekt, proces,
ETL
ETL jsou nástroje, které umožňují propojit různé databáze a přenášet data mezi těmito databázemi. Přitom se provádějí operace jako jsou transformace datových typů a formátů, oprava dat, výpočet agregací, doplňování primárních klíčů, atd
GIS
Programový systém pro podporu kreslení a vyhodnocování map, vytváření územních modelů apod. Uplatňují se např. u energetických společností, ve státní správě, apod. - 82 -
Národní metadatový katalog Termín
Význam
Termíny přejaté z terminologického slovníku České společnosti pro systémovou integraci HTML
Jazyk, který vychází z normy ISO8879 (Standard Generalized Markup Language). HTML vznikl v souvislosti s rozvojem služby WWW. Je založen na principu označování (mark-up) částí textu pomocí předem známé množiny značek popsané v DTD. Značky specifikují význam textu.
HTTP
Protokol pro přenos dokumentů v Internetu (používá se nejčastěji na WWW)
ICT (Informační a komunikační technologie)
Hardwarové a softwarové prostředky pro sběr, přenos, ukládání, zpracování a distribuci dat
Informace
Informace je význam, který člověk v procesu interpretace přisuzuje datům
Informační systém
Informační systém je systém jehož prvky jsou informační a komunikační technologie, data a lidé. Cílem informačního systému je efektivní podpora informačních a rozhodovacích procesů na všech úrovních řízení organizace (podniku).
Implementace IS
Jedna z etap tvorby
Informační zdroj
Zdroj, ze kterého uživatel, resp. aplikace čerpá (získává)
Internet
Globální celosvětová počítačová síť propojující regionální a rozsáhlé počítačové sítě, které používají TCP/IP jako síťový protokol.
Komponenta IS
V softwarovém inženýrství představuje komponenta identifikovatelnou část většího programu. Obvykle reprezentuje určitou funkci nebo skupinu funkcí a je složena z modulů.
Konzistence
Bezrozpornost modelů - stav, kdy mezi skutečnostmi vyjadřovanými jednotlivými modely, není rozpor
informačního systému data.
Metainformační systém / Obecně pojem metasystém označuje systém, který popisuje, resp. Metasystém / Metadatový modeluje jiný systém, v případě informačního systému jde o systém metainformační systém. Metainformační systém je jednotou metadatabáze ( metadat) a operací, které umožňují uchování a zpracování dat. Model
Dílčí pohled na vytvářený systém,souhrn všech pohledů na celý systém
Modul
Subsystém, část modelu na dané úrovni podrobnosti již dále nerozkládaná, s relativně samostatnou funkčností.
Portál
Synonymum „brány“. Portál je sada aplikací, která zajišťuje uživateli přizpůsobený (personalizovaný) přístup k informacím a aplikacím prostřednictvím WWW prohlížeče.
Rozhraní uživatelské
Část aplikace sloužící pro interakci s uživatelem
Třída
Zobecnění objektu nebo jiné třídy (generalizace),..z třídy lze děděním odvodit jinou třídu (podtřídu) nebo instanciací odvodit objekt. Objekty téže třídy mají stejnou strukturu, liší se pouze hodnotami svých atributů
UML
Grafická notace pro zápis modelů informačních systémů, shrnuje a standardizuje dosavadní notace a je východiskem pro vznik nových.
URL
Identifikátor označující umístění dokumentu v rámci
W3C
W3C je mezinárodní sdružení organizací, které se zabývají správou standardů pro World Wide Web. Standardy W3C jsou výsledkem - 83 -
Internetu
Národní metadatový katalog Termín
Význam
Termíny přejaté z terminologického slovníku České společnosti pro systémovou integraci globálního zadání, které je postupně zdokonalováno v rozsáhlém procesu, vedoucím (u dokončených úloh) ke shodě členů. WWW
Název populární služby Internetu, která uživatelům prostřednictvím WWW prohlížeče zpřístupňuje informace službou spravované. Informace jsou uloženy na serverech a mohou mít různé formáty (text, binární data – grafika, zvuk, …). O zpřístupnění se stará WWW prohlížeč, který komunikuje se serverem prostřednictvím protokolu http
WWW prohlížeč
Je aplikační program služby WWW. Uživateli zpřístupňuje a zobrazuje informace (textové, grafické, multimediální), které jsou uspořádány do stránek (dokumentů) a umožňuje mu, aby mezi stránkami (nebo v jejich rámci) přecházel prostřednictvím poklepání na odkaz (speciální řádek nebo slovo).
XML
XML je značkovací jazyk obsahující příkazy definující syntax (strukturu) dokumentu, definovaný doporučením W3C
XML Xpath
Určuje jednotlivé části dokumentu XML. Používá kompaktní syntaxi, odlišnou od XML, která umožňuje užití jazyka XPath v adresách URI a v hodnotách atributů XML. Operuje s abstraktní logickou strukturou dokumentu XML, nikoliv s jeho povrchovou syntaxí.
11.2 Ostatní termíny Termín
Význam
Best practice
Osvědčený přístup nebo metoda.
Core metadata
Určitá část metadat (zpravidla těch nejdůležitějších), kterou evidují všechny metasystémy ve stejné struktuře.
Discovery Services / Vyhledávací služby
Umožňují vyhledání souborů dat nebo služeb na těchto datech založených na základě obsahu odpovídajících metadat a umožňující zobrazení těchto metadat.
Inode / i-node
Datová struktura v souborových systémech založených na UNIXu. Obsahuje základní informace o souboru, adresáři nebo jiném objektu.
MISVS
Metainformační systém veřejné správy je takový systém, jenž je spravován organizací veřejné správy, obsahuje metadata popisující data obsažená v některém informačním systému veřejné správy a umožňuje veřejnosti přistupovat k těmto metadatům.
Geodata / Digitální geografická data / Prostorová data
Prostorová data vztahující se k určitým místům v prostoru, pro která je na potřebné úrovni rozlišení známa jejich lokalizace. Obvykle zohledňují časovou dimenzi a vzájemné prostorové vztahy. Prostorová data lokalizovaná jako určitá místa na Zemi uložená v digitální formě.
Kvalifikátor
Kvalifikátory prvku zjemňují a upřesňují význam prvku. Kvalifikátory hodnoty určují schémata, která napomáhají interpretaci hodnoty prvku. Tyto schémata zahrnují řízené slovníky a formální notace nebo pravidla pro parsování (rozklad hodnoty).
Metadata / Metainformace
Strukturovaná data o
Metadatový standard
Standard popisující strukturu metadatového záznamu, povinné a nepovinné k i i j ji h ib h i i i - 84 -
datech.
Národní metadatový katalog Termín prvky či entity, jejich
Význam atributy a vztahy mezi nimi
Metadata crosswalk
Rozhraní metainformačního systému, které zajišťuje komunikace mezi různými metainformačními systémy s různou strukturou (různými metadatovými standardy) uložených dat.
Rozhraní
Rozhraní mezi programovými moduly. Možno též komunikační rozhraní mezi různými aplikacemi.
11.3 Seznam použitých zkratek Zkratka
Význam
CENIA
Česká informační agentura životního prostředí
ČEÚ
Český ekologický ústav
CAGI
Česká asociace pro geoinformace
DC
Dublin Core (také Dublin Core Element Set)
DCC
Dublin Core Czech
DCMI
Dublin Core Metadata Initiative
DTD
Document Type Definition
EIA
Environmental Impact Assessment
GAČR
Grantová agentura České republiky
GIS
Geografické informační systémy
HTML
HyperText Markup Language
ICT
Informační a komunikační technologie
INSPIRE
Infrastructure for Spatial Information in Europe
IS
Informační systém
ISO
International Organization for Standardization
ISVS
Informační systém veřejné správy
METIS
Metainformační systém
MIcKA
Metainformační katalog MIcKA
MIDAS
Metadatabázový informační systém
MIS MŽP
Metainformační systém Ministerstva životního prostředí
MISVS
Metainformační systém veřejné správy
MPEIZVS
Metodický pokyn pro popis elektronických informačních zdrojů veřejné správy
MUNI
Masarykova universita v Brně
NIS
Národní implementační strategie
NMK
Národní metadatový katalog
SŘBD
Systém Řízení Báze Dat - 85 -
Národní metadatový katalog Zkratka
Význam
UML
Unified Modeling Language
URL
Uniform Resource Locator
VŠB – TUO
Vysoká škola báňská – Technická universita Ostrava
W3C
World Wide Web Consortium
WWW
World Wide Web
XML
eXtensible Markup Language
ŽP
Životní prostředí
- 86 -
Národní metadatový katalog
12. Přílohy 12.1 Příloha 1 – Struktura MIS MŽP (dle ČSN ISO 19115) Červeně jsou uvedeny povinné prvky, modře prvky volitelné a zeleně prvky podmíněné (alespoň jeden z nich musí být vyplněn). Kurzívou jsou údaje prvky vztahující se pouze k digitálním geografickým datům. [Zdroj: interní dokumentace k MIS MŽP.] I. INFORMACE O METADATECH (MD_Metadata) B.2.1 1. Pověřená osoba pro metadatovou informaci [MD_Metadata.contact > CI_ResponsibleParty] Identifikační údaje: Příjmení, jméno a titul pověřené osoby [CI_ResponsibleParty.individualName] Název pověřené organizace [CI_ResponsibleParty.organisationName] Funkce pověřené osoby [CI_ResponsibleParty.role > CI_RoleCode: kódy rolí 001-011 (B.5.5)] Kontaktní informace [CI_ResponsibleParty.contactInfo > CI_Contact] a) Adresa (ulice, město, PSČ, stát, e-mail) [CI_Contact.address > CI_Address] b) Číslo telefonu a faxu [CI_Contact.phone > CI_Telephone] c) Internetová adresa pro kontakt s osobou či organizací [CI_Contact.onlineResource > CI_OnlineResource] 2. Datum vytvoření metadat (rok, měsíc, den dle ISO 8601 – B.4.2) [MD_Metadata.dateStamp] 3. Jedinečný identifikátor metadatového souboru [MD_Metadata.fileIdentifier] 4. Název použité metadatové normy (ČSN ISO 19115 Geografická informace – Metadata) [MD_Metadata.matadataStandardName] 5. Jazyk metadat [MD_Metadata.language] 6. Internetová adresa (URL) popisovaného zdroje dat [MD_Metadata.dataSetURL] 7. Použitá verze metadatové normy (česká) [MD_Metadata.metadataStandardVersion]
II. INFORMACE O IDENTIFIKACI ZDROJE (MD_Identification) B.2.2.1 1. Citační údaje: [MD_Metadata > MD_DataIdentification.citation > CI_Citation] Název zdroje [CI_Citation.title] Alternativní název (krátký název či název v jiném jazyce) [CI_Citation.alternateTitle] Referenční kalendářní datum: [CI_Citation.date>CI_Date] - 87 -
Národní metadatový katalog a) Datum (rok, měsíc, den dle ISO 8601 – B.4.2) b) Událost (kódy 001 – 003 podle B.5.2: vytvoření, uveřejnění, revize zdroje) Lze formulovat jako datum vytvoření zdroje; datum uveřejnění zdroje; datum revize zdroje. 2. Abstrakt [MD_Metadata > MD_DataIdentification.abstract] 3. Téma zdroje dat [MD_Metadata > MD_DataIdentification.topicCategory > MD_TopicCategoryCode] 4. Jazyk(y) datového zdroje [MD_Metadata > MD_DataIdentification.language] 5. Stav zdroje z hlediska dat (např. aktualizace dat) [MD_ Metadata > MD_DataIdentification.status > MD_ProgressCode] status 004-007 podle B.5.23 6. Shrnutí záměrů vytvoření zdroje [MD_Metadata > MD_DataIdentification.purpose] 7. Typ prostorové reprezentace [MD_Metadata > MD_DataIdentification.spatialRepresentationType > MD_SpatialrepresentationTypeCode: kódy typů (B 5.26) ] 8. Kódování zdroje [MD_Metadata > MD_DataIdentification.charakterSet> MD_CharacterSetCode: kódy 001-029 (B.5.10)] 9. Identifikační údaje o pověřených osobách a organizaci [MD_Metadata > MD_DataIdentification.pointOfContact > CI_ResponsibleParty] Příjmení, jméno a titul pověřené osoby [CI_ResponsibleParty.individualName] Název pověřené organizace [CI_ResponsibleParty.organisationName] Funkce pověřené osoby [CI_ResponsibleParty.role > CI_RoleCode: kódy rolí 001-011 (B.5.5)] Kontaktní informace [CI_ResponsibleParty.contactInfo > CI_Contact] a) Adresa (ulice, město, PSČ, stát, e-mail) [CI_Contact.address > CI_Address] b) Číslo telefonu a faxu [CI_Contact.phone > CI_Telephone] c) Internetová adresa pro kontakt s osobou či organizací [CI_Contact.onlineResource > CI_OnlineResource]
III. INFORMACE O KLÍČOVÝCH SLOVECH (MD_Keywords) B.2.2.3 1. Klíčová slova popisující zdroj [MD_Metadata > MD_DataIdentification > MD_Keywords.keyword] 2. Tezaurus [MD_Metadata > MD_DataIdentification > MD_Keywords.ThesaurusName > CI_Citation] - 88 -
Národní metadatový katalog Název [CI_Citation.title] Refereční kalendářní datum [CI_Citation.date>CI_Date] a) Datum (rok, měsíc, den dle ISO 8601 – B.4.2) b) Událost (kódy 001 – 003 podle B.5.2: vytvoření, uveřejnění, revize zdroje)
IV. INFORMACE O FORMÁTU (MD_Format) B.2.10.4 1. Název formátu dat [MD_Metadata > MD_DataIdentification > MD_Format.name] 2. Verze formátu (kalendářní datum, číslo atd.) [MD_Metadata > MD_DataIdentification > MD_Format.version]
V. INFORMACE O ROZSAHU (EX_Extent) B.3.1 1. Popis prostorového a časového rozsahu dat [EX_Extent.description] 2. Geografická poloha množiny dat [EX_Extent > EX_GeographicExtent > EX_GeographicBoundingBox] Nejzápadnější souřadnice [EX_GeographicBoundingBox.westBoundLongitude] Nejvýchodnější souřadnice [EX_GeographicBoundingBox.eastBoundLongitude] Nejjižnější souřadnice [EX_GeographicBoundingBox.southBoundLatitude] Nejsevernější souřadnice [EX_GeographicBoundingBox.northBoundLatitude] 3. Identifikátor geografické oblasti [EX_Extent > EX_GeographicExtent> .EX_GeographicDescription.geographicIdentifier >MD_Identifier] 4. časová perioda pokrytá rozsahem množiny dat [EX_Extent. > EX_TemporalExtent.extent] 5. Výškový rozsah množiny dat [EX_Extent > EX_VerticalExtent] Nejnižší hodnota [EX_Extent > EX_VerticalExtent.minimumValue] Nejvyšší hodnota [EX_Extent > EX_VerticalExtent.maximumValue] Výškové jednotky [EX_Extent > EX_VerticalExtent.unitOfMeasure > UomLengh (B4.3)] Počátek, k němuž se výška vztahuje [EX_Extent > EX_VerticalExtent.verticalDatum > SC_VerticalDatum] VI. INFORMACE O PŮVODU ZDROJE (LI_Lineage) B.2.4.2.1 1. Celkové objasnění původu množiny dat [MD_Metadata > DQ_DataQuality > LI_Lineage.statement] VII. INFORMACE O OMEZENÍCH (MD_Constraints) B.2.3
- 89 -
Národní metadatový katalog 1. Omezení v přístupu a restrikce nebo omezení v získání zdroje nebo metadat [MD_Metadata > MD_LegalConstrains.accessConstraints > MD_RestrictionCode](seznam kódů restrikcí 001-008 podle B.5.24) 2. Jiné restrikce a právní předpoklady pro zpřístupnění a užití zdroje nebo metadat [MD_Metadata > MD_LegalConstrains.otherConstraints: je-li accessConstraints nebo useConstraints rovno kódu 008] VIII. INFORMACE O REFERENČNÍM SYSTÉMU (MD_ReferenceSystem)B.2.7.1 1. Název referenčního systému [MD_ReferenceSystem.referenceSystemIdentifier] 2. Popis použitého souřadnicového systému [MD_Metadata > MD_ReferenceSystem > MD_CRS] Totožnost použitého kartografického zobrazení [MD_CRS.projection > RS_Identifier.codeSpace] Totožnost použitého elipsoidu [MD_CRS.ellipsoid > RS_Identifier.codeSpace] Totožnost použitého datumu [MD_CRS.datum > RS_Identifier.codeSpace] IX. INFORMACE O DISTRIBUCI ZDROJE (MD_Distribution) B.2.10.1 1. Kontaktní údaje o distributorovi zdroje [MD_Metadata > MD_Distribution > MD_Distributor.distributorContact > CI_ResponsibleParty] Příjmení, jméno a titul pověřené osoby [CI_ResponsibleParty.individualName] Název pověřené organizace [CI_ResponsibleParty.organisationName] Funkce pověřené osoby [CI_ResponsibleParty.role > CI_RoleCode: kódy rolí 001-011 (B.5.5)] Kontaktní informace [CI_ResponsibleParty.contactInfo > CI_Contact] Adresa (ulice, město, PSČ, stát, e-mail) [CI_Contact.address > CI_Address] Číslo telefonu a faxu [CI_Contact.phone > CI_Telephone] Internetová adresa pro kontakt s osobou či organizací [CI_Contact.onlineResource > CI_OnlineResource] 2. Popis formátu, ve kterém jsou data distribuována [MD_Metadata > MD_Distribution > MD_Format] Název formátu dat [MD_Metadata > MD_DataIdentification > MD_Format.name] Verze formátu (kalendářní datum, číslo atd.) [MD_Metadata > MD_DataIdentification > MD_Format.version] 3. Informace o možnostech získání zdroje a poplatcích [MD_Metadata > MD_Distribution > MD_Distributor > MD_StandardOrderProcess] 4. Poplatky [MD_Metadata > MD_Distribution > MD_Distributor > MD_StandardOrderProcess.fees] 5. Obecné pokyny, termíny a služby poskytované distributorem [MD_Metadata > MD_Distribution > MD_Distributor > MD_StandardOrderProcess.orderingInstructions] - 90 -
Národní metadatový katalog
12.2 Příloha 2 – Analýza datových zdrojů pro naplňování směrnice INSPIRE
Obr. 12: Analýza datových zdrojů pro naplňování směrnice INSPIRE (Zdroj: [INSPIRE1])
- 91 -
Národní metadatový katalog
12.3 Příloha 3 – Obsah jednotlivých bloků SMS 1. 2. 3. 4. 5. 6.
Blok 1 Statistické úlohy Charakteristika statistické úlohy Zdroje vstupních dat Vazby mezi zdroji dat Výpočty nad zdroji dat Definice výstupů Organizace sběru dat, jejich zpracování a diseminace
Blok 2 Statistická zjišťování Program statistických zjišťování Charakteristika statistického zjišťování Dotazníky Vymezení statistických souborů Vazby uvnitř dotazníků Pokyny pro pořízení vstupních dat
Blok 3 Blok 4 Administrativní datový fond Respondenti 1. Katalog administrativních 1. Registr respondentů ekonomických statistik zdrojů 2. Katalog administrativních 2. Registr respondentů sociálních statistik souborů dat 3. Statistické jednotky 3. Databáze popisů administrativních souborů dat
Blok 7 Statistický datový fond
Blok 8 Blok 9 Diseminace statistických Uživatelé statistických informací informací 1. Katalog poskytovaných 1. Registr uživatelů statistických informací informací 2. Názory uživatelů 2. Kalendář publikování statistických informací 3. Často pokládané dotazy (FAQ) 3. Ediční plán 4. Kontakty na informační servis
Blok 10 Základní informace o SIS 1. Matematicko-statistické metody 2. Kvalita dat 3. Metody zjišťování 4. Ochrana individuálních statistických dat 5. Legislativa a standardy 6. Terminologický slovník