Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií
Studijní program: Aplikovaná informatika Obor: Informační systémy a technologie
Webová aplikace s využitím Linked Open Data DIPLOMOVÁ PRÁCE
Student
:
Dung Le Xuan
Vedoucí
:
Ing. Dušan Chlapek, Ph.D.
Oponent :
Ing. Jan Kučera
2014
Prohlášení: Prohlašuji, že jsem diplomovou práci zpracoval samostatně a že jsem uvedl všechny použité prameny a literaturu, ze které jsem čerpal.
V Praze dne 7. května 2014
.................................. Dung Le Xuan
Poděkování Tímto bych chtěl poděkovat panu Ing. Dušanovi Chlapkovi, Ph.D. zato, že mi poskytoval svůj cenný čas a rady v průběhu zpracování mé diplomové práce.
Abstrakt Tato diplomová práce se zabývá problematikou otevřených dat. Cílem je představit čtenáři v současné době velmi populární téma. Propojení těchto dat nám poskytuje další výhody a možnosti, avšak velké množství otevřených dat je dnes zveřejněno ve formátech, které nelze vzájemně propojit. Proto se autor ve své práci zaměřil také na Linked Data. Důraz není kladen pouze na vznik, současný stav a budoucí vývoj, ale také na technickou stránku. Nejdříve budou čtenáři seznámeni s teoretickými pojmy, principem Linked Open Data, rozšířeností otevřených vládních dat v ČR i ve světě. V druhé kapitole se bude autor zabývat propojitelnými daty, RDF formátem, SPARQL jazykem. V poslední části se autor zaměří na nástroje pro práci s Linked Open Data a ukázkově navrhne pilotní aplikaci s využitím Linked Open Data. Přínosem celé práce je ucelený pohled na Linked Open Data jak z teoretické, tak i z praktické části. Hlavním cílem je poskytnout čtenáři kvalitní úvod do dané problematiky.
Klíčová slova Open Data, Linked Data, Open Linked Data, RDF, SPARQL, opendata.cz
Abstract This thesis deals with the issue of open data. The aim is to introduce to reader the currently very popular topic. Linking these data together gives us more advantages and opportunities, however a large number of open data datasets are published in the format that cannot be linked together. Therefore, the author put great emphasis into his work on Linked Data. Emphasis is not placed only on the emergence, current status and future development, but also on the technical aspect. First, readers will be familiar with theoretical concepts, principles of Linked Open Data, expansion of open government data in the Czech Republic and abroad. In the next chapter, the author aimed at the data formats RDF, SPARQL language, etc. In the last section, the author introduce to readers the tools to work with Linked Open Data and design sample application using the Linked Open Data. The benefit of the whole work is a comprehensive view of the Linked Open Data both from a theoretical and from a practical part. The main goal is to provide to readers quality introduction to the issue.
Keywords Open Data, Linked Data, Open Linked Data, RDF, SPARQL, opendata.cz
Obsah 1
Úvod ................................................................................................................... 8 1.1 1.2 1.3 1.4 1.5
2
Cíle, metriky a indikátory.................................................................................................9 Používané metody a postup při zpracování práce ......................................................10 Přínosy práce .................................................................................................................10 Předpoklady a omezení práce.......................................................................................11 Rešerše prací na podobné téma ...................................................................................11 1.5.1 Rešerše prací českých autorů .........................................................................11 1.5.2 Rešerše zahraničních prací ..............................................................................13
Charakteristika Linked Open Data ................................................................... 17 2.1 Definice pojmů ...............................................................................................................17 2.2 Katalogizace LOD ..........................................................................................................24 2.3 Rozšířenost LOD v EU a USA .......................................................................................26 2.3.1 Open Data v USA...............................................................................................27 2.3.2 Open Data v EU .................................................................................................31 2.4 Rozšířenost LOD v ČR ...................................................................................................34 2.4.1 Projekty s LOD ..................................................................................................36 2.5 Rizika a omezení LOD ....................................................................................................38 2.6 Shrnutí ............................................................................................................................38
3
Formáty LOD a nástroje pro práci s Linked Open Data ................................. 39 3.1 Použití formátů Open Data ............................................................................................40 3.2 Charakteristika formátu RDF ........................................................................................42 3.2.1 RDF.....................................................................................................................43 3.2.2 Ontologie ...........................................................................................................45 3.2.3 RDFS ..................................................................................................................45 3.2.1 SPARQL .............................................................................................................46 3.3 Nástroje pro práci s LOD .........................................................................................47 3.3.1 Nástroje pro převod do RDF formátu ..............................................................48 3.3.2 Nástroje pro ukládání RDF ...............................................................................53 3.4 Shrnutí ............................................................................................................................57
4
Návrh a tvorba aplikace .................................................................................... 58 4.1 4.2 4.3 4.4
Analýza zdrojů dat .........................................................................................................58 Převod do RDF formátu .................................................................................................59 Ukládání dat a vytvoření SPARQL endpointu ..............................................................64 Tvorba SW pro vizualizaci dat ......................................................................................65 4.4.1 Požadavky .........................................................................................................65 4.4.2 Návrh ..................................................................................................................65
4.4.3 Implementace ....................................................................................................68 4.5 Shrnutí ............................................................................................................................71
5
Závěr ................................................................................................................. 72
Terminologický slovník ........................................................................................... 74 Použité zdroje .......................................................................................................... 76 Seznam obrázků a tabulek ...................................................................................... 83 Seznam obrázků ..........................................................................................................83 Seznam tabulek ...........................................................................................................83 Seznam grafů ...............................................................................................................84
Příloha A: Seznam použitých knihoven ................................................................. 85
Úvod
8
1 Úvod Tématem této diplomové práce je návrh a tvorba webové aplikace na bázi propojených a otevřených dat (Linked Open Data). V poslední době se stále více hovoří o otevřených datech, na světě vzniká čím dál tím více projektů zaměřených na toto téma. Když se Barack Obama v roce 2009 chopil vlády, podpořil iniciativu na otevřenost dat veřejné správy. Cílem bylo podat občanům transparentnější informace, posílit demokracii státu a zvýšit účinnost i efektivnost vlády (www.whitehouse.gov, 2014). Na světě vznikly projekty jako data.gov (data.gov, 2014), data.gov.uk (data.gov.uk, 2014) nebo opendata.cz, které publikují informace o veřejné správě ve strojově čitelném formátu. Avšak je zde také snaha tato data navzájem propojit a vytvořit tak Sémantický web (někdy také bývá označován jako Web 3.0). Tomuto webu kromě člověka rozumí také počítač, poradí si s komplexnějšími dotazy a poskytuje adekvátnější výsledky než současný web. Autor si toto téma vybral, jelikož jej považuje za velmi zajímavé a jako aktivní webový vývojář v něm vidí budoucnost vývoje celého konceptu webu. Primárním cílem této diplomové práce je seznámit čtenáře s charakteristikou i principy Linked Open Data a nastínit postup při jejich tvorbě a dalším znovupoužití při vývoji aplikací pro veřejnost. Celá práce je rozdělena na 4 kapitoly. V první kapitole budou představeny cíle, metodika i postup při zpracovávání celé práce. Neméně důležitou částí je literární rešerše existujících prací na podobné téma. V druhé kapitole se autor bude snažit charakterizovat LOD jak definicemi jednotlivých pojmů, které se v této oblasti vyskytují, tak i jejich vysvětlením na konkrétních příkladech. Záměrem je podat čtenáři ucelený pohled na danou problematiku. Dále bude čtenář podrobně seznámen s rozšířeností LOD jak v USA a Evropě, tak v ČR, a zároveň mu bude poskytnut přehled nejvýznamnějších projektů. Třetí kapitola se na rozdíl od druhé, která je zaměřena na pojmy a definice, bude zabývat technickou stránkou LOD. Čtenář bude seznámen s jednotlivými formáty, které se při tvorbě otevřených dat používají, a dozví se, jaké jsou jejich výhody či nevýhody. Autor se také pokusí o jejich porovnání z hlediska vhodnosti pro publikování propojených a otevře-
Úvod
9
ných dat. Dále autor zpracuje přehled nástrojů pro práci s LOD a provede jejich porovnání z hlediska vhodnosti pro začátečníka v této oblasti. Zatímco předchozí kapitoly byly spíše teoretické, poslední kapitola bude více prakticky zaměřená. Autor se zde bude snažit využít znalostí získaných při zpracování předchozích kapitol k návrhu a implementaci pilotní webové aplikace, která bude postavená na bázi Linked Open Data. Aplikace by měla mít nejen praktické využití, jejím cílem je zároveň obsáhnout všechny možnosti, které LOD nabízí, čímž by se měla stát demonstračním příkladem jejich používání.
1.1
Cíle, metriky a indikátory
V tabulce č. 1 uvedené níže jsou přehledně uspořádány a vyjmenovány primární cíle, kterých by autor chtěl zpracováním této diplomové práce dosáhnout. Ve druhém sloupci jsou určeny metriky, jak dané cíle měřit. K vyhodnocení splnění cílů budou sloužit vyjmenované indikátory. Tabulka 1 - Cíle, metriky a indikátory
Cíl
Metrika
Indikátor
Charakteristika LOD a rešerše prací
Obsah
LOD,
Charakteristika zahrnuje definice
na související téma
počet a zdroj prací zahrnuté do
LOD, popis rozšířenosti LOD
rešerše prací na související téma
v Evropě, USA a ČR, projekty o
charakteristiky
LOD veřejné zprávy ČR, Rizika a omezení LOD. Rešerše prací musí obsahovat alespoň 5 českých a 5 zahraničních prací
Úvod
10
Cíl
Metrika
Indikátor
Charakteristika používaných formá-
Počet a míra využití jednotli-
Alespoň
5
tů a nástrojů pro práci s LOD
vých formátů open data, obsah
formátů
open
charakteristiky RDF formátu,
počet výskytu těchto formátů
počet charakterizovaných
ná-
v národních katalozích, stručně
strojů pro práci s LOD, počet a
popsán koncept RDF (struktura,
relevantnost stanovených kritérií
ontologie, SPARQL),
pro charakteristiku a porovnání nástrojů
nejvyužívanějších data,
souhrnný
Alespoň 5 relevantních kritérií pro porovnání nástrojů, alespoň 5 nástrojů k porovnání
u
všech
zvolených skupin, demonstrace užití nejlepších nástrojů Návrh a vývoj aplikace nad LOD
1.2
Do jaké míry aplikace splňuje
Pilotní aplikace splňuje všechny
navržené požadavky
navržené požadavky
Používané metody a postup při zpracování práce
Teoretickou část práce bude autor zpracovávat metodou rešerší dostupných a relevantních zdrojů na dané téma. Při návrhu praktické části bude autor čerpat informace převážně z elektronických zdrojů. V kapitole 4 budou upřesněny všechny nástroje a technologie, které bude autor používat při tvorbě zvolené aplikace. Autor na celou práci nahlíží jako na projekt, který je podrobně rozštěpen na jednotlivé, menší části, které mají předem stanovený rozsah a termín dokončení. Cílem je pracovat na diplomové práci průběžně a dodržovat vymezené termíny. Jednotlivé části budou dále probírány s vedoucím práce a průběžně upravovány podle jeho zpětných vazeb.
1.3
Přínosy práce
Přínosem této práce je poskytnutí uceleného pohledu na celou problematiku. Čtenáři budou seznámeni se základními pojmy, které se v této oblasti vyskytují. Dále získají přehled o formátech LOD a nástrojích, které usnadňují práci s LOD. Autor čtenářům stručně představí nástroje pro tvorbu RDF dokumentu, vytvoření SPARQL endpointu. Velkým příno-
Úvod
11
sem této práce je porovnávání nástrojů pro převod do RDF a ukládání těchto dat z hlediska vhodnosti pro začátečníka. Největším přínosem je postup při návrhu a implementace pilotní aplikace s využitím Linked Open Data.
1.4
Předpoklady a omezení práce
Autor předpokládá, že čtenář této práce disponuje základními znalostmi v oblasti webových technologií. Dále autor také předpokládá, že jsou už předem vytvořené a publikované informace, které poslouží jako základ pro vybudování datové sady a pilotní webové aplikace. Jelikož je celá tématika poměrně nová, neexistuje mnoho publikací a materiálů, ze kterých by mohl autor čerpat informace. Primárním zdrojem informací jsou publikované články na toto téma a závěrečné práce na českých i zahraničních univerzitách. Další omezením je nezkušenost autora v této oblasti. Před zpracováváním této diplomové práce se problematikou LOD nezabýval a nemá žádné praktické zkušenosti s otevřenými daty. Protože je iniciativa otevřených dat v České republice poměrně nová, neexistuje mnoho datových sad, které by mohly být použity k tvorbě aplikace. Z tohoto důvodu spatřuje autor další omezení v „originalitě“ aplikace.
1.5
Rešerše prací na podobné téma
V této části diplomové práce provede autor rozbor jak závěrečných prací, tak odborných článků na podobné téma. Celá kapitola bude rozdělena na dvě části. V první části budou představeny práce českých autorů. Ve druhé části se autor zaměří na práce ze zahraničí.
1.5.1
Rešerše prací českých autorů
Ve své práci na téma eGovernment a otevřená data ve veřejné správě (Jedličková, 2013) M. Jedličková velmi dobře popsala eGovernment v ČR a srovnala situaci s ostatními zeměmi v EU, primárně s Velkou Británií. V rámci teoretické části také stručně nastínila katalogizaci otevřených dat veřejné správy, kterou by autor dále rád využil v podkapitole 2.2 Katalogizace LOD. V práci je velmi dobře popsána a srovnána situace v ČR s Velkou
Úvod
12
Británií, získané informace budou využity v podkapitolách 2.3 Rozšířenost LOD v EU a USA a 2.4 Rozšířenost LOD v ČR. Primárním přínosem celé této práce je navržená metodika při publikování otevřených dat. Leckterá organizace dnes na síti publikuje otevřená data. Setkáváme se proto znovu s problémem rozšiřování internetu, a to důvěryhodností informací a dat. Každá organizace může publikovat data, která však mohou být chybná, nebo s nízkou kvalitou. T. Knap se v disertační práci (Knap, 2013) věnoval problematice důvěryhodnosti otevřených dat publikovaných na internetu. Hlavním cílem práce T. Knapa je nástroj ODCleanStore, který dokáže získat Linked Open Data, dotazovat na ně, pročistit a zbavit konfliktů a poskytnout je konzumentům LOD. Autor proto získané informace o tomto nástroji určitě zmíní při sestavování přehledu SW nástrojů pro práci s LOD. Vedle tohoto nástroje je v práci velmi dobře popsána struktura LOD. Autor se také inspiroval způsobem vysvětlení na základě konkrétního případu, který pomáhá čtenářům lépe porozumět problematice. Kroupa ve své závěrečné práci magisterského studia (Kroupa, 2012) podal zajímavý pohled na to, proč využívat otevřená a propojená data. Pro svoje odůvodnění nabídl velmi zajímavé příklady z historie i současnosti, které poukazují na přínos využití otevřených a propojených dat. Snahou autora je tento způsob zachytit a zakomponovat do první kapitoly při charakteristice LOD. Dále v charakteristice také velmi dobře odděluje Open Data a Linked Data, což jsou dva odlišné přístupy, které mohou být propojeny. Velmi stručně je zde rozebrána situace jak v ČR, tak v zahraničí. Nejdůležitějším a nejpodstatnějším bodem celé diplomové práce je podle autora popis katalogizace dat veřejné správy, který také využije při zpracování podkapitoly 2.2 Katalogizace LOD. V práci byly také zmíněny nástroje Comprehensive Knowledge Archive Network (CKAN) nebo Socrata, které slouží jako software pro vytváření a správu datového katalogu. Zatímco předchozí práce se zabývaly spíše teoretickou částí Linked Open Data, J. Dokulil se ve své rigorózní práci (Dokulil, 2006) zaměřil na technickou stránkou při vybudování sémantického webu. Podrobně je popsán dotazovací jazyk nad daty uloženými ve formátu RDF – SPARQL. Tento praktický návod poslouží autorovi při tvorbě aplikace na LOD. T. Pošepný se při zpracovávání své práce (Pošepný, 2011) zabýval velmi podobným tématem, kdy v teoretické části stručně popisuje principy Linked Open Data a zvláště formátu RDF. Dále v praktické části Pošepný také vytváří experimentální aplikaci, která je
Úvod
13
postavená na bázi LOD. Autor by mohl z této práce čerpat praktické zkušenosti při zpracovávání jak teorie, tak i praktické aplikace. Velmi významným zdrojem informací je iniciativa pro otevřená data opendata.cz. Autor může čerpat jak zajímavé novinky z této oblasti, tak i prozkoumat katalog dat. Při návrhu aplikace se může inspirovat u zveřejněných aplikací a čerpat také zdroje dat, které jsou nabízeny ve formátu Linked Data.
Obrázek 1 OpenData.cz (opendata.cz, 2014)
1.5.2
Rešerše zahraničních prací
Autor při zpracovávání rešerše prací na podobné téma vybíral vedle českých i díla zahraničních autorů. Cílem bylo zjistit situaci LOD ve světě a získat informace i náměty na zpracování teoretické a praktické části práce. P. Archer, M. Dekkers, S. Geodertier a N. Loutas se ve své studii o obchodních modelech s využitím Linked Open Data (Archer, Dekkers, & Loutas, 2013) pro Evropskou komisi zabývali Linked Open Government Data všech zemí EU. Jedná se o otevřená a propojená data veřejné správy členských států. V práci se autoři snaží o charakteristiku obchodního modelu LOGD. Nahlížejí na celou problematiku z různých dimenzí, jako je nákladová struktura, segmenty trhu, příjmy, kanály nebo vztahy se zákazníky (konzumenty dat). Co avšak autor považuje za nejvíce přínosné, je 37 případů užití LOGD, které jsou podrobně zanalyzovány z výše vyjmenovaných hledisek. Vedle toho je v práci také zmínka o Linked Open Data as a Service nebo životním cyklu otevřených a propojených dat. Tato práce je velmi přínosná a její informace budou cenným podkladem při zpracovávání podkapitoly 2.1 Definice pojmů.
Úvod
14
Obrázek 2 Životní cyklus Linked Open Data (Archer, Dekkers, & Loutas, 1013)
V průběhu vývoje informatiky se relační databáze dostaly do všech systémů a nyní je v nich uložena většina dat (Oracle, MySQL, MSSQL, …). S rostoucím významem sémantického webu vyvstala potřeba ukládat data do RDF formátu. Ručně by byl tento proces časově náročný, proto se C. Froment ve své diplomové práci (Froment, 2012) zabýval nástroji pro transformaci relačních dat na Linked Open Data. Christian P. Geiger a J. von Lucke (Geiger & von Lucke, 2012) ve svém článku podrobně definují jednotlivé pojmy jako Open Government Data, Linked Open Government Data nebo Open Data. Autoři článku se snažili jasně vysvětlit tyto pojmy, které jsou v praxi velmi často zaměňovány a nepřesně používány. Dále jsou v práci také vyjmenovány přínosy, ale také výzvy pro veřejnou správu při zpřístupnění veřejných dat občanům. Velmi zajímavá je SWOT analýza, která poukazuje na silné a slabé stránky otevřených veřejných dat. V práci byla také zmínka o Open Private Data, což s ohledem na samotný název termínu Open Private Data působí trochu paradoxně. Bauer a Kaltenbock ve své práci (Bauer & Kaltenbock, 2012) vyjmenovali základní principy Open Government Data a nastínili postup transformace z Open Data na Linked Open Data. Ve svém díle poukazují na náklady a výnosy při používání web dat. Největší přínos Bauerovy a Kaltenbockovy práce autor spatřuje v argumentaci, proč jsou Linked Open Data vhodná a proč by se na ně vývojáři měli zaměřit. Jak již bylo zmíněno výše, publikování Open Government Data pomáhá k větší transparentnosti, participaci a spolupráci veřejné správy. Avšak vedle toho přináší také nemalé ekonomické přínosy. Právě tomuto aspektu věnoval ve svém díle pozornost
Úvod
15
Mustafa (Mustafa, 2012), když analyzoval roli OGD v podnicích a jejich přínos. Tyto poznatky by autor rád zakomponoval do kapitoly 2 při charakterizaci LOD; velmi dobrý popis vývoje OGD v USA, VB a Rakousku bude sloužit jako pramen při zpracování podkapitoly 2.3 Rozšířenost LOD v Evropě a USA. Ačkoliv jsou Linked Open Data primárně používána ke zveřejňování dat veřejné správy nebo pro publikaci obecných informací občanům, najdou se i případy, které jsou velmi neobvyklé. Kdo by si pomyslel, že Linked Open Data nenajdou uplatnění třeba v komunistické Číně, kde je přísná cenzura a zveřejňování dat tamním lidem připadá naprosto absurdní a nemožné, tak se mýlí. Linked Open Data přinášejí nemalé výhody, a proto se dnes vyskytují a používají v mnoha oblastech. Jun Zhao ve svém článku (Zhao, 2010) popisuje publikování znalostí čínské medicíny jako Linked Data na webu.
Obrázek 3 Aplikace pro alternativní medicínu (Zhao, 2010)
Při zpracovávání literární rešerše dostupných zdrojů na podobné téma získal autor dobrý přehled nad danou problematikou. Autoři prací velmi dobře charakterizovali principy a přínosy otevřených dat. Při studování těchto podkladů získal autor ale dojem, že pojmy Open Data a Linked Data splývaly, přitom se jedná o dva odlišné přístupy k datům. Převážná část prací neodlišovala otevřená a propojená data, nebo propojeným datům nevěnovala dostatečnou pozornost. Proto by chtěl autor při zpracování teoretické části tyto
Úvod
16
principy jasně diferencovat a soustředit se spíše na Linked Open Data aktivity jak ve světě, tak v ČR.
Charakteristika Linked Open Data
17
2 Charakteristika Linked Open Data V této kapitole se autor bude snažit o definici nejenom Linked Open Data, ale i dalších termínů, které s tímto tématem souvisí. Cílem je jednak seznámení čtenáře s důležitými pojmy, které se v dalších částech práce budou vyskytovat, jednak vybudování pevného teoretického základu pro vývoj práce. Ačkoliv se jedná o jeden termín Linked Open Data , představuje dva zcela odlišné způsoby práce s daty, které se dají dobře zkombinovat. V následujících podkapitolách autor kromě definování pojmů čtenáře také seznámí s rozšířeností těchto konceptů jak ve světě, tak v ČR. Dále bude potřeba poskytnout informace o katalogizaci LOD veřejné správy a získat stručný přehled o projektech, které se zaměřují na otevřená a propojená data. Na konci kapitoly autor vyjmenuje jistá rizika a omezení Linked Open Data.
2.1
Definice pojmů
Jak už název napovídá, Linked Open Data se skládá z Linked Data a Open Data. Dále se velmi často používá termín Open Government Data nebo také Linked Open Goverment Data. Na neodborníky toto může působit poněkud matoucím dojmem. Proto je cílem autora v této podkapitole vysvětlit vyjmenované, ale i další pojmy, které jsou pro zvolenou oblast klíčové. Open Data Matthew Fontaine Maury byl významný americký astronom a oceánograf. Když po poranění nohy nebyl schopen další plavby na moři, věnoval všechen svůj čas studiu navigace, meteorologie, větrů a mořských proudů. Jako náčelník Americké námořní observatoře a správce Mapového a přístrojového skladu měl Maury přístup ke všem lodním deníkům, do kterých kapitáni sepisovali veškeré svoje poznatky o mořích. Na základě těchto dat Maury vypracoval práci Wind and Current Chart of the North Atlantic, která poskytla významné informace o využívání větrů a mořských proudů. Díky němu dosáhla celá námořní doprava významných pokroků a doba plavby se výrazně zkrátila (U.S. Navy Museum, 2014). Zde vidíme způsob využívání dat – lodních deníků , která
Charakteristika Linked Open Data
18
jsou přístupná a podařilo se díky nim vytvořit „aplikaci“, kterou využívali námořníci, čímž se dosáhlo ekonomického zisku. Na podobném principu fungují otevřená data. Podle definice Open Knowledge Foundation (Open Knowledge Foundation, 2014) jsou data otevřená tehdy, když jsou volně dostupná a konzumenti dat s nimi mohou volně nakládat, znovu je používat a distribuovat za předpokladu, že bude uveden jejich autor a budou zachována stejná oprávnění i pro další konzumenty. Dále je podle definice otevřené znalosti dílo otevřené, pokud splňuje následující podmínky: 1. Dostupnost – dílo by mělo být dostupné za cenu ne vyšší než náklady na vytvoření jeho kopie a s možností stažení z internetu zdarma; 2. Redistribuce – dílo by nemělo být omezováno licencí při dalším šíření; 3. Znovupoužití – licence na dílo musí umožňovat jeho znovupoužití jinými subjekty a dílo musí být licencováno za obdobných podmínek jako originální dílo; 4. Neexistence technologického omezení – dílo musí být k dispozici v takovém formátu, které neznemožňuje realizaci uvedených podmínek; 5. Uvedení autora – licence musí obsahovat podmínku pro uvedení autora při dalším šíření a modifikaci díla; 6. Integrita – upravené dílo musí mít podle licence jiný název než originální dílo za účelem zachování integrity; 7. Zákaz diskriminace osob a skupin – licence nesmí diskriminovat žádnou skupinu osob; 8. Zákaz diskriminace oblasti použití – licence nesmí omezovat žádnou oblast použití; 9. Šíření licence – práva spojená s dílem se musí vztahovat na všechny dotčené strany, pro které je práce určena, bez nutnosti dodatečné licence; 10. Licence nesmí být specifická pro soubor; 11. Licence nesmí omezovat distribuci dalších prací. Dílo zde můžeme chápat jako část vložené znalosti nebo znalost jako celek. Termín znalost v sobě zahrnuje obsah, data nebo informace (Open Knowledge Foundation, 2014).
Charakteristika Linked Open Data
19
„Otevřená data jsou všechna uchovávaná data, která mohou být přístupná na žádost veřejnosti bez jakýchkoliv omezení užívání a distribuce těchto dat“ (Geiger & von Lucke, 2012). Podle opendata.cz (opendata.cz, 2014) má otevřená podoba následující vlastnosti: 1. Technická otevřenost, tj. zveřejněná data jsou strojově čitelná; 2. Legislativní otevřenost; 3. Dostupnost a původnost; 4. Přehlednost (vytváření katalogů datových sad pro usnadnění vyhledávání). Obsahem otevřených dat mohou být vzdělávací materiály, zeměpisná data, statistiky, dopravní informace atd. V dnešní době otevřená data publikuje nejen veřejná správa, ale také podniky, univerzity nebo neziskové organizace (Geiger & von Lucke, 2012). Z tohoto důvodu vzniká mnoho otevřených dat a objevuje se zde problém s důvěryhodností zdrojů dat (Knap, 2013). Je velmi zajímavé, že žádná definice otevřených dat tento zásadní problém neřeší. V dnešní době už vydavatelé při publikaci většinou splňují první 3 podmínky otevřených dat, ale jejich data jsou publikována na různých portálech a přístup k nim je někdy velmi omezený (vzniká zde problém s přehledností). Pro vyřešení tohoto problému vznikají katalogy datových sad, které všechna data shromažďují na jednom místě. Více informací o katalozích bude poskytnuto v následující podkapitole 2.4. Linked Data Tim Berners-Lee, vynálezce World Wide Webu a současný ředitel konsorcia W3C, na svém webu publikoval v roce 2006 definici Linked Data (Berners-Lee, 2006). Ve svém článku Berners-Lee používá termín Sémantický Web, proto je dobré tento pojem nejprve vysvětlit. Definici si vypůjčíme z Wikipedie. Na rozdíl od klasického webu, kterým je web dokumentů, je sémantický web jeho dalším evolučním stupněm. Jedná se o web, kde jsou informace strukturovány a uloženy podle předem uložených pravidel, což usnadňuje jejich vyhledávání a zpracování. Místo dokumentů se na webu ukládají data, která jsou vzájemně propojená (Wikipedia, 2014). Sématický web je založen na klasických webových standardech jako HTTP a URI, ale i na specifických technologiích Linked Data jako RDF, OWL, SPARQL atd. (Kroupa, 2012). Tyto technologie budou dále popsány v kapitole 3.
Charakteristika Linked Open Data
20
Vraťme se nyní k Linked Data. Podstatou sémantického webu není jen přidávání dalších dat na web. Je potřeba je vzájemně propojit, aby se stroj nebo osoba, která má některá data k dispozici, mohla dostat k dalším souvisejícím datům. Tento přístup můžeme přirovnat k hypertextovým odkazům u klasických webů (Berners-Lee, 2006). Linked Data obsahují následující 4 pravidla při publikaci: 1. Používání URI k identifikaci zdrojů; 2. Používání HTTP URI, aby uživatelé mohli tyto zdroje najít; 3. Když uživatel najde URI zdroje, je potřeba mu poskytnout relevantní informace, které jsou ve standardních formátech (RDF); 4. Propojit URI s jinými, aby uživatelé mohli najít další související zdroje (BernersLee, 2006).
Obrázek 4 vývoj webu (Bauer & Kaltenbock, 2012)
Na obrázku 4 vidíme graf vývoje koncepce webu. Neznámějším projektem Linked Data je DBpedia, který extrahuje data z Wikipedie a transformuje je do podoby Linked Data. Díky tomu, že je DBpedia postavena na technologiích sémantického webu, umožňuje oproti Wikipedii komplexnější dotazy na daný obsah a poskytuje na ně adekvátnější data. Anglická verze obsahuje přes 4 milióny zdrojů, z toho 832 tisíc osob, 639 tisíc míst, 209 tisíc organizací atd. (DBpedia, 2014).
Charakteristika Linked Open Data
21
Další datové množiny jsou dále propojeny s DBpedií a vzniká Linked Data Cloud, který se velmi rychle rozrůstá. Na obrázku 5 je vidět Linked Data Cloud Diagram z roku 2011.
Obrázek 5 LOD Cloud Diagram (Freie Universitat Berlin, 2011)
Linked Open Data Navážeme na příklad Mauryho využití dat z lodních deníků. Námořníci v této době běžně používají kompas a data z něj získaná jim slouží k navigaci po moři. Nyní mají další data z práce od Mauryho, která propojí spolu s daty kompasu a získají mnohem mocnější nástroj, který jim umožňuje se lépe a rychleji pohybovat po moři. V tom tkví síla propojených a otevřených dat. Pokud otevřená data propojujeme, uživatel získá komplexnější a bohatší informace o dané problematice. Když se podíváme na výše definovaný pojem Linked Data, můžeme se na Linked Open Data dívat jako na Linked Data, která jsou otevřená jak z technologického, tak i legislativního hlediska, umožňují volné užívání a distribuci a jsou zařazená do katalogů pro větší přehlednost.
Charakteristika Linked Open Data
22
Obrázek 6 Kvalita LOD (Berners-Lee, 2006)
Tim Berners-Lee navrhl kritéria, která hodnotí kvalitu publikovaných Linked Open Data. 1. Data jsou publikována jako otevřená data; 2. Data jsou strojově čitelná; 3. Data nejsou uložena v proprietárních formátech; 4. Data jsou publikována v RDF; 5. Data jsou provázána s dalšími daty (Berners-Lee, 2006). V následující tabulce č. 2 jsou vyjmenovány výhody jednotlivých úrovní kvalit pro konzumenta i producenta. Tabulka 2 - Kvalita LOD, výhody a podmínky (Kroupa, 2012)
Stupeň kvality
Výhody pro konzumenta
Výhody a podmínky pro producenta
1
Data můžete prohlížet a tisknout.
Jednoduchá publikace.
Data můžete ručně zadat do jiného systému. Data můžete uložit a použít lokálně.
Charakteristika Linked Open Data
23
Stupeň kvality
Výhody pro konzumenta
Výhody a podmínky pro producenta
2
Všechny
Jednoduchá publikace.
výhody
předchozího
stupně. Data můžete exportovat do jiného strukturovaného formátu. Data můžete přímo zpracovávat pomocí proprietárního SW, např. pro výpočty nebo vizualizace. 3
Data můžete zpracovávat pomocí
Data bude možná nutné konvertovat do otevře-
SW, který daný formát podporuje,
ného datového formátu.
nikoliv pouze s výchozím proprie-
Stále se však jedná o jednoduchou publikaci.
tárním SW. 4
Na data je možné odkazovat
Je nutné přiřadit URI k datovým položkám a
z jiného místa.
přemýšlet o tom, jak reprezentovat data.
Data je možné tagovat, je možné
Získáte kontrolu nad datovými položkami, díky
znovupoužít část dat.
kterým můžete optimalizovat jejich přístup (load balancing, cache).
5
Můžete procházet další související
Budete muset investovat prostředky do propoje-
data (i publikovaná jinde).
ní dat s jinými daty na webu.
Znáte datové schéma.
Vaše data budou zjistitelná. Můžete zvýšit hodnotu svých dat.
Open Government Data a Linked Open Goverment Data Jak názvy těchto termínů napovídají, týkají se dat veřejné správy. Důležitou motivací pro OGD je učinit data více přístupná a umožnit občanům a organizacím s nimi efektivně pracovat. Při využívání těchto dat mohou například zvýšit příjmy, čímž se zvýší bohatství celého státu (Mustafa, 2012). Tim Berners-Lee OGD definoval jako data, která jsou o dané zemi, ale netýkají se konkrétních osob. Tato data neobsahují ani informace soukromého charakteru, ani informace o armádě nebo státních tajemstvích (Mustafa, 2012). Open Government Data jsou všechna uložená data, která jsou zveřejněná veřejnou správou a veřejnost je může volně využívat a distribuovat. Z předchozí definice vychází i Linked
Charakteristika Linked Open Data
24
Open Government Data - jejich definice je ale doplněna o vzájemnou propojenost těchto dat.
2.2
Katalogizace LOD
Jak už bylo řečeno výše, otevřená data jsou publikována jako datové sady, které jsou velmi často dostupné na stránkách dané instituce. Datové sady jsou datové množiny, které představují kolekci souvisejících dat, jež jsou publikována a spravována jedním subjektem, jsou volně stažitelná z internetu a vhodná ke strojovému zpracování (Chlapek, Kučera, & Nečaský, 2013). V ČR velmi aktivně publikuje Český statistický úřad nebo Ministerstvo financí. S iniciativou Open Governmentu a Open Data a publikováním dat veřejné správy v otevřeném formátu k posílení transparentnosti, participace a efektivnosti státu čím dál tím více organizací publikuje svoje data. V důsledku toho ale dochází k roztříštěnosti těchto informací a konzument dat časem ztrácí přehled o tom, která data se kde nachází. Původní cíl publikování otevřených dat jako prostředek zpřístupnění dat občanům tak ztrácí svůj smysl. Na podobném principu a s podobným účelem je založena snaha o vytvoření datového katalogu, který by soustředil veškeré dostupné datové na jednom místě a více zpřístupnil konzumentům dat informace k dalšímu užití. „Datový katalog je množina záznamů popisující datové záznamy, usnadňuje uživatelům vyhledávání požadovaných datových množin, které mohou být publikovány na různých místech“ (Chlapek, Kučera, & Nečaský, 2013). V mnoha zemích již katalogizace otevřených a propojených dat započala. V USA se jedná o data.gov, ve Velké Británii portál data.gov.uk. „Datový katalog neobsahuje data samotná, ale pouze jejich popisy. V tom je podobný katalogům v knihovnách, kde sice vlastní texty dokumentů nenaleznete, ale zato se z nich dozvíte například to, jak se k těmto textům dostat. Katalog obsahuje popisná (např. název nebo tagy) a přístupová metadata (např. odkaz, kde jsou data ke stažení)“ (Mynarz, 2012). Datový katalog působí jako seznam všech dostupných datových sad. U jednotlivých datových sad se kromě dat nachází také popisující metadata, která poskytují dostatečné informace o dané datové sadě. Tato metadata by měla být také strojově čitelná.
Charakteristika Linked Open Data
25
Datový katalog může mít mnoho podob, protože existuje mnoho variant, jak může být koncipován. V následující tabulce můžeme vidět možné varianty. Tabulka 3 - Vlastnosti a možnosti datového katalogu (Kroupa, 2012)
Vlastnost
Možnosti
Provoz
Centralizovaný X Distribuovaný
Replikace dat
Data umístěna u provozovatele X replikována do katalogu X kombinace obojího
Správa datového katalogu
Veřejnost X Ověřený uživatel X Zástupce OVM X Redaktor
Plnění datového katalogu
Ruční X automatizované X poloautomatizované
Konzumace dat
Vyhledávání a následná práce přímo se zdrojem X práce s daty prostřednictvím katalogu
Varianta centralizovaného provozu předpokládá jediný hlavní katalog, který by byl povinný pro všechny producenty dat. Naopak distribuovaný provoz představuje soubor několika specifických katalogů podle určitého zaměření. U centralizovaného katalogu je výhodou snadná správa. Naopak u distribuovaného přístupu je možno speciálně upravit katalog pro danou oblast (specifická metadata) a tím co nejlépe popsat datové sady. Datové sady mohou být uloženy na stránkách vydavatele, nebo také fyzicky umístěny na serverech provozovatelů katalogu. Při umístění datových sad přímo v katalogu vzniká další povinnost pro správce katalogu, a to udržet všechna data aktuální. Na druhou stranu jsou data stále uchována, jestliže dojde k výpadku u poskytovatele dat. Dále mohou být datové katalogy odlišeny i správcem katalogu, nebo způsobem plnění dat. Katalog může být naplněn daty ručně, ale i automatizovaně. Datové katalogy mohou také nabízet práci s daty přímo v prostředí katalogu, např. pomocí SPARQL endpointů atd. (Kroupa, 2012). Dnes existuje mnoho softwarů, které umožňují vytvořit a spravovat datový katalog. Mezi nejvýznamnější patří open source nástroje jako CKAN nebo Socrata.
Charakteristika Linked Open Data
2.3
26
Rozšířenost LOD v EU a USA
V této podkapitole se zaměříme na rozšířenost LOD ve světě. Cílem je vymezit všechny důležité projekty v USA a EU, národní i nadnárodní datové katalogy s důrazem na rozšířenost a využití Linked Open Data. Je velmi důležité poukázat na přístupy vlád jednotlivých zemí k problematice otevřených dat. Zpřístupnění informací pro celou veřejnost i vývojovou komunitu přináší státu obrovské výhody. Rufus Pollock, spoluzakladatel Open Knowledge Foundation, řekl: „Nejzajímavější způsob využití vašich dat vymyslí někdo jiný“ (Boček, Mráček, & Mynarz, 2012).
Obrázek 7 Míra adopce otevřených dat na světě (Boček, Mráček, & Mynarz, 2012)
Podle studie McKinsey můžou otevřená data ušetřit vyspělým ekonomikám 100 miliard eur ročně na straně institucí a 450 miliard na straně klientů. Na obrázku 7 můžeme proto vidět, že mnoho států jako USA, Kanada, Velká Británie, Austrálie nebo také Keňa už si výhody otevřených dat uvědomují a aktivně přistupují k jejich publikování i správě (Boček, Mráček, & Mynarz, 2012). Velmi důležitá z hlediska otevřených dat je multilaterální iniciativa Partnerství pro otevřené vládnutí Open Government Partnership (OGP), která podporuje otevřenost, transparentnost a boj proti korupci. Tato iniciativa byla vyhlášena 8 státy v čele s USA a Brazílií v září 2011. S těmito státy také spolupracovaly významné neziskové organizace (např. Transparency and Accountability Initiative) (OGP, 2014).
Charakteristika Linked Open Data
27
Cílem celé iniciativy je více zapojit občany do řízení státu, vytvoření a zlepšování veřejné služby. Každá vláda, která se k iniciativě připojí, spolu s občany vytvoří závazek a pravidelně bude informovat o tom, jak se ho daří plnit. Konkrétně musí vláda shromáždit nápady, jež pak propojí a vytvoří projekt („Akční plán“), který poté splní zhruba do 2 let (opengov.cz, 2014). Česká republika se dopisem tehdejší místopředsedkyně vlády Karolíny Peake k iniciativě připojila 14. září 2011. Jako nezisková organizace z ČR zde působí Nadace Open Society Fund Praha, která pomáhá vládě při sestavení Akčního plánu (opengov.cz, 2014). V rámci iniciativy vzniká řada projektů, které jsou postavené na principu Open Data a pomáhají lidem po celém světě zlepšit transparentnost a snížit míru korupce. V Brazílii vláda zavedla on-line sledování výdajů státních institucí, čímž došlo k okamžitému poklesu korupce. Chile uzákonilo politickým stranám povinnost zveřejňovat na webu financování volebních kampaní. Britové spustili centrální úložiště vládních dat, z nichž např. vyplynulo, které nemocnice jsou kvalitní a které ne úmrtnost při kardiochirurgických operacích vzápětí klesla na polovinu (Mráček, 2011). Jak už bylo řečeno, vznik a vývoj Open Data můžeme nalézt v mnoha zdrojích, některé jsou přímo zmíněné v rešerši literatur na podobné téma. Cílem této podkapitoly je zaměřit se na konkrétní využití Linked Open Data.
2.3.1
Open Data v USA
Profesor G. Zhiyong Lan se ve své práci zabýval krizí veřejné správy ve ztrátě důvěryhodnosti občanů. Projekt eGovernment měl být nástrojem, který tuto krizi napraví a posílí transparentnost, participaci a efektivnost veřejné správy. Právě Open Government Data je novým vývojovým stádiem eGovernmentu v USA (Mustafa, 2012). Na začátku 21. století vláda USA volně zpřístupnila data o počasí a globální systém pro určování poloh GPS. Od té doby američtí podnikatelé a inovátoři využívají tato data k vytváření navigačních systémů, aplikací na práci s počasím atd. Tento krok vedl ke zvýšení životní úrovně v USA, vytvářel nová pracovní místa a stál za ekonomickým rozvojem. Tento fakt je jedním z podnětů, které vládu přesvědčily, že koncept otevřených vládních dat představuje pro veřejnou správu budoucnost (Park & VanRoekel, 2013).
Charakteristika Linked Open Data
28
Když se v lednu 2009 ujal úřadu nový prezident Barack Obama, vydal nové nařízení k zahájení inciativy otevřených vládních dat. Barack Obama si velmi dobře uvědomoval, že jedině „otevřené vládnutí“ posílí transparentnost, participaci a spolupráci ve veřejné správě. Touto novou iniciativou chtěl posílit demokracii v USA (Boček, Mráček, & Mynarz, 2012). Datový katalog 21. května 2009 byl spuštěn centrální katalog otevřených vládních dat USA data.gov s 76 datových sad a 11 nástroji pro práci s otevřenými daty. Dnes už tento katalog obsahuje 90 565 datových sad, na nichž jsou postavené stovky webových a mobilních aplikací, které poskytují tato data občanům ve srozumitelnější a komfortnější podobě. Data.gov je dnes domovem pro americká otevřená vládní data. Nachází se na nich federální, státní i lokální data, nástroje a další zdroje, které mohou být využity k výzkumu, vytvoření aplikací, vizualizaci a mnoha dalším činnostem. Samotný katalog působí jako open-source, a tak se do jeho vývoje může zapojit každý (DATA.GOV, 2014). Data.gov se stal také vzorem pro státy USA i celý svět. Na následujícím obrázku 8 vidíme mapu 44 států USA, které mají vlastní lokální síť otevřených dat.
Obrázek 8 Státy USA s lokální sítí otevřených dat (DATA.GOV, 2014)
Na obrázku 9 pro změnu můžeme spatřit 45 států, které následovaly příklad USA a vybudovaly si vlastní síť otevřených vládních dat.
Charakteristika Linked Open Data
29
Obrázek 9 Státy na světě otevírající data pro občany (DATA.GOV, 2014)
Projekty s LOD Dne 9. května 2013 americká vláda vydala prezidentské nařízení č. 13642, kterým stanovila, že „výchozí stav nových a modernizovaných informačních zdrojů veřejné správy musí být otevřený a strojově čitelný“. To se také shodovalo s memorandem nastiňujícím vytvoření politiky otevřených dat (Open Data Policy), které vyžaduje, aby vládní agentury shromažďovaly a vytvářely informace způsobem, který podporuje jejich následné zpracování a šíření. To zahrnuje používání strojově otevřených formátů, datových standardů, společného jádra a rozšiřitelných metadat (Gottlieb-Miller, Vaidyanathan, Wickner, CobleSarah Potvin, & Shirazi, 2013). V souvislosti s prezidentským nařízením a vytvořením politiky otevřených dat vznikl Project Open Data. Tento projekt vytvořený vládním CIO Stevenem VanRoekelem a CTO Toddem Parkem je online veřejné úložiště určené k podpoře spolupráce a neustálého zlepšování Open Data Policy. Todd Park a Steven VanRoekel celý tento projekt koncipovali jako open-source nástroj, kde může každý člověk přispět k jeho zlepšení. Project Open Data je publikován na GitHubu a tvoří platformu, která umožní vývojářské komunitě spolupracovat, sdílet a zlepšovat zdrojový kód (Park & VanRoekel, 2013).
Charakteristika Linked Open Data
30
Project Open Data obsahuje: 1. Definice pojmů jako otevřená data, otevřené licence nebo metadata; 2. Implementační návody pro zavedení otevřených dat; 3. Nástroje pro práci s otevřenými daty (např. nástroj na převod relačních databází na REST API, které poskytují data v XML, JSON nebo HTML); 4. Zdroje o otevřených datech; 5. Případové studie a „best practices“ od úřadů veřejné správy, které úspěšně zavedly přístup otevřených dat (Project Open Data, 2014). Linked Open Data v USA Dosud jsme se zabývali jen vznikem a vývojem otevřených dat, ale nikoli propojenými daty. Z datového katalogu můžeme vyfiltrovat všechny datové sady, které jsou dostupné v RDF formátu. Ke dni zpracování této diplomové práce se zde nachází 144 datových sad (DATA.GOV, 2014). Toto číslo oproti celkem 92 124 datových sad představuje zanedbatelnou část. Pokud budeme hodnotit jejich kvalitu na škále definované Timem BernersLeem (Berners-Lee, 2006), tak pouhých 0,1 % datových sad má 4 hvězdičky. Z katalogu data.gov nelze však zjistit, jestli jsou tato data propojená s dalšími datovými sady. S rostoucím významem otevřených dat v USA ovšem vzniká projekt Linking Open Goverment Data Portal (LOGD), kterého se chopil tým z agentury Tetherless World Constellation (TWC) na Rensselaer Polytechnic Institute. Jedná se o open-source portál, který data z portálu data.gov konvertuje, publikuje a obohacuje o další propojená data s cílem poskytnout uživatelům přístupnější data. Portál TWC LOGD má následující funkce: 1. Konverze/vytvoření dat – většina dat je na data.gov publikována v „surové“ podobě (XLS nebo CSV formát), TWC LOGD portál tato data převede na RDF formát a zároveň datovou sadu obohacuje o další metadata; 2. Obohacování dat – vzniklá data se obohacují o další propojení na další datové sady; 3. Dotazování nad daty – pomocí SPARQL se provádějí dotazy nad vytvořenými daty (DiFranzo, 2010).
Charakteristika Linked Open Data
31
Vedle otevřených vládních dat koncept Linked Open Data využívají i další veřejné i soukromé instituce. Kompletní seznam portálu Linked Open Data můžeme nalézt ve wiki organizace W3C (W3C, 2014).
2.3.2
Open Data v EU
Vzoru USA jako první v Evropě následovala Velká Británie. V červnu 2009 požádal tehdejší britský premiér Gordon Brown profesory Tima Berners-Leeho a Nigela Shadbolta o to, aby zajistili otevřenost dat veřejné správy. Poté Berners-Lee a Shadbolt vytvořili tým čítající přes 2 400 vývojářů, kteří pracovali na beta verzi katalogu data.gov.uk, který byl spuštěn v září 2009. Oficiálně byl spuštěn 21. ledna 2010 a byl od začátku navržen technologiemi sémantického webu. Po vzoru USA a Velké Británie se i další státy EU začaly zajímat o Open Data a vytvářely svoje národní datové katalogy s cílem posílit transparentnost veřejné správy. Z hlediska otevřených dat je velmi důležitá novelizovaná směrnice 2003/98/ES o opakovaném použití informací veřejného sektoru ze dne 26. června 2013. Členské státy mají povinnost do 18. července 2015 přijmout nová opatření a zveřejnit právní a správní předpisy v souladu s touto směrnicí. Podobně jako prezidentské nařízení č. 13642 směrnice 2003/98/ES definuje data, která musejí být dostupná v otevřené podobě. Zákon klade důraz na zpoplatnění veřejných dat a na publikování těchto dat ve strojově čitelném formátu. Otevřenou normu musí splňovat především z hlediska formátu (Chlapek, Kučera, & Nečaský, 2013). Datové katalogy Během několika let bylo v Evropě vytvořeno mnoho datových katalogů. Jedná se jednak o nadnárodní katalogy (open-data.europa.eu – datový portál Evropské komise – nebo publicdata.eu – agreguje katalogizační záznamy z národních katalogů), národní katalogy (data.gov.uk, data.gov.sk) nebo také katalogy lokálních a nevládních organizací. Na portálu datacatalogs.org (Opendatalogs.org, 2014), portálu založeném v Berlíně a vedeném významnými organizacemi z celého světa jako Světová banka atd., jehož cílem je sdružit všechny datové katalogy na světě, můžeme najít celkem 121 katalogů, které patří do skupiny oficiálních datových katalogů EU.
Charakteristika Linked Open Data
32
V následující tabulce se autor pokusil sestavit stručný seznam významných datových katalogů v EU. Jelikož nás zajímá rozšířenost Linked Open Data v EU, u každého katalogu bude také uveden počet a podíl datových sad dostupných ve formátu RDF na celkovém součtu datových sad. Tabulka 4 - Národní a EU datové katalogy
Stát/Organizace
Katalog
Počet
RDF datové sady
Podíl
RDF
datových sad Velká Británie
Data.gov.uk
17852
114
0,6%
EU
open-data.europa.eu
6528
14
0,2%
EU
Publicdata.eu
46699
433
0,9%
Španělsko
Opengov.es
869
1
0,1%
Německo
Offenedaten.de
578
1
0,1%
Itálie
It.ckan.net
243
6
2,4%
Irsko
Ie.ckan.net
268
0
0%
Česká republika
Cz.ckan.net
178
18
10%
Slovensko
Data.gov.sk
205
0
0%
Jak vidíme z výsledků uvedených v tabulce 4, jen velmi malý podíl datových sad je přístupný ve formátu RDF, který je základem pro Linked Open Data. Většina datových sad je publikována ve formátu CSV, zůstává zde ale stále velký počet datových sad v PDF. Avšak ani RDF formát nám sám o sobě nepoví, že se jedná o Linked Open Data. Jen data.gov.uk nabízí filtr datových podle stupňů otevřenosti nadefinovaných Timem BernersLeem (Berners-Lee, 2006), kde se nachází 81 datových sad s 5 hvězdičkami v RDF formátu. Z tohoto jasně vyplývá, že ačkoliv jsou Open Data v EU velmi rozšířená, je mezi nimi stále velká absence propojenosti. Proto také vznikají projekty jako LOD2 nebo Comsode, které
Charakteristika Linked Open Data
33
mají za cíl prosadit princip propojených otevřených dat jak do soukromé, tak i veřejné sféry EU. Projekty s LOD LOD2 je rozsáhlý čtyřletý integrační projekt spolufinancovaný Evropskou komisí z prostředků 7. rámcového programu pro informační a komunikační technologie (grantová dohoda č. 257943). V rámci tohoto projektu spolupracují výzkumníci v oblasti Linked Open Data, firmy a poskytovatelé služeb z mnoha zemí EU (i mimo EU – Jižní Korea). Koordinátorem projektu je výzkumná skupina AKSW při Univerzitě Lipsko v Německu. Cílem projektu je poukázat na výhody Linked Open Data v oblastech médií a vydavatelství, firemních intranetů a eGovernmentu (LOD2, 2012). LOD2 nabízí zdarma přístupné webináře, které se zabývají převážně nástroji pro práci s Linked Open Data. Ve webinářích je například integrační software Silk, sémantická wiki Ontowiki nebo RDF úložiště Virtuoso. Tyto webináře jsou zdarma dostupné na: http://lod2.eu/BlogPost/webinar-series. Dále v rámci podpory organizací při práci s Linked Open Data nabízí LOD2 službu PUBLINK. Jedná se o bezplatné konzultace připravované konsorciem LOD2. V každém kole je vybráno 5 uchazečů, kteří budou mít během 1020 dní zdarma k dispozici konzultace s experty v oblasti Linked Open Data. Mezi institucemi, které už těchto služeb využily, patří město Vídeň, Food and Agricultural Organisation Spojených národů (FAO) nebo Srbský statistický úřad. Asi neznámějším výstupem tohoto projektu je LOD2 Stack. Jedná se o integrovanou distribuci vzájemně spolupracujících nástrojů, které pokrývají dílčí fáze při přípravě a publikování Linked Open Data. Na obrázku uvedeném níže vidíme fáze životního cyklu LOD při použití LOD2 Stacku.
Charakteristika Linked Open Data
34
Obrázek 10 - Životní cyklus LOD v LOD2 Stacku (LOD2, 2012)
Dalším projektem financovaným Evropskou unií je COMSODE (Components Supporting the Open Data Exploitation), který byl odstartován v září 2013. Cílem projektu je změnit současný způsob publikování otevřených dat. Data v katalozích jsou v různých formátech (velmi často v proprietárních), kvalita dat často neodpovídá standardu a propojení dat je na velmi nízké úrovni. Cílem projektu COMSODE je přepracovat způsob publikování dat za účelem zvýšení znovupoužitelnosti dat. Výstupem projektu by měla být platforma k publikování dat a souhrnná metodika pro práci s veškerými fázemi životního cyklu otevřených dat (Nečaský, Maurino, & Konečný, 2013).
2.4
Rozšířenost LOD v ČR
První známější aktivity zaměřené na zprůhledňování dat patří do oblasti boje proti korupci, kdy vláda schválila dokument – Strategie vlády v boji proti korupci na období let 2011 a 2012. Z hlediska otevřených dat Strategie obsahuje úkol, který se týká zprůhledňování veřejných zakázek. Cílem je zveřejnit veškeré informace o průběhu zadávání a přidělování veřejných zakázek (Úřad vlády ČR, 2012).
Charakteristika Linked Open Data
35
Jak už bylo uvedeno výše, do iniciativy Open Government Partnership se zapojila i Česká republika. V roce 2012 byl na základě podnětů komunity vypracován Akční plán (Úřad vlády ČR, 2012), který obsahoval 3 základní okruhy: 1. Přijetí zákona o úřednících veřejné správy zajišťující odpolitizování, profesionalizaci a stabilizaci veřejné správy; 2. Zefektivnění systému svobodného přístupu k informacím; 3. Zpřístupnění dat a informací. Z hlediska otevřených dat si Akční plán klade za cíl převést všechna data veřejné správy do otevřené podoby bez vyhodnocování, zda budou pro občany užitečná. Jako přínosy byly v Akčním plánu vyjmenovány následující: Přínosy pro veřejnou správu: 1. Úspora prostředků; 2. Efektivnější práce s daty; 3. Data budou uceleným zdrojem pro analýzy a následná kvantifikovaná rozhodnutí. Přínosy pro odbornou veřejnost, komerční a akademickou sféru: 1. Podklady pro svobodnou obchodní, vědeckou a výzkumnou činnost; 2. Efektivnější kontrola fungování veřejné správy; 3. Podpora fenoménu datové žurnalistiky, která data umí interpretovat a zpřístupňovat je tak občanům; 4. Podklady pro tvorbu softwarových aplikací. Mezi výstupy Akčního plánu patří Koncepce katalogizace otevřených dat v ČR (Chlapek, Kučera, & Nečaský, 2012) a Metodika publikace otevřených dat veřejné správy ČR (Chlapek, Kučera, & Nečaský, 2012). Tyto dokumenty jsou dostupné na portálu Korupce.cz. Až dosud byl podán přehled stručného vývoje otevřených dat v ČR. Následující část bude zaměřena na rozšířenost Linked Open Data v ČR.
Charakteristika Linked Open Data
2.4.1
36
Projekty s LOD
Opendata.cz Jedná se o iniciativu za otevřenou datovou infrastrukturu, na níž se podílejí akademici a studenti ze dvou českých fakult: Matematicko-fyzikální fakulta UK a Fakulta informatiky a statistiky VŠE. V oblasti Linked Data pracují členové iniciativy na převodu stávajících datových množin na formát RDF, vhodný pro propojování s dalšími daty. V rámci této práce byly přestavěny například datové sady elektronického zdravotnictví, kontrol, sankcí a zákazů ČOI, demografie, Výkazů zisku a ztrát obcí ČR (opendata.cz, 2014). Opendata.cz také pracuje na datovém katalogu. Jedná se o prototyp, který je postaven na open-source nástroji CKAN. Celý katalog je pojat jako otevřený projekt a kromě vyhledávání můžeme také přidávat další datové sady. V současné době se zde nachází 178 datových sad. Osmnáct datových sad je v rámci inciativy opendata.cz převedeno do formátu Linked Open Data. Velké množství datových sad je dále publikováno v XLS formátu. U většiny datových sad ale chybí otevřená licence (CKAN Czech Republic, 2014). Sémantické propojování dat ve veřejné správě Jedná se o projekt Interní grantové agentury VŠE (2011). Cílem projektu je ověřit možnosti využití technologií sémantického webu při publikování otevřených dat veřejné správy ČR. Mezi výstupy patří naplnění experimentálního katalogu dat cz.ckan.net, stanovení metodiky pro práci se softwarem CKAN, pokusy o triplifikace dat VS ČR a prvotní identifikace rolí v LOD (Chlapek, Kučera, & Nečaský, 2013). Ekonomické modely otevřených dat Tento projekt vznikl v rámci Interní grantové agentury VŠE (2013). Cílem projektu je analyzovat možnosti využití otevřených a propojených dat pro Elektronické obchodování a Služby veřejné správy (Chlapek, Kučera, & Nečaský, 2013). Výzvy a příležitosti využití LOD v ČR Řada organizací v ČR už data publikuje a další se k tomu také chystají. Abychom se vyhnuli případným problémům v budoucnosti, které by mohly vznikat z absence koordinace,
Charakteristika Linked Open Data
37
jako je pracnost publikace, vysoké nároky na katalogizaci, nepřehlednost atd., musíme si pro publikování těchto dat stanovit jasné podmínky. Dušan Chlapek a spol. z Fakulty informatiky a statistiky VŠE představili na konferenci ČSSI návrhy řešení, jak těmto problémům předejít (Chlapek, Kučera, & Nečaský, 2013). Tyto návrhy jsou vyjmenovány níže. 1. Publikace prioritních datových množin; 2. Sjednocení způsobu publikace; 3. Analýzy potenciálu otevřených dat pro konkrétní orgány VS; 4. Katalog otevřených dat ČR; 5. Implementace novely směrnice 2003/98/ES; 6. Komunikační strategie. Během zpracovávání této diplomové práce autor vytvořil několik návrhů pro využití Linked Open Data v ČR. 1. Převést prioritní datové množiny na formát vhodný pro Linked Open Data; 2. Propojit tyto prioritní datové množiny a vytvořit tak základ pro komplexnější aplikace; 3. Při sjednocení způsobu publikace zvolit jednotný formát vhodný pro Linked Open Data; 4. Rozšíření využití Linked Open Data do dalších oblastí, které jsou vhodné pro jejich využití (např. knihovnictví); 5. Aktivní přístup k vzdělávání v oblasti Linked Open Data. Pro identifikaci prioritních datových množin je vhodné tato data převést do takového formátu, který splňuje požadavky otevřenosti dat a umožní je snadno propojit s dalšími datovými množinami. Jako nejlepší formát se nabízí RDF. Při použití tohoto formátu můžeme dobře využívat výhod sémantického webu a zvýšit celkový přínos dat. Dále by bylo vhodné stanovit zákon, který RDF formát určí při publikování nových datových sad jako výchozí. Za této situace by instituce veřejné správy mohly využívat řadu materiálů jak z ČR, tak i ze světa, které poskytují kvalitní základ pro práci. V rámci LOD2 by instituce také mohly využívat služby PUBLINK, která jim poskytuje přístup ke konzultantským službám od expertů zcela zdarma. Projekt LOD2 také nabízí velmi dobře propracovaný balíček nástrojů LOD2 Stack pro práci s Linked Open Data.
Charakteristika Linked Open Data
38
Zároveň je velmi důležité klást důraz na vzdělávání studentů v oblasti sémantického webu. Veškeré dočasné akademické aktivity v ČR v oblasti Linked Open Data se týkaly převážně výzkumu. Jelikož autor považuje tuto oblast v budoucnu za jednu ze stěžejních, je potřeba ji zakomponovat do studijních programů a rozšířit tím znalosti i komunitu okolo Linked Open Data. Nakonec by nemělo dojít k omezení otevřených a propojených dat pouze na veřejnou správu. Využití nacházíme také v jiných oblastech jako knihovnictví, firemní intranety atd.
2.5
Rizika a omezení LOD
Otevřená propojená data nemají pouze výhody, které byly doposud zmíněny, ale také určitá rizika a omezení, která mohou vznikat při nesprávném postupu publikování dat. M. Jedličková ve své práci (Jedličková, 2013) zmínila případné problémy se zveřejněním osobních a citlivých údajů, chybných a zavádějících dat a možnosti jejich zneužití. Dále také narazila na problém datové konzistence a nepravidelnosti publikování. V současnosti je situace taková, že data jsou publikována v různých formátech, proto při zpracovávání těchto dat vznikají další práce. Tím se navyšuje pracnost těchto operací. Data veřejné správy uložená na serverech často nejsou připravená k publikování, proto je potřeba další dostatečná investice do IT prostředků. Také absence znalostí pracovníků veřejné správy zvyšuje pracnost při publikování dat. Zveřejněná data mohou ztrácet svoji hodnotu, pokud nebudou používána dalšími subjekty (Jedličková, 2013). Z hlediska propojených otevřených dat vznikají podle autora další rizika a omezení při následné práci s převodem na RDF formát, jež mohou u nekompetentní osoby vyžadovat další dodatečné náklady, které jsou mnohdy velmi vysoké.
2.6
Shrnutí
V této kapitole autor provedl podrobnou charakteristiku celého konceptu Linked Open Data, vymezil všechny důležité pojmy, které se v této oblasti objevují. Dále čtenáři byli seznámeni s katalogizací otevřených dat, rozšířeností LOD ve světě i v LOD aktivity v ČR.
Formáty LOD a nástroje pro práci s Linked Open Data
39
3 Formáty LOD a nástroje pro práci s Linked Open Data Jak už bylo řečeno výše v kapitole 2, mezi důležitá kritéria, podle kterých hodnotíme, zda se jedná o otevřená data, patří strojová čitelnost. Tato vlastnost otevřených dat umožňuje další automatizované zpracování výpočetní technikou. To bezprostředně souvisí také s použitím formátu pro publikování těchto dat. Dnes v datových katalozích najdeme řadu různorodých formátů, které se od sebe liší možností dalšího zpracování. Dušan Chlapek a spol. ve své práci Metodika publikace otevřených dat veřejné správy ČR (Chlapek, Kučera, & Nečaský, 2012) hodnotí nejfrekventovanější formáty z různých hledisek. Cílem je určit jejich vhodnost pro publikování otevřených dat. U jednotlivých kandidátů se hodnotilo, zda se jedná o proprietární formát (závislý na konkrétní aplikaci), data jsou ve strukturované podobě a existuje formalizovaný popis této struktury. Autoři ale také kladli důraz na to, zda lze data v daném formátu propojit a získat tak při zpracovávání dat další užitečné informace. V následující tabulce jsou uvedené formáty s hodnocením podle stanovených kritérií. Tabulka 5 - Vhodnost formátů pro publikování otevřených dat (Chlapek, & Kučera, & Nečaský, 2012)
Formát
Nezávislost
Zápis ve struktu-
Popis
Popis
na aplikace
rované podobě
struktury
mantiky
dat
dat
sé-
Vytváření
Vhodnost použití
propojení
1= nejlepší
PDF
Ne
Ne
Ne
Ne
Ne
5
DOC(X),
Ne
Ne
Ne
Ne
Ne
5
TXT
Ano
Ne
Ne
Ne
Ne
5
HTML
Ano
Částečně
Ne
Ne
Ne
4
XLS(X)
Ne
Částečně
Ne
Ne
Ne
4
CSV
Ano
Ano
Částečně
Ne
Ne
3
JSON
Ano
Ano
Částečně
Ne
Ne
3
XML
Ano
Ano
Ano
Ne
Ne
2
RTF
Formáty LOD a nástroje pro práci s Linked Open Data Formát
40
Nezávislost
Zápis ve struktu-
Popis
Popis
na aplikace
rované podobě
struktury
mantiky
dat
dat
sé-
Vytváření
Vhodnost použití
propojení
1= nejlepší
OData
Ano
Ano
Ano
Částečně
Částečně
2
RDF
Ano
Ano
Ano
Ano
Ano
1
Jak je vidět z tabulky č. 5, jediný RDF formát umožňuje propojení a popis sémantiky dat. Jelikož má autor této práce za cíl soustředit se na propojená otevřená data, v této kapitole bude řeč převážně o tomto formátu, protože je jako jediný kandidát vhodný pro publikování propojených otevřených dat. Ostatně byl také vytvořen pro ukládání dat sémantických webů. Než se ale podíváme na formát RDF, autor se pokusí čtenáři přiblížit problematiku použitých formátů pro publikování otevřených dat. V podkapitole 3.1 bude uvedena autorem zpracovaná statistika používaných formátů ve vybraných národních i světových katalozích dat. Následovat bude charakteristika formátu RDF, analýza jeho výhod i nevýhod. Na konci kapitoly bude autor srovnávat jednotlivé SW nástroje určené pro práci s LOD z hlediska vhodnosti pro začátečníka s LOD. Tyto nástroje budou rozděleny do skupin podle etap při zpracovávání dat. V každé skupině bude vybrán nejvhodnější nástroj podle zvolených kritérií.
3.1
Použití formátů Open Data
Autor si vybral datové katalogy, které byli zmíněny v kapitole 2. Mezi formáty vybral od strojově nečitelného formátu PDF přes proprietární formát XLS(X) až po HTML, CSV nebo XML. Cílem autora je poskytnout čtenáři přehled o podílu jednotlivých formátů v datových katalozích.
Formáty LOD a nástroje pro práci s Linked Open Data
41
Tabulka 6 - Výskyt vybraných formátů ve vybraných katalozích
Formát
PDF
XLS(X)
CSV
HTML
XML
RDF
Data.gov
19890
1704
3036
23825
15059
144
Data.gov.uk
804
1858
2959
942
244
171
open-data.europa.eu
94
24
16
5652
61
14
Publicdata.eu
1398
6261
10060
3526
1758
282
Opengov.es
3
1
27
0
59
1
Offenedaten.de
129
206
93
352
38
1
It.ckan.net
0
5
13
0
2
13
Ie.ckan.net
2
2
8
1
1
0
Cz.ckan.net
0
138
4
0
3
18
Data.gov.sk
0
1
131
3
57
0
Souhrn
22320
10200
16347
34301
17282
644
Graf 1 - Výskyt vybraných formátů v datových katalozích
Formáty LOD a nástroje pro práci s Linked Open Data
42
Graf 2 - Souhrn výskytu vybraných formátů
Z grafu 1 je velmi dobře vidět, že hojně se vyskytující HTML formát dominuje v několika datových katalozích. Velmi populární je také proprietární formát od Microsoftu XLS(X). Početné zastoupení mají také strojově čitelnější formáty jako CSV nebo XML. Formát RDF se naopak podílí na celkovém množství datových sad jen velmi málo. Na grafu 2 máme celkový absolutní počet všech formátů. Je až překvapivé, jaké je zastoupení PDF formátů v oblasti Open Data.
3.2
Charakteristika formátu RDF
Resource Description Framework v českém překladu se jedná o rámec pro popis zdrojů. Původně byl vyvíjen a představen v roce 1999 konsorciem W3C pro popis metadat webových dokumentů (autor, popis nebo název dokumentu atd.). V průběhu dalšího vývoje byl zdroj zobecněn na jakoukoliv věc, která by se dala identifikovat jednoznačným URI. Cílem je nejen udělat data strojově čitelná, ale také strojově srozumitelná. Počítač může díky tomu datům porozumět a nabídnout další související informace. Nedochází ke změně významu při přenosu mezi aplikacemi. RDF také nabízí propojování s dalšími datovými zdroji, proto je jako jediný formát vhodný pro publikování propojených otevřených dat (Lassila, 1999).
Formáty LOD a nástroje pro práci s Linked Open Data
3.2.1
43
RDF
RDF je datový model, na kterém je celý koncept Linked Data založen. Jedná se o jednoduchý datový model, kdy RDF přiřazuje každé určité věci (webovému zdroji) jedinečný webový identifikátor URI a následně tomuto „webovému zdroji“ přidává jeho určité atributy a hodnoty atributů. Formát navíc umožňuje přidávat datům sémantiku, což patří k hlavním přednostem tohoto formátu. V RDF terminologii rozlišujeme: ● Subjekt – reprezentuje určitou věc a je identifikován pomocí URI; ● Predikát – jedná se o vlastnost a je také identifikována pomocí URI; ● Objekt – může se jednat o určitou hodnotu, pak se jedná o literál, nebo také o další věc, která je určena pomocí URI (W3C, 2004). RDF se skládá z tzv. „triple“ (tvrzení, trojice), který se skládá ze subjektu, predikátu a objektu. Subjekt je určitá věc, které se popis týká. Predikát je vlastnost dané věci a objekt je hodnota této vlastnosti. Pomocí tohoto principu můžeme libovolnou větu převést do RDF formátu. Mějme knihu Javascript, kterou napsal David Flanagan a má ISBN 0596000480. Celou tuto větu můžeme rozložit na několik trojic a zobrazit na grafu. Na obrázku můžeme vidět toto rozložení.
Obrázek 11 - Příklad RDF grafu
Jak je vidět, jedná se orientovaný graf, kdy každý uzel představuje buď subjekt, nebo objekt. Směr grafu bývá pokaždé od subjektu k objektu. Hrany grafu představují zbývající člen z „triple“ – predikát. Můžeme zde vidět, že objekt může nabýt konkrétní hodnoty. V takovém případě se jedná o literál. Avšak objektem může být také nějaký jiný subjekt, který má určitý URI. Zobrazení grafem je velmi šikovné pro vizualizaci, ale RDF soubory musí být zapsány v určité notaci, která umožní ukládání do paměti databáze. Existuje ně-
Formáty LOD a nástroje pro práci s Linked Open Data
44
kolik způsobů serializace RDF grafu do textové podoby. Výsledkem je však vždy zdroj popsaný příslušnými trojicemi. Mezi často používanou syntaxi patří XML/RDF, která je založena na formátu XML. Tento formát je často poskytován strojům, které tato data dále zpracovávají. Na začátku se deklarují URI ontologií (slovníků) pomocí jmenných prostorů a jejich prefixů, které dále zpřehledňují a urychlují zápis dat. Předchozí graf by vypadal následovně:
Javascript David Flanagan <ex:isbn>0596000480
Další běžně používanou syntaxí je Turtle, která díky své jednoduchosti umožňuje především rychlé čtení a zapisování dat. Stejně jako u XML/RDF syntaxe se používají prefixy. Pokud má subjekt více vlastností, stačí je od sebe oddělit pouze středníkem. Celý zápis se ukončuje tečkou na konci. @prefix rdf:
@prefix ex: @prefix foaf: < http://example.com/book > foaf:name "Javascript" ; foaf:author "David Flanagan" ; ex:isbn 0596000480 . Poslední dobře známou syntaxí je N-Triples, která je charakteristická svou jednoduchostí. Každé tvrzení obsahuje subjekt, predikát a objekt. Proto dochází k mnoha redundancím, avšak díky kompresím lze snadno zmenšit velikost výsledného souboru, a proto je syntax vhodná při posílání velkého množství dat (Meloun, 2012). "Javascript" . "David Flanagan" . 0596000480 .
Formáty LOD a nástroje pro práci s Linked Open Data
3.2.2
45
Ontologie
Aby se daly objekty přiřadit k subjektům, jsou zapotřebí vyjadřovací prostředky. Pro lepší přenositelnost je důležité tyto vyjadřovací prostředky standardizovat. Ontologie úzce souvisí se „slovníky“, které obsahují výrazy a přesné definice jejich významu. Ontologie následně využívá tyto výrazy k popisu vztahu mezi subjekty a objekty. Vyjadřovací prostředky v konkrétním případě RDF dokumentů představují definované třídy, jejichž instance představují konkrétní subjekty z reálného světa a jejich vlastnosti predikáty. Pro usnadnění komunikace a propojení dokumentů byly vytvořeny RDF slovníky, které obsahují soubor předdefinovaných predikátů, které mohou být využity při popisu subjektu. Vývojář se však nemusí omezovat pouze na tyto předdefinované slovníky a může vytvářet vlastní třídy a predikáty, a to pomocí RDF schématu (RDFS) nebo Web Ontology Language (OWL) (Meloun, 2012). V tabulce 7 vidíme stručný seznam nejpoužívanějších formátů. Tabulka 7 - Souhrn výskytu vybraných formátů
Název
Popis
FOAF (Friend of a friend)
Poskytuje
Jmenný prostor vyjadřující prostředky
pro popis lidí a vztahů mezi nimi DCMI (Dublin Core Metadata
Slovník nabízí běžné výrazy pro
Initiative)
popis skutečností
Good Relations
Ontologie pro popis společností,
jejich služeb a produktů Poskytuje výrazy pro popis adres a
VCard
kontaktů GeoNames
3.2.3
Popis geografických údajů
RDFS
Jedná se o jazyk pro „popis slovníků“ vyjadřovacích prostředků. RDFS umožňuje vytvářet specifické třídy a vlastnosti (predikáty). Dále lze jeho prostřednictvím vyjádřit vztahy mezi
Formáty LOD a nástroje pro práci s Linked Open Data
46
třídami a podtřídami (subClass a subProperty), vlastnostmi a „podvlastnostmi“ (domain a range). U vlastností lze také určit definiční obor a obor hodnot. Agent An agent (eg. person, group, software or physical artifact). Výše vidíme převzatou definici Agenta ze slovníku FOAF. V prvním řádku je uveden URI třídy. Jedná se o samou třídu jako agent ve slovníku Dublin Core Metadata Initiative (owl:equivalentClass). Třída se jmenuje agent (vlastnost rdfs:label) a jedná se o určitou osobu, skupinu atd. (vlastnost rdfs:comment). Dále máme uvedenou definici organizace, která je podtřídou agenta (vyplývá to z vlastnosti subClassOf). Proto je každá organizace také agentem. Organization An organization Níže je uveden úryvek z FOAF slovníku o definici predikátu made. made Something that was made by this agent. Zde vidíme, že tato vlastnost se vztahuje pouze ke třídě agent, proto pouze instance této třídy mohou mít tuto vlastnost. Hodnoty objektů jsou určeny pomocí rdfs:range a jsou specifikovány pomocí URI http://www.w3.org/2002/07/owl#Thing (Meloun, 2012).
3.2.1
SPARQL
Celý název je SPARQL Protocol and RDF Query Language, byl standardizován W3C konsorciem dne 15. 1. 2008. Jedná se o „Read-only“ dotazovací jazyk pro RDF. Znamená to,
Formáty LOD a nástroje pro práci s Linked Open Data
47
že nelze pomocí SPARQL ukládat nebo měnit data. Na to existuje jiný specializovaný jazyk SPARUL , který byl standardizován rovněž W3C v březnu 2013. PREFIX foaf: SELECT ?nameX ?nameY ?nickY WHERE { ?x foaf:knows ?y ; foaf:name ?nameX . ?y foaf:name ?nameY . } Výše je uveden příklad SPARQL dotazu. Na začátku lze nadefinovat prefixy, které pak dále usnadňují a zpřesňují zápis. Poté je potřeba určit, co potřebujeme vybrat. Lze také pomocí klauzule FROM specifikovat určitou datovou sadu. Pomocí klauzule WHERE lze stanovit určitá omezující kritéria. Proměnné jsou definovány ve formátu „?promenna“, výrazy jsou sepsány v jazyce Turtle. Dále můžeme také pomocí dalších klauzulí jako OPTINAL, FILTER, GROUP BY, ORDER BY nebo LIMIT detailněji specifikovat dotaz. Vedle SELECTU existují i další typy dotazů jako ASK, CONSTRUCT nebo DESCRIBE. Se SPARQL souvisí také SPARQL endpoint, což je v podstatě webová služba, která je specifikována a přístupná pomocí určitého URI, je postavená nad úložišti RDF dat a umožňuje uživatelům pomocí SPARQL endpointu dotazovat nad uloženými daty. Odpověď je vracena vždy ve strojově čitelném formátu (Meloun, 2012).
3.3
Nástroje pro práci s LOD
Pro práci s LOD dnes existují řada nástrojů, které zajišťují určitou oblast. Z množství nástrojů je zřejmé, že o koncept LOD je velký zájem a celá komunita velmi aktivně přistupuje k vývoji tohoto konceptu. Cílem této podkapitoly je seznámit čtenáře s těmito nástroji, stručně je charakterizovat podle předem určených kritérií, vybrat a zdůvodnit si, proč autor daný nástroj vybral. Pro lepší přehled autor rozdělil nástroje do třech skupin. První skupina obsahuje nástroje, které jsou určené pro převod z jiných formátů do RDF. Druhá skupina zahrnuje nástroje pro ukládání a dotazování dat. Třetí skupina nástrojů se zabývá vizualizací dat. Autor se rozhodl, že ve své praktické části bude využívat nástroje pro převod a ukládání dat. V rámci tvorby pilotní aplikace bude vytvářet vizualizaci vlastními silami a nebude využívat žádný vizualizační nástroj. Proto v této podkapitole se bude řeč jen o 2 první skupiny, a to nástro-
Formáty LOD a nástroje pro práci s Linked Open Data
48
je pro převod a ukládání dat. Jelikož záměrem autora je seznámit čtenáře jak s konceptem Linked Open Data, tak i s nástroji pro jeho práci, důraz při stanovení kritérií a vyhodnocování je kladen vhodnost daného SW pro začínající uživatele. Autor při hodnocení nebude brát ohled na vyspělejší funkce, které mohou jednotlivá řešení nabízet, ale zaměří se na ty vlastnosti, které by jako SW pro začínající uživatele měl mít. V celkové hodnocení proto by měl vyjít nejvhodnější nástroj pro začátečníka v oblasti Linked Open Data.
3.3.1
Nástroje pro převod do RDF formátu
Jak první nástroj pro práci s RDF, který se dostává k uživateli, patří konvertory zajišťující převod dat z jiných formátů do RDF. Autor při výběru nástrojů se soustředil na řešení, které převádějí populární formáty v oblasti Open Data, některé z nich byly už zmíněné v podkapitole 3.1 Použítí formátů Open Data. Konkrétně se jedná o XML, HTML, Excel, CSV a data z relačních databází. Vedle toho ale také existuje řada převodníků, které převádějí různá metadata do RDF formátu. Velmi dobře zpracovávaný seznam je k nalezení na wiki stránkách konsorcia W3C (W3C, 2014). Stanovení kritérií Pro charakteristiku a hodnocení autor stanovil určitá kritéria, podle kterých bude hodnotit daná řešení. Cílem autora je vymezit základní vlastnosti nástrojů, které budou působit na začínajícího uživatele v této oblasti. ● Licence – velmi důležité kritérium při prvotním výběru nástroje je nepochybně licence. Uživatel si bude chtít produkt nejdříve vyzkoušet, a proto bude vybírat převážně ze skupiny open-source nástrojů. Většina z nich nabízejí základní funkce pro převod vstupních dat do RDF formátu. Naopak placené aplikace, které nabízejí vedle toho také pokročilejší funkce, se budou hodit spíše zkušenějším uživatelům. Proto při vyhodnocení bude řešení s open-source licencí lépe hodnocen než placené nástroje. ● GUI – pro méně zkušené uživatele je grafické uživatelské rozhraní téměř povinné, avšak ne každý nástroj toto nabízí. Setkáváme se s řadou nástrojů, které lze ovládat pouze přes příkazový řádek. Proto při výběru bude autor hodnotit lépe ta řešení, která GUI nabízí. ● Instalace – Některé nástroje pro konverzi dat jsou velmi složité už při instalovaní. Proto pro začátečníka je vhodnější nástroj s instalačním souborem. Uživatel pak postupuje klasickým procesem instalování, na který je zvyklý a nevznikají zbytečné problémy, které ho mohou odradit od používání nástroje.
Formáty LOD a nástroje pro práci s Linked Open Data
49
● Vstupní formáty – Veřejná správa publikuje datové sady v různých formátech. Nástroje si obvykle poradí jen s určitými formáty. Při hodnocení proto budou upřednostněny ty, které podporují co největší množství formátů. ● Mapování – Při konverzi dat do RDF data ze stávajících souborů je potřeba provést mapování. Existují nástroje, které toto nabízí v rámci aplikace, ale i ty, které požadují dodatečné externí mapování. Pro začátečníka se samozřejmě vhodnější první varianta, kdy si nemusí dodatečně vytvářet složité mapování externě. ● Dokumentace a návody – Neméně důležité jsou dokumentace a návody k nástroji. Dobře zpracovávaná dokumentace doplněná o tutoriály práci určitě zrychlí a zefektivní. V tabulce 8 jsou dále stručně charakterizovány nástroje pro konverzi do RDF formátu. Následně v tabulce 9 se nachází jejich porovnání podle zvolených kritérií vyjmenované výše.
Přehled nástrojů pro převod do RDF Tabulka 8 - Přehled nástrojů pro konverzi do RDF
Nástroj
Popis
Zdroj
Anzo Express
Anzo je produkt od Cambridge Semantics, který běží v prostředí MS
(Cambridge
Excel. Jedná se proto o velmi intuitivní a pro většina uživatelů velmi
mantic, 2014)
Se-
známé prostředí. Anzo vedle dalších funkcí také nabízí nástroje pro tvorbu RDF. Díky propracovanému nástroji lze velmi jednoduše vytvářet nové ontologie, propojit Excel sešity a vše synchronizovat se serverem, kde se dá vytvářet různé vizualizace dat. Anzo umožňuje velmi rychlou tvorbu RDF z Excelu nebo CSV souboru. Nabízí také dotazování pomocí SPARQL. Základní verze nabízí zdarma kolaboraci pro 3 uživatelé. Pro další rozšíření a využití serveru je potřeba zakoupit licence. XLWrap
XLWrap patří do kategorie jednodušších nástrojů z hlediska funkcí, ale naopak vyžaduje komplexnější znalosti uživatele. Po stáhnutí zdrojových souborů uživatel přes příkazový řádek nahraje Excel, CSV nebo OpenDocument sešit a soubor s mapováním a provede transformaci. Nástroj také nabízí jednoduchý SPARQL endpoint přístupný přes webové rozhraní.
(XLWrap, 2014)
Formáty LOD a nástroje pro práci s Linked Open Data Nástroj
Popis
TabLinker
TabLinker podobně jako XLWrap požaduje mapování, které specifi-
Open Refine
50 Zdroj (Hoe-
kuje, jak se má data transformovat. Hlavní funkcí je transformace dat
kstra&Rietveld&M
z Excel sešitů do multidimenzionální kostky, kde jsou data navzájem
eroño-Peñuela,
propojená s využitím RDF formátu.
2014)
Nástroj Google Refine byl původně vyvíjen Googlem, který se v roce
(Morris&Guidry&
2012 o tento nástroj přestal zajímat a uvolnil jako open-source pro
Magdifier, 2014)
veřejnou komunitu. Ten byl dále vyvíjen a přejmenován na OpenRefine. Nabízí velmi intuitivní grafické uživatelské rozhraní přes webové rozhraní. Uživatel může velmi snadno a rychle nahrát Excel, CSV nebo XML soubor a transformovat do RDF formátu. Vedle toho také nabízí funkce k čištění dat a propojení s dalšími daty. Pro práci s RDF je potřeba doinstalovat LOD rozšíření. Celý balíček je také dostupný jako LODRefine a je také součástí LOD2 Stacku. RDF123
RDF123 je aplikace (Windows, Linux nebo Java) i webová služba ke
(UMBC, 2007)
konverzi dat z Excel, CSV do RDF grafu. Uživatel vytváří základní šablonu RDF grafu a mapuje jednotlivé uzly grafu k buňkám v Excelu. Celý graf je uložen v RDF a umožňují další využití dat. Tarql
Tarql nabízí uživatelské rozhraní přes příkazový řádek. Autor podle
(Tarql, 2014)
specifického příkazu nahraje CSV soubor, pomocí SPARQL provede mapování. Tarql poté vygeneruje odpověď uložený v RDF formátu. Triplify
Triplify oproti zmíněným nástrojům nabízí funkce k zveřejnění dat
(Triplify, 2010)
webových aplikací postavené na relačních databázích jako Linked Data. Po začlenění do zdrojových souborů webové aplikace pomocí SQL dotazu specifikujeme, co chceme zveřejnit a Triplify tento dotaz přeloží do RDF formátu. ODCleanStore
ODCleanStore je vyvíjen na Karlově univerzitě v Praze a slouží jako
(UK v Praze, 2014)
ETL nástroj pro práci s RDF daty. Jedná se o velmi komplexní nástroj s grafickým uživatelským rozhraním pro administraci, ladění a monitoring ETL procesů. Nástroj nabízí funkce k pročištění RDF dat a tvorbu SPARQL endpointu. Cílem celého projektu je stát se součástí LOD2 Stacku. Krextor
Tento nástroj umožňuje konverzi XML do RDF. Uživatel podobně jako u předchozích nástrojů nahraje zdrojový soubor a mapování a následně se vygeneruje RDF soubor
(Trac, 2012)
Formáty LOD a nástroje pro práci s Linked Open Data
51
Porovnávání nástrojů podle zvolených kritérií Tabulka 9 - Srovnání nástrojů pro konverzi do RDF
Nástroj
Licence
GUI
Instalace
Formáty
Anzo Express
Zdarma pro 3 osoby bez
Excel
Instalační balíček (Windows,
MS
Linux)
CSV
Zdrojové soubory ke stažení
MS
serveru, další rozšíření
Excel,
Mapování
Návody a dokumentace
Součástí aplika-
Velmi dobrá dokumentace, video
ce
návody
placené XLWrap
Open-source
Ne
Excel,
OpenOffice
Externí
mapo-
Dokumentace s příklady užití
mapo-
Velmi jednoduchá dokumentace
vání
spreadsheet, CSV TabLinker
OpenRefine
Open-source
Open-source
Ne
Web
Zdrojové soubory ke stažení
MS
(Potřeba doinstalovat Python)
CSV
Instalační soubor pro všechny
MS
platformy
CSV,
Excel,
Externí vání
Excel, TSV,
Součástí aplika-
Velmi dobrá dokumentace, video
ce
návody jednotlivých případů užití
Externí šablona
Průměrná dokumentace
JSON, XML RDF123
Open-source
Aplikace,
Instalační balíček (Windows,
MS
webová
Linux, Java, Webová služba)
CSV
služba
Excel,
RDF grafu
Formáty LOD a nástroje pro práci s Linked Open Data
52
Nástroj
Licence
GUI
Instalace
Formáty
Mapování
Tarql
Open-source
Ne
Zdrojové soubory ke stažení,
CSV
Tvorba
přístup přes příkazový řádek
vání
Návody a dokumentace mapo-
Průměrná dokumentace
pomocí
SPARQL Triplify
Open-source
Ne
Instalace do stávající webové
Relační data-
Tvorba
aplikace
báze
vání
mapo-
Podrobná dokumentace
pomocí
SQL ODCleanStore
Open-source
Ano
Složitá instalace, potřeba mít
RDF + další
V rámci aplika-
řadu předinstalovaných kompo-
data
ce
XML
Definice mapo-
Průměrná dokumentace
nent Krextor
Open-source
Ne
Zdrojové soubory ke stažení, použití
pomocí
JavaWrapper
ShellScript,
vání v externím XMl souboru
Průměrná dokumentace
Formáty LOD a nástroje pro práci s Linked Open Data
53
Ze srovnání můžeme vidět, že pro převod do RDF formátu dnes existuje řada nástrojů, které nabízejí konverzi většina známých formátů. Ze široké palety produktů si autor vybral nástroj OpenRefine s rozšířením pro práci s RDF. Mezi důvody patří to, že se jedná o open-source software, který lze velmi snadno nainstalovat na všech známých platformách. Jako jeden z mála disponuje grafickým rozhraním a vedle převodu nabízí také čištění a propojování dat s dalšími zdroji. Vše je zabaleno v jednoduché rozhraní. Uživatelé si mohou také vybrat balíček LODRefine, což je balíček OpenRefine se všemi LOD rozšířeními. Jak vstupní formát si můžeme vybrat z mnoha možností a pro začátečníka se velmi hodí také podrobná dokumentace a video tutoriály dostupné na stránkách projektu, kde jsou demonstrovány všechny případy užití nástroje. LODRefine je také součástí LOD2 Stacku, což napovídá o jeho kvalitě. V kapitole 4 autor dále prakticky nastíní postup při konverzi vybrané datové sady do RDF pomocí OpenRefine.
3.3.2
Nástroje pro ukládání RDF
Po vytvoření RDF souboru s daty nastává další fáze – ukládání dat. Databáze pro RDF nebo-li „triplestore“ jsou dostupné v mnoha řešeních se základními funkcemi, a to ukládání a dotazování nad uloženými daty. Tyto databáze lze zařadit širší kategorie NoSQL (Not only SQL) databází (Sequeda, 2013). Mezi ně také patří známé produkty jako MongoDB, CouchDB, Redis atd. Nastává avšak otázka, jak se triplestory odlišují od ostatních NoSQL řešení a v čem je jich výhoda. Níže jsou vyjmenované několik odpovědí na tuto otázku. 1. Triplestory se od NoSQL databázových systémů liší tím, že nabízí standardní a sjednocený datový model. Běžné NoSQL řešení nabízí obvykle ad-hoc datový model, který je speciálně navržený pro danou implementaci (Bendiken, 2010). 2. Na rozdíl od NoSQL databází triplestory také nabízí velmi propracovaný dotazovací jazyk SPARQL. Většina NoSQL databází nabízí jen základní způsoby dotazování nad daty a propojování různých datových zdrojů bývá obvykle problém (Bendiken, 2010). 3. RDF je standardním formátem pro výměnu dat. RDF databáze disponují funkcemi jako import/export dat, které operují s tímto standardním a sjednoceným formátem. NoSQL databáze naopak používají k výměně dat různé formáty jako XML nebo JSON, proto je nutné dodatečně tato data aplikačně upravovat (Bendiken, 2010). Ve srovnání s relačními databázemi RDF databáze mají také několik výhod, které je potřeba zmínit.
Formáty LOD a nástroje pro práci s Linked Open Data
54
1. Přenositelnost dat – Data uložená v triplestorech nejsou závislá na konkrétní řešení, a proto je velmi dobrá přenositelnost dat. Při přechodu od jednoho řešení do druhé je poměrně snadnější než přechod od MySQL k PostgresSQL (Bendiken, 2010). 2. Nezávislost na konkrétní řešení (Bendiken, 2010) 3. Neměnnost v čase – jelikož je nyní RDF standardem pro publikování propojitelných dat, je velká šance, že vaše RDF data budou použitelná i v daleké budoucnosti (Bendiken, 2010). K implementaci RDF databází se používají různé postupy a technologie. Díky tomu můžeme tyto databáze rozdělit do 3 skupin: 1. Triplestory, které jsou implementované nad nativním prostředím triplestorů jako 4Store, AllegroGraph, BigData, Jena TDB nebo Sesame jsou velmi populární díky rychlosti ukládání a dotazování dat (Sequeda, 2013). 2. Do kategorie databází, které využívají relační databáze k ukládání dat, patří JENA SDB, IBM DB2 nebo Virtuoso (Sequeda, 2013). 3. Do třetí kategorie řadíme všechna řešení, které využívají NoSQL databáze jako úložiště dat. Příkladem můžeme být CumulusRDF (Sequeda, 2013). V této situaci nastává otázka, jaké řešení si vybrat. Jako důležité kritérium se jeví výkonnost dané řešení. Řada organizací se věnuje testováním výkonností se snahou najít nejlepší řešení. Populární benchmarky jako Berlin SPARQL Benchmark (Bizer & Schultz, 2011), SP2Bench (Uni Freiburg, 2009) nebo DBpedia SPARQL Benchmark (ASKW, 2014) nabízejí různé výsledky, ze kterých ale nelze jednoznačně určit, které řešení je nejlepší. Autor v této části nebude porovnávat jednotlivé řešení z hlediska výkonu, ale podobně jako u převodníků se zaměří na vhodnost pro začátečníka. Podle toto záměru jsou také konstruovány hodnotící kritéria, která se zaměřují na důležité aspekty, které působí na začínajícího uživatele. Níže jsou autorem stanovené kritéria hodnocení. Stanovení kritérií ● Licenci jednotlivých řešení – podobně jako u převodníků je velmi důležité při výběru licence. Pro začátečníka je lepší open-source nástroj, se kterým může uživatel vyzkoušet práci při ukládání a dotazování nad daty. Naopak komerční nástroje se budou hodit spíše v pozdější fázi, jelikož vedle základních funkcí nabízí i pokročilejší funkce. ● Instalace – aplikace s instalačním souborem urychlí práci při instalaci, proto tyto nástroje budou hodnoceny kladněji než ostatní. ● Zákaznická podpora – nástroje s kvalitní podporou budou lépe hodnocení při porovnání než ty bez zákaznické podpory.
Formáty LOD a nástroje pro práci s Linked Open Data
55
● Maximální počet trojic, které lze v triplestoru uchovávat – často pracujeme s daty, které se mohou rozrůstat do obrovských rozměrů, a proto je potřeba na začátku vybrat vhodné řešení, které bude nás v budoucnu nebude limitovat. ● Podpora SPARQL a SPARQL endpointu – možnost dotazování nad daty a vytvoření SPARQL endpointu patří mezi základní vlastnosti, které řešení musí mít. ● Funkce pro zálohování – při práci s databázemi může nastat situace, kdy se nám omylem smaže nebo poškodí data, proto je funkce zálohování stěžejní při výběru databáze. Dále k porovnání RDF databáze autor vybral celkem 8 populárních řešení. U většiny z nich se podařilo zjistit požadované informace. Autor na základě zjištěných informací dále stanoví, jaké řešení je nejlepší a v rámci čtvrté kapitoly provede demonstraci použití tohoto nástroje v praxi.
Formáty LOD a nástroje pro práci s Linked Open Data
56
Porovnávání nástrojů podle zvolených kritérií Tabulka 10 - Srovnání RDF databází
Nástroj
Instalace
Licence
Podpora
Max. počet trojic
SPARQL / SPARQL end-
Zálohování dat
point 4store
Instalační
balíček
Open-source
Ne
15 mld.
Ano/Ano
Ano
Open-source i komerční
Ano
15,4 mld.
Ano/Ano
Ano
(Linux, Mac OS X) OpenLink
Komerční balíček –
Virtuoso
instalační
soubor,
Open-source – ruční instalace BigData
Ruční instalace
Open-source
Ano
12,7 mld.
Ano/Ano
-
Sesame
Ruční instalace
Open-source
Ano
70 mil.
Ano/Ano
-
Mulgara
Ruční instalace
Open-source
Ne
500 mil.
Ano/Ne
Ano
Stardog
Ruční instalace
Zdarma, ne open-source
Ano
50 mld.
Ano/Ano
-
Fuseki
Ruční instalace
Open-source
Ne
-
Ano/Ano
Ano
Formáty LOD a nástroje pro práci s Linked Open Data
57
Z dostupných řešení porovnané v tabulce 10 se jeví jako nejlepší řešení Virtuoso. Vedle open-source řešení nabízí také komerční produkt, který nabízí další pokročilejší funkce. Komerční produkt lze na určitou dobu vyzkoušet zdarma. Dalším důvodem je, že Virtuoso je součástí LOD2 Stacku, proto uživatel může provést instalaci celého balíčku a bude mít vedle Virtuoso také LODRefine, nejlepší řešení z porovnání převodníků do RDF formátu v podkategorii 3.3.1 Nástroje pro převod do RDF formátu. Vzhledem k tomu si autor tento produkt vybral, jelikož umožní rychlou instalaci a vyzkoušet si jeho možnosti. Vedle toho slouží jako velmi kvalitní základ pro další rozvoj. V pokročilejší fázi nebude uživatel limitován základními funkcemi a může také přejít na komerční řešení Virtuosa.
3.4
Shrnutí
V této kapitole autor nastínil rozšířenost jednotlivých formátů pro otevřená data a základní charakteristiku RDF formátu. Dále čtenáře seznámil s několika nástroji pro práci s propojitelnými a otevřenými daty. Zabýval se dvěma skupina nástrojů, a to konvertory a databázemi pro RDF. Hlavním cílem tohoto kroku bylo určit vhodnost nástroje pro začátečníka. Autorovi se u každé skupiny podařilo stanovit určité vlastnosti, které hodnotil u zvolených nástrojů. Z výsledků porovnání autor poté určil nejlepší řešení, které si také vybral jako ukázku práce v kapitole 4 Návrh a tvorba aplikace. Pro práci s LOD autor také dále doporučuje LOD2 Stack, což je produktem projektu LOD2, který byl detailně popisován v kapitole 2.3.2 Open Data v EU.
Návrh a tvorba aplikace
58
4 Návrh a tvorba aplikace Záměrem autora v této části je, jak už bylo řečeno, převést vybraná data do RDF formátu, uložit do databáze a umožnit k nimi přístup prostřednictvím dotazu pomocí SPARQL endpointu. Hlavním třetím cílem této diplomové práce je návrh a tvorba webové aplikace s využitím LOD, proto bude autor vytvářet pilotní aplikaci k vizualizaci dat konečnému uživateli. Jelikož se jedná o data jednotlivých krajů ČR, jako velmi vhodný nástroj k vizualizaci dat se nabízí mapa. Ta by měla jasně rozlišovat mzdové úrovně v jednotlivých krajích a jejich vliv na výši penzí. Celý tento proces mj. slouží také jako návod pro čtenáře, jak převést otevřená data do propojitelné podoby a využít těchto dat při tvorbě aplikace.
4.1
Analýza zdrojů dat
Po konzultaci s vedoucím diplomové práce autor vybral ukazatel Porovnání průměrné mzdy a průměrného důchodu v krajích ČR za období 2010 až 2012. Účelem je znázornění mzdového rozdělení krajů a jeho vztah k výši penzí. Průměrné mzdy krajů jsou zveřejněné a také čerpané z veřejné databáze Českého statistického úřadu (Český statistický úřad, 2014). Období 2010 až 2012 bylo zvolené právě kvůli tomu, že je zveřejněno na stránkách ČSÚ. Průměrný důchod v jednotlivých krajích je čerpán z databáze České správy sociálního zabezpečení (ČSSZ) v sekci důchodové statistiky (Česká správa sociálního zabezpečení, 2014). Data za každý rok jsou volně dostupná ve formátu Excel. Autor pro účel dalšího zpracování potřebná data z těchto souborů vyextrahoval. Získaná data byla autorem uložena do souboru ve formátu Excel, který byl poté použit ke konverzi do RDF formátu. Byly vytvořeny následující sloupce: název kraje, kód kraje podle NUTS 2008, průměrná mzda, průměrný důchod, rok. Uvedený NUTS kód slouží dále k propojení s existující datovou sadou NUTS 2008 (Eurostat, 2008). Níže je uvedena ukázka navrženého Excel souboru. Tabulka 11 - Struktura Excel souboru Title Hlavní město Praha Středočeský kraj Jihočeský kraj Plzeňský kraj
Average_salary 34420 26097 23722 24885
Avarage_pension 11318 10561 10357 10475
Year 2012 2012 2012 2012
NUTS CZ010 CZ02 CZ031 CZ032
Návrh a tvorba aplikace
59
Obrázek 12 - Graf RDF
Na obrázku 12 je autorem navržena struktura vyjádřená grafem.
4.2
Převod do RDF formátu
K převodu vybraného datasetu autor vybral nástroj OpenRefine (Google Refine, 2014) s rozšířením RDF Refine (RDF Refine, 2014), který v porovnání v podkapitole 3.3.1 Nástroje pro převod do RDF formátu dopadl nejlépe a byl autorem vybrán k demonstraci v praxi. OpenRefine je mocný nástroj k třídění, čištění a transformaci dat do zvolených formátů. Pro práci s RDF formátem autor doinstaloval rozšíření RDF Refine. Po instalaci OpenRefine a rozšíření RDF Refine můžeme spustit program, který spouští server na lokálu a uživatelské prostředí běží v internetovém prohlížeči. Na začátku můžeme vytvořit nový projekt nahráním vytvořeného Excel souboru. V základním nastavení vybereme řádky, které potřebujeme, a vytvoříme projekt.
Návrh a tvorba aplikace
60
Obrázek 13 OpenRefine import souboru
Dále je potřeba přidat zdroj, se kterým chceme náš RDF soubor propojit. V tomto případě autor vložil URL na dataset NUTS 2008. OpenRefine nabízí také propojení se SPARQL endpointem, proto lze velmi snadno propojit naši datovou sadu se existujícími datovými sady (např. DBpedia nebo Europeana). Celý tento krok je znázorněn na obrázku 14.
Návrh a tvorba aplikace
61
Obrázek 14 Přidávání zdroje
Při vybrání funkce Reconcile na sloupec NUTS OpenRefine automaticky vyhledal dataset NUTS 2008 a nabídl propojení s vlastností ec:NUTSRegion. Na obrázku 16 můžeme vidět, že po automatickém propojení můžeme zkontrolovat, zda je vše správně a nedošlo k žádné chybě. Na obrázku 17 je znázorněna jak možnost využití předdefinované ontologie, tak možnost vytvoření vlastních predikátů a tříd. Pro sloupec Title autor využil predikát z FOAF slovníku foaf:name, na sloupec nuts_code_URI využil predikát owl:sameAs, což propojuje oba datasety. Dále vytvořil vlastní predikáty http://czech-salarypension.com/avg_salary, http://czech-salary-pension.com/avg_pension, http://czechsalary-pension.com/year a třídu http://czech-salary-pension.com/region.
Návrh a tvorba aplikace
62
Obrázek 15 Propojení s NUTS 2008
Obrázek 16 Kontrola mapování
Návrh a tvorba aplikace
63
Obrázek 17 Vytvoření predikátů a tříd
Po vykonání všech těchto kroků můžeme celý projekt vyexportovat do RDF/XML nebo Turtle formátu. Níže je uvedena ukázka z vytvořeného RDF dokumentu ve formátu Turtle. @prefix @prefix @prefix @prefix @prefix
rdfs: . foaf: . owl: . xsd: . rdf: .
a ; foaf:name "Hlavní město Praha" ; "34420.0" ; "11318.0" ; "2012.0" ; owl:sameAs "http://ec.europa.eu/eurostat/ramon/rdfdata/nuts2008/CZ010" .
Návrh a tvorba aplikace
4.3
64
Ukládání dat a vytvoření SPARQL endpointu
Autor v podkapitole 3.3.2. Nástroje pro ukládání RDF hodnotil Virtuoso nejkladněji, proto v této části práce bude předvádět postup při ukládání RDF do databáze a vytvoření SPARQL endpointu prostřednictvím Virtuosa. Virtuoso je vyvíjen společností OpenLink Software a je dostupný jak pod open-source licencí, tak i jako komerční produkt, který má navíc několik funkcí jako například virtuální databáze. Jedná se objektově-relační SQL databázi, která podporuje ukládání a dotazování propojených dat ve formě trojic. Virtuoso nabízí jednoduché webové rozhraní Virtuoso Conductor, díky němuž můžeme přistupovat k jeho funkcím (OpenLink Software, 2014). Z našeho hlediska je nejdůležitější sekce Linked Data, kde můžeme snadno v podsekci Quad Store Upload nahrát RDF data a specifikovat URI datasetu. Celý tento postup je znázorněn na obrázku 18.
Obrázek 18 Nahrání RDF souboru do databáze
Jakmile je soubor úspěšně nahrán, můžeme přejít do SPARQL endpointu, který je defaultně přístupný na adrese http://localhost:8890/sparql. Ten je velmi uživatelsky přívětivý, můžeme specifikovat určitý dataset, nad kterým chceme dotazovat. Jako odpověď máme na výběr velké množství známých formátů (HTML, JSON, RDF/XML, XML, NTriples, atd.).
Návrh a tvorba aplikace
4.4
65
Tvorba SW pro vizualizaci dat
Pro vizualizaci dat, podobně jako v předchozích krocích, existuje řada nástrojů, které nabízejí různé grafické komponenty pro zobrazení dat. V našem případě jde ale o specifický případ, kdy chceme zobrazit data na mapě a zviditelnit závislost mezi výší mzdy a důchodu. Autor se proto rozhodl vytvořit vlastní aplikaci, která by toto nabízela.
4.4.1
Požadavky
Navržená aplikace by měla splňovat 2 základní požadavky, a to znázornit mzdové rozdělení krajů a jejich vztah k výši penzí. První požadavek bude autor řešit tím, že průměrnou výši mzdy rozdělí do několika skupin a následně každé skupině přidělí určitou barvu. V konečné fázi budou kraje zobrazené na mapě zabarveny podle předem stanovených barev. Díky tomu uživatel pouhým pohledem snadno zjistí, do které skupiny daný kraj patří. Druhý požadavek bude autor řešit regresní analýzou, což je statistická metoda, která určí, jak výše penzí závisí na mzdě. Díky analýze můžeme zjistit, zda jde o přímou, nebo nepřímou úměrnost a těsnou, nebo volnou vazbu.
4.4.2
Návrh
Finální aplikace by tak měla obsahovat mapu s rozdělenými kraji podle výše mzdy a graf regresní analýzy se slovním popisem. Uživatel si bude moci vybrat, na jaký rok chce analýzu provádět. Na obrázku níže je hrubě navržen vzhled celé aplikace. K tvorbě wireframe (hrubý náčrt budoucí aplikace, slouží k analýze uživatelského rozhraní a je podkladem pro budoucí vývoj) autor použil online nástroj moqups (Moqups, 2014).
Návrh a tvorba aplikace
66
Obrázek 19 Wireframe aplikace
K vývoji webové aplikace autor zvolil jazyk Javascript, jelikož s ním má mnoho zkušeností. Na serverovou část bude používat knihovnu Node.js (Node.js, 2014), která nabízí mnoho modulů, které jsou už implementované a jejichž instalace je velmi snadná pohodlná. K napojení na dříve vytvořený SPARQL endpoint poslouží modul sparql-client (Fritz, 2014). Server se díky tomuto modulu snadno napojí na SPARQL endpoint, provede námi zvolený dotaz a získá zpět data ve formátu JSON. Server dále tato data zpracuje a pošle je klientovi ve formátu pro zobrazení geografických dat. Nabízí se řada možností jako: WMS, WFS, KML, GeoRSS, GML nebo GeoJSON. Jelikož má autor velké zkušenosti s jazykem Javascript, formát GeoJSON byl logickou volbou. Jedná se o JSON (Javascript Object Notation), což je odlehčený formát pro výměnu dat. Jeho výhodou je dobrá čitelnost pro stroj i pro člověka. JSON je textový a nezávislý formát, proto je velmi hojně používán (json.org, 2014). JSON je založen na dvou strukturách: ● Kolekce párů název/hodnota. Hodnota může být v různých jazycích objekt, záznam, struktura, slovník, hash tabulka, klíčový seznam nebo asociativní pole;
Návrh a tvorba aplikace
67
● Seřazený seznam hodnot v Javascriptu obvykle pole.
Obrázek 20 Struktura JSON formátu (json.org, 2014)
GeoJSON je JSON soubor, který slouží ke kódování různých geografických datových struktur. GeoJSON může reprezentovat určitý geometrický objekt, funkci nebo sbírku funkcí (Butler, a další, 2008). Dále je potřeba provést regresní analýzu. Pro tuto akci autor zvolil modul simple-statistics (MacWright, 2014), který z dat získaných ze SPARQL endpointu provede regresní analýzu a odhalí závislost mezi výší důchodu a mzdy v ČR. Data získaná z SPARQL endpointu a z regresní analýzy se dále pošlou na klienta, který bude postavený na HTML + CSS + Javascript. K navržení klientské aplikace autor zvolil javascriptovou MVC (Model-ViewController) knihovnu Angular.js (AngularJS, 2014). K designu aplikace autor zvolil Framework Twitter Bootstrap (Twitter Bootstrap, 2014). Všechny tyto knihovny jsou dostupné pod otevřenou licencí a jejich použitím autor zrychlí celkovou implementaci. Pro zobrazení na mapě bude použita knihovna Leaflet.js (Agafonkin, 2014) a mapy OpenStreetMap (OpenStreetMap, 2014), pro zobrazení grafu poslouží Highcharts.js (Highsoft AS, 2014). Na obrázku 20 jsou graficky znázorněny všechny komponenty aplikace.
Návrh a tvorba aplikace
68
Obrázek 21 Schéma aplikace
4.4.3
Implementace
Jak už bylo popsáno výše, k získání dat z databáze se pomocí Node.js modulu sparqlclient spojíme s naším vytvořeným SPARQL endpointem a provedeme dotaz. Na začátku je potřeba sestavit vhodný dotaz, který vrací všechny relevantní údaje. PREFIX owl: SELECT * WHERE { ?s ?pension ; ?salary ; owl:sameAs ?nutscode; 2012 . } Dotaz vrací údaje o důchodu a mzdách v jednotlivých krajích. Rok, o který se jedná, autor nastaví jako proměnnou, kterou bude moci uživatel změnit podle vlastního zájmu.
Návrh a tvorba aplikace
69
Po získání dat z SPARQL endpointu autor vytvořil API, které bude vracet údaje o mzdách s cílem zobrazit je jako samotnou vrstvu na mapě. Jelikož je potřeba zobrazit tato data univerzálně (nebudou se vázat pouze na navrhovanou aplikaci), musí být dostupná ve formátu určeném pro zobrazení geografických dat. Jak už bylo zmíněno, autor k tomu použije formát GeoJSON. Díky GeoJSON můžeme ukládat různé geometrické objekty jako bod, úsečku, mnohoúhelník aj. a zobrazit je na mapě. Základní struktura GeoJSON souboru může mít následující podobu: { "type": "FeatureCollection", "features": [ { "type": "Feature", "geometry": {"type": "Point", "coordinates": [102.0, 0.5]}, "properties": {"prop0": "value0"} }, { "type": "Feature", "geometry": { "type": "LineString", "coordinates": [ [102.0, 0.0], [103.0, 1.0], [104.0, 0.0], [105.0, 1.0] ] }, "properties": { "prop0": "value0", "prop1": 0.0 } } ] } U navržené aplikace autor zvolil typ GeometryCollection, jelikož je potřeba do GeoJSON souboru uložit hraniční body jednotlivých krajů ČR. Finální podoba je následující: [{ "type": "GeometryCollection", "properties": { "pension": "10021", "salary": "20291", "title": "Kraj Vysočina" }, "geometries": { "coordinates": [souřadnice], "type": "MultiPolygon" }, }]
Návrh a tvorba aplikace
70
Toto API je dostupné na adrese http://localhost:3000/get-geojson. Jelikož potřebujeme zobrazit tato data pro uživatele, z klientské části posíláme XMLHttpRequest požadavek a získáme autorem navržená GeoJSON data. Jak už bylo řečeno výše, k zobrazení dat použijeme mapy OpenStreetMap + knihovnu Leaflet.js. Zobrazení dat s Leaflet.js je opravdu jednoduché a vše je velmi dobře zdokumentované. Cílem celé aplikace je vizualizovat mzdové rozdělení krajů, proto autor rozdělil kraje do 6 kategorií podle výše průměrné mzdy. Každá kategorie má svoji specifickou barvu, která se zobrazí na mapě. Díky tomu jsou kraje jasně rozdělené podle výše mzdy. Celá tato část po realizaci je zobrazena na následujícím obrázku:
Obrázek 22 Mzdové rozdělení krajů
Provedením regresní analýzy pomocí modulu simple-statistics si autor velmi zjednodušil práci. Autor vždy, stejně jako při rozdělení krajů podle výše mzdy, prováděl regresní analýzu pouze na 1 rok. Defaultně je zvolen rok 2012, uživatel může při používání analyzovat další roky. Aplikace na zvolený rok pak provede regresní a korelační analýzu a určí regresní rovnici a korelační koeficient. Uživateli je následně zobrazen graf regresní analýzy a určena hodnota korelačního koeficientu. Autor také dále doplnil vyhodnocení celé analýzy. Na obrázku 23 je vidět finální výstup této části.
Návrh a tvorba aplikace
71
Obrázek 23 Vliv mzdy na důchod
4.5
Shrnutí
V této kapitole autor podrobně nastínil postup od konverze dat do RDF souboru přes ukládání v databázích ve zvolených nástrojích až po implementaci pilotní aplikace k vizualizaci dat, jelikož se jedná o velmi specifický případ a pro splnění navržených požadavků byla tato cesta nejrychlejší. Autor zde nastínil postup při využití jazyka Javascript, avšak celý postup lze samozřejmě vykonat i s jiným programovacím jazykem. V Příloze A je stručný seznam všech modulů a knihoven, které autor využil při implementaci pilotní aplikace.
Závěr
72
5 Závěr V diplomové práci byly stanoveny tři cíle. Všechny cíle byly postupně naplněny v jednotlivých kapitolách diplomové práce. Prvním cílem byla charakteristika LOD a rešerše prací na související téma. Rešerše prací autor zpracoval v rámci podkapitoly 1.5 Rešerše prací na podobné téma. Kapitola 2 Charakteristika Linked Open Data se zaměřila na popis LOD, definici jednotlivých pojmů používané v této oblasti a analýza rozšířenosti tohoto konceptu ve světě i v ČR. Při zpracovávání literární rešerše se autorovi podařilo vyhledat velmi relevantní a kvalitní literaturu. Ačkoliv se autor této problematice dříve nevěnoval, tyto práce mu poskytly velmi solidní přehled o dané problematice a sloužily také jako zdroj pro zpracování teoretické části diplomové práce. Autor se při vyhledávání neomezoval pouze na české prameny, ale čerpal také ze zahraničních zdrojů a publikací. Velmi zajímavé zjištění bylo, že o Linked Open Data se nemluví a nepíše pouze ve vyspělých státech, ale také ve státech rozvojových. To dává jasně najevo, že se jedná o atraktivní a zajímavé téma, které si zaslouží pozornost. V druhé kapitole se autorovi podařilo čtenáře podrobně seznámit se základními pojmy jako Open Data nebo Linked Data. Hlavní cíl autora podat ucelený pohled na danou problematiku a vybudovat pevný teoretický základ pro další práci se podařilo úspěšně splnit. Přínosem této části diplomové práce je jasné vysvětlení těchto základních pojmů, které jsou velmi často zaměňovány a mohou tak být velmi matoucí. Autorovi se také podařilo splnit stanovené dílčí cíle ohledně katalogizace dat a poskytl zajímavá fakta o rozšířenosti LOD po celém světě. Ačkoliv je tento koncept velmi zajímavý a přináší nemalé výhody, existují také určitá omezení a rizika, která stojí za zvážení. Autor se při zpracovávání práce nesoustředil pouze na teoretickou stránku, ale více se zaměřil na stránku technickou, proto druhým cílem byla charakteristika používaných formátů a nástrojů pro práci s LOD. Autor tento cíl splnil v kapitole 3 Formáty LOD a nástroje pro práci s těmito daty a kapitole 4 Návrh a tvorba aplikace. Podařilo se mu velmi podrobně vysvětlit princip propojitelných dat a poukázat na výhody, které přináší. Čtenář je v této části seznámen s formátem RDF určeném pro propojitelná data, dotazovacím jazykem SPARQL a ontologiemi RDFS a OWL. Největším přínosem
Závěr
73
kapitoly 3 je přehled a porovnávání nástrojů pro práci s RDF daty. Autor zde provedl charakteristiku vybraných nástrojů a analyzoval jejich vhodnost pro začátečníka v této oblasti. Na konci autor vybral ty řešení, na kterých autor předvedl v kapitole 4 praktickou ukázku. Konkrétně při konverzi do RDF formátu autor demonstroval na nástroji OpenRefine, pro ukládání dat si vybral open-source řešení Virtuoso. Poslední třetí cíl Návrh a vývoj aplikace nad LOD byl splněn v podkapitole 4.4 Tvorba SW pro vizualizaci dat. Hlavním výstupem celé práce je pilotní aplikace s využitím otevřených dat o mzdách a důchodech v krajích ČR. Autor nad těmito daty vytvořil webovou aplikaci, která na mapě ukazuje mzdové rozdělení krajů a provádí analýzu závislost výši důchodu na výše mzdy.
Terminologický slovník
74
Terminologický slovník Termín
Význam (zdroj)
LOD
Tim Berners-Lee navrhl kritéria, která hodnotí kvalitu publikovaných Linked Open Data. 1.
Data jsou publikována jako otevřená data;
2.
Data jsou strojově čitelná;
3.
Data nejsou uložena v proprietárních formátech;
4.
Data jsou publikována v RDF;
5.
Data jsou provázána s dalšími daty (Berners-Lee, 2006).
XML
XML (EXtensible Markup Language) je rozšířený značkovací jazyk, který je navržen pro přenos dat. Na rozdíl od HTML nejsou tagy předdefinované, ale uživatel si je vytváří sám (W3C, 2014).
RDF
RDF je formát určený pro uchovávání propojených dat. Obsahuje tzv. triples (trojice), které obsahují: ●
Subjekt – reprezentuje určitou věc a je identifikován pomocí URI;
●
Predikát – jedná se o vlastnost a je také identifikována pomocí URI;
● Objekt – může se jednat o určitou hodnotu, pak se jedná o literál, nebo také o další věc, která je určena pomocí URI (W3C, 2004). SPARQL
Celý název je SPARQL Protocol and RDF Query Language, byl standardizován W3C konsorciem od 15/1/2008. Jedná se o „Read-only“ dotazovací jazyk pro RDF. Znamená to, že nelze pomocí SPARQL ukládat nebo měnit data (Meloun, 2012).
Datová sada
Datová sada jsou datové množiny, které představují kolekci souvisejících dat, která jsou publikována a spravována jedním subjektem, jsou volně stažitelná z internetu a vhodná ke strojovému zpracování (Chlapek, Kučera, & Nečaský, 2013).
SPARQL Endpoint
SPARQL endpoint je webová služba, která je specifikována a přístupná pomocí určitého URI, postavená na úložišti RDF dat a umožňuje uživatelům pomocí SPARQL endpointu dotazovat nad uloženými daty. Odpověď je vracena vždy ve strojově čitelném formátu (Meloun, 2012).
eGovernment
eGovernment je využívání informačních technologií veřejnou správou ke komunikaci se soukromým sektorem za účelem zvýšení efektivity poskytovaných služeb (Jedličková, 2013).
LOGD
Linked Open Government Data jsou všechna uložená data, která jsou zveřejněná veřejnou správou a veřejnost je může volně využívat a distribuovat. Tato data jsou také mezi sebou vzájemně propojená (Mustafa, 2012).
Terminologický slovník
75
Termín
Význam (zdroj)
Triples
Jedná se o trojici subjekt, predikát a objekt, které tvoří RDF formát (autor).
Triplestore
K ukládání RDF dat se používají speciální databáze, tzv. „triplestore“. Oproti klasickým relačním databázím, kde se data ukládají do tabulek, které jsou navzájem propojené, „triplestore“ ukládá data do trojic. K dotazování se místo SQL používají SPARQL (Sequeda, 2013).
GeoJSON
GeoJSON je JSON soubor, který slouží ke kódování různých geografických datových struktur. GeoJSON může reprezentovat nějaký geometrický objekt, funkci nebo sbírku funkcí (Butler, a další, 2008).
Použité zdroje
76
Použité zdroje 4store‚ 2014. 4store, an efficient, scalable and stable RDF database [online] [cit. 2014-0420]. Dostupné z: http://4store.org Agile Knowledge Engineering and Sematic Web (ASKW)‚ 2014. DBpedia SPARQL Benchmark [online]. 25. duben. 2014 [cit. 2014-03-01]. Dostupné z: http://aksw.org/ Projects/DBPSB.html AngularJS‚ 2014. AngularJS by Google [online] [cit. 2014-04-20]. Dostupné z: http:// angularjs.org ARCHER‚ P.‚ M. G. S. DEKKERS a N. LOUTAS‚ 2013. Study of business models for Linked Open Data [cit. 2014-04-20]. Dostupné z: http://ec.europa.eu/isa/documents/studyon-business-models-open-government_en.pdf BAUER‚ F. a M. KALTENBOCK‚ 2012. Linked Open Data: The Essentials [cit. 2014-0228]. Dostupné z: http://www.semantic-web.at/LOD-TheEssentials.pdf blog.respekt.cz‚ 2011. Demokracie 2.0 [online] [cit. 2014-02-28]. Dostupné z: http:// mracekjakub.blog.respekt.ihned.cz/c1-54203480-demokracie-2-0#comm BOČEK‚ J.‚ J. MRÁČEK a J. MYNARZ‚ 2012. Otevřená data: Příležitost pro Českou republiku. Praha [cit. 2014-02-20]. Dostupné z: http://www.otevrenadata.cz/res/data/001/ 003447.pdf CKAN Czech Republic‚ 2014. Hledání - CKAN Czech Republic [online] [cit. 2014-02-15]. Dostupné z: http://cz.ckan.net/dataset cygri´s notes on web data‚ 2011. Top 100 most popular RDF namespace prefixes [online]. 15. Únor. 2011 [cit. 2014-03-06]. Dostupné z: http://www.w3.org/TR/REC-rdf-syntax/ Česká správa sociálního zabezpečení‚ 2014. Důchodová statistika [online]. 3. 4. 2014 [cit. 2014-03-15]. Dostupné z: http://vdb.czso.cz/vdbvo/ tabparam.jsp?voa=tabulka&cislotab=PRA0031PU_KR&vo=tabulka&stranka=0&kapitola_ id=15
Použité zdroje
77
Český statistický úřad - Veřejná databáze‚ 2014. Průměrné hrubé měsíční mzdy zaměstnanců podle pohlaví v krajích [online]. 4. 12. 2014 [cit. 2014-03-18]. Dostupné z: Průměrné hrubé měsíční mzdy zaměstnanců podle pohlaví v krajích data.gov‚ 2014. The home of the U.S. Government’s open data [online] [cit. 2014-01-30]. Dostupné z: www.data.gov data.gov.uk‚ 2014. Data.gov.uk Opening up Government [online] [cit. 2014-02-20]. Dostupné z: data.gov.uk Datablog.cz‚ 2012. Katalog dat České republiky [online] [cit. 2014-03-10]. Dostupné z: http://www.datablog.cz/clanky/katalog-dat-ceske-republiky Datagraph.org‚ 2010. How RDF Databases Differ from Other NoSQL Solutions [online]. 22. duben. 2010 [cit. 2014-03-20]. Dostupné z: http://blog.datagraph.org/2010/04/rdfnosql-diff Datenbanken und Informationssysteme‚ 2009. The SP²Bench SPARQL Performance Benchmark [online] [cit. 2014-04-15]. Dostupné z: http://dbis.informatik.uni-freiburg.de/ index.php?project=SP2B DBpedia‚ 2014. About DPpedia [online] [cit. 2014-04-19]. Dostupné z: http:// wiki.dbpedia.org/About dh+lib‚ 2013. RECOMMENDED: U.S. Open Data Policy [online] [cit. 2014-02-13]. Dostupné z: http://acrl.ala.org/dh/2013/05/15/recommended-u-s-open-data-policy/ DIFRANZO‚ D.‚ 2010. W3C. In: SWEO Community Project: Linking Open Data on the Semantic Web [online].2010 [cit. 2014-02-23]. Dostupné z: http://www.w3.org/wiki/ TaskForces/CommunityProjects/LinkingOpenData/DataSets DOKULIL‚ J.‚ 2006. Dotazování nad RDF daty. Praha [cit. 2014-02-20]. Dostupné z: https://is.cuni.cz/webapps/zzp/detail/69561/?lang=en EUROSTAT‚ 2008. NUTS 2008. RAMON Eurostats´s Metadata Server, 1. 1. 2008 [cit. 2014-03-29]. Dostupné z: http://opendata.cz/sparql/ detail.php?dataset=http%3A%2F%2Fec.europa.eu%2Feurostat%2Framon%2Frdfdata%2F nuts2008%2F&lang=cs
Použité zdroje
78
FREIE UNIVERSITAT BERLIN‚ 2011. Linkeddata.org. In: The Linking Open Data cloud diagram [online].2011 [cit. 2014-02-26]. Dostupné z: http://lod-cloud.net/versions/201109-19/lod-cloud.png FRITZ‚ T.‚ 2014. npm. sparql-client [online] [cit. 2014-04-19]. Dostupné z: https:// www.npmjs.org/package/sparql-client FROMENT‚ C.‚ 2012. Translating Relational Databases into Linked Open Data. Brusel [cit. 2014-02-10]. Dostupné z: http://code.ulb.ac.be/dbfiles/Fro2012mastersthesis.pdf GEIGER‚ C. P. a J. VON LUCKE‚ 2012. Open Government and Linked Open Goverment Data [cit. 2014-03-10]. Dostupné z: http://www.jedem.org/article/view/143 gejson.org‚ 2008. The GeoJSOn Format Specification [online]. 16. červen. 2008 [cit. 201404-15]. Dostupné z: http://geojson.org/geojson-spec.html google-refine‚ 2014. Project Home [online] [cit. 2014-03-28]. Dostupné z: https:// code.google.com/p/google-refine/ Highcharts‚ 2014. Highcharts [online] [cit. 2014-03-20]. Dostupné z: http://highcharts.com CHLAPEK‚ D.‚ J. KUČERA a M. NEČASKÝ‚ 2012. Koncepce katalogizace otevřených dat VS ČR. Praha [cit. 2014-03-02]. Dostupné z: http://www.korupce.cz/assets/partnerstvipro-otevrene-vladnuti/otevrena-data/Koncepce-katalogizace-otevrenych-dat-VS-CR--zkracena-verze.pdf CHLAPEK‚ D.‚ J. KUČERA a M. NEČASKÝ‚ 2012. Metodika publikace otevřených dat veřejné zprávy ČR. Praha [cit. 2014-02-04]. Dostupné z: http://www.korupce.cz/assets/ dokumenty/aktuality/Metodika-publikace-otevrenych-dat.pdf CHLAPEK‚ D.‚ J. KUČERA a M. NEČASKÝ‚ 2013. Výzvy využívání otevřených dat v ČR. Praha: 08. 08. 2013 [cit. 2014-02-01]. Dostupné z: http://cssi.cz/cssi/vyzvyegovernmentu-v-cr-cesty-k-jejich-reseni JEDLIČKOVÁ‚ M.‚ 2013. eGovernment a otevřená data ve veřejné správě. Praha [cit. 2014-02-03]. Dostupné z: https://www.vse.cz/vskp/ 39383_egovernment_a%C2%A0otevrena_data_ve_verejne_sprave_cr json.org‚ 2014. Úvod do JSON [online] [cit. 2014-03-30]. Dostupné z: http:// www.json.org/json-cz.html
Použité zdroje
79
KNAP‚ T.‚ 2013. Towards Trustworthy Linked Data Integration and Consumption. Praha [cit. 2014-02-07]. Dostupné z: https://is.cuni.cz/webapps/zzp/detail/62412/ KROUPA‚ T.‚ 2012. Softwarová architektura otevřené veřejné správy. Praha [cit. 201402-03]. Dostupné z: https://is.cuni.cz/webapps/zzp/detail/123227/ Leaflet‚ 2014. Leaflet overview [online] [cit. 2014-04-18]. Dostupné z: http://leafletjs.com LOD2‚ 2014. Creating Knowledge out of Interlinked Data [online] [cit. 2014-03-29]. Dostupné z: http://lod2.eu MACWRIGHT‚ T.‚ 2014. npm. simple-statistics [online] [cit. 2014-04-12]. Dostupné z: https://www.npmjs.org/package/simple-statistics MELOUN‚ J.‚ 2012. Využití principů Linked Data pro účely rejstříku škol. Praha (Česká republika) [cit. 2014-03-30]. Dostupné z: https://dip.felk.cvut.cz/browse/pdfcache/ meloujir_2012bach.pdf Moqups‚ 2014. Moqups [online] [cit. 2014-04-10]. Dostupné z: https://moqups.com MUSTAFA‚ M.‚ 2012. Corporate Use of Open Government Data. Vienna [cit. 2014-0210]. Dostupné z: http://cdn.open3.at/wp-content/uploads/2012/06/MM-OGD-JH-Finalv2.pdf NEČASKÝ‚ M.‚ A. MAURINO a M. KONEČNÝ‚ 2013. Comsode.eu: Components Supporting the Open Data Exploitation. Praha [cit. 2014-03-03]. Dostupné z: http:// 2014.data-forum.eu/sites/default/files/pdf/edf2014_submission_39.pdf Node.js‚ 2014. Node.js [online] [cit. 2014-04-20]. Dostupné z: http://nodejs.org Open Definition‚ 2014. Definice: Otevřené znalosti [online] [cit. 2014-02-02]. Dostupné z: http://opendefinition.org/od/czech/ Open Goverment Partnership‚ 2014. V kostce [online] [cit. 2014-02-27]. Dostupné z: http.// opengov.cz Open Government Partnership‚ 2014. What is the open goverment partnership? [online] [cit. 2014-03-20]. Dostupné z: http://www.opengovpartnership.org/about opendata.cz‚ 2014. Iniciativa za otevřenou datovou infrastrukturu [online] [cit. 2014-0210]. Dostupné z: www.opendata.cz
Použité zdroje
80
opendatalogs.org‚ 2014. Official EU Data Catalogues [online] [cit. 2014-03-17]. Dostupné z: http://datacatalogs.org/group/eu-official?page=2 OpenEi‚ 2010. File:Electricity Price Map.jpg [online] [cit. 2014-02-26]. Dostupné z: http:/ /en.openei.org/wiki/File:Electricity_Price_Map.jpg OpenLink Software‚ 2014. Virtuoso Open-Source Edition [online] [cit. 2014-04-01]. Dostupné z: http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/ OpenStreetMap‚ 2014. OpenStreetMap [online] [cit. 2014-03-20]. Dostupné z: http:// www.openstreetmap.org/ POŠEPNÝ‚ T.‚ 2011. Governmental Linked Data and Experimental Application. Praha [cit. 2014-02-11]. Dostupné z: https://is.cuni.cz/webapps/zzp/detail/95840/?lang=en Project Open Data‚ 2014. Open Data Policy — Managing Information as an Asset [online] [cit. 2014-02-19]. Dostupné z: http://project-open-data.github.io RDF Refine‚ 2014. RDF Refine [online] [cit. 2014-04-10]. Dostupné z: http:// 2.bp.blogspot.com semanticweb.com‚ 2013. Introdution to: Triplestores [online]. 31. 1. 2013 [cit. 2014-0302]. Dostupné z: http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/ Twitter Boostrap‚ 2014. Boostrap [online] [cit. 2014-04-30]. Dostupné z: http:// getbootstrap.com U.S. NAVY MUSEUM‚ 2014. Matthew Fontaine Maury (1806-1873) [online] [cit. 201402-10]. Dostupné z: http://www.history.navy.mil/branches/teach/ends/maury.htm UK V PRAZE‚ 2014. ODCleanStore. In: UK‚ P. About [online].2014 [cit. 2014-04-15]. Dostupné z: http://www.ksi.mff.cuni.cz/~knap/odcs/index.html University of Manheim‚ 2011. Berlin SPARQL Benchmark (BSBM) [online]. 7. Červen. 2011 [cit. 2014-02-27]. Dostupné z: http://wifo5-03.informatik.uni-mannheim.de/bizer/ berlinsparqlbenchmark/ ÚŘAD VLÁDY ČR‚ 2012. Akční plán České republiky "Partnerství pro otevřené vládnutí". Praha [cit. 2014-03-30]. Dostupné z: http://www.korupce.cz/assets/partnerstvipro-otevrene-vladnuti/Akcni-plan-OGP.pdf
Použité zdroje
81
VOŘÍŠEK‚ J.‚ 2013. Výzvy eGovernmentu v ČR. Praha (Praha, ČR): 13. říjen. 2013 [cit. 2014-02-03]. Dostupné z: http://cssi.cz/cssi/vyzvy-egovernmentu-v-cr-cesty-k-jejich-reseni W3C‚ 1999. Resource Description Framework (RDF) Model and Syntax Specification [online]. 22. Únor. 1999 [cit. 2014-02-09]. Dostupné z: http://www.w3.org/TR/1999/RECrdf-syntax-19990222 W3C‚ 2004. RDF/XML Syntax Specification [online]. 10. Únor. 2004 [cit. 2014-03-20]. Dostupné z: http://www.w3.org/TR/REC-rdf-syntax/ W3C‚ 2006. Linked Data [online] [cit. 2014-02-10]. Dostupné z: http://cs.wikipedia.org/ wiki/Sémantický_web W3C‚ 2014. ConverterToRdf [online]. 29. duben. 2014 [cit. 2014-04-01]. Dostupné z: http://www.w3.org/wiki/ConverterToRdf W3C‚ 2014. http://www.w3.org/wiki/ConverterToRdf [online]. 15. 4. 2014 [cit. 2014-0410]. Dostupné z: http://www.w3.org/wiki/ConverterToRdf W3C‚ 2014. Introdution to XML [online] [cit. 2014-04-01]. Dostupné z: http:// www.w3schools.com/xml/xml_whatis.asp W3C‚ 2014. SWEO Community Project: Linking Open Data on the Semantic Web [online] [cit. 2014-02-10]. Dostupné z: http://www.w3.org/wiki/TaskForces/CommunityProjects/ LinkingOpenData/DataSets White House‚ 2013. Introducing: Project Open Data [online] [cit. 2014-03-01]. Dostupné z: http://acrl.ala.org/dh/2013/05/15/recommended-u-s-open-data-policy/ Wikipedie‚ 2014. Sémantický web [online] [cit. 2014-02-18]. Dostupné z: http:// cs.wikipedia.org/wiki/Sémantický_web WWW.WHITEHOUSE.GOV‚ 2014. White House. In: Open Government Initiative [online].2014 [cit. 2014-04-10]. Dostupné z: www.whitehouse.gov/sites/default/files/ opengov_report.pdf ZHAO‚ J.‚ 2010. Publish Chinese medicine knowledge as Linked Data on the Web [cit. 2014-02-17]. Dostupné z: http://link.springer.com/article/10.1186%2F1749-8546-527#page-1
Použité zdroje
82
TRAC. Krextor [online]. 2012 [cit. 2014-05-05]. Dostupné z: http://trac.kwarc.info/krextor/wiki/Documentation UNIVERZITA KARLOVA V PRAZE. ODCleanstore Tool [online]. 2014 [cit. 2014-0505]. Dostupné z: http://www.ksi.mff.cuni.cz/~knap/odcs/ TRIPLIFY. Triplify: expose semantic! [online]. 2010 [cit. 2014-05-05]. Dostupné z: http://triplify.org/About TARQL. Tarql: SPARQL for Tables [online]. 2014 [cit. 2014-05-05]. Dostupné z: https://github.com/cygri/tarql UMBC. RDF123: A mechanism to transform spreadsheets to RDF [online]. 2007 [cit. 2014-05-05]. Dostupné z: http://rdf123.umbc.edu MORRIS, Tom, Thad GUIDRY a Martin MAGDINIER. OpenRefine: A free, open source, powerful tool for working with messy data [online]. 2014 [cit. 2014-05-05]. Dostupné z: http://openrefine.org RINKE, Hoekstra, Rietveld LAURENS a Meroño-Peñuela ALBERT. TabLinker [online]. 2014 [cit. 2014-05-05]. Dostupné z: https://github.com/Data2Semantics/TabLinker XLWRAP. XLWrap – Spreadsheet-to-RDF Wrapper [online]. 2009 [cit. 2014-05-05]. Dostupné z: http://xlwrap.sourceforge.net CAMBRIDGE SEMANTICS. Anzo Express [online]. 2014 [cit. 2014-05-05]. Dostupné z: http://www.cambridgesemantics.com/products/anzo-express
Seznam obrázků a tabulek
Seznam obrázků a tabulek Seznam obrázků Obrázek 1 OpenData.cz (opendata.cz, 2014) ................................................................ 13 Obrázek 2 Životní cyklus Linked Open Data (Archer, Dekkers, & Loutas, 1013) ............ 14 Obrázek 3 Aplikace pro alternativní medicínu (Zhao, 2010) ........................................... 15 Obrázek 4 vývoj webu (Bauer & Kaltenbock, 2012) ....................................................... 20 Obrázek 5 LOD Cloud Diagram (Freie Universitat Berlin, 2011) .................................... 21 Obrázek 6 Kvalita LOD (Berners-Lee, 2006) .................................................................. 22 Obrázek 7 Míra adopce otevřených dat na světě (Boček, Mráček, & Mynarz, 2012) ..... 26 Obrázek 8 Státy USA s lokální sítí otevřených dat (DATA.GOV, 2014) ......................... 28 Obrázek 9 Státy na světě otevírající data pro občany (DATA.GOV, 2014)..................... 29 Obrázek 10 - Životní cyklus LOD v LOD2 Stacku (LOD2, 2012)........................................ 34 Obrázek 11 - Příklad RDF grafu......................................................................................... 43 Obrázek 12 - Graf RDF ...................................................................................................... 59 Obrázek 13 OpenRefine import souboru ..................................................................... 60 Obrázek 14 Přidávání zdroje .......................................................................................... 61 Obrázek 15 Propojení s NUTS 2008 .............................................................................. 62 Obrázek 16 Kontrola mapování ...................................................................................... 62 Obrázek 17 Vytvoření predikátů a tříd ............................................................................ 63 Obrázek 18 Nahrání RDF souboru do databáze ............................................................ 64 Obrázek 19 Wireframe aplikace ..................................................................................... 66 Obrázek 20 Struktura JSON formátu (json.org, 2014) .................................................... 67 Obrázek 21 Schéma aplikace ......................................................................................... 68 Obrázek 22 Mzdové rozdělení krajů ............................................................................... 70 Obrázek 23 Vliv mzdy na důchod ................................................................................... 71
Seznam tabulek
Tabulka 1 - Cíle, metriky a indikátory ................................................................................... 9 Tabulka 2 - Kvalita LOD, výhody a podmínky (Kroupa, 2012) ........................................... 22 Tabulka 3 - Vlastnosti a možnosti datového katalogu (Kroupa, 2012) ............................... 25 Tabulka 4 - Národní a EU datové katalogy ........................................................................ 32 Tabulka 5 - Vhodnost formátů pro publikování otevřených dat (Chlapek, & Kučera, & Nečaský, 2012).................................................................................................................................. 39 Tabulka 6 - Výskyt vybraných formátů ve vybraných katalozích ........................................ 41 Tabulka 7 - Souhrn výskytu vybraných formátů ................................................................. 45 Tabulka 8 - Přehled nástrojů pro konverzi do RDF ............................................................ 49 Tabulka 9 - Srovnání nástrojů pro konverzi do RDF .......................................................... 51 Tabulka 10 - Srovnání RDF databází................................................................................. 56 Tabulka 11 - Struktura Excel souboru ................................................................................ 58
83
Seznam obrázků a tabulek
Seznam grafů
Graf 1 - Výskyt vybraných formátů v datových katalozích .................................................. 41 Graf 2 - Souhrn výskytu vybraných formátů ....................................................................... 42
84
Příloha A: Seznam použitých knihoven
85
Příloha A: Seznam použitých knihoven Knihovna a moduly
Popis
Node.js
Node.js je serverový framework pro rychlou a jednoduchou tvorbu škálovatelné webové aplikace. Používá se ke skriptování na straně serveru. Jedná se o vysoce výkonné, událostmi řízení prostředí pro Javascript (Node.js‚ 2014).
Sparql-client
Jednoduchý Node.js modul vytvořený pro jednoduché připojení ke SPARQL endpointu (FRITZ‚ 2014).
Simple-statistics
Další modul pro Node.js, který nabízí statistické výpočty (MACWRIGHT‚ 2014).
Angular.js
Angular.js je javascriptový MVC (Model-View-Controller) Framework vyvíjený Googlem. Mezi jeho klady patří Two Way Data-Binding, tvorba direktivů atd. (AngularJS‚ 2014).
Twitter Bootstrap
Twitter Bootstrap je velmi populární front-endový framework pro tvorbu responsivního, „mobile first“ designu webových stránek a aplikací (Twitter Boostrap‚ 2014).
Leaflet.js
Leaflet.js je moderní open-source javascriptová knihovna pro implementaci interaktivních map. Jako mapový poklad můžeme použít např. OpenStreetMap nebo Google Maps (Leaflet‚ 2014).
OpenStreetMap
Jedná se o open-source mapový podklad, který je tvořen komunitou uživatelů, kteří přidávají a udržují data o silnicích, cestách, kavárnách, železničních stanicích a mnohém dalším po celém světě (OpenStreetMap‚ 2014).
Highcharts.js
Highcharts.js je jednoduchá javascriptová knihovna umožňující rychlou tvorbu mnoho typů propracovaných grafů (Highcharts‚ 2014).