dbpedia Václav Zeman December 2015 KIZI - VŠE
co je dbpedia?
2
co je dbpedia?
• DBpedia je komunita lidí zaměřující se na získávání informací a znalostí z Wikipedie. • DBpedia je sada nástrojů, které extrahují informace z Wikipedie. • DBpedia je báze propojených a strojově čitelných dat získaných z Wikipedie. 3
co je dbpedia?
• DBpedia je služba, která dovoluje uživateli vyhledávat informace z Wikipedie sofistikovanějším způsobem. • DBpedia je Wikipedie přizpůsobena ke strojovému zpracování informací.
4
co je dbpedia?
Wikipedia Sdílená tvorba obsahu, Web 2.0 DBpedia Sémantický web, propojená data, Web 3.0
5
k čemu je dbpedia?
6
k čemu je dbpedia?
• Strojové čtení a zpracování informací obsažených na Wikipedii. • Sofistikované vyhledávání informací. • Využití pro objevování nových znalostí. • Jednoduché a přímé odpovídání na otázky, které uživatele zajímají:
Otázka Nejvyšší hora v Česku? Odpověď Sněžka
7
k čemu je dbpedia? Technicky, DBpedia nabízí: • Vyextrahované informace z Wikipedie v podobě RDF datasetů. • SPARQL endpoint pro sémantické dotazování. • Vlastní rozsáhlou ontologii pro zajištění konzistence vyextrahovaných dat. • Možnost propojení s jinými informačními bázemi.
8
k čemu je dbpedia?
Nejvyšší hora v Česku?
Otázka v podobě sémantického dotazu (SPARQL) SELECT ?hora {
?hora } Odpověď http://cs.dbpedia.org/resource/Sněžka
9
k čemu je dbpedia? Všechny filmy, které režíroval Jan Svěrák? Otázka v podobě sémantického dotazu (SPARQL) SELECT ?film { ?film }
Odpověď http://cs.dbpedia.org/resource/Jízda_(film) http://cs.dbpedia.org/resource/Akumulátor_1 http://cs.dbpedia.org/resource/Kolja http://cs.dbpedia.org/resource/Kuky_se_vrací http://cs.dbpedia.org/resource/Obecná_škola_(film) http://cs.dbpedia.org/resource/Tmavomodrý_svět_(film) http://cs.dbpedia.org/resource/Tři_bratři_(film) http://cs.dbpedia.org/resource/Vratné_lahve
10
jak vzniká dbpedia?
11
jak vzniká dbpedia?
12
zdroj dat
Pro extrakci informací z Wikipedie je nejprve nutné stáhnout všechny Wikipedia stránky. Jak toho docílit? • Wikipedia dump = Jeden soubor obsahující všechny wiki stránky • Dump je veřejně dostupný na adrese dumps.wikimedia.org • Aktualizace dumpu probíhá jednou za měsíc. • Velikost dumpu obsahující všechny stránky české Wikipedie je po rozbalení cca 2.15 GB
13
extrakční framework Jednotlivé informace z Wikipedia stránek jsou získávány pomocí tzv. extraktorů. • Primární extrakční framework: • je open source, veřejně dostupný na githubu • obsahuje sadu extraktorů implementovaných v jazyce Scala/Java
• Každý extraktor extrahuje právě jeden typ informací z Wikipedie. • Informace se extrahují hlavně pomocí regulárních výrazů, ale také s použitím metod strojového učení (pokročilejší extraktory). • Možnost zapojení vlastních extraktorů do DBpedie. • Linked Hypernym Dataset1 = extraktor vyvinutý na VŠE, součástí DBpedie od roku 2015. 1 http://ner.vse.cz/datasets/linkedhypernyms/
14
extrakční workflow
Source: Zdrojem je Wikipedia stránka ve wiki formátu. ’’’Prague’’’ ({{IPAc-en|’|p|r|a:|g}}; {{lang-cs|Praha}}, {{IPA-cs|’praha||Cs-Praha.ogg}}) is the capital and [[List of cities in the Czech Republic|largest city]] of the [[Czech Republic]]
WikiParser: Převádí obsah stránky v podobě prostého textu na vlastní datovou strukturu. Extractor: Z načtené Wikipedia stránky extrahuje informace v podobě trojic. Destination: Finální uložení trojic do RDF datasetů. 15
klíčové dbpedia extraktory LabelExtractor Extrahuje názvy Wikipedia stránek. PageLinksExtractor Extrahuje interní linky mezi Wikipedia stránkami. CategoryLabelExtractor Extrahuje kategorie Wikipedia stránek. DisambiguationExtractor Extrahuje rozcestníky. RedirectExtractor Extrahuje synonyma názvů Wikipedia stránek. 16
klíčové dbpedia extraktory
InfoboxExtractor Extrahuje informace z takzvaných infoboxů (tabulky v pravé části článků na Wikipedii). • Problém: Názvy jednotlivých vlastností uvnitř infoboxů nejsou konzistentní. Různé názvy pro různé jazykové verze a typy infoboxů. • Řešení: Mapování vlastností z infoboxů na DBpedia vlastnosti definované v rámci jedné konzistentní ontologie. .
17
klíčové dbpedia extraktory MappingExtractor Mapuje vlastnosti z infoboxů na vlastnosti z DBpedia ontologie. • Extraktor využívá tzv. mapovací pravidla. • Mapovací pravidla se vytvářejí ručně na stránce mappings.dbpedia.org • Namapované vlastnosti jsou konzistentní v rámci všech jazykových verzí DBpedie. .
18
kompletní workflow
19
publikování vyextrahovaných informací
• Jako množina souborů obsahující strojově čitelná a propojená data dle specifikace RDF (N-Triples, RDF/XML, JSON-LD, CSV aj.). • Jako služba, ve které je možné vyhledávat informace dle sémantických dotazů (SPARQL endpoint). • Jako webové stránky, které vizualizují veškeré vyextrahované informace.
20
dbpedia vs wikidata
• Akademický decentralizovaný projekt
• Spravuje přímo Wikimedia Foundation
• Pouze extrahuje informace z Wikipedia stránek
• Informace jsou ručně vytvářeny komunitou, stejně jako Wikipedia
• Důraz je kladen na kvantitu informací • Aktualizováno 2x za rok
• Důraz je kladen na kvalitu informací • Aktualizováno v reálném čase 21
česká dbpedia
česká dbpedia
Obsahuje více než 29,5 miliónů výroků (trojic). K dispozici je: • Kompletní množina vyextrahovaných dat (volně ke stažení ∼6GB) • Služba pro sémantické dotazování (SPARQL endpoint) • Náhledy na vyextrahované informace pro jednotlivé Wikipedia stránky http://cs.dbpedia.org 23
využití dbpedie Česká DBpedie je momentálně spravována katedrou informačního a znalostního inženýrství na VŠE. Školní projekty postavené na DBpedii: • Targeted Hypernym Discovery:2 Automatická sémantická anotace textu. • Linked Hypernym Dataset:3 Nástroj využívající metod strojového učení pro odvození typu Wikipedie stránky dle první věty abstraktu. • DB-quiz:4 Vědomostní hra odvozená od populární televizní soutěže AZ-kvíz. Otázky jsou automaticky generovány z české a anglické DBpedie. 2 http://ner.vse.cz/thd/ 3 http://ner.vse.cz/datasets/linkedhypernyms/ 4 http://mynarz.net/db-quiz/
24
děkuji za pozornost