ONTOLOGIE Analýza ontologických dat Národní knihovny ČR, jejich použitelnost pro Manuscriptorium a ověření pilotním řešením. Zpráva k Dodatku č. 8 ke Smlouvě o spolupráci ve výzkumu a vývoji
verze 1.0
Autoři :
31. 10. 2010
Kolektiv AiP Beroun a Mgr. Tomáš Klimek
-1-
Obsah 1
Úvod o dokumentu ...............................................................4 1.1
Účel ................................................................................................ 4
1.2
Předpokládaný čtenář .................................................................... 4
1.3
Termíny a konvence ....................................................................... 4
1.3.1 1.4
Pouţité zkratky ................................................................................. 4 Reference ....................................................................................... 5
2
Úvod .....................................................................................6
3
Historie vzniku dat NKČR, předchozí ontologické projekty. .6
4
Popis tvorby stávajících dat a jejich původ ..........................7
Zkušenosti Národní knihovny .......................................................................... 6 Vize budoucího rozšíření ze zdrojů Manuscriptoria ............................................ 7
4.1 Příklad rozdílné podoby názvu totožného díla v ontologické databázi a v Manuscriptoriu ...................................................................... 8
5
Analýza a hodnocení použitelnosti dat .................................8 5.1
Popis stávajícího stavu, hodnocení využitelnosti .......................... 9 List Instances ........................................................................................... 9 List Roles ............................................................................................... 10 List Relations.......................................................................................... 11
5.2
Návrh nového formátu a realizace vazeb .................................... 12
5.3
Schéma ........................................................................................ 15
5.4
Příklad současné standardní podoby ontologických instancí ..... 16
5.5 Návrh možné transformace do pokročilého vyhledávání v Manuscriptoriu ........................................................................................ 16 5.6
Výsledky tohoto vyhledávání ....................................................... 17
5.7
Relevantní výsledek vyhledávání ................................................ 17
5.7.1
Obsahová jednotka Č. 17 ................................................................ 17
6
Popis tvorby ukázkových dat, odůvodnění volby typu dat . 18
7
Blokové schéma pilotního řešení ....................................... 21
8
Testování modelu, hodnocení úspěšnosti hledání ............. 23
Blokové schéma ..................................................................................... 22 Popis modelu ......................................................................................... 23
31. 10. 2010
-2-
9
Shrnutí .............................................................................. 25 9.1
Ontologie koncepčně, obecně ...................................................... 27
9.2
Ontologie v návaznosti na MnS, .................................................. 27 Kroky ontologického vyhledání ...................................................................... 28 Příklad: ....................................................................................................... 29 Širší ontologické vyhledávání ........................................................................ 30
10
Závěr .............................................................................. 30
11
Přílohy ............................................................................ 32
11.1 Schéma jednoho z možných přístupů k vyhledávání na základě ontologické databáze .............................................................................. 32 11.2 Přehled jmen a geografických názvů zpracovaných ve vzorové databázi pilotního řešení......................................................................... 33 11.3
31. 10. 2010
Ukázky vyhledávání ..................................................................... 34
-3-
1 Úvod o dokumentu AiP Beroun uzavřela s Národní knihovnou České republiky dne 2.8. 2004 Smlouvu o spolupráci ve výzkumu a vývoji za účelem optimalizace zpřístupnění rukopisů a dalších historických materiálů v programu Memoriae Mundi Series Bohemica. 13.5.2010 byl k této smlouvě uzavřen dodatek č. 8, který se zabývá ověřením pouţitelnosti ontologických dat a ověřením pomocí pilotního řešení. Tento dokument je součástí řešení bodu 1. a. tohoto dodatku „Ontologie – pilotní řešení na základě ontologických dat NKČR, tj. výzkum účinnosti a vlivu subjektivní odborné orientace tvůrců ontologických vztahů, zdrojových dat NKČR, analýza jejich pouţitelnosti pro Manuscriptorium, ověření pilotním řešením“.
1.1 Účel Tento dokument se zabývá především analýzou ontologických dat NKČR a jejich pouţitelnosti pro pilotní ověření moţnosti navázání ontologického vyhledávání na digitální knihovnu Manuscriptorium. Dokument zohledňuje původ a dosavadní tvorbu ontologických dat v NKČR.
1.2 Předpokládaný čtenář Tento dokument je určen především pro zadavatele (NKČR) a jako podklad pro pokračování a případnou modifikaci další tvorby ontologických dat s ohledem na moţné vyuţití v Manuscriptoriu. Dále je tento dokument určen všem, kteří se podílejí na rozvoji projektu Manuscriptorium jako uţivatelé.
1.3 Termíny a konvence Termíny a konvence pouţité v tomto dokumentu, pokud zde nejsou přímo vysvětleny, jsou popsány a definovány v dokumentu [1] .
1.3.1 DB DB Ont. MnS NKČR ORST
31. 10. 2010
– – – – –
Použité zkratky Databáze Databáze ontologických vazeb v pilotním řešení systém Manuscriptorium – www.manuscriptorium.com Národní knihovna České republiky Oddělení rukopisů a starých tisků
-4-
1.4 Reference V dokumentu se odkazujeme na následující literaturu: [1] Manuscriptorium v.2.0 – analýza systému, AiP Beroun 2004 [2] Autoritní bibliografická databáze spisovatelů Knihopisu 1501-1800, Analýza projektu, AiP Beroun 2008 [3] Manuscriptorium v.2.0 – Databáze historických názvů měst a její pouţití v Manuscriptoriu, Analýza projektu, AiP Beroun 2007 [4] Tvorba a vyuţití autoritních databází AiP Beroun s.r.o., 2009 [5] Ontologie a autoritní databáze AiP Beroun s.r.o., 2009
31. 10. 2010
-5-
2 Úvo d O významu začlenění ontologických databází mezi nástroje pro vyhledávání dokumentů v digitální knihovně a o rozdílných moţnostech a očekávaných výsledcích v porovnání s vyuţitím klasických knihovnických databází autorit bylo jiţ teoreticky pojednáno v dokumentu [4]. Při práci na transformaci abstraktního informačního schématu do aplikované technické formy se ukazuje, ţe výchozí teoretické předpoklady byly formulovány správně, nicméně přechod k reálnému pouţití si v budoucnu vyţádá ještě nemalou práci s vytvořenými daty. Především bude nutné vyřešit korelaci tzv. ontologických instancí, zastupujících pro značně nejednotnou podobu a konfúznost názvy konkrétních středověkých děl, ke konkrétním relevantním dokumentům v MnS. Spolu s hledáním koncepce vhodného technického řešení, a to jak pro samotné vyhledávání, tak pro zadávání dalších dat do ontologických databází, bude nutné soustavně doplňovat a zpřesňovat stávající data po obsahové stránce. Pouze tak bude moţné dospět k očekávaným výsledkům.
3 Historie vzniku dat NKČR, předchozí ontologické projekty. NKČR se ontologiemi intenzivně zabývá od let 2002-2004, kdy v 5. rámcovém programu pracovala jako partner projektu VICODI (Visual Contextualisation of Digital Content http://www.vicodi.org/). Cílem bylo zejména vyvinout evropské historické ontologie, vytvořit na jejich základě nástroje pro vizuální kontextualizaci a výsledky prakticky ověřit na evropském historickém materiálu. Ukázalo se, ţe konceptuální schéma obohacené relacemi, rolemi a chronologickými údaji je nosné, takţe lze přikročit k soustavné tvorbě ontologických instancí včetně jejich názvů a variant názvů, jakoţ i vztahů k dalším instancím. Technická univerzita Karlsruhe (další partner projektu VICODI) navrhla formu zápisu do excelové tabulky, která vyhovovala pro import dat do tzv. editoru ontologií spojeného s kontextualizačním strojem, jenţ byl posléze propojen s vyhledávacím rozhraním. Zkušenosti Národní knihovny ČR Výsledné technické řešení projektu VICODI bylo projektováno jako distribuovaný systém, v němţ se editor ontologií, kontextualizační stroj i vyhledávací stroj nacházely na různých místech. Kromě toho, ţe bylo obtíţné tento systém organizačně a logisticky zvládnout, byla doba mezi zadáním dotazu a získáním výsledků nesmírně dlouhá, coţ bylo pro koncového uţivatele naprosto neúnosné. Ukázalo se tak, ţe technické řešení musí být jiné. Nadto (přes nesouhlas NKČR) byly ontologické instance, resp. jejich názvy vyhledávány nikoli v původních plných textech, ale byly k nim, resp. k záznamům o nich zvnějšku připojovány, takţe se taková práce s ontologiemi v zásadě vůbec nelišila od práce s tradičními selekčními jazyky a od tzv. indexování na jejich základě.
31. 10. 2010
-6-
Systém byl i z tohoto hlediska těţkopádný a v ţádném případě se nepodařilo dosáhnout inovace, jak se předpokládalo. Přesto bylo zřejmé, ţe data vznikající v této formě uchovávají a dávají moţnost jejich budoucího vyuţití. S tímto vědomím a zkušenostmi se NKČR v následujících letech (zejména 2005-2007/8) systematicky věnovala tvorbě ontologických instancí zaměřených původně na materiál z vlastních fondů s přesahy do středoevropského kulturního prostoru.
4 Popis tvorby stávajících dat a jejich původ Podkladem pro zpracování základní kostry ontologických instancí byly nejvýznamnější repertoria a slovníky autorů a textů obsaţených ve středověkých rukopisech váţících se k českému a středoevropskému kulturnímu prostoru. Pro české prostředí byla vyuţita práce: Pavel Spunar, Repertorium auctorum Bohemorum provectum idearum post universitatem Pragensem conditam illustrans 1-2 (= Studia Copernicana 25, 35), Warszawa etc. 1985-1995, pro německé prostředí především čtrnáctisvazkový slovník: Die deutsche Literatur des Mittelalters : Verfasserlexikon, begründet von Wolfgang Stammler, fortgeführt von Karl Langosch, redaktion Christine Stöllinger-Löser, Berlin : de Gruyter, [1978]-. Data byla systematicky doplňována za pomoci rozsáhlé historiografické literatury zabývající se zpracovanými díly. Tvoření ontologických databází bylo nastaveno tak, aby zohlednilo několik moţných vrstev informací a v budoucnu umoţnilo úpravu podle potřeb technického řešení a výsledků testování funkčnosti. Ve výsledné aplikaci databáze bude moţné upřednostnit různé typy vazeb (autor-dílo, dílo-událost, obecné časoprostorové vazby jako např. stejná místa a období působení autorů, apod.). Při tvorbě dat se postupovalo metodou tvorby otevřené databáze (je moţné snadno cokoli doplnit) a obsah dat byl volen tak, aby nedocházelo ke svévolnému zpřesňování (zanášena byla data pouze ověřitelná); v případě časových intervalů se v ontologiích nacházejí „hraniční data“ – intervaly, o nichţ máme jistotu, ţe zahrnují dnes jiţ neznámé datum události, vzniku díla či doby ţivota (pro podrobný popis obsahu dat v ontologické databázi viz dokument [4]). Vize budoucího rozšíření ze zdrojů Manuscriptoria V budoucnu budou ţádoucí dva typy obsahového rozšíření stávajících dat. Jednak bude nutné rozšířit zpracovanou oblast prostorově – zejména na díla z polského a uherského prostředí; v případě dalších kulturních oblastí bude vhodné uvaţovat o spolupráci na tvorbě dat s dalšími institucemi z jiných evropských zemí. Zároveň se ale jako neméně důleţité jeví doplnění stávajících dat o další synonymní výrazy, které by byly doplňovány přímo z dokumentů nacházejících se v MnS. Pro velkou variabilitu uţívaných podob bude zejména vhodné přidávat k titulům děl variantní názvy z popisů v MnS (všechny poloţky otagované jako „title“). Za tímto účelem bude sice nejprve potřeba vytvořit časově náročnou analýzu (dohledávání relevantních dokumentů v MnS), nicméně obohacená data v ontologických instancích výrazně zvýší relevanci a kompletnost dosaţených výsledků. Za tímto účelem jiţ bylo provedeno předběţné testování, které ukázalo potřebnost popsaného doplnění.
31. 10. 2010
-7-
4.1 Příklad rozdílné podoby názvu totožného díla v ontologické databázi a v Manuscriptoriu
5 Analýza a hodnocení použitelnosti dat Pro zajištění reálné funkčnosti hledání za pomoci ontologických databází bude nutné vytvořit metodiku tvorby dotazů a technické řešení automatické transformace dat z ontologických instancí. Předběţné testování ukázalo, ţe nejvhodnějším řešením patrně bude automatizovaná tvorba dotazů v pokročilém vyhledávání při vyuţití některých slov z názvů děl v kombinaci se slovy označenými jako jména autorů. Pro tyto účely je většina ontologických instancí v podstatě vhodně sestavena a jejich struktura můţe umoţňovat automatizované rozpoznávání jména autora a názvu díla (název díla v zápisu jednotlivých instancí odděluje od jména autora anglické „by“). K vyloučení výrazů, které jsou pro přílišnou frekvenci pouţití pro účely vyhledávání zavádějící (předloţky, slova typu „tractatus“, atd.), bude zapotřebí pouţít a případně rozšířit jiţ existující a pouţívané vlastnosti MnS. Zejména se to dotýká seznamů
31. 10. 2010
-8-
„zakázaných“ slov, která MnS nebude pro vyhledávání pouţívat standardním způsobem a podle definice vlastností poloţek MnS. Pro zajištění reálné pouţitelnosti hledání pomocí ontologických databází bude nutné vytvořit metodiku automatizované tvorby dotazů za pomoci transformace dat z ontologických instancí. Předběţné testování ukázalo, ţe to moţné je, protoţe většina ontologických instancí je pro tyto účely vhodně sestavena. K vyloučení výrazů, které jsou pro přílišnou frekvenci pouţití pro účely vyhledávání zavádějící, můţe být svěřeno standardním funkcím MnS, případně s doplnění dalších definic. Příklad: předloţky, slova typu „tractatus“, atd.
5.1 Popis stávajícího stavu, hodnocení využitelnosti Databázi ontologií představuje nyní sedm excelovských tabulek (Ontologie 1-5, Geography, Leaders), kaţdá o třech listech - Instances, Roles, Relations. Dvě z tabulek jsou specifické svým obsahem - v Geography jsou uvedeny pouze záznamy geografických entit a Leaders obsahuje záznamy osobních jmen uváděné včetně jejich funkcí. Primárních záznamů (řádek) v listech Instances je přes 8500, ale bohuţel návaznost na další listy není odpovídající, protoţe kaţdý z listů byl vyplňován samostatně. Struktura tabulek odpovídá původnímu záměru projektu VICODI, ale pro potřeby ORST NKČR nebyla vyuţita celá. Dále se budeme zabývat charakteristikou existujících dat a jejich vyuţitím v pilotním projektu. List Instances List Instances má u většiny tabulek data vyplněna ve sloupcích Label, Language Code, Start year, End year, Concepts a Synonyms, přičemţ sloupec Label obsahuje základní termíny, na které navazují všechny další údaje uvedené v záznamu (řádku). Původní projekt VICODI nebyl primárně zaměřen na prohledávání a těţení knihovnických databází (katalogů), takţe data ve sloupci Label nebylo původně nutné rozdělovat podle jejich typu. Jsou v něm tedy zapsána jak osobní jména a názvy organizací (institucí) v nestrukturované podobě, tak názvy artefaktů (včetně titulů), či označení událostí nebo geografické názvy. Základní termíny jsou uváděny v podobě, která je obvyklá v českém jazykovém prostředí. Při elektronické katalogizaci dokumentů a následném vystavení (publikování) záznamů v knihovnických databázích je předpokladem jednoznačné rozlišení typu informace na vstupu do databáze, takţe pro pilotní projekt bylo nutné data ze sloupce Label rozdělit na jednotlivé kategorie a s nimi dále pracovat samostatně. V původní struktuře bylo toto rozdělení naznačeno slovní charakteristikou ve sloupci Concepts. Ten ale bohuţel nebyl vyplněn u všech záznamů (řádek). Pro pokusy o vyhledávání v knihovnických databázích a katalozích na základě ontologií ORST NKČR byl značně problematický ještě způsob zápisu názvů artefaktů typu titul díla. U nich byl často pouţíván zápis ve formě: titul díla, spojovací slovo
31. 10. 2010
-9-
"by" nebo sousloví "written by", případně "written probably by" či jiné anglické označení a jméno autora (česká jazyková varianta). Katalogizační záznamy ovšem s tímto kombinovaným zápisem nepočítají - v nich na úrovni titulu nenajdeme informace o autorovi ani další výrazy, které neobsahuje sám název. Pokud bychom ponechali tyto ontologické záznamy artefaktů typu titul v původním znění, vyhledávání v MnS by nemělo ţádné výsledky. Data jsme tedy museli pro pilotní projekt upravit tak, aby obsahovala pouze titul díla. Informace ze sloupce Language code (vyplněné především v tabulce Geography) byly pro pilotní projekt pouze informativní. Obsahují dvoj aţ trojpísmennou zkratku jazyka, ve kterém je zapsán termín ze sloupce Label. Při volbě zkratky nebyly vyuţívány kódovníky, které jsou součástí knihovnických formátů. Pokud bychom chtěli data pouţít při zpřesnění dotazů v MnS, znamenalo by to pravděpodobně jejich úpravu. Datace ze sloupců Start year a End year, které se vztahují k termínu ze sloupce Label, jsme pouţili pro vyhledání maximálního moţného rozsahu let, který se týká primárního údaje (Label). Termíny jsou v obou sloupcích zapsány formou čtyřmístné numerické datace. Podle terminologie uţité ve sloupci Concepts jsme původně chtěli rozdělit informace ze slouce Label na jednotlivé typy (Person, Writing, Event ...), ale bohuţel jsme narazili na neúplnost dat. Rozhodli jsme se tedy termíny v pilotním projektu vyuţít také jako informativní údaj, který by v budoucnu měl slouţit stejně jako Language code pro případné zpřesňování ontologického dotazu. Informace uvedené ve sloupci Synonyms se vztahují také k datům ze sloupce Label - jsou jejich obsahovými, grafickými nebo jazykovými ekvivalenty. Pro účely původního projektu byla tato data zapisována do jednoho pole a oddělována vybraným znakem. Kvůli zefektivnění způsobu dotazování do MnS jsme museli toto pole rozdělit podle počtu výskytů jednotlivých termínů do polí stejného typu s vícenásobným výskytem. Bohuţel u těchto dat není uveden jazyk, ve kterém jsou zapsány, coţ omezuje dotazování na jazykové oblasti.
List Roles List Roles má u většiny tabulek vyplněny sloupce Instance English Label, Role English Label, Start year, End year a Location English Label. U tabulky Geography není tento list vyplněn. Jeho obsahem jsou informace o rolích či funkcích, které se vztahují k vybraným primárním termínům z Labelu (list Instances) - především k osobním jménům. Ta jsou uváděna ve sloupci Instance English Label ve stejné formě, jako ve sloupci Label (Instances). Jména upřesňuje anglický termín ze sloupce Role English Label, který charakterizuje právě roli či funkci osoby. Termíny, které byly pouţity, opět nekorespondují přímo s kódovníky vyuţívanými v záznamech MnS, takţe i tyto informace jsou nyní při pokládání dotazu v pilotním projektu pouze informativní. Jejich praktickému vyuţití by musela předcházet buď úprava původních dat nebo nějaká forma konverze.
31. 10. 2010
- 10 -
Role či funkce osoby je v listu Roles následně zpřesněna datací ve sloupcích Start year a End year. Způsob zápisu i vyuţití dat v dotazu do MnS jsou stejné jako u datace v listu Instances. Termíny zapsané ve sloupci Location English Label zasazují informace z listu Roles do geografického kontextu. Vztahují se, stejně jako datace v tomto listu, k roli osoby, nikoli k celému záznamu z listu Instances. Pro pilotní projekt jsme tyto údaje pouţili jako synonyma ke geografickým termínům z následujícího listu (Relations). Jazykově jsou zapsané termíny nejednotné, převaţují varianty, které nejsou obvyklé v českém prostředí, a pouţitý jazyk není uveden. To trochu problematizuje jejich vyuţitelnost. Pokud bychom takový termín pouţili při kladení dotazu do MnS jako zpřesnění k termínu z Label (Instances), který je zapsán v české variantě, výrazně tím zúţíme výsledky vyhledávání. Celý způsob zápisu dat v listu Roles je poněkud odlišný od Instances. Termíny jsou v tomto sloupci uvedeny v tolika výskytech, kolik k nim existuje odlišných rolí, datací a geografických termínů. Vzhledem k programu pouţitému pro tvorbu ontologických instancí (Excel) a neexistenci přímé vazby na data v předchozím a následujícím listu, to poněkud komplikuje přímé automatizované zpracování původních dat v MnS.
List Relations Poslední pouţívaný list - Relations - má vyplněna data ve třech sloupcích Source English Label, Target English Label a Property English Label. Tento list je vyplňován jako relační tabulka - termíny uvedené v prvním sloupci (Source English Label) mají v druhém (Target English Label) uvedenu svou ontologickou vazbu. Ta buď rozšiřuje nebo zpřesňuje výraz z prvního sloupce. Typ ontologické vazby je v anglické podobě zapsán v posledním sloupci (Property English Label). Tento údaj se v MnS bohuţel nevyskytuje, takţe je v pilotním projektu vyuţit jen jako informace navíc. Data v prvním sloupci jednak vycházejí z termínů uvedených v Labelu (Instances), ale kromě toho jsou zde uvedeny i ontologické vazby ze sloupce Target English Label tak, aby byly k dispozici všechny dostupné kombinace. Pro oba sloupce platí, ţe zde najdeme všechny typy vstupních údajů stejně jako v Labelu (Instances) - osobní jména, názvy institucí, názvy artefaktů (včetně titulů), označení událostí i geografické názvy. I zde je přímé vyuţití dat pro vyhledávání v MnS komplikované. Jazyk pouţitý pro zápis do prvních dvou sloupců závisí na typu termínu, který je zapsán, ale obecně převaţuje česká jazyková varianta. Pro MnS je nejefektivnější vstupní data rozdělit podle typu (jména osob, názvy institucí, tituly, názvy artefaktů, označení událostí aj.) a potom je vyuţít při kladení dotazu směrovaného na odpovídající xml elementy. Pokud bychom to neudělali, vyhledávání bude úspěšné pouze v případě, pokud bude dotaz kladen formou hledání kaţdé části termínu ve všech slovech ze záznamu. To ovšem zároveň znamená, ţe výsledky vyhledávání budou velmi široké a ontologicky ne zcela relevantní.
31. 10. 2010
- 11 -
5.2 Návrh nového formátu a realizace vazeb Pokud budeme vycházet z dostupných dat, mohli bychom se pokusit nastínit novou strukturu ontologické databáze, která by zefektivnila a zkvalitnila tvorbu a vyuţívání dosavadních i nových ontologických instancí. V současné době dochází při tvorbě nových záznamů k chybám při zápisu překlepy, moţné posuny o řádek/sloupec apod. Navíc je problematické udrţet kontinuitu dat v několika listech, pokud nejsou (polo)automatizovaně vyplňovány např. pomocí maker. Problematické je i zapisování vícevýskytových poloţek, které je nyní v kaţdém listu řešeno jiným způsobem. Ani způsob zápisu vztahů mezi záznamy není příliš efektivní. Při vyuţívání databázového systému by bylo moţné některým z výše zmíněných nedostatků předejít a navíc by bylo moţné připravit i rejstříky, strukturované slovníky nebo komplexní bloky záznamů, které jsou na sebe navázány. Odrazovým můstkem pro tvorbu záznamu, a tím i struktury databáze, by měly být unikátní informace uvedené v listu Instances - data ze sloupce Label. Na ně by měly být navázány další údaje týkající se datací, rolí, geografických termínů i vazeb mezi záznamy samotnými. Základ návrhu struktury pro databázový systém vychází z existujících dat v ontologické databázi a snaţíme se uvádět i pouţívané termíny. Návrh struktury: Label (Instances = Instance English Label) Měl by mít pouze jeden moţný výskyt a v kombinaci s informacemi o typu údaje (Concepts) a rozsahem let (Start year, End year) by byl jedinečným vstupem do databáze. Blok informací k Labelu obsahuje: typ Labelu (nyní Concepts) - povinný atribut navázaný na strukturovaný slovník v Concepts, jeden výskyt, jazyk Labelu - povinný atribut, jeden výskyt - nejefektivnější by bylo vyuţití mezinárodně pouţívaných kódů, Start year (Label) - informace k celému Labelu, jeden výskyt, End year (Label) - informace k celému Labelu, jeden výskyt.
31. 10. 2010
- 12 -
Role (Label) - celý blok informací k Role by měl mít moţnost více výskytů a také moţnost vyplnit údaje v bloku bez vyplnění samotné role, - při přípravě struktury je důleţité definovat, zda se bude role vyplňovat v určitém jazyce nebo nikoli. Pokud bude určen jeden jazyk, lze předem připravit základní rejstřík rolí. Pokud bude moţné pouţívat více jazyků pro zápis termínu, měla by i Role mít svůj atribut jazyka. - pokud bude významné, aby role byla uváděna v jazyce Labelu, pak by měl být k dispozici několikajazyčný rejstřík rolí, navázaný na atribut jazyka Labelu, - bonusovou moţností by mohlo být doplnění role pro Label v jednom preferovaném jazyce vţdy (např. anglicky), - celý blok informací k Role by měl mít moţnost více výskytů a také moţnost vyplnit údaje v bloku bez vyplnění samotné role. Blok informací k Role obsahuje: jazyk Role - atribut s jedním výskytem pro kaţdou roli Role English Label - 1 výskyt pro kaţdou roli Start year (Role) - 1 výskyt pro kaţdou roli End year (Role) - 1 výskyt pro kaţdou roli Location (Role) - 1 výskyt pro kaţdou roli
Synonyms - celý blok informací k Synonyms by měl mít moţnost více výskytů, - s ohledem na jazykové varianty by měl být povinným atributem jazyk, ve kterém je termín zapsán, - mohlo by být uţitečné, kdyby se i k synonymům daly zapisovat role se všemi jejich informacemi. Vycházíme z předpokladu, ţe jedna osoba můţe pod jedním jménem ţít (a tvořit) a pod jiným jménem pracovat a tvořit. Blok informací k Synonyms obsahuje: jazyk Synonyms - atribut s jedním výskytem pro kaţdé synonymum, Role (Synonyms) - moţnost více výskytů pro kaţdé synonymum, ◦ Role English Label - 1 výskyt pro kaţdou roli ◦ Start year (Role) - 1 výskyt pro kaţdou roli ◦ End year (Role) - 1 výskyt pro kaţdou roli ◦ Location (Role) - 1 výskyt pro kaţdou roli
31. 10. 2010
- 13 -
Target (Relations) - v poloţce Target by měla být uvedena přímá vazba na jiný záznam, - celý blok informací k Target Label by měl mít moţnost více výskytů Property English Label - 1 výskyt pro kaţdý Target Label - s ohledem na jiţ existující data by bylo vhodné vytvořit rejstřík nebo strukturovaný slovník s moţnými typy vazeb mezi Target Label a Label. Poznámka - pro poznámky nebo návrhy na vytvoření dalšího záznamu s vazbou - jeden výskyt pro kaţdý Target Label ◦ Případně moţnost další záznam přímo vytvořit
31. 10. 2010
- 14 -
5.3 Schéma
31. 10. 2010
- 15 -
5.4
Příklad současné standardní podoby ontologických instancí
Tomáš ze Štítného
osobní jméno
University of Metz
název instituce
Kostnice
geografický název
Kostnický koncil
událost
Tractatus de Romana ecclesia by Stanislav ze Znojma
artefakt (titul)
5.5
Návrh možné transformace do pokročilého vyhledávání v Manuscriptoriu
31. 10. 2010
- 16 -
Výsledky tohoto vyhledávání
(1) Textus varii Henricus de Frimaria | Stanislaus de ZnoymaXIII.E.7; Národní knihovna České republiky; Praha; ČeskoPřidat do výběru | Faksimile | Popis dokumentu
(2)Textus variiNicolaus de Dinkelsbühl | Stanislaus de Znoyma | Guilelmus
(Wilhelmus) de Sancto Amore (Guillaume de Saint-Amour)XII.F.15b; Národní knihovna České republiky; Praha; ČeskoPřidat do výběru | Faksimile | Popis dokumentu
(3)Sermones,opera polemica,legendae Innocencius IV ? | Nicolaus de
Dinkelsbühl | Cristanus de Prachaticz | Isidorus Hispalensis | Iohannes de Przibram | Stanislaus de Znoyma | Nicolaus de Dinkelsbühl ? | Andreas de Broda | Bernard de Clairvaux | Andreus de Broda | Johannes de Misa | Rudalphus TrudonenisXIX.C.49; Národní knihovna České republiky; Praha (Prague); Czech RepublicPřidat do výběru | Popis dokumentu
(4)Textus variiLotharius de Segni (= Innocentius III.) | Johannes Milicius de
Chremsir | Stanislaus de Znoyma | Caesarius Arelatensis | Pseudo-Hildegardis de Bingen | Gennadius Massiliensis | Anselmus Cantuariensis | partim Johannes Hus | Pseudo-Augustinus | Arnulfus de Boeriis | Pseudo-Bernhardus Claraevallensis | Stephanus de Palecz | Petrus de Ugezd | Henricus Totting de Oyta | Johannes Wyclif | Martinus de Volina | Johannes HusX.H.17; Národní knihovna České republiky; Praha; ČeskoPřidat do výběru | Popis dokumentu
5.7 Relevantní výsledek vyhledávání 5.7.1
Obsahová jednotka Č. 17
Umístění: 195r-252r (195r - 252r) Autor: Stanislaus de Znoyma Titul: Tractatus de ecclesia (Tractatus contra haereses et errores Johannis Hus) Incipit: Ubi sana fides non est, non potest esse iusticia quia iustus ex fide vivit Abakuc 2o et ad Hebre. X neque scismatici aliud sibi ex ista, scilicet fide Explicit: ut dictum est in principio capituli non habent vim excludendi peccatum mortale et per consequens Jazyk textu: latinsky. Další ukázky jsou uvedeny v příloze 11.3
31. 10. 2010
- 17 -
6 Popis tvorby ukázkových dat, odůvodnění volby typu dat V předchozí kapitole jsme upozornili na některé problémy, s nimiţ jsme se setkali při pokusech o tvorbu dotazů na základě původní ontologické databáze a jejich následném kladení do báze MnS. Při manuálním dotazování jsme si ověřili, ţe ontologické instance jsou v MnS vyhledatelné s uspokojivými výsledky, a proto jsme se rozhodli pro sestavení malého souboru testovacích dat. Pro automatizovanou transformaci dat do dotazu bylo největším problémem to, ţe jen některé záznamy v ontologické databázi byly vyplněny konzistentně - měly ve všech třech listech uvedeny na sebe navazující údaje. Zjišťování těchto souvislostí a jejich následné praktické vyuţívání se ukázalo jako časově náročná záleţitost s velkým podílem "hlavoruční" práce, kterou není moţné jednoduchým způsobem automatizovat. Proto jsme se rozhodli sestavit si pro testování z původních dat vlastní vzorek, který by zahrnoval všechna pole obsahující nebo naznačující ontologické vazby. Pro testování jsme připravili 500 záznamů (řádek) sestavených na základě ontologické databáze nejprve v původní excelovské tabulce. Data jsme jsme posléze transformovali do formátu xml a na jeho základě jsme vytvořili databázový soubor. Při zadávání dotazu v testovacím internetovém rozhraní MnS je zapsaný text nejprve vyhledán v testovací ontologické databázi, rozšířen o všechny dostupné ontologické informace (synonyma, časové intervaly, geografické názvy včetně jejich variant aj.) a teprve potom je výsledek konfrontován s MnS na základě předem připravených dotazů - podrobněji viz níţe (Blokové schéma pilotního řešení a popis modelu). Abychom mohli efektivně kontrolovat výsledky kladených dotazů, omezili jsme si i mnoţství ontologických vazeb v závislosti na obsahu záznamů vystavených v MnS. Vybrali jsme si jako základ vazbu z Labelu (typ osobní jméno) na jeho Synonyma. Další vazba směřovala na poloţku Target, přičemţ jsme se omezili na dva typy Targetu - název artefaktu (Titul) a geografický název. U geografických názvů jsme se pokusili i o další úroveň vazeb, a to díky vyuţití informací uvedených v listu Roles a Relations - ke geografickým názvům jsme doplnili vazby na jejich synonyma a dostupné nadřazené termíny. Při pokládání dotazu do MnS jsme se posléze pokusili na základě testovacích dat nasimulovat dva z mnoha způsobů, jakými můţe uţivatel k ontologické databázi přistupovat. V prvním případě jsme hledali ontologické vazby k osobním jménům, v druhém případě informace, které jsou navázány na určitý geografický název. Princip kladení dotazu vycházejícího z ontologických záznamů ukazují následující obrázky.
31. 10. 2010
- 18 -
Obr. č. 1 : Pilotní projekt - dotaz do MnS na základě ontologické databáze ORST NKČR (osobní jména)
Jméno autora
Titul – název díla
Místa Synonyma ke jménu autora
Synonyma místa
- pokládání dotazu z instance Jméno autora (osobní jméno) s primární vazbou na Synonyma ke jménu, Titul - název díla (artefakt) a Místo (geografický název). Sekundární vazba je směřována na Synonyma k místu týkajícímu se autora.
31. 10. 2010
- 19 -
Obr. č. 2: Pilotní projekt - dotaz do MnS na základě ontologické databáze ORST NKČR (geografické názvy)
Titul – název díla Místo
Jméno autora Synonyma k Místu
Synonyma ke jménu autora
- pokládání dotazu z instance Místo (geografický název) s primární vazbou na Synonyma k místu a Jméno autora (osobní jméno). Sekundární vazba je směřována na Synonyma ke jménu autora a Titul - název díla vytvořeného autorem (artefakt).
31. 10. 2010
- 20 -
Obr. č. 3: Pilotní projekt - dotaz do MnS na základě ontologické databáze ORST NKČR (vazby)
Místo
Synonyma k Místu
-
Jméno autora
Synonyma ke jménu autora
Titul – název díla
naznačení dostupných vazeb, které umoţňují data pouţitá v pilotním projektu.
7 Blokové schéma pilotního řešení Při návrhu pilotního řešení jsme vycházeli ze stavu zdrojových dat, potřeby jejich přepracování a potřeby ověřit kvalitu výsledků při hledání pomocí ontologických dat. Za tímto účelem byla také navrţena testovací databáze ontologických vazeb. Dále jsme vycházeli ze zkušenosti při realizaci pilotního řešení autoritních databází (Stará města, Jmenné autority) a řízených slovníků a s ohledem na vyuţití technologií systému MnS. Více k technickému řešení napoví následující blokové schéma.
31. 10. 2010
- 21 -
Blokové schéma
Dotaz do DB Ontologie
Uţivatel poloţí dotaz do databáze ontologických dat z prostředí Manuscriptoria.
Zpracování dotazu pro DB Ontologických vazeb
Podle nastavení formuláře se zpracuje dotaz a hledají se zvolené typy ontologických vazeb.
Vyhledání záznamů ontologických vazeb. DB Ont
Zpracování výsledku hledání v DB Ont.
DB Mns
Zobrazení záznamů MnS
31. 10. 2010
Výsledek vyhledání se zpracuje a vytvoří se z nich dotazy do databáze Manuscriptoria. Úpravami dotazového vzoru se dá zpřesnit, nebo rozšířit výsledek vyhledání Vyhledání záznamů v DB Manuscriptorium.
Prezentace výsledků uţivateli v prostředí Manuscriptoria.
- 22 -
Popis modelu Pilotní řešení bylo integrováno do testovací verze MnS na serveru řešitele. Uţivatel vybere v horizontálním menu moţnosti vyhledávání ontologických vazeb kliknutím na poloţku „Ontologie/Ontology“. Následuje přechod na vyhledávací formulář ontologických vazeb. Na vstupu je systémem očekáváno jméno autora, nebo geografické jméno. Pro identifikaci obsahu vstupu slouţí ovládací prvky typu radio, které umoţní přepnout právě mezi těmito dvěma stavy. Po kliknutí na tlačítko vyhledání, systém převezme nastavení a vyplnění formuláře podle předem definovaného způsobu pro kaţdou z předvoleb a následně provede vyhledání ontologických vazeb ke jménu nebo geografickému údaji. Výsledky vyhledání ontologických vazeb jsou potom předány ke zpracování, rozboru. Systém rozebere všechny vyhledané záznamy a jejich vícenásobné poloţky. Z těchto dat jsou postupně generovány automatické dotazy pomocí předem připravených dotazových šablon. Moţnost automatizace generování dotazů vycházející z detailní znalosti struktury a obsahu dat MnS (TEI P5) a DB ontologických vazeb. Vygenerované sady dotazů jsou postupně aplikovány na vyhledávací stroj MnS. Výsledky automatizovaného hledání se následně zobrazují uţivateli ve stejném podání jak je zvyklý v prostředí systému MnS. Uţivatel se tak dostává k záznamům v MnS, které mají ontologickou vazbu k jím hledanému údaji. Aplikace je pro účely testování a hodnocení výzkumného úkolu dostupná na adrese: http://www.manuscriptorium.com/pilot/apps/main/
8 Testování modelu, hodnocení úspěšnosti hledání Na základě dvou přednastavených typů ontologického vyhledávání se nám podařilo získat ze MnS sady záznamů, které odpovídají předpokládanému výsledku ontologického dotazu. Oproti výsledkům manuálního vyhledávání jsou výsledky automatizovaného dotazu širší, protoţe zahrnují všechna dostupná synonyma (osobních jmen nebo míst), která jsou obsaţena v ontologické databázi ORST NKČR. Navíc jsou do dotazu zahrnuty i tituly vztahující se k osobním jménům. Při obsahové kontrole vyhledaných záznamů jsme zjistili, ţe výsledky vyhledávání osobního jména zahrnují i záznamy, které se nevztahují přímo k původnímu zadání (jméno nebo geografický název), tj. neobsahují primárně zadávaný termín. Obsahují ovšem text, který je uveden v titulech navázaných na termín zapsaný do vyhledávacího řádku. Domníváme se tedy, ţe i tyto záznamy obsahují poţadované ontologické vazby, i kdyţ v pilotním projektu je můţeme ověřit jen porovnáním s obsahem testovací ontologické databáze.
31. 10. 2010
- 23 -
Při vyhledávání jsme však narazili na řadu teoretických i praktických problémů, které v rámci pilotního projektu nebylo moţné vyřešit. Ty, u nichţ si uvědomujeme, ţe by mohly znamenat problém při pouţívání celé ontologické databáze i po její případné konverzi do databázového systému, uvádíme dále. U většiny datových poloţek není zápis prováděn v jednotném jazykovém úzu. Pro samotnou ontologickou databázi to není výraznější problém, ale pokud bychom chtěli klást dotaz sloţený z několika částí, a kaţdá bude zapsána v jiném jazyce, při dotazování v MnS to významně ovlivní výsledky vyhledávání. V knihovnických systémech i v MnS jsou například jména osob uváděna jednak ve tvaru, který se vyskytuje přímo ve zpracovávaném dokumentu a jednak v tzv. autoritní podobě, která ovšem - s ohledem na mezinárodní spolupráci na knihovnickém poli - často neodpovídá české jazykové variantě jména. Díky tomu se můţe poměrně snadno stát, ţe se poloţený dotaz zcela mine s jazykovou nebo grafickou variantou termínu, který prohledávaná databáze obsahuje. To, ţe u poloţek není uveden jazyk, ve kterém jsou zapsány, také znemoţňuje vyhledávání jazykových vazeb např. chci vědět, jestli někdo v daném místě a čase psal hebrejsky. Při kladení dotazu v pilotním projektu jsme vycházeli z předpokladu, ţe údaje z ontologické databáze budou v MnS označeny, tj. uvedeny v patřičných xml elementech formátu TEI P5. Bohuţel jsme si na základě manuálního vyhledávání ověřili, ţe často je termín uvedený v ontologiích přítomen v záznamech MnS, ale pouze jako prostý text. Způsob kladení dotazu by tedy měl v budoucnu zahrnovat i moţnost rozhodnout se pro pouţití termínu jako souboru blízkých slov vyhledávaných přímo v poloţce "slova kdekoliv/text anywhere", případně v globálním indexu a ne jen ve předpokládaných xml elementech. Specifickými vstupními údaji ontologické databáze, které jsou v xml elementech záznamů MnSobsaţeny v minimální míře, jsou termíny typu artefakty (mimo tituly) a názvy událostí. Můţeme je teoreticky najít např. v elementech terms, které obsahují věcnou charakteristiku dokumentu, ale převáţně (pokud vůbec) jsou 31. 10. 2010
- 24 -
zapsány jen jako součást běţného textu v rámci jiných elementů. Nejefektivnějším způsobem vyhledávání je tedy vyuţití slovního indexu k poloţce "slova kdekoliv/text anywhere" nebo případně vyhledávání slov v globálním indexu. Tím nám samozřejmě naroste mnoţství irelevantních výsledků. Dalším, velmi výrazným problémem, který jsme museli manuálně vyřešit a na který bude naráţet kaţdý pokus o automatizované převedení ontologických dat nebo jejich vyuţití při kladení dotazů v knihovnických databázích, je to, ţe u vazebních termínů v poli Target nejsou uvedeny vůbec ţádné informace o typu zapsaného textu (termínu). Znamená to, ţe v našem případě nelze automaticky nasměrovat dotaz z tohoto pole jinam, neţ do slovního prohledávání celého systému MnS, coţ je jednak zdlouhavé a hlavně výsledky vyhledání jsou potom značně irelevantní. Vřele bychom tedy doporučovali i u tohoto pole uvádět typ, který by mohl dotazování směrovat či zpřesňovat např. na základě struktury pole Concepts.
9 Shrnutí Ontologická data, která vznikla v Národní knihovně České Republiky, byla primárně určena pro zcela odlišný účel a projekt, jak je uvedeno a popsáno v kapitole 3. Z tohoto důvodu je jejich současná podoba pro přímé pouţití v systému MnS nevhodná, coţ také vyplynulo z jejich analýzy popsané v kapitole 5. Je potřeba také konstatovat, ţe zatím neexistuje vhodná metodika a odpovídající nástroje pro tvorbu a hlavně uţití ontologických dat v oblasti rukopisů. I přes tyto nepříznivé okolnosti jsme se pokusili realizovat pilotní řešení a ověřit jím, jak by mohly vypadat výsledky vyhledání záznamů v MnS získané na základě dotazu sestaveného z údajů, které obsahuje databáze ontologických vazeb. Pro tento účel jsme z dat NKČR vytvořili vzorek dat a ten integrovali pomocí vlastních technologií do MnS. Výsledkem naší práce je sice konstatování, ţe ontologická data NKČR jsou nyní pro MnS nepouţitelná, ale jedná se o velmi cenný soubor ontologických dat značného rozsahu, ze kterých je moţné v budoucnu vytvořit kvalitní databázi ontologických vazeb. Doporučujeme prozatímně pozastavit další tvorbu těchto dat současným způsobem, dokud nebude připravena metodika a nástroje pro práci a tvorbu. Z těchto důvodů je i pilotní řešení nutné brát jen jako model pro ověření budoucí pouţitelnosti dat, avšak z technického hlediska jej nebude moţné s největší pravděpodobností i po přepracování současných dat dále rozvíjet. Budoucí stav dat a vytvoření metodiky práce s ontologiemi v oblasti rukopisů bude jistě poţadovat novou analýzu a zpracování ontologií v rámci MnS a předurčí i nové technické řešení. Jednou z variant, jak by bylo moţné v budoucnu pracovat s ontologickými daty v MnS je, ţe bychom nejprve z údajů v ontologické databázi vytvořili první dotaz směřovaný nejprve na odpovídající poloţku indexu MnS a na jeho základě si vytvořili mnoţinu informací vztahujících se k hledanému termínu. Např. u osobního jména bychom v ontologické databázi sestavili dotaz z primárních dat a všech synonym k nim. Ta bychom porovnali nejprve s odpovídající poloţkou v MnS - v tomto případě s poloţkami Authors, Responsibilities, Names (all). V případě, ţe bychom nebyli spokojeni s výsledkem, mohli bychom stejný dotaz
31. 10. 2010
- 25 -
poloţit i do globálního indexu. Tím by nám mnoţina výsledků vzrostla. Další moţností, jak rozšířit mnoţinu jmen, by bylo vyuţití grafemických a případně v budoucnu i gramatických variant k zadanému textu. Na konci této části práce bychom získali mnoţinu relevantních slov, která bychom mohli buď přímo odeslat do systému Mns jako dotaz, nebo bychom je mohli vyuţít jen jako přípravu pro kombinovaný dotaz - mohli bychom si je uloţit do paměti. Kromě toho bychom samozřejmě výslednou mnoţinu slov mohli editovat. Stejným způsobem bychom si mohli připravit i další část dotazu nejlépe podle jednotlivých typů vstupních dat (názvy institucí, geografické názvy, události, artefakty). Na konci této části pokusu o ontologické dotazování bychom mohli připravené mnoţiny relevantních slov propojit vhodnými operátory do dotazu, který bude vyhledán v MnS a jehoţ výsledkem uţ budou relevantní záznamy dokumentů. Na jejich základě by samozřejmě vyhledávání mohlo pokračovat přes další ontologické vazby. Takový postup by byl moţný např. u dotazování typu: 1. Chci zjistit, kde osobnost působila => geografické názvy. 2. Chci zjistit, kdy osobnost působila => období. 3. Chci zjistit, kdy a kde osobnost působila => zasazení do časoprostorových souvislostí. Ontologické vyhledávání nás přibliţuje hledání sémantickému, které jsme se řešili v projektu Ontologie a autoritní databáze v roce 2009 viz kapitola 1.4. (http://www.dbase.cz/manuscriptorium/apps/main/en/index.php?request=search_se mantic_form&client=) (http://www.manuscriptorium.com/apps/main/index.php?request=search_sema ntic_form&client=)
31. 10. 2010
- 26 -
9.1 Ontologie koncepčně, obecně Pro zajištění reálné funkčnosti hledání za pomoci ontologických databází bude nutné vytvořit metodiku tvorby dotazů a vyuţití existujících dat popisujících ontologické vazby. Bude nutno zváţit moţnosti transformace dat z ontologických instancí (moţnost automatizované konverze), případně za příznivých okolností i přímého vyuţití těchto dat, případně souvisejících sluţeb). Předmětem tohoto úkolu bylo otestovat, co mohou přinést pokusy o vyuţití excellovského seznamu ontologických instancí vytvářeného v NKČR. Byla navrţena a pilotně otestována automatická tvorba dotazů v pokročilém vyhledávání při vyuţití některých slov z názvů děl v kombinaci se slovy označenými jako jména autorů. Bylo však konstatováno, ţe mechanická cesta velmi pravděpodobně nevede k rutinnímu vyuţití těchto dat v MnS. To nic nemění na tom, ţe tato data obsahují hodnotné informace, nelze však přehlédnout, ţe koncepce je pokračováním cca 6 let starého projektu. Z tohoto pohledu je většina těchto ontologických instancí sestavena vhodně. Jejich struktura by měla například umoţňovat automatické rozpoznávání jména autora a názvu díla (název díla v zápisu jednotlivých instancí odděluje od jména autora anglické „by“). Nicméně provedené práce, analýzy a zkoušky prokázaly, ţe je sice moţné vytvořit funkční model ontologického vyhledávání s vyuţitím vzorků dat poskytnutých NKČR, avšak zároveň tento model ukazuje, ţe je prakticky vyloučeno tento pokus o pilotní řešení dovést do rutinní sluţby. Provedené práce odkryly a potvrdily tušenou pravdu, ţe ontologie mohou být v budoucnu zajímavou sluţbou. Přinesly však také potvrzení jiného tušení, totiţ ţe zbývá ještě velmi mnoho analytické práce nad dosaţenými výsledky předchozích snaţení, jsou nezbytné i nové formulace očekávání, zkoušky a testování, hodnocení výsledků. Práce v letošním roce nerozptýlila obavy formulované v závěru loňské zprávy [5], která ve svém závěru vyjadřuje obavu z modifikace vnímání historie a jejích souvislostí „brýlemi“ (tj. názory, podmínkami,…) tvůrců ontologických dat.
9.2 Ontologie v návaznosti na MnS, Pro zajištění reálné funkčnosti hledání za pomoci ontologických databází bude nutné vytvořit metodiku tvorby dotazů a technické řešení automatické transformace dat z jiţ existujících ontologických instancí. Předběţné testování naznačilo, ţe jedním z moţných řešení patrně bude automatizovaná tvorba komplexních dotazů např. s vyuţitím některých slov z názvů děl v kombinaci se slovy označenými jako jména autorů. Většina ontologických instancí je pro tyto účely pouţitelná. Z provedených prací je zřejmé, že ontologické vyhledávání ve vztahu k MnS zůstane relativně samostatnou aplikací doplňující spektrum moţností vyhledávání v MnS, podobně jako jsou nyní v MnS zařazeny alternativní způsoby vyhledávání.
31. 10. 2010
- 27 -
Ontologické vyhledávání nás přibliţuje hledání sémantickému, které jsme se řešili v projektu Ontologie a autoritní databáze v roce 2009 viz kapitola 1.4. Pro pochopení jakým způsobem mohou být vyuţity informace obsaţené v ontologických zdrojích v MnS je nutné pojmenovat dostupné rešeršní prostředky MnS a především si uvědomit roli MnS vzhledem k výsledkům ontologického vyhledávání. Je třeba zdůraznit, ţe ontologické vyhledávání má potenciál přinášet výsledky samo o sobě, a ve spojení s MnS směřuje k vytvoření výběru dokumentů z obsahu MnS (tedy kolekci) dokumentů souvisejících s výsledky ontologického hledání.
Pro další úvahy je nutno přijmout tyto počáteční předpoklady: pro tvorbu dotazu do ontologické databáze budou využity integrované metody vyhledávání v MnS, bude umožněno monitorování kroků tvořících ontologické vyhledávání, procesy, které doposud nejsou konkrétně řešeny budou v dalších úvahách nahrazeny procesy s předpokládanými vstupy/výstupy.
Základem bude sada obecných dotazů členěná hierarchicky dle počátečních vstupů a dle očekávaného ontologického směřování. Tato sada bude závislá na vyuţitelných zdrojích ontologických vazeb a na moţnostech příští ontologické databáze. Vyhledání začne výběrem typového dotazu, jeho vyplněním konkrétními údaji, jeho automatizovanou modifikací ontologickou databází, revizí a následnou aplikací. Tento proces proběhne ve více krocích, které bude moţno monitorovat, mezivýsledky modifikovat i uchovávat. Postup bude naznačen na příkladě. Kroky ontologického vyhledání Vyjděme ze záměru najít pro osobnost „Tomáš ze Štítného“ lokace jeho působení a dokumenty pocházející z odpovídajícího období s vyuţitím ontologické databáze a databáze synonym. Je nutno provést tyto kroky: 1. najít v databázi synonym všechna jména osobnosti Tomáš ze Štítného Zatím neřešitelným problémem v tomto kroku jsou automatizované gramatické varianty napříč jazyky a historií). V prvním přiblíţení zde bude uplatněna odborná zdatnost a fantazie tvůrce dotazu. 2. zobrazení tohoto základu (tj. balíku relevantních slov) a jeho editace, 3. optimalizace balíku - např. vyloučit „kratší neţ“, nezajímavá slova, aj., 4. rozhodnout jakou metodou a jak přesně se bude v MnS hledat exaktně / s tolerancí / s grafémy, blízký/volný shluk slov, 5. zvolit/změnit alternativy formy dotazu, přičemţ vstupní data zůstanou dle moţnosti nezměněna např. zaměněna poloţka(y) / globální textový index, aj., 6. uchovat finální dotaz, aplikovat jej do MnS s vyuţitím zvolených moţností (nezajímavá slova, grafémy, tolerance, shluky…), 7. vytvořit a uchovat „kolekci“, samozřejmě dle rozhodnutí uţivatele.
31. 10. 2010
- 28 -
Výsledkem bude struktura (dotaz) a jehoţ součástí bude mnoţina označení entity (Osobností) a dále přiřazená „kolekce“ dokumentů, nesoucích ve svém popisu stopy sledované osobnosti. Tuto kolekci by bylo moţno označit „dokumenty dotýkající se osobnosti“. Výsledek můţe být uloţen do „mnoţinové paměti“. S ohledem na existující zdroje můţe být metodicky stejně proveden výběr pro „jména osobností (včetně synonym)“, „jména lokací“, „období“, „událostí“, „institucí“, „artefaktů (mj.Titul)“. Vyhledávání je moţno zpřesnit a výše uvedené pohledy kombinovat, upřesnit, modifikovat dle konkrétních vyuţívaných ontologických zdrojů. Příklad: Chci zjistit kde osobnost (Tomáš) působila, hledám ontologicky související lokace. Výsledek: balík lokací (+ synonyma) a moţnost zobrazit a editovat balík lokací souvisejících s osobností. 2a. Chci zjistit kdy osobnost (Tomáš) ţila Výsledek: balík období (tj. podmnoţina doby ţivota nebo doba ţivota) a moţnost zobrazit a editovat balík. 2b. Chci zjistit kdy osobnost (Tomáš) & kde (konkrétně lokace) působila Výsledek: jemnější balík období (souhrn dílčích období) a moţnost zobrazit a editovat balík. Zde je třeba si uvědomit, ţe bude třeba otevřít metodickou diskusi o cílech ontologického vyhledávání vazeb a souvislostí, které můţe být významné samo o sobě a cílech specielního případu spojení ontologického vyhledávání ve spojení s MnS1. Různé cíle povedou k různým metodikám a ne vše je třeba řešit ve spojení s MnS. 1
Cílem uživatele může být vyhledat středověké dokumenty, které souvisí s osobou Tomáše ze Štitného; v jiném případě, dokumenty, které souvisí s konkrétním dokumentem; ještě v jiném případě, dokumenty, které souvisí s určitým tématem, váží se k určité události, atd. atpod. Vyhledání by mělo mít v podstatě dva základní přínosy – 1. odpadá nutnost formulovat série různých dotazů – ontologie by měly zvládnout vše naráz, které jsou ostatně mimo schopnosti a možnosti uživatele (nikdo nezná všechny varianty jednotlivých jmen, atd.). 2. Uživateli se vyhledá dokument, který s jeho dotazem souvisí způsobem, o jakém on sám neuvažoval nebo o jakém nevěděl. Odpověď, kterou bude prostřednictvím dokumentů na zadaný dotaz hledat, bude vícevrstevná a komplexnější než pokud by ontologické vyhledání nepoužil. Nejde pak ale o zběžné přehlédnutí výsledků vyhledávání, ale badatelskou práci s vyhledanými dokumenty.
31. 10. 2010
- 29 -
Ve výše uvedeném příkladu je výsledkem hledání v MnS (s do jisté míry jednostranným vyuţitím ontologické databáze) seznam dokumentů odpovídajících „osobnosti & lokaci & období“, ačkoliv počátkem vyhledání mohl být jen zájem o konkrétní osobnost a snaha dozvědět se o ní něco více. Je nutno zdůraznit, ţe práce s ontologickou databází v předchozím procesu je nezávislá na obsahu MnS. Nicméně MnS disponuje nástroji, které mohou podporovat management tvorby ontologického dotazu, mohou podporovat evidenci vstupů, evidenci a vyuţívání vznikajících kolekcí a poskytovat veškeré obvyklé navazující sluţby. Samotná ontologická databáze, stejně jako případné prostředky pro její plnění budou samostatnými aplikacemi, komunikujícími s MnS. MnS je tady vyuţito jen jako virtuální knihovna dodávající vybranou „kolekci“ související s výsledkem ontologického vyhledání. Po rutinním zvládnutí základních principů spolupráce ontologického vyhledávání s MnS a po vytvoření funkčních nástrojů bude moţno na základě získaných zkušeností funkčnost rozšiřovat. Širší ontologické vyhledávání Výhradně v ontologickém prostředí můţe být hledána odpověď např. na otázku „kdo jsou osobnosti, které se mohly v lokaci setkat“. Odpovědí z MnS bude kolekce dokumentů, obecně datovaných do zjištěné doby, která se dotýká těchto osobností, případně filtrovaná nebo rozšířená s ohledem na časové období a/nebo Lokaci.
10 Závěr V práci byly ověřeny principy, na kterých můţe být postaveno vyuţití ontologií v interakci s MnS. Výsledky ukazují, ţe ontologické vyhledávání můţe být uţitečným doplňkem, který předchází či doplňuje moţnosti přípravy dotazu v MnS. Z pilotní ukázky je zřejmé, ţe tato snaha můţe přinést jisté výsledky. Je zřejmé, ţe MnS je a zůstává digitální knihovnou, která můţe pro jakékoli aktivity (tedy i ontologická vyhledávání) poskytnout standardní sluţby, tj vyhledání informací o knize (dokumentu), zpřístupnění její digitální podoby, včetně navazujících sluţeb, např. tvorby kolekcí. Ontologické vyhledávání je z tohoto hlediska činnost předcházející pouţití MnS. Výsledkem této činnosti je dotaz nebo sekvence dotazů, jejichţ aplikací vznikne výběr, se kterým lze dál pracovat standardními postupy. Vyzkoušeli jsme moţnosti vyuţití ontologických dat poskytnutých NKČR pro vytvoření dotazu aplikovaného v MnS. Je naznačena cesta od jednoduchého obecného dotazu k výběru, který je širší a zahrnuje související dokumenty. Zároveň jsme došli k závěru, ţe bude nutno revidovat představu o přímé vyuţitelnosti existujících ontologických dat pro rutinní ontologická vyhledávání. V této souvislosti je
31. 10. 2010
- 30 -
nebytné věnovat zvýšenou pozornost hlubší teoretické a metodické analýze současného stavu ontologických dat ve vztahu k očekávaným cílům. Totéţ platí o potenciálním vyuţití metadat a dat v MnS k ověření ontologických postupů a případně k extrakci ontologických informací. Formulace a dosaţení těchto cílů je podmíněno značným mnoţstvím vysoce kvalifikované práce specialistů, kterou nelze nahradit nasazením technických prostředků, protoţe vyuţití sebedokonalejších technik, předpokládá přítomnost a aktivitu specialistů znajících problematiku. Práce předkládá základy pro tento vývoj. Práce dále prokázala, ţe MnS můţe na základě ontologických dat poskytnutých NKČR ukázkově najít výběr dokumentů z MnS. Výběr má vlastnosti dané způsobem svého vzniku a jeho popis lze v budoucnu k tomuto výběru připoutat. S tímto výběrem pak bude moţno v MnS zacházet jako s kaţdou jinou kolekcí. Vyhledávání s vyuţitím ontologických databází tedy můţe vést k vytvoření řady „kolekcí“. Manuscriptorium je vybaveno nástroji dovolujícími pracovat s mnoţinou záznamů jako s objektem (operandem). S tímto operandem lze provádět běţné mnoţinové operace, například průniky, sjednocení, vyloučení…. Tyto operace jsou běţně vyuţívány při upravování výběru aktuálního výběru následujícím vyhledáváním. V budoucnu lze tyto moţnosti zpřístupnit uţivateli v zobecnělé formě, takţe funkce tohoto „mnoţinového procesoru“ budou moci uţivatelé vyuţívat rovnocenně pro jakékoli podmnoţiny Manuscriptoria. To můţe přinést podstatné rozšíření, zobecnění a otevření nových moţností: Výše definované „ontologické kolekce“ budou mít (technologicky vzato) vlastnosti podobné jakékoli jiné kolekci a bude moţné s nimi podobně zacházet. Bude moţno zavést jejich ukládání, obnovování, provádět mezi nimi výše zmíněné operace a výsledky těchto operací znovu ukládat jako nové „kolekce“. Pro tyto nové kolekce bude moţné nabídnout jejich veřejné sdílení a další pouţívání jako svébytných objektů. Rozpoznání možností vývoje budoucích ontologických databází ve vazbě na MnS pokládáme za hlavní přínos této práce. …nebo … Za hlavní přínos této práce pokládáme rozpoznání možností dalšího vývoje MnS ve vazbě na budoucí ontologické databáze.
2010-11-26 ing Stanislav Psohlavec a kolektiv
31. 10. 2010
- 31 -
11 Přílohy 11.1 Schéma jednoho z možných přístupů k vyhledávání na základě ontologické databáze Role
Jazyk
Čas Čas
Místo
Místo
Dílo
Čas
Dílo
Místo
Dílo
Jméno osoby Role / funkce Název instituce
Událost
Čas
Místo Místo
Osoby Čas
Místo
Díla
31. 10. 2010
Osoby
Díla
- 32 -
Čas
11.2 Přehled jmen a geografických názvů zpracovaných ve vzorové databázi pilotního řešení. Jména autorů, pro které jsou zpracována data v pilotním řešení:
Arnošt z Pardubic Havlík Johann Stöffler Mařík Rvačka Matěj z Janova Mikuláš z Loun Mikuláš z Rakovníka Ondřej z Brodu Pavel z Prahy Petr z Mladoňovic Prokop z Kladrub Stanislav ze Znojma sv. Jeroným Svatá Brigita Švédská Šimon z Tišnova Štěpán z Pálče Tomáš ze Štítného Geografické názvy, pro které jsou zpracována data v pilotním řešení:
Antiochie, Bavary, Bavorsko, Bayern, Betlém, Betlém, Blaubeuren, Cařihrad, Constantinopol, Dolany, Hatay, Ingolstadt, Istanbul, Izrael, Junstingen, Konstantinopol, Konstanz, Kostnice, Krakov, Kypr, Lipsko, Neapol, Německo, Palestina, Paříţ, Polsko, Praha, Řezno, Řím, Svatá země, Švédsko, The Holy Land, Vídeň, Ţitava
31. 10. 2010
- 33 -
11.3
Ukázky vyhledávání
Vyhledávání - geografický termín Kostnice
31. 10. 2010
- 34 -
Výsledky vyhledávání termínu Kostnice, Konstanz, Constantia
Zobrazení relevantního záznamu - Kostnice, Konstanz, Constantia
31. 10. 2010
- 35 -
Vyhledávání - osobní jméno Tomáš ze Štítného
Výsledky vyhledávání termínu Tomáš ze Štítného, Štítný
31. 10. 2010
- 36 -
Zobrazení relevantního záznamu - Tomáš ze Štítného
2010-11-29
31. 10. 2010
- 37 -