Ústav informačních studií a knihovnictví Filozofická fakulta Univerzity Karlovy
Ontologie jako součást sémantického webu ř
Seminární práce na p edm t Matematické a informatické modely v ontologii ě
ZS 2003/2004
Linda Skolková 2. ročník bak. studia kontakt:
[email protected]
OBSAH:
Úvod ..........................................................................................................................................iii Možnosti sémantického webu.....................................................................................................iii Ontologie jako páte sémantického webu.................................................................................... iv Vyhledávání informací ............................................................................................................... vi Zamyšlení na záv r ................................................................................................................... vii Použitá literatura ...................................................................................................................... viii ř
ě
ii
Úvod ř
O sémantickém webu se v poslední dob velmi mnoho hovo í, podobn je tomu s ontologiemi. V obou p ípadech dochází k jistému posunu významu, který nemusí být na první pohled zcela z etelný. S webem jakožto jednou ze služeb internetu máme pov tšinou relativn dost vlastních zkušeností, sémantický web se ovšem teprve za íná klubat, a proto naše p edstava o tom, k emu nám nejspíše v budoucnu bude sloužit, m že být zna n mlhavá. Ontologie se zase používají nikoli s dalším adjektivem p izp sobujícím se novému významu, jako je tomu u sémantického webu, ale jejich definice se p izp sobuje novému využití. Ontologie se také již používají v plurálu (filozofové, kte í sami sebe nejrad ji nazývají filosofy, se drží singuláru). ě
ě
ř
ř
ě
ě
ř
č
č
ů
č
ě
ř
ů
ř
ů
ř
ě
Pro vlastn sémantický web pot ebujeme? Ing. Sklenák ve svých pracích1 asto uvádí p íklad povídky Babylónská knihovna, kterou J.L. Borges napsal už v roce 1941, ovšem která velmi p esn vystihuje sou asnou situaci v prost edí www. V povídce se jedná o to, že knihovna obsahuje prakticky všechno, co kdy bylo napsáno nebo co teprve napsáno bude, ovšem nenabízí ke konkrétním informacím (resp. dokument m) žádnou p ístupovou cestu, takže nakonec po áte ní pocit jakéhosi št stí vyst ídá beznad j. A k podobnému stavu se za íná blížit sou asný stav webu... ř
č
ř
č
ě
ř
ě
ř
č
ř
ů
č
č
ř
ě
č
ě
č
ř
ř
Dosavadní vývoj webu lze rozd lit na dv generace. První p edstavuje obsah stránek vytvá ený ru n za p ímého použití HTML. Nabízí jednoduchý p ístup s jednotným rozhraním, klade ovšem velké nároky na autory a na správu a p sobí obtíže p i astých zm nách obsahu. Za druhou generaci je možno pokládat obsah generovaný na vyžádání (on-the-fly). V tomto p ípad se využívá šablon, které jsou napl ovány z obsahu databáze. T etí generaci bude p edstavovat práv sémantický web, který bude podporovat nejenom vyhledávání, ale zasáhne i do dalších aplika ních oblastí. ě
ě
ř
č
ř
ě
ř
ů
č
ě
ř
ě
ř
ř
ň
ě
č
Možnosti sémantického webu Tv rce webu Tim Berners-Lee podtrhuje, že sémantický web není separátním webem, nýbrž je rozší ením webu sou asného.Sémantický web přiřazuje datům přesný význam umožňující spolupráci lidí a softwaru. Myslím, že není úpln od v ci p ipomenout si dnes již klasickou definici informa ního systému od B.C. Vickeryho. Podle Vickeryho totiž informa ní systém p edstavuje organizaci lidí, materiál a stroj , která má usnadnit transfer informace od jedné osoby k osob druhé.2 Budeme-li se na sémantický web dívat jako na jistý druh informa ního systému, pak m žeme vid t cestu od zd raz ování organizační a transferové složky až k podtrhování spolupráce. ů
ř
č
ř
ě
ě
č
č
ř
ů
ů
č
ě
ů
ů
ě
ň
ř
Dnes se web dynamicky vyvíjí zejména jako zprost edkovatel dokument pro lidského uživatele. Sémantický web se snaží naopak vyzdvihnout automatické zpracování dat a informací. ů
Podobn jako internet bude sémantický web co možná nejvíce decentralizovaný, což na druhou stranu bude vyžadovat ur ité kompromisy. Ostatn exponenciální nár st po tu webových stránek má také jisté nedostatky. Za všechny m žeme jmenovat nap íklad zprávu o chyb 404 (nenalezení stránky). ě
č
ů
ě
č
ř
ů
ě
ř
ř
Aby mohl sémantický web v bec fungovat, je t eba, aby po íta e m ly p ístup ke strukturovaným soubor m dat a odvozovací pravidla k provád ní automatické dedukce. Touto problematikou, která se asto ozna uje jako reprezentace znalostí, se již dlouho p ed vznikem myšlenky sémantického ů
ů
č
č
ě
ě
ř
č
č
1
Nap . [6] a [7]. An information system is an organization of people, materials and machines that serves to faciliate the transfer of information from one person to another. Viz Vickery, B.C. Information Systems. London: Butterworths 1973, s. 1. ř
2
iii
ř
ř
webu zabývali odborníci v oblasti um lé inteligence, p esto m žeme íci, že dnes se tato technologie nachází zhruba na podobném stupni vývoje jako hypertext p ed vznikem webu. ů
ě
ř
ř
Nyní se blíže podívejme na zachycování struktury dat. Nap íklad v jazyce HTML se tak d je prost ednictvím jednotlivých tag , i když ty ve skute nosti slouží zejména jako pokyn pro prohlíže e, který jim íká, jak mají daný text správn zformátovat. XML3 už umož uje definici nových tag podle konkrétní aplikace. V takovém p ípad se použitý slovník nejprve definuje prost ednictvím DTD4 nebo složit ji a p esn ji pomocí XML schématu. Jestliže se XML má používat jako vým nný formát, pak je nutná p edchozí dohoda obou stran na daném slovníku a významech. P esto i zde narážíme na problém, který si m žeme ilustrovat na následujícím p íklad : V kone ném d sledku totiž po íta stejn od sebe sémanticky neodliší kup íkladu nadpis t etí úrovn p edznamenaný tagem
v HTML a informaci o cen , která následuje po tagu ve vytvo ené aplikaci XML. ě
ř
ů
č
ř
č
ň
ě
ř
ů
ě
ř
ř
ě
ě
ř
ě
ř
ů
ř
ř
č
ě
ř
ů
č
č
ě
ř
ě
ě
ř
Pro vývoj sémantického webu krom zmi ovaného jazyka XML existuje ješt další technologie známá pod zkratkou RDF.5 Nejedná se o jazyk, ale o model pro reprezentaci dat o zdrojích na webu. Zatímco XML umož uje uživatel m vytvá et vlastní struktury dokument , ale ne íká nic o jejich významu, RDF umož uje zachycení významu, a to v podob trojic objekt-atribut-hodnota (subject – verb – object). Konkrétní věci (lidé, webové stránky nebo cokoliv jiného) mají vlastnosti (atributy, predikáty; nap íklad býti sestrou), které pak nabývají jistých hodnot (jiná osoba, jiná webová stránka). Objekt a hodnota jsou identifikovány pomocí URI.6 RDF trojice vytvá ejí pavu iny informací o souvisejících v cech. URI zajiš ují, že koncepty nejsou pouhými slovy v dokumentu, ale jsou provázány na unikátní definici, kterou si každý m že najít na webu. ň
ě
ě
ř
ň
ř
ů
ů
ň
ě
ř
ř
č
ť
ě
ů
ř
ř
Ovšem za t chto p edpoklad je stále možné (m žeme íci, že dokonce i pravd podobné), že nap íklad dv rozdílné databáze budou používat r zné identifikátory p íslušející stejnému konceptu. Proto je nutná t etí základní složka sémantického webu, a to jsou ontologie. ů
ě
ů
ě
ř
ř
ů
ě
ř
Ontologie jako páteř sémantického webu ř
O ontologiích se hovo í už více než desetiletí, sv d í o tom ostatn i datování nejpoužívan jší Gruberovy definice rokem 1993. S rozší eními provedenými pozd ji dalšími autory si definici m žeme uvést v tomto zn ní: Ontologie je formální, explicitní specifikace sdílené konceptualizace. Zde asi nezbude než využít principu kompozicionality významu a shluk významu cizích slov v tomto smyslu si vysv tlit po ástech. Konceptualizací budeme mít na mysli abstraktní model výseku reálného sv ta identifikující relevantní koncepty daného výseku. Adjektivum explicitní zd raz uje jednozna nost definice typu konceptu a podmínek jeho užití, formální odráží možnost strojového zpracování, sdílený pak poukazuje na zachycení konsensuálních znalostí (širší než znalosti jedince). ě
č
ě
ě
ř
ě
ů
ě
ě
č
ě
ů
ň
č
Ontologie mají obrovskou výhodu v tom, že jsou srozumitelné člověku a zároveň strojově zpracovatelné. Ontologie se nejčastěji rozdělují podle zdroje konceptualizace: ∗ generické ontologie (též ontologie vyššího řádu) – zachycování obecných zákonitostí ∗ doménové ontologie – ur eny pro specifickou v cnou oblast (nej ast jší) č
ě
3
č
ě
XML = Extensible Markup Language. DTD = Document Type Definition. 5 RDF = Resource Description Framework. 6 Nejb žn jším typem URI (URI = Universal Resource Identifier) je URL (Uniform Resource Locator). 4
ě
ě
iv
∗
ř
úlohové ontologie (též reprezentační ontologie i metaontologie) – zam eny na procesy odvozování ∗ aplikační ontologie – adaptovány na konkrétní aplikaci (nejspecifi t jší, zpravidla zahrnují doménovou i úlohovou ást) č
ě
č
ě
č
Podíváme-li se pro v tší názornost na ontologie z mírn knihovnického (a tedy z našeho pohledu tradi ního) hlediska, pak je m žeme srovnat s tezaury. Ontologie do jisté míry vycházejí z funkcí a ú elu tezaur , v podstatných rysech jdou však mnohem dále. P ehledné porovnání ontologií s tezaury uvádí následující tabulka: ě
ě
č
ů
ř
č
ů
TEZAURUS
ONTOLOGIE d raz na koncepty (pojmy)
d raz na termíny a vztahy mezi nimi v p irozeném jazyce vztahy: ů
ů
ř
ř
ř
ř
rozší ené a p esn jší možnosti vyjád ení vztah mezi jednotlivými koncepty, nap .:7 ů
ě
ř
ř
BT (nad azený deskriptor) ř
hypernyma a hyponyma (vztah mezi t ídami a specifickými instancemi)8
ř
NT (pod azený deskriptor)
meronyma a holonyma (vztah mezi ástí a celkem)9
RT (asociovaný termín)
č
UF (nedeskriptor, nepreferovaný termín) ř
kdokoliv m že p idat nový termín nebo druh vztahu terminologické pokrytí ur ité p edm tné oblasti vymezení vztah mezi jednotlivými termíny ů
ř
č
ě
ů
ř
ř
uspo ádání terminologie za použití stromové struktury (u ontologií však m že struktura tvo it i sí ) ů
ř
ť
ř
ř
Práv v tom, že ontologie se podobají tezaur m i nap íklad k ížovým odkaz m, se p ímo knihovnické komunit nabízí otázka, zda se rad ji nestát správci ontologií než správci sbírek... ů
ě
ě
č
ů
ě
Ontologie ur ené pro web se typicky skládají z taxonomie a ze souboru odvozovacích pravidel. Taxonomie definuje t ídy objekt a jejich vzájemné vztahy. T ídy, podt ídy a vztahy jsou velmi mocným nástrojem, protože díky nim m žeme vyjád it velké množství vztah mezi entitami. Vychází se i z toho, že podt ídy d dí vlastnosti t íd. č
ř
ř
ř
ů
ř
ů
ř
ů
ř
ě
Tvorba ontologie sestává z následujících kroků: 1. 2. 3. 4. 5. 6.
Stanovení rozsahu a cíle ontologie Identifikace entit specifických v dané domén Uspo ádání entit do hierarchie Definice entit Vlastnosti entit Identifikace vztah
ě
ř
ů
7
Následující p íklady vztah jsou použity nap . ve WordNetu (terminologická ontologie dostupná z http://www.cogsci.princeton.edu/~wn/). Zde se setkáváme mj. i se zvláštním termínem pro množiny synonym – synsety. Ješt up esn me, že WordNet není zcela istou ontologií, nicmén velmi dob e slouží jako prost edek zkoumání p irozeného jazyka. 8 Y je hypernymem X , jestliže X je druhem Y. X je hyponymem Y, jestližeX je druhem Y. P .: X je slon, Y je savec. 9 Y je holonymem X, jestliže X je ástí Y. X je meronymem Y, jestliže X je ástí Y. P .: X je obývací pokoj, Y je obytný d m. ř
ě
ř
ů
ř
č
ě
ř
ě
ř
ř
ř
č
č
ů
v
ř
ř
ř
7. Up esn ní a rozší ení ě
ř
ř
ř
P íklad ontologie zachycující typicky anglickou innost p ípravy aje je popsán (i s p íslušným grafickým doprovodem) v [3]. č
č
ř
Ontologie mohou v mnohém vylepšit fungování webu. V nejjednoduším p ípad se m že jednat nap . o p esnost vyhledávání10 – vyhledáva se m že zam it je na ty stránky odpovídající danému konceptu (a nikoli dvojzna ným nebo dokonce vícezna ným klí ovým slov m). ů
ě
ř
ř
ř
č
ů
ě
č
č
č
ů
Flexibilita sémantického webu mimo jiné umožní i zjednodušení využívání služeb, které pouze áste n spl ují uživatelem zadané požadavky. Praktické aplikace flexibility sémantického webu se p ímo nabízejí – nap íklad elektronický obchod. Zákazník a producent (resp. spíše prodejce) si mohou lépe porozum t, vym ní-li si ontologie, které ob ma poskytnou slovník nutný k diskusi. č
č
ň
ě
ř
ř
ě
ě
ě
Vyhledávání informací Tradi ní systémy reprezentace znalostí se vyzna ují centralizovaností a požadují po všech zú astn ných sdílení p esných definic spole ných koncept . Dále je pro n typické zna né omezování škály kladených otázek pouze na ty, které je po íta schopen spolehliv zodpov d t. Tradi ní systémy také v tšinou mají vlastní soubor odvozovacích pravidel použitelných pouze pro data v konkrétním systému. č
č
ř
č
č
ě
ů
č
č
č
ě
č
ě
ě
ě
ě
Sémantický web by nem l být tímto sm rem omezován, po ítá se i s nezodpov ditelnými otázkami, které jsou daní za víceú elovost (versatility). Tato filozofie je ostatn podobná filozofii konven ního webu, který se nikdy nestane dob e uspo ádanou knihovnou. Bez centrální databáze a stromové struktury je tém zaru eno, že ne vše je zp tn dohledatelné. ě
č
ě
ě
č
ě
ř
ř
č
ř
č
ě
ě
ě
Sou asné služby pro vyhledávání informací na webu lze rozd lit na dva druhy: ∗ vyhledávací stroje s roboty (charakteristickým rysem je vyšší úplnost a nižší p esnost) ∗ vyhledávací služby s asistencí lov ka (typická je naopak vyšší p esnost a nižší úplnost) č
ě
ř
ř
č
ě
ř
ř
Sémantický web p idá smysluplnému obsahu webových stránek strukturu, ímž dojde k vytvo ení prost edí, v n mž se budou moci tzv. softwaroví agenti pohybovat ze stránky na stránku a p itom vykonávat sofistikované úkoly zadané uživatelem. č
ř
ř
ě
ř
Díky ontologiím bude zjednodušen vývoj program na ešení komplexních otázek, na které nelze odpov d t pouze díky informacím na jedné stránce, ale kde je t eba navštívit stránek n kolik. V tomto ohledu je t eba dodat, že vyvstává otázka spolehlivosti, d v ryhodnosti použitých zdroj . Ke slovu p ijdou elektronické podpisy prokazující, že danou informaci poskytl d v ryhodný zdroj. ů
ř
ě
ě
ě
ř
ů
ů
ě
ř
ů
ě
Shr me, že na sémantickém webu by proto m lo být možno efektivn ji vyhledávat nejenom informace (identifikace relevantních dokument a jejich azení), ale také jednoduché i komplexní odpovědi na otázky (nap . Kdo je britským premiérem? a Jaká je současná situace v Británii?). Je z ejmé, že u komplexních odpov dích jsou navíc zapot ebí techniky extrakce a sumarizace informací. ň
ě
ě
ř
ů
ř
ř
ř
ě
Dodejme ješt , že se zde setkáváme s pojmem hodnotového řetězce – v rámci n ho dochází sestavování díl ích informací (jako sou ástí odpov di na otázku), které si mezi sebou vym ují jednotliví agenti, p i emž každý z nich p idává hodnotu. Kone ným výsledkem je pak odpov uživateli. Tímto zp sobem se také sníží množství dat putujících po sítích. ě
ě
č
č
ř
ě
č
ů
10
ě
ň
ř
č
Podrobn ji k tématu viz následující kapitola. ě
vi
ě
ď
Zamyšlení na závěr ř
Dalším krokem následujícím po uplatn ní sémantického webu ve virtuálním prost edí bude jeho extenze do reálného, fyzického sv ta. URI budou pak moci ozna ovat nap íklad fyzické entity. Díky RDF bude možné popsat nejr zn jší za ízení od mobilních telefon až t eba po televizní p ijíma e. ě
ř
č
ě
ř
ů
ř
ů
ě
ř
č
RDF schéma jako takové ovšem bylo navženo jako minimalistický jazyk. Další vrstvou je proto ješt jazyk DAML+OIL (DARPA Agent Markup Language + Ontology Inference Layer). Pod záštitou konsorcia W3C je dále vyvíjen další jazyk, který nese název OWL (Ontology Web Language). ě
Trochu sou asn jší otázkou pak je, zda by se sémantický web m l prosazovat cestou evolu ní nebo spíše revolu ní. První možnost asi bude p ijateln jší – plynulý p echod od sou asného k sémantickému webu má být realizován pomocí systematické tvorby a vkládání metadat.V každém p ípad sémantický web ve svém d sledku m že velmi napomoci celkovému rozvoji lidského poznání. č
ě
ř
č
ě
ř
ě
č
ě
ř
č
ů
ů
vii
Použitá literatura [1] BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The Semantic Web : A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. Scientific American. May 17, 2001. [cit. 2003-11-06]. Dostupný z www: [2] BRATKOVÁ, Eva. Metadata jako nový nástroj pro komunikaci webovských informa ních zdroj . Národní knihovna. Knihovnická revue. 1999, . 4, s. 178-195. Dostupný též z www: . ISSN 08627487. č
ů
č
[3] CROFTS, Nicholas; LE BŒUF, Patrick; ODILE, Artur. Ontologies. Semantic Web and Libraries (26th Library Systems Seminar) 2002. [2003-10-02]. Dostupný z www: . [4] HOPPENBROUWERS, Jeroen. Semantic Modeling. ELAG 2003. [cit. 2003-10-01]. Dostupné z www: . ř
[5] SVOBODA, Martin. Zpráva z cesty na seminá ELAG 2003. Ikaros [online]. 2003, . 08 [cit. 2003-08-01]. Dostupný z www: . ISSN 1212-5075. č
[6] SKLENÁK, Vilém. Sémantický web. Inforum 2003. [cit. 2003-11-01]. Dostupný z www: . ř
[7] SKLENÁK, Vilém. Vyhledávací nástroje v prost edí Internetu – co bude dál? Automatizace knihovnických procesů 2003. [cit. 2003-10-20]. Dostupný z www: . [8] SVÁTEK, Vojt ch. Ontologie a WWW. Datakon 2002. [cit. 2003-10-22]. Dostupný z www: . ě
[9] http://www.semanticweb.org ř
[10] http://www.w3.org/, zejména http://www.w3.org/2001/sw/ ( ást v novaná p ímo tématice sémantického webu) č
viii
ě