Doktorandsk´e dny ’07
´ Ustav informatiky ˇ Akademie vˇed Cesk´ e republiky v.v.i.
´ Mal´a Upa 17.– 19. z´arˇ´ı 2007
´ ı fakulty vydavatelstv´ı Matematicko-fyzikaln´ University Karlovy v Praze
ˇ v.v.i., Pod Vodarenskou ´ ´ ˇ z´ı 2, 182 07 Praha 8 Ustav Informatiky AV CR veˇ
´ vyhrazena. Tato publikace ani zˇ adn ´ a´ jej´ı cˇ ast ´ nesm´ı b´yt reprodukovana ´ Vˇsechna prava ´ e´ forme, ˇ elektronicke´ nebo mechanicke, ´ vˇcetneˇ fotokopi´ı, bez p´ısemneho ´ nebo sˇ ´ıˇrena v zˇ adn souhlasu vydavatele.
ˇ v.v.i.,2007 ´ c Ustav ° Informatiky AV CR c MATFYZPRESS, vydavatelstv´ı Matematicko-fyzikaln´ ´ ı fakulty ° University Karlovy v Praze 2007 ISBN – not yet –
Obsah Pavel Tyl:
Problematika integrace ontologi´ı
1
Pavel Tyl
Problematika integrace ontologi´ı
Problematika integrace ontologi´ı sˇkolitel:
doktorand:
´ I NG . J ULIUS Sˇ TULLER , CS C .
I NG . PAVEL T YL ˇ v. v. i. ´ Ustav informatiky AV CR Pod Vod´arenskou vˇezˇ´ı 2 182 07 Praha 8
ˇ v. v. i. ´ Ustav informatiky AV CR Pod Vod´arenskou vˇezˇ´ı 2
Fakulta mechatroniky Technick´a univerzita Liberec H´alkova 6 461 17 Liberec 1
182 07 Praha 8
[email protected]
[email protected] obor studia:
Technick´a kybernetika ˇ ´ byla cˇ asteˇ ´ cneˇ podpoˇrena v´yzkumn´ym centrem 1M0554 Ministerstva sˇ kolstv´ı, mladeˇ ´ ze a telov´ ˇ ychovy Cesk Prace e´ republiky: Pokroˇcile´ sanaˇcn´ı technologie a procesy, projektem 1ET100300419 programu Informaˇcn´ı spoleˇcnost ˇ Inteligentn´ı modely, algoritmy, metody a nastroje ´ ´ ´ ´ (Tematick eho programu II – Narodn´ ıho programu v´yzkumu v CR: ´ ren´ı semantick ´ ´ ´ erem ˇ pro vytvaˇ eho webu) a v´yzkumn´ym zam AV0Z10300504 ”Computer Science for the Information Society: Models, Algorithms, Applications”.
Abstrakt Internet je ohromn´ym zdrojem prov´azan´ych, ale vˇetˇsinou neuspoˇra´ dan´ych dat. S´emantick´y web, jako rozˇs´ırˇen´ı webu souˇcasn´eho, se snaˇz´ı tuto neuspoˇra´ danost ˇreˇsit a to nejen bezprostˇrednˇe pro lidsk´eho uˇzivatele, ale zejm´ena z hlediska moˇznosti strojov´eho zpracov´an´ı informac´ı. C´ılem je doplnit data o metadata, kter´a maj´ı b´yt srozumiteln´a jak pro cˇ lovˇeka, tak pro poˇc´ıtaˇc. Tato metadata jsou nejˇcastˇeji vyj´adˇrena pomoc´ı ontologi´ı, kter´e jsou jedn´ım ze z´akladn´ıch stavebn´ıch prvk˚u s´emantick´eho webu. V pˇr´ıspˇevku se snaˇz´ım nast´ınit nˇekter´e z moˇznost´ı integrace (sluˇcov´an´ı) ontologi´ı za u´ cˇ elem sd´ılen´ı informac´ı.
´ 1. Uvod
kter´y m´a usnadnit cestu informace od jedn´e osoby ke druh´e. Dnes se web dynamicky vyv´ıj´ı zejm´ena jako zprostˇredkovatel dokument˚u pro lidsk´eho uˇzivatele. S´emantick´y web se snaˇz´ı naopak vyzdvihnout automatick´e zpracov´an´ı dat a informac´ı pomoc´ı poˇc´ıtaˇcu˚ a umoˇznit tak provoz inteligentn´ıch sluˇzeb. Aby mohl s´emantick´y web v˚ubec fungovat, je tˇreba, aby poˇc´ıtaˇce mˇely pˇr´ıstup ke strukturovan´ym soubor˚um dat a z´aroveˇn srozumiteln´a pravidla k prov´adˇen´ı automatick´ych operac´ı s tˇemito daty [1]. Na obr´azku 1 je naznaˇcena struktura s´emantick´eho webu.
Internet je pozoruhodn´ym informaˇcn´ım zdrojem. Svoboda, rozˇs´ıˇrenost a t´emˇeˇr vˇsudypˇr´ıtomnost Internetu je ale zaplacena neuspoˇra´ danost´ı vˇetˇsiny z nˇeho dostupn´ych informac´ı, kter´e jsou nav´ıc velmi cˇ asto bez logick´ych n´avaznost´ı a vztah˚u. Hledan´e konkr´etn´ı informace n´am tak mnohdy z˚ustanou skryty. Bez potˇrebn´e prov´azanosti z˚ustanou informace skrze sv´a podp˚urn´a data obt´ızˇ nˇe vyhledateln´e i pro stroje, kter´e by jinak byly schopny nalezen´e v´ysledky d´ale zpracov´avat pro r˚uzn´e skupiny uˇzivatel˚u. Pokud by data na webu byla rozˇs´ıˇrena o jejich v´yznam, otevˇrelo by to sˇirok´e moˇznosti pˇri jejich sd´ılen´ı, vyhled´av´an´ı a znovupouˇzit´ı. Tuto myˇslenku se snaˇz´ı rozv´ıjet vize s´emantick´eho webu [I4].
Vˇerohodnost Pravidla (logika) Ontologie (RDFS, OWL, ...) RDF
2. S´emantick´y web
XML (Namespace, Schema, Query) Tv˚urce webu Tim Berners-Lee rˇ´ık´a, zˇ e s´emantick´y web nen´ı separ´atn´ım webem, n´ybrˇz je rozˇs´ıˇren´ım webu souˇcasn´eho. S´emantick´y web pˇriˇrazuje dat˚um na webu pˇresn´y v´yznam umoˇznˇ uj´ıc´ı spolupr´aci lid´ı a softwaru [2]. V tomto ohledu se chov´a jako informaˇcn´ı syst´em,
PhD Conference ’07
URI/IRI, Unicode Obr´azek 1: Vrstvy s´emantick´eho webu
1
ICS Prague
Pavel Tyl
Problematika integrace ontologi´ı
Jak je vidˇet, tak pro v´yvoj s´emantick´eho webu jsou d˚uleˇzit´e mnoh´e technologie. Pod zkratkou RDF [I2] si m˚uzˇ eme pˇredstavit model pro reprezentaci dat uloˇzen´ych v jednotliv´ych zdroj´ıch na webu. Zat´ımco XML [I5] umoˇznˇ uje uˇzivatel˚um vytv´aˇret vlastn´ı struktury dokument˚u, ale neˇr´ık´a nic o jejich v´yznamu, RDF umoˇznˇ uje zachycen´ı v´yznamu, a to v podobˇe trojic objekt–atribut–hodnota (podmˇet–pˇr´ısudek–pˇredmˇet). Konkr´etn´ı vˇeci (lid´e, webov´e str´anky, tabulky nebo cokoliv jin´eho) maj´ı urˇcit´e vlastnosti (atributy, predik´aty – napˇr´ıklad b´yt synem), kter´e pak nab´yvaj´ı jist´ych hodnot (jin´a osoba, jin´a webov´a str´anka atd.). Objekt, atribut i hodnota mohou b´yt identifikov´any pomoc´ı URI cˇ i IRI (Internationalized Resource Identifier – URI s moˇznost´ı pouˇzit´ı libovoln´eho k´odov´an´ı, napˇr. cˇ esk´eho). RDF trojice vytv´aˇrej´ı pavuˇciny informac´ı o souvisej´ıc´ıch vˇecech. URI umoˇznˇ uj´ı, zˇ e koncepty nemusej´ı b´yt pouh´ymi slovy v dokumentu, ale mohou b´yt prov´az´any na unik´atn´ı definici, kterou si kaˇzd´y m˚uzˇ e na webu naj´ıt. Na webu nejˇcastˇeji pouˇz´ıvan´a forma z´apisu RDF je pomoc´ı XML [4]. Za tˇechto pˇredpoklad˚u je ovˇsem st´ale moˇzn´e, zˇ e napˇr´ıklad dvˇe rozd´ıln´e webov´e datab´aze budou pouˇz´ıvat r˚uzn´e identifik´atory pˇr´ısluˇsej´ıc´ı stejn´emu konceptu. Proto je nutn´y dalˇs´ı ze z´akladn´ıch kamen˚u s´emantick´eho webu, konkr´etnˇe ontologie.
3.2. Klasifikace ontologi´ı Ontologie lze obecnˇe rozdˇelovat podle r˚uzn´ych krit´eri´ı. Prvn´ı z moˇznost´ı je rozdˇelit veˇsker´e ontologie do dvou skupin, ontologie popsan´e form´aln´ım jazykem a ontologie v pˇrirozen´em jazyce [5]. A protoˇze samotn´y pˇrirozen´y jazyk poskytuje mnoho r˚uzn´ych prostˇredk˚u konceptualizace, je zpracov´an´ı ontologi´ı popsan´ych pˇrirozen´ym jazykem sloˇzit´e a prov´ad´ı se vˇetˇsinou na lingvistick´e u´ rovni nebo se pˇrev´ad´ı na jin´y (jednoduˇssˇ´ı) typ. Druhou a nejˇcastˇeji pouˇz´ıvanou moˇznost´ı je dˇelit ontologie podle zdroje konceptualizace (viz obr´azek 2): • generick´e ontologie (ontologie vyˇssˇ´ıho rˇ a´ du) -– zachycov´an´ı obecn´ych z´akonitost´ı, (mohou slouˇzit tak´e jako prostˇredek pro spojen´ı jednotliv´ych dom´enovˇe specifick´ych ontologi´ı a tak pomoci k jejich sˇirˇs´ı integraci), • dom´enov´e ontologie (dom´enovˇe specifick´e ontologie) — urˇceny pro specifickou vˇecnou oblast (nejˇcastˇejˇs´ı; napˇr. pro oblast sportu, hudby atd.), ´ • ulohov´ e ontologie (reprezentaˇcn´ı ontologie cˇ i metaontologie) — zamˇeˇreny na procesy odvozov´an´ı, • aplikaˇcn´ı ontologie — adaptov´any na konkr´etn´ı aplikaci, (nejspecifiˇctˇejˇs´ı; zpravidla zahrnuj´ı dom´enovou i u´ lohovou cˇ a´ st).
3. Ontologie Podle jedn´e z definic je ontologie form´aln´ı specifikace sd´ılen´e konceptualizace. Konceptualizac´ı je myˇslen abstraktn´ı model v´yseku re´aln´eho svˇeta, kter´y popisuje relevantn´ı koncepty dan´eho v´yseku. Slova form´aln´ı a sd´ılen´e maj´ı d˚uleˇzit´y v´yznam ke (znovu-)pouˇzitelnosti ontologi´ı, protoˇze z´akladn´ım pˇredpokladem jejich opakovan´e (poˇc´ıtaˇcov´e) pouˇzitelnosti je jejich form´aln´ı vyj´adˇritelnost a moˇznost jejich sd´ılen´ı; pokud by kteroukoli z tˇechto dvou vlastnost´ı postr´adaly, byly by zˇrejmˇe k niˇcemu. Ontologie je tedy urˇcit´ym syst´emem zachycen´ı reality, kter´y je znovupouˇziteln´y a je moˇzn´e ho sd´ılet.
generick´e ontologie µ
I
dom´enov´e ontologie I
metaontologie µ
aplikaˇcn´ı ontologie Obr´azek 2: Druhy ontologi´ı a jejich vztahy z pohledu konceptualizace
V dalˇs´ım textu se pod pojmem ontologie uvaˇzuj´ı zejm´ena aplikaˇcn´ı a dom´enov´e ontologie.
3.1. Meta model ontologie
3.3. Jazyk ontologi´ı
Pod t´ımto pojmem si m˚uzˇ eme pˇredstavit popisn´e a odvozovac´ı schopnosti modelu. Jde o form´aln´ı definice toho, co ontologie m˚uzˇ e obsahovat, co jsou uzly, co vazby, jak´e typy vztah˚u pˇripouˇst´ı, jak je moˇzn´e specifikovat pravidla a funkce apod. Kaˇzd´a ontologie m´a sv˚uj model, v´ıce ontologi´ı ale m˚uzˇ e b´yt vystavˇeno podle stejn´eho meta modelu.
Jedn´a se o jazyk, kter´y se pouˇz´ıv´a pro reprezentaci ontologi´ı. Nejˇcastˇeji pouˇz´ıvan´ymi jazyky jsou RDFS [I3] a OWL [I1]. Jazyk ontologi´ı pro s´emantick´y web se skl´ad´a ze dvou cˇ a´ st´ı, logick´e a mimologick´e. Logick´a cˇ a´ st se obvykle skl´ad´a z axiom˚u pro definici tˇr´ıd, vlastnost´ı, instanc´ı atd. Prvky mimologick´e cˇ a´ sti jsou vˇetˇsinou vlastnosti, kter´e se net´ykaj´ı funkˇcnosti
PhD Conference ’07
2
ICS Prague
Pavel Tyl
Problematika integrace ontologi´ı
Je potˇreba rozliˇsovat nˇekolik operac´ı cˇ i cˇ innost´ı, kter´e je moˇzn´e s ontologiemi prov´adˇet:
(jm´eno autora, datum vytvoˇren´ı, koment´arˇe, ale i deklaraci jmenn´ych prostor˚u cˇ i import dalˇs´ıch ontologi´ı). Mimologick´a cˇ a´ st je urˇcena pˇredevˇs´ım pro lidi, pˇrestoˇze mnoˇzstv´ı v´ysˇe uveden´ych vlastnost´ı je strojovˇe zpracovateln´e (pˇr´ıkladem jsou jmenn´e prostory nebo import ontologi´ı: ten m˚uzˇ e b´yt proveden bud’ pomoc´ı pˇrid´an´ı logick´e cˇ a´ sti importovan´e ontologie do logick´e cˇ a´ sti ontologie, do n´ızˇ importujeme, vytvoˇr´ıme tak jeden logick´y popis, nebo pouˇzit´ım jak´ehosi prostˇredn´ıka, kter´y ˇreˇs´ı nestejnorodost dvou ontologi´ı).
Transformace ontologi´ı M˚uzˇ e b´yt dvoj´ıho druhu: • meziform´atov´a – mezi jazyky pro zachycen´ı ontologi´ı (RDF → OIL), • s´emantick´a – zmˇena vnitˇrn´ı struktury podle jin´eho metamodelu nebo pro jin´e pouˇzit´ı.
3.4. Vyuˇzit´ı ontologi´ı
V´yvoj ontologi´ı V´yvojem ontologi´ı mysl´ıme jejich u´ drˇzbu, doplˇnov´an´ı nov´ych koncept˚u, slad’ov´an´ı se souˇcasn´ymi poznatky o dom´enˇe nebo o ontologi´ıch.
Agregace, integrace, unifikace Jak jiˇz bylo zm´ınˇeno, Internet je prostoupen informacemi ve vˇsemoˇzn´e podobˇe, struktuˇre a kvalitˇe. Ontologie by mohly b´yt prostˇredkem propojen´ı a n´asledn´e agregace takov´ych heterogenn´ıch zdroj˚u. Datab´aze, kter´e obsahuj´ı cenn´a data, by mohly slouˇzit jeˇstˇe mnohem l´epe v integrovan´em celku. Ontologie by se mohly st´at j´adrem syst´emu, prostˇredkem pro kompozici nez´avisl´ych webov´ych sluˇzeb.
Spojov´an´ı ontologi´ı (Ontology Merging) V´ysledkem t´eto operace je jedna nov´a ontologie, kter´a zahrnuje informace ze dvou cˇ i v´ıce ontologi´ı. Integrovan´a ontologie je jiˇz nez´avisl´a na ontologi´ıch p˚uvodn´ıch, kter´e v podstatˇe nahrad´ı. Integrace ontologi´ı (Ontology Alignment) Integrace ontologi´ı m´a v´yznam pˇredevˇs´ım tam, kde se oˇcek´av´a budouc´ı rozvoj a u´ drˇzba spojovan´ych ontologi´ı. V´ıce se zde zaj´ım´ame o dvojice ontologi´ı, kter´e se urˇcit´ym zp˚usobem pˇrekr´yvaj´ı, a kdy spolu nˇekter´e jejich elementy v´ıce cˇ i m´enˇe souvisej´ı. V´ysledkem integrace dvou ontologi´ı A a B jsou st´ale dvˇe ontologie (nov´e), ale s definovan´ymi spoleˇcn´ymi m´ısty a pˇresahuj´ıc´ımi vztahy, jak ukazuje obr´azek 3. Snahou je, aby nesouvisej´ıc´ı elementy byly ponech´any stranou tak, aby nedoˇslo k poruˇsen´ı struktury ontologi´ı.
Sn´ızˇ en´ı redundance Pˇrestoˇze jiˇz mnohokr´at vytvoˇren´e, nashrom´azˇ dˇen´e, zpracovan´e, ovˇeˇren´e a porovnan´e informace jsou znovu a znovu vytv´aˇreny, shromaˇzd’ov´any, zpracov´av´any, ..., zvyˇsuje se jejich redundance, kter´a m˚uzˇ e v´est aˇz k nekonzistenci, kdyˇz si duplikovan´a data vz´ajemnˇe protiˇreˇc´ı. S pouˇzit´ım ontologi´ı by mohla b´yt data m´ısto duplikace sd´ılena, a tak by redundance i nekonzistence mohla klesnout, mohla by b´yt l´epe kontrolov´ana cˇ i u´ plnˇe eliminov´ana. Znovupouˇzit´ı Konceptualizovan´a data je mnohem snaˇzsˇ´ı pouˇz´ıt, a to i v´ıcekr´at a r˚uzn´ymi zp˚usoby. 4. Integrace ontologi´ı
B
Existuj´ıc´ı ontologie se hod´ı jako zdroje znalost´ı pro vytv´aˇren´ı ontologi´ı nov´ych: ontologie mohou b´yt pˇrev´adˇeny a sluˇcov´any tak, aby k nim bylo moˇzn´e pˇristupovat jako k jednomu vˇetˇs´ımu celku. V´ysledkem je nov´a ontologie. Se syst´emy a daty integrovan´ymi pomoc´ı ontologi´ı se zv´ysˇ´ı moˇznosti interoperability. Souˇcasn´ym aplikac´ım sch´az´ı pˇredevˇs´ım moˇznost budovat z nich kompaktn´ı celky a poskytovat spoleˇcnˇe realizovan´e sluˇzby pro uˇzivatele. Slovo kompaktn´ı v tomto pˇr´ıpadˇe neznamen´a monolitick´e, ale sp´ısˇe poskl´adan´e z mnoha nez´avisl´ych komponent, kter´e jsou pˇrekryty jednot´ıc´ı vrstvou.
PhD Conference ’07
A
Obr´azek 3: Graficky zn´azornˇen´a integrace ontologi´ı
3
ICS Prague
Pavel Tyl
Problematika integrace ontologi´ı
5. Metody rˇ eˇsen´ı srovn´an´ı ontologi´ı
Zde je moˇzn´e rozliˇsit dva typy situac´ı, jak odliˇsit dvojice ontologi´ı:
Pˇredpokl´adejme, zˇ e m´ame dvˇe ontologie, z nichˇz kaˇzd´a se skl´ad´a z mnoˇziny entit (element˚u, relac´ı, tˇr´ıd, vlastnost´ı atd.). Ty jsou v tomto pˇr´ıpadˇe vstupem pro srovn´an´ı. V´ystupem pak budou vztahy (ekvivalence, subsumpce, neboli podˇrazen´ı, disjunktnost atd.). Pro zjednoduˇsen´ı m˚uzˇ eme srovn´an´ı ontologi´ı pˇrirovnat ke srovn´an´ı XML sch´emat, jak ukazuje obr´azek 4.
• kaˇzd´a z ontologi´ı popisuje odliˇsnou dom´enu – tyto ontologie mohou b´yt spojeny do jedn´e ”superontologie” pˇres spoleˇcn´e cˇ a´ sti, jsou-li takov´e, nebo pˇres nˇejakou obecnˇejˇs´ı ontologii [6]. • obˇe ontologie popisuj´ı stejnou dom´enu, ale z r˚uzn´ych u´ hl˚u pohledu nebo r˚uzn´ymi prostˇredky – v tomto pˇr´ıpadˇe mus´ı b´yt provedeno srovn´an´ı ontologi´ı za u´ cˇ elem vytvoˇren´ı pˇrekryt´ı odliˇsnost´ı ontologi´ı.
Elektronika ¾ Elektronika Osobn´ı poˇc´ıtaˇce ¾ PC Procesory Z´akladn´ı desky V´yrobce N´azev Typ PID Cena Cena Pˇr´ısluˇsenstv´ı Kamery a foto 1 ¾ Foto a kamery ) Pˇr´ısluˇsenstv´ı V´yrobce Digit´aln´ı kamery q Typ N´azev Cena ¾ PID q Cena
Srovn´an´ım ontologi´ı (Ontology Matching) se naz´yv´a proces nach´azen´ı podobnost´ı mezi dvˇema zdrojov´ymi ontologiemi. V´ysledkem je specifikace tˇechto podobnost´ı, kter´a slouˇz´ı jako vstup tzv. mapov´an´ı (viz n´ızˇ e). Srovn´an´ı ontologi´ı je vˇenov´ana samostatn´a cˇ a´ st 5. Mapov´an´ı ontologi´ı (Ontology Mapping) je deklarativn´ı specifikac´ı s´emantick´eho pˇrekryt´ı mezi dvˇema ontologiemi O a O0 . Shody mezi odliˇsn´ymi entitami jsou typicky vyj´adˇreny pouˇzit´ım axiom˚u formulovan´ych v ”mapovac´ım” jazyce (jazyk k reprezentaci mapov´an´ı ontologi´ı). Mapov´an´ı m˚uzˇ e b´yt jednosmˇern´e (specifikuje, jak termy z jedn´e ontologie mohou b´yt vyj´adˇreny pouˇzit´ım term˚u ontologie druh´e) cˇ i obousmˇern´e (funguje obˇema smˇery).
Ekvivalence ¾ Zobecnˇen´ı Disjunktnost
Obr´azek 4: Uk´azka moˇzn´eho srovn´an´ı dvou XML sch´emat Obr´azek 4 ukazuje moˇzn´e vztahy srovn´an´ı dvou XML sch´emat. Od srovn´an´ı ontologi´ı se vˇsak v nˇekter´ych aspektech odliˇsuje. Sch´emata cˇ asto neposkytuj´ı explicitn´ı s´emantiku pro sv´a data. Ontologie, jako logick´e syst´emy, se omezuj´ı na v´yznam. Ontologick´e definice jsou mnoˇziny (logick´ych) axiom˚u. Ontologie a sch´emata maj´ı ale i spoleˇcn´e rysy. Oboje maj´ı sv´e slovn´ıky pojm˚u, kter´e popisuj´ı oblast z´ajmu (dom´enu) a oboje z´aroveˇn vymezuj´ı v´yznam tˇechto pojm˚u. Nestejnorodost sch´emat cˇ i ontologi´ı se redukuje ve dvou z´akladn´ıch kroc´ıch: 1. vymezen´ı (viz obr´azek 4), 2. zpracov´an´ı (transformace, spojen´ı, ...). M´ame-li dvˇe ontologie (sch´emata) O a O0 , je srovn´an´ım mezi O a O0 mnoˇzina odpov´ıdaj´ıc´ıch si prvk˚u, trojic he, e0 , ri, kde e ∈ O a e0 ∈ O0 a r je vztah mezi e a e0 (ekvivalence, zobecnˇen´ı, disjunktnost). Na obr´azku 5 je zobrazeno rozdˇelen´ı metod pro srovn´an´ı na z´akladˇe sch´ematu. Jednotliv´e metody vyˇzaduj´ı alespoˇn struˇcn´y popis:
Integrace ontologi´ı specifikuje, jak spolu ontologie souvis´ı v logick´em smyslu. To znamen´a, zˇ e se p˚uvodn´ı ontologie nezmˇen´ı, ale vzniknou dalˇs´ı axiomy popisuj´ıc´ı vztahy mezi jejich koncepty. Ponech´an´ı p˚uvodn´ıch ontologi´ı v nezmˇenˇen´e podobˇe vˇetˇsinou znamen´a, zˇ e lze zintegrovat ontologie pouze cˇ a´ steˇcnˇe, nebot’ hlavn´ı odliˇsnosti by vedly k nutn´e u´ pravˇe vstupn´ıch ontologi´ı. Integrace ontologi´ı je tedy urˇcit´ym zobecnˇen´ım mapov´an´ı – dvˇe ontologie mohou b´yt zintegrov´any pomoc´ı mapov´an´ı [6]. 4.1. Probl´emy pˇri integrac´ı ontologi´ı Probl´emy mohou nastat v mnoha pˇr´ıpadech. Tˇreba v tom, zˇ e tv˚urci ontologi´ı neuvaˇzuj´ı stejnˇe a vz´ajemnˇe si leckdy neporozum´ı. Jedna ontologie m˚uzˇ e napˇr´ıklad reprezentovat cˇ ervenou barvu jako vztah, druh´a jako hodnotu. Pˇritom zvolen´a reprezentace je v r´amci ontologie vˇzdy spr´avn´a a pravdiv´a -– spr´avn´a je z definice, nebot’ jde o definici. Dalˇs´ı pot´ızˇ e jsou na jazykov´e u´ rovni. To m˚uzˇ e komplikovat proces automatick´e integrace, protoˇze je sloˇzit´e zjistit, zda jsou dva uzly (pod´ıv´ame-li se na ontologii jako na graf) stejn´e, podobn´e nebo zcela odliˇsn´e [3].
PhD Conference ’07
-
• Metody zaloˇzen´e na rˇ etˇezci – Pracuj´ı s pˇredponami (resp. pˇr´ıponami) slov, kdy jsou vstupem dva ˇretˇezce a kontroluje se, zda prvn´ı ˇretˇezec zaˇc´ın´a (resp. konˇc´ı) druh´ym ˇretˇezcem. Napˇr.: hotel → hot
4
ICS Prague
Pavel Tyl
Problematika integrace ontologi´ı
Vrstva nespojistosti / vstupn´ı interpretace
9 Na u´ rovni elementu ) Syntaktick´e =
Zaloˇzen´e na ˇretˇezci - Podobnost jmen - Podobnost popisu - Glob´aln´ı jmenn´e prostory
I
q Extern´ı )
?
z Na u´ rovni struktury
Zaloˇzen´e Lingvistick´e na zprac. prostˇredky pˇrirozen´eho - Lexikony - Tezaury jazyka - Tokenizace - Lemmatizace - Morfologick´a anal´yza - Eliminace
q
Zaloˇzen´e na omezen´ı - Typ podobnosti - Kl´ıcˇ ov´e vlastnosti
?
~
Opˇetovn´e pouˇzit´ı srovn´an´ı
Zaloˇzen´e na logice (vrchn´ı u´ roveˇn ontologi´ı)
- Kompletn´ı sch´ema/ontologie - Fragmenty
- Napˇr. ontologie SUMO, DOLCE
I
6
i
]
? Extern´ı
) Syntaktick´e
I
?
Zaloˇzen´e na grafu - Srovn´av´an´ı graf˚u - Cesty - Potomci - Listy
K
~
Zaloˇzen´e na taxonomii - Taxonomick´e struktury
q S´emantick´e
U
Skladiˇstˇe struktur - Metadata struktur
*
¸
?
Zaloˇzen´e na modelu - V´yrokov´e odvozov´an´ı - Zaloˇzeno na deskripˇcn´ı logice
*
Vrstva z´akladn´ıch technik
Lingvistick´e µ Terminologick´ ye
Intern´ı i
Relaˇcn´ı : Strukturn´ı 6
S´emantick´e 1 Vrstva druh˚u vstupu
Obr´azek 5: Klasifikace metod srovn´an´ı ontologi´ı na z´akladˇe sch´emat [7] jiˇz m´ame srovn´an´ı mezi O a O0 a z´aroveˇn O a O00 , vyuˇzijeme ho.
D´ale je moˇzn´e urˇcovat poˇcet stejn´ych N-gram˚u (poˇcet N-tic p´ısmen, kter´e maj´ı dva ˇretˇezce spoleˇcn´e) cˇ i vzd´alenost dvou ˇretˇezc˚u. Napˇr.: Nokia versus Nka.
• Metody zaloˇzen´e na taxonomii — Na sch´emata/ontologie se d´ıv´ame jako na grafy obsahuj´ıc´ı termy a vztahy mezi nimi. Napˇr´ıklad pokud se shoduj´ı koncepty vyˇssˇ´ı u´ rovnˇe, aktu´aln´ı koncepty se podobaj´ı.
• Metody zaloˇzen´e na zpracov´an´ı pˇrirozen´eho jazyka — Vyuˇz´ıvaj´ı anal´yzy pˇrirozen´eho jazyka. Tokenizace je rozdˇelen´ı textu na jednotliv´e slovn´ı tvary (tokeny). Napˇr.: foto-apar´at. Lemmatizace je anal´yza token˚u pro zjiˇstˇen´ı vˇsech z´akladn´ıch forem slov. Eliminac´ı odstran´ıme ”bezv´yznamn´a” slova.
• Metody zaloˇzen´e na grafu — Elementy dvou nelistov´ych sch´emat jsou strukturou podobn´e, pokud jsou mnoˇziny pˇr´ım´ych potomk˚u podobn´e nebo pokud jsou podobn´e jejich listov´e mnoˇziny, i kdyˇz mnoˇziny jejich pˇr´ım´ych potomk˚u nejsou. Jestliˇze dva uzly dvou sch´emat/ontologi´ı jsou podobn´e, jejich sourozenci mohou b´yt rovnˇezˇ podobn´ı.
• Lingvistick´e prostˇredky — Zab´yvaj´ı se v´yznamem slov, na tomto principu funguje tˇreba WordNet. Napˇr.: A w B, neboli A je hypernymem nebo ˇ holonymem B, konkr´etnˇe Evropa w Recko.
• Metody zaloˇzen´e na modelu — Pˇrevedeme srovn´an´ı grafu (stromu) na srovn´an´ı mnoˇziny jeho uzl˚u. Vytvoˇr´ıme p´ary uzl˚u, kter´e spolu mohou souviset a vztahy mezi nimi zap´ısˇeme v´yrokov´ymi formulemi. Pot´e kontrolujeme platnost jednotliv´ych formul´ı. Napˇr.: (Elektronika1 ⇔ Elektronika2 ) ∧ (Osobn´ı poˇc´ıtaˇc1 ⇔ PC2 ) ⇒ (Elektronika1 ∧ Osobn´ı poˇc´ıtaˇc1 ⇔ Elektronika2 ∧ PC2 ).
• Metody zaloˇzen´e na omezen´ıch — Metoda srovn´an´ı datov´ych typ˚u. Napˇr.: integer ⊂ real nebo datum ∈ [1.4.2007, 30.6.2007] ⊂ datum[year = 2007]. • Znovupouˇzit´ı srovn´an´ı — Potˇrebujeme-li prov´est srovn´an´ı sch´ematu/ontologie O0 a O00 a
PhD Conference ’07
5
ICS Prague
Pavel Tyl
Problematika integrace ontologi´ı
A1 . D´ale srovn´an´ım ontologi´ı O a O0 pomoc´ı metody 2 vznikne A2 . V ide´aln´ım pˇr´ıpadˇe, pokud by byly metody dokonal´e, by A1 = A2 . Tato situace je vˇsak m´alo pravdˇepodobn´a. V tom pˇr´ıpadˇe se provede porovn´an´ı A1 a A2 . T´ım zjist´ıme odliˇsnosti a rozd´ıl obou v´ysledk˚u potom slouˇz´ı jako zpˇetn´a vazba pro pˇr´ıpadnou u´ pravu ˇ asti v´ysledku, kter´e se naprosto liˇs´ı by sˇlo metody 1 a 2. C´ potom ze srovn´an´ı u´ plnˇe vynechat. T´eto problematice bych se chtˇel v pr˚ubˇehu sv´eho dalˇs´ıho studia vˇenovat.
5.1. N´avrh spojen´ı metod srovn´an´ı ontologi´ı Kaˇzd´a z metod uveden´ych v pˇredchoz´ı cˇ a´ sti m´a svoje omezen´ı a svoji chybovost. Skuteˇcnˇe ide´aln´ım ˇreˇsen´ım by mohlo b´yt vyvinout n´astroj, kter´y by podle typu ontologie vyuˇzil v´ıce metod srovn´an´ı najednou. Jednotliv´ym metod´am by sˇlo d´avat v´ahy a metody by z´aroveˇn spolu mohli spolupracovat tak, aby jedna eliminovala nedostatky druh´e. Sch´ema takov´eho n´astroje je naznaˇceno na Obr´azku 6. Srovn´an´ım ontologi´ı O a O0 pomoc´ı metody 1 vznikne
Zpˇetn´a vazba ? O0
º
Metoda 1
A1 ? Porovn´an´ı v´ysledk˚u
-
Zhodnocen´ı odliˇsnost´ı
6 -W O
Metoda 2 6
A2
Zpˇetn´a vazba
Obr´azek 6: N´avrh sch´ematu spojen´ı dvou metod srovn´an´ı ontologi´ı ´ esˇn´e integraci napom´ahaj´ı do paktnˇejˇs´ım dojmem. Uspˇ urˇcit´e m´ıry v textu uveden´e metody srovn´an´ı ontologi´ı. Tyto metody by ji mohli d´ale vylepˇsovat, ale jejich skuteˇcn´a s´ıla by se mohla projevit, kdyˇz jejich jednotliv´e pˇrednosti spoj´ıme, popˇr´ıpadˇe vyuˇzijeme pro jejich u´ pravu poznatk˚u, v cˇ em se v´ysledky po srovn´an´ı ontologi´ı liˇs´ı.
6. Z´avˇer Ontologie mohou v mnoh´em vylepˇsit fungov´an´ı webu. V nejjednoduˇssˇ´ım pˇr´ıpadˇe se m˚uzˇ e jednat napˇr. o pˇresnost vyhled´av´an´ı, kdy se vyhled´avaˇc m˚uzˇ e zamˇeˇrit jen na str´anky odpov´ıdaj´ıc´ı dan´emu konceptu (a nikoli dvojznaˇcn´ym nebo dokonce v´ıceznaˇcn´ym kl´ıcˇ ov´ym slov˚um). Jejich integrac´ı nav´ıc doc´ıl´ıme toho, zˇ e informaˇcn´ı zdroje budou pro uˇzivatele p˚usobit kom-
Literatura [1] ANTONIOU, Grigoris -– VAN HARMELEN, Frank. ”A Semantic Web Primer”. London: The Mit Press, 2004. ISBN 0-262-01210-3. [2] BERNERS-LEE, Tim – HENDLER, James – LASSILA, Ora. ”The Semantic Web: A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities”. Scientific American, vol. 284, 5, pp. 35–43. May 17, 2001. ¨ [3] HITZLER, Pascal – KROTZSCH, Markus – EHRIG, Marc – SURE, York. ”What Is Ontology Merging? – A Category-Theoretical Perspective Using Pushouts”. Proceedings of 1st International Workshop on Contexts and Ontologies (IWCO ’05). 2005.
PhD Conference ’07
6
ICS Prague
Pavel Tyl
Problematika integrace ontologi´ı
[4] HJELM, Johan. ”Creating the Semantic Web with RDF”. New York: Wiley, 2001. ISBN 0-471-40259-1. [5] MAEDCHE, Alexander. ”Ontology Learning for the Semantic Web”. Norwell: Kluwer Academic Publisher, 2002. ISBN 0-7923-7656-0. ´ [6] PREDOIU, Livia – FEIER, Cristina – SCHARFFE, Francois – BRUIJN, Jos de – MARTIN-RECUERDA, Francisco – MANOV, Dimitar – EHRIG, Marc. ”State-of-the-art Survey on Ontology Merging and Aligning V2”. Digital Enterprise Research Institute, University of Innsbruck. 2005–2006. [7] SHVAIKO, Pavel – EUZENAT, J´erˆome. ”Tutorial on Schema and Ontology Matching”. Proceedings of 2nd European Semantic Web Conference (ESWC ’05). 2005. [I1] Web Ontology Language (OWL) / W3C Semantic Web Activity. http://www.w3.org/2004/OWL . [I2] Resource Description Framework (RDF) / W3C Semantic Web Activity. http://www.w3.org/RDF . [I3] RDF Vocabulary Description Language 1.0: RDF Schema. http://www.w3.org/TR/rdf-schema . [I4] W3C Semantic Web Activity. http://www.w3.org/2001/sw . [I5] Extensible Markup Language (XML). http://www.w3.org/XML .
PhD Conference ’07
7
ICS Prague
ˇ v.v.i. ´ Ustav Informatiky AV CR ´ DOKTORANDSKE DNY ’07
Vydal MATFYZPRESS vydavatelstv´ı ´ ı fakulty Matematicko-fyzikaln´ University Karlovy Sokolovska´ 83, 186 75 Praha 8 jako svou – not yet – . publikaci ´ Obalku navrhl Frantiˇsek Hakl ´ Z pˇredloh pˇripraven´ych v systemu LATEX vytisklo Reprostˇredisko MFF UK Sokolovska´ 83, 186 75 Praha 8 ´ ı prvn´ı Vydan´ Praha 2007
ISBN – not yet –