Doktorandsk´e dny ’08
´ Ustav informatiky ˇ Akademie vˇed Cesk´ e republiky v.v.i.
´ Mal´a Upa 29. z´arˇ´ı – 1. rˇ´ıjna 2008
´ ı fakulty vydavatelstv´ı Matematicko-fyzikaln´ University Karlovy v Praze
ˇ v.v.i., Pod Vodarenskou ´ ´ ˇ z´ı 2, 182 07 Praha 8 Ustav Informatiky AV CR veˇ
´ vyhrazena. Tato publikace ani zˇ adn ´ a´ jej´ı cˇ ast ´ nesm´ı b´yt reprodukovana ´ Vˇsechna prava ´ e´ forme, ˇ elektronicke´ nebo mechanicke, ´ vˇcetneˇ fotokopi´ı, bez p´ısemneho ´ nebo sˇ ´ıˇrena v zˇ adn souhlasu vydavatele.
ˇ v.v.i.,2008 ´ c Ustav
Informatiky AV CR c MATFYZPRESS, vydavatelstv´ı Matematicko-fyzikaln´ ´ ı fakulty
University Karlovy v Praze 2008 ISBN – not yet –
Obsah ˇ Martin Rimn´ acˇ :
Nevyuˇzit´e moˇznosti s´emantick´eho webu
1
ˇ acˇ Martin Rimn´
Moˇznosti s´emantick´eho webu
´ ´ webu Nevyuˇzite´ moˇznosti semantick eho sˇkolitel:
doktorand:
I NG . M ARTIN
´ I NG . J ULIUS Sˇ TULLER , CS C .
ˇ IMN A´ Cˇ R
´ ˇ v. v. i. Ustav informatiky AV CR, Pod Vod´arenskou vˇezˇ´ı 2
´ ˇ v. v. i. Ustav informatiky AV CR, Pod Vod´arenskou vˇezˇ´ı 2
182 07 Praha 8
182 07 Praha 8
[email protected]
[email protected] obor studia:
Datab´azov´e syst´emy ´ byla podpoˇrena projektem 1ET100300419 programu Informaˇcn´ı spoleˇcnost (Tematick ´ ´ programu II Prace eho ˇ Inteligentn´ı modely, algoritmy, metody a nastroje ´ ´ ´ ren´ı semantick ´ ´ Narodn´ ıho programu v´yzkumu v CR: pro vytvaˇ eho ˇ ”Pokroˇcile´ sanaˇcn´ı technologie a procesy” ´ ze a telov´ ˇ ychovy CR webu), projektem 1M0554 Ministerstva sˇ kolstv´ı, mladeˇ ´ erem ˇ a zam AV0Z10300504 “Computer Science for the Information Society: Models, Algorithms, Applications”.
Abstrakt Vize s´emantick´eho webu byla pˇredstavena pˇred skoro jiˇz 10 lety, avˇsak zˇ a´ dn´a z jej´ı aplikac´ı prozat´ım nedok´azala oslovit takov´e mnoˇzstv´ı lid´ı, jak´e dnes pouˇz´ıv´a web v souˇcasn´e podobˇe. Pˇr´ıspˇevek se vˇenuje moˇznostem s´emantick´eho webu a pˇr´ınos˚um, kter´e m˚uzˇ e pˇrin´est pro koncov´e uˇzivatele. Nejprve pod´av´a pˇrehled o souˇcasn´ych technologi´ıch i jejich pouˇzit´ı a n´aslednˇe diskutuje moˇznosti plynouc´ı z pouˇzit´ı odkaz˚u v prostˇred´ı s´emantick´eho webu tak, jak je zn´ame z webu souˇcasn´eho, tedy rozˇsiˇruj´ıc´ı, zpˇresˇnuj´ıc´ı cˇ i ud´avaj´ıc´ı kontext prezentovan´e informace.
1. Vyhled´av´an´ı a vize s´emantick´eho webu
noruje. To vede k faktu, zˇ e z´ısk´an´ı kompletn´ı informace pomoc´ı souˇcasn´ych vyhled´avac´ıch n´astroj˚u je velmi obt´ızˇ n´e, ne-li nemoˇzn´e.
Souˇcasn´y web cˇ el´ı mnoha probl´em˚um. Mezi ty nejstˇezˇ ejnˇejˇs´ı patˇr´ı problematika vyhled´av´an´ı relevantn´ıch informac´ı na webu. Ta je dnes vˇetˇsinou ˇreˇsena pomoc´ı tzv. information retrieval n´astroj˚u [1], kter´e pracuj´ı s inverzn´ımi indexy uchov´avaj´ıc´ı (ˇcetnost) v´yskytu jednotliv´ych slov v (webov´ych) dokumentech. Relevance dokumentu je pak stanovena pomoc´ı kosinov´e m´ıry reflektuj´ıc´ı podobnost mezi zadan´ymi kl´ıcˇ ov´ymi slovy a slovy obsaˇzen´ymi v dan´em dokumentu.
Nejen tento probl´em se snaˇz´ı vyˇreˇsit vize s´emantick´eho webu [3, 4], kter´a umoˇznˇ uje definovat vedle samotn´ych dat i metadata k jejich popisu. Jin´ymi slovy nedefinuje pouze objekty jako takov´e, ale vymezuje popis objektu pomoc´ı ostatn´ıch (stejn´ym zp˚usobem popsan´ych) objekt˚u. Napˇr´ıklad popis tˇr´ıdy d´ıtˇe je moˇzn´e vzt´ahnout k popisu tˇr´ıdy osoba. Dokumenty s´emantick´eho webu se skl´adaj´ı z RDF1 trojic
Tato relevance vˇsak nic neˇr´ık´a o kvalitˇe poskytovan´ych dat. Proto b´yv´a rozˇs´ıˇrena o dalˇs´ı nepˇr´ımou m´ıru ud´avaj´ıc´ı odhadnutou kvalitu dat prezentovan´ych v dokumentu. Jednou z takov´ych mˇer je PageRank [2], kter´y je zaloˇzen na pˇredpokladu, zˇ e dokumenty prezentuj´ıc´ı kvalitn´ı data jsou cˇ astˇeji odkazov´any z jin´ych (kvalitn´ıch) dokument˚u. Zaveden´ım t´eto m´ıry se podaˇrilo uspoˇra´ dat (v˚ucˇ i kl´ıcˇ ov´ym slov˚um relevantn´ı) dokumenty i podle jejich kvality.
(object, predicate, subject) ∈ (R ∪ B) × R × (R ∪ B ∪ L) kde [5] • R znaˇc´ı mnoˇzinu tzv. resources identifikuj´ıc´ı popisovan´e objekty; • B znaˇc´ı mnoˇzinu tzv. blank nodes, kter´e sami o sobˇe nemaj´ı zˇ a´ dn´y v´yznam, slouˇz´ıc´ıch k identifikaci sloˇzitˇejˇs´ıch (v´ıcearitn´ıch) struktur;
D´ıky znaˇcn´e redundanci dat na souˇcasn´em internetu vˇsak ani takov´e uspoˇra´ d´an´ı nemus´ı v´est ke zlepˇsen´ı vypov´ıdac´ı schopnosti v´ysledku hled´an´ı. Na vˇetˇsinu dotaz˚u dneˇsn´ı vyhled´avaˇce vr´at´ı desetitis´ıce odkaz˚u; koncov´y uˇzivatel mnohdy stˇezˇ´ı analyzuje prvn´ı dvac´ıtku odkaz˚u a ostatn´ı, i z hlediska u´ spory cˇ asu, zcela ig1 Resource
• L znaˇc´ı mnoˇzinu liter´al˚u. Ta m˚uzˇ e b´yt d´ale rozˇs´ıˇrena o informaci o pouˇzit´em pˇrirozen´em jazyku cˇ i terminologii.
Description Framework
PhD Conference ’08
1
ICS Prague
ˇ acˇ Martin Rimn´
Moˇznosti s´emantick´eho webu
Kaˇzd´y resource R je, dle definice, identifikov´an pomoc´ı URI, napˇr. ve tvaru
sahuj´ıc´ı tento fragment. Pokud si uˇzivatel bude cht´ıt vybrat tento disk z nab´ıdky vˇsech prodejc˚u, nezbude mu nic jin´eho, neˇz proj´ıt ruˇcnˇe vˇsechny tyto prodejce.
http://example.com/ontologie#dite
Naopak dokumenty s´emantick´eho webu jsou pˇredurˇceny pro dalˇs´ı strojov´e zpracov´an´ı. Vzhledem k tomu, zˇ e se prozat´ım nepodaˇrilo v dostateˇcn´e m´ıˇre prosadit publikov´an´ı dat ve form´atech s´emantick´eho webu, uch´ylilo se konsorcium W3C, definuj´ıc´ı standarty v oblasti webu, v roce 2004 k n´avrhu rozˇs´ıˇren´ı ´ celem form´atu HTML o dalˇs´ı atributy RDFa4 . Uˇ rozˇs´ıˇren´ı je zav´est moˇznost s´emantick´e anotace pˇr´ımo do HTML dokument˚u. Stejn´y fragment by pak vypadal n´asledovnˇe:
Vyhled´av´an´ı v prostˇred´ı s´emantick´eho webu se prim´arnˇe soustˇred´ı na vytv´arˇen´ı indexu ukazuj´ıc´ı, kter´y resource je pops´an ve kter´em dokumentu. Prohled´av´an´ı takov´ych index˚u ale m˚uzˇ e b´yt spojeno s odvozov´an´ı, napˇr. pˇri hled´an´ı instanc´ı tˇr´ıdy osoba zahrnout i instance tˇr´ıdy d´ıtˇe. Souˇcasn´y s´emantick´y web se sp´ısˇe orientuje na vytyˇcen´ı pojm˚u pomoc´ı ontologi´ı; je zn´am´e nasazen´ı vize s´emantick´eho webu v prostˇred´ı webov´ych sluˇzeb, kdy jejich ontologick´y popis umoˇznˇ uje kooperaci mezi d´ılˇc´ımi webov´ymi sluˇzbami. S´emantick´y web je ale i odpovˇed´ı na ot´azku, jak naj´ıt na webu kompletn´ı informaci samotnou, ne pouze odkazy na n´ı, tak, jak se dˇelaj´ı dneˇsn´ı vyhled´avaˇce.
Disk Samsung Spin Point F1 500GB
- Product No: <span property=’disk-ont:Product-ID’>HD202IJ
- Interface: <span property=’disk-ont:Interface’>SATA-II
- Capacity: <span property=’disk-ont:Capacity’500GB
- RPM: <span property=’disk-ont:Disk-rpm’>7200
- Warranty: <span property=’disk-ont:Warranty’> 36 months
- Price: <span property=’myshop:Price’>1273 CZK
- Price incl. VAT: <span property=’myshop:Price-inc-VAT’> 1557 CZK
- Produced by: Samsung
2. Form´aty pouˇz´ıvan´e na webu Za prvn´ı form´at webov´ych dokument˚u lze povaˇzovat HTML2 , kter´y rozˇs´ıˇril form´atovan´a data o hypertextov´e odkazy. Tento form´at je postaven na SGML, dnes se vˇetˇsinou pouˇz´ıv´a jako z´aklad striktnˇejˇs´ı XML3 . Fragment takov´eho HTML dokumentu m˚uzˇ e b´yt ilustrov´an napˇr´ıklad pomoc´ı:
Z takto anotovan´eho dokumentu lze pomoc´ı XSLT5 transformace (obecnˇe transformuj´ıc´ı jeden XML dokument na jin´y dokument) z´ıskat pˇr´ımo popis vlastnost´ı disku v RDF. Z´ıskan´y fragment RDF dokumentu pak bude
Disk Samsung Spin Point F1 500GB
- Product No: HD202IJ
- Interface: SATA-II
- Space: 500GB
- RPM: 7200
- Warranty: 36 months
- Price: 1273 CZK
- Price incl. VAT: 1557 CZK
- Produced by: Samsung
Disk Samsung Spin Point F1 500GB HD202IJ SATA-II 500GB 7200 36 months <myshop:Price>1273 CZK <myshop:Price-inc-VAT> 1557 CZK
Takov´yto fragment dokumentu m˚uzˇ e b´yt zaindexov´an fulltextov´ymi vyhled´avaˇci, jako relevantn´ı je moˇzn´e vybrat kl´ıcˇ ov´a slova SATA-II, HD202IJ, Samsung, Spin Point F1, 500GB. Pakliˇze koncov´y uˇzivatel zvol´ı nˇekter´e z tˇechto kl´ıcˇ ov´ych slov, dˇr´ıve cˇ i pozdˇeji by mˇel ve v´ysledku vyhled´av´an´ı narazit na odkaz na dokument ob-
Ani toto rozˇs´ıˇren´ı se prozat´ım nedoˇckalo velk´eho ohlasu mezi producenty dat, a tak koncov´ı uˇzivatel´e z˚ust´avaj´ı bez moˇznosti efektivnˇe (automaticky) zpracov´avat data v souˇcasn´e dobˇe schovan´a uprostˇred form´atov´an´ı.
2 HyperText
Markup Language Markup Language 4 Resource Description Framework Attributes 5 Extensible Stylesheet Language Transformations 3 Extensible
PhD Conference ’08
2
ICS Prague
ˇ acˇ Martin Rimn´
Moˇznosti s´emantick´eho webu
3. Distribuovan´e prostˇred´ı
bude pouˇz´ıvat znaˇcen´ı v´yrobce (ontologii poskytnutou v´yrobcem), m´a v´yrobce jistotu, zˇ e nedoch´az´ı ke klam´an´ı koncov´eho z´akazn´ıka se strany prodejce, naopak prodejce m˚uzˇ e deklarovat (napˇr. elektronick´ym podpisem v´yrobce), zˇ e j´ım zprostˇredkov´avan´a data jsou ovˇerˇena. Obecnˇe t´ımto postupem m˚uzˇ e b´yt budov´ana d˚uvˇera mezi subjekty publikuj´ıc´ı data na webu.
Web jako takov´y je distribuovan´e prostˇred´ı, ve kter´em kdokoliv m˚uzˇ e publikovat cokoliv. Web si koncov´ı uˇzivatel´e navykli pouˇz´ıvat; pakliˇze najdou zaj´ımav´y dokument, jisto jistˇe prozkoumaj´ı i odkazy vedouc´ı z tohoto dokumentu. I z tohoto d˚uvodu se navigaci uˇzivatele po webov´ych str´ank´ach vˇenuje znaˇcn´a pozornost a je jedn´ım z hlavn´ıch krit´eri´ı hodnocen´ı kvality (pˇr´ıstupnosti) webu.
Dalˇs´ı v´yhoda se uplatn´ı u vyhled´av´an´ı. Pokud se z´akazn´ık rozhodne pro dan´y disk, hled´a jiˇz pouze prodejce, kteˇr´ı tento disk nab´ızej´ı. Vzhledem k tomu, zˇ e disk je vˇzdy identifikov´an pomoc´ı URL na stranˇe v´yrobce, je takov´e vyhled´av´an´ı t´emˇerˇ trivi´aln´ı.
Vˇsimnˇeme si, zˇ e kaˇzd´y resource v s´emantick´em webu je identifikov´an pomoc´ı URI. Co by se vˇsak stalo, kdyby nam´ısto (virtu´aln´ıho) URI dokument odkazoval stejnˇe jako je to u souˇcasn´eho webu na jin´y webov´y dokument obsahuj´ıc´ı detailnˇejˇs´ı informace o popisovan´em objektu? Ve zvolen´em pˇr´ıpadˇe by v´yrobce disk˚u publikoval na adrese http://example.com/sata-II-disks.rdf dokument popisuj´ıc´ı napˇr´ıklad s´erii disk˚u. Pˇr´ıklad fragmentu takov´eho dokumentu necht’ je n´asleduj´ıc´ı
Toto zjednoduˇsen´ı vyhled´av´an´ı je zp˚usobeno t´ım, zˇ e nen´ı potˇreba (heterogenn´ı) data od r˚uzn´ych prodejc˚u integrovat. Integrace dat [6], neboli hled´an´ı korespondenc´ı mezi daty v´ıce zdroj˚u a jejich n´asledn´e spojov´an´ı, sama o sobˇe pˇredstavuje velmi tˇezˇ kou a obecnˇe autoˇ ım sloˇzitˇejˇs´ı (a exprematicky [7] neˇreˇsitelnou u´ lohu. C´ sivnˇejˇs´ı) je popis objekt˚u, t´ım je sloˇzitˇejˇs´ı i integraˇcn´ı proces. D´ıky tomu, zˇ e je objekt jednoznaˇcnˇe identifikov´an c´ılovou URL odkazu, nen´ı potˇreba data integrovat v takov´em rozsahu (integruj´ı se pouze atributy specifick´e pro dan´eho prodejce).
Disk Samsung Spin Point F1 500GB HD202IJ SATA-II 500GB 7200 36 months
V neposledn´ı ˇradˇe souˇcasn´e prohl´ızˇ eˇce webov´ych dokument˚u umoˇznˇ uj´ı zpracovat libovoln´y XML dokument a zobrazit jej bud’to pomoc´ı kask´adov´ych styl˚u CSS a nebo pomoc´ı XSLT transformace. Tato funkcionalita umoˇznˇ uje st´ahnout XML dokument obsahuj´ıc´ı pouze prost´a RDF data, v jehoˇz hlaviˇcce je uvedeno, jak´ym zp˚usobem maj´ı b´yt data zform´atov´ana. V pˇr´ıpadˇe XSLT transformace XML dokumentu do XHTML form´atu je pouˇzita n´asleduj´ıc´ı hlaviˇcka:
pˇriˇcemˇz jednotliv´e vlastnosti mohou b´yt definov´any v extern´ı ontologii http://example.com/disk-ont.rdf:
Product Name Oznaˇ cen´ ı produktu ...
Jak je patrn´e, tato ontologie m˚uzˇ e obsahovat popisy vlastnost´ı v r˚uzn´ych jazykov´ych mutac´ı. Ty mohou b´yt n´aslednˇe vyuˇzity pro generov´an´ı HTML verze dokumentu, viz pˇredchoz´ı pˇr´ıklady.
kde rdf2html.xslt je sˇablona popisuj´ıc´ı transformaci z RDF trojic do HTML dokumentu. Tuto transformaci provede pˇr´ımo prohl´ızˇ eˇc a zobraz´ı jej´ı v´ystup. Koncov´y uˇzivatel tak v˚ubec nepozn´a, zˇ e si neprohl´ızˇ´ı klasickou webovou str´anku, ale RDF dokument. Bohuˇzel, tato technologie, byt’ je jiˇz dlouhodobˇe podporov´ana vˇsemi pˇredn´ımi webov´ymi prohl´ızˇ eˇci, neb´yv´a uˇz´ıv´ana, nebot’ souˇcasn´e vyhled´avaˇce nejsou schopni takto publikovan´a data zpracovat. Tento zp˚usob znaˇcnˇe minimalizuje objem nutn´ych datov´ych pˇrenos˚u, coˇz je vhodn´e napˇr´ıklad u mobiln´ıch zaˇr´ızen´ı.
Samotn´y obchod pak pouze deklaruje, zˇ e prod´av´a dan´y disk a tuto informaci pouze rozˇs´ıˇr´ı o specifika obchodu jako jsou cena, zkuˇsenosti nakupuj´ıc´ıch a podobnˇe: <myshop:disk rdf:ID=’HD202IJ-in-my-shop’ <myshop:ProductDetail rdf:resource=’http://example.com/sata-II-disks.rdf#HD202IJ’/> <myshop:Price>1273 CZK <myshop:Price-inc-VAT> 1557 CZK
Tento model distribuce dat m´a nˇekolik v´yhod. Prvn´ı v´yhodou je niˇzsˇ´ı redundance dat, v p˚uvodn´ı architektuˇre kaˇzd´y prodejce musel uv´adˇet veˇsker´a data. Pro poskytovatele obsahu (at’ v´yrobce cˇ i obchodn´ıka) pak odpad´a nutnost znovu zpracov´avat data - pokud obchodn´ık 6 Asynchronous
Dalˇs´ı v´yhodou distribuovan´e architektury a potaˇzmo cel´eho s´emantick´eho webu je fakt, zˇ e k takov´ymto dokument˚um mohou velmi jednoduˇse pˇristupovat aplikace oznaˇcovan´e jako Web X.0. Tyto aplikace postupnˇe naˇc´ıtaj´ı/modifikuj´ı zobrazovanou str´anku pomoc´ı
JavaScript and XML
PhD Conference ’08
3
ICS Prague
ˇ acˇ Martin Rimn´
Moˇznosti s´emantick´eho webu
AJAX6 technologie, na stranˇe prohl´ızˇ eˇce spouˇstˇen´ych javascriptov´ych program˚u umoˇznˇ uj´ıc´ıch interakci mezi uˇzivatelem a poskytovan´ymi daty. Na jednotliv´e RDF dokumenty lze pohl´ızˇ et jako na tzv. REST7 webov´e sluˇzby [8] volan´e AJAX programy. Z´asadn´ı nev´yhodou t´eto technologie je nemoˇznost indexace obsahu (neb aktu´alnˇe zobrazen´a data neodpov´ıdaj´ı zˇ a´ dn´e URL, na kterou by se mohl uˇzivatel pozdˇeji odk´azat).
Funkˇcn´ı z´avislost mezi dvˇema atributy je integritn´ı omezen´ı zajiˇst’uj´ıc´ı jednoznaˇcnou odvoditelnost hodnoty atributu na prav´e stranˇe pˇri znalosti hodnoty atributu na lev´e stranˇe. Pˇr´ıkladem funkˇcn´ı z´avislosti je napˇr´ıklad St´at → Mˇena Samotn´e z´aznamy jsou pops´any v odpov´ıdaj´ıc´ı relaci. Vˇsimnˇeme si, zˇ e un´arn´ı funkˇcn´ı z´avislost8 je moˇzn´e popsat pomoc´ı odpov´ıdaj´ıc´ı trojice
Tuto potencion´aln´ı nev´yhodu lze obej´ıt publikov´an´ım jak RDF dokumentu form´atovan´eho pomoc´ı XML, tak statick´e HTML str´anky, kter´a vznikla identickou transformac´ı na stranˇe serveru. Tedy uˇzivatel m´a moˇznost z´ıskat odkaz na (pˇribliˇznˇe) stejn´y obsah reprezentovan´y statickou HTML verz´ı, u kter´e je uvedena korespondence s p˚uvodn´ım RDF dokumentem (napˇr´ıklad i pomoc´ı RDFa rozˇs´ıˇren´ı) a dalˇs´ı navigace (hled´an´ı podobn´ych produkt˚u, v´ıce detail˚u, konkurenˇcn´ı prodejci) je zprostˇredkov´ana jiˇz v r´amci aktivn´ı sloˇzky obsahu str´anky.
(St´at, implies, Mˇena) Abychom mohli stejn´ym zp˚usobem zav´est i vztahy mezi hodnotami atribut˚u, je vhodn´e pro kaˇzdou funkˇcn´ı z´avislost definovat jej´ı instance [10] A1 → A2 ∈ F ; (A1 , A1 (t)) → (A2 , A2 (t)) ∈ I kde
Pouˇzit´ı distribuovan´e architektury tak, jak je pops´ana v´ysˇe, v praxi nar´azˇ´ı na pomal´e odezvy webov´ych server˚u (ˇcas potˇrebn´y k nav´az´an´ı spojen´ı je podstatnˇe vˇetˇs´ı neˇzli cˇ as potˇrebn´y k samotn´emu pˇrenosu dat). Tento probl´em lze vyˇreˇsit bud’to efektivn´ım cacheov´an´ım naˇcten´ych dokument˚u, kter´e nav´ıc m˚uzˇ e b´yt podpoˇreno postupn´ym naˇc´ıt´an´ım obsahu pomoc´ı AJAX aplikace.
• A1 , A2 ∈ R jsou atributy relace R • A⋆ (t) je zobrazen´ı pˇriˇrazuj´ıc´ı z´aznamu t hodnotu atributu A⋆ Nazveme-li dvojici atribut-hodnota elementem (A, v), pak je moˇzn´e tyto instance rovnˇezˇ vyj´adˇrit jako vztahy mezi elementy, kter´e jsou pops´any pomoc´ı trojic ((A1 , v1 ), implies, (A2 , v2 ))
4. Odhad struktury dat
Takov´ato reprezentace dat ve form´atech s´emantick´eho webu je vhodn´a v pˇr´ıpadˇe, zˇ e nen´ı zajiˇstˇena korektnost odhadnut´e struktury dat. Pokud je odhadnut´y model oznaˇcen jako korektn´ı, je moˇzn´e data transformovat do formy [11]
S´emantick´y web umoˇznˇ uje popisovat vlastnosti objekt˚u pomoc´ı vztah˚u. Tyto vztahy jsou definov´any obecnˇe pomoc´ı resource - kaˇzd´y n´avrh´arˇ ontologie m˚uzˇ e pouˇz´ıt sv´e vlastn´ı zaveden´ı vlastnost´ı. Tento fakt obecnˇe velmi ztˇezˇ uje jak´ekoliv sloˇzitˇejˇs´ı operace, vˇcetnˇe integrace ontologi´ı. Z tohoto d˚uvodu se mnoh´e n´astroje poohl´ızˇ´ı po podstatnˇe jednoduˇssˇ´ıch, byt’ m´enˇe popisn´ych formalismech.
(v1 , name(A1 → A2 ), v2 ) kde name je funkce pojmenov´avaj´ıc´ı funkˇcn´ı z´avislosti. Pokud se pˇridrˇz´ıme zvolen´e funkˇcn´ı z´avislosti, pˇr´ıkladem v´ysledku trasformace instance m˚uzˇ e b´yt trojice
Vzhledem k nedostatku dat ve form´atu s´emantick´eho webu je zˇ a´ douc´ı naj´ıt zp˚usob, jak vyuˇz´ıt data z webov´ych str´anek a extrahovat je do form´atu s´emantick´eho webu (napˇr´ıklad anotac´ı pomoc´ı RDFa atribut˚u). Pro anotaci je vˇsak potˇreba zn´at strukturu dat; ta na webov´ych str´ank´ach neb´yv´a uvedena a pak nezb´yv´a nic jin´eho, neˇz se ji pokusit odhadnout.
Tyto trojice mnohou b´yt uloˇzeny do XML form´atu. Napˇr´ıklad
Strukturu dat lze popsat mnoh´ymi formalismy, ilustrujme ji na pˇr´ıkladu formalismu inspirovan´em relaˇcn´ımi datab´azemi [9]. Struktura dat je odhadnuta anal´yzou extension´aln´ıch funkˇcn´ıch z´avislost´ı platn´ych na dan´e mnoˇzinˇe dat.
<state rdf:ID=’CeskaRepublika’>
ˇ a Republika, has-a-Mˇena, Cesk´ ˇ (Cesk´ a koruna)
7 Representational 8 Un´ arn´ı
State Transfer funkˇcn´ı z´avislost je funkˇcn´ı z´avislost mezi jednoduch´ymi atributy (t.j. s aritou 1)
PhD Conference ’08
4
ICS Prague
ˇ acˇ Martin Rimn´
Moˇznosti s´emantick´eho webu
Obr´azek 1: Uk´azka str´anky experiment´aln´ıho port´alu
Obr´azek 2: Rekonstrukce z´aznamu
PhD Conference ’08
5
ICS Prague
ˇ acˇ Martin Rimn´
Moˇznosti s´emantick´eho webu
Jistˇe popis dat z´ıskan´y odhadem jejich struktury z mnoˇziny vstupn´ıch dat nebude dosahovat expresivity zn´am´e z lidmi tvoˇren´ych ontologi´ı, avˇsak poskytuje za lehce splniteln´ych podm´ınek RDF dokumenty jist´ym, pro technick´a data postaˇcuj´ıc´ım, zp˚usobem. I takto jednoduch´y popis dat m˚uzˇ e b´yt pouˇzit pro uˇcen´ı extrakˇcn´ıch metod, kter´e z´ısk´avaj´ı anotovan´a data z webov´ych str´anek [12, 13, 14]
rithms, (Philadelphia, PA, USA), pp. 11–18, Society for Industrial and Applied Mathematics, 1997. [2] A. N. Langville and C. D. Meyer, Google’s PageRank and Beyond: The Science of Search Engine Rankings. Princeton University Press, July 3 2006. [3] G. Antoniou and F. van Harmelen, A Semantic Web Primer (Cooperative Information Systems). The MIT Press, April 2004. [4] T. Lee, “Relational databases on the semantic web,” ¡http://www.w3.org/DesignIssues/RDBRDF.html¿ [on-line], 1998. [5] L. Baolin and H. Bo, “Network and parallel computing, ifip international conference, npc 2007, dalian, china, september 18-21, 2007, proceedings,” in NPC (K. Li, C. R. Jesshope, H. Jin, and J.-L. Gaudiot, eds.), vol. 4672 of LNCS, pp. 364– 374, Springer, 2007.
V souˇcasn´e dobˇe je experiment´alnˇe provozov´an port´al shromaˇzd’uj´ıc´ı informace o sportovn´ıch utk´an´ıch, kdy struktura dat byla odhadnuta z dat nˇekolika heterogenn´ıch zdroj˚u a data uloˇzena na z´akladˇe t´eto struktury. Ilustrace port´alu je na obr´azc´ıch 1 a 2. 5. Z´avˇer Pˇr´ıspˇevek se snaˇz´ı shrnout aktu´aln´ı trendy, probl´emy a technologie jak na souˇcasn´em webu, tak v prostˇred´ı webu s´emantick´eho. Zvl´asˇtˇe se pak vˇenuje problematice vyhled´av´an´ı dat, diskutuje souvisej´ıc´ı probl´emy a navrhuje jejich ˇreˇsen´ı.
[6] M. Lenzerini, “Data integration: a theoretical perspective,” in PODS ’02: Proceedings of the twentyfirst ACM SIGMOD-SIGACT-SIGART symposium on Principles of Database Systems, (New York, NY, USA), pp. 233–246, ACM Press, 2002.
V sekci 2 ukazuje na pˇr´ıkladu fragmentu HTML dokumentu, jak m˚uzˇ e b´yt zaindexov´an pro fulltextov´e vyhled´av´an´ı. Ukazuje pouˇzit´ı rozˇs´ıˇren´ı RDFa, kter´e umoˇznˇ uje anotovat cˇ a´ sti HTML dokumentu. Pokud jsou hodnoty anotov´any, je moˇzn´e automaticky pˇrev´est takov´y HTML dokument do RDF dokumentu a ten d´ale zpracovat dalˇs´ı n´astroji.
[7] E. Rahm and P. A. Bernstein, “A survey of approaches to automatic schema matching,” VLDB Journal: Very Large Data Bases, vol. 10, no. 4, pp. 334–350, 2001. [8] R. Battle and E. Benson, “Bridging the semantic web and web 2.0 with representational state transfer (rest),” Web Semant., vol. 6, no. 1, pp. 61–69, 2008.
Sekce 3 pak inovativnˇe diskutuje v´yhody distribuce dat dokument˚u s´emantick´eho webu, kdy resource nen´ı reprezentov´an pouze URI, ale URL obsahuj´ıc´ı detailnˇejˇs´ı informace o odkazovan´em objektu. Z´asadn´ı v´yhodou tohoto pˇr´ıstupu je, zˇ e odpad´a nutnost jinak velmi obt´ızˇ n´e, automaticky t´emˇerˇ neˇreˇsiteln´e, integrace dat jednotliv´ych zdroj˚u. Cel´y probl´em je ilustrov´an na pˇr´ıkladˇe.
[9] C. J. Date, An Introduction to Database Systems. Addison Wesley Longman, October 1999. ˇ [10] M. Rimn´ acˇ , “Data structure estimation for rdf oriented repository building,” in Proceedings of the CISIS 2007, (Los Alamitos, CA, USA), pp. 147– 154, IEEE Computer Society, 2007. ˇ [11] M. Rimn´ acˇ , “Transforming current web sources for semantic web usage,” Proc. of SOFSEM 2006, vol. 2, pp. 155–165, 2006.
Jelikoˇz v souˇcasn´e dobˇe nejsou k dispozici takov´a data poˇzadovan´eho rozsahu a zamˇerˇen´ı, sekce 4 navrhuje probl´em ˇreˇsit pomoc´ı metod odhadu struktury dat a tyto metody vyuˇz´ıt pro z´akladn´ı definici popisu dat prostˇrednictv´ım form´at˚u s´emantick´eho webu.
[12] Z. Li and W. K. Ng, “Wdee: Web data extraction by example,” in DASFAA (L. Zhou, B. C. Ooi, and X. Meng, eds.), vol. 3453 of LNCS, pp. 347–358, Springer, 2005. [13] W. Holzinger, B. Kr¨upl, and M. Herzog, “Using ontologies for extracting product features from web pages,” in International Semantic Web Conference (I. F. Cruz, S. Decker, D. Allemang, C. Preist, D. Schwabe, P. Mika, M. Uschold, and L. Aroyo, eds.), vol. 4273 of LNCS, pp. 286–299, Springer, 2006.
Pokud by se podaˇrilo myˇslenky prezentovan´e v cˇ l´anku naplnit, cel´a vize by naˇsla uplatnˇen´ı pro sˇirokou veˇrejnost dnes pouˇz´ıvaj´ıc´ı internet. Literatura [1] P. Raghavan, “Information retrieval algorithms: a survey,” in SODA ’97: Proceedings of the eighth annual ACM-SIAM symposium on Discrete algo-
PhD Conference ’08
[14] M. Nekvasil, “Vyuˇzit´ı ontologi´ı pˇri indukci wrapper˚u,” Proc. of Znalosti 2007, pp. 336–339, 2007.
6
ICS Prague
ˇ v.v.i. ´ Ustav Informatiky AV CR ´ DNY ’08 DOKTORANDSKE
Vydal MATFYZPRESS vydavatelstv´ı ´ ı fakulty Matematicko-fyzikaln´ University Karlovy Sokolovska´ 83, 186 75 Praha 8 jako svou – not yet – . publikaci ´ Obalku navrhl Frantiˇsek Hakl ´ Z pˇredloh pˇripraven´ych v systemu LATEX vytisklo Reprostˇredisko MFF UK Sokolovska´ 83, 186 75 Praha 8 ´ ı prvn´ı Vydan´ Praha 2008
ISBN – not yet –