Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
A szemantikus Web
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
0.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
A hagyományos Web jellemzői Exponenciális sebességű gyarapodás: napi 3 milliárd tartalom megosztása, benne 250 millió kép, 200 millió tweet a Twitteren, stb. The Big Data: Hatalmas tárolt adatmennyiség: 1 milliárd kép, 23 Mrd Google-indexált weblap Különleges indexelő technikák a gyors kereshetőséghez
1.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Hagyományos keresés a Weben Keresés speciális indexeléssel: A Google kb. 100 tényezőt elemez a weboldalon a PageRank számításakor, hogy megállapítsa, az oldal mennyire felel meg a keresési feltételeknek. Faktorok: az oldal népszerűsége, a keresett szó gyakorisága és pozíciója a weboldalon, egymáshoz való közelségük, a kereső személy profiljának aktuális jellemzői, stb.
2.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Hagyományos keresés a Weben A Google szabadalmaztatott keresőtechnikát alkalmaz:
3.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Hagyományos keresés a Weben A gond: A keresés jóformán csak szintaktikai elemeket tartalmaz. A jelentés szintjei: - szintaktikai - szemantikai - pragmatikus - intencionális Irma: „Frédi ugyanúgy dohányzott, mint Te!” Béni: „Miért, mi van vele?” Irma: „Tüdőrák. Feldobta a bocskorát.”
4.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Hagyományos keresés a Weben „Feldobta a bocskorát” jelentése a különféle szinteken:
- Szintaktikai: Múlt idejű állítmány és tárgy. - Szemantikai: Felhajította a lábbelijét. - Pragmatikai: Meghalt - Intencionális: „Ne dohányozz, mert Te is úgy jársz!” A hagyományos webkeresők (Google, Bing, Yahoo) gyakorlatilag csak szintaktikai szinten keresnek. Nem értik a kérdést, nem látnak a sorok mögé. Csak a szavak egyezését nézik.
akar = akár
5.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Hagyományos keresés a Weben A számítógép – még – nem érti, mit kérdezünk tőle
Forrás: Szemantikus web, folkszonómia, taxonómia http://tarsadalominformatika.elte.hu/tananyagok/trendkutatas/lecke4_lap1.html
6.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Hagyományos keresés a Weben A nemértés oka: A html dokumentumleíró nyelv, nem tárolja az információstruktúrát. Ahhoz, hogy a gép értse a kérdést, a tartalmakhoz járulékos adatokat, az adatokra vonatkozó metaadatokat kell csatolni.
Metaadatok: az adat kategóriája, típusa, kapcsolódásai, forrása, stb. A metaadatok megteremtik az adatok kapcsolatbahozásának , besorolásának, szinonímája megtalálásának, stb. lehetőségét. A kereső mélyebb elemzéseket végezhet.
7.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben A komolyabb kérdések megválaszolása igényli a Weben tárolt adatok kombinálását: - az információösszetevők több oldalon elosztva találhatók meg - az információösszetevők eltérő adatbázisokban tárolódnak, stb. Pl. Ki a barátnője a G1BG3 legjobb fiú tanulójának? - barátnő a fotón - legjobb tanuló a Neptun nyilvántartásban.
Az embereknek nem gond ilyen kérdések megválaszolása, mert - könnyen kezelik a hasonló jelentésű szavakat - könnyen értelmezik a képeket - boldogulnak hiányos, vagy sérült információkkal is.
8.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben Valamilyen más adatszervezésre van szükség a Weben: - Szemantikus Web-re! Mi a Szemantikus Web? Tim Berners Lee: olyan adattárolási forma, amely a nyers adatokat kiegészítő metaadatok révén a ráépülő alkalmazásokkal lehetővé teszi a tárolt adatok integrálását, az adatok által reprezentált jelentés megragadását és felhasználását. Meg kell jegyezni, hogy a mesterséges metaadat hozzáadással szemben vannak szkeptikus vélemények is, melyet a tárgy előadója is oszt, hiszen a jelentés benne van a szövegkörnyezetben, tágabb értelemben az adathoz kapcsolódó összes jellemző halmazában.
9.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben Az ördög a részletekben lakozik. - egy közös modellt kell a gépek számára nyújtani az adatok és kapcsolataik leírására, lekérdezéséhez, stb. - a fogalmak osztályozása nagyon komplex feladattá válhat bizonyos tudásterületeken, és ezek azok a szituációk, amikor az ún. ontológiák, tezauruszok, stb. elengedhetetlenek.
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
10.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben A szemantikus web létrehozása és keresés rajta
1. Képezzük le a változatos adatokat egy egységes absztrakt adatreprezentációval 2. Hozzuk kapcsolatba a kialakult reprezentációkat
3. Kezdjünk el lekérdezéseket az ily módon kialakult adatszerkezeteken! A metaadatok támogatják és teszik lehetővé ezt az eljárást.
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
11.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben Egyszerű példa könyvesbolt adatbázissal
Adatkészlet „A”:
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
12.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben Az egységes szemléltetéshez használjunk RDS (Resource Description Framework) keretrendszert! Az RDS egy triplet, melynek elemei: alany, állítmány, tárgy. Az állítmányt helyettesítheti tulajdonság. Pl: Pista szereti Gizit Pista jegye jeles A tripleteket az alanytól a tárgy felé mutató, az állítmánnyal felcímkézett nyíllal szokták ábrázolni.
szereti Pista
Gizit
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
13.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben A könyvesbolti példa leképezése:
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
14.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben A gráf csomópontjai a weben fellelhető erőforrások: URI-k, Uniform Resource Identifier-ek, melyek lehetnek URL-ek, vagy szövegek. Egy gráf leképezheti csak egy részletét is az adathalmaznak. Adatkészlet „F”:
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
15.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben Reprezentáljuk a második adatkészletet:
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
16.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben Egyesítsük a lekérdezéshez az adatokat:
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
17.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben Egyesítsük a lekérdezéshez az adatokat..
Azonos
Azonos erőforrás
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
18.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben Egyesített adatokkal:
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
19.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben Az „A” adatkészlet tulajdonosa most kérdezhet ilyet: „Add meg a címét (Title) az Eredetinek (Original)” Ez az információ nem található meg az „A” adatkészletben de megtalálható a hozzákötött „F”–ben!
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
20.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben De több is kinyerhető: érezzük, hogy az a:author és az f:auteur ugyanaz. De egy automatikus egyesítés nem tudja ezt! Adjunk némi többlet információt az egyesített adatokhoz: - a:author ugyanaz mint f:auteur mindkettő egy „Person”-t azonosít - egy fogalmat, melyet a közösség már definiált: - egy „Person” egyértelműen azonosított a nevével és, mondjuk a homepage-ével - ez bizonyos erőforrások számára „kategóriaként” használható
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
21.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben Aknázzuk ki a többlet tudást! .
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
22.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Szemantikus keresés a Weben Végezzünk gazdagabb lekérdezést! - Az F most kérdezheti: „donnes-moi la page d’accueil de l’auditeur de l’originale” - nos… „give me the homepage of the original’s auteur” Az információ nem található sem az „A”, sem az „F” adatkészletben… - de az „A” és „F” egyesítése révén elérhetővé vált - hozzáadva három egyszerű állítást mint egy ragasztót.
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
23.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Eltérő adatkészletekkel történő kombinálás A „Person” használatával pl. az adatkészletet más külső adatkészletekkel kombinálhatjuk. Például, a Wikipédiában található adat kinyerhető dedikált szoftvereszközökkel - pl. a ‘dbpedia’ project már képes kinyerni az „infobox” információt a Wikipédiából…
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
24.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
A Wikipédia adattal egyesítve
.
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
25.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
A Wikipédia adattal egyesítve..
.
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
26.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
A Wikipédia adattal egyesítve..
.
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
27.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Meglepő? Annak néz ki, de nem kellene meglepőnek lennie.
Minden nap ez történt az automata erőforrások révén a Web használóknál. Az eltérés: egy kis többlet, hogy a gépek szintén meg tudják ezt csinálni.
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
28.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
Mit is csináltunk? Különféle adatkészleteket kombináltunk, amelyek - megtalálhatók valahol a weben, - eltérő formátumúak (mysql, Excel sheet, XHTML, stb.) - különböző neveket használnak a kapcsolatokra. Kombinálhattuk az adatokat, mert egyes URI-k azonosak voltak (jelen esetben az ISBN-ek) Hozzá tudtunk adni egy kis extra információt (ragasztóként), valószínűleg általános technikákat alkalmazva, melyet a közösség hozott létre Ezek eredményeként új kapcsolatokat találtunk és hívtunk elő.
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
29.
Alkalmazott Informatikai Intézeti Tanszék
MŰSZAKI INFORMATIKA
Dr.Dudás László
És ez még többre is képes lehet Az egyesített adatkészletekhez többlet tudást adhatunk - pl. a teljes osztályozását különféle könyvtári adatoknak Ez az a terület, ahol az ontológiák, extra szabályok stb. szerephez jutnak
És még erőteljesebb lekérdezések is elvégezhetők ezeknek köszönhetően.
Forrás: Introduction to the Semantic Web (tutorial) Johnson & Johnson Philadelphia, USA October 30, 2009 Ivan Herman, W3C
[email protected]
30.