Bevezetés a szemantikus technológiákba
Szemantikus technológiák Rendszerelemek – jelentés – logikai formula Elvárások – logikai formula Az elvárások megvalósítása a rendszerelemek segítségével – logikai következtetés Pl: Szemantikus integráció Szemantikus világháló
Szemantikus világháló Cél: Világhálón elérhető információ gépi feldolgozásra alkalmassá tétele A gép ne csak olvassa, értse is az információt
Eszközök: Metainformáció társítás Ontológiaépítés – háttértudás formalizálása Automatikus következtetési módszerek
A kurzus felépítése I. rész: A szemantikus világháló alapjai A világháló napjainkban RDF – metainformációk RDFS – egyszerű háttértudás formalizálás RDF használata
A kurzus felépítése II. rész: Ontológiák és leíró logikák Leíró logikák: AL, ALC, SHIQ… • TBox (Terminology Box) – háttértudás • ABox (Assertion Box) - metainformációk
Következtetés leíró logikákon: tabló alapú algoritmusok Egy egyszerű következtető megvalósítása Haskellben
A kurzus felépítése III. rész: Ontológiák használata Ontológiák a Weben: OWL – Web Ontology Language Protegé ontológiaépítő eszköz A DLog Prolog alapú következtető rendszer
A Világháló napjainkban Heterogén szemantikájú és szintaktikájú dokumentumok Eltérő típusok (szöveg, kép, hang, video…) Eltérő formátumok (pdf, ps, word, txt…) Eltérő nyelvek (magyar, angol, pascal, c…)
Nem ellenőrzött (bárki bármit közzétehet)
Keresés a világhálón Oldalak begyűjtése (keresőbotok) Indexelés (tárgymutató készítés, fontos kifejezések kigyűjtése) Kérdés értelmezése, keresés az indexben Találatok sorrendezése és visszaadása
Oldalak begyűjtése Hosszadalmas (rengeteg adat) Rendszeres frissités szükséges Nincs link, nincs begyűjtés
Indexelés Dokumentum elemzése nehéz feladat Mik a fontos kifejezések? Előbb meg kellene érteni… Szavak gyakorisága jó heurisztika, de félrevezethet Gépelési hibák, nem szabványos html Eredménye egy jól karbantartott, tömör, strukturált, viszonylag kicsi adathamaz
Keresés Vektortér modell Minden dokumentum és a kérdés egy-egy vektornak felel meg Vektorok közti távolságokat számítunk Természetes nyelven megfogalmazott kérdésre jó ☺ Kulcsszavas keresésre nem jó
Keresés Bool modell Csak azt figyeljük, hogy milyen kifejezések fordulnak elő az oldalon illetve a kérdésben
A hangsúly a keresés utáni rangsoroláson Rangsoroláshoz különféle heurisztikák Szavak gyakorisága, előfordulás helye (cím, bevezetés), fontméret, szín, korábbi felhasználók reakciói…
Sorrendezés linkstruktura alapján A fenti szempontok mind könnyen manipulálhatóak Nehezen befolyásolható kritériumok előtérbe kerülnek Többet számít az, amit más mond rólunk, mint amit mi mondunk magunkról (link körüli szöveg) Az az oldal, amire többen hivatkoznak, valószínűleg értékesebb (csupán linkstruktura alapján)
Mérőszámok a keresés jellemzésére Precizitás: releváns visszadott / visszaadott Visszahívás: releváns visszaadott / releváns Egymás ellen dolgoznak Manapság tipikusan Kis precizitás (rengeteg érdektelen találat) Nagy relevancia (ritka, hogy a számunkra fontos oldalat ne találja meg a kereső)
Problémák a Webes kereséssel Hatalmas és változékony a világháló Mély Web Lekérdezhető adatbázisban tárolt tartalom (Web nagyrésze!!!) Nem szöveges tartalom
Szemantika hiánya Jelentés helyett szöveges alakkal dolgozunk Függ az információ tényleges reprezentációjától Nyelvi korlátok Képekhez, hangokhoz semmilyen jelentést nem tudunk társítani Nem tudunk következtetni (szinonimák, taxonómiák)
Problémák a Webes kereséssel Megoldás Metakeresők: összevetjük az eredményeket Fókuszált keresők: kisebb méret, könnyebb frissíteni, jobb precizitás és visszahívás Szemantika megragadása
Szemantika megragadása Kézi indexelés Katalógust készítünk (YAHOO) Ember szolgáltatja a szemantikát Garantált minőség ☺ Lassú Melléktémák kimaradnak Következtetés továbbra is hiányzik
Szemantika megragadása Helyezzünk el metainformációt a Weben Információ, mely információról szól, leírja, hogy ez utóbbi miről szól Pl. link egy másik oldalról, szerző neve, dokumentum módosítási ideje Jelenleg a metainformáció is heterogén formában van
Szemantikus Világháló Az oldalakhoz kapcsolódó metainformáció és a következtetéshez szükséges háttértudás egységes és feldolgozható alakban történő leírása
Szemantikus Világháló Erőforrásainkhoz metaadatokat társítunk Mi lehet erőforrás? Bármi, ami egyedileg azonosítható (egy honlap, honlap része, kép video, egy hardware eszköz, állomány) HTML-ben van metaadat: <META> tag Nagyon korlátozott, csak néhány attribútum Csak a honlap egészéről szólhat
Szemantikus Világháló A különféle formátumú adatforrásaink számára lehetővé tesszük, hogy metaadatot szolgáltassanak magukról A metaadat már egységes, strukturált Géppel fel tudjuk dolgozni