Információ integráció Szemantikus Web megközelítés Alkalmazások
1
Miért van szükségünk ilyesmire? (Alkalmazások) WWW: Összehasonlítás alapú vásárlás Portál építések több adatforrás felhasználásával B2B, elektronikus piacterek
Tudomány és kultúra: Genetika: gén információk integrálása Asztrofizika: égi jelenségek gyűjtése. Kultúra: kulturális információs adatbázisok egységes
elérése országhatárokon túl
Vállalati adatintegráció Egy átlagos KNV 49 adatbázist alkalmaz és IT
költségvetésének 30%‐át az adatintegrációra költi (US) 2
Csak szöveg volna a weben? A web jelentős része valójában strukturált…
A legtöbb web szerver mögött adatbázisok állnak Dinamikusan konvertálják az adatokat olvasható nyelvi formára
=> The capital of India is New Delhi. Ha vissza tudnánk konvertálni lenne strukturált adatunk! (ki)csomagolók, csomagolók tanulása, stb… Dinamikus lapokat is fel tudunk deríteni... Félig‐strukturált web (kialakulóban) Legtöbb lap részben strukturált (pl. XML) XML a szabvány a szintaktikára, ismert problémák az értelmezéssel Szolgáltatások Utazási szolgáltatások, vásárlások támogatása Érzékelők Tőzsdei árfolyamok, hőmérsékletek, jegyárak…
3
Miért nem elég: Keresőgépek szövegalapú keresést végeznek Jól működik egyedi dokumentumokon
Nem tudnak integrálni több dokumentumból származó információkat Nem képesek hatékony általánosításra Nem tudnak dokumentumokat és adatbázisokat összekapcsolni
Az információ integráció célja strukturált és félig‐
strukturált információforrások együttes kezelése
4
Összehasonlítás alapú vásárlás? • •
Hasonló De: • Szélesebb fókusz • Szélesebb spektruma az adatbázisoknak • Szolgáltatások • Új kihívás • “adattár” nem működik • Kézi forrásleírás, kezelés korlátai
Junglee Netbot
DealPilot.Com
5
Miért nem csak Közös séma hiánya
adatbázisok elosztott adatbázisok
Források heterogén sémákkal (és fogalmakkal,
ontológiákkal) rendelkeznek Félig‐strukturált források Régi források Nem relációs sémák Eltérő elérési módok Query Független források (SQL) Database Manager (DBMS) Nincs közös adminisztráció -Storage mgmt -Query processing Answer Nem kezelt forrás tartalmi átfedések -View management (relation) -(Transaction processing) Nehezen előrejelezhető viselkedés Lekérdezés végrehajtás bonyolult Általában csak olvashatóak Ez lehet szerencsés is Bár terjednek a tranzakció kezelési megoldások a weben
Database (relational)
6
Kitérő: Ivan Herman felvezetése aW3C konferencián
7
Szolgáltatások Web lapok
Forrás leírás Strukturált adatok
Mediátor Forrás fúzionálás/ Lekérdezés tervezés
Végrehajtás
Szenzorok (soros adatok)
Monitor
Válasz 8
Szolgáltatáso
•
• •
•
Forrás leírás
Felhasználói lekérdezések megfogalmazása a mediált sémán. Adatok tárolva lokális sémában. A tárolt információ (tartalom) ismerete alapján megfogalmazható a leképezés a sémák között. A mediátor alkalmazza a leképezést a felhasználói kérdés lefordítására a forrás lekérdezésekre.
Ontológiák, Forrás és szolgáltatás leírások
Teszt lekérdezések
Weblapok Strukturált adatok
Szenzorok (soros adatok)
Forrás fúzionálás Lekérdezés tervezés Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés
Információ menedzser
Végrehajtás Válasz
Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést
Monitor 9
Hol az MI szerepe?
Forrás leírás Ontológiák, Forrás és szolgáltatás leírások
Tanulás/bányászás -Forrás felkutatás -Forrás statisztikák -Wrapper tanulás Automata tervezés -Nyelvek tervezése -Szolgáltatások kompozíciója -Reaktív tervezés/ terv monitorozás
Forrás fúzionálás Lekérdezés tervezés Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés
Teszt lekérdezések
Tudásreprezentáció - Ontológiák - Metaadatok - Következtetés - Lekérdező nyelvek
Végrehajtás Válasz
Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést
Monitor 10
Forrás leírások Minden meta‐adat információt
Ontológiák, Forrás és szolgáltatás leírások
Teszt lekérdezések
Weblapok
se lér és
ell im od
s zé de
re
nc iák
/E léé
rs
L
ér ek
Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés
Szenzorok (soros adatok)
Fo rrá
Forrás fúzionálás Lekérdezés tervezés
ek
Strukturált adatok
Végrehajtás
Pr ef e
Információ menedzser
Szolgáltatások
Forrás leírás
Válasz
Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést
se síté fris ikák iszt si Stat ez é er v rat k Új rése ké
tartalmaz Forrás tartalom logikai leírása (könyvek, új autók). Forrás képességek (pl. SQL lekérdezés feltehető) Forrás teljesség (minden könyvet tartalmaz). Fizikai jellemzők (forrás, hálózat). Statisztikák az adatokról Source reliability Tükör források Frissítési frekvencia.
Monitor
11
Forrás elérések Hogyan kapunk n‐eseket Számos forrás strukturálatlan adatokat ad
Néhány inherensen strukturálatlan, mások természetes nyelvi köntösben vannak
Vissza kell csomagolni az adatokat Wrapper építés/információ kinyerés Kézi munka/fél‐automatikus
12
Forrás fúzió/ lekérdezés tervezés Feldolgozza a felhasználói lekérdezést és
előállítja a végrehajtási tervet Költség és hatékonyság közti optimalizáció Forrás elérési korlátok kezelése Információ a forrásminőségről
Szolgáltatások
Forrás leírás Ontológiák, Forrás és szolgáltatás leírások
Weblapok
se lér és Fo rrá
ell im od
re
nc iák
/E léé
rs
s zé de
Szenzorok (soros adatok)
Pr ef e
Végrehajtás
Válasz
Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést
se síté fris ikák iszt si Stat ez é er v rat k Új rése ké
L
ér ek
Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés
ek
Strukturált adatok
Forrás fúzionálás Lekérdezés tervezés
Információ menedzser
Teszt lekérdezések
Monitor
13
Monitoring/ Végrehajtás Lekérdezési terv alapján elvégzi a Services
Source Trust Ontologies; Source/Service Descriptions
Probing Queries
Webpages Structured data
Sensors (streaming Data)
M
od el
y
f er en
ce
/U til ity
er Qu
Pr e
Executor Answers
Needs to handle Source/network Interruptions, Runtime uncertainty, replanning
Ca ll rce So u
Needs to handle: Multiple objectives, Service composition, Source quality & overlap
s
Source Fusion/ Query Planning
tics atis g St atin Upd ing nn pla ts Re ques Re
feladatot a forrásokon Forrás késleltetések kezelése Hálózati, tranziens kimaradások Forrás elérési korlátok Szükséges lehet újratervezések elvégzése
Monitor
14
Méretek figyelembe vétele
Hány forrást kell elérni? Mennyire autonómok ezek? Van ismeretünk a forrásokról? Strukturáltak az adatok? Csak lekérdezés lehetséges vagy módosítás is? Követelmények: pontosság, teljesség, teljesítmény, inkonzisztenciák kezelése Zárt vagy nyílt világ feltételezés?
15
Deduktív adatbázisok Relációkat predikátumokkal írjuk le. Relációk közti relációkat datalog szabályokkal
írjuk le (Horn klózok, függvényszimbólumok nélkül) Lekérdezések megfelelnek egy datalog programnak Emprelated(Name,Dname) :‐ Empdep(Name,Dname) Emprelated(Name,Dname) :‐ Empdep(Name,D1), Emprelated(D1,Dname)
16
Kis forrás szám melletti integráció
Szolgáltatások
Forrás leírás
Teszt lekérdezések
Ontológiák, Forrás és szolgáltatás leírások
Információ menedzser
Válasz
Fo rr ás
Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés
Pr efe re nc iá k/ El éé rs im od ell
k Le
Végrehajtás
Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést
Szenzorok (soros adatok)
se síté fris kák szti Stati ési ez erv rat k Új rése ké
speciális eset megvalósítása minden esetre, sok konzultáció. Adattárházak: minden adat periódikus feltöltése az adattárházba. 6‐18 hónap bevezetési idő Operációs és döntéstámogatási RDBMS elválasztás. (nem csak adatintegrációra megoldás). Teljesítmény jó, adat lehet, hogy nem friss;. Rendszeres adattisztítás szükséges.
z és de ér
elé ré sek
Forrás fúzionálás Lekérdezés tervezés
Általában ad‐hoc programozás:
Weblapok Strukturált adatok
Monitor
Felhsználói OLAP / Döntéstámogtás/ lekérdezések Adatkockák/ Adatbányászat
Relációs adatbázis (tárház) Adat kinyerő programok Adatforrás
Adat tisztítás
Adatforrás
Adatforrás
17
Integrátor séma Felhasználói OLAP / Döntéstámogtás/ lekérdezések Adatkockák/ Adatbányászat
Relációs adatbázis (tárház) Adat kinyerő programok Adatforrás
Adat tisztítás
Adatforrás
Adatforrás 18
Services
maradnak Lekérdezés végrehajtásakor: Releváns források meghatározása Lekérdezés szétválasztása forrásokra vonatkozó lekérdezésekre. Válaszok begyűjtése a forrásokból, és megfelelő kombinálása a válasz előállításához. Friss adatok A megoldás skálázható
Sensors (streaming Data)
efe re nc e/U
til ity
M od
el
y er Qu
Pr
Adatok a forrásokban
Needs to handle: Multiple objectives, Service composition, Source quality & overlap
Webpages Structured data
Answers
Executor Needs to handle Source/network Interruptions, Runtime uncertainity, replanning
s tistic g Sta atin Upd ing nn pla ts Re ques Re
Virtuális integrációs séma
Source Fusion/ Query Planning
Probing Queries
Ca lls
Ontologies; Source/Service Descriptions
So ur ce
Source Trust
Monitor
Felhasználói lekérdezés
Mediátor:
Fordító motor
Mediált (globális) séma
Optimalizáló Végrehajtó gép
Adatforrás katalógus
wrapper
wrapper
wrapper
Adat forrás
Adat forrás
Adat forrás
Garlic [IBM], Hermes[UMD];Tsimmis, InfoMaster[Stanford]; DISCO[INRIA]; Information Manifold [AT&T]; SIMS/Ariadne[USC];Emerac/Havasu[ASU] 19
Virtuális integrátor architektúra Source Fusion/ Query Planning Needs to handle: Multiple objectives, Service composition, Source quality & overlap
Fordító motor
od el
y
M
en ce /U til ity Pr efe r
Mediált (globális) séma
er
Answers
Sensors (streaming Data)
Executor Needs to handle Source/network Interruptions, Runtime uncertainity, replanning
cs tisti g Sta atin ing nn pla ts Re ques Re
Mediátor:
Qu
Webpages Structured data
Upd
Felhasználói lekérdezés
Services
Probing Queries
Ca lls
Ontologies; Source/Service Descriptions
So ur ce
Source Trust
Monitor
Optimalizáló Végrehajtó gép
Adatforrás katalógus
wrapper
wrapper
wrapper
Adat forrás
Adat forrás
Adat forrás
Források: relációs adatbázisok, weblapok, szövegek. 20