Tudásalapú információ integráció (A Szemantikus Web megközelítés és a másik irány)
Tanszéki értekezlet, 2008. május 14.
1
Miért van szükségünk ilyesmire? (Alkalmazások) • WWW: – Keresés a weben (pl. összehasonlítás alapú vásárlás) – Portál építések több adatforrás felhasználásával – B2B, elektronikus piacterek
• Tudomány és kultúra: – Asztrofizika: égi jelenségek gyűjtése. – Kultúra: kulturális információs adatbázisok egységes elérése országhatárokon túl – Genetika: gén információk integrálása
• Vállalati adatintegráció – Egy átlagos KNV 49 adatbázist alkalmaz és IT költségvetésének 30%-át az adatintegrációra költi (US, 2002)
2
Információ integráció Az információ integráció célja strukturált és félig-strukturált információforrások együttes kezelése, információigények egységes felületen történő kiszolgálása Területek: – Intézmények (közép- és nagyvállalatok, államigazgatás) – Web Megközelítési módok: – Források kiegészítése (szemantikus web koncepció) – Lekérdező eszközök fejlesztése (mediátor és információintegrációs rendszerek)
3
k i t ep k Sz
ak n k o s u
Miért nem elég: • Keresőgépek szövegalapú keresést végeznek – Jól működik egyedi dokumentumokon • Nem tudnak integrálni több dokumentumból származó információkat • Nem képesek hatékony általánosításra • Nem tudnak dokumentumokat és adatbázisokat összekapcsolni
4
k i t ep k Sz • •
ak n k o s u
Összehasonlítás alapú vásárlás?
Hasonló források De: • Eltérő fókusz • Eltérő a spektrumuk az adatbázisoknak • Szolgáltatások • Új kihívás • Az “adattár” megközelítés nem működik • Kézi forrásleírás, kezelés korlátai
Junglee Netbot
DealPilot.Com
5
ak n k o s u
adatbázisok k i t ep k elosztott adatbázisok Sz • Közös séma hiánya – Források heterogén sémákkal (és fogalmakkal, ontológiákkal) rendelkeznek – Félig-strukturált források Lekérdezés (SQL) Adatbázis kezelés • Régi források (DBMS) Adatbázis -Tároló kezelés (relációs) – Nem relációs sémák -Lekérdezés végrehajtás Válasz -Nézetek kezelése (adat – Eltérő elérési módok -(Tranzakció kezelés) rekordok) • Független források – Nincs közös adminisztráció – Nem kezelt forrás tartalmi átfedések • Nehezen előre jelezhető viselkedés – Lekérdezés végrehajtás bonyolult • Általában csak olvashatóak – Ez lehet szerencsés is 6 – Terjednek a tranzakció kezelési megoldások a weben
Miért nem csak
Az
y n rá i ik y eg
A szemantikus web koncepció
„A szemantikus web egy kiterjesztése a jelenlegi webnek, amelyben az információknak jól definiált jelentést adhatunk, lehetővé téve a gépek és felhasználók közti jobb együttműködést.„ „A szemantikus web elérhetővé teszi a tudást, mint a web a hypertextet.” Tim Berners-Lee 7
Szolgáltatások
Forrás leírás
Web lapok Strukturált adatok
Mediátor Forrás fúzionálás/ Lekérdezés tervezés
Szenzorok (soros adatok)
Le ké rd ez és
A
sik á m
y n á ir
Végrehajtás
Monitor
Válasz 8
Weblapok
rs im
k és e l ér se
od e
de z
ll
és
Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés
Szenzorok (soros adatok)
Fo rrá
Forrás fúzionálás Lekérdezés tervezés
k/E léé
Végrehajtás Válasz
Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést
se s íté fr is ikák is z t S ta t i z és r ve ate Újr ések kér
Információ menedzser
Teszt lekérdezések
Strukturált adatok
ér
•
Ontológiák, Forrás és szolgáltatás leírások
re nc iá
•
Forrás leírás
Le k
•
Szolgáltatások
Felhasználói lekérdezések megfogalmazása a mediált sémán. Adatok tárolása lokális sémában. A tárolt információ (tartalom) ismerete alapján megfogalmazható a leképezés a sémák között. A mediátor alkalmazza a leképezést a felhasználói kérdés lefordítására a forrás elérésekhez.
Pr efe
•
Monitor 9
Kis forrás szám melletti integráció z és de ér
Válasz
Fo rr ás
Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés
Végrehajtás
Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést
Szenzorok (soros adatok)
elé ré sek
Forrás fúzionálás Lekérdezés tervezés
k Le
Információ menedzser
Weblapok Strukturált adatok
se síté fris kák szti Stati ési ez erv rat k Új rése ké
•
Általában ad-hoc programozás: speciális eset megvalósítása minden esetre, sok konzultáció. Adattárházak: minden adat periódikus feltöltése az adattárházba. – 6-18 hónap bevezetési idő – Operációs és döntéstámogatási RDBMS elválasztás. (nem csak adatintegrációra megoldás). – Teljesítmény jó, – adat lehet, hogy nem friss;. – Rendszeres adattisztítás szükséges.
Teszt lekérdezések
Ontológiák, Forrás és szolgáltatás leírások
Pr efe re nc iá k/ El éé rs im od ell
•
Szolgáltatások
Forrás leírás
Monitor
Felhsználói OLAP / Döntéstámogtás/ lekérdezések Adatkockák/ Adatbányászat
Relációs adatbázis (tárház) Adat kinyerő programok Adatforrás
Adat tisztítás
Adatforrás
Adatforrás
10
Szolgáltatások
Forrás leírás
•
• •
k Le
Információ menedzser
Válasz
elé ré sek
Forrás fúzionálás Lekérdezés tervezés Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés
Pr efe re nc iá k/ El éé rs im od ell
Adatok a forrásokban maradnak Lekérdezés végrehajtásakor: – Releváns források meghatározása – Lekérdezés szétválasztása forrásokra vonatkozó lekérdezésekre. – Válaszok begyűjtése a forrásokból, és megfelelő kombinálása a válasz előállításához. Friss adatok A megoldás skálázható
Végrehajtás
Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést
Monitor
Felhasználói lekérdezés
Mediátor:
Fordító motor
Mediált (globális) séma
Optimalizáló Végrehajtó gép
Weblapok Strukturált adatok
se síté fris kák szti Stati ési ez erv rat k Új rése ké
•
z és de ér
Teszt lekérdezések
Fo rr ás
Virtuális integrációs séma
Ontológiák, Forrás és szolgáltatás leírások
Adatforrás katalógus
wrapper
wrapper
wrapper
Adat forrás
Adat forrás
Adat forrás
11
Szenzorok (soros adatok)
re nc iá
k/E léé
rs im
k
od e
ll
Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés
Pr efe
Végrehajtás Válasz
Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést
se s íté fr is ikák is z t si S ta t ezé erv rat k Új ése kér
Automata tervezés -Nyelvek tervezése s -Szolgáltatások kompozíciója zé e d ér -Reaktív tervezés/ k Le terv monitorozás
Forrás fúzionálás Lekérdezés tervezés
Tudásreprezentáció - Ontológiák - Metaadatok - Következtetés - Lekérdező nyelvek és e
Tanulás/bányászás -Forrás felkutatás -Forrás statisztikák -Wrapper tanulás
Teszt lekérdezések
l ér
Ontológiák, Forrás és szolgáltatás leírások
se
Forrás leírás
Fo rrá
Hol az MI szerepe?
Monitor 12
Köszönöm a figyelmet!
13