Motivace Míry pro hodnocení Případová studie Závěr
Centralizované a decentralizované hodnocení kvality webových zdrojů Martin Řimnáč, Roman Špánek Ústav informatiky AV ČR, v.v.i.
Datakon 15.-19.10. 2011, Mikulov
Martin Řimnáč, Roman Špánek
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
1
Motivace Běžné přístupy Anotace na webu
2
Míry pro hodnocení
3
Případová studie Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
4
Závěr
Martin Řimnáč, Roman Špánek
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Běžné přístupy Anotace na webu
Motivace
poskytuje zdroj relevantní data, kterým mohu věřit? hodnocení - přirozené subjektivní chování člověka člověk: důvěra v okolí člověka, doménoví proradci,. . .
data (web): přímé nebo nepřímé míry centralizované nebo decentralizovaná správa
Martin Řimnáč, Roman Špánek
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Běžné přístupy Anotace na webu
Běžné přístupy na webu
nepřímé míry návštěvnost stránky proklik na stránku Page Rank (Google) nic neříkají o presentovaných datech
centralizovaná správa vlastní správa nad proindexovanou doménou dokumentů modifikace algoritmů pro vyčíslení měr
Martin Řimnáč, Roman Špánek
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Běžné přístupy Anotace na webu
Běžné přístupy na webu
nepřímé míry návštěvnost stránky proklik na stránku Page Rank (Google) nic neříkají o presentovaných datech
centralizovaná správa vlastní správa nad proindexovanou doménou dokumentů modifikace algoritmů pro vyčíslení měr
Strojová nezpracovatelnost dat prezentovaných na webu vynucuje použití nepřímých měr.
Martin Řimnáč, Roman Špánek
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Běžné přístupy Anotace na webu
Anotovaná data na webu
anotace dat - moderní rozšíření webových stránek (mikroformáty) RDFa, HTML5,. . .
umožňuje hodnit data webových stránek přímo při použití obecných identifikátorů - lze data agregovat přes zdroje autonomie zdrojů, avšak jejich spolupráce (včetně verifikace) správa 1
2
centralizovaná - index nad doménou dokumentů, typicky vyžadující kopii (části) dat decentralizovaná - každý zdroj udržuje metadata o svém okolí
Martin Řimnáč, Roman Špánek
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Návrh měr pro hodnocení Vstup: extrahované RDF trojice (s, p, o) od zdroje a v čase t s, p ∈ R, o ∈ R ∪ L , R . . resource, L . . literal Parametry hodnotící dvě množiny T1 ,T2 : statické
α . . sdílení: průnik trojic mezi T1 a T2 δ . . nekonzistence s1 = s2 ∧ p1 = p2 ∧ o1 6= o2 ∧ o1 , o2 ∈ L při neexistenci prvku v druhé množině
dynamické - časové okno (t − τ, τ > β . . potvrzení - průnik trojic T1 , které byly v T2 dříve t1 > t2 : 1 potvrzuje nová data z 2 - zdroj rychleji reagující na změny
γ . . validace - průnik trojic T1 , které byly v T2 později t1 < t2 : schopnost potvrzovat (ověřovat) data rychlejších zdrojů
Martin Řimnáč, Roman Špánek
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Návrh měr pro hodnocení Vstup: extrahované RDF trojice (s, p, o) od zdroje a v čase t s, p ∈ R, o ∈ R ∪ L , R . . resource, L . . literal Parametry hodnotící dvě množiny T1 ,T2 : statické
α . . sdílení: průnik trojic mezi T1 a T2 δ . . nekonzistence s1 = s2 ∧ p1 = p2 ∧ o1 6= o2 ∧ o1 , o2 ∈ L při neexistenci prvku v druhé množině
dynamické - časové okno (t − τ, τ > β . . potvrzení - průnik trojic T1 , které byly v T2 dříve t1 > t2 : 1 potvrzuje nová data z 2 - zdroj rychleji reagující na změny
γ . . validace - průnik trojic T1 , které byly v T2 později t1 < t2 : schopnost potvrzovat (ověřovat) data rychlejších zdrojů
Přístup: centralizovaný: T1 . . trojice hodnoceného zdroje, T2 . . trojice všech zdrojů decentralizovaný: T1 . . trojice hodnoceného zdroje, T2 . . trojice hodnotícího zdroje Martin Řimnáč, Roman Špánek
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
Případová studie - Online výsledky tenisových zápasů
Vstup: 5 zdrojů Výstup: 1 2
3
centralizovaný přístup decentralizovaný přístup agregace decentralizovaného přístupu
Martin Řimnáč, Roman Špánek
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
Centralizovaná správa - sdílení α
Sdílení
Martin Řimnáč, Roman Špánek
Počet trojic
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
Centralizovaná správa - potvrzování β - validace γ
Potvrzování
Martin Řimnáč, Roman Špánek
Validace
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
Centralizovaná správa - reputace
Potvrzování
Martin Řimnáč, Roman Špánek
ρ=α
1+β1+γ 2 2
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
Centralizovaná správa - reputace
Potvrzování
ρ=α
1+β1+γ 2 2 Útok
1 2
3
Martin Řimnáč, Roman Špánek
zdroj vytvoří kopii sama sebe získá zdroj, který potvrdí jeho data zvýšení parametru sdílení, potvrzení
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
Decentralizovaná správa
u centralizované správy - každý zdroj optimalizuje k vyšší ρ výběr trojic, aktualizace pouze části dat podvodné jednání
decentralizovaná správa zdroj nebude poškozovat sám sebe možnost detekce transitivních vazeb Proč spolupracovat s pomalejším zdrojem kopírujícím cizí data?
důraz na autonomii zdroje
Martin Řimnáč, Roman Špánek
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
Decentralizovaná správa - sdílení α
livescore.com
Martin Řimnáč, Roman Špánek
yahoo.com
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
Decentralizovaná správa - potvrzování β
livescore.com
Martin Řimnáč, Roman Špánek
yahoo.com
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
Decentralizovaná správa - tok dat β − γ
livescore.com
Martin Řimnáč, Roman Špánek
yahoo.com
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
Agregace decentralizované správy
snaha z decentralizováno přístupu získat centralizovaný v praxi komplikována nutností zdrojů veřejně ohodnotit své okolí
Martin Řimnáč, Roman Špánek
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
Agregace - sdílení α
agregace
Martin Řimnáč, Roman Špánek
centralizovaná správa
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Centralizovaná správa Decentralizovaná správa Agregace decentralizované správy
Agregace - reputace ρ
agregace
Martin Řimnáč, Roman Špánek
centralizovaná správa
Hodnocení kvality webových zdrojů
Motivace Míry pro hodnocení Případová studie Závěr
Závěr
1
Centralizovaná správa ideální pro uživatele bez preference zdroje náchylnost k útokům, přeoptimalizovanosti
2
Decentralizovaná správa ideální pro zdroje, úzká kooperace ideální pro uživatele preferující konkrétní zdroj není důvod útočit
3
Agregace decentralizované správy dává pouze přibližné výsledky
Martin Řimnáč, Roman Špánek
Hodnocení kvality webových zdrojů