Vizualizace v Information Retrieval Petr Kopka VŠB-TU Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky
Obsah z Co
je Information Retrieval, vizualizace, proces přístupu k informacím z Způsoby vizualizace z Aplikace GraphAnalysis z Závěr z Literatura a zdroje 6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
2
Co je Information Retrieval Lidstvo vytváří obrovské množství informačních pramenů, člověk sám není schopen v takovém množství efektivně hledat z Problém částečně přenesen na výpočetní techniku automatický popis dokumentů nahrazuje práci člověka z Problémy automatického popisu dokumentů 1. jak informaci extrahovat (na základě popisu dokumentu) 2. jak informaci použít k vyhodnocení relevance (stanovení z
relevance dokumentu na daný dotaz je stále na člověku) z
Přenos procesu stanovení relevance na počítač vyžaduje model umožňující snadno měřit relevanci
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
3
Co je Information Retrieval z Model
získávání dat DOTAZY ODEZVA VSTUP
PROCESOR
VÝSTUP
DOKUMENTY
z Problém
– jak reprezentovat data a
dotazy 6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
4
Vizualizace v IR z z z z
Proces vyhledávání dat vyžaduje poskytnutí rozhraní mezi uživatelem a systémem Systém postupně zobrazuje výsledky hledání Problém návrhu rozhraní – člověk uvažuje mnohem komplexněji než počítač Zásady návrhu UI – Zpětná vazba – Nízké zatížení paměti – Různé UI z hlediska odbornosti uživatele
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
5
Proces přístupu k informacím z
Model přístupu k informacím 1. 2. 3. 4. 5. 6. 7. 8.
6.6.2007
Poptávka po informaci Výběr vyhledávacího systému Formulování dotazu Odeslání dotazu do systému Obdržení výsledků v podobě jednotlivých položek Vyhodnocení výsledků Konec. Nebo Přeformulování dotazu a opakování od kroku 4. Vizualizace v Information Retrieval, Petr Kopka, 2007
6
Způsoby vizualizace v IR z z z
Textová Grafická Animovaná
Výhody grafické vizualizace – – – – – 6.6.2007
Stručná reprezentace (množství dat rozdílných typů) Přibližnost (shluky, zachycení poměrů) Důraz na souvislosti (důležitý rys v souvislostech) Schopnost změny perspektivy Stimulace myšlení správným směrem Vizualizace v Information Retrieval, Petr Kopka, 2007
7
Způsoby vizualizace v IR Overture 11
z Jednoduchý
Yahoo
graf pojmů
37
(graf asociací pojmů)
29
36
Google
MSN
17
24 6
4
Sun
Microsoft 7
Convera
32
21
7
Autonomy 11
6 Verity 9
IBM
Lycos
3 Findwhat
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
8
Způsoby vizualizace v IR z Histogramy z Spojnicový
graf
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
9
Způsoby vizualizace v IR z Kruhový
6.6.2007
graf
Vizualizace v Information Retrieval, Petr Kopka, 2007
10
Způsoby vizualizace v IR z SOM – WEBSOM
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
11
Způsoby vizualizace v IR z Hyperbolické
stromy
z Bifokální
stromy
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
12
Způsoby vizualizace v IR z Třídimenzionální z Hybridní
6.6.2007
metody
nástroje
Vizualizace v Information Retrieval, Petr Kopka, 2007
13
The Netron Project z Hlavní
aktivita – vývoj software nástrojů umožňujících demostrovat schopnost grafů a diagramů vizualizovat data z Kompletní kód volně k dispozici z Možnost vyvíjet vlastní aplikace založené na knihovnách TNP
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
14
The Netron Project - balík GraphAnalysis z GraphApplications – Graph Analysis
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
15
Graph Analysis - následující vývoj z
Následující vývoj projektu – velikost uzlů – gradientní hrany – 3D uzly
z
Další vlastnosti 3D zobrazení – vybrání rozsahu dat a závislostí – zachování zobrazení ostatních dat
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
16
GraphAnalysis – vstupní data z z
Symetrická matice Binární strom popsaný pomocí XML
6.6.2007
0
5
1
1
3
0
5
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0 12
0
3
0
0 12
0
0
0
0
0
0
0
0
Vizualizace v Information Retrieval, Petr Kopka, 2007
17
GraphAnalysis – třídní diagram
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
18
GraphAnalysis – omezení zobrazení z Vizualizace
symetrické matice čítající sto objektů (bez omezení)
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
19
GraphAnalysis – omezení zobrazení z Volba
omezení zobrazovaných uzlů a hran (8 – 92)
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
20
GraphAnalysis – omezení zobrazení z Volba
omezení zobrazovaných uzlů a hran (90 – 100)
6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
21
Závěr Popis vizualizačních metod z Vizualizace testována na matici podobnosti s 1000 objekty z Možnosti dalšího rozšíření z
– Přiřazení textových hodnot uzlům – Možnost manipulace s uzly – Rastrové a vektorové výstupní formáty 6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
22
Literatura a zdroje z z z z z z z z z z z z z
Ricardo Baeza-Yates and Berthier Ribeiro-Neto: Modern Information Retrieval C. J. van Rijsbergen: Information Retrieval (second ed.) http://www.dcs.gla.ac.uk/Keith/Preface.html Shneiderman, B. Designing the User Interface: Strategies for Effective Human-
Computer Interaction (3 ed.) Teuvo Kohonen: Self-Organizing Maps Ronen Feldman, James Sanger: The Text Mining Handbook Katy Börner, Chaomei Chen, Kevin Boyack: Visualizing Knowledge Domains Jörg Ontrup, Helge Ritter: Hyperbolic Self-Organizing Maps for Semantic Navigation. Ricardo A. Cava, Paulo R. G. Luzzardi, Carla M. D. S. Freitas: The Bifocal Tree: a Technique for the Visualization of Hierarchical Information Structures Ivo Vondrák: Umělá inteligence a neuronové sítě Jan Martinovič: Information Retrieval a shlukování metodou WEBSOM Pokorný J., Snášel V., Húsek D.: Dokumentografické informacní systémy Dalibor Kačmář: Programujeme .NET aplikace ve Visual Studiu .NET Chris Sells: C# a WinForms – programování formulářů Windows 6.6.2007
Vizualizace v Information Retrieval, Petr Kopka, 2007
23