.
.
! Laboratoř pro analýzu a modelování dat POSSIBILISTIC INFORMATION: Vědecký tutoriál, část I A Tutorial Vilém Vychodil (Univerzita Palackého v Olomouci)
George J. Klir State University of New York (SUNY) Binghamton, New York 13902, USA
[email protected] Palacky University, Olomouc, Czech Republic
!
prepared for International Centre for Information and Uncertainty, Palacky University, Olomouc
! ! V. Vychodil (DAMOL)
!
Vědecký tutoriál I
18. září 2012
1 / 14
Laboratoř pro analýzu a modelování dat Historie: SUNY Binghamton, T. J. Watson School (2007) Odborní zaměstnanci laboratoře: vedoucí výzkumný pracovník (R. Bělohlávek) výzkumní pracovníci (J. Konečný, M. Krupka, P. Osička, V. Vychodil) studenti doktorského studia Výzkumné a vzdělávací aktivity laboratoře: buduje vědeckou školu a podporuje výzkumu v oblasti analýzy dat pořádá vědecké semináře pro akademické pracovníky a studenty pořádá čtecí semináře pro akademické pracovníky a studenty pořádá vědecký studentský seminář
V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
2 / 14
...
http://damol.info/
V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
3 / 14
Co je analýza dat? Zabývá se: formální popisem a hledáním „informace skryté v datech“, různá podoba dat, různá podoba „hledané informace“: shluky, závislosti, … bezpečnost (kryptografie, steganografie) × získávání znalostí (náš případ). Zahrnuje: formální metody (statistika, lineární algebra, logika, …), algoritmické problémy (možnost nalézt řešení pomocí počítačů, …), další (vizualizace a interpretace závislostí, …). Široká disciplína, různé metody závisející na vstupu a cíli analýzy. V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
4 / 14
Co je relační analýza dat? Analýza vztahů v tabulkových datech Alois Bolek Carda David . . .
věk 27 32 28 17 . . .
stav svobodný vdovec ženatý svobodný . . .
zaměstnaný 1 0 1 0 . . .
hodnocení ** * *** * . . .
··· ··· ··· ···
Řádky = objekty (osoby, výrobky, zákazníci, …) Sloupce = atributy (vlastnosti, …) Hodnoty v tabulkách: binární data (logická 0 a 1) – vztah má/nemá ordinální data (obecně víc hodnot mezi kterými je hierarchický vztah) další druhy: nominální, symbolická data, … V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
5 / 14
Proč je relační analýza dat důležitá? Zajímavá, protože: základní typ dat (redukovatelnost na tabulková data) data jsou k dispozici a je jich hodně (relační databáze) vyřešený problém: jak skladovat (velká) data otevřený problém: jak z uložených dat získávat další informace, znalosti, … (KDD: Knowledge Discovery from Data – dolování znalostí z dat) Výstupy relační analýzy dat: konceptuální shlukování závislosti v datech redukce dimensionality dat podobnostní dotazování a další, …
V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
6 / 14
RAD: Konceptuální shlukování
pacienti
Motivace: Nalezení zajímavých shluků v datech sdílejících stejné atributy. Vede na hierarchický pohled na koncepty v datech – uživatelsky zajímavý pohled na data (aplikace v lékařství, bezpečnosti, …). symptomy × × × × × × ××× × ×× × × ×× × ×
Z=⇒
Bělohlávek: Fuzzy Relational Systems: Foundations and Principles. Kluwer Academic/Plenum Press, New York (2002) V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
7 / 14
RAD: Závislosti v datech
zákazníci
Motivace: Rozpoznání závislostí mezi přítomností atributů nebo jejich hodnotami. Cílem je hledat pravidla (formule) nebo jejich množiny charakterizující závislosti přítomné v datech (aplikace v marketingu …). produkty × × × × × × ××× × ×× × × ×× × ×
Z=⇒
pokud zákazník koupí syrečky a chleba, pak si koupí i pivo
Bělohlávek, Vychodil: Fuzzy attribute logic over complete residuated lattices. Journal of Experimental and Theoretical Artificial Intelligence 18(4): 471–480 (2006) V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
8 / 14
RAD: Redukce dimenzionality dat
symptomy ×× ×× ××××× ×× ××××× ×× × × × × × ×× ×
=
pacienti
pacienti
Motivace: Vyjádření (velkého počtu) atributů v datech pomocí (malého počtu) nových základních atributů (faktorů) tak, aby byla zachována plná informace o vlastnostech objektů (aplikace v předzpracování dat, bezpečnosti, …) 1 2 3 × × ×× ×× × ××
◦
symptomy 1 ×× 2 × × × 3 ×× ×× ×
Bělohlávek, Vychodil: Discovery of optimal factors in binary data via a novel method of matrix decomposition. Journal of Computer and System Sciences 76(1):3–20 (2010) V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
9 / 14
RAD: Podobnostní dotazování Motivace: Získání odpovědí na dotazy ohledně dat vyjadřující podobnost hodnot. Vede na problémy rozšíření databázových systémů o podobnosti a ranky a jejich zpracování (aplikace v marketingu). 0.93 0.89 0.86 0.85 0.81 0.81 0.75 0.37
agent plocha lokalita cena Brown 1185 Vestal $228,500 Clark 1120 Endicott $235,800 Brown 950 Binghamton $189,000 Brown 1300 Binghamton $248,600 Clark 1200 Vestal $293,500 Davis 1250 Binghamton $287,300 Davis 1040 Vestal $286,200 Davis 1890 Endicott $345,000
Domy na prodej za $200,000 s plochou 1200.
Bělohlávek, Vychodil: Query systems in similarity-based databases: logical foundations, expressive power, and completeness. ACM Symp. Applied Computing, 1648–1655 (2010) V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
10 / 14
DAMOL: Shrnutí výsledků za předchozí akademický rok Výzkumné aktivity: logika v informatice (zejména fuzzy logika, čistá i aplikovaná), analýza dat (znalostní inženýrství, dolování informací z dat). Výstupy výzkumných aktivit: odborné práce, prezentace na konferencích, výstup laboratoře: ≥80 článků v časopisech, ≥60 příspěvků na konferencích Další: účast na uznávaných zahraničních konferencích, krátkodobé stáže na zahraničních pracovištích, pořádání seminářů (22 vědeckých, 15 studentských, 21 čtecích), práce se zahraničními hosty (12 hostů). V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
11 / 14
DAMOL: Vzdělávací činnost Čtecí semináře: probíhá formou referátů z odborných monografií a článků, vzdělávání akademických pracovníků a studentů, důležitý aspekt: samostudium (nezkouší se). Studentské semináře: přednášení odborných témat „přijatelnou formou,“ získání nového vhledu, možnost volby diplomové práce podle témat semináře, další rysy semináře: studentské přednášky, neformální diskuse, … důležitý aspekt: motivační úkoly (mohou pomoci). Cíl: Zvedat odbornou kvalifikaci cílových skupin. V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
12 / 14
DAMOL: Nadcházející akce v zimním semestru 2012 Vědecký seminář (Čt, 11:30, učebna 5006) Sergei Obiedkov (NRU HSE, Russia) Neville Holmes (University of Tasmania, Australia) Pablo Cordero (University of Malaga, Spain) Willem Waegeman (Ghent University, Belgium) doktorandi: Lucie Urbanová, Tomáš Kühr, Markéta Krmelová (KI PřF UP) Čtecí seminář (Čt, 19:00, zasedací místnost katedry) matematická fuzzy logika (referáty z knih P. Hájka, R. Bělohlávka, …) Studentský vědecký seminář (více M. Krupka v druhé části tutoriálu)
V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
13 / 14
DĚKUJI ZA POZORNOST
V. Vychodil (DAMOL)
Vědecký tutoriál I
18. září 2012
14 / 14