Získávání dat z databází 1
DMINA 2010
Získávání dat z databází
Motto Kde je moudrost? Ztracena ve znalostech.
Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou data?
Ztracena v databázích. T. S. Eliot, J. Celko
Přibližný sylabus 1. Data mining 2. Základy pravděpodobnosti a statistiky 3. Statistika. Kontingenční tabulky. Regresní analýza. Diskriminační analýza, shluková analýza 4. Zdroje. Relační DB. OLAP. Datové sklady 5. Strojové učení 6. Rozhodovací stromy 7. Asociační pravidla 8. Rozhodovací pravidla 9. Neuronové sítě, Bayesovská klasifikace 10. Vyhodnocení výsledků 11. Příprava dat 12. Systémy pro dobývání znalostí z DB
Software
Excel či jiný tabulkový kalkulátor Statistica RapidMiner Tanagra WEKA
Literatura
Berka Petr. Dobývání znalostí z databází. Praha, 2003. ISBN 80-200-1062-9. LACKO, M. Databáze: datové sklady, OLAP a dolování dat. Computer
Press, 2003. ISBN 80-7226-969-0.
Zdroje na webu Software http://rapid-i.com/content/view/10/69/lang,en http://www.ailab.si/orange http://www.cs.waikato.ac.nz/ml/weka Data, kurzy http://euromise.vse.cz/kdd http://www.kdnuggets.com http://archive.ics.uci.edu/ml/datasets.html http://maya.cs.depaul.edu/~classes/ect584/weka/index.html Pravděpodobnost a statistika http://homen.vsb.cz/~oti73/cdpast1
Požadavky
aktivní přístup k dané problematice vypracovat projekt z oblasti DM pomocí vybraného open-source softwarového nástroje zahrnující dostatečně velká sada dat (učící a testovací vzorek) předzpracování dat formulace a ověření (vyvrácení) hypotéz vybrané učící metody rozhodovací stromy, asociační pravidla testování vizualizace vyhodnocení
Data mining
Data Mining (DM)- dolování dat – dolování z dat Knowledge Discovering in Databases (KDD) získávání znalostí z databází Data Fishing, Data Dredging Data Archaeology Information Harvesting Information Discovery Knowledge Extraction … Inteligence získaná z informací a dat společnosti (SAS) For also knowledge is power Francis Bacon
Počátky DM (90. léta 20. století)
data v relačních databázích umělá inteligence – metody strojového učení statistika – modelování, analytické metody
potřeba používat zpracované údaje pro podporu strategického rozhodování Cíl
získat pravdivé, nové zákonitosti, které lze k něčemu využít v daném konkrétním oboru (marketing, technika, ekonomika, psychologie, medicína …) automatizace procesu získání zajímavých vzorů chování z reálných dat, tvorba jejich modelů - pomocí nástrojů strojového učení, statistiky, databázových technologií,…
Vymezení pojmu KDD netriviální získávání implicitních dříve neznámých a potenciálně užitečných informací (znalostí) z dat Data Mining is the non-trivial process of identifying • valid • novel • potentially useful • and ultimately understandable patterns in data Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, Chapter 1, AAAI/MIT Press 1996
Proces dobývání dat Interaktivní a iterativní proces selekce předzpracování transformace vlastní dobývání interpretace příprava dat
Proces dobývání dat
Výchozí data
Předzpracovaná data
Vybraná data
selekce
transformace
předzpracování
Vzorky Znalosti
interpretace
Transformovaná data
Manažerský pohled na proces KDD 1. Řešitelský tým
2. Specifikace problému
7. Interpretace
Reálný problém • impuls pro zahájení procesu dobývání dat Cíl • získat co nejvíc relevantních informací vhodných k řešení daného problému
6. Dolování dat
5. Předzpracování dat
3. Získání dat 4. Výběr metod
Etapy KDD (1 – 4) 1. Stanovení řešitelského týmu – skupina expertů na danou problematiku, na data, databáze, na metody KDD 2. Specifikace problému – v kontextu dobývání dat 3. Zisk všech dostupných dat • může dojít k přeformulování problému • otázka kvality datové základny • externí data popisující prostředí, v němž se analyzované děje odehrávají (období, reklama, politická situace, počasí…) 4. Volba metody pro analýzu dat (ev. kombinace více metod) • • • • • • •
klasifikační metody metody explorační analýzy dat metody pro získávání asociačních pravidel rozhodovací stromy genetické algoritmy neuronové sítě bayesovské sítě
Etapy KDD (5 – 6) 5. předzpracování dat • data se převedou do tvaru požadovaného rpo aplikaci metod • vyčištění dat • doplnění chybějících dat 6. vlastní data mining • aplikace zvolených analytických metod • jednotlivé metody mohou být aplikovány i vícekrát – hodnoty vstupních běhů závisejí na výstupech předchozích běhů • typy metod se kombinují na základě dílčích výsledků
Etapa 7 - interpretace
zpracování většinou velkého množství výsledků jednotlivých metod některé výsledky nejsou pro uživatele zajímavé či naopak jsou známé některé výsledky se dají použít přímo, některé je třeba podat srozumitelněji pro uživatele výsledky se uspořádají do analytické zprávy výstupem může být i provedení určité akce – např. spuštění monitorovacího programu
Terminologie
Koncept – oblast zájmu – co chceme předpověď počasí Instance – jednotlivá data data o počasí jednoho konkrétního dne Atributy: jednotlivé vlastnosti instance teplota, tlak, množství srážek
Úlohy pro data mining
klasifikace shlukování asociace – zjišťování pravidel (A B C se vyskytují často společně) vizualizace sumarizace detekce odchylek a chyb odhady link analýza …
Klasifikace Určit instanční třídu pro jednotlivé instance (výskyty dat)
Postupy - statistika - rozhodovací stromy - neuronové sítě ...
Shlukování Najít "přirozené" skupiny instancí v datech
Asociační pravidla Transakce Položka Produkt 1 MLÉKO, CHLÉB, VEJCE 2 CHLÉB, CUKR 3 CHLÉB, CEREÁLIE 4 MLÉKO, CHLÉB, CUKR 5 MLÉKO, CEREÁLIE 6 CHLÉB, CEREÁLIE 7 MLÉKO, CEREÁLIE 8 MLÉKO, CHLÉB, CEREÁLIE, VEJCE 9 MLÉKO, CHLÉB, CEREÁLIE
Časté skupiny položek mléko, chléb (4) chléb, cereálie (3) mléko, chléb, cereálie (2)
Pravidla Mléko Chléb (66%)
Úlohy pro data mining
klasifikace (predikce) deskripce hledání nuggetů Koncept
Klasifikace • cílem je nalézt znalosti použitelné pro klasifikaci nových vzorů • získané znalosti by měly co nejvíce odpovídat danému konceptu • dává se přednost přesnosti pokrytí na úkor jednoduchosti
Z
Predikce – snaha odhadnout ze starších hodnot nějaké veličiny její vývoj v budoucnu (předpověď počasí, kurzy, akcie…)
Deskripce
cílem je nalézt dominantní strukturu nebo vazby obsažené v daných datech požadují se srozumitelné znalosti pokrývající daný koncept
menší množství méně přesných znalostí
Koncept
Z
Popis (deskripce)
Hledání nuggetů
zajímavé, nové (překvapivé, dosud neznámé) znalosti, které nemusejí plně pokrývat daný koncept
Koncept
Nuggety Z
Přehled typických úloh pro DM
segmentace a klasifikace klientů banky rozpoznávání problémových klientů rozpoznávání vysoce bonitních klientů segmentace a klasifikace klientů pojišťovny predikce vývoje kurzu akcií predikce spotřeby elektrické energie analýza poruch v sítích analýza poruch automobilů analýza důvodů změny poskytovatele služeb (proč jsme přišli o zákazníky) rozbor nemocnosti – predikce epidemií analýza nákupního košíku
Metodiky dobývání znalostí Cíl Poskytnout uživatelům jednotný rámec pro řešení různých úloh z oblasti dobývání znalostí z databází
metodiky vyvinuté výrobci softwarových systémů (5A, SEMMA) metodiky vyvinuté výzkumnými a komerčními institucemi jakožto softwarově nezávislé (CRISP – DM)
sdílení a přenos zkušeností z úspěšných produktů
Metodika 5A
Assess – posouzení potřeb projektu – stanovení kontextu – cílů, strategií a procesů Access – shromáždění potřebných data a jejich příprava Analyze – provedení analýz přeměnit data na znalosti používá se více metod (porovnání výsledků, spolehlivosti, efektivity) Act – přeměna znalostí na akční znalosti doporučení, dodatečné otázky a následná rozhodnutí jasná a srozumitelná prezentace nalezených výsledků Automate – převedení výsledků analýzy do praxe možnost vytvoření rozhraní pro snadné použití umožnit aktualizaci výsledků dle nových modelů
metodika SEMMA (Enterprise Miner)
SAMPLE – výběr vhodných objektů EXPLORE – vizuální explorace a redukce dat MODIFY – seskupování objektů a hodnot atributů, datové transformace MODEL – analýza dat – neuronové sítě, rozhodovací stromy, statistické techniky, asociace, shlukování ASSESS – porovnání modelů a interpretace (srozumitelně pro uživatele)
výběr vzorku dat
SAMPLE
EXPLORE
MODIFY
MODEL
ASSESS
vizualizace dat
shlukování asociace
selekce a vytváření veličin
selekce a vytváření veličin
neuronové sítě
modely založené na stromech
zhodnocení modelu
logistické modely
Metodika CRISP-DM Cross-Industry Standard Process for Data Mining – vznikl v rámci evropského výzkumného projektu http://www.crisp-dm.org Cíl navrhnout univerzální postup použitelný v nejrůznějších komerčních aplikacích standardní model procesu DM průvodce možnými problémy a jejich řešení v reálných aplikacích Proces DM 6 fází pořadí není přesně určeno výsledky jedné fáze ovlivňují (vstupují) do fáze další některé kroky a fáze je nutné provádět opakovaně
Životní cyklus procesu DM
POROZUMĚNÍ PROBLEMATICE
POROZUMĚNÍ DATŮM
VYUŽITÍ VÝSLEDKŮ
DATA
PŘÍPRAVA DAT
MODELOVÁNÍ VYHODNOCENÍ VÝSLEDKŮ
Fáze DM
porozumění problematice (Business Understanding) pochopení cílů úlohy a požadavků na řešení revize zdrojů (datových, výpočetních i lidských) předběžný plán prací porozumění datům (Data Understanding) prvotní sběr dat seznámení s daty, posouzení kvality, vytipování zajímavých podmnožin záznamů v datech výpočet deskriptivních charakteristik dat – rozsahy, četnosti atributů, průměrné hodnoty
Fáze DM – příprava dat příprava, předzpracování dat (Data Preparation) vytvoření datového souboru, který bude zpracováván jednotlivými analytickými metodami – data by měla obsahovat relevantní údaje a být ve tvaru, který vyžaduje příslušná analytická metoda selekce dat čištění transformace dat (typové konverze, diskretizace, binomizace …) doplnění chybějících údajů integrování dat příslušné úpravy se obvykle provádějí opakovaně
Fáze DM – modelování, vyhodnocení výsledků
modelování (Modeling) použití analytických metod pro dobývání znalostí vybrat vhodné metody, nastavit vhodně parametry metod iterativní činnost – opakovaná aplikace algoritmů s různými parametry může vést k potřebě modifikovat data ověření nalezených znalostí
vyhodnocení výsledků (Evaluation) z pohledu manažerů byly splněny cíle formulované v zadání úlohy rozhodnutí o způsobu využití výsledků
Fáze DM – využití výsledků
využití výsledků (Deployment) upravit získané znalosti do podoby využitelné pro zákazníka vizualizace implementace klasifikačního algoritmu v user-friendly podobě příprava uživatelského manuálu instalace programů zaškolení uživatelů změna metod řešení příslušných úkolů (např. poskytování úvěrů)