Získávání dat z databází 1 DMINA 2010

Získávání dat z databází 1

DMINA 2010

Získávání dat z databází

Motto Kde je moudrost? Ztracena ve znalostech.

Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou data?

Ztracena v databázích. T. S. Eliot, J. Celko

Přibližný sylabus 1. Data mining 2. Základy pravděpodobnosti a statistiky 3. Statistika. Kontingenční tabulky. Regresní analýza. Diskriminační analýza, shluková analýza 4. Zdroje. Relační DB. OLAP. Datové sklady 5. Strojové učení 6. Rozhodovací stromy 7. Asociační pravidla 8. Rozhodovací pravidla 9. Neuronové sítě, Bayesovská klasifikace 10. Vyhodnocení výsledků 11. Příprava dat 12. Systémy pro dobývání znalostí z DB

Software

    

Excel či jiný tabulkový kalkulátor Statistica RapidMiner Tanagra WEKA

Literatura





Berka Petr. Dobývání znalostí z databází. Praha, 2003. ISBN 80-200-1062-9. LACKO, M. Databáze: datové sklady, OLAP a dolování dat. Computer

Press, 2003. ISBN 80-7226-969-0.

Zdroje na webu Software  http://rapid-i.com/content/view/10/69/lang,en  http://www.ailab.si/orange  http://www.cs.waikato.ac.nz/ml/weka Data, kurzy  http://euromise.vse.cz/kdd  http://www.kdnuggets.com  http://archive.ics.uci.edu/ml/datasets.html  http://maya.cs.depaul.edu/~classes/ect584/weka/index.html Pravděpodobnost a statistika  http://homen.vsb.cz/~oti73/cdpast1

Požadavky

 

aktivní přístup k dané problematice vypracovat projekt z oblasti DM pomocí vybraného open-source softwarového nástroje zahrnující  dostatečně velká sada dat (učící a testovací vzorek)  předzpracování dat  formulace a ověření (vyvrácení) hypotéz  vybrané učící metody  rozhodovací stromy, asociační pravidla  testování  vizualizace  vyhodnocení

Data mining  

      

Data Mining (DM)- dolování dat – dolování z dat Knowledge Discovering in Databases (KDD) získávání znalostí z databází Data Fishing, Data Dredging Data Archaeology Information Harvesting Information Discovery Knowledge Extraction … Inteligence získaná z informací a dat společnosti (SAS) For also knowledge is power Francis Bacon

Počátky DM (90. léta 20. století)   

data v relačních databázích umělá inteligence – metody strojového učení statistika – modelování, analytické metody

potřeba používat zpracované údaje pro podporu strategického rozhodování Cíl 



získat pravdivé, nové zákonitosti, které lze k něčemu využít v daném konkrétním oboru (marketing, technika, ekonomika, psychologie, medicína …) automatizace procesu získání zajímavých vzorů chování z reálných dat, tvorba jejich modelů - pomocí nástrojů strojového učení, statistiky, databázových technologií,…

Vymezení pojmu KDD netriviální získávání implicitních dříve neznámých a potenciálně užitečných informací (znalostí) z dat Data Mining is the non-trivial process of identifying • valid • novel • potentially useful • and ultimately understandable patterns in data Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, Chapter 1, AAAI/MIT Press 1996

Proces dobývání dat Interaktivní a iterativní proces  selekce  předzpracování  transformace  vlastní dobývání  interpretace  příprava dat

Proces dobývání dat

Výchozí data

Předzpracovaná data

Vybraná data

selekce

transformace

předzpracování

Vzorky Znalosti

interpretace

Transformovaná data

Manažerský pohled na proces KDD 1. Řešitelský tým

2. Specifikace problému

7. Interpretace

Reálný problém • impuls pro zahájení procesu dobývání dat Cíl • získat co nejvíc relevantních informací vhodných k řešení daného problému

6. Dolování dat

5. Předzpracování dat

3. Získání dat 4. Výběr metod

Etapy KDD (1 – 4) 1. Stanovení řešitelského týmu – skupina expertů na danou problematiku, na data, databáze, na metody KDD 2. Specifikace problému – v kontextu dobývání dat 3. Zisk všech dostupných dat • může dojít k přeformulování problému • otázka kvality datové základny • externí data popisující prostředí, v němž se analyzované děje odehrávají (období, reklama, politická situace, počasí…) 4. Volba metody pro analýzu dat (ev. kombinace více metod) • • • • • • •

klasifikační metody metody explorační analýzy dat metody pro získávání asociačních pravidel rozhodovací stromy genetické algoritmy neuronové sítě bayesovské sítě

Etapy KDD (5 – 6) 5. předzpracování dat • data se převedou do tvaru požadovaného rpo aplikaci metod • vyčištění dat • doplnění chybějících dat 6. vlastní data mining • aplikace zvolených analytických metod • jednotlivé metody mohou být aplikovány i vícekrát – hodnoty vstupních běhů závisejí na výstupech předchozích běhů • typy metod se kombinují na základě dílčích výsledků

Etapa 7 - interpretace



 

zpracování většinou velkého množství výsledků jednotlivých metod  některé výsledky nejsou pro uživatele zajímavé či naopak jsou známé  některé výsledky se dají použít přímo, některé je třeba podat srozumitelněji pro uživatele výsledky se uspořádají do analytické zprávy výstupem může být i provedení určité akce – např. spuštění monitorovacího programu

Terminologie







Koncept – oblast zájmu – co chceme předpověď počasí Instance – jednotlivá data data o počasí jednoho konkrétního dne Atributy: jednotlivé vlastnosti instance teplota, tlak, množství srážek

Úlohy pro data mining

  

     

klasifikace shlukování asociace – zjišťování pravidel (A B C se vyskytují často společně) vizualizace sumarizace detekce odchylek a chyb odhady link analýza …

Klasifikace Určit instanční třídu pro jednotlivé instance (výskyty dat)

Postupy - statistika - rozhodovací stromy - neuronové sítě ...

Shlukování Najít "přirozené" skupiny instancí v datech

Asociační pravidla Transakce Položka Produkt 1 MLÉKO, CHLÉB, VEJCE 2 CHLÉB, CUKR 3 CHLÉB, CEREÁLIE 4 MLÉKO, CHLÉB, CUKR 5 MLÉKO, CEREÁLIE 6 CHLÉB, CEREÁLIE 7 MLÉKO, CEREÁLIE 8 MLÉKO, CHLÉB, CEREÁLIE, VEJCE 9 MLÉKO, CHLÉB, CEREÁLIE

Časté skupiny položek mléko, chléb (4) chléb, cereálie (3) mléko, chléb, cereálie (2)

Pravidla Mléko Chléb (66%)

Úlohy pro data mining   

klasifikace (predikce) deskripce hledání nuggetů Koncept

Klasifikace • cílem je nalézt znalosti použitelné pro klasifikaci nových vzorů • získané znalosti by měly co nejvíce odpovídat danému konceptu • dává se přednost přesnosti pokrytí na úkor jednoduchosti

Z

Predikce – snaha odhadnout ze starších hodnot nějaké veličiny její vývoj v budoucnu (předpověď počasí, kurzy, akcie…)

Deskripce



cílem je nalézt dominantní strukturu nebo vazby obsažené v daných datech požadují se srozumitelné znalosti pokrývající daný koncept



menší množství méně přesných znalostí



Koncept

Z

Popis (deskripce)

Hledání nuggetů



zajímavé, nové (překvapivé, dosud neznámé) znalosti, které nemusejí plně pokrývat daný koncept

Koncept

Nuggety Z

Přehled typických úloh pro DM



     

 

segmentace a klasifikace klientů banky  rozpoznávání problémových klientů  rozpoznávání vysoce bonitních klientů segmentace a klasifikace klientů pojišťovny predikce vývoje kurzu akcií predikce spotřeby elektrické energie analýza poruch v sítích analýza poruch automobilů analýza důvodů změny poskytovatele služeb (proč jsme přišli o zákazníky) rozbor nemocnosti – predikce epidemií analýza nákupního košíku

Metodiky dobývání znalostí Cíl Poskytnout uživatelům jednotný rámec pro řešení různých úloh z oblasti dobývání znalostí z databází  

metodiky vyvinuté výrobci softwarových systémů (5A, SEMMA) metodiky vyvinuté výzkumnými a komerčními institucemi jakožto softwarově nezávislé (CRISP – DM)

sdílení a přenos zkušeností z úspěšných produktů

Metodika 5A 

 





Assess – posouzení potřeb projektu – stanovení kontextu – cílů, strategií a procesů Access – shromáždění potřebných data a jejich příprava Analyze – provedení analýz  přeměnit data na znalosti  používá se více metod (porovnání výsledků, spolehlivosti, efektivity) Act – přeměna znalostí na akční znalosti  doporučení, dodatečné otázky a následná rozhodnutí  jasná a srozumitelná prezentace nalezených výsledků Automate – převedení výsledků analýzy do praxe  možnost vytvoření rozhraní pro snadné použití  umožnit aktualizaci výsledků dle nových modelů

metodika SEMMA (Enterprise Miner)

  





SAMPLE – výběr vhodných objektů EXPLORE – vizuální explorace a redukce dat MODIFY – seskupování objektů a hodnot atributů, datové transformace MODEL – analýza dat – neuronové sítě, rozhodovací stromy, statistické techniky, asociace, shlukování ASSESS – porovnání modelů a interpretace (srozumitelně pro uživatele)

výběr vzorku dat

SAMPLE

EXPLORE

MODIFY

MODEL

ASSESS

vizualizace dat

shlukování asociace

selekce a vytváření veličin

selekce a vytváření veličin

neuronové sítě

modely založené na stromech

zhodnocení modelu

logistické modely

Metodika CRISP-DM Cross-Industry Standard Process for Data Mining – vznikl v rámci evropského výzkumného projektu http://www.crisp-dm.org Cíl  navrhnout univerzální postup použitelný v nejrůznějších komerčních aplikacích standardní model procesu DM  průvodce možnými problémy a jejich řešení v reálných aplikacích Proces DM  6 fází  pořadí není přesně určeno  výsledky jedné fáze ovlivňují (vstupují) do fáze další  některé kroky a fáze je nutné provádět opakovaně

Životní cyklus procesu DM

POROZUMĚNÍ PROBLEMATICE

POROZUMĚNÍ DATŮM

VYUŽITÍ VÝSLEDKŮ

DATA

PŘÍPRAVA DAT

MODELOVÁNÍ VYHODNOCENÍ VÝSLEDKŮ

Fáze DM





porozumění problematice (Business Understanding)  pochopení cílů úlohy a požadavků na řešení  revize zdrojů (datových, výpočetních i lidských)  předběžný plán prací porozumění datům (Data Understanding)  prvotní sběr dat  seznámení s daty, posouzení kvality, vytipování zajímavých podmnožin záznamů v datech  výpočet deskriptivních charakteristik dat – rozsahy, četnosti atributů, průměrné hodnoty

Fáze DM – příprava dat příprava, předzpracování dat (Data Preparation)  vytvoření datového souboru, který bude zpracováván jednotlivými analytickými metodami – data by měla obsahovat relevantní údaje a být ve tvaru, který vyžaduje příslušná analytická metoda  selekce dat  čištění  transformace dat (typové konverze, diskretizace, binomizace …)  doplnění chybějících údajů  integrování dat  příslušné úpravy se obvykle provádějí opakovaně

Fáze DM – modelování, vyhodnocení výsledků





modelování (Modeling)  použití analytických metod pro dobývání znalostí  vybrat vhodné metody, nastavit vhodně parametry metod  iterativní činnost – opakovaná aplikace algoritmů s různými parametry  může vést k potřebě modifikovat data  ověření nalezených znalostí

vyhodnocení výsledků (Evaluation)  z pohledu manažerů  byly splněny cíle formulované v zadání úlohy  rozhodnutí o způsobu využití výsledků

Fáze DM – využití výsledků



využití výsledků (Deployment) upravit získané znalosti do podoby využitelné pro zákazníka  vizualizace  implementace klasifikačního algoritmu v user-friendly podobě  příprava uživatelského manuálu  instalace programů  zaškolení uživatelů  změna metod řešení příslušných úkolů (např. poskytování úvěrů)

Získávání dat z databází 1 DMINA 2010

Recommend Documents