Dobývání znalostí z databází
T1: úvodní přehled
Dobývání znalostí z databází (Knowledge Discovery in Databases, Data Mining, ..., Knowledge Destilery, ....)
Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data (Fayyad a kol., 1996) Data mining involves the use of sophisticated data analysis tools to discover previously unknown, valid patterns and relationships in large data sets (Adriaans, Zantinge, 1999) Analysis of observational data sets to find unsuspected relationships and summarize data in novel ways that are both understandable and useful to the data owner (Hand, Manilla, Smyth, 2001) Data mining is the process of analyzing hidden patterns of data from different perspectives and categorizing them into useful information (techopedia.org, 2011)
Zdroje databáze (dotazovací jazyky, OLAP), statistika (analýza dat), umělá inteligence (strojové učení) P. Berka, 2011
1/18
Dobývání znalostí z databází
T1: úvodní přehled
Úlohy dobývání znalostí Hrubší členění (Klosgen, Zytkow, 1997) klasifikace/predikce: cílem je nalézt znalosti použitelné pro klasifikaci nových případů
deskripce: cílem je nalézt dominantní strukturu nebo vazby
P. Berka, 2011
2/18
Dobývání znalostí z databází
T1: úvodní přehled
hledání „nugetů“: cílem je nalézt dílčí překvapivé znalosti
Jemnější členění (Chapman a kol, 2000) deskripce dat a sumarizace segmentace deskripce konceptů klasifikace predikce analýza závislostí
P. Berka, 2011
3/18
Dobývání znalostí z databází
T1: úvodní přehled
Manažerský pohled Manažerský problém
Znalosti pro řešení 1. Řešitelský tým
7. Interpretace
2. Specifikace problému
6. Data mining
3. Získání dat
5.Předzpracování dat 4. Výběr metod
Pohled zpracování dat
P. Berka, 2011
4/18
Dobývání znalostí z databází
T1: úvodní přehled
Aplikační oblasti pro dobývání znalostí Segmentace a klasifikace klientů banky (např. rozpoznání problémových nebo naopak vysoce bonitních klientů), Predikce vývoje kursů akcií, Predikce spotřeby elektrické energie, Analýza příčin poruch v telekomunikačních sítích, Analýza důvodů změny poskytovatele nějakých služeb (internet, mobilní telefony), Segmentace a klasifikace klientů pojišťovny, Určení příčin poruch automobilů, Rozbor databáze pacientů v nemocnici, Analýza nákupního Analysis).
P. Berka, 2011
košíku
(Market
Basket
5/18
Dobývání znalostí z databází
T1: úvodní přehled
Analýza nákupního košíku: pohled na data
P. Berka, 2011
6/18
Dobývání znalostí z databází
T1: úvodní přehled
Analýza nákupního košíku: deskripce
P. Berka, 2011
7/18
Dobývání znalostí z databází
T1: úvodní přehled
Analýza nákupního košíku: klasifikace
P. Berka, 2011
8/18
Dobývání znalostí z databází
T1: úvodní přehled
Standardy pro dobývání znalostí 1. Metodiky
(Marban a kol, 2009)
Metodika A Metodiku „5A“ nabízí firma SPSS jako svůj pohled na proces dobývání znalostí. Název metodiky je akronymem pro jednotlivé prováděné kroky: Assess – posouzení potřeb projektu, Access – shromáždění potřebných dat, Analyze – provedení analýz, Akt – přeměna znalostí na akční znalosti, Automate – převedení výsledků analýzy do praxe. P. Berka, 2011
9/18
Dobývání znalostí z databází
T1: úvodní přehled
Metodika SEMMA Navržená pro Enterprise Miner firmy SAS: Sample (vybrání vhodných objektů), Explore (vizuální explorace a redukce dat), Modify (seskupování objektů a hodnot atributů, datové transformace), Model (analýza dat: neuronové sítě, rozhodovací stromy, statistické techniky, asociace a shlukování), Assess (porovnání modelů a interpretace).
P. Berka, 2011
10/18
Dobývání znalostí z databází
T1: úvodní přehled
Metodika CRISP-DM V současnosti de-facto standard podporovaný většinou systémů pro dobývání znalostí
Porozumění problematice
Porozumění datům Příprava dat
Využití výsledků
DATA Modelování
Vyhodnocení výsledků
P. Berka, 2011
Data Mining
11/18
Dobývání znalostí z databází
T1: úvodní přehled
2. Standardy pro zápis modelů Predictive Modeling Markup Language Standard na bázi XML vyvinutý v Data Mining Group (www.dmg.org), který slouží pro popis dat, datových transformací, i vytvořených modelů. Základní části PMML dokumentu: Header Data Dictionary Data Transformations Model
P. Berka, 2011
12/18
Dobývání znalostí z databází
T1: úvodní přehled
<MiningSchema> <MiningField name=“income"/> <MiningField name="account"/> <MiningField name="sex"/> <MiningField name="unemployed"/> <MiningField name="loan" usageType="predicted"/> <SimplePredicate field="income" operator="equal" value="high"/> <SimplePredicate field="income" operator="equal" value="low"/> <SimplePredicate field="account" operator="equal" value="high"/> <SimplePredicate field="account" operator="equal" value="low"/> <SimplePredicate field="unemployed" operator="equal" value="yes“/> <SimplePredicate field="unemployed" operator="equal" value="no“/>
P. Berka, 2011
13/18
Dobývání znalostí z databází
T1: úvodní přehled
3. Programovací standardy (API) SQL/MM Data Mining Standardní rozhranní umožňující přístup z relačních databází k algoritmům pro data mining
OLE DB for Data Mining API vyvinuté firmou Microsoft CREATE MINING MODEL CreditRisk ( CustomerId long key, Income text discrete, Account text discrete, Sex text discrete, Unemployed boolean discrete, Loan text discrete predict, ) USING [Microsoft Decision Tree]
Java Data Mining
P. Berka, 2011
14/18
Dobývání znalostí z databází
T1: úvodní přehled
Systémy pro dobývání znalostí z databází pokrývají celý proces dobývání znalostí (od předzpracování po interpretaci), nabízejí více algoritmů pro analýzu (než „jednoúčelové” systémy strojového učení), kladou důraz na vizualizaci (ve způsobu práce se systémem i při interpretaci výsledků). Systém
Výrobce
URL
SPM Salford Systems www.salford-systems.com www-01.ibm.com/software/analytics/ Clementine SPSS spss/products/modeler/ www.sas.com/technologies/analytics/ Enterprise SAS Institute datamining/miner/ Miner GhostMiner Fujitsu www.fqs.pl/business_intelligence/prod ucts/ghostminer Intelligent IBM www-01.ibm.com/software/data/ Miner infosphere/warehouse/enterprise.html Knowledge Angoss www.angoss.com Studio Oracle Data Oracle www.oracle.com/us/products/database/ Mining options/data-mining/index.html PolyAnalyst Megaputer www.megaputer.com/ Statistica StatSoft www.statsoft.com/products/dataData Miner mining-solutions/ LISp Miner VŠE RapidMiner Rapid-I University of Weka Waikato P. Berka, 2011
lispminer.vse.cz rapid-i.com/ www.cs.waikato.ac.nz/ml/weka/index. html 15/18
Dobývání znalostí z databází
T1: úvodní přehled
Weka
Rapid Miner
P. Berka, 2011
16/18
Dobývání znalostí z databází
T1: úvodní přehled
SAS Enterprise Miner
IBM SPSS Modeler (Clementine)
P. Berka, 2011
17/18
Dobývání znalostí z databází
P. Berka, 2011
T1: úvodní přehled
18/18