Dobývání znalostí z databází
T2: databáze
Databáze datum jmeno prijmeni 980103 Jan 980105 Jan 980106 Jan 980106 Karel 980107 Karel 980108 Jan 980111 Karel
Novak Novak Novak Nemec Nemec Novak Nemec
adresa_ulice Dlouha 5 Dlouha 5 Dlouha 5 Podolska 4 Podolska 4 Dlouha 5 Podolska 4
adresa_mesto
cislo_uctu
platba zustatek
Praha 1 Praha 1 Praha 1 Praha 2 Praha 2 Praha 1 Praha 2
9945371 9945371 9945371 24867134 24867134 9945371 24867134
100.00 1500.00 -1550.00 3000.00 -4000.00 -150.00 5000.00
100.00 1600.00 50.00 6000.00 2000.00 -100.00 7000.00
...
Plochý soubor s daty
klient
transakce
id_klient jmeno prijmeni adresa_ulice adresa_mesto ...
id_transakce id_ucet datum platba zustatek ...
účet id_ucet id_klient ...
Relační databáze
Způsoby dotazování:
QBE vs. SQL
SELECT klient.jmeno, klient.prijmeni, klient.adresa_ulice, klient. adresa_ mesto, ucet.cislo_uctu, transkace.zustatek FROM klient, ucet, transakce WHERE klient.id_klent = ucet.id_ucet; AND transakce.id_ucet = ucet.id_ucet; AND transakce.zustatek < 100; GROUP BY klient.adresa_mesto
P. Berka, 2011
1/12
Dobývání znalostí z databází
T2: databáze
Podpora rozhodování s využitím databází 1. Executive Information Systems • manažerské informační systémy určené pro rychlý přístup k informacím • uživatelsky přátelský interface ale málo flexibilní
2. On-Line Analytical Processing • multidimenzionální koncept uložení a manipulace s daty (DATOVÁ KRYCHLE), • intuitivní manipulace s daty, • práce s daty z heterogenních datových zdrojů - provádějí se konverze dat, • použití analytických metod - statistické přehledy, what-if analýzy, • Client/Server architektura, • podpora multiuživatelského pohledu, • ukládání výsledků OLAP mimo zdrojová data, • dynamická manipulace s řídkými maticemi, • zpracování chybějících hodnot, • neomezený počet dimenzí a agregačních úrovní. P. Berka, 2011
2/12
Dobývání znalostí z databází
produkt
T2: databáze
datum
region
objem prodeje
město
Struktura databáze
datum
produkt
město
množství
10.1.
šrouby
Praha
241
10.1.
matky
Praha
61
10.1.
šrouby
Brno
17
10.1.
podložky
Brno
42
10.2.
šrouby
Praha
92
10.2.
podložky
Praha
27
10.2.
šrouby
Kladno
35
Záznamy v databázi PRODEJ
Praha šrouby
matky
10.1.
241
61
10.2.
92
Brno podložky
šrouby 17
matky
Kladno podložky
šrouby
matky
podložky
42
27
35
Řídká matice
P. Berka, 2011
3/12
Dobývání znalostí z databází
T2: databáze
objem prodeje
agregace pro města
agregace pro produkty
agregace pro regiony
Práce s daty: • slice and dice – „řezy“ a výběry z krychle • roll up vs. drill down – pohyb v rámci dimenze
Microsoft Data Analyzer P. Berka, 2011
4/12
Dobývání znalostí z databází
T2: databáze
Implementace: • hyperkrychle (hypercube) • multikrychle (multicube)
„čisté“ OLAP vs. ROLAP uživatelské rozhraní
OLAP engine
MOLAP
ROLAP SQL engine
sumarizovaná data granulární data
MOLAP vs. ROLAP
fyzické implementace systému: • schéma hvězdy (star schema), • schéma sněhové vločky (snowflake schema).
P. Berka, 2011
5/12
Dobývání znalostí z databází
dimenze prodejna
T2: databáze
tabulka faktů
STORE KEY
dimenze času
STORE KEY PRODUCT KEY PERIOD KEY
data o prodejně město ID okresu data o okresu ID regionu data o regionu úroveň (level)
PERIOD KEY data o období rok čtvrtletí měsíc den
cena počet
dimenze produkt PRODUCT KEY data o produktu značka výrobce úroveň (level)
Hvězda
dimenze prodejna STORE KEY
ID okresu
ID regionu
data o prodejně město ID okresu data o okresu ID regionu data o regionu úroveň (level)
data o okresu ID regionu
data o regionu
tabulka faktů prodejna STORE KEY PRODUCT KEY PERIOD KEY cena počet
tabulka faktů okres ID okresu PRODUCT KEY PERIOD KEY cena počet
tabulka faktů region ID regionu PRODUCT KEY PERIOD KEY cena počet
Sněhová vločka
P. Berka, 2011
6/12
Dobývání znalostí z databází
T2: databáze
OLAP funkcionalita „dosažitelná“ klasickými prostředky
Microsoft Access
Microsoft Excel P. Berka, 2011
7/12
Dobývání znalostí z databází
T2: databáze
3. Datový sklad • subjektově orientovaný, • integrovaný, • časově proměnný, • leč stálý soubor dat sloužící pro podporu rozhodování
silně sumarizovaná data
středně sumarizovaná data m e t a d a t a
současná detailní data
starší detailní data
1. vrstva
2. vrstva ddddd
3. vrstva
P. Berka, 2011
produkční databáze
Data Warehouse
Data
Data Mart
8/12
Dobývání znalostí z databází
T2: databáze
4. Business Intelligence počítačové nástroje a techniky používané pro sběr, integraci, analýzu, interpretaci a prezentaci (obchodních) dat a informací. K hlavním komponentám patří:
• datový sklad • analytické nástroje (dotazy, reportování, statistické analýzy, data mining)
• business performance management • uživatelské rozhranní (prezentace)
Hlavní součásti BI (Turban a kol., 2007) P. Berka, 2011
9/12
Dobývání znalostí z databází
T2: databáze
Propojení databází a dobývání znalostí 1. Dotazovací jazyky pro KDD • Mine Rule (Boulicaut, 1998) - asociační pravidla MINE RULE Priklad AS SELECT DISTINCT 1..n produkt AS BODY, 1..1 produkt AS HEAD, SUPPORT, CONFIDENCE FROM Prodej WHERE BODY.město = HEAD.město AND BODY.datum = HEAD.datum EXTRACTING RULES WITH SUPPORT: 0.1, CONFIDENCE: 0.5
• MSQL (Imielinski, Virmani, 1999) – asociační pravidla, záznamy Emp(Id,Age,Sex,Salary,Position,Car) GetRules (Emp) into R where support > 0.1 and confidence > 0.9 SelectRules (R) where body has {Age=*), (Sex=*)} and body is {(Car=*)} MSQL - hledání pravidel
Select * from Emp where violates all (GetRules (Emp) where body is {(Age=*)} and head is {(Salary=*)} and confidence > 0.3) MSQL - hledání výjimek
P. Berka, 2011
10/12
Dobývání znalostí z databází
T2: databáze
• DMQL (Han et al., 1996) – více typů pravidel Find association rules related to average_grading, birth_place, address from student where major = „computer_science“ and birth_place = „Canada“ with support threshold = 0.05 with confidence threshold = 0.7 DMQL – asociační pravidla
Find classification rules for computer_science_students according to average_grading related to birth_place, address from student where major = „computer_science“ and birth_place = „Canada“ DMQL – klasifikační pravidla
Find discriminant rule for cs_grads with status = „graduate“ in contrast to cs_undergrads with status = „undergraduate“ related to average_grading, birth_place, address from student where major = „computer_science“ and birth_place = „Canada“ DMQL – diskriminační pravidla
2. API standardy • SQL/MM Data Mining • OLE DB for Data Mining
P. Berka, 2011
11/12
Dobývání znalostí z databází
T2: databáze
3. Rozšíření databázových systémů o data mining („in-database“ data mining) • MicroSoft SQL Server 2005 (a výše) - Rozhodovací stromy, asociační pravidla, naivní bayesovský klasifikátor, neuronové sítě, text mining, shlukování sekvencí, časové řady - Využívá OLE DB DM a PMML (pro definici úloh a zápis modelů) a BI Development studio (jako interface)
• Oracle Data Mining Nástroje pro klasifikaci, regresi, detekci anomálií, hledání asociací, shlukování, extrakci atributů, hodnocení důležitosti atributů
P. Berka, 2011
12/12