Datové sklady Zdeněk Kouba
Data cube Sortiment
Pečivo
Koblihy Housky Chléb
Maso
Vepřové Hovězí Drůbež
Místo
Petrovice Příbram Vysoký Chlumec Milevsko Kovářov Písek Oslov Neveklov Vrchotovy Janovice Benešov Bystřice
Mléčné Mléko výrobky Sýry
Jogurty 1Q 2Q 3Q 4Q 1Q 2Q 3Q 4Q 1Q 2Q 3Q 4Q
2000
2001 Čas
2002
Proces ETL
Extraction Transformation Load
Datové zdroje
Datová pumpa
Datový sklad
Agregační hierarchie dimenze “čas” Vše
Rok Čtvrtletí Týden Měsíc
Den Část dne
Star schema místo prodejna okres název_okresu název_prodejny
čas rok čtvrtletí měsíc den týden název_měsíce
sortiment tržba základ_DPH DPH rok čtvrtletí měsíc den položka_sortimentu prodejna
položka_sortimentu skupina_zboží sazba_DPH název_skupiny_zboží název_položky_sort
Konceptuální model motivačního příkladu
místo
sortime nt vše
vše
skupina_zbož í položka_sortiment u sazba_DPH
okres prodejna
čas vše tržba
rok čtvrtletí měsí c den
týden
základ_DPH DPH tržba_včetně_DPH
Den v týdnu jako dimenzionální atribut čas
vše rok čtvrtletí týden měsíc den
den_v_týdnu
Den v týdnu jako agregační úroveň čas
vše rok
čtvrtletí týden měsíc
den
den_v_týdnu
Logický model (star-schema) motivačního příkladu
místo prodejna okres název_okresu název_prodejny
čas rok čtvrtletí měsíc den týden název_měsíce
sortiment tržba základ_DPH DPH rok čtvrtletí měsíc den položka_sortim entu prodejna
položka_sortimentu skupina_zboží sazba_DPH název_skupiny_zboží název_položky_sort
Snowflake schema s tabulkou agregovaných hodnot místo prodejna okres název_prodejn y
okres okres název_okres u
tržba základ_DPH DPH rok čtvrtletí měsíc den položka_sortimentu prodejna tržba na okres základ_DPH DPH rok čtvrtletí měsíc den položka_sortimentu okres
Konsolidované star-schema motivačního příkladu místo
sortiment
klíč-místo
klíč-sortiment
prodejna okres název_okresu název_prodejny
čas klíč-čas
rok čtvrtletí měsíc den týden název_měsíce
tržba základ_DPH
DPH klíč-místo klíč-čas klíč-sortiment
položka_sortimentu skupina_zboží sazba_DPH název_skupiny_zboží název_položky_sort
Schema konsolidovaných faktů motivačního příkladu tržba
místo prodejna okres název_prodejny název_okresu
základ_DPH DPH rok čtvrtletí měsíc den položka_sortimentu prodejna
tržba na okres základ_DPH DPH rok čtvrtletí měsíc den položka_sortimentu okres
Data mining (vytěžování/dolování dat) predikce klasifikace regrese asociační pravidla detekce odchylek
shlukování modelování závislostí modelování kauzalit sumarizace
indikace
deskripce
Využití nalezených závislosti k predikci Příklad aplikace datového skladu v predikční úloze: Predikce spotřeby pitné vody Faktory, které mohou spotřebu ovlivňovat, nalezeny metodami data mining: • počasí • den v týdnu • roční období • poloha (zahrádkářská kolonie/sídliště)
Využití nalezených závislosti k predikci Příklad aplikace datového skladu v predikční úloze: Predikce spotřeby pitné vody Faktory, které mohou spotřebu ovlivňovat, nalezeny metodami data mining: • počasí • den v týdnu • roční období • poloha (zahrádkářská kolonie/sídliště)
Star schema datového skladu Area Area Name Description
Day
Tank Reservoir Reservoir Area Water supply Name
Reservoir Tank Max volume Min level Max level Delta level volume
Fact_table Date Time Reservoir Tank Inflow Outflow Delta level Consumption Volume Pressure Chlorine
Date Day Month Year Week Day of Week Quarter Temperature Weather type Free days seq No Free days seq Cnt Time Date Time Hour Minute Second Day_part
Weather
Pipe line Water supply Name Description
Weather type Weather Description Min Brightness Max Brightness Min Rain Max Rain
Výsledky Reservoir Michal 1800 1600 1400 1200 1000
consumption prediction
800 600 400
39
36
33
30
24
21
18
15
9
6
3
12
da
y
0
• Average error smaller than 19% • After removing unpredictable events about 11%
27
200
Histogram chyb 120 100
Histogram chyb
Počet dní
80 60 40 20 0 -28 -22 -16 -10
-4
2
Chyba [%]
8
14
20 26
Senzitivita
Senzitivita je definována jako relativní četnost případů patřících do třídy T1, které dané klasifikační pravidlo správně zařadilo do třídy T1 (správně pozitivně klasifikované případy), tedy
Sens( x,θ ) = P(dT1 ( x) > θ | T1 ) .
Specificita
Specifičnost definujeme jako relativní četnost případů patřících do třídy T2, které však byly nesprávně zařazeny do třídy T1 (nesprávně pozitivně klasifikované případy), tedy
Spec( x,θ ) = P(dT1 ( x) > θ | T2 )
ROC křivka
Senzitivita
ROC křivka 1,2 1 0,8 0,6 0,4 0,2 0 0
0,2
0,4
0,6
0,8
1
Specificita Náhodný prediktor
Reálný prediktor
1,2