kapitola 2 Datové sklady, OLAP Získávání znalostí z databází IT-DR-3 / ZZD
Tomáš Burger,
[email protected]
Co je to „datový sklad“ „A data warehouse is a subjectoriented, integrated, time-variant and nonvolatile collection of data in support of management‘s decision making process.“ W. H. Inmon: Building the Data Warehouse, 1996 ZZD 2005 - kapitola II - 2 / 20
Subject-oriented
I
Datový sklad je tématický Data jsou organizována „okolo sledovaných témat“ Datový sklad obsahuje jen podstatná data
ZZD 2005 - kapitola II - 3 / 20
Integrated
II
Datový sklad v sobě integruje řadu různých datových zdrojů Různé operativní databáze Jediný datový sklad Update-driven approach
datový sklad se pravidelně aktualizuje z připojených datových zdrojů ZZD 2005 - kapitola II - 4 / 20
Time-variant
III
Data jsou určena v čase Historická data Verze dat v čase
ZZD 2005 - kapitola II - 5 / 20
Nonvolatile
IV
Data v datovém skladu jsou stálá, dlouhodobá Datový sklad nepodporuje změny dat Datový sklad je fyzicky oddělené datové úložiště
Data z operativních datových zdrojů jsou duplikována ZZD 2005 - kapitola II - 6 / 20
Datová kostka
Datový sklad nemá tabulky, ale kostky Kostka má dimenze a hodnoty (measures) Redukcí dimenzí (group by) vznikají podkostky (cuboids)
apex (souhrnný) cuboid – bez dimenzí base (základní) cuboid – všechny dimenze
ZZD 2005 - kapitola II - 7 / 20
Databázové schéma
Star – hvězdicové uspořádání
Snowflake – vločka
tabulka faktů – klíče dimenzí a hodnoty tabulky dimenzí tabulky dimenzí se normalizují
Fact Constelation
kombinované star schéma více tabulek faktů, sdílené tabulky dimenzí ZZD 2005 - kapitola II - 8 / 20
Fact Constelation – příklad Kniha Název ISBN Autor Rok vydáni
Student
Studium Student
Škola IČO Adresa PSČ
Jméno Příjmení Rodné číslo PSČ
Škola
Knihovna
Semestr
Student
Kredity
Kniha Semestr
Semestr
Školní rok Letní/Zimní Datum_od Datum_do
Počet Pokuta
ZZD 2005 - kapitola II - 9 / 20
Hodnoty
Distributivní
lze počítat postupně i najednou
Algebraické
kombinace několika distributivních hodnot pro daný počet hodnot
suma, maximum, minimum
průměr
Holistické
lze počítat jen komplexně pro celý soubor
median
ZZD 2005 - kapitola II - 10 / 20
Hierarchie – organizace dimenzí
Koncepční hierarchie
úplné uspořádání
Schématická hierarchie
částečné uspořádání
ulice Æ město Æ region Æ země Æ kontinent
den Æ (týden | měsíc) Æ rok
Seskupovaná (set-grouping) hierarchie
vzniká seskupováním hodnot dimenze
cena, seskupená do intervalů
ZZD 2005 - kapitola II - 11 / 20
Operace na datovém skladu
Drill-down
Roll-up
přidání jedné dimenze odebrání jedné dimenze
Slice & dice
omezení dimenzí na některé hodnoty
ZZD 2005 - kapitola II - 12 / 20
Drill-down obohacuje pohled na data o novou dimenzi anebo nahrazuje obecnější dimenzi dimenzí detailnější ve smyslu koncepční hierarchie
Drill-down Čtvrtletí
Q1
100
80
Q2
120
90
Q3
150
100
Q4
90
70
Praha
Plzeň
O
r bo
Brno
Město
Leden
25
26
Únor
40
27
Březen
35
27
Duben
50
35
...
...
...
Prosinec
20
15
Praha
Plzeň
Měsíce O
r bo
Brno
Město
ZZD 2005 - kapitola II - 13 / 20
Roll-up redukuje pohled na data o jednu dimenzi nebo nahrazuje dimenzi detailnější dimenzí obecnější
Roll-up Čtvrtletí
Q1
100
80
Q2
120
90
Q3
150
100
Q4
90
70
Praha
Plzeň
O
r bo
Brno
Město
Čtvrtletí
Q1
180
Q2
210
Q3
250
Q4
160
O
Čechy
r bo
Morava Země
ZZD 2005 - kapitola II - 14 / 20
Slice & dice Čtvrtletí
Q1
100
80
Q2
120
90
Q3
150
100
Q4
90
70
Praha
Plzeň Město
O
Slice & dice redukuje obor hodnot jedné (slicing) nebo více (dicing) dimenzí podle zvoleného „filtru“
r bo
Brno
obor = „informatika“ země = „Čechy“
Čtvrtletí
Q1
20
15
Q2
30
18
Q3
30
21
Q4
18
13
Praha
Plzeň
Město
ZZD 2005 - kapitola II - 15 / 20
Datové zdroje
Datový sklad
OLAP server
Front end
Architektura datových skladů
administrace metadata
monitoring
ZZD 2005 - kapitola II - 16 / 20
ROLAP x MOLAP x HOLAP
Dělení datových skladů podle technické realizace
Relační OLAP
Používá relační databázi Efektivní na uložení, problematické na čtení
Multidimenzionální OLAP
Hybridní OLAP
Používá multidimenzionální pole Efektivní na čtení Problematické pro „řídká pole“ Kombinuje výhody obou přístupů Detailní data v relačních databázích Agregace v multidimenzionálních polích
ZZD 2005 - kapitola II - 17 / 20
Implementace datových skladů
Částečná materializace (hodnoty)
vybrané cuboidy jsou předpočítané zrychlení agregace hodnot
Indexace (dimenze)
sady hodnot v dimenzích se nahrazují technickými „recordID“ zrychlení vyhledávání v dimenzích ZZD 2005 - kapitola II - 18 / 20
On Line Analytical Mining (OLAM)
Mezistupeň: od datových skladů k dolování v datech Datový sklad s analytickými funkcemi
vysoká kvalita dat – snadná navigace ad-hoc aplikace „snadných“ dolovacích funkcí
ZZD 2005 - kapitola II - 19 / 20
Konec
Děkuji Děkuji za za pozornost pozornost
ZZD 2005 - kapitola II - 20 / 20