Modelování a návrh datových skladů Doc. Ing. B. Miniberger, CSc. BIVŠ
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Obsah 1. Přednáška •
I. Základy modelování datových skladů (DW)
2. Přednáška •
II. ETL procesy
•
III. Data Mining
•
IV. Kvalita dat a BI
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Literatura •
Humphries M. a kol. : Datawarehousing (navrh a implementace). Computer Press, 2001. ISBN 80–7226-560-1
•
RUD Parr Olivia: Data Mininig. (Praktický průvodce dolováním dat pro efektivní prodej, cílený marketing a podporu zákazníků (CRM). Computer Press, 2001. ISBN–80 7226-577-60
•
INMON W.H.: Building the Data warehouse. Vydání třetí. New York: Willey’s Publishing, 2002. ISBN 0-471-08130-2.
•
KIMBALL R.: The Data warehouse Toolkit. New York: Willey’s Publishing, 1996. ISBN 0-471-15337-0.
•
LACKO L.: Datové sklady analýza OLAP a dolování dat. Brno: Computer Press, a.s., 2003. ISBN 80-7226-969-
•
MINIBERGER B.,: Kvalita dat datových skladů – nezbytný předpoklad předcházení rizik manažerského rozhodování. Sborník z 11. ročníku mezinárodní konference „Současnost a budoucnost krizového řízení“. Praha 2009, ISBN 978-80-254-5912-6. © Doc. B. Miniberger, CSc.
Modelování a návrh DS
Odkazy na webu • •
• •
ADASTRA. Dostupný z : http://www.adastra.cz/ Ballard Chuck, Herreman Dirk,, Schau Don, Bell Rhonda,Kim Eunsaeng, Valencic Ann: Data Modeling Techniques for Data Warehousing. ISBN-0738402451. In: http://www.redbooks.ibm.com/ ORACLE. An Introduction to OLAP In: http://www.oracle.com/index.html Chuck Ballard, Daniel M. Farrell, Amit Gupta, Carlos Mazuela, Stanislav Vohnik: Dimensional Modeling:In a Business Intelligence Environment . In: http://www.redbooks.ibm.com/
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Strategie a procesy v podnikání (podle Meta Group)
Periody cyklů se zkracují Perioda cyklů v 70 tých a 80 tých létech byla: 5-7 LET
Periody cyklů pro období po r. 2000
18-24 měsíců
• Technology • Competition • Economics • Policy • Leadership
IT architektura pro podnikání a návrh DS Cíl: Adaptivní Modelování
© Doc. B. Miniberger, CSc.
Konflikt změn Rychlost změn podnikatelských procesů je často větší než kapacitní možnosti IT
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Požadavky na IT pro 21. století • Každé 4 roky vzrůstá potřeba dat 12 x.
• Neřízený nárůst dat způsobuje snižování produktivity a zvyšuje náklady.
• Aktuálnost dat se stává největší potřebou distribuovaných systémů v prostředí UNIX a NT. •„ Mission critical data“ jsou všude - uvnitř i vně datových center.
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
1,400
Petabytes
• Proces řízení nárůstu dat lze považovat považuje jako problém No 1.
800 200 * Source: IDC, 1998
0 1997
1999
2002
Požadavky na Správu dat • Archivace databáze a souborů – denně. • Přesun dat a souborů (např. mezi MVS a UNIX MS Windows, Linux) – denně. • Prvotní tvorba testovacích dat – opakovaně. • Obnova testovacích dat změněných testovacími procedurami – denně. • Extrakce, formátování a slučování dat pro použití v data warehouse a v data marts – denně. /týdně/měsíčně • Migrace dat z jednoho na druhé zařízení - ročně, nebo jakmile je zpracování uzavřeno. • Migrace celých datových center – zřídka. • Katastrofy- zřídka. © Doc. B. Miniberger, CSc.
Modelování a návrh DS
Informační pyramida (podle IBM) a její podpora pomocí:
Datový sklad s OLAP
OLTP
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Architektura CRM + DWH Interakce se zákazníkem
Fax, telefon, TV, informační kiosky, e-mail, direct (přímá), WWW
Operační část
Analytická část Data warehouse
Podnikové aplikace (ERP) Obsluha zákazníka
Trh
Marketing Prodej Servis
Zákazník Znalostní DB
Průzkum trhu © Doc. B. Miniberger, CSc.
Modelování a návrh DS
Řízení kampaně 10
Co je datový sklad a jak pracuje ? 1. (Datový sklad (Datawarehouse, DWH, DS) je sdružený zdroj informací shromážděných z dat firemních systémů. 2. Z pohledu koncového uživatele umožňuje Datový sklad snadný a rychlý přístup k firemním informacím. 3. Díky tomu umožňuje uživateli získávat odpovědi na často velmi složité dotazy a jejich vyhodnocování, aniž by byl vybaven hlubokými znalostmi programování. © Doc. B. Miniberger, CSc.
Modelování a návrh DS
Schéma datového skladu (DWH)
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Spolupráce OLTP a OLAP OLTP & jiné zdroje dat
OLAP Databáze
ETL
Přínos pro podporu rozhodování
20%
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
80%
Rozdíly ve schématech OLTP v. OLAP
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Co je datová kostka OLAP ?
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Rozdílné pohledy na data Multidimenzionální pohled na data:
vyžadují nové druhy operací na DM OLAP
Čas Produkt Obchod
Pohled produktov ého manažera
Pohled finančního manažera
Pomocí OLAP databáze, může uživatel lehce zjistit data, která ho v daných souvislostech zajímají.
Produktový manažer sleduje jeden produkt napříč časovými intervaly a obchodními jednotkami.
(viz dále) Pohled regionální ho manažera
Přležitost Finanční manažer se ný pohled zaměří na prodeje za vrcholého předchozí a minulé období řízení za všechny obcodní jednotky a produkty
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Regionální manažer sleduje všechna údobí prodeje za všechny produkty v daném regionu.
Strategické řízení se může zaměřit na podmnožinu podnikových dat jak v současném, tak v minulém období, za účelem zvýšení prodeje nějakého výrobku v daném regionu..
Příklad DM typu hvězda „Hvězdicové schéma“ pro obchodní organizaci : Čas
Produkt
Prodej (tabulka faktů) Klient
© Doc. B. Miniberger, CSc.
Organizace
Modelování a návrh DS
Fakta jsou normalizovaná.
Dimenze nemusí být normalizovaná, ale mohou být.
Dimenzionální modelování • Systémy OLTP používají normalizované datové struktury, ale nejsou optimalizovány pro podporu rozhodování – Nejsou pro obchodního uživatele příliš pochopitelné – Vyžadují znalost jazyka SQL • Dimenzionální modelování OLAP systémů je vhodné pro podporu rozhodování – Dva typy tabulek: • Tabulky faktů, které jsou používány pro ukládání záznamu např. aktuálních obchodních faktů, či měřítek. Fakta jsou čísla , která uživatelé analyzují a sumarizují s cílem získat lepší pochopení svého podnikání • Tabulky dimenzí, které stanovují obsah faktů a obsahují atributy popisující fakta, pro jednotlivá průmyslová odvětví. – Tabulka faktů + tabulky dimenzí = schéma OLAP
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Granularita tabulky faktů • Granularita určuje úroveň podrobností v tabulce faktů. V případě tabulky faktů granularita pochopitelně vychází z úrovně podrobností odpovídajících dimenzí. • Čím nižší je úroveň granularity, tím detailnější jsou data určená k provádění matematických operací. Příklad: – jestliže každý záznam v časové dimenzi odpovídá jednomu dni, – jestliže každý záznam v tabulce dimenzí Produkt odpovídá jednomu produktu, – jestliže záznam v dimenzi Organizace odpovídá jedné pobočce, Pak pole tabulky faktů s těmito dimenzemi bude: Prodej produktů za jednotlivé dny a jednotlivé pobočky. © Doc. B. Miniberger, CSc.
Modelování a návrh DS
Spojení klíče v tabulce faktů Jelikož • Granularita tabulky faktů určuje úroveň podrobností odpovídajících dimenzí, potom • Hodnota klíče v tabulce faktů je spojením klíčů každé z odpovídajících dimenzí.
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Datový model „hvězda“ Dimenze
PK
Fakta
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Datový model „vločka“
PK
Rozdělením tabulky na „podtabulky
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Hierarchie dimenzí •
Čas – – – –
• Rok Čtvrtletí Měsíc Den
Obchod – Všechny obchody – Region – Stát – Město
•
Produkt – Všechny produkty – Produktová oblast – Kategorie produktů – Produkt
Prodej všech produktů podle regionů v jednotlivých letech. Rok
Region
Prodej
2006
Asie
1 000
Evropa
50 000
Amerika
20 000
Asie
1 500
2007
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Rozpad (zjemňování) dimenze čas •
Čas – – – –
• Rok Čtvrtletí Měsíc Den
•
Obchod – Všechny obchody – Region – Stát – Město
Produkt – Všechny produkty – Produktová oblast – Kategorie produktů – Produkt
A odpovídající sestava: Prodej všech produktů podle regionů v jednotlivých ČVRTLETÍCH. Rok
Čtvrtletí
Region
Prodej
2006
1.
Asie
200
2.
Asie
200
3.
Asie
250
4.
Asie
350
1.
Evropa
10 000
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Operace OLAP podporované v DM Agregace je předpřipravená sumace, na základní úrovni, pro vyšší úrovně v hierarchických dimenzích. Pivoting (rotating) - změna vizualizace dat kostky. Roll-up: sumarizace zaměřená na vyšší úroveň, navigována hierarchií dimenze (od prodeje podle města k prodeji podle obvodu). Drill-down: rozpad - zjemňování k větším detailům (od prodeje podle obvodu k prodeji podle města). Slice_and _dice (redukce dimenzionality dat).
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Agregace a sumace •
Čas – – – –
• Rok Čtvrtletí Měsíc Den
Obchod – Všechny obchody – Region – Stát – Město
•
Produkt – Všechny produkty – Produktová oblast – Kategorie produktů – Produkt
Možnost používat agregace zvyšuje celkový výkon a použitelnost DS. Agregace jsou vlastně sumace na základní úrovni uložená v samotném schématu, pro vyšší úrovně v hierarchiích dimenzí
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Příklad multidimenzionalního modelu Metriky
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Vizualizace modelu Metriky
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Metrika (Measure) • A measure (metrika) je numerický atribut tabulky faktů, reprezentující výkonnost nebo chování podnikání ve vztahu k dimenzím. • Metrika je určena kombinací členů dimenzí a je založena na faktech.
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Drill Down and Roll Up Roll-up: od prodeje podle města k prodeji podle obvodu
Drill-down: od prodeje podle obvodu k prodeji podle města
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Slice and Dice
Metriky
Rotace
X Redukc e diemzio nality © Doc. B. Miniberger, CSc.
Modelování a návrh DS
Obvyklý postup návrhu DS (Od modelování procesů k implementaci a ne jinak)
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Nejprve analýza věcných požadavků •Věcný cíl - strategický cíl podnikání, definovaný vedením banky. •Kritická oblast výkonnosti (KOV) - oblast, ve které musí být dosažena určitá efektivní úroveň výkonnosti aby banka mohla dosáhnout svých cílů. •Kriterium výkonnosti - ukazatel, umožňující stanovit výkonnost sledované oblasti nějakou metrikou (poměrem nebo v jednotkách). •Požadavek - požadavek na zdokonalení výkonnosti v KOV. •Problém - okolnost, významně bránící dosažení požadované úrovně KOV ve stávajících podmínkách. © Doc. B. Miniberger, CSc.
Modelování a návrh DS
Výsledky analýzy kritických požadavků Stanovení věcných cílů. Stanovení kritických oblastí výkonnosti. Specifikace výkonnostních kriterií a požadavků. Specifikace a ohodnocení problémů. (Vyhodnocení návrhů alternativ systému).
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Stanovení věcných cílů “Rozvoj komerčního bankovnictví, jako základu stabilního vývoje a výnosnosti
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Stanovení funkčních KOV “Projekt “Podpora řízení prodeje” .
2. Organizační zabezpečení
1. Individuální obsluha klienta
2.1 Metodické
1.1 Obchodní manažeři
1.2 Nabídka produktů
© Doc. B. Miniberger, CSc.
2. 2 Přímé Retail a Corporate
3.1 Segmentac e
3. Zavedení systému řízení prodeje
4. Lidské zdroje
4.1 Odměňování
3.2 Propagace
Modelování a návrh DS
5. Informační technologie
4.2 Kvalifikační růst
5.1 SW
5.2 HW
Definování a vyhodnocení problémů P1 Klienti (počet, segmentace, objem vkladů ...). P2 Produkty (počet, objemy, období..). P3 Obchodní manažeři ( objem obchodů, kvalifikace, zkušenosti..). P4 Metodika ( přehlednost, podpora PC, školení...). P5 Forma propagace ( TV, sponzorství, INTERNET, DirectMarketing). P6 Osobní zainteresovanost, Školení, Vyhodnocování. P7 Podpora IT (Implementace, Správa dat, Intranet....). © Doc. B. Miniberger, CSc.
Modelování a návrh DS
Návrh pohledů systému Model Přehled úrokových sazeb Model Konjunkturní indikátory Model Analýzy trhu Pohled 1
Pohled 2
Klienti
Pohled 3
Kč
Vklady
Pohled 4 Prodej produktů
Úvěry Pohled 5 Vztahy klientů s bankou
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Reportování 3 hlavní typy analytických systémů: • nástroje pro dotazy a tvorbu výstupních sestav - nabízejí jednoduchý přístup k relačním databázím a uživatelsky jednoduchým způsobem tvorbu dotazů a reportů nad relačními databázemi (pro menší aplikace i různé spredsheety, např. MS Excel apod.) • OLAP (Online Analytical Processing) systémy - strukturují data do multidimenzionálních hierarchií agregovaných informací a tím nabízejí pohled na data z vhodných perspektiv a ve formě vhodných pro jejich analýzu. • Systémy pro dolování dat, které predikují informace z velkého množství dat, na základě matematických modelů Moderní OLAP produkty nabízejí propojení všech tří způsobů, včetně komunikace mezi nimi prostřednictví technologií Internetu.
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Zjednodušený DM úlohy Marketing: Možný dotaz: Na základě čísla účtu klienta, zjistěte stav jeho účtu a klasifikaci podle standardu ČNB, k danému datu.
STŘEDISKO stredisko_id Tabulka dimenzí
Tabulka faktů: KLIENT klient_id cislo_klienta název_ klienta segment_id . klasif_ČNB_kod
© Doc. B. Miniberger, CSc.
Fa:ÚCET_Datum klient_id ucet_id datum_id Zust_ult_mena . uroky_mena. datum_id
ÚČET ucet_id stredisko_id mena_kod_id druh_uctu_id . syu_id
DATUM
MĚNA
DRUH ÚČTU
datum_id
mena_kod
druh_uctu_kod
Modelování a návrh DS
ROI pro zavedení DS Zkvalitněním vlastních služeb
ROI =
Pomocí „Customer Value Intelligence“
Dosažené úspory + Zvýšení výnosů
Jak zlepšit ROI ???
Celkové náklady na tvorbu a provoz
Pomocí výběrových řízení na dodávky SW a HW, služeb, zavedením metodiky RAD, ...
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Bod zlomu návratnosti $350 000 $300 000 Bod zlomu pro návratnost
Dollars
$250 000
Cumulative Savings
$200 000 $150 000
Investment
$100 000 $50 000 $0 0
1
2
3 Time (Years)
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
4
5
Doporučení postupu tvorby DS DS - společným vývojem: Tvorba uživatelů,
analytiků a programátorů provozovatelů Zabezpečení konsistence: nástroji pro datové modelování správou DS Řízení projektu: vedoucí projektu a jeho tým mapování a vyhodnocování postupu Realizace Provoz DS: uživatelské příručky konzultace při zavádění a provozu monitorování využití DS návrhy na racionalizaci – ROI
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Anatomy of a Data Warehouse Failure (anatomie neúspěchů tvorby DS) 1. chyba : Nezačínejte projekt bez jasného porozumění věcných cílů (Business Objectives) nebo uživatelských požadavků (Requirements). 2. chyba : Redundantní nebo zmatené definice dat. 3. chyba : Poskytování nepotvrzených (neautorizovaných) dat a reportů. 4: chyba: Zahájení plánu, který je podporován výkonným týmem (*B.M.: bez schválení řídící komise.) Podle Lawrence F. Goldman: Published in DM Review Online in February 2001 © Doc. B. Miniberger, CSc.
Modelování a návrh DS
12 pravidel pro tvorbu OLAP (podle: Codd E.F., Codd S.B., and Salley C.T. "Providing OLAP (On-line Analytical Processing) to User-Analysts: An IT Mandate". Codd & Date, Inc 1993.
1. Multidemenzionální koncepce (provádění operací OLAP). 2. Transparentnost (propojení na front end systémy. 3. Dostupnost ( z kteréhokoliv datového zdroje). 4. Konsistentní provádění reportů (neměla by být degradována velikostí databáze) . 5. C/S architektura (server zajišťuje integraci mezi klientskými a datovými zdroji (*nově podle B.M. i SOA). 6. Generická dimenzionalita (všechny dimenze se chovají stejně). © Doc. B. Miniberger, CSc.
Modelování a návrh DS
Pokračování 12 pravidel tvorby OLAP 1. 2. 3. 4. 5. 6.
Dynamické ovládání řídkých matic (automatické uspořádání profilů databáze). Multiuživatelská podpora (souběžné vyhledávání a aktualizace se zabezpečenou integritou a bezpečností). Neomezené provádění operací napříč dimenzemi (konsolidace kalkulů je prováděna automaticky, formule jsou k dispozici pro jiné kalkuly). Intuitivní manipulace s daty (vybavování napříč dimenzemi měl by zahrnovat jednoduché operace). Flexibilní reportování (reporty založené na animaci libovolně orientovaného datového modelu). Neomezený počet dimenzí a agregačních úrovní.
© Doc. B. Miniberger, CSc.
Modelování a návrh DS
Závěr Děkuji za pozornost
© Doc. B. Miniberger, CSc.
Modelování a návrh DS