Datové sklady Ing. Jan Přichystal, Ph.D. PEF MZLU v Brně
1. listopadu 2011
Ing. Jan Přichystal, Ph.D.
Datové sklady
Úvod
Intenzivní nasazení informačních technologií způsobuje hromadění obrovské spousty nejrůznějších údajů. Příkladem mohou být informace z obchodování s cennými papíry nebo údaje z pokladen supermarketů. Množství získaných údajů ovšem neznamená stejné množství informací. Proces transformace je složitý a časově náročný. Tímto procesem se zabývá Business Intelligence. Jde nejen o zkoumání současných ale i predikování budoucích znalostí. Moderní DB servery umožňují budovat datové sklady a provádět nad daty analýzy (OLAP).
Ing. Jan Přichystal, Ph.D.
Datové sklady
Transakční vs. analytické databáze
Transakční databáze (OLTP) jsou určené k ukládání operačních údajů. Databáze v nich jsou zpravidla pro snížení redundance normalizovány což vede k velké strukturovanosti tabulek. Problémem transakčních systémů je decentralizace. Používají se různé systémy pro zpracování různých údajů (účetnictví, sklady, apod.). Naproti tomu jsou data v analytických databázích (OLAP) ukládána do hvězdicových nebo vločkových schémat a snaží se mít všechna data zpracovaná na jednom místě.
Ing. Jan Přichystal, Ph.D.
Datové sklady
Nevýhody transakčních systémů pro analýzy
Neuchovávají historické údaje Nehomogenní struktura údajů Dlouhý čas přípravy údajů Obtížné hledání příčin a závislostí jednotlivých údajů Analýza přímo v operačním prostředí snižuje výkon důležitých systémů Příliš rozsáhlé výstupy
Ing. Jan Přichystal, Ph.D.
Datové sklady
Kvalita údajů pro analýzy V současnosti se hojně využívají různé druhy ekonomického SW. Jde o účetní programy, skladové hospodářství, evidence pohybu zboží apod. Shromážděné informace jsou z části velmi cenné, ale z části i zbytečné. Důležité je aby se k zodpovědným osobám dostaly kvalitní a důležité informace. Manažeři jsou často v situaci hráčů puzzle, kteří mají před sebou smíchané různé krabice kostiček bez výsledných obrázků. Příkladem může být sledování 1000 druhů zboží, 10 prodejních kanálů 100 odběratelů. Získáváme tak 1 milion různých kombinací. Při měsíčním sledování většího druhu zboží máme k dispozici obrovské množství údajů. Řešení je použití multidimenzionálních struktur. Ing. Jan Přichystal, Ph.D.
Datové sklady
Multidimenzionální databáze
Řešením omezení relačních DB je organizace do multidimenzionálních struktur. Používáme dva typy nenormalizovaných tabulek (dimenze a fakta). Analytické DB označujeme pojmem OLAP (On-line Analytical Processing). Charakteristika: rychlý a komplexní přístup k velkému objemu údajů, možnost komplexních analýz, předpoklad pro modelování a prognózy, vyšší nároky na kapacitu úložiště.
Ing. Jan Přichystal, Ph.D.
Datové sklady
Fakta a dimenze
Ing. Jan Přichystal, Ph.D.
Datové sklady
Fakta a dimenze
Fakta – numerické údaje o objektech studia. Jde o největší tabulky v databázi s velkým objemem dat. Obvykle obsahují dva typy sloupců (údaje a klíče do tabulek dimenzí). Fakta se seskupují a vytváří metriky. Příkladem faktů je například množství prodaných produktů. Dimenze – hierarchické uspořádání údajů. Jde o menší tabulky. Dimenze umožňují zkoumat data z různých pohledů. Mluvíme o dimenzích časových, produktových, geografických atd.
Ing. Jan Přichystal, Ph.D.
Datové sklady
Multidimenzionální databázový model
ík zn ka Zá
Data jsou organizována v relační databázi.
Produkt
Každý řádek se vztahuje k jisté události, předmětu nebo jejich části. Výsledkem agregace údajů je multidimenzionální datová struktura – krychle.
Čas
Krychle obsahuje mnoho dimenzí (časové, místní, věcné . . . ). Na průniku dimenzí se nachází konkrétní údaje. Ing. Jan Přichystal, Ph.D.
Datové sklady
Zpracování údajů z operačního prostředí
Zpracování údajů na informace a analýza obvykle neprobíhá v operačním prostředí, protože by mohlo dojít k výraznému snížení výkonu a tím i ohrožení hladkého běhu. Data se tedy obvykle přenášejí do jiného prostředí (datových skladů), kde se teprve zpracovávají. Výhodou tohoto řešení je i to, že data mohou být získávána i z různých zdrojů. Nevýhodou je redundance údajů, zvýšení zátěže IT pracovníků, snížení flexibility a částečná ztráta metadat.
Ing. Jan Přichystal, Ph.D.
Datové sklady
Tvorba datového skladu
Datový sklad ETL procesy
Uivatelé Prezentaèní nástroje
Provozní systémy
Ing. Jan Přichystal, Ph.D.
Datové sklady
Datový sklad
Jde o strukturované úložiště údajů určených pro analýzy. „Datový sklad je podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých a získávání informací a podporu rozhodování. V datovém skladu jsou uložena atomická a sumární data.ÿ (Bill Inmon) Do datového skladu se dostávají pravidelné informace z různorodých zdrojů i geograficky odlišných.
Ing. Jan Přichystal, Ph.D.
Datové sklady
Datový sklad
Subjektová orientace – uchovávají se údaje podle předmětu zájmu, nikoliv podle aplikace, ve které byly vytvořeny. Integrovanost – údaje o konkrétním předmětu se ukládají jen jednou za použití jednotné terminologie názvů, jednotek apod. Časová variabilita – údaje se ukládají jako série časových snímků reprezentujících časové úseky. Neměnnost – v datových skladech se údaje obvykle nemění, jsou jen pro čtení.
Ing. Jan Přichystal, Ph.D.
Datové sklady
Datové trhy
Datové trhy jsou přesně specifikované podmnožiny datového skladu, určené pro menší organizační složky. Samotný datový sklad je velmi náročný projekt, proto jej často budujeme a členíme do menších částí.
Ing. Jan Přichystal, Ph.D.
Datové sklady
Metody tvorby datového skladu
Při návrhu datového skladu je potřeba brát v úvahu organizační strukturu subjektu. Vhodné metody jsou: Metoda „velkého třeskuÿ Přírůstková metoda
Ing. Jan Přichystal, Ph.D.
Datové sklady
Příprava údajů – ETL Proces BI/DW obvykle pracuje s nehomogenními zdroji údajů. Liší se jak fyzickým způsobem uložení (různé DB systémy) tak i logickou strukturou. Taková data je nutné před započetím analýz připravit. Proces nazýváme ETL. Extraction – výběr dat Transformation – ověření, čištění, integrace a časové označení Loading – přemístění dat do datového skladu Jde o komplexní a časově náročný proces, který může zabrat podstatnou většinu času určeného pro přípravu analytického prostředí.
Ing. Jan Přichystal, Ph.D.
Datové sklady
ETL
Prodeje Extra
Datový sklad
kce
Sklady Transformace
Výroba
ání
Naèít
Úèetnictví
Ing. Jan Přichystal, Ph.D.
Datové sklady
Extrakce
Úkolem tohoto kroku je získat data z různých nehomogenních provozních systémů a sjednotit je na jednom místě. Extrakce se týká nejen dat aktuálních, ale při přípravě nového skladu musíme pracovat i s daty archivními. Získávat můžeme data nejen z našich systémů, ale i od konkurence nebo různé volně dostupné statistické přehledy. Extrakce není jednorázová akce. Datový sklad plníme periodicky. Využíváme různé vyšší procedurální programovací jazyky (C++, C#) nebo procedurální nadstavby DB systémů (T-SQL, PL/SQL).
Ing. Jan Přichystal, Ph.D.
Datové sklady
Transformace
Velmi důležitý krok, který rozhoduje o kvalitě zkoumaných dat. Údaje z provozních systémů mívají různou kvalitu. Jde o chybně vložená data nebo nekompletní data, případně o duplicitní data. Ta je potřeba pročistit. Údaje mají i různou strukturu, v každém systému jsou jiné datové typy (rodná čísla), rozsahy (měna), zkratky (pohlaví) atd. Data jsou nejednoznačná. Tato data je potřeba transformovat do jednotné podoby.
Ing. Jan Přichystal, Ph.D.
Datové sklady
Přenos
Je završením etapy ETL. V této fázi dochází k přenosu dat z přípravné oblasti do datového skladu. Jde o plánovaný a hierarchizovaný proces s maximální možnou mírou automatizace. Někdy je třeba použít i umělé primární klíče. Po zavedení údajů obvykle následuje indexování.
Ing. Jan Přichystal, Ph.D.
Datové sklady
Problémy ETL
Proces ETL nemusí vždy proběhnout úspěšně. Může dojít k selhání technických prostředků případně i software. Velmi důležité je následné ověření kvality a celistvosti údajů. Pokud proces nedopadne dobře je obvykle nutné začít znovu od místa selhání, případně opakovat celý proces znovu.
Ing. Jan Přichystal, Ph.D.
Datové sklady
Analýza OLAP „OLAP je volně definovaný řád principů, které poskytují dimenzionální rámec pro podporu rozhodování.ÿ (E. F. Codd) Multidimenzionální konceptuální pohled vhodný pro analýzy Transparentnost – nástroj musí být snadno použitelný Dostupnost – využití jen potřebných údajů a to z heterogenních zdrojů Konzistentní vykazování – s rostoucím počtem údajů neklesá výkon Architektura client-server s ohledem na cenu a výkon Podpora více uživatelů pracujících na stejném modelu Neomezené křížové dimenzionální operace Intuitivní manipulace s údaji – drill down, drill up Flexibilní vykazování – různé uspořádání údajů v reportech vhodné pro různé situace Víceúrovňové dimenze a agregace Ing. Jan Přichystal, Ph.D.
Datové sklady
MOLAP, ROLAP, HOLAP
Multidimenzionální OLAP – data získává buď z datového skladu nebo operačních zdrojů. Analytická data ukládá do vlastních datových struktur. Předpočítá maximální množství předběžných výsledků. Výhodou je rychlost, nevýhodou redundance údajů. Relační OLAP – data získává z relačního datového skladu. Údaje se předkládají jako multidimenzionální pohled. Využívá metadata pro dynamické generování SQL dotazů. Hybridní OLAP – kombinace přístupu MOLAP a ROLAP. Snaží se eliminovat nevýhody. Údaje jsou v relačních databázích, agregace se ukládají do multidimenzionálních struktur.
Ing. Jan Přichystal, Ph.D.
Datové sklady
Doporučená literatura
Kimball, Ralph; Margy Ross (2002). The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition ed.). New York: Wiley. ISBN 0-471-20024-7. Lacko L. Datové sklady, analýza OLAP a dolování dat. Brno 2003. Computer Press. ISBN 80-7226-969-0. Lacko L. Business Intelligence v SQL Serveru 2008. Brno 2009. Computer Press. EAN 9788025128879. Novotný O., Pour J., Slánský D. Business Intelligence. Praha 2005. Grada. ISBN 80-247-1094-3.
Ing. Jan Přichystal, Ph.D.
Datové sklady
Závěr
Děkuji za pozornost Dotazy?
Ing. Jan Přichystal, Ph.D.
Datové sklady