Business Intelligence a datové sklady Ing. Jan Přichystal, Ph.D. Mendelova univerzita v Brně
2. prosince 2014
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Úvod Intenzivní nasazení informačních technologií způsobuje hromadění obrovské spousty nejrůznějších údajů. Příkladem mohou být informace z obchodování s cennými papíry nebo údaje z pokladen supermarketů, faktury, ceníky, seznamy klientů, pohyby na účtech a další údaje. Z provozních systémů je možné zjistit řadu zásadních informací nutných pro fungování podniku – plnění plánu, ziskovost produktů, klíčové ukazatele výkonnosti (KPI) atd. Množství uchovávaných údajů ovšem neznamená stejné množství informací. Proces transformace je složitý a časově náročný. Pro běžného uživatele (manažera) je téměř nemožné tyto informace z databázových systému získat. Tímto procesem se zabývá Business Intelligence. Jde nejen o zkoumání současných ale i predikování budoucích znalostí. .
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. .
.
. .
.
.
.
.
.
Co je Business Intelligence
Business Intelligence je obor zabývající se automatizovaným získáváním obchodních informací z datových zdrojů společností. Jeho cílem je umožnit zodpovědným pracovníkům bez hlubších technických znalostí: přistupovat k předpřipraveným reportům, aktivně vytvářet a distribuovat vlastní reporty, interaktivně analyzovat data, dostávat informace o změnách v datech a získávat tak informace jako podklad pro podporu svého rozhodování.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Troška historie Business Intelligence
Termín Business intelligence poprvé použil již v roce 1865 Richard Millar Devens, když popsal, jak bankéř Sir Henry Furnese vytvářel zisk získáváním a používáním informací o okolním prostředí. Business Intelligence vychází ze systémů pro podporu rozhodování (DSS), které se rozvíjely od 60. do 80. let 19. století. V roce 1989 použil termín „BI“ Howard Dresner (pozdější analytik u společnosti Gartner) jako: „proces zkoumání doménově strukturovaných informací za účelem zjištění trendů nebo jiných společenských informací pro tvorbu závěrů“
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Business Intelligence Další definice: cesta k informacím a znalostem. cesta jejíž cílem je zlepšení rozhodování využitím široké škály IS, aplikací a technologií sběru, uchování, analýzy a zpřístupnění dat. proces profesionálního sběru, zpracování a šíření informací pro podporu rozhodování vedení podniků. proces zaměřený na zvýšení konkurenceschopnosti podniků inteligentním využitím přístupných dat v rozhodovacím procesu Všechny definice shodují v tom, že se jedná o získávaní informací využitelných pro podporu rozhodovacích procesů.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Business Intelligence
Lze označit za komplex přístupů a aplikací IS/ICT, které téměř výlučně podporují analytické a plánovací činnosti podniků a organizací a jsou postaveny na principu multidimenzionality Aplikace Dotazovací (Query) Analytické (OLAP) Dolování z dat (Data Mining)
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Kvalita údajů pro analýzy V současnosti se hojně využívají různé druhy ekonomického SW. Jde o účetní programy, skladové hospodářství, evidence pohybu zboží apod. Shromážděné informace jsou z části velmi cenné, ale z části i zbytečné. Důležité je aby se k zodpovědným osobám dostaly kvalitní a důležité informace. Manažeři jsou často v situaci hráčů puzzle, kteří mají před sebou smíchané různé krabice kostiček bez výsledných obrázků. Příkladem může být sledování 1000 druhů zboží, 10 prodejních kanálů 100 odběratelů. Získáváme tak 1 milion různých kombinací. Při měsíčním sledování většího druhu zboží máme k dispozici obrovské množství údajů. Řešení je použití multidimenzionálních struktur. .
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . .
. . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Multidimenzionální databáze
Řešením omezení relačních DB je organizace do multidimenzionálních struktur. Používáme dva typy denormalizovaných tabulek (dimenze a fakta). Analytické DB označujeme pojmem OLAP (On-line Analytical Processing). Charakteristika: rychlý a komplexní přístup k velkému objemu údajů, možnost komplexních analýz, předpoklad pro modelování a prognózy, vyšší nároky na kapacitu úložiště.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Transakční vs. analytické databáze
Transakční databáze (OLTP) jsou určené k ukládání operačních údajů. Databáze v nich jsou zpravidla pro snížení redundance normalizovány což vede k velké strukturovanosti tabulek. Struktura databáze je uzpůsobena pro snadné a rychlé vyhledávání, vkládání či modifikaci jednotlivých záznamů. Naproti tomu jsou data v analytických databázích (OLAP) ukládána do hvězdicových nebo vločkových schémat a snaží se mít všechna data zpracovaná na jednom místě.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Nevýhody transakčních systémů pro analýzy
Neuchovávají historické údaje Nehomogenní struktura údajů Decentralizace systémů (sklady, účetnictví, CRM, …) Dlouhý čas přípravy údajů Obtížné hledání příčin a závislostí jednotlivých údajů Analýza přímo v operačním prostředí snižuje výkon důležitých systémů Příliš rozsáhlé výstupy
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Analýza OLAP „OLAP je volně definovaný řád principů, které poskytují dimenzionální rámec pro podporu rozhodování.“ (E. F. Codd) Multidimenzionální konceptuální pohled vhodný pro analýzy Transparentnost – nástroj musí být snadno použitelný Dostupnost – využití jen potřebných údajů a to z heterogenních zdrojů Konzistentní vykazování – s rostoucím počtem údajů neklesá výkon Architektura client-server s ohledem na cenu a výkon Podpora více uživatelů pracujících na stejném modelu Neomezené křížové dimenzionální operace Intuitivní manipulace s údaji – drill down, drill up Flexibilní vykazování – různé uspořádání údajů v reportech vhodné pro různé situace Víceúrovňové dimenze a agregace .
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
.
. .
.
.
.
.
.
Struktura transakční databáze
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Multidimenzionální databáze
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Fakta a dimenze
Fakta – numerické údaje o objektech studia. Jde o největší tabulky v databázi s velkým objemem dat. Obvykle obsahují dva typy sloupců (údaje a klíče do tabulek dimenzí). Fakta se seskupují a vytváří metriky. Příkladem faktů je například množství prodaných produktů. Dimenze – hierarchické uspořádání údajů. Jde o menší tabulky. Dimenze umožňují zkoumat data z různých pohledů. Mluvíme o dimenzích časových, produktových, geografických atd.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Multidimenzionální databázový model
ík zn ka Zá
Data jsou organizována v relační databázi.
Produkt
Každý řádek se vztahuje k jisté události, předmětu nebo jejich části. Výsledkem agregace údajů je multidimenzionální datová struktura – krychle.
Čas
Krychle obsahuje mnoho dimenzí (časové, místní, věcné, …). Na průniku dimenzí se nachází konkrétní údaje. .
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Zpracování údajů z operačního prostředí
Zpracování údajů na informace a analýza obvykle neprobíhá v operačním prostředí, protože by mohlo dojít k výraznému snížení výkonu a tím i ohrožení hladkého běhu. Data se tedy obvykle přenášejí do jiného prostředí (datových skladů), kde se teprve zpracovávají. Výhodou tohoto řešení je i to, že data mohou být získávána i z různých zdrojů. Nevýhodou je redundance údajů, zvýšení zátěže IT pracovníků, snížení flexibility a částečná ztráta metadat.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Tvorba datového skladu
Datový sklad ETL procesy
Uivatelé Prezentaèní nástroje
Provozní systémy
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Datový sklad
Jde o strukturované úložiště údajů určených pro analýzy. „Datový sklad je podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnlivých, historických dat použitých a získávání informací a podporu rozhodování. V datovém skladu jsou uložena atomická a sumární data.“ (Bill Inmon) Do datového skladu se dostávají pravidelné informace z různorodých zdrojů i geograficky odlišných.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Datový sklad
Subjektová orientace – uchovávají se údaje podle předmětu zájmu, nikoliv podle aplikace, ve které byly vytvořeny. Integrovanost – údaje o konkrétním předmětu se ukládají jen jednou za použití jednotné terminologie názvů, jednotek apod. Časová variabilita – údaje se ukládají jako série časových snímků reprezentujících časové úseky. Neměnnost – v datových skladech se údaje obvykle nemění, jsou jen pro čtení.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Příprava údajů – ETL Proces BI/DW obvykle pracuje s nehomogenními zdroji údajů. Liší se jak fyzickým způsobem uložení (různé DB systémy) tak i logickou strukturou. Taková data je nutné před započetím analýz připravit. Proces nazýváme ETL. Extraction – výběr dat Transformation – ověření, čištění, integrace a časové označení Loading – přemístění dat do datového skladu Jde o komplexní a časově náročný proces, který může zabrat podstatnou většinu času určeného pro přípravu analytického prostředí. .
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
ETL
Prodeje Extra
Datový sklad
kce
Sklady Transformace
Výroba
ání
Naèít
Úèetnictví
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Extrakce
Úkolem tohoto kroku je získat data z různých nehomogenních provozních systémů a sjednotit je na jednom místě. Extrakce se týká nejen dat aktuálních, ale při přípravě nového skladu musíme pracovat i s daty archivními. Získávat můžeme data nejen z našich systémů, ale i od konkurence nebo různé volně dostupné statistické přehledy. Extrakce není jednorázová akce. Datový sklad plníme periodicky. Využíváme různé vyšší procedurální programovací jazyky (C++, C#), procedurální nadstavby DB systémů (T-SQL, PL/SQL) a další.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Transformace
Velmi důležitý krok, který rozhoduje o kvalitě zkoumaných dat. Údaje z provozních systémů mívají různou kvalitu. Jde o chybně vložená data nebo nekompletní data, případně o duplicitní data. Ta je potřeba pročistit. Údaje mají i různou strukturu, v každém systému jsou jiné datové typy (rodná čísla), rozsahy (měna), zkratky (pohlaví) atd. Data jsou nejednoznačná. Tato data je potřeba transformovat do jednotné podoby.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Přenos
Je završením etapy ETL. V této fázi dochází k přenosu dat z přípravné oblasti do datového skladu. Jde o plánovaný a hierarchizovaný proces s maximální možnou mírou automatizace. Někdy je třeba použít i umělé primární klíče. Po zavedení údajů obvykle následuje indexování.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Problémy ETL
Proces ETL nemusí vždy proběhnout úspěšně. Může dojít k selhání technických prostředků případně i software. Velmi důležité je následné ověření kvality a celistvosti údajů. Pokud proces nedopadne dobře je obvykle nutné začít znovu od místa selhání, případně opakovat celý proces znovu.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Prezentační vrstva
Účelem je nabídnout zodpovědným pracovníkům intuitivní analytické nástroje umožňující zkoumání dat z různých pohledů („slice and dice“) a různých úrovní („drill“) prostřednictvím různých typů reportů (dashboardy, scorecardy). Statické reporty (e-mail, firemní BI portál) – pasivní příjem reportů Dynamické reporty (Excel, firemní BI portál) – tvorba vlastních analýz
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Excel
Jeden z nejpoužívanějších reportovacích nástrojů Vzorce, tabulky, (mini)grafy, průřezy Umožňuje ad-hoc analýzy Rozhraní pro připojení k zdrojům dat pomocí kontingenční tabulky Omezená tvorba předdefinovaných reportů Neoptimalizované načtení balíku dat, omezení velikosti dat
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
PowerPivot, PowerQuery, PowerView, PowerMap Volná rozšíření pro analýzy dat pomocí Excelu, která významně rozšiřují dotazovací a prezentační možnosti. PowerQuery – přístup k libovolným datům (databáze, web, …), jejich filtrování a úprava. PowerPivot – ukládání získaných dat do připravených datových modelů, data ukládá v komprimované podobě ve vlastní databázi, není omezen počtem záznamů. PowerView – interaktivní zkoumání, vizualizace a prezentace dat, rozšiřuje možnosti vytváření interaktivních ad-hoc sestav. PowerMap – prezentační doplněk dat, umí zobrazovat jak grafy, tak mapu světa s grafickým vyjádřením hodnot pro konkrétní lokalitu. .
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
SharePoint a Power BI
Reprezentanti BI portálů Usnadňují organizaci a strukturování reportů Umožňují spolupráci, vyhledávání, podporu uživatelských rolí apod. Nabízeny ve formě portálového řešení nebo webové aplikace Sdružují reporty různých platforem (Reporting Services, Excel, Office WebApplications, Visio Services)
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Doporučená literatura
Kimball, R. Margy, R. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (2nd ed.). New York: Wiley. Lacko L. Datové sklady, analýza OLAP a dolování dat. Brno 2003. Computer Press.
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.
Závěr
Děkuji za pozornost Dotazy?
.
Ing. Jan Přichystal, Ph.D.
.
.
.
.
BI a datové sklady
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. .
.
. .
.
.
.
.
.