Datový sklad Postavení v rámci IS/ICT Specifika návrhu Modelování
Vladimíra Zádová, KIN, EF, TUL -PDS
Datový sklad
POSTAVENÍ ⇒ NÁVRH
Postavení datového skladu (DW) v IS/ICT – z hlediska aplikací •
–
jako součást Business Intelligence
z hlediska dat a procesů
Vladimíra Zádová, KIN, EF, TUL -PDS
Hlavní cíle
•
Hlavní momenty návrhu datového skladu – z hlediska postavení a povahy datových skladů
•
Modelování datového skladu – multidimenzionální modelování - modely – požadavky na modely datového skladu
Vladimíra Zádová, KIN, EF, TUL -PDS
Postavení a povaha datových skladů
Vladimíra Zádová, KIN, EF, TUL -PDS
Architektura IS/ICT
BI
CRM
ERP
SCM
Aplikace pro podporu základních řídících a administrativních operací podniku
Vladimíra Zádová, KIN, EF, TUL -PDS
Obecná koncepce architektury BI
Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005 Vladimíra Zádová, KIN, EF, TUL -PDS
DW - definice •
je subjektově orientovaná , integrovaná, časově variantní a stálá kolekce dat pro podporu rozhodování manažerů B. Inmon
•
subjektová orientace – DW je organizován podle hlavních subjektů podniku (zákazníci, prodej, produkt..), ne podle procesů (aplikací) – reflektuje potřeby uložení dat pro rozhodování – v jedné databázi DW jsou uložena data pouze jednou (např. o produktu, zaměstnanci )
•
integrovaná – do celku jsou vkládána data z různých aplikací - nekonzistentnost, různé formáty – integrací těchto dat - prezentace unifikovaného pohledu Vladimíra Zádová, KIN, EF, TUL -PDS
DW •
časově variantní – data v DW jsou platná a přesná jen v bodech, ne intervalech času – uložení historie dat - hodnoty v časových bodech ( den, měsíc, Q, rok..) •v DW vždy dimenze času
•
stálá –data v DW nevznikají, nedají se žádnými nástroji měnit –aktualizace DW - jen přidávání dat v pravidelných časových intervalech (jako doplněk), integrace přírustků další definice - většinou zahrnují procesy spojené s přístupem k datům z původních zdrojů
Vladimíra Zádová, KIN, EF, TUL -PDS
Postavení DW v rámci IS/ICT z hlediska dat a procesů
Vladimíra Zádová, KIN, EF, TUL -PDS
IS/ICT - vztahy mezi daty a procesy
BI
OLTP
Operativní data
ETL
OLAP, DM, Datové sklady
OLAM, EIS
DATAWAREHOUSING
Vladimíra Zádová, KIN, EF, TUL -PDS
•
dotazy/reporting – dotazy na to CO je v databázi
•
OLAP – PROČ jsou některé fakty pravdivé – uživatel generuje hypotézu a OLAP slouží k jejímu ověření – je závislý na schopnostech analytika, ten se iterací dostává k výsledku
•
Dolování dat – představuje nástroje, které generují hypotézy a pokračují v provádění objevování znalostí • bez navádění uživatelem
Vladimíra Zádová, KIN, EF, TUL -PDS
ANALÝZA OLAP - Online Analytical Processing
definice Definovaná řada principů, které poskytují dimenzionální rámec pro podporu rozhodování. Dynamická syntéza, analýza a fúze velkého objemu multidimenzionálních dat.
Vladimíra Zádová, KIN, EF, TUL -PDS
OLAP
On-line Analytical Processing = provádění analýz nad multidimenzionální databází, která je vybudovaná jako logická či fyzická vrstva nad DW operace – drilling: roll-up, drill-down (zvýšení snížení stupně agregace) – slicing ( selekce) - provedení řezu v multidimenzionální databázi – dicing - projekce – pivoting - přeorientování vícerozměrného pohledu na data
Vladimíra Zádová, KIN, EF, TUL -PDS
ANALÝZA OLAP •
Coddova pravidla pro OLAP 1. Multidimenzionální konceptuální pohled –
OLAP by měl poskytovat uživateli multidimenzionální model, který koresponduje s pohledem uživatele a je intuitivně analytický a snadný k užití
2. Transparentnost –
OLAP technologie, pod ní ležící databáze, architektura výpočtů i vstupní datové zdroje by měly být pro uživatele transparentní, aby si udržel svou odbornost i produktivitu při použití front-end nástrojů
3. Dostupnost –
OLAP by měl být schopen přistupovat k datům potřebným pro analýzu ze všech heterogenních podnikových zdrojů ( nezávisle na tom, odkud pocházejí ) Vladimíra Zádová, KIN, EF, TUL -PDS
ANALÝZA OLAP 4. Konzistentní vykazování I přes zvyšování počtu dimenzí, úrovní agregace a velikosti databáze by neměli uživatelé pocítit podstatné snížení výkonu
–
5. Architektura C/S OLAP musí odpovídat principům C/S architektury s přihlédnutím na max. cenu, výkon, flexibilitu
–
6. Generická dimenzionalita Každá dimenze musí být ekvivalentní jak ve struktuře, tak v operačních schopnostech ( tj. základní struktura, pravidla a reporting by neměly být zkresleny směrem k žádné dimenzi)
–
Vladimíra Zádová, KIN, EF, TUL -PDS
ANALÝZA OLAP 7. Dynamické ošetření řídkých matic –
OLAP by měl být schopen adaptovat své fyzické schéma na konkrétní analytický model, který optimalizuje řídkou matici , aby dosáhl a udržel požadovanou úroveň výkonu
8. Podpora pro více uživatelů –
OLAP musí být schopen podpořit skupinu uživatelů pracujících souběžně na tom samém, či odlišném modelu podnikových dat
9. Neomezené křížové dimenzionální operace –
OLAP musí rozeznat hierarchie dimenzí a automaticky provést asociované kumulované kalkulace v rámci dimenzí i mezi dimenzemi Vladimíra Zádová, KIN, EF, TUL -PDS
ANALÝZA OLAP 10. Intuitivní manipulace s daty –
Slicing, dicing, drill down, roll-up a jiné manipulace by měly být provedeny prostřednictvím „ zachytit, uchopit a přemístit“ v buňkách kostky
11. Flexibilní vykazování –
Musí existovat schopnost uspořádat řádky, sloupce, buňky tak, aby byla umožněna analýza prostřednictvím vizuální prezentace analytických sestav
12. Neomezené dimenze a úrovně agregace –
analytický model může mít více dimenzí , každá dimenze může mít více hierarchií. OLAP by to neměl omezit
Pozn.: časem byla formulována další pravidla; tato jsou základní Vladimíra Zádová, KIN, EF, TUL -PDS
FASMI test = Fast Analysis of Shared Multidimensional Information •
Uveden v roce 1995
•
FAST – systém je navržen pro poskytování většiny požadovaných odpovědí na dotazy jeho uživatelů během 5 sekund, s tím, že by ty nejjednodušší analýzy neměly trvat více než 1 sekundu. Pouze několik dotazů může trvat více než 20 sekund
Vladimíra Zádová, KIN, EF, TUL -PDS
FASMI test • •
•
•
ANALYSIS – systém umí zvládat jakoukoli obchodní logiku či statistickou analýzu, kterou požaduje uživatel nebo aplikace SHARED – systém musí zabezpečit veškeré bezpečností požadavky na důvěrnost dat. Jestliže umožňuje změny dat, musí současně vyřešit problémy aktualizace u vícenásobného přístupu k datům. MULTIDIMENSIONAL – klíčový požadavek. Systém musí poskytnout multidimenzionální konceptuální pohled na data, a to včetně plné podpory hierarchií resp. vícenásobných hierarchií tak, aby bylo možné analyzovat data přirozeným způsobem. INFORMATION – pojem označuje veškerá data a odvozené informace, které jsou potřeba pro činnost aplikace. Měří se kapacita vstupních dat, která mohou být zpracována, ne kolik jich může být uloženo Vladimíra Zádová, KIN, EF, TUL -PDS
ROLAP, MOLAP a HOLAP souvisí s uložením dat v OLAP
ROLAP (Relational (Relational OLAP) pro práci s relační databází (RDBMS) • výhoda: dynamický přístup k detailním informacím v DW • nevýhoda při nárustu komplexnosti a objemu databáze –
výrazné zpomalení odezvy na dotazy; snížení použitelnosti
MOLAP (Multidimensional (Multidimensional OLAP) pro práci s multidimenzionální databází • výhoda: rychlá odezva na dotaz a velké analytické možnosti • nevýhoda: orientace na práci s agregovanými hodnotami bez možnosti zpracování velmi detailních informací
. HOLAP (Hybrid OLAP) kombinují přednosti obou technologií. klient OLAP zpracovává relativně malé objemy dat uložené v paměti , výpočty jsou prováděny většinou v reálném čase
Vladimíra Zádová, KIN, EF, TUL -PDS
Dolování dat (Data Mining) Dolování dat je proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody Cíl: obchodní výhoda • řešení konkrétního problému • nalezení cesty k zlepšení procesu
– předem definován, na jeho základě připravena data; není jednorázová analýza příprava podnikových procesů - aby umožnily využívání analýz (kontinuálně) a podporovaly zpětné vazby od uživatelů. Zpětné vazby ovlivňují proces sběru dat i definice nových cílů. Vladimíra Zádová, KIN, EF, TUL -PDS
Dolování dat a objevování znalostí v datech •
•
Knowledge Discovery in Databases ( KDD, objevování znalostí v datech ) – obecně netriviální proces objevování platných, nových, potenciálně užitečných vzorů z dat. Dolování dat
( Data Mining)
– pouze krok v procesu KDD – založený na aplikaci výpočetních technik, které na základě daných omezení poskytují vzory či modely nad danými daty
Vladimíra Zádová, KIN, EF, TUL -PDS
Dolování dat a objevování znalostí v datech
vyhodnocení vzorů
dolování dat data relevantní pro úlohu
DW
selekce
čištění dat integrace dat
DB Vladimíra Zádová, KIN, EF, TUL -PDS
fáze procesu KDD selekce – výběr nebo segmentace dat podle kriteria, výběr vzorků dat
předzpracová edzpracování dat – pro efektivní vyhodnocení dotazu – čištění dat od nepotřebných dat, úprava formátů dat
transformace – pro obohacení použitelnosti dat – data mohou být rozšířena o další atributy (např. demografické z externích zdrojů)
dolová dolování dat – extrakce vzorů z dat interpretace a vyhodnocení vyhodnocení – identifikované vzory jsou interpretovány jako znalosti – lze je použít k podpoře rozhodování Vladimíra Zádová, KIN, EF, TUL -PDS
Cíle v procesu získávání znalostí • •
verifikace - ověření hypotézy explorace - hledání nových znalostí – predikce ..... prediktivní modely – deskripce ..... deskriptivní modely
cíle - pomocí modelů (odkrývání vzorů) prediktivní model – předpovídá hodnoty určených atributů na základě jiných atributů.
známých hodnot
deskriptivní model − popisuje vzory v existujících datech, jimi může ovlivňovat rozhodování. Hlavní rozdíl : v prediktivních modelech se provádí predikce explicitně pomocí deskriptivních modelů lze určit predikci implicitně Vladimíra Zádová, KIN, EF, TUL -PDS
Modely
− pro predikci –
klasifikace, regrese, časové řady, shlukování
− pro deskripci – asociační analýza, objevování posloupností, shlukování; charakterizace dat, porovnání
Vladimíra Zádová, KIN, EF, TUL -PDS
Hlavní momenty návrhu datového skladu
Vladimíra Zádová, KIN, EF, TUL -PDS
Hlavní momenty návrhu datového skladu
•
Návrh z hlediska procesů pro podporu rozhodování
•
Návrh datového skladu z hlediska zdrojů dat
•
Multidimenzionální modelování
•
Přístup k budování datového skladu jako celku
Vladimíra Zádová, KIN, EF, TUL -PDS
Návrh z hlediska procesů pro podporu rozhodování
OLTP
• • • •
Operativní data
ETL
Datové sklady
OLAP, DM
Granularita Dimenze Fakty Sledování ukazatelů Vladimíra Zádová, KIN, EF, TUL -PDS
Návrh z hlediska procesů pro podporu rozhodování Pro všechny procesy rozhodování je třeba – stanovit zaměření, podrobnost a rozsah sledování (jednotlivé atributy vč. domén, které vyhovují požadavkům)
dolování dat – jedná se spíše o stanovení atributů jedné úrovně hierarchie
OLAP – určujícím z hlediska procesů je zejména jeho operace roll-up a drill down, eventuálně drill across – u OLAP procesů se určují i atributy popisující více úrovní hierarchie, popřípadě vytvářející další hierarchie
Vladimíra Zádová, KIN, EF, TUL -PDS
Granularita datových skladů/tržišť
Vladimíra Zádová, KIN, EF, TUL -PDS
Granularita datových skladů/tržišť
Z hlediska charakteru sledování rozděleny do 3 základních typů (snímků): • transakční snímek • periodický časový snímek • akumulační snímek.
– nejsou zcela odlišné, sdílí společné dimenze, pro poskytnutí kompletního vyhodnocení se mohou doplňovat.
Vladimíra Zádová, KIN, EF, TUL -PDS
Granularita datových skladů/tržišť Transakční snímek – granularita vztažena ke konkrétní události • je nejpodrobnější, je zaměřen na sledování chování – reprezentuje transakce (události), které se staly v určitém konkrétním bodě - jen pokud událost nastane, bude záznam v tabulce faktů – dimenze čas (může být vztaženo na datum a hodinu/část dne) obsahuje čas, kdy událost nastala k transakcím nemusí docházet pravidelně
Vladimíra Zádová, KIN, EF, TUL -PDS
Granularita datových skladů/tržišť Periodický časový snímek – jednotlivé záznamy odrazem všech aktivit v dané periodě (den, týden, měsíc) – snímek reprezentuje agregaci transakčních aktivit na konci stanovené periody, neuvádí žádné podrobné informace na úrovni jednotlivých aktivit, které nastaly mezi dvěma po sobě následujícími časovými úseky – menší počet dimenzí proti transakčnímu snímku – v daném záznamu je uvedeno datum konce sledovaného období
Vladimíra Zádová, KIN, EF, TUL -PDS
Granularita datových skladů/tržišť Akumulační snímek – pokrývá více procesů – jednotlivé prvky se vkládají, ale stávající prvky se i aktualizují - na počátku nejsou známy všechny hodnoty atributů • rozdíl od předchozích snímků
– typickým příkladem je zachycení výrobku jako toku – od objednávky přes výrobu až po fakturaci, platbu, případě reklamaci – jeden prvek obsahuje neurčité časové rozpětí – čas je obsažen v několika rolích, reprezentuje hlavní milníky procesů – jednotlivé aktualizace prvků typicky znamenají umísťování aktivit
Vladimíra Zádová, KIN, EF, TUL -PDS
Dimenze
Vladimíra Zádová, KIN, EF, TUL -PDS
Dimenze Dimenze – agregační hierarchie – atributy agregační úrovně – vlastnosti atributů – specifické dimenze – změny v dimenzích
Vladimíra Zádová, KIN, EF, TUL -PDS
Základní představa D2
D1 F1
D3
D4
Vladimíra Zádová, KIN, EF, TUL -PDS
Dimenze • •
subjekt důležitý pro činnost organizace (posouzení činnosti organizace) určena atributy na různých úrovních podrobnosti – nejvyšší granularita = nejjemnější úroveň podrobnosti
•
atributy – dimenzionální atributy (atributy agregační úrovně (aggregation level), úrovně dimenze (dimension level) – nedimenzionální (non-dimensional atribute), vlastnosti prvků (property members), vlastnosti atributů (property attribute)
Vladimíra Zádová, KIN, EF, TUL -PDS
Atributy dimenzí •
dimenzionální atributy (atributy agregační úrovně (aggregation level), úrovně dimenze (dimension level) – určují agregační úrovně – agregační úroveň je dána množinou svých instancí – mezi atributy vyjadřujícími agregační úrovně existuje vztah 1:N, nebo M:N • je-li 1:N, lze agregační úrovně mezi sebou porovnat, patří ke stejné agregační hierarchii • je-li vztah M:N - agregační úrovně jsou mezi sebou neporovnatelné, patří do různých agregačních hierarchií • operace roll-up, drill-down probíhají v rámci jedné agregační hierarchie
Vladimíra Zádová, KIN, EF, TUL -PDS
Atributy dimenzí – nedimenzionální (non-dimensional atribute), vlastnosti prvků (property members), vlastnosti atributů (property attribute) • • • •
blíže charakterizují jednotlivé úrovně, ale nevymezují je jsou volitelné (doména může obsahovat NULL) mohou být užity pro omezení výstupů při dotazování v žádném případě neslouží k určení hodnoty faktů vzhledem k dané agregační úrovni
Vladimíra Zádová, KIN, EF, TUL -PDS
Agregační hierarchie •
•
pro agregační hierarchii se používá i termín agregační cesta (aggregation path) dimenze má alespoň 1 agregační hierarchii – má-li jich více – určuje se • implicitní (hlavní) agregační hierarchie; ostatní jsou alternativní
– nejčastěji má dimenze pouze jednu minimální agregační úroveň a jednu maximální agregační úroveň • tj. i v případě více agregačních cest všechny začínají i končí v jedné společné agregační úrovni • atribut, který určuje nejvyšší úroveň granularity, je kandidátem na klíč dimenze, ale nejčastěji klíč dimenze umělý – pokud je atribut, který určuje nejjemnější úroveň granularity, klíčem dimenze, je obsažen i v tabulce faktů
Vladimíra Zádová, KIN, EF, TUL -PDS
Agregační hierarchie jednoduché hierarchie dimenze (simple dimension hierarchy) – pouze jedna hierarchie – všechny agregační úrovně povinné
násobné hierarchie dimenze (multiple dimension hierarchy) –
má alespoň dvě hierarchie • hierarchie mohou být povinné i volitelné • Volitelná agregační cesta (málo častá) – závisí na hodnotě instance povinné agregační úrovně – existují dvě povinné agregační úrovně úroveň štěpení (split level), úroveň spojení (join level), mezi kterými jsou volitelné agregační úrovně – z úrovně štěpení dochází k rozdílnému sledování, které končí v úrovni spojení » na konkrétní hodnotě instance úrovně spojení závisí zvolení jedné z volitelných úrovní- této hodnotě se říká kontext vyhodnocení pro volitelnou úroveň (context of validity) (kontext závislosti (context of dependency) je pak dán volitelnou úrovní, úrovní spojení a kontextem vyhodnocení) – Př. je zákazník, který je buď fyzická osoba, nebo právnická osoba. V závislosti na typu zákazníka je pak volena agregační úroveň sledování – v případě právnické osoby odvětví, jinak profese.
Vladimíra Zádová, KIN, EF, TUL -PDS
Konzistence v návrhu
Vladimíra Zádová, KIN, EF, TUL -PDS
Agregační cesta a operace roll-up, drill down •
pro zajištění konzistentních výsledků těchto operací je třeba přijmout omezení – pro jednoduchou agregační cestu, či alternativní agregační cestu v dimenzi musí být splněno • instance nižší úrovně agregace musí být přiřazeny právě k jedné instanci vyšší agregační úrovně (nikoli nejvýše jedné) – tj. v případech, kdy po sobě následující agregační úrovně jsou povinné, je omezena funkční závislost – nemůže být uvažována NULL hodnota v doméně vyšší úrovně » pokud pro instance nižší úrovně agregace není možné určit konkrétní instanci úrovně vyšší, nelze agregovat - přiřadí se do množiny instancí vyšší úrovně instance ostatní
Vladimíra Zádová, KIN, EF, TUL -PDS
Agregační cesta a operace roll-up, drill down •
volitelné agregační cesty – dosažení konzistence: - každá instance úrovně štěpení musí náležet právě k jedné volitelné agregační úrovni - pro volitelnou úroveň musí být splněno, že každá její instance (NOT NULL) náleží k jedné instanci úrovně spojení
Vladimíra Zádová, KIN, EF, TUL -PDS
Specifické dimenze – přidané dimenze – dimenze čas
– degenerované – junk dimenze – parent-child dimenze
Vladimíra Zádová, KIN, EF, TUL -PDS
Specifické dimenze •
přidané dimenze – dimenze získávané mimo produkční systémy
•
dimenze čas (kalendář…) – často obsahuje násobnou hierarchií – většinou obsahuje datum a z něho odvozené atributy • pořadí dne v měsíci, v roce, dny v týdnu, týden, čtvrtletí, • může být vložen např. atribut teplota, druh dne – v souvislosti s prázdninami, svátky
Vladimíra Zádová, KIN, EF, TUL -PDS
Specifické dimenze čas/kalendář – atributy (např.: prázdniny, svátky) se mohou lišit v různých zemích • pro sledování činnosti ve více zemích se uvedou atributy do podřízené tabulky národního kalendáře (primární klíč je identifikátor dne a země, vztah k základní dimenzi času je N:1)
– je-li sledován datum i čas, pak vhodnější do návrhu zařadit dvě dimenze – jednu s minimální agregační úrovní den, druhou s minimální agregační úrovní specifikující část dne – Pokud nebudou uvedeny vlastnosti atributů, mohou být uvedeny části dne jako degenerovaná dimenze
Vladimíra Zádová, KIN, EF, TUL -PDS
Specifické dimenze •
degenerované dimenze – neexistuje pro ně tabulka dimenzí – dimenze charakterizována jednou úrovní podrobnosti, neobsahuje vlastnosti atributů – většinou primární či alternativní klíče z transakčních systémů Pozn.: degenerovaná dimenze ovlivňuje podobu primárního klíče v tabulce faktů
Vladimíra Zádová, KIN, EF, TUL -PDS
Specifické dimenze •
seskupené dimenze (Junk dimension) – je vhodné uskupení nesouvisících atributů, které jsou vyjmuty z tabulky faktů a dány do vhodného dimenzionálního rámce – Atributy tvořící dimenzi • významné z pohledu datového skladu (proto vybrány ze zdrojových systémů) • nepatří k jednomu subjektu • ke spojení do této abstraktní dimenze vede to, že patří do jedné transakční oblasti
Vladimíra Zádová, KIN, EF, TUL -PDS
Specifické dimenze •
parent-child dimenze – pomocí těchto dimenzí je vyjádřen rekurzivní vztah (strom), kdy nejnižší úroveň, list, nemá podřízenou úroveň, nejvyšší úroveň nemá nadřízenou úroveň • tedy k vyjádření hierarchie s proměnlivou délkou
– atributy tvořící dimenzi • obsahují atributy, které jsou spolu ve vztahu nadřízenosti (parent) a podřízenosti (child)
často používány v oblasti řízení lidských zdrojů k vyjádření organizační hierarchie Vladimíra Zádová, KIN, EF, TUL -PDS
Klíče v dimenzionálním schématu •
Náhradní klíč
(surrogate key; umělý klíč, generovaný klíč, syntetický klíč)
– celočíselný klíč, který je přiřazen sekvenčně při vkládání do tabulek dimenzí – slouží pouze ke spojení tabulky dimenzí a tabulky faktů – výhoda • • • •
při integraci dat z více zdrojů (pokud nekonzistence) menší nároky na paměť ( hlavně v tabulce faktů) chrání před změnami v původních transakčních systémech nutný při řešení typ 2 aktualizace měnících se dimenzí (viz dále) Vladimíra Zádová, KIN, EF, TUL -PDS
Změny v tabulce dimenzí
Vladimíra Zádová, KIN, EF, TUL -PDS
Dimenze a změny •
změny hodnot atributů dimenzí mohou probíhat rychle i pomalu, odlišení: – pomalu se měnící dimenze (většina) – rychle se měnící dimenze – pro každý atribut třeba stanovit strategii pro vyjádření změn třeba již již při analýze zjistit od managementu • jaké změny hodnot atributů jsou možné • jaký výstup (informace) budou s ohledem na tyto změny požadovat Vladimíra Zádová, KIN, EF, TUL -PDS
Pomalé změny atributů dimenzí a jejich řešení •
tyto dimenze se blíží konstantním dimenzím – atributy se mění v čase pomalu
•
techniky pro vyjádření změn – základní • nahrazení hodnoty • přidání řádku dimenzí • přidání sloupce dimenzí
– hybridní • předvídatelné změny s více verzemi překrytí • nepředvídatelné změny s více verzemi překrytí
Vladimíra Zádová, KIN, EF, TUL -PDS
Typ 1: nahrazení hodnoty •
nahrazení hodnoty jinou atribut vždy zobrazuje aktuální hodnotu
•
charakteristika:
•
– nejčastěji použita – výhoda: • jednoduchá k implementaci
– nevýhoda: • možnost změn v agregovaných datech (reakce na změny) • ztráta historie změn
– vhodnost: • změna hodnoty atributu je korekcí Vladimíra Zádová, KIN, EF, TUL -PDS
Typ 2: přidání řádku dimenzí • •
původní řádek se ponechá další řádek – nová hodnota PK ( nový profil), změna hodnoty atributu/ů – přibude řádek v tabulce faktů - při události (např. koupě výrobku)
•
charakteristika:
•
výhoda: • žádné změny v agregovaných datech • reprezentace historie - lepší analýza a vysvětlení změn • lze sledovat počet změn dimenzí
– nevýhoda: • nutnost použití umělého klíče • růst tabulky dimenzí Vladimíra Zádová, KIN, EF, TUL -PDS
Typ 3: přidání sloupce dimenzí •
•
umožňuje sledovat fakty v souvislostech - nové a předchozí (původní) hodnoty simultánně charakteristika: – řídké užití – nevýhoda: • pokud více nepredikovatelných změn u jednoho prvku (řádku) – je pak lepší typ 2, či hybridní strategie
– vhodnost: • pokud chci sledovat obě hodnoty současně
Vladimíra Zádová, KIN, EF, TUL -PDS
hybridní
•
kombinuje základní techniky pro pomalu se měnící dimenze
•
jsou flexibilnější, ale složitější • předvídatelné změny s více verzemi překrytí • nepředvídatelné změny s jedinou verzí překrytí • další ….
•
nejčastěji v praxi typ 2
Vladimíra Zádová, KIN, EF, TUL -PDS
Rychle se měnící dimenze
•
změny atributů probíhají s denní i častější periodicitou
•
řešení závisí na – velikosti dimenzí – povaze rychle se měnících atributů
Vladimíra Zádová, KIN, EF, TUL -PDS
Rychle se měnící dimenze •
pro malé dimenze • nejčastěji užití typ 2 pro pomalu se měnící dimenze
•
pro rozsáhle dimenze – oddělení rychle se měnících atributů do jiné tabulky dimenzí • výhoda sledování změn
Vladimíra Zádová, KIN, EF, TUL -PDS
Návrh z hlediska procesů pro podporu rozhodování Fakty = neklíčové atributy v tabulce faktů
fakty, ukazatele, metriky aditivita faktů
Specifika v tabulkách faktů
– kardinalita vztahu M:N – tabulky bez faktů
Vladimíra Zádová, KIN, EF, TUL -PDS
Specifika v tabulkách faktů tabulky bez faktů Tabulky bez faktů (factless fact tables) „ … jsou preferovanou metodou pro záznam události v datovém skladu, kde neexistuje žádný přirozený numerický ukazatel spojený s událostí. Tabulky jsou také užity pro zabezpečení pokrytí “ Tabulka faktů obsahuje pouze klíčové atributy důvody 1. v datovém skladu je třeba evidovat jisté události, které nejsou vázány k žádnému ukazateli – pouze zaznamenávají, že k uvedené události došlo •
2.
jedná se o vztah mezi dimenzemi
tabulka bez faktů je doplňující tabulkou k tabulce faktů •
pokrývající tabulky (coverage table) • dávají odpověď na to, co nenastalo
Vladimíra Zádová, KIN, EF, TUL -PDS
Specifika v tabulkách faktů kardinalita vztahu M:N
Kardinalita vztahu mezi tabulkou dimenzí a tabulkou faktů – obvykle kardinalita vztahu 1:N – v některých případech je kardinalita vztahu M:N
Vladimíra Zádová, KIN, EF, TUL -PDS
Specifika v tabulkách faktů kardinalita vztahu M:N • jsou přesně známé všechny kombinace, které mohou nastat Př. dimenze podpora prodeje existuje několik druhů podpory, které působí jednotlivě i současně více podpor v jeden den na jednotlivý produkt
• nejsou přesně známé všechny kombinace, které mohou nastat nebo • uvedení kombinací by nemělo smysl vzhledem k rozsahu Př. diagnóza na straně subjektu a fakty vztažené k jednomu pacientovi (pacient může mít jednu i více různých diagnóz, jejich kombinace se nemusí vyskytovat u více pacientů) řešení: vložení pomocné tabulky mezi tabulku dimenzí a tabulku faktů (převedení vztahu M:N na dva vztahy M:1 a 1:N
Vladimíra Zádová, KIN, EF, TUL -PDS
Návrh z hlediska procesů pro podporu rozhodování Sledování ukazatelů – agregační funkce – agregační vzory – sled ukazatelů
Vladimíra Zádová, KIN, EF, TUL -PDS
Sledování ukazatelů •
U ukazatele – určit dimenze, k jakým je sledován – v rámci dimenze určit • nejvyšší granularitu v dané dimenzi • další agregační úrovně sledování – jaké agregační úrovně mají smysl – jaké agregační funkce mají smysl
– u numerických ukazatelů • uvést způsob výpočtu – jednotný v rámci organizace (konformní fakty) Pozn.: • způsob • •
výpočtu a závislost mezi ukazateli ovlivňuje uložení ukazatelů do faktů pokud bude sledováno více ukazatelů ke stejným dimenzím na stejné nejvyšší úrovni podrobnosti, je možné je uložit do stejné tabulky faktů vhodnost vytvoření jedné tabulky faktů třeba zvážit s ohledem na další agregační úrovně
Vladimíra Zádová, KIN, EF, TUL -PDS
Sledování ukazatelů agregační funkce •
pro nenumerické ukazatele – absolutní či relativní četnost
•
pro numerické ukazatele – průměr, maximum, minimum, počet, popřípadě další statistické funkce, součet – s ohledem na smysluplnost součtu je stanovena aditivita faktu • Fakt je aditivní k dimenzi, pokud jeho hodnoty mohou být sčítány podle hierarchie dané dimenze
Vladimíra Zádová, KIN, EF, TUL -PDS
Sledování ukazatelů •
Omezení množiny dotazů DO = {(Fi, Dj, Ag1,Ag2,...), ... }, kde Fi - název faktu Dj - jméno dimenze Ag1… Agn - výčet agregačních funkcí, které nemají smysl
Vladimíra Zádová, KIN, EF, TUL -PDS
Sledování ukazatelů Agregační vzory (aggregation pattern) Každý fakt je funkčně určen agregačními úrovněmi dimenzí Odlišují se: Primární fakt (primary fact; elementární fakt) je funkčně určen minimálními agregačními úrovněmi všech dimenzí Sekundární fakty ty fakty, které jsou funkčně určeny z jiné než minimální agregační úrovně alespoň v jedné dimenzi
Vladimíra Zádová, KIN, EF, TUL -PDS
kumulativnosti agregačních funkcí pro určení instancí sekundárních faktů je důležitá vlastnost kumulativnost agregační funkce – provádění operace roll-up s kumulativní agregační funkcí –
hodnoty faktů vyšší agregační úrovně lze určit z hodnot faktů předchozí agregační úrovně
– provádění operace roll-up u nekumulativní funkce lze určit instance faktů jen z minimální agregační úrovně
– Obdoba při provádění agregace ve více než jedné dimenzi současně – Agregační funkce součet, která se pro agregace nejčastěji používá, je kumulativní agregační funkcí.
Vladimíra Zádová, KIN, EF, TUL -PDS
•
•
požadavek uživatelů na zjištění konkrétní hodnoty faktu vzhledem k různým instancím agregačních úrovní dimenzí lze vždy vyjádřit pomocí operací projekce, selekce, agregační funkce
Agregační vzor musí obsahovat: – – – –
fakt, jehož hodnota má být určena agregační funkci výčet agregačních úrovní dimenzí vyjádření podmínek selekce.
Vladimíra Zádová, KIN, EF, TUL -PDS
agregační vzor
Jméno faktu (seznam agregačních úrovní dimenzí; podmínky výběru) Ωi kde Ωi …agregační funkce z množiny agregačních funkcí, která bude použita při transformaci na vyšší úroveň agregace.
Legálnost agregačního vzoru je posuzována přes agregovatelnost sledovaného faktu k uvedeným dimenzím
Vladimíra Zádová, KIN, EF, TUL -PDS
Ukazatel sled •
Při určování hodnot faktu, kdy ve více než jedné dimenzi jsou zvyšovány agregační úrovně – z výchozí úrovně je postupně dosaženo úrovně cílové – stanovení sledu je nutné u nekumulativní funkce
Vladimíra Zádová, KIN, EF, TUL -PDS
Správně navržené multidimenzionální schéma Pro správný návrh schématu musí být splněny podmínky : pro dimenze: • dimenze patřící k jednomu schématu jsou na sobě nezávislé • vlastnosti atributů jsou v dimenzi přiřazeny právě k jedné agregační úrovni • dimenze musí mít pouze jednu minimální agregační úroveň pro ukazatele: • možnost získat ukazatele z faktů • správnost určení k nejvyšší granularitě • požadavky uživatelů na sledování ukazatelů k různým granularitám dimenzí.
Vladimíra Zádová, KIN, EF, TUL -PDS