Návrh datového skladu z hlediska zdrojů
Vladimíra Zádová, KIN,EF, TUL
PDS
Návrh datového skladu z hlediska zdrojů OLTP
Operativní data
ETL
OLAP, DM Datové sklady
• Zdroje dat • Transformace zdroj - cíl • Etapy realizace Vladimíra Zádová, KIN,EF, TUL
PDS
1
Návrh datového skladu z hlediska zdrojů Hlavní úskalí analýzy a návrhu spočívá právě v této části •
Problém se zdroji dat – existence – přístup – vlastnictví – důvěryhodnost – konzistence dat
•
Konzistence dat – v OLTP systémech zajištěna • specifikací integritních omezení • navržením vhodných transakcí – u datového skladu je jeho konzistence předpokládána Vladimíra Zádová, KIN,EF, TUL
PDS
Návrh datového skladu z hlediska zdrojů • Řešení konzistence dat obsažených v datovém skladu je přeneseno k jeho tvorbě • ETL procesu, eventuálně k EAI • konzistence je zaměřena na zdroje dat – jedná se o zjištění konzistence dat u každého zdroje – zajištění konzistence s ostatními zdroji – teprve po posouzení zdrojů je možné přistoupit k vlastnímu řešení
Vladimíra Zádová, KIN,EF, TUL
PDS
2
ETL • proces extrakce, filtrování, čištění a vkládání ze zdrojových systémů do DW – extrakce – transformace • restrukturalizace dat do podoby odpovídající DW – – – – –
filtrace (odstranění chybných i neúplných záznamů) standardizace dat odstranění nežádoucích atributů denormalizace dat kombinace datových zdrojů
– vkládání a indexace – konzistence dat samých, konzistence s ostatními daty v DW Vladimíra Zádová, KIN,EF, TUL
PDS
Zdroje dat • zdroje – důvěryhodnost – vše nebo část (atrib., projekce, selekce)
• porovnat stejné údaje z různých zdrojů – z hlediska • obsahu • formátu • významu stejné zdroje jsou různě pojmenovány a naopak Vladimíra Zádová, KIN,EF, TUL
PDS
3
Zdroje dat – pokr. • změny zdrojů během let – struktura dat ze stejných zdrojů – (archiv a současnost)
• formálně stejný objekt z více zdrojů – ( zákazník: zákazník x potenc. zákazník)
• četnost přenášení zdrojů
Vladimíra Zádová, KIN,EF, TUL
PDS
Zdroje dat – pokr. – u atributů: • identifikátor, název, typ dat, měr.j., doména, význam, vlastník • typ atributu (dimenze, fakt), typ indexu,
– pro měr.j.: – konverzní poměry (koeficienty převodu, popř. koeficienty proměnné v čase) – pro dimenze • klíče, definice hierarchie/hierarchií • přiřazení zdrojových atributů cílovým, transformace, změny formátů • vazby mezi zdroji ( kdo komu poskytuje data) Vladimíra Zádová, KIN,EF, TUL
PDS
4
ETL pravidla pro přenos • • • • • • •
prosté kopírování přepočty jednotek standardizace formátů odstraňování duplicit v datech z různých zdrojů rozdělení atributu do několika cíl. atributů ( př. adresa) slučování atributu do jednoho odvozování nových atributů (př. datum)
• převodní funkce – některé použijí pro více atributů, jinde pro atribut samostatná funkce
Vladimíra Zádová, KIN,EF, TUL
PDS
Po přenosu • Kontrola kvality a ošetření chybějících údajů – vypuštění záznamů kde chybí – jednotné označení chybějících údajů a upozornění na neúplnost dat • rozhodnutí na základě charakteru konkrétní oblasti řešení
• Statistika pro každý atribut – rozsah (doména) a četnost hodnot, které může nabývat (lze odhalit chybné hodnoty)
Vladimíra Zádová, KIN,EF, TUL
PDS
5
Etapy realizace Závisí na tom, zda budou požadována data současná, či i archivní – vlastní vytvoření – aktualizace – ošetření případných změn
Vladimíra Zádová, KIN,EF, TUL
PDS
Etapy realizace vlastní vytvoření DW/části DW – více zdrojů během let – více zdrojů v jednom období – jedná se o různé procesy v návrhu a řešení transformací pro vstup dat do datového skladu
V této etapě se jedná výhradně o ETL procesy Vladimíra Zádová, KIN,EF, TUL
PDS
6
Etapy realizace Aktualizace nové přírůstky při stejných zdrojích dat jako v předchozí etapě pouze se určí, kdy a jakým způsobem budou přírůstky aktualizovány
při jiných zdrojích dat než v předchozí etapě návrh a realizace nových procesů, kterými by byla požadovaná data ze zdroje/ů extrahována, transformována a vložena do datového skladu V této etapě se jedná o ETL procesy i o řešení pomocí EAI a on-line přihrávání.
Vladimíra Zádová, KIN,EF, TUL
PDS
Etapy realizace ošetření případných změn změny – zdrojů dat /inovace IS • s dostatečným předstihem třeba zajistit informace o plánovaných změnách
– požadavků na datový sklad
Vladimíra Zádová, KIN,EF, TUL
PDS
7