Zdroje informací v organizaci IS/ICT BI v rámci IS/ICT historie architektura OLTP x DW ukládání dat Vladimíra Zádová BI_KS_EF_TUL
BI
CRM
ERP
SCM
Aplikace pro podporu základních řídících a administrativních operací podniku BI_KS_EF_TUL
Informační systémy na počátku 3. tisíciletí •
•
•
•
pro řízení vnitřních procesů – back-office aplikace pro podporu základních řídících administrativních operací podniku pro řízení vztahů podniků s okolím – front-office aplikace, aplikace s přidanou hodnotou (valueadded ) pro rozvoj řízení podniku a podporu rozhodování – back-office aplikace
BI_KS_EF_TUL
•
Aplikace pro řízení vnitřních procesů podniku klasické celopodnikové aplikace ERP (Enterprise Resource Planning)
•
Aplikace pro podporu základních administrativních operací podniku – – – –
řídících
a
kancelářské systémy řízení pracovních toků (workflow) aplikace a technologie pro správu dokumentů všeobecné informace a instrukce (hlavně na bázi Intranetu )
BI_KS_EF_TUL
•
Aplikace pro řízení vztahů organizací s okolím – – – –
mění kooperace mezi podniky CRM (Customer Relationship Management) elektronické podnikání SCM (Supply Chain Management)
BI_KS_EF_TUL
CRM •
procesy a aktivity, které souvisí se zákazníkem – existujícím či potenciálním
• • •
podpora prodeje podpora zákazníka podpora marketingu
BI_KS_EF_TUL
Elektronické podnikání • • • •
elektronický obchod (e-Commerce) elektronické zásobování (e-Procurement) elektronická tržiště (Marketplaces) elektronické obchodování rozlišuje realizace obchodních vztahů mezi dvěma organizacemi -B2B , B2C , B2R, B2G, B2E (R - reseller, G - government, E -employee)
BI_KS_EF_TUL
SCM, SCM/APS •
•
koordinuje toky výrobků, služeb, informací a financí – mezi dodavateli surovin, jejich zpracovateli, výrobci, obchodníky, zákazníky dvě kategorie – aplikace pro plánování • optimální způsob směrování množství materiálu a zboží potřebného v místech určení
– aplikace pro realizaci • fyzické zásoby, obrátky zboží, objednávek a dodávky materiálu, finance •
Pozn.: APS =Advanced Planning and Schedulling (systém pokročilého plánování)
BI_KS_EF_TUL
Aplikace pro podporu rozhodování •
Business Intelligence – EIS (Executive Information Systems - manažerské informační systémy) – datové sklady ( Data Warehouse) datová tržiště (Data Mart) – dolování dat (Data Mining), OLAP (On-line Analytical Processing), reporting..
•
Customer Intelligence – CRM + BI = CI BI_KS_EF_TUL
Business Intelligence BI Je sada procesů, aplikací a technologií, jejichž cílem je účinně a účelně podporovat rozhodovací procesy ve firmě Dva pohledy na BI - široký rámec - BI jako jeden z nástrojů vedle / nad DW BI_KS_EF_TUL
Nástroje BI • • • • • • • • • • • •
Produkční systémy ETL EAI DSA ODS DW/DM OLAP Reporting Manažerské aplikace ( EIS ) Dolování dat Nástroje pro zajištění kvality dat Nástroje pro správu metadat BI_KS_EF_TUL
Obecná koncepce architektury BI
BI_KS_EF_TUL Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005
Komponenty BI řešení a jejich vazby
Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005 BI_KS_EF_TUL
Enterprise Application Integration EAI Nástroje využívané ve vrstvě zdrojových systémů Pracují v reálném čase Cíl: • integrovat primární podnikové systémy • redukovat počet aplikačních rozhraní • hlavně datová integrace
BI_KS_EF_TUL
ETL Extract, Transformation, Loading = datové pumpy
•
extrakce dat ze zdrojových systémů zpracování dat uložení dat
•
práce v dávkovém režimu
• •
BI_KS_EF_TUL
DSA (Data Staging Area , dočasné úložiště dat) -
pro uložení dat z produkč. systémů
obsahuje neagregovaná aktuální data (do té doby, než jsou uloženy do dalšího úložiště dat- ODS, DW, DM)
BI_KS_EF_TUL
•
Sklady provozních dat ( ODS - Operational Data Store) Cíl: poskytnutí integrovaného a aktuálního pohledu – konzistentní, konsolidovaná, subjektově orientovaná data – strukturou jsou obdobná datům v DW, ale na rozdíl od DW mají jen aktuální data ( i agregovaná) – pravidelná aktualizace, odpovídají aktuálnímu stavu provozu, obsah dat je měněn po každém nahrání
BI_KS_EF_TUL
ODS jako zdroj datové integrace dat ze zdrojových systémů
Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005 BI_KS_EF_TUL
ODS jako databáze aktuálních dat odvozená z DW
Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005 BI_KS_EF_TUL
DW - definice •
je subjektově orientovaná , integrovaná, časově variantní a stálá kolekce dat pro podporu rozhodování manažerů B. Inmon
•
•
subjektová orientace – DW je organizován podle hlavních subjektů podniku (zákazníci, prodej, produkt..), ne podle procesů (aplikací) – reflektuje potřeby uložení dat pro rozhodování – v jedné databázi DW jsou uložena data pouze jednou (např. o produktu, zaměstnanci ) integrovaná – do celku jsou vkládána data z různých aplikací - nekonzistentnost, různé formáty – integrací těchto dat - prezentace unifikovaného pohledu BI_KS_EF_TUL
DW •
časově variantní – data v DW jsou platná a přesná jen v bodech, ne intervalech času – uložení historie dat - hodnoty v časových bodech ( den, měsíc, Q, rok..) •v DW vždy dimenze času
•
stálá –data v DW nevznikají, nedají se žádnými nástroji měnit –aktualizace DW - jen přidávání dat v pravidelných časových intervalech (jako doplněk), integrace přírustků další definice - většinou zahrnují procesy spojené s přístupem k datům z původních zdrojů
BI_KS_EF_TUL
Datová tržiště (Data Mart) •
příčiny vytváření – pro nejčastější analýzy – pro skupinu uživatelů - business process, oddělení – vytvoření DM s více agregovanými daty, s menším objemem dat pro zlepšení času odezvy – k poskytování vhodněji strukturovaných dat - z hlediska požadavků nástrojů přístupu – pro snazší implementaci – pro nižší náklady proti DW – pro lepší zaměření koncového uživatele
BI_KS_EF_TUL
Datová tržiště – závislá – nezávislá – odlišnost ve způsobu výstavby a aktualizace dat • extrakce přímo z produkčních systémů • zdroj dat - DW
BI_KS_EF_TUL
Reporting •
standardní dotazování – jedná se zejména o SQL dotazy v relačním prostředí – výstupy • standardní předpřipravené dotazy, • nepredikovatelné ad hoc dotazy určené zejména pro nižší management
BI_KS_EF_TUL
•
EIS – původně chápány jako aplikace pro podporu strategického rozhodování vrcholového managementu později pak i pro podporu rozhodování středního managementu a podnikových specialistů – s vývojem dalších aplikací na podporu rozhodování není hranice mezi jimi a OLAP ostrá – integrují všechny zdroje dat z transakčních systémů, které jsou důležité pro řízení organizace jako celku – postupně integrovány i externí zdroje BI_KS_EF_TUL
Procesy zpracování •
dotazy/reporting – dotazy na to CO je v databázi
•
OLAP – PROČ jsou některé fakty pravdivé – uživatel generuje hypotézu a OLAP slouží k jejímu ověření – je závislý na schopnostech analytika, ten se iterací dostává k výsledku
•
DM – představuje nástroje, které generují hypotézy a pokračují v provádění objevování - bez navádění uživatelem BI_KS_EF_TUL
OLTP X DW-OLAP
Proč vůbec DW - nelze přímo z OLTP ? Třeba: – porovnat charakteristiku OLTP dat a OLAP/DM rozdílnost cílů OLTP vypovídají o stavu podnikových procesů X OLAP/DM = cílem je analýza dat, zkoumání z hlediska více dimenzí ⇒ potřeba optimalizovat ukládání dat tomu se lépe hodí uložení v DW, popř. ODS BI_KS_EF_TUL
Data v OLTP a DW •
OLTP - operativní data – zdroje: zejména aplikace – přístup: více současně pracujících uživatelů – aktualizace: častá, relativně malých objemů dat • Operace INSERT, UPDATE, DELETE
– dotazy nad daty • selektivní ( zejména předpřipravené dotazy) • přesnost výstupu - na Kč, haléře, .. • četnost stejných dotazů - i vícekrát denně
– ukládání dat strukturovaně - normalizovaná relační databáze nověji objektově relační, objektová databáze – požadavky - nekonfliktní zpracování operací, zajištění integrity dat – procesní orientace ( stavy procesů, detailní data) BI_KS_EF_TUL
Data v OLTP a DW •
Data Warehouse – zdroje: podnikové OLTP, operativní data + externí data – přístup: malé množství specializovaných uživatelů - management – aktualizace: řídká - jen přidávání dat ze zdrojů, delší časové intervaly – dotazy • intenzivní na data, složité dotazy, postupná iterace, sumarizace • výstupy zaokrouhlené (i na tisíce)
– ukládání dat strukturovaně • speciálně navržená relační databáze • multidimenzionální kostka
BI_KS_EF_TUL
Organizace dat v DW Založené na RMD Multidimenzionální kostka
BI_KS_EF_TUL
Multidimenzionální data •
Příklad 2-dimenzionálního dotazu. •
•
Jaký je celkový příjem firmy( př. zabývající se prodejem nemovitostí) v každém městě pro Q 1999
Porovnání reprezentace: 3-atributové relace X 2-dimenzionální matice
BI_KS_EF_TUL
8
Multidimenzionální data
BI_KS_EF_TUL
9
Reprezentace multidimenzionálních dat •
Příklad 3-dimenzionální otázky. •
•
Jaký je celkový příjem firmy zabývající se prodejem nemovitostí - za jednotlivé druhy v každém městě, za čtvrtletí 1997
Porovnání reprezentace:
4-atributové relace X 3-dimenzionální kostky
BI_KS_EF_TUL
10
Multidimenzionální data 4-atributové relace
X
3-dimenzionální kostky
BI_KS_EF_TUL
DATA v DW
BI_KS_EF_TUL
Reprezentace multidimenzionálních dat
•
Kostka reprezentuje data jako buňky
•
Relace reprezentuje multidimenzionální data ve 2 dimenzích
BI_KS_EF_TUL
BI_KS_EF_TUL
multidimenzionální model dat • •
•
logický návrh pomocí RMD konstrukty - fakty, dimenze, atributy dimenze, dimenzionální tabulky – jednoatributový klíč ( tvoří cizí klíč v tabulce faktů) – atributy - slouží jako zdroj pro různá omezení daná v dotazech na DW – atributy spíše textové – jedna dimenze může být ve více hvězdicových schématech – většina dimenzí se mění pouze pomalu – obdobné vlastnosti jako číselníky (katalog výrobků, údaje o okresech..) BI_KS_EF_TUL
•
tabulka faktů – obsahuje buď přímo ukazatele, resp. se z faktů dají ukazatele určit – mezi dimenzí a fakty je vztah 1: N – mezi dimenzemi nejsou žádné přímé vztahy
– fakty • jsou neklíčové atributy v tabulce faktů • obvykle jsou numerické, aditivní
BI_KS_EF_TUL
Modely
BI_KS_EF_TUL
Star schéma (hvězdicové schéma)
BI_KS_EF_TUL
BI_KS_EF_TUL
Schéma souhvězdí
BI_KS_EF_TUL
BI_KS_EF_TUL
•
proces ETL
•
zdroje dat
•
příklad
BI_KS_EF_TUL
vstupy •
proces extrakce, filtrování, čištění a vkládání ze zdrojových systémů do DW
ETL pumpy – extrakce – transformace •
restrukturalizace dat do podoby odpovídající DW – filtrace (odstranění chybných i neúplných záznamů) – standardizace dat – odstranění nežádoucích atributů – denormalizace dat – kombinace datových zdrojů – vkládání a indexace konzistence dat samých, konzistence s ostatními daty v DW BI_KS_EF_TUL
Zdroje dat •
zdroje – důvěryhodnost – vše nebo část (jen některé atributy, či jen část sledovaných dat)
•
porovnat stejné údaje z různých zdrojů (DW vytvářen z různých zdrojů) – z hlediska • obsahu ( m.j. – m, cm, dm) • formátu (cena zboží – jiná přesnost, m/ž –0/1) • významově stejné zdroje jsou různě pojmenovány a naopak
BI_KS_EF_TUL
Zdroje dat – pokr. •
změny zdrojů během let – struktura dat ze stejných zdrojů – (archiv a současnost)
•
formálně stejný objekt z více zdrojů – ( zákazník: zákazník x potenc. zákazník)
•
četnost přenášení zdrojů
BI_KS_EF_TUL
ETL pravidla pro přenos • • • • • • •
•
Prosté kopírování Přepočty jednotek Standardizace formátů Odstraňování duplicit v datech z různých zdrojů Rozdělení atributu do několika cíl. atributů ( př. adresa) Slučování atributu do jednoho Odvozování nových atributů (př. datum) Převodní funkce – některé použijí pro více atributů, jinde pro atribut samostatná funkce BI_KS_EF_TUL
Po přenosu •
Kontrola kvality a ošetření chybějících údajů – vypuštění záznamů kde chybí – jednotné označení chybějících údajů a upozornění na neúplnost dat
•
Statistika pro každý atribut – – rozsah (doména) a četnost hodnot, které může nabývat (lze odhalit chybné hodnoty)
BI_KS_EF_TUL
OLAP analýza
BI_KS_EF_TUL
ROLAP, MOLAP a HOLAP souvisí s uložením dat v OLAP
ROLAP (Relational OLAP) pro práci s relační databází (RDBMS) • výhoda: dynamický přístup k detailním informacím v DW • nevýhoda při nárustu komplexnosti a objemu databáze –
výrazné zpomalení odezvy na dotazy; snížení použitelnosti
MOLAP (Multidimensional OLAP) pro práci s multidimenzionální databází • výhoda: rychlá odezva na dotaz a velké analytické možnosti • nevýhoda: orientace na práci s agregovanými hodnotami bez možnosti zpracování velmi detailních informací
. HOLAP (Hybrid OLAP) kombinují přednosti obou technologií. klient OLAP zpracovává relativně malé objemy dat uložené v paměti , výpočty jsou prováděny většinou v reálném čase BI_KS_EF_TUL
Základní operace OLAP •
drill-down, roll-up – snížení, zvýšení stupně agregace
•
slicing (selekce), dicing
•
– provedení řezu v multidimenzionální databázi pivoting –
•
mění úhel pohledu na data ( jedná se o prezentaci obsahu)
drill across – spojení tabulek faktů přes tabulky dimenzí ( na stejné úrovni granularity)
Operace – různě kombinovány v jedné i ve více dimenzích – ovlivňují podobu datového skladu BI_KS_EF_TUL
Dolování dat (Data Mining) Dolování dat je proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody Cíl: obchodní výhoda • řešení konkrétního problému • nalezení cesty k zlepšení procesu – předem definován, na jeho základě jednorázová analýza
připravena
data;
příprava podnikových procesů - aby umožnily využívání analýz (kontinuálně) a podporovaly zpětné vazby od uživatelů. Zpětné vazby ovlivňují proces sběru dat i definice nových cílů. BI_KS_EF_TUL
není
Cíle v procesu získávání znalostí • •
verifikace - ověření hypotézy explorace - hledání nových znalostí – predikce ..... prediktivní modely – deskripce ..... deskriptivní modely
cíle - pomocí modelů (odkrývání vzorů) prediktivní model – předpovídá hodnoty určených atributů na základě jiných atributů.
známých hodnot
deskriptivní model − popisuje vzory v existujících datech, jimi může ovlivňovat rozhodování. Hlavní rozdíl : v prediktivních modelech se provádí predikce explicitně pomocí deskriptivních modelů lze určit predikci implicitně BI_KS_EF_TUL
Budování datového skladu Multidimenzionální modelování Přístupy k budování - Kimball x Inmon (BUS architektura)
BI_KS_EF_TUL
(Multi)dimenzionální modelování
BI_KS_EF_TUL
Dimenzionální modelování •
speciální technika určená pro logický návrh DW tak, aby vedl k výsledku multidimenzionálnímu schématu
BI_KS_EF_TUL
Základní představa
BI_KS_EF_TUL
Dimenzionální modelování Požadavky uživatelů
•
Proces návrhu – 4 kroky: • výběr procesu/ů
•
stanovení granularity (úroveň detailu) • výběr dimenzí • určení faktů
Zdroje dat
BI_KS_EF_TUL
fakty •
•
•
aditivní fakty – fakty, které mohou být sumarizovány přes všechny dimenze semiaditivní fakty – fakty, které nejsou aditivní alespoň k jedné dimenzi neaditivní fakty – nejsou aditivní k žádné dimenzi
•
neaditivní jsou ty fakty, k jejichž výpočtu je třeba podílu – ( při roll up nelze sumarizovat; rozdíl suma podílu x podíl sum) – třeba uložit čitatele a jmenovatele zvlášť
•
neaditivní je i jednotková cena, denní stav účtu... – tedy fakty, které vyjadřují statickou úroveň BI_KS_EF_TUL
Dimenze čas •
výskyt téměř vždy v DW, DM, lépe explicitně
•
den, den v týdnu, měsíci, týden, q, rok (prodejní sezóna, konec týdne,..) – (lze více hierarchií - kalendářní a fiskální vyjádření)
•
někdy pro analýzu i část dne - pak je lépe přidat dimenzi čas BI_KS_EF_TUL
Dimenze a změny •
změny hodnot atributů dimenzí mohou probíhat rychle i pomalu, odlišení: – pomalu se měnící dimenze (většina) – rychle se měnící dimenze – pro každý atribut třeba stanovit strategii pro vyjádření změn třeba již při analýze zjistit od managementu • jaké změny hodnot atributů jsou možné • jaký výstup ( informace) budou s ohledem na tyto změny požadovat BI_KS_EF_TUL
Budování DW
•
centralizovaný datový sklad - Bill Inmon
•
data warehouse jako množina datových trhů - Ralph Kimball
BI_KS_EF_TUL
BI_KS_EF_TUL
Centralizovaný datový sklad - Bill Inmon „Podnikový data warehouse obsahuje detailní, atomicky integrovaná historická data“
BI_KS_EF_TUL
Sjednocené data marty - Ralph Kimball „Data warehouse není nic víc než sjednocení všech konzistentních data martů“
BI_KS_EF_TUL
Integrace
•
integrování jednotlivých dimenzionálních modelů do jednoho DW dovolí kombinovat fakty z odlišných procesů
•
nejen drill down, drill up ale i drill across
Pozn.: drill across - řešení dotazů přes vnější spojení společných tabulek dimenzí BI_KS_EF_TUL
Bus architektura pro DW
•
sběrnicová architektura – je nezávislá na technologii a databázové platformě – umožňuje použít přírůstkový přístup k stavbě DW • různé týmy, asynchronní řešení
BI_KS_EF_TUL
DW bus architektura •
•
•
•
definování standardního rozhraní pro DW a jeho respektování umožňuje postupné zapojení a využívání jednotlivých DM jako celku stanovení rámce – návrh standardizovaných dimenzí – návrh faktů – přizpůsobené dimenze, přizpůsobené fakty (conformed) standardizované dimenze a fakty zajišťují jednotnou interpretaci v organizaci – umožňuje efektivní komunikaci uvnitř týmů a mezi týmy vytváření DM BI_KS_EF_TUL – přísné dodržení architektury
Stanovení matice Z dimenzí a procesů se stanoví sběrnicová matice – řádky značí jednotlivé datová tržiště – sloupce jednotlivé dimenze – každý řádek dává přehled o dimenzích použitých pro DM
BI_KS_EF_TUL
BI_KS_EF_TUL
vce p ra
vat
el
X X X
Do
X
da
X X X
Do
X X X X X X
la d
X X X X X X
Sk
Re
k la
ma
jn a P ro
de
kt du P ro
Business procesy Obchodní prodeje Obchodní zásoby Obchodní dodávky Skladové zásoby Skladové dodávky Objednávky
Da
tu m
Obecné dimenze
X X X
X
•
dimenze – jsou buď identické nebo striktně matematické podmnožiny z nejvyšší granularity detailní dimenze – mají • shodný dimenzionální klíč • shodná jména a definice atributů • stejné domény (shodnost datového obsahu znamená stejnou interpretaci a prezentaci)
BI_KS_EF_TUL
Problémy DW •
podcenění zdrojů pro vkládání dat –
• • •
podhodnocení času na vkládání
skryté problémy zdrojů – chybovost, nepřesnost (změna zdrojů během let) požadovaná data nejsou podchycena – modifikovat OLTP či tvorba nového růst požadavků koncových uživatelů –
díky učení se vzniká potřeba změn: jemnější granularita, lepší prostředky; růst požadavků na pracovníky IT
•
vlastnictví dat drahá udržování dlouhá doba trvání projektu složitost integrace
•
důležitá dokumentace OLTP procesů, ale i BI (OLAP, ETL,DW)
• • •
BI_KS_EF_TUL
Problémy DW •
podcenění kapacity pro vkládání dat (loading) – podhodnocení času požadovaného pro extrakci, čištění a vkládání dat do DW ( předpokladá se až 80% času na celý vývoj) – dobré nástroje mohou urychlit
BI_KS_EF_TUL