Business Intelligence BI jako součást IS/ICT
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
•
IS/ICT
•
BI v rámci IS/ICT
•
BI architektura, komponenty
•
procesy v BI
•
data v IS/ICT
•organizace •
•
dat v DW
(Multi)dimenzionální modelování
budování DW
Pro další informace o IS/ICT: Gála, L., Pour, J., Šedivá, Z. Podniková informatika: 2. přepracované a aktualizované vydání. Grada, Praha, 2009. ISBN 978-80-247-2615-1.
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Informační systémy organizace na počátku 3. tisíciletí Příčiny změn: •
Změny v ekonomice –
•
nová ekonomika, digitální ekonomika
nové možnosti technologií - globální informační infrastruktura • sítě a Internet ( Internet, Extranet, Intranet)
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
BI
CRM
ERP
SCM
Aplikace pro podporu základních řídících a administrativních operací podniku
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Informační systémy na počátku 3. tisíciletí •
•
•
•
pro řízení vnitřních procesů – back-office aplikace pro podporu základních řídících administrativních operací podniku pro řízení vztahů podniků s okolím – front-office aplikace, aplikace s přidanou hodnotou (valueadded ) pro rozvoj řízení podniku a podporu rozhodování – back-office aplikace
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
•
Aplikace pro řízení vnitřních procesů podniku klasické celopodnikové aplikace ERP (Enterprise Resource Planning)
•
Aplikace pro podporu základních administrativních operací podniku – – – –
řídících
a
kancelářské systémy řízení pracovních toků (workflow) aplikace a technologie pro správu dokumentů všeobecné informace a instrukce (hlavně na bázi Intranetu )
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Aplikace pro řízení vztahů organizací s okolím
•
– – – –
mění kooperace mezi podniky CRM (Customer Relationship Management) elektronické podnikání SCM (Supply Chain Management)
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
CRM •
procesy a aktivity, které souvisí se zákazníkem –
• • •
existujícím či potenciálním
podpora prodeje - SFA (Sales Force Automation ) podpora zákazníka - CSS (Customer Service and Support ) podpora marketingu - EMA (Enterprise Marketing Automation)
Operační část • řízení obchodních kontaktů a jednotlivých obchodních případů • vytváření marketingového plánu a kampaní a jejich vyhodnocování • sledování konkurence • specifikace požadavků na zákaznický servis Kooperační část • Kontaktní nebo call centrum (telefon, e-mail, fax, SMS, web, ...) • Centrální přístup zákazníka k firmě • nabídky, obchodní kontrakty, reklamace • Integrace s elektronickým obchodem Analytická část
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Elektronické podnikání elektronický obchod (e-Commerce) elektronické zásobování (e-Procurement) elektronická tržiště (Marketplaces) Elektronické obchodování rozlišuje realizace obchodních vztahů mezi dvěma organizacemi -B2B , B2C , B2R, B2G, B2E (R - reseller, G - government, E -employee)
• • • •
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
SCM, SCM/APS •
•
koordinuje toky výrobků, služeb, informací a financí – mezi dodavateli surovin, jejich zpracovateli, výrobci, obchodníky, zákazníky dvě kategorie – aplikace pro plánování • optimální způsob směrování množství materiálu a zboží potřebného v místech určení
– aplikace pro realizaci • fyzické zásoby, obrátky zboží, objednávek a dodávky materiálu, finance •
Pozn.: APS =Advanced Planning and Schedulling (systém pokročilého plánování)
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Business Intelligence
Je sada procesů, aplikací a technologií, jejichž cílem je účinně a účelně podporovat rozhodovací procesy ve firmě Dva pohledy na BI - široký rámec - BI jako jeden z nástrojů vedle/nad DW
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
komponenty BI
•
ETL EAI DSA ODS DW/DM OLAP Reporting Manažerské aplikace ( EIS ) Dolování dat
•
Produkční systémy jsou zdrojem dat pro BI; nejsou ale její součástí
• • • • • • • •
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Obecná koncepce architektury BI
Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005 Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Komponenty BI řešení a jejich vazby
Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005 Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Enterprise Application Integration EAI Nástroje využívané ve vrstvě zdrojových systémů Pracují v reálném čase Cíl: • integrovat primární podnikové systémy • redukovat počet aplikačních rozhraní • hlavně datová integrace
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Extract, Transformation, Loading
•
Extrakce dat ze zdrojových systémů Zpracování dat Uložení dat
•
Práce v dávkovém režimu
• •
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
DSA (Data Staging Area , dočasné úložiště dat) -
pro uložení dat z produkč. systémů
obsahuje neagregovaná aktuální data (do té doby, než jsou uloženy do dalšího úložiště dat- ODS, DW, DM)
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
•
Sklady provozních dat ( ODS - Operational Data Store) Cíl: poskytnutí integrovaného a aktuá aktuální lního pohledu – konzistentní, konsolidovaná, subjektově orientovaná data – strukturou jsou obdobná datům v DW, ale na rozdíl od DW mají jen aktuální data (i agregovaná) – pravidelná aktualizace, odpovídají aktuálnímu provozu, obsah dat je měněn po každém nahrání
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
stavu
ODS jako zdroj datové integrace dat ze zdrojových systémů
Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
ODS jako databáze aktuálních dat odvozená z DW
Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005 Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
DW - definice •
je subjektově orientovaná , integrovaná, časově variantní a stálá kolekce dat pro podporu rozhodování manažerů B. Inmon
•
subjektová orientace – DW je organizován podle hlavních subjektů podniku (zákazníci, prodej, produkt..), ne podle procesů (aplikací) – reflektuje potřeby uložení dat pro rozhodování – v jedné databázi DW jsou uložena data pouze jednou (např. o produktu, zaměstnanci )
•
integrovaná – do celku jsou vkládána data z různých aplikací - nekonzistentnost, různé formáty – integrací těchto dat - prezentace unifikovaného pohledu Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
DW •
časově variantní – data v DW jsou platná a přesná jen v bodech, ne intervalech času – uložení historie dat - hodnoty v časových bodech ( den, měsíc, Q, rok..) •v DW vždy dimenze času
•
stálá –data v DW nevznikají, nedají se žádnými nástroji měnit –aktualizace DW - jen přidávání dat v pravidelných časových intervalech (jako doplněk), integrace přírustků další definice - většinou zahrnují procesy spojené s přístupem k datům z původních zdrojů
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Datová tržiště (Data Mart) •
příčiny vytváření – pro nejčastější analýzy – pro skupinu uživatelů - business proces, oddělení – vytvoření DM s více agregovanými daty, s menším objemem dat • pro zlepšení času odezvy
– k poskytování vhodněji strukturovaných dat • z hlediska požadavků nástrojů přístupu
– pro snazší implementaci – pro nižší náklady proti DW – pro lepší zaměření koncového uživatele
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Datová tržiště – závislá – nezávislá – Odlišnost ve způsobu výstavby a aktualizace dat • extrakce přímo z produkčních systémů • Zdroj dat - DW
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
•
EIS – původně chápány jako aplikace pro podporu strategického rozhodování vrcholového managementu později pak i pro podporu rozhodování středního managementu a podnikových specialistů. S vývojem dalších aplikací na podporu rozhodování není hranice mezi jimi a OLAP ostrá – integrují všechny zdroje dat z transakčních (zdrojových) systémů, které jsou důležité pro řízení organizace jako celku – postupně integrovány i externí zdroje
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Procesy v BI
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
•
dotazy/reporting – dotazy na to CO je v databázi
•
OLAP – PROČ jsou některé fakty pravdivé – uživatel generuje hypotézu a OLAP slouží k jejímu ověření – je závislý na schopnostech analytika, ten se iterací dostává k výsledku
•
DM – představuje nástroje, které generují hypotézy a pokračují v provádění objevování - bez navádění uživatelem Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Reporting •
standardní dotazování – jedná se zejména o SQL dotazy v relačním prostředí – výstupy • standardní předpřipravené dotazy, • nepredikovatelné ad hoc dotazy určené zejména pro nižší management
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
OLAP = Online Analytical Processing def. Definovaná řada principů, které poskytují dimenzionální rámec pro podporu rozhodování. Dynamická syntéza, analýza a fúze velkého objemu multidimenzionálních dat. OLAP systémy pracují s analytickými informacemi, primární zdroje dat jsou OLTP systémy, důl. faktor času Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
ANALÝZA OLAP •
Coddova pravidla pro OLAP 1. Multidimenzionální konceptuální pohled –
OLAP by měl poskytovat uživateli multidimenzionální model, který koresponduje s pohledem uživatele a je intuitivně analytický a snadný k užití
2. Transparentnost –
OLAP technologie, pod ní ležící databáze, architektura výpočtů i vstupní datové zdroje by měly být pro uživatele transparentní, aby si udržel svou odbornost i produktivitu při použití front-end nástrojů
3. Dostupnost –
OLAP by měl být schopen přistupovat k datům potřebným pro analýzu ze všech heterogenních podnikových zdrojů ( nezávisle na tom, odkud pocházejí ) Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
ANALÝZA OLAP 4. Konzistentní vykazování –
I přes zvyšování počtu dimenzí, úrovní agregace a velikosti databáze by neměli uživatelé pocítit podstatné snížení výkonu
5. Architektura C/S –
OLAP musí odpovídat principům C/S architektury s přihlédnutím na max. cenu, výkon, flexibilitu
6. Generická dimenzionalita –
Každá dimenze musí být ekvivalentní jak ve struktuře, tak v operačních schopnostech ( tj. základní struktura, pravidla a reporting by neměly být zkresleny směrem k žádné dimenzi)
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
ANALÝZA OLAP 7. Dynamické ošetření řídkých matic –
OLAP by měl být schopen adaptovat své fyzické schéma na konkrétní analytický model, který optimalizuje řídkou matici , aby dosáhl a udržel požadovanou úroveň výkonu
8. Podpora pro více uživatelů –
OLAP musí být schopen podpořit skupinu uživatelů pracujících souběžně na tom samém, či odlišném modelu podnikových dat
9. Neomezené křížové dimenzionální operace –
OLAP musí rozeznat hierarchie dimenzí a automaticky provést asociované kumulované kalkulace v rámci dimenzí i mezi dimenzemi
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
ANALÝZA OLAP 10. Intuitivní manipulace s daty –
Slicing, dicing, drill down, roll-up a jiné manipulace by měly být provedeny prostřednictvím „ zachytit, uchopit a přemístit“ v buňkách kostky
11. Flexibilní vykazování –
Musí existovat schopnost uspořádat řádky, sloupce, buňky tak, aby byla umožněna analýza prostřednictvím vizuální prezentace analytických sestav
12. Neomezené dimenze a úrovně agregace –
analytický model může mít více dimenzí , každá dimenze může mít více hierarchií. OLAP by to neměl omezit Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
FASMI test = Fast Analysis of Shared Multidimensional Information Uveden v roce 1995 , nemusel být pozměněn
•
FAST – systém je navržen pro poskytování většiny požadovaných odpovědí na dotazy jeho uživatelů během 5 sekund, s tím, že by ty nejjednodušší analýzy neměly trvat více než 1 sekundu. Pouze několik dotazů může trvat více než 20 sekund
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
FASMI test • •
•
•
ANALYSIS – systém umí zvládat jakoukoli obchodní logiku či statistickou analýzu, kterou požaduje uživatel nebo aplikace SHARED – systém musí zabezpečit veškeré bezpečností požadavky na důvěrnost dat. Jestliže umožňuje změny dat, musí současně vyřešit problémy aktualizace u vícenásobného přístupu k datům. MULTIDIMENSIONAL – klíčový požadavek. Systém musí poskytnout multidimenzionální konceptuální pohled na data, a to včetně plné podpory hierarchií resp. vícenásobných hierarchií tak, aby bylo možné analyzovat data přirozeným způsobem. INFORMATION – pojem označuje veškerá data a odvozené informace, které jsou potřeba pro činnost aplikace. Měří se kapacita vstupních dat, která mohou být zpracována, ne kolik jich může být uloženo Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
ROLAP, MOLAP a HOLAP souvisí s uložením dat v OLAP
ROLAP (Relational (Relational OLAP) pro práci s relační databází (RDBMS) • výhoda: dynamický přístup k detailním informacím v DW • nevýhoda při nárustu komplexnosti a objemu databáze –
výrazné zpomalení odezvy na dotazy; snížení použitelnosti
MOLAP (Multidimensional (Multidimensional OLAP) pro práci s multidimenzionální databází • výhoda: rychlá odezva na dotaz a velké analytické možnosti • nevýhoda: orientace na práci s agregovanými hodnotami bez možnosti zpracování velmi detailních informací
. HOLAP (Hybrid OLAP) kombinují přednosti obou technologií. klient OLAP zpracovává relativně malé objemy dat uložené v paměti , výpočty jsou prováděny většinou v reálném čase
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Základní operace OLAP •
drill-down, roll-up – snížení, zvýšení stupně agregace
•
slicing (selekce), dicing
•
– provedení řezu v multidimenzionální databázi pivoting –
•
mění úhel pohledu na data ( jedná se o prezentaci obsahu)
drill across – spojení tabulek faktů přes tabulky dimenzí ( na stejné úrovni granularity)
Operace – různě kombinovány v jedné i ve více dimenzích – ovlivňují podobu datového skladu Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Dolování dat, Data Mining, bagrování znalostí, archeologie dat Dolování dat je proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody Cíl: obchodní výhoda • řešení konkrétního problému • nalezení cesty k zlepšení procesu – předem definován, na jeho základě připravena data; není jednorázová analýza příprava podnikových procesů - aby umožnily využívání analýz (kontinuálně) a podporovaly zpětné vazby od uživatelů. Zpětné vazby ovlivňují proces sběru dat i definice nových cílů. Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Dolování dat a objevování znalostí v datech •
•
Knowledge Discovery in Databases ( KDD, objevování znalostí v datech ) – obecně netriviální proces objevování platných, nových, potenciálně užitečných vzorů z dat. Dolování dat
( Data Mining)
– pouze krok v procesu KDD – založený na aplikaci výpočetních technik, které na základě daných omezení poskytují vzory či modely nad danými daty
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Dolování dat a objevování znalostí v datech
vyhodnocení vzorů
dolování dat data relevantní pro úlohu
DW
selekce
čištění dat integrace dat
DB Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
fáze procesu KDD selekce – výběr nebo segmentace dat podle kriteria, výběr vzorků dat
předzpracová edzpracování dat – pro efektivní vyhodnocení dotazu – čištění dat od nepotřebných dat, úprava formátů dat
transformace – pro obohacení použitelnosti dat – data mohou být rozšířena o další atributy (např. demografické z externích zdrojů)
dolová dolování dat – extrakce vzorů z dat interpretace a vyhodnocení vyhodnocení – identifikované vzory jsou interpretovány jako znalosti – lze je použít k podpoře rozhodování Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Dolování dat
Není samostatný vědní obor, používané metody patří do statistiky (např. klasifikace, regrese, časové řady, shlukování, asociační analýza, rozhodovací stromy), umělé inteligence (např. genetické algoritmy, neuronové sítě)...
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
ETL
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
ETL •
proces extrakce, filtrování, čištění a vkládání ze zdrojových systémů do DW – extrakce – transformace • restrukturalizace dat do podoby odpovídající DW – filtrace (odstranění chybných i neúplných záznamů) – standardizace dat – odstranění nežádoucích atributů – denormalizace dat – kombinace datových zdrojů
– vkládání a indexace konzistence dat samých, konzistence s ostatními daty v DW
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Zdroje dat •
zdroje – důvěryhodnost – vše nebo část ( atrib.,..projekce, selekce)
•
porovnat stejné údaje z různých zdrojů (1DW z různých zdrojů) – z hlediska • obsahu ( m.j. – m, cm, dm) • formátu (cena zboží – jiná přesnost, m/ž –0/1) • významově stejné zdroje jsou různě pojmenovány a naopak
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Zdroje dat – pokr. •
změny zdrojů během let – struktura dat ze stejných zdrojů – (archiv a současnost)
•
formálně stejný objekt z více zdrojů – ( zákazník: zákazník x potenc. zákazník)
•
četnost přenášení zdrojů
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
ETL pravidla pro přenos • • • • • • •
•
Prosté kopírování Přepočty jednotek Standardizace formátů Odstraňování duplicit v datech z různých zdrojů Rozdělení atributu do několika cíl. atributů ( př. adresa) Slučování atributu do jednoho Odvozování nových atributů (př. datum) Převodní funkce – některé použijí pro více atributů, jinde pro atribut samostatná funkce
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Po přenosu •
Kontrola kvality a ošetření chybějících údajů – Vypuštění záznamů kde chybí – Jednotné označení chybějících údajů a upozornění na neúplnost dat
•
Statistika pro každý atribut – – Rozsah (doména) a četnost hodnot, které může nabývat (lze odhalit chybné hodnoty)
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Zdroje dat – pokr. – u atributů: • identifikátor, název, typ dat, měr.j., doména, význam, vlastník • typ atributu (dimenze, fakt), typ indexu,
– pro měr.j.: • konverzní poměry (koeficienty převodu, popř. koeficienty proměnné v čase)
– pro dimenze • klíče, definice hierarchie/hierarchií • přiřazení zdrojových atributů cílovým, transformace, změny formátů • vazby mezi zdroji ( kdo komu poskytuje data)
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Data v IS/ICT
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Data v OLTP a DW •
OLTP - operativní data – zdroje: zejména aplikace – přístup: více současně pracujících uživatelů – aktualizace: častá, relativně malých objemů dat • Operace INSERT, UPDATE, DELETE
– dotazy nad daty • selektivní ( zejména předpřipravené dotazy) • přesnost výstupu - na Kč, haléře, .. • četnost stejných dotazů - i vícekrát denně
– ukládání dat strukturovaně - normalizovaná relační databáze nověji objektově relační, objektová databáze – požadavky - nekonfliktní zpracování operací, zajištění integrity dat – procesní orientace ( stavy procesů, detailní data) Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Data v OLTP a DW •
Data Warehouse – zdroje: podnikové OLTP, operativní data + externí data – přístup: malé množství specializovaných uživatelů - management – aktualizace: řídká - jen přidávání dat ze zdrojů, delší časové intervaly – dotazy • intenzivní na data, složité dotazy, postupná iterace, sumarizace • výstupy zaokrouhlené (i na tisíce)
– ukládání dat strukturovaně • speciálně navržená relační databáze • multidimenzionální kostka
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
DW - typy dat demografická behaviorální psychografická demografická – popis charakteristiky osob a domácností -věk, rodinný stav, pohlaví, vzdělání, národnost, majetek – jsou stabilní ( význam pro prediktivní modely), mění se méně často než ostatní – nevýhody - obtížné získat data pro jednotlivce, mnohdy uváděny zkresleně (nejsou-li poskytnuty za protislužbu) Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
DW - typy dat •
behaviorální (chování) – vyjadřují míru akce nebo chování • prodávané množství, typy a data nákupů, výše a data plateb, pojišťovací nároky • aktivity na WEB serverech - zachycení prodeje, klepnutí uživatele při procházení WEBem
– největší význam pro predikci - proti ostatním jsou dražší, nízká stabilita
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
DW - typy dat •
psychografická (attitudální data) – charakterizují : názory, životní styl a osobní hodnoty – získání
–
• prostřednictvím šetření, výzkumů mínění a zájmových skupin • odvozením z nákupního chování slouží i k určování životního stupně zákazníka ( svatba, VŠ studium) • vede k zaměření na vývoj výroby a služeb
– nevýhoda • vyjadřují zamýšlené chování • střední stabilita a schopnost predikce, vysoká cena Pozn.: lze shromáždit data za skupinu, z nich odvodit data pro jednotlivce – menší predikce, levnější
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Organizace dat v DW Založené na RMD Multidimenzionální kostka
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Multidimenzionální data •
Příklad 2-dimenzionálního dotazu. •
•
Jaký je celkový příjem firmy( př. zabývající se prodejem nemovitostí) v každém městě pro Q 1999
Porovnání reprezentace: 3-atributové relace X 2-dimenzionální matice
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Multidimenzionální data
9
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Reprezentace multidimenzionálních dat •
Příklad 3-dimenzionální otázky. •
•
Jaký je celkový příjem firmy zabývající se prodejem nemovitostí - za jednotlivé druhy v každém městě, za čtvrtletí 1997
Porovnání reprezentace:
4-atributové relace X 3-dimenzionální kostky
10
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Multidimenzionální data 4-atributové relace
X
3-dimenzionální kostky
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
DATA v DW
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Reprezentace multidimenzionálních dat •
Kostka reprezentuje data jako buňky
•
Relace reprezentuje multidimenzionální data ve 2 dimenzích
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
•
•
•
Užití multidimenzionální struktury k uložení dat a vztahů mezi nimi Multidimenzionální struktury si lze představit jako kostky dat. Každá strana kostky je 1 dimenze. Kostka může být rozšířena aby zahrnula jinou dimenzi
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
multidimenzionální model dat logický návrh pomocí RMD konstrukty - fakty, dimenze, atributy
• •
dimenze, dimenzionální tabulky – jednoatributový klíč ( tvoří cizí klíč v tabulce faktů) – atributy - slouží jako zdroj pro různá omezení daná v dotazech na DW – atributy spíše textové – jedna dimenze může být ve více hvězdicových schématech – většina dimenzí se mění pouze pomalu – obdobné vlastnosti jako číselníky (katalog výrobků, údaje o okresech..)
•
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
•
tabulka faktů – obsahuje ukazatele (ekonomické) – výskyt konkrétní hodnoty závisí na n-tici konkrétních hodnot odpovídajících dimenzí – mezi dimenzí a fakty je vztah 1: N – mezi dimenzemi nejsou žádné přímé vztahy • nejsou mezi nimi žádné funkční závislosti
– fakty • jsou neklíčové atributy v tabulce faktů • obvykle jsou numerické, aditivní • představa faktů jako funkcí- závislost na klíčových atributech, výsledkem jsou hodnoty neklíčové
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Základní představa
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Star schéma (hvězdicové schéma)
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Schéma souhvězdí
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
(Multi)dimenzionální modelování
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Základní představa
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Dimenzionální modelování •
speciální technika určená pro logický návrh DW tak, aby vedl k výsledku multidimenzionálnímu schématu
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Dimenzionální modelování Požadavky uživatelů
•
Proces návrhu – 4 kroky: • • • •
výběr procesu/ů stanovení granularity výběr dimenzí určení faktů Zdroje dat
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Stanovení granularity • •
Kritický krok určuje úroveň detailu – prioritně nejjemnější granularita
•
• •
je spojena s ukazateli v tabulce faktů určuje základní dimenzionalitu (primární dimenze) stanovuje kandidáty faktů
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Výběr dimenzí •
Primární dimenze – předurčeny v předchozím kroku
•
přidané dimenze, degenerované dimenze
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Identifikace faktů •
V kroku 2 určeny možné fakty – musí být pravdivé k zrnitosti
•
•
•
aditivní fakty – fakty, které mohou být sumarizovány přes všechny dimenze semiaditivní fakty – fakty, které nejsou aditivní alespoň k jedné dimenzi neaditivní fakty – nejsou aditivní k žádné dimenzi
Pozn.: fakt = ekonomický ukazatel, který je sledován Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
fakty •
Neaditivní jsou ty fakty, k jejichž výpočtu je třeba podílu – ( při roll up nelze sumarizovat; rozdíl suma podílu x podíl sum) – třeba uložit čitatele a jmenovatele zvlášť
•
neaditivní je i jednotková cena, denní stav účtu... – tedy fakty, které vyjadřují statickou úroveň
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Dimenze čas •
výskyt téměř vždy v DW, DM, lépe explicitně
•
den, den v týdnu, měsíci, týden, q, rok (prodejní sezóna, konec týdne,..) – (lze více hierarchií - kalendářní a fiskální vyjádření)
•
někdy pro analýzu i část dne - pak je lépe přidat dimenzi čas
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Dimenze a změny •
změny hodnot atributů dimenzí mohou probíhat rychle i pomalu, odlišení: – pomalu se měnící dimenze (většina) – rychle se měnící dimenze – pro každý atribut třeba stanovit strategii pro vyjádření změn třeba již již při analýze zjistit od managementu • jaké změny hodnot atributů jsou možné • jaký výstup ( informace) budou s ohledem na tyto změny požadovat Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Pomalé změny atributů dimenzí a jejich řešení •
tyto dimenze se blíží konstantním dimenzím – atributy se mění v čase pomalu
•
techniky pro vyjádření změn – základní • nahrazení hodnoty • přidání řádku dimenzí • přidání sloupce dimenzí
– hybridní • předvídatelné změny s více verzemi překrytí • nepředvídatelné změny s více verzemi překrytí
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Budování DW
•
centralizovaný datový sklad - Bill Inmon
•
data warehouse jako množina data martů Ralph Kimball
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Izolované (nezávislé) data marty
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Centralizovaný datový sklad - Bill Inmon „Podnikový data warehouse obsahuje detailní, atomicky integrovaná historická data“
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Sjednocené data marty - Ralph Kimball „Data warehouse není nic víc než sjednocení všech konzistentních data martů“
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Integrace •
Každý podnikový proces – vytváří jednoznačné metriky ve specifických časových intervalech s unikátní granularitou a dimenzionalitou – může vytvářet 1 nebo více tabulek faktů
•
dimenzionální model může být navržen – z 1 procesu – z více procesů
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Integrace
•
integrování jednotlivých dimenzionálních modelů do jednoho DW dovolí kombinovat fakty z odlišných procesů
•
nejen drill down, drill up ale i drill across
Pozn.: drill across - řešení dotazů přes vnější spojení společných tabulek dimenzí Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Bus architektura pro DW
•
sběrnicová architektura – je nezávislá na technologii a databázové platformě – umožňuje použít přírůstkový přístup k stavbě DW • různé týmy, asynchronní řešení
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
DW bus architektura
•
Definování standardního rozhraní pro DW a respektování rozhraní umožňuje postupné zapojení a využívání jednotlivých DM jako celku
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
DW bus architektura •
Stanovení rámce – návrh standardizovaných dimenzí – návrh faktů – (conformed dimension, conformed facts)
– standardizované dimenze a fakty zajišťují jednotnou interpretaci v organizaci – umožňuje efektivní komunikaci uvnitř týmů a mezi týmy •
vytváření DM – každá iterace přísně dodržuje architekturu Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Stanovení matice Z dimenzí a procesů se stanoví sběrnicová matice – řádky značí jednotlivé datové trhy – sloupce jednotlivé dimenze (conformed dimension) – každý řádek dává přehled o dimenzích použitých pro DM
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
p ra
vce
te l va
Do
X
da
X X X
Do
X X X X X X
la d
X X X X X X
Sk
Re
k la
ma
jn a de
kt
P ro
du P ro
Business procesy Obchodní prodeje Obchodní zásoby Obchodní dodávky Skladové zásoby Skladové dodávky Objednávky
Da
tu m
Obecné dimenze
X X X
X
X X X
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
• •
otázka jak dříve vyvinuté izolované DM včlenit do DW přizpůsobení dimenzí – klíčové dimenze (použité ve více DM) – nejvíce přizpůsobené dimenze jsou definovány na nejjemnější možné granularitě ( den, zákazník, produkt….) – mnohdy se shodují ve vyšší granularitě • v některých DM jsou sledovány fakty reprezentující agregované hodnoty ( a ty spojeny s agregovanými dimenzemi)
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
•
dimenze – jsou buď identické nebo striktně matematické podmnožiny z nejvyšší granularity detailní dimenze – mají • shodný dimenzionální klíč • shodná jména a definice atributů • stejné domény ( shodnost datového obsahu znamená stejnou interpretaci a prezentaci)
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Základní snímky DW • • •
•
•
•
Transakční tabulka faktů periodický časový snímek akumulační snímek často třeba 2 doplňkové tabulky faktů k poskytnutí kompletního obrázku procesu nejsou totálně odlišné - sdílejí přizpůsobené dimenze mají odlišný rytmus Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Využití DW v oblasti internetu Budování datového skladu Užitečnost DW problematika návrhu
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Využití DW v oblasti internetu
• •
• •
Clickstreamová data Clickstreamová analýza Zdroje dat Způsoby získání dat
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Rozdíly mezi zákazníky •
„Off-line“ zákazník
•Pramen:
•„On-line“
zákazník
The Data Webhouse Toolkit – Kimball, Merz, 2000, str. 42-43
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Clickstreamová data •
při procházení stránkami WEBu Clickstream = spojitý tok kliknutí počítačovou myší
•
Zdroje clickstreamových dat
•
– Rozdílnost ve • finanční náročnosti • nutnosti využití dalších výpočetních prostředků • vypovídající schopnosti
– nejvyužívanější a nejdostupnější • Logové soubory • Odposlech síťové komunikace mezi uživatelem a serverem • Vkládání aktivního obsahu do internetových stránek Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Clickstreamová data •
Využití clickstreamových dat – zlepšování pozice v e-businessu – nejdůležitější analýza : • • • • •
Chování zákazníků Zákaznická loajalita Efektivita marketingu Efektivita prodeje Efektivita obsahu www stránek
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Uživatelské akce
= množina aktivit, které uživatel na dané internetové stránce vykoná – motivovány různými potřebami. •
výčet nejčastějších akcí návštěvníka www serveru – Vyhledávání – vyhledání určitého produktu, služby nebo informačních zdrojů – Sběr informací – srovnání výrobků, cen – Studium – využívání manuálů, on-line příruček – Nakupování a objednávání – Komunikace – účast v diskuzích, využívání e-mailu – Sledování průběhu – zjištění stavu objednávky, zjištění skladových zásob – Download – stažení obrázků, audia, videa, softwaru – Náhodné akce – kliknutí na špatný objekt, chyby URL Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Clickstream analýza •
škála analytických prostředků, aplikovaných na informace získané provozem obchodních, či jinak zákaznicky orientovaných řešení v prostředí internetu
•
Cíl: – pochopení chování zákazníka – využití poznatků k prospěchu online komerčních aktivit
•
Produkuje dvě množiny charakteristik: – Provozní charakteristiky – Charakteristiky komerční povahy
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Charakteristiky komerční povahy • •
Užití k získání vzorů chování zákazníků online komerčních aplikací. Patří sem – predikce chování uživatelů na serveru
– analýzy opuštěných nákupních košíků – cross-selling analýzy • využívání znalostí- při koupi produkt A koupí produkt B • možnost individuálních nabídek zákazníkům ve stejné skupině. –
•
př. při on-line nákupu oznámení typu „Zákazníci, nakupující zboží A (o které jste jako zákazník projevil zájem např. přidáním do košíku) současně nakupují také zboží B a C“ – viz nákup knih
Výsledky analýzy – Zvýšení počtu zákazníků • přeměnou návštěvníků serveru na zákazníka
– Zvýšení obratu stávajících zákazníků Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Návrh konceptu DW pro oblast internetu Zjednodušené schéma DW pro potřeby internetu.
„kamenný obchod“
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
proces budování DW
•
návrh DW – obsah DW (cyklický, diskuse) – návrh akvizice dat – přístup k datům – návrh technického zabezpečení DW
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Projekt DW •
informační strategie potřeba DW Značné investice, čas
•
Zdůvodnění projektu
• •
– – – – –
co je DW, přístupy k budování Seznam strategických aktivit, které chceme řešit ( cíle X zdroje dat) Podpora projektu managementem Personální zajištění UŽIVATELÉ – definice klíčových uživatelů, JSOU ÚČASTNÍKY PROJEKTU – vč. odpovědnosti za úspěšnost implementace – Dodavatelé technologií, řešení – včetně referencí o nich, outsourcing – Velikost DW – vede k výběru ICT
•
osoba odpovědná za projekt uvnitř organizace, která propaguje, znalá problematiky; GARANT PROJEKTU – Z ŘAD UŽIVATELŮ NE IT
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Užitečnost DW konkurenční výhoda potenciální velká návratnost investic množství zdrojů pro Dw, náklady mohou kolísat
zvýšení produktivity při rozhodování - vytvářením integrované subjektově orientované historické konzistentní databáze z více nekompatibilních systémů
DW představuje jediný konzistentní pohled na podnik Omyly a DW DW =úložiště pro všechna data firmy; DW pouze data pro čtení; DW požadují relační DB; DW vždy veliké
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
užití DW • • •
•
15% společností považuje budování DW za větší úspěch DW je komplexní a drahý 60-90% projektů DW nenaplnilo očekávání, nebo již nejsou rozvíjeny
neúspěch DW i díky tomu, že jsou rozpory mezi odděleními
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Problémy DW •
podcenění zdrojů pro vkládání dat
•
Skryté problémy zdrojů – chybovost, nepřesnost (změna zdrojů během let) Požadovaná data nejsou podchycena – modifikovat OLTP či tvorba nového Růst požadavků koncových uživatelů
– • •
–
podhodnocení času na vkládání
díky učení se vzniká potřeba změn: jemnější granularita, lepší prostředky; růst požadavků na pracovníky IT
•
vlastnictví dat drahá udržování dlouhá doba trvání projektu složitost integrace
•
Důležitá dokumentace OLTP procesů, ale i BI (OLAP, ETL,DW)
• • •
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL
Problémy DW •
podcenění kapacity pro vkládání dat (loading) – podhodnocení času požadovaného pro extrakci, čištění a vkládání dat do DW ( předpokladá se až 80% času na celý vývoj) – dobré nástroje mohou urychlit
Business Intelligence- Vladimíra Zádová, KIN, EF, TUL