Trendy v IS/ICT přístupy k návrhu multidimenzionální modelování
Vladimíra Zádová, KIN, EF TUL
Aplikace IS/ICT BI
SCM e-business
ERP
CRM II ERP e-business
Aplikace pro podporu základních řídících a administrativních operací
Vladimíra Zádová, KIN, EF TUL
1
Informační systémy na počátku 3. tisíciletí • pro řízení vnitřních procesů – back-office aplikace • pro podporu základních řídících administrativních operací podniku • pro řízení vztahů podniků s okolím – front-office aplikace, aplikace s přidanou hodnotou (value-added ) • pro rozvoj řízení podniku a podporu rozhodování – back-office aplikace Vladimíra Zádová, KIN, EF TUL
• Aplikace pro řízení vnitřních procesů podniku - klasické celopodnikové aplikace ERP (Enterprise Resource Planning)
• Aplikace pro podporu základních řídících a administrativních operací podniku – kancelářské systémy – řízení pracovních toků (workflow) – aplikace a technologie pro správu dokumentů – všeobecné informace a instrukce (hlavně na bázi IntranetuVladimíra ) Zádová, KIN, EF TUL
2
• Aplikace pro řízení vztahů organizací s okolím – mění kooperace mezi podniky – CRM (Customer Relationship Management) – elektronické podnikání – SCM (Supply Chain Management)
Vladimíra Zádová, KIN, EF TUL
CRM • procesy a aktivity, zákazníkem
které
souvisí
se
– existujícím či potenciálním
• podpora prodeje - SFA (Sales Force Automation ) • podpora zákazníka - CSS (Customer Service and Support ) • podpora marketingu - EMA (Enterprise Marketing Automation) Vladimíra Zádová, KIN, EF TUL
3
Elektronické podnikání • • • •
elektronický obchod (e-Commerce) elektronické zásobování (e-Procurement) elektronická tržiště (Marketplaces) Elektronické obchodování rozlišuje realizace obchodních vztahů mezi dvěma organizacemi -B2B , B2C , B2R, B2G, B2E (R - reseller, G - government, E -employee) Vladimíra Zádová, KIN, EF TUL
SCM, SCM/APS • koordinuje toky výrobků, služeb, informací a financí – mezi dodavateli surovin, jejich zpracovateli, výrobci, obchodníky, zákazníky • dvě kategorie
– aplikace pro plánování • optimální způsob směrování množství materiálu a zboží potřebného v místech určení
– aplikace pro realizaci • fyzické zásoby, obrátky zboží, objednávek a dodávky materiálu, finance •
Pozn.: APS =Advanced Planning and Schedulling (systém pokročilého plánování) Vladimíra Zádová, KIN, EF TUL
4
Aplikace pro podporu rozhodování • Business Intelligence – EIS (Executive Information Systems - manažerské informační systémy) – datové sklady ( Data Warehouse) datová tržiště (Data Mart) – dolování dat (Data Mining), OLAP (On-line Analytical Processing), reporting..
• Customer Intelligence – CRM + BI = CI Vladimíra Zádová, KIN, EF TUL
Aplikace pro podporu rozhodování • Business Intelligence – EIS (Executive Information Systems manažerské informační systémy) – datové sklady ( Data Warehouse) datová tržiště (Data Mart) – dolování dat (Data Mining), OLAP (On-line Analytical Processing), reporting..
• Customer Intelligence – CRM + BI = CI Vladimíra Zádová, KIN, EF TUL
5
Obecná koncepce architektury BI
Zdroj: Novotný, Pour, Slánský: Business Intelligence, Grada 2005 Vladimíra Zádová, KIN, EF TUL
IS/ICT - vztahy mezi daty a procesy
OLTP
Operativní data
ETL
OLAP, DM, Datové sklady
OLAM, EIS
Vladimíra Zádová, KIN, EF TUL
6
Procesy v BI
Vladimíra Zádová, KIN, EF TUL
• dotazy/reporting – dotazy na to CO je v databázi
• OLAP – PROČ jsou některé fakty pravdivé – uživatel generuje hypotézu a OLAP slouží k jejímu ověření – je závislý na schopnostech analytika, ten se iterací dostává k výsledku
• DM – představuje nástroje, které generují hypotézy a pokračují v provádění objevování
- bez navádění uživatelem Vladimíra Zádová, KIN, EF TUL
7
Reporting
• standardní dotazování – jedná se zejména o SQL dotazy v relačním prostředí – výstupy • standardní předpřipravené dotazy, • nepredikovatelné ad hoc dotazy určené zejména pro nižší management
Vladimíra Zádová, KIN, EF TUL
OLAP = Online Analytical Processing def. Definovaná řada principů, které poskytují dimenzionální rámec pro podporu rozhodování. Dynamická syntéza, analýza a fúze velkého objemu multidimenzionálních dat. OLAP systémy pracují s analytickými informacemi, primární zdroje dat jsou OLTP systémy, důl. faktor času Vladimíra Zádová, KIN, EF TUL
8
Základní operace OLAP • drill-down, roll-up – snížení, zvýšení stupně agregace • slicing (selekce), dicing – provedení řezu v multidimenzionální databázi • pivoting mění úhel pohledu na data ( jedná se o prezentaci obsahu) • drill across – spojení tabulek faktů přes tabulky dimenzí ( na stejné úrovni granularity) –
Operace – různě kombinovány v jedné i ve více dimenzích – ovlivňují podobu datového skladu Vladimíra Zádová, KIN, EF TUL
Dolování dat, Data Mining Dolování dat je proces výběru, prohledávání a modelování ve velkých objemech dat sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody
Cíl: obchodní výhoda • řešení konkrétního problému • nalezení cesty k zlepšení procesu – předem definován, na jeho základě připravena data; není jednorázová analýza příprava podnikových procesů - aby umožnily využívání analýz (kontinuálně) a podporovaly zpětné vazby od uživatelů. Zpětné vazby ovlivňují proces sběru dat i definice nových cílů. Vladimíra Zádová, KIN, EF TUL
9
Dolování dat a objevování znalostí v datech • Knowledge Discovery in Databases ( KDD, objevování znalostí v datech ) – obecně netriviální proces objevování platných, nových, potenciálně užitečných vzorů z dat.
• Dolování dat ( Data Mining) – pouze krok v procesu KDD – založený na aplikaci výpočetních technik, které na základě daných omezení poskytují vzory či modely nad danými daty Vladimíra Zádová, KIN, EF TUL
Dolování dat a objevování znalostí v datech vyhodnocení vzorů
dolování dat data relevantní pro úlohu
DW
selekce
čištění dat integrace dat
DB Vladimíra Zádová, KIN, EF TUL
10
fáze procesu KDD selekce – výběr nebo segmentace dat podle kriteria, výběr vzorků dat
předzpracování dat – pro efektivní vyhodnocení dotazu – čištění dat od nepotřebných dat, úprava formátů dat
transformace – pro obohacení použitelnosti dat – data mohou být rozšířena o další atributy (např. demografické z externích zdrojů)
dolování dat – extrakce vzorů z dat interpretace a vyhodnocení – identifikované vzory jsou interpretovány jako znalosti – lze je použít k podpoře rozhodování Vladimíra Zádová, KIN, EF TUL
Dolování dat
Není samostatný vědní obor, používané metody patří do statistiky (např. klasifikace, regrese, časové řady, shlukování, asociační analýza, rozhodovací stromy), umělé
inteligence
(např.
genetické
algoritmy,
neuronové sítě)...
Vladimíra Zádová, KIN, EF TUL
11
ETL
Vladimíra Zádová, KIN, EF TUL
ETL • proces extrakce, filtrování, čištění a vkládání ze zdrojových systémů do DW – extrakce – transformace • restrukturalizace dat do podoby odpovídající DW – – – – –
filtrace (odstranění chybných i neúplných záznamů) standardizace dat odstranění nežádoucích atributů denormalizace dat kombinace datových zdrojů
– vkládání a indexace konzistence dat samých, konzistence s ostatními daty v DW Vladimíra Zádová, KIN, EF TUL
12
Zdroje dat • zdroje – důvěryhodnost – vše nebo část ( atrib.,..projekce, selekce)
• porovnat stejné údaje z různých zdrojů (1DW z různých zdrojů) – z hlediska • obsahu ( m.j. – m, cm, dm)
• formátu (cena zboží – jiná přesnost, m/ž –0/1)
• významově stejné zdroje jsou různě pojmenovány a naopak Vladimíra Zádová, KIN, EF TUL
Zdroje dat – pokr. • změny zdrojů během let – struktura dat ze stejných zdrojů – (archiv a současnost)
• formálně stejný objekt z více zdrojů – ( zákazník: zákazník x potenc. zákazník)
• četnost přenášení zdrojů Vladimíra Zádová, KIN, EF TUL
13
ETL pravidla pro přenos • • • • • • •
Prosté kopírování Přepočty jednotek Standardizace formátů Odstraňování duplicit v datech z různých zdrojů Rozdělení atributu do několika cíl. atributů ( př. adresa) Slučování atributu do jednoho Odvozování nových atributů (př. datum)
• Převodní funkce – některé použijí pro více atributů, jinde pro atribut samostatná funkce
Vladimíra Zádová, KIN, EF TUL
Po přenosu • Kontrola kvality a ošetření chybějících údajů – Vypuštění záznamů kde chybí – Jednotné označení chybějících údajů a upozornění na neúplnost dat • Statistika pro každý atribut – – Rozsah (doména) a četnost hodnot, které může nabývat (lze odhalit chybné hodnoty) Vladimíra Zádová, KIN, EF TUL
14
Zdroje dat – pokr. – u atributů: • identifikátor, název, typ dat, měr.j., doména, význam, vlastník • typ atributu (dimenze, fakt), typ indexu,
– pro měr.j.: • konverzní poměry (koeficienty převodu, popř. koeficienty proměnné v čase)
– pro dimenze • klíče, definice hierarchie/hierarchií • přiřazení zdrojových atributů cílovým, transformace, změny formátů • vazby mezi zdroji ( kdo komu poskytuje data) Vladimíra Zádová, KIN, EF TUL
Data v IS/ICT
Vladimíra Zádová, KIN, EF TUL
15
Data v OLTP a DW • OLTP - operativní data – zdroje: zejména aplikace – přístup: více současně pracujících uživatelů – aktualizace: častá, relativně malých objemů dat • Operace INSERT, UPDATE, DELETE – dotazy nad daty • selektivní ( zejména předpřipravené dotazy) • přesnost výstupu - na Kč, haléře, .. • četnost stejných dotazů - i vícekrát denně – ukládání dat strukturovaně - normalizovaná relační databáze nověji objektově relační, objektová databáze – požadavky - nekonfliktní zpracování operací, zajištění integrity dat – procesní orientace ( stavy procesů, detailní data) Vladimíra Zádová, KIN, EF TUL
Data v OLTP a DW • Data Warehouse – zdroje: podnikové OLTP, operativní data + externí data – přístup: malé množství specializovaných uživatelů management – aktualizace: řídká - jen přidávání dat ze zdrojů, delší časové intervaly – dotazy • intenzivní na data, složité dotazy, postupná iterace, sumarizace • výstupy zaokrouhlené (i na tisíce)
– ukládání dat strukturovaně • speciálně navržená relační databáze • multidimenzionální kostka Vladimíra Zádová, KIN, EF TUL
16
DW - definice • je subjektově orientovaná , integrovaná, časově variantní a stálá kolekce dat pro podporu rozhodování manažerů B. Inmon
•
subjektová orientace – DW je organizován podle hlavních subjektů podniku (zákazníci, prodej, produkt..), ne podle procesů (aplikací) – reflektuje potřeby uložení dat pro rozhodování – v jedné databázi DW jsou uložena data pouze jednou (např. o produktu, zaměstnanci )
•
integrovaná – do celku jsou vkládána data z různých aplikací nekonzistentnost, různé formáty – integrací těchto dat - prezentace unifikovaného pohledu Vladimíra Zádová, KIN, EF TUL
DW • časově variantní – data v DW jsou platná a přesná jen v bodech, ne intervalech času – uložení historie dat - hodnoty v časových bodech (den, měsíc, Q, rok..) •v DW vždy dimenze času
• stálá –data v DW nevznikají, nedají se žádnými nástroji měnit –aktualizace DW - jen přidávání dat v pravidelných časových intervalech (jako doplněk), integrace přírustků Vladimíra Zádová, KIN, EF TUL
17
Datová tržiště (Data Mart) • příčiny vytváření – pro nejčastější analýzy – pro skupinu uživatelů - business process, oddělení – vytvoření DM s více agregovanými daty, s menším objemem dat - pro zlepšení času odezvy – k poskytování vhodněji strukturovaných dat - z hlediska požadavků nástrojů přístupu – pro snazší implementaci – pro nižší náklady proti DW – pro lepší zaměření koncového uživatele Vladimíra Zádová, KIN, EF TUL
Základní představa
Vladimíra Zádová, KIN, EF TUL
18
Přístupy k návrhu IS/ICT • Vypracovány pro OLTP – popisuje konceptuální schémata, která jsou optimalizována pro OLTP systémy
• Nerespektují specifika datových skladů – neposkytuje postačující informace, které má DW poskytovat pro analytické zpracování • nepřehlednost, není vidět přímo dimenze a fakty • není zřejmé jak jednoduše agregovat data Vladimíra Zádová, KIN, EF TUL
• Multidimenzionální modelování
Vladimíra Zádová, KIN, EF TUL
19
Dimenzionální modelování • speciální technika určená pro logický návrh DW tak, aby vedl k výsledku multidimenzionálnímu schématu
Vladimíra Zádová, KIN, EF TUL
Dimenzionální modelování Požadavky uživatelů
• Proces návrhu – 4 kroky: • • • •
výběr procesu/ů stanovení granularity výběr dimenzí Zdroje dat určení faktů Vladimíra Zádová, KIN, EF TUL
20
Star schéma (hvězdicové schéma)
Vladimíra Zádová, KIN, EF TUL
Vladimíra Zádová, KIN, EF TUL
21
Schéma souhvězdí
Vladimíra Zádová, KIN, EF TUL
Vladimíra Zádová, KIN, EF TUL
22
Konceptuální úroveň
D2
D1 F1 D2
D1
D4
D3
F1
F2 D4
D3
D5
Hvězdicové schéma
D6
Schéma souhvězdí
Vladimíra Zádová, KIN, EF TUL
Obr. 1-P4 Grafické znázornění schéma faktů Zdroj: [5] M. Golfarelli, D. Maio, S. Rizzi. The Dimensional Fact Model: a Conceptual Model for Data Warehouses. International Journal of Cooperative Information Systems, , pp. 215-247,
Vladimíra Zádová, KIN, EF TUL
23
Obr. 2-P4 Grafické znázornění konceptuálního multidimenzionálního schématu Zdroj: [9] Hüsemann, B., Lechtenbörger, J., Vossen, G.: Conceptual Data Warehouse Design,In Proceedings of the International Workshop on Design and Management of Data Warehouses, DMDW, Stockholm, 2000
Vladimíra Zádová, KIN, EF TUL
Obr. 3-P4 Multidimenzionální doménová struktura E. Thomsen
Vladimíra Zádová, KIN, EF TUL
24
Technologická úroveň
D2
D1
D2
D1 F1
F1 D4
D3
D4
D3 F1-hierarch1
F1-hierarch1
D5
D5
F1-hierarch2
F1-hierarch2
Schéma souhvězdí pro hierarchii faktů
D4-hierch1
D4-hierch2
Schéma souhvězdí pro hierarchii faktů a dimenzí
Vladimíra Zádová, KIN, EF TUL
Zákazník
Zaměstnanec
Zak Id
Zam Id Jméno zam Nástup zam Ved Id
F - Prodej Zak Id Zam Id Prod Id Den Id C–fakt
Jméno zak Profese Odvětví Typ zak Země
Qty-prodané Prodej v KČ Čas
Produkt
Den Id Typ dne
Prod Id
Teplota dne
Název prod
Týden
Skupina
Měsíc
Kategorie
Čtvrtletí Rok
Vladimíra Zádová, KIN, EF TUL
25