PODNIKOVÉ INFORMAČNÍ SYSTÉMY
Business Intelligence Adam Trčka
2012
Business Intelligence Adam Trčka
Agenda 09:00 – 11:30: • „BI v kostce“ • Navrhněme si sklad • Ukázka BI • Datamining 12:30 – 14:30: • Pokračování kurzu 14:30 – 15:00: Q&A
Co se dnes dovíme? • • • • •
Data – informace – znalost Business intelligence overview Proces BI Základy modelování Dolování dat
DATA – INFORMACE - ZNALOSTI
Data • Popis nebo vyjádření skutečnosti • Zachycený „obraz“ světa okolo nás • Zachycení: • Nominální, • Ordinální, • Kardinální,…
DBMS/ SŘBD • Database management systém (systém řízení báze dat) • Nástroje (sw) pro ukládání a správu dat • Používají se relační vazby • Typický zástupci: • MSSQL / Oracle DB • MySQL, MS Access,…
Uložení dat v DBMS Zákazník
Jméno
Sídlo
1
Microsoft
Redmond
2
Apple
Cupertino
3
Facebook
SFO
Objednávka
Popis
Zákazník
1
Konzultace
1
2
Školení
1
3
Školení
3
Uložení dat v DBMS #2 Zákazník
Jméno
Sídlo
1
Microsoft
Redmond
2
Apple
Cupertino
3
Facebook
SFO
ID
Typ služby
Objednávka
Popis
Zákazník
1
Konzultace
1
1
1
2
Školení
2
2
1
3
2
3
Informace • Data, kterým byl dán význam • Informace je to co si „bereme“ z dat
Znalost • Organizovaná (utříděná) informace určená k řešení problémů a rozhodování • Vazba na konkrétního jednotlivce
Data – informace - znalosti Význam
Smysl
Znalost Informace Data
Moudrost • Schopnost aplikace znalostí v širším kontextu • Abstrakce a generalizace znalostí • Širší záběr (celá společnost)
Meta____ • Předpona „meta“ označuje přesah, „něco za“, • Metadata: popis určitého „objektu“ • Slouží k rychlejšímu vyhledávání, kategorizaci, strukturovatelnosti,… • Příklad knížka v knihovně: •
Metadata: autor, počet stran, žánr,…
Data ve společnosti • V současné době jsme v tvz. „Informačním věku“ => část ekonomiky tvoří právě „obchod“ s informacemi, • Na základě, některých výzkumů každé dva dny vytvoříme tolik dat co od začátku civilizace do roku 2003, • Toto číslo se každý rok zdvojnásobí
Data v organizaci • Mnoho navzájem nepropojených systémů • ERP, CRM, SCM, Web, Wiki, Facebook…
• Data vznikají neustále • Nové objednávky, nové faktury, noví zákaznící
• Mnoho lidí je tzv. přehlceno daty
Problémy s daty • Data jsou: • Neúplná, • Nepřesná, • Nekonzistentní, • V nevhodný čas, • V nevhodné podobě, • V nevhodné agregaci, • V nevhodných rukou => Datová kvalita
Kontrolní otázky • Co jsou to data? • Co je to informace? • K čemu slouží metadata? • Jaké základní problémy s daty znáte?
Řešení?
BUSINESS INTELLIGENCE
Definice Business intelligence (BI) jsou dovednosti, znalosti, technologie, aplikace, kvalita, rizika, bezpečnostní otázky a postupy používané v podnikání pro získání lepšího pochopení chování na trhu a obchodních souvislostech. Za tímto účelem provádí sběr, integraci, analýzu, interpretaci a prezentaci obchodních informací. Mohou zahrnovat samotné shromážděné informace nebo explicitní znalosti získané z informací. [Wikipedia]
Definice Business intelligence (BI) jsou dovednosti, znalosti, technologie, aplikace, kvalita, rizika, bezpečnostní otázky a postupy používané v podnikání pro získání lepšího pochopení chování na trhu a obchodních souvislostech. Za tímto účelem provádí sběr, integraci, analýzu, interpretaci a prezentaci obchodních informací. Mohou zahrnovat samotné shromážděné informace nebo explicitní znalosti získané z informací. [Wikipedia]
Definice Business intelligence (BI) jsou dovednosti, znalosti, technologie, aplikace, kvalita, rizika, bezpečnostní otázky a postupy používané v podnikání pro získání lepšího pochopení chování na trhu a obchodních souvislostech. Za tímto účelem provádí sběr, integraci, analýzu, interpretaci a prezentaci obchodních informací. Mohou zahrnovat samotné shromážděné informace nebo explicitní znalosti získané z informací. [Wikipedia]
Jinak tedy: • BI je souhrn postupů a přístupů, nikoli jedna aplikace, • Cílem BI je jednoduše zpřístupnit informace důležité pro rozhodování.
http://dmworks.com.br/DMReports/Demo/DMReportsWebDemo.as px?guest=true
DEMO
Samostatné cvičení
BUSINESS CASE
Supermarket Albert • Navrhněte základní reporty, které by vás zajímaly pro rozhodnutí o: 1. Umístění produktů v provozovně, 2. Reklamnímu cílení na zákazníky,
PROCESS BUSINESS INTELLIGENCE
High level pohled ERP
CRM
Web
ETL
DataWareHouse
DM 1
• Marketing
Reporting DWH
DM 2
• Sales
Slovníček • • • • •
DWH: DataWareHouse ETL: Extract – Transform – LOAD DM: Data Mart OLTP: online transaction processing OLAP: online analytical processing
Zdroje dat • Rozdílné systémy (ERP, CRM, HR, WEB), • Nesourodé datové základny • Rozdílné identifikátory (RČ, IČO,…),
• Rozdílná časová souslednost vzniku dat • Některé systémy poskytují data online, jiná v dávkách
• Možnost vzniků nových zdrojů dat
Extract Transform Load • Proces slouží k vyzvednutí dat, jejich modifikaci a uložení do cílového systému. • E: •
Vytažení dat z různorodých systémů,
• T: • •
Transformace dat na požadované struktury, Čistění dat,
• L: •
Uložení do DWH
Datový sklad • Komplexní databáze, • Slouží k ukládání analytických dat, • Obsahuje vyčištěná a kategorizovaná data ve tvaru pro potřeby organizace, • Data jsou agregována a předpočítána pro potřeby rozhodovacích procesů
Datamart • Část DWH pro specifické potřeby • Pro konkrétní oddělení, část zákaznického segmentu
• Může být vytvořen samostatně, nebo jako součást DWH
Hlavní výhody DWH • • • • • •
Možnost provádění analýz, Sloučený pohled na data (one truth), Jednoduší přístup k datům, Přehledy z více systémů na jednom místě, Usnadnění rozhodování, Lepší adresace potřeb zákazníků (interních i externích), • Výhody v konkurenčním prostředí
Budování datových skladů • Inmnonův model: • „Shora-dolů“, • Buduje se jedno centrální tržiště (EDW).
• Kimballův model: • „zdola – nahoru“, • Budují se postupně jednotlivé DM.
Inmonův přístup
• Budování jednoho • Finanční i časová skladu od začátku náročnost • Centrální projekt • Obtížnější získání business case • Větší pozornost společnosti
Kimballův přístup
• Budování per• Synchronizace partes napříč organizací • Rychlejší výsledky • Návrh může být uzpůsoben • Možnost lokálních jednomu oddělení DM (DM)
Reporting • Definovaný výstup (report) • Často má grafickou podobu, • Snadno se jím prochází na nižší úrovně / mění se pohled na data • Čistě uživatelský přístup pro procházení daty •
Není nutný zásah administrátorů pro reporting
• Možnost „vytažení“ základních statistik na tzv. „dashboard“.
DEMO DASHBOARD
Základní kroky pro implementaci BI • Definice požadavků na reporty: • Jak často, jaká data, jak kvalitní, jak agregovaná,
• • • • •
Identifikace zdrojových systémů, Výběr vhodného SW a následně HW Vytvoření datového modelu, Nastavení ETL procesu, Definice reportů.
High level pohled ERP
CRM
Web
ETL
DataWareHouse
DM 1
• Marketing
Reporting DWH
DM 2
• Sales
Kontrolní otázky • Popište základní prvky BI procesů • Definujte základní role na BI projektu • Definujte základní přístupy k tvorbě DWH • Rozdíl DWH a DM
DATOVÉ MODELOVÁNÍ
Proč datové modelování • Základem je pochopit z jakých dat se report připravuje, • Je nutné definovat jeho strukturu a možnosti.
Uložení dat… • OLTP: • Klasické databáze • Data jsou uložena způsobem, který akcentuje jejich rychlé vložení, nalezení, smazání. • Nikoli jejich agregaci a zobrazení napříč více pohledy na tato data. • Základní operace: select, insert, update, delete.
Uložení dat…#2 • OLAP: • Uložení dat je uzpůsobeno reportingovým potřebám, • Dle nastavení může být část dat (jejich detail) dokonce odstraněn. • Základní operace: slice, dice, drill down, drill up, • Data jsou ukládána v tzv. „kostkách“
*OLAP MOLAP (Multidimensional OLAP) - specielní uložení dat v multidimenzionálních – binárních OLAP kostkách,
ROLAP (Relational OLAP) - řeší multidimenzionalitu uložením dat v relační databázi, HOLAP (Hybrid OLAP) - kombinace předchozích přístupů - detailní data v relační databázi a agregace v OLAP kostkách,
DOLAP (Desktop OLAP) - umožňuje připojit se k centrálním úložišti OLAP dat a stáhnout si podmnožinu kostky na lokální počítač. Analytické operace - prováděny nad lokální kostkou - výhodné pro mobilní aplikace a podporu mobilních uživatelů WOLAP (WEB based OLAP) – kombinace OLAP a web technologií.
Kostka
další dimenze tabulky
ky
závod 1
ga or
z ni
ní ač
ot n ed
j
ukazatelé (např. prodej určité komodity, stav zaměstnanců, dosažené tržby)
např. 30.9.
31.10.
30.11. 31.12.
čas
© Novotný, O., Pour, J. (KIT VŠE), Slánský, D. (Adastra Corp.)
PRVEK TABULKY vyjadřuje hodnotu stav zaměstnanců k 31.12 v závodě 1
Slice / Dice
DEMO KOSTKA
Datový model • Tabulky faktů • Údaje v numerickém či symbolickém vyjádření, • Odráží pozorování (reálného) světa.
• Tabulky dimenzí • Obsahuje dimenze na základě, kterých jsou data v tabulce faktů agregována / sumarizována
Schéma star • Centrální tabulka faktů (1) • Obklopena tabulkami dimenzí (n) • Nejjednodušší a nejběžnější přístup k budování DWH
Schéma star Dimenze: Čas
Dimenze: Produkt
Tabulka faktů: Objednávky
Dimenze: Město
Dimenze: Objednatel
Schéma snowflake • Centrální tabulka faktů (1) • Obklopena tabulkami dimenzí (n) • Tabulky dimenzí se dále rozpadají do vzájemný vazeb • Tzv. normalizace
Schéma star Tabulka faktů: Objednávky
Dimenze: Adresa Dimenze: Město Dimenze: Stát Dimenze: Kontinent
Dimenze: Čtvrť
Samostatný příklad • Navrhněte základní datový model pro příklad reportů z předchozího příkladu • Pokuste se o „snowflake“ přístup
Kontrolní otázky • OLAP vs. OLTP? • Snowflake vs. star? • Základní operace s kostkou?
DATAMINING
Definice – dolování dat Označení procesu vyhledávání znalostí skrytých v rozsáhlých objemech dat popisující velká množství konkrétních jednotlivých pozorování. • Metoda založená na statistice a průzkumu velkého množství dat
Co nám datamining umožnuje? • Objevovat skryté vazby mezi různorodými veličinami, • Generovat obecné poznatky na základě těchto zjištění, • Zvýšení obratu / loajality zákazníků, • Kreditní scoring, • Odhalování podezřelého chování, • …
Využití • • • • • • • •
Pojišťovnictví, Medicína, Automobilismus, Bankovnictví, Turismus, Reklama, TV, Facebook
Využití dataminingu (e)shop: • Doporučování („mohlo by se vám líbit“ / „kupované spolu“), • List přání (wish-list), • Upsell (slevy, doporučení, sleva pokud,…), • Cílená reklama, • Kategorizace zákazníků / typických košů
Základní vzory • Asociace • vazby
• Predikce • Předpověď dalšího „kroku“
• Shluky • kategorizace
• Sekvenční vztahy • Vztahy v čase
Proces CRISP - DM
Co je potřeba 1. 2. 3. 4.
Mít data (ideálně v DWH) Znát svá data Mít představu o tom co v datech hledm Vědět jak výsledky využít
CO JSME SE DNES NAUČILI?
Otázky • • • • •
Co je to BI? Co je to informace? Jaké problémy mohou být s daty? Základní komponenty BI? Datamart vs DWH • Přístupy k návrhu • Star vs. Snowflake
• Datamining
Nárožní 2600/9a,158 00, PRAHA 5 tel. +420 841 133 166
[email protected]
www.vsem.cz