Česká zemědělská univerzita v Praze Provozně ekonomická fakulta Doktorská vědecká konference 6. února 2012
T T THINK TOGETHER
Think Together 2012 Business Intelligence systémy
Business Intelligence systems
Martin Závodný
321
Abstrakt
Cíle
Business Intelligence systémy patří do skupiny systémů pro podporu rozhodování. Umožňují zpracovávat data z interních a externích informačních systémů podniků a ve vhodné formě je poskytovat uživatelům, kteří na jejich základě činí rozhodnutí strategického významu. Cílem článku je seznámit čtenáře s významem Business Intelligence systémů, s jejich základními principy, technologiemi a architekturami.
Cílem článku je seznámit čtenáře s praktickým významem Business Intelligence systémů, s jejich základními stavebními prvky, technologiemi a architekturami a uvést specifika, jimiž se tyto systémy liší od běžných informačních systémů podniku. Tyto poznatky mohou čtenářům sloužit při návrhu architektury Business Intelligence systémů ve specifických podmínkách různých typů organizací.
Klíčová slova
Význam Business Intelligence systémů
Business Intelligence, zdrojové informační systémy, datová integrace, dočasné úložiště dat, operativní úložiště, datový sklad, datová tržiště, OLAP, multidimenzionální databáze, data mining, reporting.
Business Intelligence systems count among the group of decision support systems. The systems enable processing data that comes from internal and external enterprise information systems and provide this data in suitable form to users, who make decisions on the basis of this data. The purpose of the article is to familiarize readers with value of Business Intelligence systems, their basic principles, technologies and architectures.
Business Intelligence (BI) systémy slouží, na rozdíl od běžných transakčních systémů1, primárně k podpoře rozhodovací činnosti. BI systémy poskytují ve vhodné formě agregovaná analytická data odvozená z dat podnikových informačních systémů a pomáhají jejich uživatelům proniknout do podstaty složitých ekonomických jevů, pro jejichž analýzu bylo BI nasazeno. BI systémy umožňují odhalit vztahy v ekonomické realitě a sledovat vývoj významných podnikových indikátorů (ukazatelů) z pohledu jejich relevantních dimenzí�, např. indikátor vývoje podnikových tržeb z pohledu členění v jednotlivých regionech. Díky analytickému zaměření umožňují BI systémy podnikům výrazně zvýšit efektivnost svých procesů a pomoci jim při rozhodování o strategických otázkách.
Key Words
Komponenty a technologie BI
Business Intelligence, source systems, data integration, data staging area, operation data store, data warehouse, data mart, OLAP, multidimensional databases, data mining, reporting.
V této kapitole jsou popsány základní stavební prvky a technologie Business Inteligence systémů a je nastíněna obecná architektura BI. Jednotlivé komponenty, které budou níže charakterizovány, jsou v rámci specifických BI řešení využívány
Abstract
1 Jejich hlavním cílem je uchovávat a poskytovat evidenci transakcí, které se odehrávají v podnikových IS.
Think Together 2012
Dostupné z: http://www.thinktogether.cz/
v různém rozsahu a uspořádání, a to zejména v závislosti na podmínkách daného projektu a požadavcích týkajících se nasazení aplikací pro podporu rozhodování do vybraných podnikových oblastí. Následující obrázek znázorňuje typické propojení a návaznost dílčích komponent BI řešení.
Nástroje datové integrace Mezi nejvýznamnější komponenty BI řešení patří nástroje datové integrace, které jsou určeny pro získávání, případně také slučování a transformace dat z různých zdrojů a poskytování těchto integrovaných dat dalším systémům, zejm. dalším BI komponentám. Tyto nástroje lze členit na ETL2 a EAI3, viz např. (Inmon 2005: 403). Dočasné úložiště dat (DSA)
Obrázek č. 1: Komponenty a technologie Business Intelligence
Zdrojové systémy Zdrojové informační systémy jsou takové systémy, ze kterých BI čerpá data určená pro následné analytické zpracování. Jedná se především o klasické transakční systémy určené pro ukládání velkých objemů dat, které nejsou na rozdíl od BI zaměřeny na analytické úlohy. Jde jednak o interní systémy podniku (zejm. ERP, systémy pro řízení vztahů se zákazníky, systémy pro řízení dodavatelko-odběratelských vztahů, personální agenda, aj.), jednak o externí zdroje (např. databáze adres, ekonomických subjektů, aj.).
ISBN: 978-80-213-2275-2
DSA4 je nepovinná komponenta BI řešení, která slouží k dočasnému uložení dat extrahovaných ze zdrojových systémů. Data v DSA odpovídají zdrojové předloze a nejsou transformována. V rámci ETL procesu5 probíhá transformace dat určených pro další BI komponenty (pro datový sklad). Dočasné úložiště dat se proto uplatňuje především v případech, kdy transformace dat nemohou být prováděny nad permanentně zatíženými provozními systémy, neboť by přitom mohlo dojít k nežádoucímu omezení výkonu provozních systémů. Po zpracování a přenosu dat do dalších BI komponent se data z DSA odstraní. Operativní úložiště dat (ODS) Podle Billa integrovaný, dat sloužící v organizaci
Inmona je ODS6 subjektově orientovaný, nestálý, časově aktuální a detailní soubor pro rychlou podporu rozhodovacích procesů (Inmon: 2005). Následující interpretace pojmů
2 Extraction, Transformation and Loading 3 Enterprise Application Integration 4 Data Staging Area 5 Procesu přenosu, transformace a nahrání dat ze zdrojového do cílového systému. 6 Oparational data store
323
z uvedené definice vychází z (Novotný, Pour, Slánský 2004: 30–32): • Subjektově orientovaný – data jsou rozdělena podle jejich typu, ne podle zdroje odkud byla získána • Integrovaný – do ODS jsou ukládána celopodniková data, ne pouze data za určitá dílčí oddělení podniku • Nestálý – měnící se při každém nahrání • Časové aktuální – ODS neobsahuje historická data, pouze aktuální snímky zdrojových systémů • Detailní – zpravidla jsou ukládána pouze detailní data bez agregací. Vzhledem k neustálé změně a aktualizaci dat v ODS by nebylo příliš efektivní stále přepočítávat agregované hodnoty Na rozdíl od DSA slouží ODS jako databáze přímo podporující analytický proces. DSA je pouze dočasné úložiště dat před jejich zpracováním. ODS svoje data přímo poskytuje koncovým uživatelům a aplikacím pro podporu rozhodování, přičemž je kladen důraz především na aktuálnost poskytovaných dat. Typickým příkladem využití ODS je centrální databáze základních číselníků (zákazníci, dodavatelé, produkty) dostupná uživatelům napříč celým podnikem. Datový sklad (DW) Datový sklad je souhrn dat, která slouží především k naplňování potřeb aplikací Business Intelligence. DW integruje data z různých provozních systémů a obsahuje historické informace, nad kterými je možno provádět analýzy v čase. Podle Billa Inmona je datový sklad integrovaný, subjektově orientovaný, stálý a časově rozlišený souhrn dat, nad kterým je možno provádět rozsáhlé analýzy.
ISBN: 978-80-213-2275-2
Definice většiny pojmů již byla zmíněna v rámci popisu komponenty ODS, doplňme ještě zbývající podle (Novotný, Pour, Slánský, 2004: 30–32): • Stálý – data, která již jednou byla nahrána do datového skladu, v něm existují po celou dobu jeho života a nemění se. To však neznamená, že později již do datového skladu nejsou nahrávána data další, která teprve v budoucnu vzniknou • Časové rozlišený – data je možno rozlišit podle hlediska času a díky tomu lze provádět analýzy vývoje určité předmětné oblasti v čase Datová tržiště (Data Mart) Jsou specificky zaměřené datové sklady, určené pro pokrytí problematiky týkající se určitého omezeného okruhu uživatelů. Využívají se například jen v rámci konkrétního oddělení, divize, příp. pobočky podniku a umožňující ad hoc analýzy. Data marty jsou decentralizované datové sklady, které se postupně integrují do celopodnikového řešení. Uplatňují se především v architektuře nezávislých datových tržišť (viz kapitola Architektura BI řešení) a díky tomu, že je možno je řešit jako relativně samostatné celky, je možno dosáhnout poměrně rychlého zavedení požadovaných datových analytických aplikací, při relativně nízkých investičních nákladech a rizicích. OLAP a multidimenzionální databáze Jde o technologii založenou na multidimenzionální databázi. Hlavním principem OLAP je multidimenzionální tabulka umožňující flexibilně měnit jednotlivé dimenze a umožnit tak uživateli sledovat data týkající se ekonomické reality podniku z různých pohledů (resp. z pohledu různých zaměnitelných dimenzí). 324
OLAP se liší od běžných transakčních systémů (OLTP) především účelem svého použití. Zatímco běžné OLTP systémy pracují s operativními daty a mají za úkol napomáhat automatizaci a optimalizaci běžné činnosti firmy (např. ERP systémy, účetnictví, personalistika), OLAP pracují s analytickými informacemi, které vznikají na základě odvození z operativních dat transakčních systémů, a jsou určeny především pro podporu rozhodovacích činností managementu. Data pro OLTP jsou nejčastěji ukládána v relačních databázích v normalizované podobě (resp. 3. normální formě). Analytická data není vhodné ukládat tímto způsobem, neboť pokud je potřeba poskytnout uživateli možnost rychle nahlížet na data z pohledu různých dimenzí, lze to v případě normalizovaně uložených dat zajistit jen velmi obtížně. Data pro OLAP jsou proto ukládána v multidimenzionální struktuře7, která je optimalizována pro uložení a interaktivní zpracování (analýzy) multidimenzionálních dat, podrobněji viz např. (Thomsen 2002: 262). OLAP obsahuje různé úrovně agregace dat (podle hierarchické struktury definovaných dimenzí) a zahrnuje také faktor času, díky čemuž lze sledovat historický vývoj definovaných ukazatelů. V rámci multidimenzionální analýzy, která probíhá nad OLAP kostkou, jde o to, získat hodnotu určitého vybraného ukazatele příslušejícího k uživatelem zvoleným dimenzím, viz obr. 2 (ukazatelem jsou tržby, dimenzemi čas a typ výrobku). Volbou určité kombinace dimenzí je určen prvek multidimenzionální databáze, který obsahuje hodnotu nebo algoritmus pro výpočet dané hodnoty. Standardním ukazatelem je obvykle ekonomická proměnná, která je sledována přes časovou dimenzi a současně 7 Technologie pro uložení OLAP kostek je možno rozčlenit na ROLAP, MOLAP, HOLAP a DOLAP. Rozdíly mezi těmito technologiemi jsou dány způsobem uložení multidimenzionálních (OLAP) kostek.
ISBN: 978-80-213-2275-2
přes několik dalších dimenzí (např. organizační jednotka, typ výrobku, zákaznické segmenty, dodavatelé, region, atd.).
Obrázek č. 2: Multidimenzionální analýza – vývoj tržeb u jednotlivých typů výrobků
Dimenze jsou většinou uspořádány v hierarchické struktuře podle míry zachycovaného detailu, například dimenze týkající se výrobků může být členěna na kategorii výrobku (např. notebook) a typ výrobku (např. HP ProBook 6460b) nebo dimenze týkající se lokality prodeje na stát, region, apod. Systémy BI zajišťují automatické agregace hodnot (ekonomických proměnných) podle definovaných úrovní dimenzí. Pokud by totiž bylo nutné provádět součty mnoha hodnot až při zobrazování dat odpovídajících zvoleným pohledům, odezva systému by mohla být příliš velká. Předvypočítané a v OLAP kostkách uložené hodnoty agregovaných dat, odpovídající jednotlivým hierarchiím dimenzí, umožňují snadno měnit
325
detail zobrazovaných dat8 a pružně zaměňovat dimenze, přes něž jsou data nahlížena. Data mining Nástroje data miningu slouží pro netriviální dobývání skrytých, předem neznámých a potenciálně užitečných informací z dat a využívají přitom četných matematických a statistických technik. Hlavním rozdílem mezi data miningem a OLAP analýzou je, že zatímco OLAP zkoumá vztahy známé a dobře strukturované a pracuje nad agregovanými daty (dimenze a ukazatele jsou pevně svázány), data mining pracuje zpravidla nad neagregovanými daty datového skladu (příp. primárního systému) a jeho cílem je nacházet nové skutečnosti a vztahy ve zkoumaných datech. Data mining může být využit například pro detekci podvodů (daňové úřady, pojišťovny, banky), analýzy nákupních košíků, profilace zákazníků (segmentace), udržení zákazníků (vytipování rizikových zákazníků a jejich udržení proaktivním přístupem), stanovení diagnózy (lékařství), analýzu chování návštěvníků webových stránek a mnohé další, viz např. (Ye, Nong, 2003). Data mining zpravidla pracuje se strukturovanými daty, pro úplnost zmiňuji ještě následující specifické druhy data miningu, které využívají dat spíše nestrukturovaných: • Text mining – jde o dolování informací z textových nestrukturovaných dat. • Web mining – jde o dolování informací z dat pocházejících z webových stránek 8 Někdy se označuje jako drill-down (pohyb z hierarchicky vyšší úrovně dimenze na nižší) nebo drill-up (pohyb z hierarchicky nižší úrovně dimenze na vyšší).
ISBN: 978-80-213-2275-2
Reporting Reporting je činnost spojená se získáváním dat z datových úložišť a jejich zobrazováním uživatelům. Reporting lze podle jeho charakteru rozdělit na: • standardní – jde o zpravidla periodické generování výkazů, které mají stále stejnou strukturou. • ad hoc – specifický jednorázový výkaz vytvářený na základě aktuálních potřeb uživatele Speciálním případem reportingu patřícím do oblasti Business Intelligence, je reporting nad OLAP kostkou. Nejčastější výstupy OLAP reportingu mají podobu: • kontingenční tabulky • kontingenčního graf • dashboardu9 Stále častěji se do BI a reportingových nástrojů integrují prezentační funkce, které tvoří další vrstvu nad kontingenčními tabulkami a grafy. Jde o nejrůznější přehledy, dashboardy, manažerské kokpity a další. Významnými funkcemi reportingových nástrojů jsou: • Pravidelné vytváření a zasílání specifických reportů zaměstnancům, kteří je potřebují pro své rozhodování • Zasílání výstrahy, např. na email nebo mobilní telefon, v případě, že se určitý ukazatel nevyvíjí podle plánu, resp. je pod hranicí tolerance • Zobrazení analýz a ukazatelů prostřednictvím manažerského kokpitu, pomocí několika obrazovek s grafy, tabulkami a barevnými indikacemi podle toho, zda 9 Forma reportingu využívající intuitivní způsob zobrazení hodnot metrik, např. ve formě semaforu, ciferníku, stupnice a další.
326
je ve sledované oblasti dodržen plán, příp. nedodržen nebo překročen Nejčastěji používanými metodami pro analýzu dat OLAP kostek jsou: • Drill down – postupné zobrazování většího detailu dat, posouvání v hierarchii dimenzí směrem k nižší hierarchii (např. zpodrobňování dimenze času – od roků až po dny). V kontingenční tabulce funguje formou rozbalovacího menu dimenzí. • Drill up – opačný postup než v případě drill down, přesun z detailu na vyšší úroveň agregace • Slice a dice – omezení výběru nad multidimenzionální OLAP kostkou ‒‒ Slice – výběr dimenze ‒‒ Dice – výběr hodnoty v dimenzi • Pivot – záměna dimenzí u vytvářeného pohledu Metadata repository Aby bylo BI řešení dostatečně flexibilní a škálovatelné, je nutné udržovat detailní dokumentaci všech procesů, které zahrnuje. V kontextu BI obsahují Metadata Repository informace o jednotlivých procesech, strukturách a komponentách celkového řešení Business Intelligence. Zahrnují zejména dokumentaci zdrojových dat, datových modelů, mapování zdrojových systémů na entity používané v BI řešeních, transformační pravidla a výpočty, popisy funkcí, nastavení obchodních pravidel a další. Celofiremní repository nevztahující se pouze k BI potom mohou obsahovat širokou paletu informací popisujících veškeré informační systémy podniku a jejich komponenty – pravidla, procesy, metodiky, hardware, software, síťování, jednotlivé funkce komponent IS a ISBN: 978-80-213-2275-2
další. Přínosem Metadata Repository je především centralizace informací o podnikových datech na jednom místě a s tím související zprůhlednění celého BI řešení, redukce výskytu redundantních dat a zefektivnění vývoje. (Novotný, Pour, Slánský 2004: 37) zmiňuje pro oblast BI následující relevantní oblasti metadat • Metadata zdrojových systémů • Metadata databázových komponent • Metadata ETL procesu • Metadata uživatelské vrstvy Data Kritickým faktorem úspěchu BI řešení jsou kvalitní data. Pokud data nemají potřebnou kvalitu, nemohou mít analýzy, které jsou na základě nich vytvářeny přílišnou vypovídací hodnotu. Kvalita dat může být zajištěna již ve zdrojových systémech, pokud tomu tak není, je potřeba data ještě před jejich zpracováním vyčistit (v rámci ETL procesu nebo pomocí speciálních nástrojů pro zajištění datové kvality). Vyhnout se čištění dat vyžaduje vybudovat v podniku konzistentní a integrovanou datovou základnu a vhodně nastavit procesy pro práci s datovými zdroji. Podle následujících znaků je možno hodnotit kvalitu datové základny podniku: • Úplnost – obsahuje všechna data potřebná pro danou úlohu • Přesnost – data odpovídají realitě a nejsou zkreslená • Struktura – data jsou uložena ve vhodném a jednotném formátu • Konzistence – data nejsou vzájemně v rozporu, nejsou porušeny standardy a vazby mezi daty (např. databáze 327
zákazníků v různých lokalitách musí mít pro stejného zákazníka stejné identifikační číslo) • Neredundance – nedochází k duplicitnímu ukládání dat • Soudržnost – data musí být navázána na související data pomocí vazeb a integritních omezení
Architektura BI řešení Obecně jsou uváděny dvě architektury řešení Business Intelligence, se kterými je možno se v podnikové praxi v současné době setkat. Patří mezi ně architektura nezávislých datových tržišť a architektura konsolidovaného datového skladu, obě jsou stručně charakterizovány v následujících kapitolách, podle (Novotný, Pour, Slánský 2004: 45–51). Architektura nezávislých datových tržišť Podnikové řešení Business Intelligence je tvořeno několika nezávislými datovými tržišti, která slouží pro potřeby jednotlivých specifických útvarů podniku. Každé tržiště zpravidla zahrnuje veškeré komponenty BI, které umožňují získat, transformovat, ukládat a prezentovat analytická data uživatelům. Ačkoli jsou jednotlivá tržiště relativně nezávislá, je snahou podniků vzájemně je propojit přes tzv. sdílené dimenze, tedy dimenzionální tabulky, které jsou opakovaně použity v různých datových tržištích. Celkové řešení BI je v rámci této architektury obvykle budováno postupně, přičemž každé nově vytvářené tržiště má za cíl využít co nejvíce již existujících dimenzí. Sdílené dimenze (např. zákazník, produkt, atd.) zajišťují vzájemnou konzistenci reportingu jednotlivých tržišť. Tato architektura je využívána zejména pokud je potřeba pokrýt analytické potřeby jednotlivých oddělení podniku ISBN: 978-80-213-2275-2
co nejrychleji, při relativně nižší ceně projektu, přičemž není příliš kladen důraz na budoucí integraci řešení, neboť určitým nedostatkem této architektury je obtížnější integrace jednotlivých datových tržišť do celopodnikového řešení. To je dáno zejména náročnou implementací sdílených dimenzí a potřebou vytvořit jednotnou vrstva reportingu nad několika datovými tržišti. Architektura konsolidovaného datového skladu V rámci této architektury jde primárně o vybudování integrovaného BI řešení. Jeho základem je konsolidovaný datový sklad obsahující jak detailní, tak agregovaná data. Řešení je doplněno o závislá datová tržiště, která využívají konsolidovaná data datového skladu. Vytvoření této architektury vyžaduje detailní počáteční analýzu požadavků a vytvoření celkové koncepce, i proto bývá zejména v počátečních fázích časově i finančně náročnější. Na druhé straně přináší výhodu v podobě konsolidovaného reportingu, snazší rozšiřitelnosti bez nutnosti řešit náročnější integrační problémy a větší podporu analytických a data miningových úloh. Tato architektura bývá zaváděna buď jednorázově, zejména pokud jde o menší projekty nebo přírůstkově, pokud jde o větší časově náročnější řešení.
328
Závěr
Literatura
V příspěvku byl představen význam a komponenty Business Intelligence systémů a zmíněna role těchto komponent v rámci celku. Byly také uvedeny nejvýznamnější odlišnosti BI systémů od klasických systémů. Je potřeba si uvědomit, že použití BI komponent v rámci BI systémů, je vždy determinováno konkrétními podmínkami projektů implementace BI systémů. Z praxe lze odvodit zásadu, že čím komplexnější je oblast zdrojových systémů a čím větší jsou požadavky na integraci dat z různých zdrojů, tím je i architektura BI systémů členitější. U méně komplexních systémů, co do počtu a kvality dat zdrojových systémů, nemusí být zastoupeny všechny BI komponenty. Především pak ty, které mají na starosti přípravu dat do vhodné podoby pro analytické aplikace BI systémů (zejm. komponenty ODS, DWH). Naopak u komplexnějších systémů mohou být využívány komponenty stejného typu i vícekrát (např. komponenty DSA, data marty). V daném kontextu závisí samozřejmě i na dalších aspektech, jako jsou disponibilní kapacity na vývoj BI systémů, úroveň ICT infrastruktury společnosti a dalších. V rámci omezeného rozsahu příspěvku nebylo možno se věnovat dalším důležitým oblastem, která navazují na téma rozebírané v tomto článku. Jedná se především o dosud málo pokrytou oblast metodik vývoje BI systémů, oblast datové kvality a oblast aplikací BI. Tyto témata mohou být pokryty budoucím dalším výzkumem.
Inmon, H. W.: Buildig the Data Warehouse. Wiley Publishing, 4. vyd. 2005. ISBN 0-7645-9944- 5, 543 s. Kimball, R., Ross, M.: The Data Warehouse Toolkit – The Complete Guide To Dimensional Modeling. Wiley Compure Publishing, 2. vyd. 2002. ISBN 0-471-20024-7. Thomsen E,: OLAP Solutions – Building Multidimensional Information Systems. John Wiley & Sons. 2. vyd. 2002. ISBN 0-471-40030-0, 661 s. Novotný, O., Pour, J., Slánský, D.: Business Intelligence – Jak využít bohatství ve vašich datech, 1. vyd. Praha: Grada Publishing, 2004. 192 s. ISBN 80-247-1094-3. Ye, Nong: The Handbook of Data Mining, New Jersey Lawrence Erlbaum Associates, 2003, 689 s. ISBN 0-8058-4081-8.
ISBN: 978-80-213-2275-2
329