Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií
Studijní program: Aplikovaná informatika Obor: Informační systémy a technologie
Využití moderní self-service BI technologie v praxi DIPLOMOVÁ PRÁCE
Student Vedoucí Oponent
: : :
Bc. Agiimaa Buyankhishig doc. Ing. Jan Pour, CSc Ing. Ján Zajíc
2014
Prohlášení Prohlašuji, že jsem svou diplomovou práci zpracovala samostatně a že jsem uvedla všechny použité prameny a literaturu, ze kterých jsem čerpala.
V Praze dne 7.5.2014
........................... .......................... podpis
Poděkování Tímto bych chtěla poděkovat panu doc. Janu Pourovi, vedoucí mé diplomové práce, za pomoc, rady a věcné připomínky při tvorbě tohoto díla a panu Ing. Jánu Zajícovi za přístup k potřebným nástrojům a poskytnutým datům a zároveň panu Ing. Tomášovi Matiáškovi za cenné rady.
Abstrakt Tato studie zpracovává problematiku nejnovější technologie v oblasti self-service BI („samoobslužné BI“) od společnosti Microsoft. Hlavní cíle této práce je prozkoumat technologie self-service BI řešení od společnosti Microsoft, vytvořit přehledné srovnání výhod a nedostatků self-service BI oproti klasickým technologiím a prezentovat příklady self-service BI na reálných datech v produktech společnosti Microsoft. První část je věnována teoretické základně klasické technologie Business Intelligence a jejím trendům a trhům. Druhá část je věnována self-service BI řešení a jeho základním principům. Dále jsou v této části analyzovány výhody a přínosy těchto řešení oproti klasickým technologiím BI. Třetí část popisuje nástroje self-service BI. Nemálo pozornosti se zaslouží také nový jazyk DAX, díky němuž lze provádět složité a komplexní výpočty v PowerPivotu. Následně jsou vytvořeny ukázkové reporty na reálných datech z bankovnictví. Využití technologií self-service BI poskytuje důležité výhody při analýze dat oproti tradičnímu přístupu BI. Za hlavní přínos práce lze považovat ověření těchto výhod použitím nástrojů podporujících self-service BI řešení a poskytnout tak vodítko případným zájemcům o nástroje self-service BI.
Klíčová slova: Business Inteligence, self-service BI, Excel, PowerPivot, PowerView, Sharepoint, Dashboard, OLAP, DAX.
Abstract This diploma thesis treats about the latest technologies in the field of self-service BI from Microsoft Corporation. The main goal of this work is to analyze the Microsoft self-service BI solutions, to describe the benefits and advantages of this technology and to show examples with real data in Microsoft self-services BI tools. To achieve the goal, the internet resources, recommended literature, and the software applications PowerPivot and PowerView (Excel 2013) are59 used. In its first part this thesis describes the basic characteristics and technology of classical BI solutions. The second part examines the actual self-service BI solution and its usability. And then analyzes the advantages and benefits compared to conventional technologies. Finally, in its last section describes self-service BI solutions, the DAX language used in PowerPivot and shows example reports with real data from banking sector. The key benefit of this diploma is the verification of the usability and advantages of selfservice BI by using Microsoft self-service BI products and tools.
Keywords: Business Inteligence, self-service BI, Excel, PowerPivot, PowerView, Sharepoint, Dashboard, OLAP, DAX.
Obsah 1. Úvod ............................................................................................................... 7 1.1. 1.2. 1.3.
Hlavní cíle.................................................................................................................... 8 Struktura ...................................................................................................................... 8 Očekávané přínosy diplomové práci ........................................................................... 8
2. Rešerše publikovaných zdrojů........................................................................ 9 3. Business Intelligence .................................................................................... 13 3.1. Podstata Business Intelligence ................................................................................... 14 3.1.1 Hlavní principy ................................................................................................... 15 3.2. Hlavni komponenty BI .............................................................................................. 16 3.2.1 Zdrojové systémy ............................................................................................... 17 3.2.2 Transformace dat ................................................................................................ 17 3.2.3 Datový sklad ....................................................................................................... 18 3.2.4 Datová tržiště...................................................................................................... 19 3.2.5 (DSA) Data Staging Area ................................................................................... 21 3.2.6 (ODS) Operational Data Store ........................................................................... 22 3.2.7 EAI (Enterprise Application Integration) ........................................................... 22 3.2.8 Dolování dat (Data Mining) ............................................................................... 24 3.2.9 OLAP (On Line Analytical Processing) ............................................................. 24 3.2.10 Reportingové aplikace ........................................................................................ 27 3.3. Trh s business Intelligence ........................................................................................ 27 3.4. Trendy BI ................................................................................................................... 32
4. Self-service BI .............................................................................................. 36 4.1. 4.2. 4.3.
Podstata self-service BI ............................................................................................. 36 Způsob řešení self-service BI .................................................................................... 37 Výhody a nedostaky self-service BI ve srovnání s klasickým řešením BI ................ 38
5. Microsoft self service BI .............................................................................. 39 5.1. PowerPivot................................................................................................................. 40 5.1.1 Verze a kompatibilita ......................................................................................... 40 5.1.2 Klíčové vlastnosti PowerPivotu ......................................................................... 41 5.2. Analýza dat s PowerPivotem ..................................................................................... 42 5.2.1 Import dat do PowerPivotu ................................................................................ 44 5.2.2 Modelování v PowerPivot .................................................................................. 47 5.2.3 Tvorba hierarchií v datovém modelu ................................................................. 48 5.2.4 Vypočítaný sloupec ............................................................................................ 50 5.2.5 DAX ................................................................................................................... 54 5.3. Power View ............................................................................................................... 57 5.4. Power Map ................................................................................................................. 59 5.5. Power Query .............................................................................................................. 60
6. SharePoint Server ......................................................................................... 61 6.1.1
Tvorba dashboardů ............................................................................................. 66
7. Závěr ............................................................................................................. 72 8. Seznam použité literatury ............................................................................. 73 9. Terminologický slovník................................................................................ 77 10. Seznam obrázků ......................................................................................... 78
1. Úvod V dnešní době se mnoho oblastí lidského konání neobejde bez podpory výpočetní techniky. Například ve státní správě se ročně zpracovávají milióny daňových přiznání, sociálních podpor, v bankovním sektoru se provádí denně nespočet transakcí a veškeré úvěry a historie splátek jsou uchovávané v elektronické podobě. Velké množství dat se hromadí takřka ve všech sektorech. Čím dál rychlejší a výkonnější výpočetní technika umožňuje podnikům provádět každý den nespočet úkonů a transakcí. Ovšem zároveň jim prudce narůstá množství nahromaděných dat. Studie jménem „Digital Univers“, kterou sponzorovala společnost EMC Corporation, ukazuje, že objem dat na celém světě roste rychleji, než se očekávalo. Digitální vesmír dosáhne do roku 2020 velikosti zhruba 40 ZettaBajtů (ZB), což představuje zhruba třináctinásobný nárůst oproti roku 2012 a k tomuto zvýšení přispěje zejména růst strojově generovaných dat. Zároveň se také ukazuje, že většina dat leží v nestrukturovaných zdrojích nebo v neoznačených souborech (EMC Corporation 2012). Dobré zpracování a analyzování těchto dat by firmám mohlo poskytnout cenné informace a tím pomoci ke správnému a včasnému rozhodnutí a přinést jim tak konkurenční výhodu před ostatními. Technologie Business Inteligence pomáhá k analyzování těchto dat a dokáže také predikovat budoucí vývoj. Je již využívána v mnoha podnicích po celém světě, ale jeho implementace a nastavení je pro podnik většinou velmi složité, drahé a časové náročné. Proto v poslední době některé společnosti začali nabízet řešení typu self-service BI, neboli „samoobslužné BI“, které umožnuje obzvlášť malým a středním firmám analyzovat jejich data bez velkých investic do IT technologií. Kupříkladu nejnovější self-service BI
technologie od společnosti Microsoft umožnuje analyzovat data pomocí
nástroje PowerPivot, který je již zabudovaný v kancelářské aplikaci Excel 2013. Takové řešení je nejenom dostupnější a jednodušší než klasické BI řešení, ale umožnuje i lidem bez odborné IT znalosti analyzovat a zpracovat nahromaděná data svépomocí. Vzhledem k tomu, že self-service BI od společnosti Microsoft má výše uvedené výhody a z velké časti může nahradit mezeru mezi koncovým uživatelem a klasickou technologií BI, rozhodla jsem se více věnovat právě tomuto tématu.
7
1.1. Hlavní cíle Hlavní cíle mé práce jsem shrnula do následujících bodů:
Zkoumat technologie self-service BI řešení od společnosti Microsoft a rozebrat jejich nejdůležitější vlastnosti.
Vytvořit přehledné srovnání výhod a nedostatků self-service BI oproti klasickým technologiím.
Prezentovat příklady self-service BI na reálných datech v produktech společnosti Microsoft.
Dílčím cílem této práce je pojednat o rysech a technologiích klasického BI řešení.
1.2. Struktura Práce je rozdělena do tří částí. První část je věnována teoretické základně klasické technologie Business Intelligence a jejím trendům a trhům. Druhá část je věnována self-service BI řešení a jeho základním principům. Dále jsou v této části analyzovány výhody a přínosy těchto řešení oproti klasickým technologiím BI. Třetí část popisuje nástroje self-service BI. Nemálo pozornosti se zaslouží také nový jazyk DAX, díky němuž lze provádět složité a komplexní výpočty v PowerPivotu. Následně jsou vytvořeny ukázkové reporty na reálných datech z bankovnictví.
1.3. Očekávané přínosy diplomové práci Využití technologií self-service BI poskytuje důležité výhody při analýze dat oproti tradičnímu přístupu BI. Za hlavní přínos práce lze považovat ověření těchto výhod použitím nástrojů podporujících self-service BI řešení a poskytnout tak vodítko případným zájemcům o nástroje self-service BI.
8
2. Rešerše publikovaných zdrojů Tato diplomová práce se věnuje oblasti self-service ("samoobslužné") Business Intelligence (BI), jeho výhodám oproti klasickému BI řešení a jeho využití v praxi. Ve vyhledaných zdrojích v českém jazyce byly zastoupeny pouze knižní publikace, které se věnují klasickým BI řešením než novějšímu self-service BI. Oblasti self-service BI a jeho využití se ale v českém jazyce věnuje několik vysokoškolských kvalifikačních prací. Popisu klasického BI se věnují tyto publikace: Název publikace: Business intelligence v podnikové praxi Autor: POUR, Jan a MARYŠKA, Miloš a Ota NOVOTNÝ Publikováno: Praha: Professional Publishing, 2012 ISBN: 978-80-7431-065-2 Tato kniha popisuje současnou oblast Business Intelligence (BI) jako jednu z nejperspektivnějších oblastí podnikové informatiky, která díky možnostem efektivní podpory řídících, analytických, plánovacích i rozhodovacích činností, významně přispívá ke zvyšování kvality podnikové informatiky i podnikového řízení. BI je podstatným faktorem, který ovlivňuje konkurenceschopnost podniků a stává se konkurenční výhodou a součástí úspěchu podnikání. Kniha popisuje hlavní komponenty řešení BI, řešení úloh BI, fáze a činnosti řešení BI projektů, dimenzionální modelování, implementaci BI, datovou kvalitu, specifické analytické a implementační úlohy BI, aplikace BI, řízení podnikové výkonnosti, dolování dat, řešení projektů BI atd. Název publikace: Business intelligence: jak využít bohatství ve vašich datech Autor: NOVOTNÝ, Ota, POUR, Jan a SLANSKÝ David Publikováno: Praha: Grada, 2005 ISBN: 80-247-1094-3 Kniha popisuje Business Intelligence (BI) jako moderní způsob využití informačních technologií při analýzách, plánování a rozhodování firmy. Autoři vysvětlují pojmy a principy BI, ukazují postupy a příklady navrhování, realizace a úspěšného nasazení BI aplikací od strategického řízení až po oblasti financí, obchodu a logistiky.
9
Oblasti self-service BI se v českém jazyce věnují následující diplomové práce: Název publikace: Self-service BI a PowerPivot Autor: ČERNÝ, Ondřej Publikováno: Vysoká škola ekonomická v Praze, 2013 Dostupné z: http://isis.vse.cz/zp/121389 Diplomová práce se zabývá problematikou rozšíření kancelářské aplikace Microsoft Excel, aplikaci PowerPivot. Práce se věnuje tématu samotného BI a porovnání klasického přístupu BI a přístupu self-service BI. Práce zmiňuje současné trendy BI. Stěžejní část tvoří popis a použití aplikace PowerPivot. Na příkladech ukazuje přínosy a novinky v PowerPivot oproti klasické analýze v Excelu. Dále se zabývá výpočtům v PowerPivot za použití jazyka DAX, propojení s Microsoft SharePoint Serverem a implementaci aplikace v PowerPivot pro model podnikové informatiky MBI (Management of Business Informatics). Název publikace: Self Service BI - problémy současné architektury Autor: FORMÁNEK, Václav Publikováno: Vysoká škola ekonomická v Praze, 2013 Dostupné z: http://isis.vse.cz/zp/121318 Diplomová práce nejprve vymezuje pojem self-service BI, určuje její reálnou potřebu v dnešní informační společnosti. Práce se zabývá doporučeními pro návrh a řízení self-service BI řešení, možnostmi pokrytí reálných požadavků zákazníka self-service BI funkcionalitou a prezentuje navrhnutou architekturou v rozsahu vybrané technologie pro self-service BI. Tato práce se nezabývá konkrétními nástroji pro self-service BI a jejich použitím a zůstává spíše na teoretické úrovni. Název publikace: CPM a zavedení dashboardingu v praxi Autor: KOUCKÝ, Jiří Publikováno: Vysoká škola ekonomická v Praze, 2009 Dostupné z: http://isis.vse.cz/zp/78445 Diplomová práce se věnuje tématu Corporate Performance Management (CPM) jako koncepci zaměřené na řízení výkonnosti podniku, která souvisí s využitím technologií BI. Práce je zaměřena na specifickou oblast CPM, a to monitoring a analýzu, neboli dashboarding a zabývá se analýzou monitoringové a analytické funkcionality softwarového řešení Microsoft 10
Office PerformancePoint Server 2007 (PPS). Vymezuje pojmy dashboardu a scorecardu a popisuje charakteristiky a členění dashboardů. Dále vymezuje praktiky správného designu dashboardů a uvádí konkrétní návrh CPM dashboardingového řešení. Název publikace: Kritéria hodnocení nástrojů pro tvorbu dashboardů v řešeních BI Autor: CHRÁST, Tomáš Publikováno: Vysoká škola ekonomická v Praze, 2009 Dostupné z: http://isis.vse.cz/zp/80975 Tato diplomová práce se zabývá dashboardy a nástroji sloužících k jejich vytváření. Autor vysvětluje pojetí dashboardů v současné podnikové informatice a na základě množiny hodnotících kritérií porovnává nástrojů pro tvorbu dashboardů. V závěru práce je představen a zhodnocen vybraný nástroj Dashboard Designer a jeho ukázková implementace nad testovacími daty. Název publikace: Tvorba Dashboardu v MS PerformancePoint 2007 Autor: DOLEJŠÍ, Vojtěch Publikováno: Vysoká škola ekonomická v Praze, 2009 Dostupné z: http://isis.vse.cz/zp/50660 Tato diplomová práce hodnotí produkt Microsoft Office PerformancePoint Server 2007 z hlediska jeho použitelnosti pro tvorbu webových dashboardů. Autor formuluje teoretické základy pro oblast tvorby dashboardů, navrhuje vhodné metodiky pro hodnocení produktu a zpracovává vzorová data v produktu Microsoft Office PerformancePoint Server 2007. Práce obsahuje popis Business Intelligence a Corporate Performance Management jako základní východiska pro tvorbu dashboardů. Průběh práce s PPS 2007 je poměrně detailně popsán. Tato práce je tedy potencionálně využitelná i jako případová studie. V anglickém jazyce lze očekávat širší nabídku zdrojů týkajících se oblasti self-service BI. I zde se ale jedná spíše o publikace, které se věnují konkrétním případům použití této technologie jako je tvorba dashboardů nebo použití aplikace PowerPivot. K těmto publikacím patří: Název publikace: Performance dashboards: measuring, monitoring, and managing your business Autor: ECKERSON, Wayne W. Publikováno: Hoboken, N.J.: Wiley, 2011
11
ISBN: 9780470918425 (e-book) Kniha se zabývá tipy, technikami a trendy na využití technologie dashboardů pro optimalizaci výkonnosti podniku. Autor vysvětluje, jaké dashboardy existují, kde mohou být použity a proč jsou důležité pro měření a řízení výkonnosti podniku. Tato kniha zahrnuje nové případové studie, průzkumy trhu a aktuální informace o navrhování KPI, dashboardů, jejich integraci a typech. Poskytuje základy pro pochopení dashboardů, business intelligence a řízení výkonnosti pro optimalizaci výkonu a urychlené dosažení výsledků. Výhodou této knihy je její dostupnost ze sítě VŠE. Název publikace: PowerPivot for Excel 2010: Give your data meaning Autor: RUSSO, Marco; FERRARI, Alberto Publikováno: Praha: Microsoft press, 2011 ISBN: 0735640580 Kniha ukazuje, jak využít nástroj Microsoft PowerPivot pro Excel 2010 k vytváření vlastních modelů Business Intelligence. Kniha nabízí praktické příklady, které poslouží k transformaci dat do názorné a přehledné formy. V knize je popsáno také propojení PowerPivot na Microsoft SharePoint Server. Součástí knihy je CD, které obsahuje datové zdroje a řešené příklady z knihy. Mnoho popisů a charakteristik produktů a nástrojů společnosti Microsoft obsahují webové stránky této společnosti, které budou také jedním ze zdrojů této diplomové práce.
12
3. Business Intelligence Pojem Business Intelligence (BI) použil poprvé Hans Peter Luhn, výzkumník IBM, v roce 1958 ve svém článku a definoval ho jako „schopnost pochopit vzájemné vztahy prezentovaných faktů takovým způsobem, který umožní provést akci k dosažení požadovaného cíle.“ (Zikmund 2012). Následně se na konci 70. let 20. století začaly objevovat aplikace, které podporovaly manažerské a analytické úlohy. V druhé polovině 80. let začaly být tyto aplikace založené na multidimenzionálním uložení a zpracování dat a říkalo se jim EIS (Executive Information Systém) neboli Manažerské informační systémy. Od konce 80. let byly vyvíjeny další oblasti, jako jsou datové sklady (Data Warehouse) a datová tržiště a integrace s OLAP databází. Právě rozvoj datových skladů a OLAP databází vedl ke vzniku Business Intelligence a také firmy se začaly více orientovat na zákazníka pomocí efektivních a flexibilních analýz. V roce 1989 redefinoval Howard J.Dresner, analytik společnosti Gartner Group, pojem Business Intelligence jako „sadu konceptů a metod určených pro zkvalitnění rozhodnutí firmy“ (Novotný et al. 2005, s. 18) . Dnes již existuje mnoho dalších definic Business Intelligence. Pro zajímavost uvádím následující definice: „Business Intelligence představuje komplex přístupů a aplikací IS/ICT, které téměř výlučně podporují analytické a plánovací činnosti podniku a organizací a jsou postaveny na principu multidimenzionality, kterým zde rozumíme možnost pohlížet na realitu z několika možných úhlu.“ (Novotný et al. 2005, s. 17) „Business Intelligence je množina konceptů a metodik, které zlepšují rozhodovací proces za použití metrik, nebo systémů založených na metrikách. Účelem procesu je konvertovat velké objemy dat na poznatky, které jsou potřebné pro koncové uživatele. Tyto poznatky potom můžeme efektivně použít například v procesu rozhodování a mohou tvořit velmi významnou konkurenční výhodu.“ (Lacko 2011) „Souhrnný pojem pro procesy, technologie a nástroje potřebné k přetvoření dat do informací, informací do znalostí a znalostí do plánů, které umožní provést akce podporující splnění primárních cílů organizace.“ (Hroch a Cach 2007)
13
Z výše uvedených definic lze usoudit, že jde o sadu nástrojů a metod podporujících analytické a rozhodovací činnosti v organizaci, jejichž účelem je konvertovat data na informace a následně do znalostí tak jak je zobrazeno na následujícím obrázku. (Obr. 1)
Obr. 1 Business intelligence (Pirkl 2004) V následujících podkapitolách jsou popsány stručné charakteristiky a technologická řešení klasického BI a dále také jeho současný trend a nabídky na trhu.
3.1. Podstata Business Intelligence Mít v čas k dispozici správné informace významně pomáhá činit správná rozhodnutí, která následně ovlivňují úspěch podniku, jeho flexibilitu a konkurenceschopnost. Tyto výhody mohou získat právě díky nasazením technologii BI. Aplikace BI je použitelná na všech úrovních podnikového řízení (Pour et al. 2012). Čili je určená všem, kteří potřebují analyzovat data za účelem získání správné a včasné informace pro svá rozhodnutí. Takové informace oceňují jak vrcholoví manažeři, tak i další pracovníci
podniku. Například vrcholoví manažeři potřebují sledovat klíčové parametry
podniku a srovnávat jak se liší skutečný výkon společnosti od zamýšleného stavu. Vedoucí pracovníci zase potřebují sledovat efektivitu výroby jednotlivých produktů, stav skladových zásob nebo produktivitu svých podřízených.
14
Business Intelligence je určená pro všechny druhy firem, jak velikostí, tak oborem, které potřebují analyzovat stav jimi sledovaných oblastí. Těmito oblastmi mohou být například finanční řízení, marketing, výroba, řízení vztahu s dodavateli, lidské zdroje a tak dále. Veškerá zpracovaná data pak lze prezentovat v čitelné a přehledné podobě a to může vést k rychlému odhalení příčiny současných či budoucích problémů podniku.
3.1.1
Hlavní principy
Jedna z hlavních předností BI je analýza dat podle různých dimenzí a jejich kombinací a to na základě vlastností multidimenzionality. Multidimenzionalitu v datech lze realizovat dvěma základníma způsoby (Pour 2012):
multidimenzionalitu vyjádřenou v relačních databázích,
multidimenzionalitu dat realizovanou pomocí tzv. OLAP technologie (On Line Analytical Processing)
Multidimenzionalita vyjádřena v relačních databázích Data v relačních databázích jsou uspořádána do relací (tabulek) a jednotlivé tabulky jsou buď tabulky faktů, nebo tabulky dimenzí. Jako celek tvoří dimenzionální model, obsahující kombinaci mnoha schémat ve tvaru STAR (hvězdicové schéma) a SNOWFLAKE (schéma sněhové vločky). Schémata ukazuje obr. 2. V případě schématu STAR je každá dimenze napojená na faktovou tabulku. U schématu SNOWFLAKE jsou na faktovou tabulku napojené pouze ty dimenze, které jsou na nejnižším stupni hierarchie a ostatní dimenzi pak k nim napojují.
15
Obr. 2 Schema Star a Snowflake (Garcia et al. 2000, s. 191)
Multidimenzionalita dat realizovaná pomocí OLAP technologie Tato technologie umožnuje lepší způsob analyzování dat. OLAP databáze jsou navrženy s ohledem na požadavky, které jsou nejčastěji kladeny při BI analýze, to jsou rychle zajištění různých pohledů na data a zobrazení agregací na různých úrovních. Dalšími důležitými vlastností je zobrazení průběhu daného ukazatele v čase a uchovávání dat na potřebných úrovních detailu (granularity). Jde o to, do jaké úrovně podrobností se dá na data nahlížet. Obecně platí, že čím jsou data podrobnější, tím jsou získaná data přesnější, ale jejich získání je časově náročnější. Díky těmto vlastnostem je Business Inteligence schopna zpracovávat velký objem dat a provádět komplexní analýzy v reálném čase a tím pádem je schopna odpovědět na mnoho aktuálních i budoucích otázek.
3.2. Hlavni komponenty BI Celé řešení klasického BI je rozsáhlé a skládá se z mnoho komponent. Na následujícím obrázku jsou zachyceny hlavní komponenty základního BI řešení, přičemž jejích uspořádání se může lišit podle potřeb daného podniku (Pour et al. 2012).
16
I EA
Produkční databáze (e-Business)
Operativní úložiště dat (ODS, Operational Data Store)
Datové tržiště (Marketing) Datové tržiště (Finance)
ET L
Dolování dat Data Mining
Reporting Produkční databáze (ERP)
ETL
Dočasné úložiště dat (DSA, Data Staging Area)
ETL
L ET
Centrální podnikový datový sklad
Produkční databáze (…)
OLAP kostky
Analytické nástroje
Portály
Excel Access
Datové tržiště
Řízení kvality dat Správa metadat
Obr. 3 Základní řešení BI (Pour et al. 2012)
3.2.1
Zdrojové systémy
Vstupním zdrojem dat pro klasické BI jsou zejména data transakčních systémů. Transakčním systémům se také říká provozní systémy nebo zdrojové systémy a jsou to například systémy typu ERP (Enterprise Resource Planning), CRM (Customer Relationship Management), SCM (Supply Chain Management), externí zdroj dat v elektronickém podobě, WWW a apod. Jejich cílem je podpora každodenních firemních aktivit a automatizace rutinních činností.
3.2.2
Transformace dat
Transformace dat mezi transakčními databázemi a datovým skladem probíhá pomocí nástroje ETL (Extract, Transform, Load) neboli datové pumpy (Obr. 4). Data v transakčních databázích bývají často nepřehledné a někdy i neplatná. Proto než se data uloží do datového skladu, měla by být očištěna od duplicit a jiných nepodstatností a měla by být uložena ve vhodném formátu. Čím přesnější informace požadujeme, tím kvalitnější data musí být uložena v datovém skladu. Kvalita dat závisí na preciznosti provedení ETL procesu. Vybudování ETL vrstvy je velmi náročné a zabírá značné množství času a nákladů z celého řešení BI. Na trhu je
17
mnoho firem poskytující tento nástroj. Například firma Microsoft dodává ETL nástroj jako součásti SQL serveru pod názvem Integration Services.
Obr. 4 ETL (Arcplan 2012)
3.2.3
Datový sklad
Základem BI je datový sklad DWH (Data Warehouses), který slouží k uchovávání dat z celého podniku. Podle Williama Inmona (Pirkl 2004) je definice datového skladu následující: „Datový sklad je podnikový strukturovaný depozitář předmětově orientovaných, vzájemně provázaných, časově neměnných, historických dat používaný pro získávání informací a podporu rozhodování.“ Čili jeho vlastnosti jsou:
předmětně orientované - na rozdíl od databází provozních systému, které jsou aplikačně orientované, jsou data v datovém skladu z pohledu uživatele subjektově neboli předmětně orientovaná. Například podle typu zákazníka, rizika a produktu.
Vzájemná provázanost - uchovává data z celého podniku a jsou vzájemně integrované
časová neměnnost - data v něm se nesmí jakkoliv změnit
obsahující historii dat - lze provádět analýzu dat za určité časové období.
Data v datovém skladu také musí být pro uživatele srozumitelná a intuitivní a chráněna proti unikům citlivých a strategických údajů.
18
3.2.4
Datová tržiště
Datová tržiště (Datamart) jsou podmnožinou datového skladu a jsou většinou určena pro menší organizační složky firmy. Jejich uživatelé v nich mohou provádět specifické analýzy či vytvářet flexibilní ad-hoc reporty. Následující tabulka nastiňuje rozdíl mezi datovým skladem a datovým tržištěm.
Datový sklad
Datové tržiště
Rozsah implementace Počet oblastí
Podnik Více oblastí
Jednotlivá oddělení Jedna oblast
Množství zdrojů
Velké
Malé
Doba implementace
Měsíce až roky
Měsíce
Tab. 1 Porovnání datového skladu s datovým tržištěm (Pirkl 2004)
Způsob budování datového skladu Existuje několik přístupů budování datového skladu (Novotný 2005, s. 45):
přístup na základě architektury nezávislých tržišť (R. Kimball),
přístup na základě architektury konsolidovaného datového skladu (B. Inmon),
přírůstkový přístup, který je v současné praxi využíván nejčastěji
Přístupu na základě architektury nezávislých tržišť neboli dvouvrstvovou architekturu se volí v případě, pokud je potřeba upřednostnit konkrétní oddělení či pobočku a dodat první výstupy datového skladu v relativně krátké době (v horizontu několika měsíců). Datový sklad se pak buduje postupně po jednotlivých datových tržištích a nejen výsledky, ale i finanční prostředky na vývoj jsou rozloženy v čase. Tímto způsobem vybudované prostředí pro podporu rozhodování však neposkytuje celopodnikový pohled na informace (Danel 2010).
19
Obr. 5 Postupně budování datového skladu (Novotný 2005)
Přístup na základě architektury konsolidovaného datového skladu je velmi náročný jak na časové tak na finanční zdroje. Je potřeba budovat celý komplexní datový sklad najednou.
Obr. 6 Konsolidovaný datový sklad (Novotný 2005)
U přírůstkového přístupu začínáme postupně vytvářením datových tržišť, přičemž jednotlivá datová tržiště jsou již v provozu, než se celý datový sklad dokončí. Postupné budování má výhodu průběžného přizpůsobování uživatelským požadavkům a také urychluje návratnost vložených investic.
20
Obr. 7 Přírůstkový přístup (Novotný 2005)
3.2.5
(DSA) Data Staging Area
Pro odlehčení zátěže zdrojových systémů můžeme transakční data z několika zdrojových systémů spojovat v mezi úložišti DSA. Také se používá v situaci, kdy je potřeba data před zpracováním konvertovat. Například z textových a jiných souborů. Data v DSA mají následující vlastnosti:
detailní neagregovaná data – data jsou uložena v atomické podobě, tedy na takové úrovni granularity na jaké jsou získána ze zdrojového systému. To znamená, že nad daty nejsou prováděny žádné agregace jako je výpočet součtu, počtu atd.
nekonzistentní data- kvalita dat není kontrolována, to znamená, že v Data Staging Area se mohou objevovat duplicitní záznamy, cizí klíče záznamů, které neexistují, prázdné (NULL) hodnoty a jiné problémy, které nejsou přípustné v datovém skladu
neobsahují historii – uložená jsou pouze na určitou přechodnou dobu a po přenosu do Datového skladu se z DSA odstraní.
aktuální – v Data Staging Area není možné zjistit stav dat v určitém časovém okamžiku. Data, která jsou v DSA obsažena reflektují přesně situaci ve zdrojovém systému v době, kdy byla do DSA nahrána
shodná struktura data se strukturou ve zdrojových systémech
21
3.2.6
(ODS) Operational Data Store
Dále se v některých řešení používají operativní úložiště dat ODS, které umožňují analýzu dat ihned po jejich pořízení a téměř v reálném čase. Data v ODS má následující vlastnosti:
doplněná o agregaci – v Operational Data Store je možné ukládat již agregovaná data, to znamená data, nad kterými byla použita některá z agregačních funkcí, jako je například součet nebo průměr. Díky tomu mohou být dotazy do ODS odpovězeny rychleji a zároveň není potřeba skladovat velké množství dat
konsistentní – nad daty je možné provádět cleansing, tedy očistění. Tím je možné dosáhnout požadované kvality informací, které jsou prezentovány v reportech používajících Operational Data Store
konsolidované – Data jsou propojena do logických celků, příklad, může být propojení dat o zákazníkovi z různých tabulek do jedné
předmětné orientované – data nejsou rozdělena podle zdrojových systému, ale jsou ukládána podle toho, jakou informaci obsahují a k čemu se vztahují. Příkladem mohou být data o dodavatelích z různých systémů uložena v jednou objektu dodavatelé
Používají se například v call centrech pro dotazy ohledně plateb či potřeb konkrétních zákazníků.
3.2.7
EAI (Enterprise Application Integration)
Ve většině podniků funguje paralelně několik systémů, které mezi sebou potřebují komunikovat a to buď s dalšími interními systémy, nebo externě. Proto vznikla platforma Enterprise Application Integration jehíž úkolem je zajistit kvalitní komunikaci mezi jednotlivými systémy. Dle (Novotný 2005) „Cílem EAI je integrovat primární podnikové systémy a razantně redukovat počet jejich vzájemných rozhraní.“ EAI umožňuje vzájemnou komunikaci mezi aplikacemi v reálném čase. Příkladem integrace aplikací je například ERP systém, který umí automaticky doobjednat zásoby na sklad v případě, že dochází. Následující obrázek (Obr. 8) ilustruje podnikové systémy s použitím platformy EAI a bez ní.
22
Obr. 8 EAI (People at work systems nedatováno)
EAI můžeme dle (Integrace 2004) rozdělit na 2 skupiny podle toho zda aplikace komunikují přímo mezi s sebou nebo zda je mezi nimi další aplikace, která zajišťuje komunikaci. Integrace s využitím centrálního prvku Integrace tímto způsobem funguje tak, že v případě když aplikace 1 potřebuje odeslat zprávu aplikaci 2, kontaktuje prostředníka middleware a tomu zprávu předá. Middleware poté zajistí doručení zprávy cílové aplikaci. Starostí middleware je zprávu správně doručit, starat se o chyby v případě nedoručení atd. Tento způsob se však v BI příliš nevyužívá. Integrace s přímým propojením integrovaných aplikací V tomto případě aplikace komunikují přímo mezi sebou, zajištění aby přenos dat proběhl v pořádku je tedy odpovědností samotných aplikací, a v případě nastalé chyby musí aplikace tuto chybu vyřešit. Výhoda toho způsobu je, že umožňuje rychleji přenášet větší množství dat, zatímco při využití centrálního prvku se častěji počítá spíše s posíláním kratších, ale důležitých zpráv. Tento způsob je tedy nejčastěji využíván při přenosu dat z externích aplikací do OTL. Příklady EAI jsou především middleware sloužící k připojení do databází, to jsou ODBC, JDBC, OLE konektory a webové služby, které mohou být z BI iniciovány a využity k přenosu dat. Jako příklad lze uvést získávání informací z webových služeb lze uvést data z Facebook, která lze ukládat pomocí Graph API.
23
3.2.8
Dolování dat (Data Mining)
Podle obecné definice: „Data mining je proces výběru, prohledávání a modelování ve velkých objemech dat, sloužící k odhalení dříve neznámých vztahů mezi daty za účelem získání obchodní výhody” (Půlpán 2001) Jinými slovy slouží k zjišťování skrytých a užitečných informací k obchodnímu rozhodování. Například je hodně používán v supermarketech, v bankách a u mobilních operátorů. Ti s mohou s jeho využitím zkoumat chování svých zákazníků a na základě toho přizpůsobit své obchodní jednání. Dále se využívá při monitorování aktivit na internetu nebo ve vědě. Jako příklad lze uvést zjišťování předpokladů dědičné nemoci u osob na základě jejích DNA. Nejznámější metodologie jsou SEMMA, 5A(SPSS) a CRISP-DM, jejichž prvním krokem je porozumět problému a zamýšlet nad řešením a následné posbírat vhodnou skupinu dat a připravit je pro analýzu. Dále se pokračuje vytvářením a hodnocením modelů a zjištěné poznatky pak je potřeba uvést do praxe a zajistit jejich zpětnou vazbu. Dnes užívanými metodami dolování dat jsou například (Vlček 2010):
regresní metody (lineární regresní analýza, nelineární regresní analýza, neuronové sítě)
klasifikace (diskriminační analýza, logistická regresní analýza, rozhodovací stromy, neuronové sítě),
segmentace - shlukování (shluková analýza, genetické algoritmy, neuronové shlukování - Kohonenovy mapy)
analýza vztahů (asociační algoritmus pro odvozování pravidel typu „ if X then Y“)
predikce v časových řadách (korelační metody, neuronové sítě, autoregresní modely, ARIMA)
detekce odchylek
3.2.9
OLAP (On Line Analytical Processing)
Na základě dat z datového skladu se vytváří
OLAP kostka. Je datovým modelem
multidimenzionální databáze, jehož osy představují jednotlivé dimenze. Z nichž jedna osa vyjadřuje ekonomické proměny (ukazatele), které chceme sledovat, a druhá vyjadřuje časovou dimenzi. Zbytek dimenzí představují úhly pohledu (nadhledy) na zkoumaný ukazatel a těmi
24
mohou byt například kategorie zboží, dodavatelé, odběratelé, zaměstnanci, prodejce a mnoho dalších parametrů. Na průsečících těchto dimenzí se pak nacházejí určité záznamy, které chceme sledovat. Například můžeme pozorovat prodej konkrétního výrobku podle lokalit a zákazníků za určité časové období a zjistit tak jak se liší tyto ukazatele od plánovaných hodnot. Nebo můžeme zjistit, jaké byly mzdy zaměstnanců určité pobočky ke konkrétnímu dni (Obr. 9 Multidimenzionální kostka).
Obr. 9 OLAP kostka (Vlček 2010) OLAP databáze může obsahovat jednu nebo více souvisejících OLAP kostek. Způsob uložený dat v OLAP databázi muže byt v podobě: MOLAP - Multidimenzionální OLAP, data a jejich agregace jsou přepočítány a uloženy přímo v OLAP databázi. Při použití tohoto řešení lze následně nejrychleji procházet kostku a provádět nad ní operace. Nevýhodou je, že zpracování kostky do OLAP databáze zabírá procesorový čas a v případě, že potřebujeme real-time data, tak je kostka nedokáže nabídnout. ROLAP - Relační OLAP. V tomto případě se data nepřepočítávají, ale MDX dotazy nad kostkou se překládají do transakčních a ty jsou následně puštěny nad relační databází. Tento způsob je vhodný pokud máme málo dat a zároveň je požadavek je zobrazit v reálném čase
25
HOLAP - Hybrid OLAP přepočítávají se pouze agregace, které jsou poté uloženy v OLAP databázi. V případě, že zákazník chce detailnější data, kostka funguje jako ROLAP DOLAP - Desktop OLAP – Kostka je uložena v klientském počítači, tj není na serveru ale například v Excelu.
Operace s datovým skladem v OLAP analýze Danel 2010): Drill–down umožňuje uživateli ve zvolené(-ých) instanci(-ích) jisté agregační úrovně nastavit nižší (jemnější) agregační úroveň. Jedná se o navigaci v hierarchii dimenzí směrem k většímu detailu. Roll-up - jde o opak předešlé operace. Ve zvolených instancích jisté agregační úrovně nastavuje vyšší (hrubší) agregační úroveň (menší detail v hierarchii dimenzí). Pivoting – umožňuje „otáčet“ datovou krychlí, tj. měnit úhel pohledu na data na úrovni prezentace obsahu datového skladu. Slicing – dovoluje provádět řezy datovou kostkou, tj. nalézt pohled, v němž je jedna dimenze fixována v jisté(-ých) instanci(-ích) jisté agregační úrovně. Jinými slovy tato dimenze aplikuje filtr na instance příslušné agregační úrovně dané dimenze. Dicing – je obdobou „slicingu“, jenž umožňuje nastavit takový filtr pro více dimenzí.
Rozdíl mezi OLAP a Data mining Následující obrázek vyjadřuje porovnání jednotlivých vlastnosti technologie OLAP a Data mining.
Tab 2. OLAP vs Data Mining (Vlček 2010)
26
3.2.10 Reportingové aplikace Na výše zmíněnou OLAP kostku nebo na ostatní analytické komponenty se pak napojují různé reportingové aplikace umožňující zaměstnancům efektivní přístup k informacím. Tyto aplikace prezentují přepravená data v podobě grafů nebo i tabulek a musí byt pro uživatelé jednoduše ovladatelné a srozumitelné. Mezi nejpoužívanější reportingové aplikaci patří MS Excel. Dále jsou ProClarity, Report Portál a MS Access atd. Návrh napojení reportingových aplikací je poslední fází řešení BI. Dotazování neboli reporting pomoci těchto aplikaci můžeme rozdělit na standardní reporting a ad-hoc reporting. Standardní reporty jsou vygenerovány v určité časové sekvenci podle nastavených parametrů, zatímco dotazy pro ad-hoc reporting tvoří podle potřeb uživatelé v aktuálním okamžiku. V této části práce je nastíněn pouze velmi stručný popis klasického řešení BI. Detailně je tato technologie vysvětlena například v následujících knihách (Pour et al. 2012),(Novotný et al. 2005), které jsou uvedené v rešerši této práce.
3.3. Trh s business Intelligence Podle nejnovějších reportů od společnosti Gartner mezi nejsilnější firmy v této oblasti patří Microsoft, IBM, Tableau, QlikView, SAS, SAP, Oracle, Tibco Software, MicroStrategy, Infomation Builders (Obr. 10). Nejlépe se umístila firma Tableau na poli technického řešení a na poli splnění vize vede firma IBM, jako minulý rok. V magickém kvadrantu se umístili kromě dodavatelů robustních BI řešení také dodavatelé opensource BI řešení. Hlavními hráči na tomto trhu jsou Pentaho a JasperSoft, které nabízí plnohodnotnou BI platformu.
27
Obr. 10 Dodavatelé BI (Gartner 2014) Jednotlivé společnosti v tomto magickém kvadrantu byli hodnocení podle 17 vlastnosti patřící do třech kategorie: Dodávka informací - Reporty, Dashboardy, Ad-hoc dotazy, Integrace s Microsoft office, Mobilní BI Analýza - Interaktivní vizualizace, Zjišťování informací pomocí textového vyheldávání, Geologické informace v Business Intelligence, Business Inteligence integrované přímo v podnikových aplikacích, OLAP (Online analytical processing) Integrace - BI infrastruktura a administrace, Správa metadat, Integrace a analýza dat z interních a externích zdrojů, Vývojová nástroj, Embeddable analytics, Spolupráce, Podpora pro Bigdata Srovnáme-li Gartnerovou analýzu oproti minulému roku, největší pozitivní změnu zaznamenaly společnosti Birst, GoodData, Alterix a Pentaho a naopak velké společnosti jako jsou Oracle, Microsoft, IBM a SAP se posunuli do horší pozici. (obr. 11)
28
Obr. 11 Významný posun v Magickém kvadrantu (Atkinson 2014)
Níže jsou popsané produkty od těchto poskytovatelů. Birst BI Birst BI je End to End řešení, které pro svůj běh využívá cloud. Jedná se o integrovanou platformu, která je zákazníkům nabízena formou Software-as-a-service. Produkt nabízí v ucelené formě téměř celé spektrum aplikaci nutných pro provoz a údržbu vlastního BI. Z uživatelského rozhraní, které je přístupné přes webový front-end je možné vytvořit datové pumpy, datový sklad obsahující faktové a dimenzionální tabulky a v neposlední řadě také reporty, které je možné publikovat nebo pravidelně rozesílat vybraným uživatelům. Z celého řešení je vidět snaha vývojářů vytvořit systém, který se bude co nejjednodušeji ovládat a nastavení celého řešení zabere málo času. To je možné ukázat na příkladu datové pumpy, kde je s malou námahou možné integrovat data jak z klasických zdrojů, to jsou relační databáze, flat-file nebo často využívaný podnikový systém SAP, tak z online datových zdrojů (např. google analytics nebo salesforce). Další vlastností, která má za úkol zjednodušit nastavení celého BI je například automatické vytváření faktových a dimenzionálních tabulek podle
29
analýzy dat z datových zdrojů. Birst BI řešení je možné si vyzkoušet i na jejich webových stránkách. GoodData Podobně jako Birst, GoodData prodává produkt, který běží v Cloud a to jako Software-as-aservice. Oba dva produkty jsou si podobné i tím, jak se snaží zaujmout zákazníky. Je to tedy především možnost rychlého nasazení řešení, která je zajištěna tím, že se GoodData snaží celý systém zjednodušit a nabídnout zákazníkům předdefinované šablony, které pak v případě potřeby může zákazník upravovat. Příklady těchto šablon jsou GoodSales, GoodMarketing a GoodSocial. Použitím těchto šablon získá zákazník Dashboard, který jak GoodData věří, obsahuje best practises z jednotlivých oborů. Druhým hlavním pilířem, na kterém GoodData staví je snaha o odstínění zákazníka od nutnosti znalosti technické implementace a správy dat / databáze serveru. Zákazník by se dle GoodData měl věnovat především samotným datům a tomu jak s nimi pracovat a nestarat se o technologie, které mu to umožňují.
Pentaho Pentaho se se svým BI snaží nabízet řešení, které by mělo být unikátní především schopností užitečně tj. logicky a téměř v reálném čase vizualizovat informace a na tomto základě pak nabízet reporty a dashboard který pomůže k rychlému rozhodování. Další vlastností, kterou je možné využít v Pentaho BI je snaha o zajištění tzv. drill-through tedy možnosti z nejvyšších agregovaných úrovní reportů snadno získat informace o datech, které byly pro výpočet ukazatelů v reportu použity. Pentaho BI běží v cloudu, ale může být zakoupeno i jako onpremises software. Oracle Společnost Oracle nabízí velice široké spektrum business produktů, mezi nimiž nechybí ani BI řešení. Jako u většiny svých produktů, Oracle se zaměřuje především na korporace a větší firmy. Tomu také odpovídá BI řešení, které nabízí. BI produkty Oracle bych rozdělila do 3 kategorií. První z nich je integrované BI řešení. Tím se myslí řešení, jehož součástí je jednak kompletní sada Software (od ETL, datového skladu a analytických aplikací) a také hardware, tedy servery na kterých výše zmíněné produkty běží. Tento produkt se nazývá Oracle Business Intelligence Foundation Suite (BI Foundation Suite). Oracle se v tomto produktu snaží zohlednit BI trendy,
30
a proto zahrnul aplikace podporující self-service bi a také možnost mobilního přístupu k reportům a dashboard Druhou kategorií jsou produkty podporující big data. Tím jsou u Oracle 3 produkty. Těmi jsou Oracle Big Data Appliance, Oracle Exadata a Oracle Exalytics. Pro upřesnění uvádím, že tyto produkty jsou součástí výše zmíněného Oracle Business Intelligence Foundation Suite, ale je možné je zakoupit i odděleně. Rozhodla jsem se je popsat v samostatném odstavci, protože tvoří důležitou část Oracle BI. Úkolem Oracle Big Data Appliance je získat data z různých zdrojů a upravit je tak, aby je bylo dále možné zpracovávat v Exadata a Exalytics serverch. Protože se jedná o bigdata, je možné spravovat data z klasických relačních zdrojů a také nestrukturovaná data z velkých textových souborů a sociálních sítích. Data se ukládají v Hadoop a Oracle NoSQL Database. Součástí řešení je middleware, který umožňuje data z těchto úložišt připojit k Oracle Exadata a Exalytics. Pro zpracování informací a analýzu slouží zbývající dva produkty, tedy Oracle Exadata a novejší Oracle Exalytics. Oracle Exadata je server který umožňuje uchovávat a analyzovat data v klasických OLAP nebo relačních databázích. Oracle Exalytics umožnůje analýzu dat in-memory tzn. operační paměti serveru. Toto se využívá především pro nestrukturovaná big data. Posledním produktem Oracle, který zde uvedu je RightNow Analytics Cloud Service. Tento produkt je zajímavý především tím, že na rozdíl od předchozích produktů běží v Cloud a jeho cílem je poskytnutí BI k cloudovému řešení Oracle Right Now. Microsoft Microsoft nabízí na poli BI platformu SQL Server, v současné době ve verzi 2014. SQL Server může běžet buď přímo na zákazníkově straně, tj na jeho serverech, nebo je možné zakoupit virtualní stroj v Microsoft could Azure. SQL server v Azure má však určité limity, jakými jsou nemožnost využití Power Pivot nebo integrace s SharePoint (Microsoft 2014). SQL Server je end-to-end řešení. To znamená, že pokrývá celé spektrum BI, od ETL, Data Warehouse, Analytické a reportovací funkce. Komponenta, která v SQL Serveru zajišťuje ETL se nazývá Integration Services. K skladovaní dat v relační databázi slouží Database Engine. OLAP databáze je jako v předchozích verzích spravována v Analysis Services. V případě že zákazník chce využívat self-service bi je možné ukládat OLAP v Power Pivot v MS Office Excel nebo na SharePoint nebo využít tabular mode opět buď v MS Office Excelu nebo na Sharepoint. Protože SQL server neslouží pouze pro účely BI ale je to jediná databáze, kterou Microsoft nabízí, odlišuje jednotlivé varianty databáze podle edice. Těmi jsou Express, Web,
31
Standard, Business Intelligence a Enterprise. Pro využití většiny BI funkcí je potřeba vlastnit minimálně verzi Standard (Microsoft 2014) Protože tento rok vyšla nová edice SQL serveru a v této kapitole se snažím popsat aktuální trh ukážu jaká hlavní vylepšení SQL Server 2014 nabízí oproti předchozí verzi 2012. Dle mého názoru je nejdůležitější novinou podpora In-memory OTLP transakcí. Pro uživatele to znamená možnost vybrat tabulky nebo procedury, které mají být uloženy v paměti. Ukládání objektů v paměti pak výrazně zvyšuje rychlost dotazů nad takovýmito objekty. Druhou nezanedbatelnou novinkou je vylepšení columnstore indexu. Colmunstore index byla novinka ve verzi 2012 a jeho použití nad tabulkou výrazně zvyšovalo výkon v případě, že nebylo potřeba dotazovat všechny sloupce tabulky. Zlepšení výkonu bylo dosaženo rozdílným uložením dat. Při použití tohoto indexu ale byla v předchozí verzi tabulka označená jako pouze pro čtení a nebylo proto možné vytvářet ani upravovat žádné záznamy. Toto omezení se ve verzi 2014 podařilo odstranit a i záznamy v tabulkách s columnstore indexem mohou být měněny. Poslední, dle mého názoru důležitou změnou je možnost připojení Power View na OLAP databáze (tzn OLAP v Analysis Services). V předchozí verzi bylo možné vytvářet reporty v power view pouze z datových zdrojů Microsoft Excel a Tabular Mode v Analysis Services.
3.4. Trendy BI V uplynulém roce 2013 jako hlavní trendy v oblasti BI byl identifikován rozvoj dashboardů, self-service BI, mobilní BI, využití in-memory technologie, zpracování Big Data, využívání cloudových řešení a spolupráce se sociální sítí. Tyto trendy pokračují i tento rok. Podle společnosti Tableau Software jsou hlavními trendy v roce 2014: Analýza se přesouvá blíž k uživatelům BI se bude postupně přesouvat z rukou expertů k současným BI zákazníkům. Tableau Software uvadí, že současní byznys uživatelé mají k datům a jejich analýze blíže. S rozvojem self-service BI nástorů si tak budou moct čím dál lépe vytvářet vlastní reporty a analýzy bez pomoci a zdrojů z BI odděleních.
32
Cloud Business Intelligence se stává standardem. Tableau Software uvádí, že cloudové business intelligence platfomy dosáhli takové úrovně, že pro firmy, které uvažují o rychlém a snadném zavedení Business Intelligence se cloud stává jednou z nejčastějších možností volby. Big data konečně také v cloud V tomto roce bude trendem analýza velkých dat (big data) ne jenom za pomoci vlastních to je firemních serveru, ale za pomoci využití cloudových big data služeb. Tableau Software zmiňuje v této souvislosti nový produkt Googlu Big Query a Amazon RedShift. Agilní vývoj BI bude stále trendem. Tableau Software opět zdůrazňuje roli self-service BI v kombinaci s nutností snadných a rychlých úprav současných reportů a možnosti zpracovávat data z nových zdrojů. Prediktivní analytické nástroje se budou objevovat v klasických BI produktech. Důležitost informací o tom co se stalo by tento rok měla klesat a naopak budou důležitější informace o tom, jak bude. To by měli zajistit nové produkty podporující predikovaní dat, které by měly být zahrnuty v nejčastěji využívaných produktech. Základní BI nástroje v mnoha aplikacích posunou BI blíže k byznysu. Základní BI nástroje by se tento rok měly začít objevovat v čím dál tím větším spektru aplikací (například CRM systémy). To by mělo umožnit, aby uživatelé měli informace blíže a na základě těchto snadno dostupných informací se mohli rozhodovat. Interpretace dat nabývá na významu. Dle Tableau Software si bude tento rok značná poptávka po reportech / BI která dokáže data nejen zobrazit ale především interpretovat a zasadit do kontextu. To je důležité především proto, že objem dat neustále narůstá a bez jejich interpretace se snadno mohou stát zbytečná. Mobilní BI se začína objevovat v technicky vyspělých organizacích. Tableau Software předpovídá rozvoj mobilního BI, tedy možnosti zobrazit reporty a data kdykoliv a kdekoliv bez nutnosti být zrovna u počítače.
33
Organizace začnou analyzovat a využívat data ze sociálních sítí . Trendem v tomto roce bude podle Tableau Software zpracování a analýza dat ze sociálních sítí. Analýzou sociálních sítí budou podniky získávat cenné informace o ohlasu vlastních produktů a také by jim tato analýza měla pomoct pro monitorování vztahu zákazníku k dané společnosti. NoSQL je nový Hadoop. Posledním trendem je využití bigdata a nestrukturovaných dat k řízení podniků. Protože se tímto tématem zabývám v další kapitole, nebudu zde uvádět podrobnosti.
Hlavní trendy v BI V této práci představím dva hlavní trendy v BI, Big data a Self-service BI, které jsem si vybrala na základě toho, že představují po několika letech změnu ve vnímání Business Intelligence a myslím, že tento a příští rok ovlivní zásadním způsobem vývoj trhu. O selfservice BI je pojednáno v následující samostatné kapitole. Pojmem Big Data označuje samotná data i technologie spojené s jejich zpracováním. V posledních dvou letech jsou přitom Big Data označovaná jako budoucnost BI. Nyní se pokusím vysvětlit, proč jsou big data tak důležitá a jaký je jejich význam pro BI. Pojem big data označuje data, která můžeme zahrnout do všech následujících skupin. Těmi jsou Objem, Rychlost, Různorodost a Variabilita. Objem Dat je opravdu velké množství a to nejčastěji proto, že jsou produkována buď velkým počtem uživatelů, nebo různými podnikovými systémy, webovými a dalšími servery. To může znamenat problém pro současné transakční systémy, kde může být komplikované a náročné taková data uchovávat. Rychlost Data vznikají velmi rychle. Protože každý podnik a téměř každá aplikace používá k uchovávání dat různé logovací soubory, do kterých velmi často zapisuje, množství dat, které jsou produkovány je velmi rychle. To opět může pro klasické databáze a ETL představovat problém, protože načtení tak velkého objemu dat do relační databáze může spotřebovat mnoho prostředků a v některých případech to ani nemusí být technicky proveditelné nebo jenom za cenu velkých investic.
34
Různorodost Různá data z různých systému se liší ve formátu, v jakém jsou uložena. Big Data může představovat kombinaci strukturovaných dat z relačních databází, semi-strukturovaných dat z různých logovacích a jiných souborů, a nestrukturovaných dat z webů, formulářů a všech ostatních zdrojů (např. audio, video soubory). Variabilita Je důležité datům rozumět, každá data mají svůj vlastní kontext, v kterém je možné je vyložit a přeměnit na informace, systém musí datum rozumět a podle toho s nimi zacházet.
Protože data, která splňují výše popsaná kritéria, je obtížné skladovat v relačních databázích, je tendence skladovat a analyzovat data jiným způsobem. V této souvislosti je nejčastěji zmiňován produkt Apache Hadoop, který by se dal popsat jako Framework sloužící k ukládání dat. Na rozdíl od relační databáze, při použití Big Data produktů, jsou data uložená v nestrukturovaných souborech (tedy ve stejném formátu v jakém byla do systému nahrána). To představuje velkou výhodu oproti relačním databázím, protože před samotným uložením dat není nutné vytvářet přesně definované struktury, které je pak v případě změny struktury dat nutné také změnit. Další podstatnou vlastností Big Data systému je snadná škálovatelnost. To znamená, že v případně potřeby navýšení kapacity systému je jednoduché připojit novou komponentu. Čtení a analýza dat v Big Data systémech probíhá pomocí nejrůznějších komponent, které jsou buď předpřipraveny dodavatelem systému, nebo je možné je dodatečně vyvinout. Big data vnímám jako novou možnost správy a uložení dat v prostředí, kde se data často mění, mění se požadavky na to co je potřeba analyzovat a zároveň je k dispozici mnoho nestrukturovaných dat z různých zdrojů, které jsou těžko analyzovatelné. Protože podíl nestrukturovaných dat v posledních letech výrazně vstoupá, domnívám se že big data ještě čekají na větší rozšíření.
35
4. Self-service BI V další části práce je věnována již
samotné technologii self-service BI neboli
„samoobslužné BI“. Nejdříve jsou popsány stručné charakteristiky self-service BI a způsoby řešení. Dále zkoumá výhody a nedostatky self-service BI ve srovnání s klasickým řešením BI.
4.1. Podstata self-service BI Neustále se měnící potřeba byznysu a potřeba výkonného nástroje pro rychlou analýzu dat mohou být dobrým důvodem proč zavést self-service BI řešení. Čím déle bude trvat IT oddělením získání relevantních dat a jejich následné předání uživatelům, tím více budou informace zastaralé a méně hodnotné. V mnoha firmách obvykle požadují uživatelé a vedoucí pracovníci po analyticích vytváření různých reportů a ti pak musí potřebné data získat nejdříve přes IT oddělení. Tento tradiční přístup k informacím ilustruje následující obrázek (Obr.12) Bohužel, často kvůli zvýšeným požadavkům na IT oddělení, nabírá celý tento proces určité zpoždění.
Obr. 12 Tradiční přístup k informacím (Ibarnes 2013)
Proto, aby urychlili toto zpoždění, analytici často importují data sami, obvykle přes aplikaci Excel. V této situaci je sběr dat v rukou analytika a proto výsledek analýzy stejného dotazu nemusí byt totožný s výsledky dalších analytiků a navíc stále zcela neřeší určité zpoždění na otázky koncových uživatelů (Obr. 13).
36
Obr. 13 Přístup k informacím (Ibarnes 2013)
Cílem self-service BI je právě umožnit koncovým uživatelům přímý přístup k potřebným datům a možnost analyzovat data svépomocí a bez závislosti na analyticích a IT odděleních. Další výhodou je, že koncový uživatel může rovnou sám směrovat výsledek svých analýz na základě nových poznatků získaných v průběhu vlastního zpracovávání. Díky této samoobslužné vlastnosti se dá minimalizovat zatížení IT pracovníků, kteří mohou věnovat svůj čas důležitějším a odbornějším úkolům jako je vývoj nových aplikací nebo zavádění nových technologií pro zlepšení výkonnosti podniku. Samozřejmě podpora IT oddělení nebo IT odborníka je potřebná jak na začátku implementace self-service BI, tak i v průběhu provozu. Self-service BI je určeno také pro širokou skupinu uživatelů, včetně té bez odborné IT znalosti a proto uživatelské prostředí self-service BI musí být intuitivní a jednoduché pro používání. To si ukážeme později na konkrétním nástroji self-service BI od firmy Microsoft.
4.2. Způsob řešení self-service BI Mnoho firem se snaží v této oblasti nebýt pozadu, a proto se snaží vytvářet své vlastní řešení self-service BI. Způsob zavádění self-service BI závisí na potřebě uživatele. Některé firmy disponují velkým množství různorodých dat. Uživatelé z těchto firem mohou pro self-service BI využít data z rozměrného datového skladu. Čili mohou těžit jak z výhod tradičního BI řešení, tak ze self-service BI řešení. Tato varianta je ale složitější a dražší, jelikož zavádění samotného datového skladu je náročný proces zabírající mnoho času. Typickým příkladem firem sbírajících velké množství dat jsou velké společnosti z oblasti telekomunikací, pojišťovnictví, zdravotnictví, bankovnictví, apod.
37
Malé firmy někdy nemají dostatek finančních prostředků a často nemají ani potřebu volit složitější variantu kvůli menšímu množství vlastněných dat. Právě pro takové firmy je ideálním řešením samotný nástroj self-service BI.
Například doplněk PowerPivot zabudovaný v
kancelářské aplikaci MS Excel je velmi výkonný analytický nástroj umožňující rychlé zpracování i velkého množství dat a je určen pro vytváření datových modelů a přehledných reportů. Nevytváří se zde žádný datový sklad. Společnost Microsoft nabízí několik dalších výkonných self-service nástrojů, jako jsou PowerView, PowerMap a PowerQuery. Tyto nástroje jsou k dispozici jako doplňky k aplikaci MS Excel a podrobněji budou popsané v další kapitole. Analyzované data a vytvářené přehledné reporty pak můžeme dále sdílet s ostatními uživateli například pomocí aplikace Sharepoint.
4.3. Výhody a nedostaky self-service BI ve srovnání s klasickým řešením BI Jak jsem uvedla výše, self-service BI by mělo sloužit především pro ad-hoc dotazy u kterých se často mění požadavky a dopředu není jasné, jaká analýza bude potřeba. Druhým možným využitím self-service BI jsou požadavky na nestandartní, ale jednoduché reporty, na jejichž přípravu často nemá IT oddělení čas. Z předpokládaného způsobu využití self-service BI také vyplývají jeho výhody a nedostatky. Protože v praktické části této práce jsem se věnovala právě vývoji reportů za pomocí self-service BI nástrojů, pokusím se zde své zkušenosti zobecnit a porovnat s klasickým BI řešením. Porovnání self-service BI s klasickým BI řešením uvádím v následující tabulce.
38
Self-service BI
Klasické BI řešení
Rozsah dat
Menší vzorek dat
Velká data
Typ požadavku
Ad-hoc, jednoduchý,
Často
pravidelné reporty
požadavky, standardizované
se
opakující
reporty, složité zadání Cena řešení
Malá
Větší
Implementace
Krátká, jednodušší, implementovat i
může Obvykle IT (BI) oddělení
poučený
uživatel Omezená funkcionalita
Omezení
Plná funkcionalita
Tab. 3 Self-service BI vs klasický BI (Autorka)
5. Microsoft self service BI V této části práce je zkoumána konkrétní technologie self-service BI od společnosti Microsoft, která slibuje komplexní a výkonné řešení pomocí nástrojů PowerPivot, Power View, Power Map a Power Query. Tyto nástroje jsou k dispozici také v Power BI pro Office 365.
Power BI v Office 365 Zde se jedná o cloudové řešení self-service BI a nabízí následující výhody (Kunz 2013): Power BI sites - vyhrazené BI pracovní prostory pro spolupráci v Office 365 pro sdílení dat a poznatků s kolegy. Power BI sites také udržuje data zákazníků stále aktuální díky připojení a aktualizaci dat na datové zdroje ve firemních prostorech. Nové možnosti dotazování v přirozeném jazyce - umožňují zákazníkům klást otázky a dostávat odpovědi. Jednoduše napíšete dotaz do dialogového okna a systém je interpretuje a automaticky generuje interaktivní tabulky a grafy na základě dostupných dat. Propojená BI zkušenost - nativní aplikace pro Windows 8, Windows RT a iPad pro spojení se svými dokumenty v terénu, stejně jako podpora HTML5 pro používání BI na jakémkoliv zařízení.
39
Nástroje PowerPivot a Power View jsou také k dispozici v SharePoint serveru 2013, jemuž je věnovaná samostatná kapitola níže. V následujících podkapitolách jsou popsány podrobné charakteristiky a klíčové vlastnosti jednotlivých self-service BI nástrojů.
5.1. PowerPivot Jak již bylo zmíněno, PowerPivot slouží k analyzování velkého množství dat a zobrazení přehledných a interaktivních reportů s těmito daty. Práce s PowerPivotem je velmi podobná práci v Excelu. Před nástupem nových nástrojů jako PowerPivot, Power View a dalších sloužila k analýze dat pouze kontingenční tabulka. Kontingenční tabulky umožnily organizaci dat do řádků a sloupců a využít několik dimenzí. To poskytlo možnost vytvářet zajímavé reporty a porovnávat sledované veličiny. Kontingenční tabulky zobrazují data uložená přímo v tabulkách listů sešitů Excelu. Při použití nástroje PowerPivot prezentuje kontingenční tabulka hodnoty datového modelu PowerPivotu. PowertPivot si v paměti vytváří vlastní databázi pro rychlejší přístup.
Používání dat v PowerPivotu a v běžném Excelu se od sebe liší. PowerPivot neumožňuje použít různé typy dat v jednom sloupci, ale nabídka datových typů je v PowerPivotu širší (integer, real, měna, boolean, datum).
5.1.1
Verze a kompatibilita
První verze PowerPivotu byla jako doplněk pro Excel 2010 a byla zdarma ke stáhnutí na internetu. Nejnovější verze PowerPivotu je zabudována již jako součást programu Excelu 2013, ale jen v nejdražší verzi Professional Plus. Od října 2013 je také v samostatně prodávaném MS Excelu. Datové modely PowerPivotu nejsou zpětně kompatibilní a starší verze Excelu 2010 se musí převádět na novější verzi Excelu 2013. Jednotlivé verze se také liší limity maximálně dostupné operační paměti a diskového prostoru. Zatímco ve verzi Excelu 2013 je velikost operační paměti a použitelného diskového prostoru dána fyzickými omezeními počítačového hardwaru, ve verzi Excel 2010 jsou nastavena omezení pro operační paměť na 4 GB načtených dat a velikost diskového prostoru na 2 GB dat.
40
5.1.2
Klíčové vlastnosti PowerPivotu
Klíčové vlastnosti PowerPivotu lze shrnout v následujících bodech, přičemž některé vlastnosti bude ještě detailně rozebrány v dalších částech této práci:
Jíž zmiňovaná podobnost s programem Excel. Což přináší výhody pro mnoho uživatelů. Využívá stejné nástroje jako např. kontingenční tabulka, kontingenční graf anebo Průřezy.
Velmi rychlý. Díky nástroji X-Velocity dokáže velmi rychle analyzovat miliony vstupních řádků.
Práce s velkým množstvím dat. Zatímco Excel 2010 bez doplňku PowerPivot umožnuje pracovat s tabulkou o milionu řádků, PowerPivot umožnuje pracovat až s bilion řádky a to díky nástroji X-Velocity.
Umí vytvářet datový model. Mezi jednotlivými tabulkami vytváří vztah na základě cizích a primárních klíčů.
Podpora různých datových zdrojů. V PowerPivotu lze natáhnout data ze všech zdrojů jaké jsou SQL server, Excel, Textový soubor, Internet a podobně. Více bude popsány v části „Datový zdroj“.
Používá nový výkonný jazyk DAX (Data Analysis Expressions).
Integrace s Sharepointem jak již bylo uvedeno.
X-Velocity (vertipaq) PowerPivot využívá pro analýzu nástroj pojmenovaný X-Velocity. který se dříve jmenoval Vertipaq (k přejmenování došlo v rámci vydání nového SQL serveru 2012, dne 7.03.2012). Relační databází a x-Velocity je sloupcově orientovaná, relační databáze OLAP je řádkové orientovaná. Pro lépe pochopení je uvedeno následující příklad v tabulkách. Relační databáze Jméno zaměstnance
Titul
Plat
Funkce
Pavel
Ing.
30 000
Analytik
Karel
Bc.
28 800
Programátor
Martin
Ing.
35 400
Vedoucí
Tab. 4 Tabulka v OLAP databázi (Dhanumjay 2011)
41
X-Velocity Jméno zaměstnance
Pavel
Karel
Martin
Titul
Ing.
Bc.
Ing.
Plat
30 000
28 800
35 400
Funkce
Analytik
Programátor Vedoucí
Tab. 5 Tabulka v databázi xVelocity (Dhanumjay 2011)
5.2. Analýza dat s PowerPivotem K analýze dat s PowerPivotem a dalšími self-sevice nástroji byla použita reálná data z bankovní instituce. Citlivá data byla anonymizována a některé číselné hodnoty byly pozměněny. Původně se jednalo o jednu velkou tabulku vhodnou k analýze pro kontingenční tabulku a graf. Celou tabulku jsem rozdělila do několika samostatných tabulek, abych na nich mohla demonstrovat datové modelování a některé další zajímavé vlastnosti self-service BI. V následujícím textu popíši jak pracovat s aplikací Power Pivot. Začínáme vždy v horní liště aplikace PowerPivot (Obr. 14):
Obr. 14 Horní lišta PowerPivotu (Autorka)
Kliknutím na tlačítko „Manage“ neboli „Okno PowerPivot Spustit“ se otevře okno s nástroji PowerPivot (Obr.15).
42
Obr. 15 Okno PowerPivotu (Autorka) PowerPivot podporuje velké množství datových zdrojů. Lze importovat následující zdroje dat (Russo a Ferrari 2010)
relační databáze
SQL server
Soubor MS Access
Microsoft SQL Azure
Oracle, IBM, Teradata, Sybase, Informix, IBM DB 2, …
datové kanály:
sestava - umožňuje importovat data ze sestavy služby Microsoft SQL server reporting services
služba Azure DataMarket - umožňuje načíst bezplatné a komerční data od různých poskytovatelů obsahu
ostatní informační kanály
multidimenzionální zdroje: Microsoft Analysis Services
textové soubory: csv, txt, apod.
43
5.2.1
Import dat do PowerPivotu
Import dat probíhá přes nabídku „Načíst externí data“ v okně PowerPivotu. Po stisknutí tlačítka “Další“ se nám načtou vybraná data a následně můžeme vybrat jednotlivé tabulky, které chceme importovat (Obr. 16). Nejenom, že můžeme importovat různorodá data, také můžeme importovat data z několika různých zdrojů, jak již bylo popsáno. Než načteme data, můžeme se pomocí funkce „Preview & Filter“ podívat do struktury jednotlivých tabulek, anebo můžeme vyhledat relaci na konkrétní tabulku pomocí „Select Related Tables“.
Obr. 16 Výběr tabulky Po dokončení výběru se nám zobrazí průběh importu (Obr.17). Ve statkových řádcích vidíme počty řádků k jednotlivým tabulkám.
44
Obr. 17 Průběh importu Nyní máme v okně powerPivotu načtená data (Obr.18). Můžeme také načíst jakoukoliv otevřenou tabulku v sešitu MS Excel přes ikonu „Add to Data Model“ na kartě PowerPivot. V dolní liště okna se zobrazují jména jednotlivých tabulek s počtem záznamů v tabulce. V našem případě máme 626 934 řádků dat.
Obr. 18 Okno PowerPivotu s načtenými daty
45
Následně můžeme data analyzovat pomocí kontingenční tabulky nebo vizualizovat v grafu (Obr. 19).
Obr. 19 Definice kontingenční tabulky
Pokud data obsahují mnoho tabulek, které mají uvnitř příliš mnoho sloupců, je pak velmi nepřehledné orientovat se ve Field listu.
Proto je užitečné nejprve skrýt co nejvíce
nepotřebných sloupců ve zdrojové tabulce. Stačí příslušné sloupec označit a pravým tlačítkem myši vybrat „Hide from Client Tools“ (Obr.20 ).
Obr. 20 Skrytí neužitečného sloupce
46
5.2.2
Modelování v PowerPivot
Modelování dat v PowerPivotu je velmi jednoduché a umožnuje slučovat různé zdroje dat, nastavit časovou dimenzi a vytvářet hierarchii v datovém modelu. Po kliknutí na „Diagram View“ v pravém horním rohu okna PowerPivotu (Obr. 21) se zobrazí jednotlivé tabulky dohromady na jedné ploše a pomocí myši můžeme vytvářet vztahy mezi jednotlivými tabulkami. Pokud máme data načtena do Field listu a nemáme vytvořené vztahy mezi jednotlivými tabulkami, po natáhnutí údajů z různých tabulek do příslušných polí, se objeví upozornění, že je potřeba vytvořit relaci mezi vybranými tabulkami.
Obr. 21 Diagram View V našem případě máme faktovou tabulku F_Splatky, která obsahuje různé ekonomické ukazatele (Obr. 22 ). Sledované ekonomické ukazatelé jsou: Castka_Schvaleny_limit - Do jaké částky může klient čerpat Castka_jistina_nesplacena - Kolik klient v tomto okamžiku dluží Castka_budouci_cerpani_ocekavane - Kolik klient ještě chce vyčerpat (jistina + čerpání mohou být stejné nebo nižší než schválený limit, nikdy by neměla být vyšší) Castka_uroky_aktulni_rok - Úroky pro dané období Castka_pojisteni_uveru - Měsíční poplatek pojištění úvěru Castka_mimoradna_splatku -Kolik klient v daném měsíci splatil nad rámec řádných splátek Castka_Splatka_mesicní - Obvyklá měsíční (řádná) splátka Castka_zajisteni_hodnota - Cena zajištění (nemovitosti) Sazba_celkem - Aktuálně platná sazba úvěru Sazba_marze - Marže aktuální sazby Sazba_fixace - Délka platnosti aktuální sazby v měsících (12 = 1 rok, 36 = 3 roky, 60 = 5 let).
47
Obr. 22 Datový model v PowerPivot
5.2.3
Tvorba hierarchií v datovém modelu
Vytváření hierarchií v datovém modelu je velmi jednoduché. Lze ho vytvářet bud kliknutím na ikonu v levým horním liště v příslušném dimenzí v Data View a nebo pravým tlačítkem na příslušném dimenzi vybrat funkci „Create Hierarchy“. Pro náš příklad můžeme vytvořit hierarchií například na dimenzích datumu (Obr.23 ).
Obr. 23 Tvorba hierarchie 48
Funkce Related() Tato funkce má stejnou vlastnost jako SVYHLEDAT v Excelu, ale zápis funkce je mnohem jednodušší. Umožňuje dosazovat příslušné hodnoty ze sloupce jiné tabulky, s kterou má již vytvořenou relaci. Nepotřebnou tabulku pak celou skryjeme, aby se nám nezobrazovala v kontingenční tabulce. Tuto funkci lze demonstrovat na tabulkách D_Zakaznik a D_Okres. Tabulka D_Zakaznik obsahuje primární klíče tabulky D_Okres. Pokud chceme údaje o zákaznících analyzovat geograficky dle okresu, můžeme natáhnout sloupec obsahující jednotlivé okresy z tabulky D_Okres do tabulky D_Zakaznik pomoci funkce Related(). V tomto případě již nepotřebujeme při analýze v kontingenční tabulce zobrazovat tabulku D_Okres a můžeme ji skrýt. Nový vypočítaný sloupec má tvar: =RELATED(D_Okres[Okres]).
Vytváření časové dimenze Původní jediná tabulka obsahovala několik sloupců tykající se datumu: Datum_extraktu - Vždy ultimum měsíce Datum_schvaleni - 1. fáze úvěru (kdy byl úvěr schválen bankou) Datum_podpisu - 2. fáze úvěru – (kdy klient úvěr podepsal) Datum_ukonceni_uctu - Poslední fáze úvěru (kdy byl úvěr ukončen, řádně nebo mimořádně splacen a odpuštěn apod.) Datum_pristi_zmeny_sazby - Kdy proběhne nejbližší změna sazby.
Každý z uvedených sloupců má jiný význam, a proto nebylo možné vytvořit jednu časovou dimenzi. Proto vytvářím pět samostatných tabulek s časovou dimenzí napojených k faktové tabulce. Jednotlivé tabulky obsahují sloupec ve tvaru „měsíc.den.rok“. Pokud chceme analyzovat data podle roku, měsíce, dne, kvartálu je nutné vytvářet vypočítané sloupce pro každou z těchto hodnot. Pro vypočítané sloupce v tomto příkladu jsem použila následující výrazy: Rok: =YEAR([Datum]) Kvartál: =INT(([Month]+2)/3) Měsíc: =MONTH([Datum]) Měsíc název: =FORMAT([Datum],"mmmm")
49
5.2.4
Vypočítaný sloupec
S pomocí vypočítaných sloupců můžeme přidávat nově výpočítaná data do tabulek v PowerPivotu. Vytvoříme je kliknutím na sloupec „Add Column“, který je na konci každé tabulky v PowerPivotu (Obr. 24). V našem případě vytvoříme sloupec, který vypočítá poměr dluhu klienta k hodnotě zajištění dluhu (zástavní ceně nemovitosti) a
pojmenujeme ho
PomerDluhu_a_hodnotyZajisteni.
Obr. 24 Přidání sloupce
Vzorec pro tento sloupec: =([Castka_jistina_nesplacena]/[Castka_zajisteni_hodnota]) Následně můžeme tento sloupec použít v kontingenční tabulce, v grafech a v nástrojích PowerView jako každý jiný sloupec. S použitím vypočítaného sloupce můžeme také nahradit vysvětlujícím textem na první pohled nesrozumitelné hodnoty. V datovém modelu máme tabulku D_Stav, která obsahuje následující sloupce: Stav_Aktivni_uver - Zda je úvěr stále aktivní. Stav_Novy_uver - Příznak pro nově schválený úvěr v daném měsíci extraktu Stav_refixace - Příznak pro úvěry, které v daném měsíci extraktu refixovaly (byla jim změněna sazba) Tyto sloupci obsahují hodnoty 0 a 1, kde 0 znamená Ne a 1 znamená Ano. Pro použití těchto hodnot v analýze pak můžeme tyto hodnoty nahradit srozumitelným textem. Vytvoříme tedy v tabulce D_Stav nově vypočítané sloupce (Obr.25 ). Vzorce pro tyto sloupce vypadají následovně: Aktivni_Uver: =IF(D_Stav[Stav_Aktivni_uver],"ANO","NE") Novy_uver: =IF(D_Stav[Stav_Novy_uver],"ANO","NE")
50
Refixace: =IF(D_Stav[Stav_refixace],"ANO","NE")
Tyto vzorce vrací hodnoty „ANO“ / „NE“ dle vstupních hodnot 1 / 0. Protože již nepotřebujeme původní sloupce, můžeme je opět skrýt pomocí pravého tlačítka myši přes funkci „Hide from Client Tools“.
Obr. 25 Nově vypočítané sloupce
Existuje ještě další způsob jak nahradit nesrozumitelné hodnoty vysvětlujícím textem a to pomocí změny datového modelu. Vytvoříme novou tabulku v Excelu s popisnými údaji, kterou pak napojíme přes relaci se stávajícím datovým modelem. Na ukázku vytvoříme novou tabulku „Aktivni_uver“ v sešitu Excelu (Obr. 26), kde budou dva sloupce. Sloupec „Aktivni_uver“ bude obsahovat nové názvy pro hodnoty 0 a 1. Aby bylo možné načíst data z této nové tabulky, předáme ji do datového modelu pomocí funkce „Add to data model“ na kartě PowerPivot. A teď zbývá pouze dodefinovat relaci mezi tabulkami „Stav_Aktivni_uver“ a „Aktivni_Uver“.
51
Obr. 26 Nová tabulka „Aktivní úvěr“
Dále vytvoříme další vypočítané sloupce, které pak využijeme k výpočtu průměrné vážené sazby a marže čerstvě schválených úvěrů a průměrné vážené sazby a marže aktuální nesplacené jistiny:
JistinaNesplacena_x_Urok: =[Sazba_celkem]*[Castka_jistina_nesplacena]
JistinaNesplacena_x_Marze: =[Sazba_marze]*[Castka_jistina_nesplacena]
SchvalenyLimit_x_Urok: =[Sazba_celkem]*[Castka_Schvaleny_limit]
SchvalenichLimit_x_Marze: =[Sazba_marze]*[Castka_Schvaleny_limit]
Vypočítané pole Vypočítané pole se v dřívějších verzích jmenovalo jako míry a nejčastěji se využívá v oblasti Values kontingenční tabulky nebo kontingenčního grafu. Hodnoty vypočítané pole se mění podle výběru dat v řádcích, a ve filtrech, čímž umožnuje analyzovat data ad-hoc. Vypočítané pole jsou implicitní nebo explicitní. Implicitní pole se v Excelu vytváří automaticky, jakmile přetáhneme částky do oblasti Values (Hodnoty) v seznamu Pole kontingenční tabulky nebo grafu a používá pouze agregaci SUM, COUNT, MIN, MAX, DISTINCTCOUNT nebo AVG. Explicitní pole se vytváří bud v buňce v oblasti výpočtu v PowerPivotu (Obr. 27) a nebo přes „Calculated Fields“ na kartě PowerPivot (Obr. 28 ) a lze v něm definovat vlastní vzorec.
52
Obr. 27 Calculated Fields
V našem příkladu použijeme vypočítané pole pro výpočet průměrné vážené sazby a marže nesplacené jistiny a čerstvě schválených úvěru. Průměrná Vážená sazba nesplacené jistiny: =SUM([JistinaNesplacena_x_Urok])/SUM([Castka_jistina_nesplacena])
Průměrná Vážená Marze nesplacené jistiny: =SUM([JistinaNesplacena_x_Marze])/SUM([Castka_jistina_nesplacena])
Průměrná Vážená Sazba Čerstvě schválených úvěru: =SUM([SchvalenyLimit_x_Urok])/SUM([Castka_Schvaleny_limit])
Průměrná Vážená Marže a Čerstvě schválených úvěru: =SUM([SchvalenichLimit_x_Marze])/SUM([Castka_Schvaleny_limit])
Obr. 28 Výpočet explicitního pole
Explicitní vypočítaná pole můžeme pak použít ve všech kontingenčních tabulkách a grafech v sešitech Excelu a v Power View. Lze ho využít i na klíčové indikátory výkonu.
53
5.2.5
DAX
DAX (Data Analysis Expression) je nový jazyk pro tvorbu vzorců a umožňuje uživateli definovat si vlastní výpočty v tabulkách PowerPivot. Nástroj PowerPivot tvoří jeden ze základních pilířů řešení společnosti Microsoft pro technologii self-service BI. Tento nástroj nabízí hlavní výhodu vycházející z technologie selfservice BI, a to z možnosti analýzy dat libovolným uživatelem bez nutnosti zapojení IT oddělení, na které zbývají pouze nutné úkoly správy databází a datových skladů. PowerPivot je doplněk aplikace Microsoft Excel a zároveň se jedná o službu na platformě SharePoint Server. Ve srovnání s běžnými funkcemi MS Excelu poskytuje PowerPivot vyšší výkonnost práce s výrazy, díky umístění analyzovaných dat do paměti počítače (tzv. in-memory analýza dat). Obchází tím nutnost zpracovávat data v běžném relačním uspořádání jako je tomu u kontingenčních tabulek. Sloupce s daty jsou v paměti uchována v databázové struktuře, která má kromě vyšší rychlosti možnost vytvářet komplexní datové struktury s relacemi mezi tabulkami. Díky tomu pracuje efektivněji s velkými objemy dat, které by MS Excel běžným způsobem nezvládl. Tato výhoda také podporuje možnost kombinace více zdrojů dat, ze kterých se vytvářejí reporty a další analytické výstupy. PowerPivot umožňuje pracovat efektivněji s vypočítanými poli. Na rozdíl od sloupce s vypočítanými hodnotami, které jsou počítány z hodnot konkrétního řádku, se vypočítaná pole počítají z celé kontingenční tabulky a přidávají se do kontingenční tabulky nebo grafu jako celek. Vypočítaná pole se pak mění se změnou filtrů a popisků kontingenční tabulky. (Microsoft 2014)1 Vlastní výpočty v tabulkách PowerPivot a v kontingenčních tabulkách (PivotTables) aplikace Microsoft Excel umožňuje uživateli při tvorbě vzorců definovat jazyk DAX (Data Analysis Expressions). Jazyk DAX připomíná jazyk MDX využívaný v analytických službách MS SQL Server 2012. Je to prolnutí jazyka MDX některých funkcí používaných ve vzorcích aplikace Excel. Další funkce jazyka DAX jsou navržené pro práci s relačními daty a pro provádění dynamických agregací. Tento jazyk je knihovnou funkcí a operátorů, které lze v aplikaci kombinovat za účelem vytváření vzorců a výrazů nad relační databázovou strukturou uloženou v PowerPivotu. Při vytváření vzorců s jazykem DAX se tedy pracuje s názvy tabulek a jejich atributů namísto odkazů na buňky a jejich rozsahy.
1
Tato kapitola vychází především z webového zdroje společnosti Microsoft. V následujícím textu jsou
uváděny jen odlišné zdroje.
54
Vzorce jazyka DAX se tedy značně podobají vzorcům aplikace Excel. Před funkci nebo s argumenty jazyka DAX se stejně jako při zadávání vzorců v Excelu zadává symbol "=" rovná se. Podobně jako aplikace Excel má také jazyk DAX mnoho typů funkcí (matematické textové, statistické atd.). Na rozdíl od funkcí Excel však funkce jazyka DAX:
odkazují na celé sloupce nebo tabulky namísto odkazů na jednotlivé hodnoty nebo rozsahy hodnot
pro přístup k jednotlivým hodnotám musí použít filtry nebo další funkce
vrací jako výsledek celou tabulku namísto jedné hodnoty a při použití této hodnot jako parametru pro další funkci lze vypočítat hodnoty pro celé tabulky nebo sloupce
umožňují vytvářet výpočty časových rozsahů a porovnat výsledky paralelních období
Funkce jazyka DAX pracují s kontextem, vypočítanými sloupci a vypočítanými poli. Kontext jazyka DAX určuje, na jaké množině dat se bude provádět výpočet určený vzorcem. Na základě kontextu se mohou provádět dynamické analýzy, ve kterých se výsledky vzorců mohou změnit na změnou zvoleného řádku nebo buňky. Jsou tři typy kontextů, kontext řádku, kontext dotazu a kontext filtru. U vypočítaného sloupce se kontext řádku skládá z hodnot v jednotlivých řádcích a hodnot ve sloupcích souvisejících s aktuálním řádkem. Kontext dotazu označuje podmnožinu dat, která přísluší každé buňce kontingenční tabulky na základě aktuálního záhlaví řádků a sloupců. Kontext filtru umožňuje omezit hodnoty povolené ve sloupcích na základě filtru řádku nebo dotazu. Vypočítaný sloupec definuje hodnotu pro jednotlivé řádky hodnot souvisejících se sloupcem, nelze nastavit odkazy na jiné řádky nebo pracovat s více řádky, protože pracuje s kontextem jednoho řádku. Vypočítaná pole se vypočítávají na základě hodnot celé kontingenční tabulky a mění se na základě změny jejích filtrů a popisků. Jazyk DAX nabízí následující funkce:
data a času
filtrovací
informační
55
logické
matematické a trigonometrické
statistické
textové
Při výpočtech v jazyku DAX se také používají některé operátory. Jejich seznam obsahuje následující tabulka. Podporované operátory se podobají operátorům v MS Excelu.
Typ operátoru
Operátor
Význam
aritmetický
+ * / ^ = > < >= <= <> & && || !
sčítání odčítání násobení dělení mocnina je rovno je větší je menší je větší nebo rovno je menší nebo rovno není rovno zřetězení dvou textových hodnot podmínka AND mezi výrazy podmínka OR mezi výrazy negace výrazu
relační
textový logický
Tab. 6 Přehled operátorů jazyka DAX (Zdroj: Microsoft 2014) Výsledek operátorů může být těchto datových typů:
celé číslo (Integer)
reálné číslo (Real)
měna (Currency)
datum, čas (DateTime)
bolean
56
5.3. Power View Power View je nástroj pro návrh dashboardů, který umožňuje self-service business intelligence. Power View je novinkou v oblasti vizualizace analýz. Nástroj Power View je nástroj pro interaktivní zkoumání, vizualizaci a prezentaci dat, který rozšiřuje možnosti vytváření interaktivních ad-hoc sestav. Nástroj Power View je funkce Microsoft Excelu 2013 a Microsoft SharePoint Serveru 2010 a 2013 v rámci doplňku SQL Server 2012 SP1 Reporting Services pro Microsoft SharePoint Server Enterprise Edition. Poslední verze PowerView z Excelu 2013 zahrnuje mimo jiné možnosti:
koláčové grafy (pie charts)
mapy
hierarchie
drill up a drill down
formátování reportů
volba pozadí
odkazy (hyperlinks)
tisk
podpora jazyků "zprava doleva"
Pro vizualizaci dat v nástroji Power View řadu objektů, tabulky a matic, různé typy grafů (výsečové, pruhové a bublinové) a jejich sady. Tabulku lze vytvořit přetažením pole ze seznamu polí do zobrazení. Tabulka se převádí na jiné objekty výběrem typu objektu na kartě Design. Pokud nástroj Power View nerozezná v seznamu polí agregované číselné hodnoty, není možné vybrat žádné grafy. Nástroj Power View nabízí různé možnosti filtrování dat na základě relací mezi různými tabulkami a poli v sešitu. Tyto filtry lze použít jen na část zobrazovaných objektů nebo pro všechny objekty v sešitu nebo v dashboardu. Základní obrazovku nástroje Power View ukazuje následující obrázek.
57
Obr. 29 Nástroj Power View (Autorka) Nástroj Power View poskytuje mnoho možností zobrazení klíčových ukazatelů a dalších objektů. Příklady využití různých typů grafů (zde sloupcový a koláčový) pro zobrazení vývoje klíčových ukazatelů nabízejí následující dva obrázky.
Obr. 30 Power View - sloupcový graf vývoje klíčových ukazatelů (Autorka)
58
Obr. 31 Power View koláčový graf vývoje klíčových ukazatelů (Autorka)
5.4. Power Map Nástroj Power Map je rozšířením MS Excelu, které umožňuje zkoumat novým způsobem data na geoprostorových mapách ve 3D. Power Map vykresluje geografická data na 3D globusu. Tento nástroj umožňuje vytvořit grafy propojené s mapami. Příklady použití nástroje Power Map ukazují geografické rozmístění dvou ukazatelů na následujících dvou obrázcích.
Obr. 32 Power Map - geografické zobrazení průměrné výše zajištění (Autorka)
59
Obr. 33 Power Map - geografické zobrazení průměrné výše zajištění (Autorka)
5.5. Power Query Microsoft Power Query rozšiřuje možnosti self-service business intelligence (BI) v Excelu. Tento nástroj umožňuje intuitivní a konzistentní objevování, kombinování a rafinaci dat z různých zdrojů včetně relačních, strukturovaných i semi-strukturovaných, webů a dalších. Power Query nabízí i možnost vyhledávat ve veřejných zdrojích dat jako Wikipedie. Dotazy vytvořené v Power Query lze sdílet uvnitř organizace. Uživatelé v podniku mohou vyhledat a použít tyto sdílené dotazy a využít je pro svou analýzu dat a vytváření reportů. Nástroj Power Query umožňuje:
vyhledat a propojit data z rozsáhlé skupiny zdrojů
sloučit datové zdroje pro potřeby datových analýz a modelování v dalších nástrojích jako Power Pivot a Power View
vytvořit uživatelský pohled na data
provádět čištění dat
60
posílat data do nástroje Power Pivot z nových datových zdrojů jako XML, Facebook apod.
sdílet dotazy a vyhledávat data uvnitř organizace
Do široké nabídku dostupných datových zdrojů patří: weby, soubory Excel a CSV, soubory XML, textové soubory, databáze SQL, MS Azure SQL, Access, Oracle, IBM DB2, MySQL, PostgreSQL, Sybase, Teradata, dále SharePoint List, Active Directory, MS Exchange, Facebook, a některé další.
6. SharePoint Server Pomocí SharePoint serveru lze vytvářet mnoho typů webů, které umožňují spolupráci na webových stránkách, dokumentech, seznamech, kalendářích a datech. Kromě toho poskytuje další funkce jako správa podnikového obsahu, business intelligence, podnikové vyhledávání, osobní weby a informační kanály. (Microsoft 2014)2 SharePoint umožňuje snadný přístup k informacím kdykoli a z jakéhokoli místa, jak je patrné ze schématu na následujícím obrázku.
Obr. 34 Sharepoint (Withee, 2009)
2
Tato kapitola vychází především z webového zdroje společnosti Microsoft. V následujícím textu jsou
uváděny jen odlišné zdroje.
61
Prvními vstupy do SharePointu, které se po přihlášení objeví, jsou odkazy Informační kanál (Newsfeed), OneDrive a Weby (Sites). Základní funkcí je vytváření webů, které umožňuje ukládání, uspořádání a sdílení informací včetně jejich zabezpečení. Přístup k těmto informacím je možný téměř z jakéhokoliv zařízení využitím některého z webových prohlížečů. Díky komunikačnímu kanálu lze neustále komunikovat s kolegy a upravovat činnosti za běhu. Prostřednictvím OneDrive pro firmy lze sdílet s kolegy osobní dokumenty. V neposlední řadě patří ke službám SharePoint serveru analytické nástroje pro podnikání. SharePoint server umožňuje týmovou spolupráci nad důležitými informacemi organizace. První verze z roku 2001 v sobě integrovala intranet, správu obsahu a správu dokumentů. SharePoint má uživatelské rozhraní podobné Microsoft Office, což usnadňuje jeho ovládání zejména pro běžného uživatele. V současné době aktuální verze z dubna 2014 nese označení Microsoft SharePoint Server 2013 Enterprise SP1. Platforma SharePointu serveru stojí na n-vrstvé servisně orientované architektuře. Jednotlivé aplikace běží samostatně jako služby poskytované skrze platformu SharePointu. Pro spuštění SharePoint serveru se všemi službami je potřeba tyto hardwarové prostředky:
64-bitový čtyř-jádrový procesor
24 GB operační paměti RAM
80 GB na systémovém disku
SharePoint Server poskytuje následující služby:
intranetové portály
správa dokumentů
týmová spolupráce
sociální sítě
extranety
webové stránky
systémová integrace
integrace procesů
automatizace workflow
rozšířené a vylepšené vyhledávání
business intelligence
dashboardy
služby Microsoft Office Access, Visio, Excel a Infopath Forms
PowerPivot
62
PerformancePoint
Pro podporu kvalitnějších obchodních rozhodnutí slouží zejména služba PerformancePoint Services s možnostmi monitorování a analýzy podnikových dat. Pomocí této služby je možné sestavit business intelligence dashboardy obsahující výstupy BI, reporty a filtry. Data lze získat kombinací několika zdrojů, vytvořené reporty lze přizpůsobit pro konkrétního uživatele. Produkt Microsoft PerformancePoint vznikl jako řešení business intelligence, resp. CPM, v roce 2007. Původně se jednalo o samostatný server pod názvem Microsoft Office PerformancePoint Server 2007. Architekturu integrovaného BI řešení s PerformancePoint Server 2007 ukazuje (Obr. 35).
Obr. 35 Architektura integrovaného BI řešení Microsoft PerformancePoint Server 2007 (Zdroj: (Microsoft 2014))
63
Vývoj tohoto serveru byl v roce 2009 ukončen, ale funkce vytváření dashboardů, klíčových ukazatelů výkonnosti (KPI), přehledů výkonnostních metrik (scorecardů), analytických grafů a tabulek, reportů a filtrů byly zahrnuty pod názvem PerformancePoint Services do serveru Microsoft SharePoint Server 2010 Enterprise a také do novější verze Microsoft SharePoint Server 2013 Enterprise. Jako součást SharePoint serveru jsou PerformancePoint Services samozřejmě navrhnuty pro sdílení. Služba tedy ohlídá, kdo se na dashboardy dívá a co smí vidět. Rozšířenou architekturu PerformancePoint Services na platformě SharePoint Server 2013 ukazuje následující obrázek.
Obr. 36 Rozšířená architektura PerformancePoint Services na platformě SharePoint Server 2013 (Zdroj: (Microsoft 2014))
64
Hlavním posláním PerformancePoint Services je tedy poskytnout ucelený přehled o výkonnosti podniku na všech úrovních za použití kontextových dashboardů, které agregují data a obsah. PerformancePoint Services 2013 přinesly několik zajímavých změn. Patří k nim vytváření motivů s vlastními obrázky na pozadí, rozšířené filtrování, vyhledávání položek pomocí filtrů, použití efektivního uživatelského jména, přizpůsobení centra BI (BI Center) a pásu nabídky (ribbon) a možnost přesunutí celých dashboardů na jiné SharePoint servery. Uživatelé mohou sledovat důležité informace prostřednictvím BI dashboardu, diskutovat o nich a využít přehledy měřítek výkonnosti (scorecard) a sociální funkce pro lepší rozhodnutí. Mezi klíčové vlastnosti služby PerformancePoint patří dále:
tvorba integrovaných dashboardů, které obsahují reporty a scorecardy přizpůsobené pro monitorování
podpora spolupráce prostřednictvím doporučování reportů a autorů, označení (tagování) oblíbených dokumentů a knihoven, zřizování blogů a osobních stránek pro diskuze
Vytváření dashboardů patří do celé skupiny nástrojů řízení výkonnosti neboli do oblasti Corporate Performance Managementu, která je přirozenou evolucí Business Intelligence. Corporate Performance Management je označován jako další vývojový stupeň Business Intelligence. CPM jsou „metodologie, metriky, procesy a systémy, které sledují a řídí výkonnost podniku.” (Gartner 2014) Data vytvořená v rámci Business Intelligence potřebují být dána do kontextu. Typickým bývá srovnání s minulým obdobím nebo srovnání skutečného a plánovaného stavu vývoje podniku. (Moncla 2003) Mezi nástroje CPM podporované SharePoint serverem patří (ECKERSON 2005):
Business intelligence
Dashboardy
Reporting
KPI
65
6.1.1
Tvorba dashboardů
Dashboardy zejména prezentují získané výsledky analýz dat z podnikového BI oprávněným uživatelům. Dashboard je kolekcí pohledů umístěných ve webovém prohlížeči pro okamžité zobrazení informací podle potřeb konkrétního uživatele. Tyto pohledy umožňují:
procházet hierarchií dat
filtrovat data
otevírat reporty
exportovat reporty do aplikací MS Excel a MS PowerPoint
tisknout dashboardy a reporty
Dashboardy nabízejí aktuální a interaktivní pohledy díky neustálému propojení se zdroji dat, která prezentují. Pro vytváření dashboardů slouží ve službě PerformancePoint Services nástroj Dashboard Designer (Návrhář řídících panelů). Uživatelské rozhraní nástroje je rozděleno do čtyř částí: 1)
pás nabídky (ribbon)
2)
prohlížeč pracovního prostoru (Workspace Browser)
3)
oblast pro vytváření, úpravu a prohlížení obsahu dashboardu
4)
oblast pro výběr položek dashboardu
Rozdělení ukazuje následující obrázek:
Obr. 37 Uživatelské rozhraní nástroje Dashboard Designer (Zdroj: Microsoft 2014)
66
Položky dashboardu, které lze použít, spolu s vyobrazením jejich ikon ukazuje následující tabulka. Ikona
Položka dashboardu dashboard zdroj dat filtr indikátor KPI report scorecard
Tab. 7 Položky obsahu dashboardu a jejich zobrazení (Zdroj: Microsoft 2014) Mezi položky dashboardu tedy patří:
zdroje dat (Data source) – umožňují definovat datová připojení, s kterými pracují ostatní položky dashboardu
indikátory – definují grafický vzhled pro zobrazení ukazatelů KPI
ukazatele KPI – umožňují definovat měřítka (Blank KPI) a jejich cílové hodnoty (Objective)
scorecardy – zobrazují přehled ukazatelů KPI
reporty – analytická část dashboardů obsahující analytické grafy (Analytic graph) a tabulky (Analytic grid)
dashboardy – umožňují sestavovat předchozí položky (scorecardy, reporty) do pohledů podle svého účelu a prezentovat informace konkrétním uživatelům
Ještě před samotným vytvářením dashboardů je vhodné jeho naplánování. Mezi hlavní kroky plánování dashboardů v PerformancePoint Services patří : 1) identifikace uživatelů a informací, které potřebují 2) ověření dostupnosti potřebných dat 3) výběr vhodných položek dashboardu pro prezentaci informací (typ reportu, scorecard) 4) výběr vhodných filtrů pro zobrazení jednotlivých položek dashboardu 5) nakreslení náčrtku rozložení dashboardu pro jeho komunikaci s uživateli
67
Nástroj Dashboard Designer otevřeme následujícím způsobem:
stiskneme menu Site Contents
vybereme webovou část (Web Part) PerformancePoint Content
zvolíme položku new item
Nástroj Dashboard Designer se spustí na záložce Home, jak je vidět na dalším obrázku.
68
Obr. 38 Záložka Home nástroje Dashboard Designer (Zdroj: autorka)
Obr. 39 Datové zdroje v nástroji Dashboard Designer (Zdroj: autorka)
69
Tvorba dashboardů začíná výběrem datových zdrojů, se kterými se bude pracovat. Dashboard Designer nabízí dva typy datových zdrojů, multidimenzionální a tabulární. K multidimenzionálním datovým zdrojům se přistupuje skrze službu Analysis Services. Mezi tabulární zdroje patří Excel Services, Import from Excel Workbook, SharePoint List a SQL Server Table. Názorná ukázka dostupných typů zdrojů dat je na obr. 38 výše. Po připojení datového zdroje už je možné začít vytvářet jednotlivé položky popsané výše pro zobrazení v dashboardu. Při vytváření obsahu lze tedy použít položky, tak je vidět na obrázku níže.
Obr. 40 Vytvoření nové položky v nástroji Dashboard Designer (Zdroj: autorka)
70
Definované položky je pak možné začít přidávat do některé ze šablon pro dashboardy, které lze ještě dále upravovat. Základní šablony dashboardů ukazuje následující obrázek.
Obr. 41 Výběr dashobordu v nástroji Dashboard Designer (Zdroj: autorka)
71
7. Závěr Význam rychlého zpracování a analýzy dat roste zejména dnes, v době velkého nárůstu množství strojově generovaných dat a potřeby jejich ukládání a využití pro stále naléhavější rozhodování. Investice do technologií Business Intelligence přinášejí důležitou konkurenční výhodu. Hlavním cílem této diplomové práce bylo na základě zkoumání technologie selfservice BI identifikovat výhody self-service BI řešení oproti klasickým technologiím BI a tyto výhody prezentovat použitím nástrojů na reálných datech. První část této práce popisuje teoretickou základnu klasické technologie BI a zkoumá současné trhy a vytyčuje trendy v této oblasti. V uplynulém roce 2013 byly jako hlavní trendy v oblasti BI identifikovány rozvoj dashboardů, self-service BI, mobilní BI, využití in-memory technologie, zpracování Big Data, využívání cloudových řešení a spolupráce se sociální sítí. A tyto trendy podle společnosti Tableau Software pokračují i v roce 2014. Druhá část je této práce se věnovala právě některým z těchto "trendových" technologií, a sice Big Data a self-service BI řešení. Tato část popisuje základní principy těchto technologií jako využití in-memory technologií a použití dashboardů. Dále jsou analyzovány výhody a přínosy těchto řešení oproti klasickým technologiím BI. Self-service BI řešení jsou vhodnější pro menší rozsah dat, pro provádění jednoduchých ad-hoc reportů. Tato řešení si vystačí s omezenou funkcionalitu, díky čemu je možné je rychleji a jednodušeji implementovat a tím pádem je nasadit i za nižší cenu. Třetí část této práce analyzuje nástroje self-service BI společnosti Microsoft, a to nástroje PowerPivot s popisem nového jazyka DAX, který umožňuje provádět složité a komplexní výpočty v PowerPivotu, dále nástroje Power View, Power Map a Power Query a produkt MS SharePoint Server 2013 Enterprise a jím poskytovaná služba PerformancePoint Services a tvorba dashboardů. Následně byly vytvořeny ukázkové reporty na reálných datech z bankovnictví, které ukazují popisované výhody tohoto řešení self-service BI stanovené v předešlé části. Tím byly naplněny hlavní cíle této diplomové práce i dílčí cíl pojednat kromě řešení selfservice BI také o rysech a technologiích klasického BI řešení. Zároveň byl naplněn přínos práce ověřit výhody použití nástrojů podporujících self-service BI řešení. Ověření cílů a přínosů bylo provedeno na snadno dostupných produktech společnosti Microsoft. Tato práce je určená pro všechny čtenáře, i bez odborné IT znalosti, kteří chtějí pomocí aplikace PowerPivotu vytvářet svá vlastní BI řešení.
72
8. Seznam použité literatury VLČEK, Tomaš, 2010. fetch.pdf [online]. [vid. 18. září 2012]. Dostupné z: http://exile.felk.cvut.cz/wiki/lib/exe/fetch.php?id=teaching%3Apis&cache=cache&media=tea ching:pis:predn:a0m33pis-12.pdf DANEL, nedatováno. IS 2010 - Danel - Datovy sklad.pdf [online]. [vid. 8. květen 2014 b]. Dostupné z: http://homel.vsb.cz/~dan11/is_skripta/IS%202010%20-%20Danel%20%20Datovy%20sklad.pdf INTEGRACE, nedatováno. K integraci aplika 挀 - k-integraci-aplikaci.pdf [online]. [vid. 12. květen 2014 c]. Dostupné z: http://si.vse.cz/archive/proceedings/2004/k-integraciaplikaci.pdf ARCPLAN, 2012. Evaluating Data Quality Improvement Technologies – Part II (ETL) [online]. [vid. 14. leden 2013]. Dostupné z: http://www.arcplan.com/en/blog/tag/etl/ ATKINSON, Doug, 2014. Gartner Business Intelligence Magic Quadrant: Winners & Losers. Business Intelligence Vendors Trending in the Gartner Magic QuadrantBusiness Intelligence Solutions Review [online] [vid. 26. duben 2014]. Dostupné z: http://solutionsreview.com/business-intelligence/gartner-business-intelligence-magic-quadrant-winnerslosers-2014/ DHANUMJAY, 2011. Dhanumjay’s BI Blog: PowerPivot : X-Velocity (vertipaq) engine. Dhanumjays BI Blog [online] [vid. 23. duben 2013]. Dostupné z: http://dhanumjay999.blogspot.in/2011/12/powerpivot-vertipaq-engine.html EMC CORPORATION, 2012. Data rostou rychleji, než se očekávalo, jejich ochrana však zaostává. EMC [online] [vid. 13. duben 2013]. Dostupné z: http://czech.emc.com/about/news/press/2012/20121211-01.htm GARTNER, 2014. Magic Quadrant for Business Intelligence and Analytics Platforms. Magic Quadrant for Business Intelligence and Analytics Platforms [online] [vid. 15. březen 2014]. Dostupné z: http://www.gartner.com/technology/reprints.do?id=11QLGACN&ct=140210&st=sb HROCH, Michal a Pavel CACH, 2007. Business intelligence staví na datovém skladu. System Online [online] [vid. 23. duben 2013]. Dostupné z: http://www.systemonline.cz/businessintelligence/business-intelligence-stavi-na-datovem-skladu.htm IBARNES, 2013. Self-Service BI: Building Report Books with Microsoft Office. BlueMetal Architects [online] [vid. 1. prosinec 2013]. Dostupné z: http://blog.bluemetal.com/?p=4771 KUNZ, Martin, 2013. Power BI pro Office 365 | Computerworld.cz. Computerworld [online] [vid. 12. listopad 2013]. Dostupné z: http://computerworld.cz/ness-up-ideas/power-bi-prooffice-365-50579 LACKO, Luboslav, 2011. 1001 tipů a triků pro SQL [online] [vid. 22. únor 2013]. Dostupné z: https://www.kosmas.cz/knihy/166756/1001-tipu-a-triku-pro-sql/ 73
MICROSOFT, 2014. SQL Server Business Intelligence in Windows Azure Virtual Machines. Microsoft Developer Network [online] [vid. 12. leden 2014]. Dostupné z: http://msdn.microsoft.com/en-us/library/jj992719.aspx NOVOTNÝ, Ota, 2005. Business intelligence: jak využít bohatství ve vašich datech. 1. vyd. Praha: Grada. Management v informační společnosti. ISBN 80-247-1094-3. NOVOTNÝ, Ota, Jan POUR a SLANSKÝ, 2005. Business intelligence: jak využít bohatství ve vašich datech. 1. vyd. Praha: Grada. Management v informační společnosti. ISBN 80-2471094-3. PEOPLE AT WORK SYSTEMS, nedatováno. Business Process management. People at work systems [online] [vid. 7. květen 2014]. Dostupné z: http://www.pawsystems.com/bpm_en.htm PIRKL, David, 2004. Datové sklady. In: [online]. B.m. [vid. 22. prosinec 2013]. Dostupné z: http://datakon.vsb.cz/datakon08/d04_it_pirkl.pdf POUR, Jan, MARYŠKA, Miloš a Ota NOVOTNÝ. Business intelligence v podnikové praxi. 1. vyd. Praha: Professional Publishing, 2012. ISBN 978-80-7431-065-2. POUR, Jan, Milos MARYSKA a Ota NOVOTNÝ, 2012. Business intelligence v podnikové praxi. Praha: Professional Publishing. ISBN 9788074310652 8074310655. PŮLPÁN, Jaroslav, 2001. Dolování dat aneb Hledání skrytých souvislostí. System Online [online] [vid. 30. srpen 2012]. Dostupné z: http://www.systemonline.cz/clanky/dolovani-dataneb-hledani-skrytych-souvislosti.htm RUSSO, Marco a Alberto FERRARI, 2010. Microsoft PowerPivot for Excel 2010: Give Your Data Meaning. Pap/Dvdr edition. Redmond, Wash. : Farnham: Microsoft Press. ISBN 0735640580. ZIKMUND, Martin, 2012. Business Intelligence bez obalu a s příklady. Business Vize [online] [vid. 23. duben 2013]. Dostupné z: http://www.businessvize.cz/informacnisystemy/business-intelligence-bez-obalu-a-s-priklady
Informace o jazyce DAX (Data Analysis Expressions) - Excel [online]. [vid. 11. květen 2014]. Dostupné
z:
http://office.microsoft.com/cs-cz/excel-help/informace-o-jazyce-dax-data-
analysis-expressions-HA102838078.aspx?CTT=5&origin=HA102837767 Přehled jazyka DAX (Data Analysis Expressions) [online]. [vid. 11. květen 2014]. Dostupné z: http://technet.microsoft.com/cs-cz/library/gg399181.asp Specifikace syntaxe jazyka DAX pro doplněk Power Pivot (DAX) - Excel [online]. [vid. 11. květen 2014]. Dostupné z: http://office.microsoft.com/cs-cz/excel-help/specifikace-syntaxejazyka-dax-pro-doplnek-powerpivot-dax-HA102838353.aspx?CTT=1#_Toc319682059
74
What is PerformancePoint Services for SharePoint 2010 – And what else is it? PerformancePoint Services - Site Home - MSDN Blogs [online]. [vid. 9. květen 2014]. Dostupné
z:
http://blogs.msdn.com/b/performancepoint/archive/2011/05/17/what-is-
performancepoint-services-for-sharepoint-2010-and-what-else-is-it.aspx?Redirected=true Přehled SharePointu 2013 – softwarové funkce pro spolupráci [online]. [vid. 9. květen 2014]. Dostupné
z:
http://office.microsoft.com/cs-cz/sharepoint/prehled-sharepointu-2013-
softwarove-funkce-pro-spolupraci-FX103789323.aspx Microsoft Office PerformancePoint Server - Wikipedia, the free encyclopedia [online]. [vid. 9. květen 2014]. Dostupné z: http://en.wikipedia.org/wiki/PerformancePoint Introducing PerformancePoint Services 2013 - PerformancePoint Services - Site Home MSDN
Blogs
[online].
[vid.
9.
květen
2014].
Dostupné
z:
http://blogs.msdn.com/b/performancepoint/archive/2012/08/03/what-s-new-inperformancepoint-services-2013.aspx Business Intelligence (BI) with Sharepoint, Excel, and Excel Services [online]. [vid. 9. květen 2014]. Dostupné z: http://technet.microsoft.com/en-us/magazine/2009.02.bookbi.aspx Co je SharePoint? - SharePoint Foundation [online]. [vid. 9. květen 2014]. Dostupné z: http://office.microsoft.com/cs-cz/sharepoint-foundation-help/co-je-sharepointHA010378184.aspx Microsoft
SharePoint
[online].
2014
[vid.
9.
květen
2014].
Dostupné
z:
http://en.wikipedia.org/w/index.php?title=Microsoft_SharePoint&oldid=607586855 Už není proč čekat: SharePoint 2010 | DAQUAS [online]. [vid. 9. květen 2014]. Dostupné z: http://www.daquas.cz/articles/382-uz-neni-proc-cekat-sharepoint-2010 Create a basic PerformancePoint dashboard - PerformancePoint Dashboard Designer [online]. [vid. 10. květen 2014]. Dostupné z: http://office.microsoft.com/en-us/dashboarddesigner-help/create-a-basic-performancepoint-dashboard-HA010369176.aspx?CTT=1 Seznámení s řídicími panely PerformancePoint a jejich webovými částmi - SharePoint Server [online]. [vid. 10. květen 2014]. Dostupné z: http://office.microsoft.com/cs-cz/sharepointserver-help/seznameni-s-ridicimi-panely-performancepoint-a-jejich-webovymi-castmiHA010370245.aspx?CTT=5&origin=HA101843646
75
Creating dashboards by using PerformancePoint Dashboard Designer - SharePoint Server [online]. [vid. 10. květen 2014]. Dostupné z: http://office.microsoft.com/en-us/sharepointserver-help/creating-dashboards-by-using-performancepoint-dashboard-designerHA101730041.aspx?CTT=1 Create a plan for a PerformancePoint dashboard [online]. [vid. 10. květen 2014]. Dostupné z: http://technet.microsoft.com/en-us/library/ff535787(office.14).aspx Create a data source - PerformancePoint Server [online]. [vid. 10. květen 2014]. Dostupné z: http://office.microsoft.com/en-us/performancepoint-server/create-a-data-sourceHA010240842.aspx#BM3 Analytics Reports Using PerformancePoint Services in SharePoint 2013 [online]. [vid. 11. květen 2014]. Dostupné z: http://www.c-sharpcorner.com/UploadFile/a9d961/analyticsreports-using-performancepoint-services-in-sharepo/ Gartneer. The Gartner Glossary of Information Technology Acronyms and Terms [online]. [vid. 11.
květen
2014].
Dostupné
z:
https://www.gartner.com/6_help/glossary/Gartner_IT_Glossary.pdf Glossary of terms used in competitive intelligence and knowledge management [online]. [vid. 11.
květen
2014].
Dostupné
z:
http://scip.cms-plus.com/files/Prior Intelligence Glossary 09Jan.pdf MONCLA, Brenda, ARENTS-GREGORY , Marianne. Corporate Performance Management: Turning Strategy Into Action. Information Management Magazine [online]. c2003 [vid. 11. květen 2014]. Dostupné z: http://www.information-management.com/issues/20031201/77341.html ECKERSON, Wayne W. Performance Dashboards: Measuring, Monitoring, and Managing Your Business. Wiley, 2005. 320 s. ISBN 0471724173. Power View: Prozkoumejte, vizualizujte a prezentujte svá data - Excel [online]. [vid. 12. květen 2014]. Dostupné z: http://office.microsoft.com/cs-cz/excel-help/power-view-prozkoumejtevizualizujte-a-prezentujte-sva-data-HA102835634.aspx Introduction to Microsoft Power Query for Excel - Excel [online]. [vid. 12. květen 2014]. Dostupné z: http://office.microsoft.com/en-us/excel-help/introduction-to-microsoft-powerquery-for-excel-HA104003940.aspx
76
9. Terminologický slovník Termín
Zkratka
Business Intelligence
BI
Customer Relationship Management
CRM
Data Marts Data Staging Area Data Warehouses Enterprise Application Integration
DMA DSA DWH EAI
Enterprise Resource Planning
ERP
Executive Information System Extraction Transformation Loading
EIS ETL
Online Analytical Processing
OLAP
Operational Data Store
ODS
Supply Chain Management
SCM
77
Význam [zdroj] přístupy a nástroje pro analýzu a plánování činnosti podniku na principu multidimenzionality (Novotný, 2005) IS podporující porozumění reakcím a potřebám zákazníků (autorka) datová tržiště dočasná úložiště dat datové sklady integrační nástroje jádro podnikových systémů (autorka) IS pro podporu vrcholového řízení transformační nástroje rychlé zajištění různých pohledů na data a zobrazení agregací na různých úrovních (Pour, 2012) operativní úložiště dat IS řízení dodavatelskoodběratelských vztahů (autorka)
10. Seznam obrázků Obr. 1 Business intelligence (Pirkl 2004) ................................................................................ 14 Obr. 2 Schema Star a Snowflake (Garcia et al. 2000, s. 191) .................................................. 16 Obr. 3 Základní řešení BI (Pour et al. 2012) ............................................................................ 17 Obr. 4 ETL (Arcplan 2012) ...................................................................................................... 18 Obr. 5 Postupně budování datového skladu (Novotný 2005) .................................................. 20 Obr. 6 Konsolidovaný datový sklad (Novotný 2005) .............................................................. 20 Obr. 7 Přírůstkový přístup (Novotný 2005) ............................................................................. 21 Obr. 8 EAI (People at work systems nedatováno) ................................................................... 23 Obr. 9 OLAP kostka (Vlček 2010) ........................................................................................... 25 Obr. 10 Dodavatelé BI (Gartner 2014) .................................................................................... 28 Obr. 11 Významný posun v Magickém kvadrantu (Atkinson 2014) ....................................... 29 Obr. 12 Tradiční přístup k informacím (Ibarnes 2013) ............................................................ 36 Obr. 13 Přístup k informacím (Ibarnes 2013) .......................................................................... 37 Obr. 14 Horní lišta PowerPivotu (Autorka) ............................................................................. 42 Obr. 15 Okno PowerPivotu (Autorka) ..................................................................................... 43 Obr. 16 Výběr tabulky .............................................................................................................. 44 Obr. 17 Průběh importu ............................................................................................................ 45 Obr. 18 Okno PowerPivotu s načtenými daty .......................................................................... 45 Obr. 19 Definice kontingenční tabulky .................................................................................... 46 Obr. 20 Skrytí neužitečného sloupce ........................................................................................ 46 Obr. 21 Diagram View ............................................................................................................. 47 Obr. 22 Datový model v PowerPivot ....................................................................................... 48 Obr. 23 Tvorba hierarchie ........................................................................................................ 48 Obr. 24 Přidání sloupce ............................................................................................................ 50 Obr. 25 Nově vypočítané sloupce ............................................................................................ 51 Obr. 26 Nová tabulka „Aktivní úvěr“ ...................................................................................... 52 Obr. 27 Calculated Fields ......................................................................................................... 53 Obr. 28 Výpočet explicitního pole ........................................................................................... 53 Obr. 29 Nástroj Power View (Autorka) ................................................................................... 58 Obr. 30 Power View - sloupcový graf vývoje klíčových ukazatelů (Autorka) ........................ 58 Obr. 31 Power View koláčový graf vývoje klíčových ukazatelů (Autorka) ............................ 59 Obr. 32 Power Map - geografické zobrazení průměrné výše zajištění (Autorka) .................... 59 Obr. 33 Power Map - geografické zobrazení průměrné výše zajištění (Autorka) .................... 60 Obr. 34 Sharepoint (Withee, 2009) .......................................................................................... 61 Obr. 35 Architektura integrovaného BI řešení Microsoft PerformancePoint Server 2007 (Zdroj: (Microsoft 2014)) ......................................................................................................... 63 Obr. 36 Rozšířená architektura PerformancePoint Services na platformě SharePoint Server 2013 (Zdroj: (Microsoft 2014)) .................................................................. 64 Obr. 37 Uživatelské rozhraní nástroje Dashboard Designer (Zdroj: Microsoft 2014) ............. 66 Obr. 38 Záložka Home nástroje Dashboard Designer (Zdroj: autorka) ................................... 69 Obr. 39 Datové zdroje v nástroji Dashboard Designer (Zdroj: autorka) .................................. 69 Obr. 40 Vytvoření nové položky v nástroji Dashboard Designer (Zdroj: autorka) ................. 70 Obr. 41 Výběr dashobordu v nástroji Dashboard Designer (Zdroj: autorka) ........................... 71
78