Analýza dat „skoro zadarmo“ – možnosti rozborů pro malé organizace Martin Hess
Microsoft Office Specialist Master Certification katedra informačních technologií VŠE Praha
[email protected] Abstrakt Článek se zabývá datovými rozbory pomocí tabulkového kalkulátoru. Cílem je nastínit možnosti tabulkového kalkulátoru, jako nástroje Business Intelligence, při vytváření a prohlížení datové krychle a následném exportu analýz do prostředí Internetu/intranetu. Článek demonstruje funkce produktu Microsoft Excel (verze XP a vyšší) pro rozbory dat uložených v datových krychlích spíše pro malé a střední podniky (MSP). Microsoft Excel je k dispozici ve většině MSP jako nástroj pro rutinní kancelářskou práci a mnozí ani netuší jaké možnosti nabízí. Záměrem článku není vytvoření podrobného manuálu, který detailně pokryje postupy při vytváření a využívání datové krychle.
1. Datová analýza „v kostce“ V současné době provozuje většina podniků informační systém založený na informačních technologiích. Podnikové informační systémy se liší mírou komplexity. Počínaje vedením jednoduchého účetnictví pomocí tabulkového kalkulátoru, konče využitím rozsáhlého podnikového informačního systému kalibru SAP R/3. Všechny tyto systémy mají jedno společné. Zaznamenávají každodenní události vyplývající z ekonomického života podniku. Aby data transakcí měla dobrou vypovídací schopnost o procesech podniku, musí být určitým způsobem transformována. Jedním ze základních úkolů transformace je agregace dat. Ovšem nikoliv pouze agregace na úrovni celého podniku. Většinou je potřeba vytvořit souhrny také podle nejrůznějších hledisek (dimenzí) – geografické, časové, atd. Jedná se o multidimenzionální přístup k ukládání a analýze dat.
1.1 Multidimenzionalita O multidimenzionálním přístupu pojednává mnoho publikací [1], [2], proto se o této problematice zmíním jen ve stručnosti. 1 Data jsou uložena ve speciálních multidimenzionálních databázích v tzv. datových kostkách nebo krychlích. Data v datových krychlích jsou dvojího druhu. Jednu část tvoří data o dimenzích, druhou část pak ukazatelé (agregace). Názorný příklad uvádím v následujícím obrázku, kde je definována geografická dimenze, které je přiřazen ukazatel tržby. Můžeme tedy zjistit tržby na jednotlivých úrovních – podnik (celek), město, ulice. Výhody multidimenzionálního přístupu jsou zakotveny jednak v rychlosti získání analýzy (agregace se nepočítají zvlášť pro každou analýzu, ale jsou předpřipraveny 1
V literatuře označováno také jako OLAP databáze.
SYSTÉMOVÁ INTEGRACE 4/2004
63
Martin Hess
v datové krychli pro každou úroveň), jednak snadnosti prostupování hierarchií ukazatele (rozpad – drill-down – ukazatele na nižší úroveň, nebo naopak sloučení – drill-up – do vyšší úrovně). Dimenze
Ukazatel
Podnik (celek)
5990
Praha
2681 Vodičkova Seifertova
1523 1158
Brno
2255 Veletržní Masarykova
958 1297
Ostrava
1054 Janáčková
1054
obrázek 2 - Geografická dimenze s ukazatelem tržby
2. Jednoduché řešení multidimenzionálního přístupu Pro implementaci multidimenzionálního přístupu se zpravidla využívá multidimenzionální serverové databáze (většinou jako doplněk klasické relační databáze). Tyto aplikace nejsou zrovna levnou záležitostí. Navíc kromě multidimenzionální databáze je nutné mít k dispozici aplikaci pro prohlížení dat a jejich interpretaci s využitím grafu nebo kontingenční tabulky. Asi málokterý uživatel, který má svůj informační systém založen na „klasické Foxce“ bude ochoten investovat v řádu sta tisíc, aby využil možností multidimenzionality. Pro tyto malé databáze existuje jednoduché řešení. Spočívá ve využití aplikace Microsoft Excel (dále jen Excel). Excel (nejlépe verze XP a vyšší, ale „umí to“ také verze 2000) je schopen vytvořit souborovou multidimenzionální databázi a navíc umožňuje s využitím nástrojů – kontingenční tabulky a grafu – vytvářet postačující výstupy a tyto posléze exportovat do webového prostředí (Internet/intranet).
2.1 Jak na to Excel je schopen z vlastních dat nebo z jakékoliv databáze či tabulkového kalkulátoru s možností přístupu přes rozhraní ODBC (tedy prakticky z jakéhokoliv zdroje) vytvořit datovou krychli. Možná někdo namítne, že Excel je schopen zpracovat pouze 65536 záznamů. To je sice pravda, ovšem v oblasti importu dat Excel využívá pomocnou aplikaci, kde tato omezení neplatí (více o pomocných aplikacích naleznete v kapitole 4). Proces tvorby datové krychle zvládne i uživatel bez pokročilých znalostí tabulkového kalkulátoru. Samozřejmě je zde nutná alespoň základní znalost
64
SYSTÉMOVÁ INTEGRACE 4/2004
Analýza dat „skoro zadarmo“ – možnosti rozborů pro malé organizace
multidimenzionální hantýrky – tedy odpovědi na otázky: „Co je to dimenze?“ a „Co je to ukazatel?“. Připojení ke zdroji dat a poté vlastní tvorba datové krychle je realizována pomocí průvodce, kde v jednotlivých krocích definujeme postupně ukazatele a dimenze. Máme možnost určit, která pole budou zdrojem ukazatelů a jaká bude použita agregační funkce. Pro jedno pole je možno definovat více agregačních funkcí. Důležité kroky průvodce jsou dokumentovány na následujících několika obrázcích.
obrázek 2– Poslední obrazovka v průvodci importem – spuštění průvodce datovou krychlí 2
V průvodci importem (dotazem) volíme položku „Vytvořit z dotazu datovou krychli OLAP (obrázek 2). Dále se automaticky spustí průvodce vytvořením datové krychle, kde postupně definujeme ukazatele (obrázek 3) a dimenze (obrázek 4)
obrázek 3 – Definice ukazatelů s možností výběru agregační funkce
2
K vlastnímu importu záznamů do tabulky Excelu nedochází. Data jsou umístěna do datové krychle. SYSTÉMOVÁ INTEGRACE 4/2004
65
Martin Hess
obrázek 4 – Definice dimenzí Po ukončení průvodců jsou data datové krychle vrácena do kontingenční tabulky Excelu (obrázek 5), jejíž rozvržení lze kdykoli změnit. Excel, jako plnohodnotná analytická aplikace, samozřejmě nabízí možnosti rozpadu (drill-down – celek podnik se rozpadá na města Praha, Brno, Ostrava a Praha se dále rozpadá na jednotlivé ulice, za Brno a Ostravu jsou zobrazeny pouze souhrnné údaje za všechny ulice) a sloučení (drill-up), filtrování dat a také zobrazení dat v grafu.
obrázek 5 – Kontingenční tabulka
66
SYSTÉMOVÁ INTEGRACE 4/2004
Analýza dat „skoro zadarmo“ – možnosti rozborů pro malé organizace
Kontingenční tabulku nebo graf je možné vypublikovat přímo z Excelu do sítě Internet/intranet. Publikace rozboru založeného na souborové datové krychli má jistá úskalí, o kterých se zmíním v kapitole 4.
2.2 Význam pro MSP Řešení multidimenzionálního přístupu, které jsme si představili v této kapitole je aplikovatelné především v oblasti malých a středních podniků (MSP). Snadnost tvorby datové krychle a jednoduchost jejího rozboru pomocí kontingenční tabulky předurčuje toto řešení pro široké použití. Vezmeme-li v úvahu, že velká část MSP již vlastní a používá produkty balíku Microsoft Office, kam patří také Excel, jsou dodatečné investice do aplikačního vybavení nulové. S jistými výdaji je ovšem nutné počítat! Jedná se především o školení pracovníků, kteří budou využívat Excel jako analytickou aplikaci pro práci s multidimenzionálními daty.
3. Řešení pro velký objem dat Jednoduché řešení multidimenzionální analýzy demonstrované v 2. kapitole nebude vhodné pro aplikaci velkého objemu dat. Přístup do souborové OLAP databáze větších rozměrů je o něco pomalejší než použití multidimenzionální databáze umístěné na analytickém serveru (např. Microsoft SQL Server Analysis Services). Navzdory této skutečnosti je Excel stále vhodným řešením přístupu k datové krychli. Jediným rozdílem oproti předchozímu příkladu (uvedeném v kapitole 2) je umístění datové krychle na serveru. Excel zvládne jak přístup k OLAP souboru, tak k OLAP serveru. Excel v tomto případě použijeme výlučně pro přístup k datové krychli (ne už k jejímu vytváření nebo modifikaci) s možností publikování analýz do prostředí Internetu/intranetu.
3.1 Publikování na Internet/intranet Publikovaná analýza se netváří jako statický obraz kontingenční tabulky nebo grafu. Výstup může být plně funkční internetová/intranetová aplikace. Ve webovém prohlížeči je možné provádět stejné operace s daty jako v samotném Excelu (drillup, drill-down, filtrování). Bohužel pozměněné rozvržení kontingenční tabulky nebo grafu nemůžeme uložit prostřednictvím webového prohlížeče. K modifikaci analýz můžeme použít další aplikaci z balíku Microsoft Office – editor webových stránek Microsoft FrontPage. O možnostech spolupráce produktu Microsoft Office s webovým serverem při publikaci se podrobněji zmíním v kapitole 4.
4. Nástroje Při práci se specializovanými funkcemi využívá Excel služeb pomocných aplikací. Běžný uživatel ani neví a vědět nemusí o těchto aplikacích, takže se nic nestane pokud tuto kapitolu přeskočí. Navíc uživatel nemá většinou šanci (přes svá nedostatečná práva) jakkoliv ovlivnit instalaci či konfiguraci těchto aplikací.
SYSTÉMOVÁ INTEGRACE 4/2004
67
Martin Hess
4.1 Pomocné nástroje [3] Microsoft Query je aplikace určená pro komunikaci s databázemi a pro vytváření dotazů při importu dat. Je volitelnou komponentou při instalaci kancelářského balíku Microsoft Office. OLAP ovladač je komunikační prostředí pro dotazování se do datové krychle. Součástí Excelu je ovladač pro přístup k datovým krychlím vytvořeným v prostředí Microsoft SQL Server Analysis Services. Pro databáze jiných výrobců je nutné instalovat příslušný ovladač vyhovující standardu OLE-DB pro OLAP.
4.2 Publikování Zobrazení a interaktivní práce a analýzou ve webovém prohlížeči umožňuje sada Microsoft Office Web Components (součást balíku Office). Jelikož prohlížeč také využívá služeb Office Web Components, budeme muset pro korektní zobrazení použít Internet Explorer verze 4.01 (s aktualizací Service Pack 1) nebo vyšší. V kapitolách 2 a 3 jsme naznačili, že analýzy je možno vypublikovat do sítě Internet/intranet. Pokud publikujeme analýzu, jež čerpá data z datové krychle umístěné na OLAP serveru, nenastanou žádné potíže za předpokladu, že webový server má oprávnění k přístupu k OLAP serveru. Bohužel je-li zdrojem analýzy OLAP soubor, je výstup značně omezen absolutními cestami, které se odkazují na OLAP soubor v diskovém prostoru. Tyto cesty sice můžeme následně změnit ve zdrojovém kódu (což není vůbec uživatelský přívětivé), ale musíme je nahradit opět absolutními cestami do diskového prostoru. Není dokonce možné použít ani URL adresu.
5. Závěr Článek demonstroval možnosti využití aplikace Microsoft Excel jako nástroje pro analýzu dat umístěných v datových krychlích. Cílem článku nebylo podat detailní informace o postupech tvorby a užití datových krychlí. Další informace může čtenář nalézt v databázi MSDN (msdn.microsoft.com), např. v [4], [5], [6], [7]. Využití Excelu značně snižuje náklady na tvorbu a užití analýz datových krychlí. Náklady na pořízení kancelářského balíku Microsoft Office jsou zhruba patnáct tisíc 3 korun (výsledná cena závisí na edici, počtu licencí…). Navíc tuto sadu kancelářských aplikací mnoho organizací již vlastní, takže náklady na software budou prakticky nulové. Pokud bychom použili specializovaný nástroj pro prohlížení datové krychle, museli bychom kalkulovat s náklady ve výši přibližně sta tisíc korun za jednu licenci. Microsoft Excel je relativně levnou záležitostí s pestrou škálou funkcí od klasického tabulkového kalkulátoru až po nástroj business intelligence. Bylo by škoda je nevyužít.
3
Pouze odhad při použití balíku Professional Edition
68
SYSTÉMOVÁ INTEGRACE 4/2004
Analýza dat „skoro zadarmo“ – možnosti rozborů pro malé organizace
Literatura: 1. 2. 3. 4. 5.
6. 7.
Inmon, W. H.: Building the data warehouse, John Wiley, 2002, 3. vydání, ISBN: 0471081302 Kimball, Ralph: The data warehouse toolkit : the complete guide to dimensional modeling, John Wiley, 2002, 2.vydání, ISBN: 0471200247 About OLAP data sources for PivotTable and PivotChart reports, http://msdn.microsoft.com/library/en-us/off2000/html/xlconaboutolapdatas.asp Data Drillthrough from the PivotTable komponent, http://msdn.microsoft.com/library/en-us/dnowc/html/odc_pvtdrillthrough.asp OLAP Related Features in Microsoft Excel 2002 and the Microsoft Office XP Web Components, http://msdn.microsoft.com/library/en-us/dnexcl2k2/html/odc_xlowcolap.asp Using Microsoft Excel 2002 with SQL Server Analysis Services, http://msdn.microsoft.com/library/en-us/dnexcl2k2/html/odc_xlsql.asp Extending Excel OLAP Functionality http://msdn.microsoft.com/library/default.asp?url=/library/enus/dnexcl2k2/html/odc_xlsql.asp
SYSTÉMOVÁ INTEGRACE 4/2004
69