BI & DWH & MIS nástroj 2. generace Pavel Seibert KOMIX s.r.o. Avenir Business Park Radlická 751/113e, 158 00 Praha 5 tel.: +420 257 288 211
Úvod Pro oblast Business Intelligence je na trhu celá řada osvědčených produktů osvědčených firem (Oracle, IBM, Cognos, Business Objects, Microsoft, MicroStrategy a další). Všechny tyto firmy své produkty průběžně zdokonalují a snaží se zákazníkům nabídnout řešení co nejvýkonnější, nejrychlejší, nejkomfortnější, … . V nedávné době se však na poli BI&DWH&MIS řešení objevil nový fenomén – In Memory Analysis (dále jen IMA). Vedoucím představitelem v IMA oblasti je firma QlikTech a její produkt QlikView. O úspěšném tažení produktu QlikView světem BI&DWH&MIS svědčí i následující údaje Gartnerova diagramu pro období leden 2008 a leden 2009.
Obr. 1: Vývoj pozice produktu QlikView firmy QlikTech na trhu IT Z uvedených grafů je zřejmé, že produkt QlikView se velice rychle propracoval do prestižního kvadrantu do elitní společnosti doposud vedoucích produktů. V následujících částech tohoto příspěvku porovnáme architekturu standardních řešení a architekturu řešení v prostředí QlikView, stručně přiblížíme základní principy tohoto řešení včetně uvedení nejvýznačnějších vlastností a také uvedeme příklady realizovaných řešení.
SYSTÉMOVÁ INTEGRACE 1/2009
125
Pavel Seibert
Architektura standardního BI&DWH&MIS řešení Na obrázku 1 je uvedeno zjednodušené schéma standardního (klasického) BI&DWH&MIS řešení:
Obr. 2: Schéma standardního BI&DWH&MIS řešení Toto klasické řešení je typicky postaveno na víceúrovňovém řešení (koncový uživatel - aplikační server – databázový server – datové úložiště). Zcela zásadní vlastností tohoto řešení je právě ona víceúrovňovost. Veškerá data i metadata jsou uložena v prostředí relačních databází a při chodu aplikace (tj. při plnění či aktualizaci datového úložiště a následně i při jeho vytěžování) jsou vždy ve hře alespoň 3 úrovně - aplikační server, databázový server a samozřejmě datové úložiště. Tuto, zejména z hlediska rychlosti, omezující skutečnost, lze různými způsoby vylepšovat (využívání cash paměti, … ), avšak principiální nevýhodu – nutnosti využívání služeb jednotlivých serverů a datového úložiště – prostě odstranit nelze.
Architektura BI&DWH&MIS řešení 2. generace Podívejme se nyní na nové řešení, jehož vedoucím představitelem je produkt QlikView firmy QlikTech. Na obrázku 2 je zjednodušené schéma BI&DWH&MIS řešení 2. generace:
126
SYSTÉMOVÁ INTEGRACE 1/2009
BI & DWH & MIS nástroj 2. generace
Obr. 3: Schéma BI&DWH&MIS řešení 2. generace Pro snadné porovnání s klasickým řešením jsou jednotlivé bloky označeny stejnými barvami. V čem tedy tkví zmiňovaný generační skok? Zásadní vlastností nového řešení je skutečnost, že veškerá data (metadata, vlastní data, definice výstupů, … ) jsou uložena patentovaným řešením ve formě QV souborů na disku (pro názornost lze použít příměru se souborem pro MS Excel - zdůrazňuji, že výhradně pro názornost). Veškerá „klasicky“ uložená data (databázová úložiště, txt, xls, xml soubory, … ) tak v řešeních 2. generace figurují pouze jako datové zdroje pro načítání a aktualizaci dat do QV souborů. Pouze způsobem uložení všech potřebných dat do souboru na disku však unikátnost nového řešení nekončí. Uložení dat v souboru na disku je natolik komprimované, že při vlastním chodu aplikace (tj. při plnění či aktualizaci datového úložiště a následně i při jeho vytěžování koncovým uživatelem) je celý soubor vždy načten do operační paměti aplikačního serveru a veškeré činnosti aplikace se provádějí nad daty v operační paměti aplikačního serveru. Generační skok tak spočívá v přechodu od víceúrovňového řešení (stávající klasická řešení) k řešení v podstatě jednoúrovňovému (vlastní aplikační server). Logickým důsledkem výše uvedených skutečností je pak to, že veškeré odezvy i nad velmi rozsáhlými (stamiliony a více řádků) jsou pak v řádu jednotek sekund.
Základní otázky a odpovědi V souvislosti s výše uvedenými skutečnostmi zcela logicky každého napadnou některé zcela zásadní otázky, jako například: Rozsah datového skladu Doba načtení dat Doba aktualizace dat Využitelné datové zdroje V následujících částech tohoto příspěvku jednotlivé části krátce přiblížíme. SYSTÉMOVÁ INTEGRACE 1/2009
127
Pavel Seibert
Rozsah datového skladu Aplikace vytvořené v prostředí QlikView, které jsou již v rutinním provozu, pokrývají řešení v rozsahu stamilionů řádků. Typickým příkladem může být referenční aplikace pro ZP MV ČR, která bude podrobně zmíněna v samostatné kapitole tohoto příspěvku. Dalším příkladem může být soubor aplikací v GLOBUS ČR, které jsou také v rutinním provozu.
Doba načtení dat Načtení dat do QV dokumentu je velice rychlé. Na následujícím obrázku je protokol o načtení účetních dat v rozsahu cca 1 mil. řádků.
Obr. 4: Protokol o načtení účetních dat do QV souboru Z protokolu je zřejmé, že načtení zmíněných dat trvalo 2 min a 3 sek. Z následujícího obrázku si lze udělat základní představu o poměru velikosti vzniklého QV souboru a datových zdrojů, ze kterých byl QV soubor vytvořen.
128
SYSTÉMOVÁ INTEGRACE 1/2009
BI & DWH & MIS nástroj 2. generace
Obr. 5: Porovnání velikosti datových zdrojů a výsledného QlikView souboru Jednotlivé datové zdroje (asc soubory) mají úhrnem cca 140 MB, výsledná QV soubor (SB_RV_v8.qvw) pak má velikost cca 16 MB. O míře komprimace ve výsledném QV souboru svědčí i ta skutečnost, že při další komprimaci (zip, … ) již prakticky nedochází ke změně velikosti QV souboru.
Doba aktualizace dat V předchozím odstavci bylo popsáno načtení úplných účetních dat za celý 1 rok. Pro aktualizaci ve formě měsíčních, případně podrobnějších (dekádní, týdenní, denní) přírůstků pak je třeba odpovídající poměrné části – pro měsíční aktualizaci se jedná o cca 15 sec. Z této skutečnosti je zřejmé, že data pro aplikace v prostředí QlikView mohou být aktualizována v souladu s požadavky zákazníka prakticky průběžně a to bez toho, že by byly významně zatíženy jednotlivé produkční (zdrojové) IS.
Využitelné datové zdroje Aplikace v prostředí QlikView mohou snadno a rychle využívat heterogenní datové zdroje. Jsou podporovány vstupy ze standardních databázových systémů (Oracle, DB2, Informix, Sybase, … ) a to přes ODBC nebo OLEDB připojení, dále xls, txt, xml, asc, csv a další soubory. Samozřejmostí je možnost integrace dat z datových zdrojů různých typů do jednoho QV souboru.
Referenční aplikace pro ZP MV ČR První kontakt firmy Komix s produktem QlikView se uskutečnil v r. 2007. Pro ověření všech výše zmíněných vlastností produktu jsme použili referenční aplikaci – Datový sklad kmene pojištěnců. Datový sklad v původním řešení měl tyto parametry:
SYSTÉMOVÁ INTEGRACE 1/2009
129
Pavel Seibert
Prostředí: MicroStrategy v.8 Databázové úložiště: Informix v.10.3 Realizace: 2001 Rutinní provoz: 2002 – 2008 Počet záznamů provozního IS: cca 100 mil. záznamů Perioda aktualizace: měsíční Doba aktualizace pro 1 měsíc: cca 45 minut Počet standardních výstupů: cca 30 Doby odezvy: převážně 2 – 3 minuty, některé složitější výstupy cca 8 minut, nejsložitější výstupy i 15 a více minut Realizace v prostředí QlikView dosáhla těchto parametrů: Doba realizace: 10 čd Velikost QV souboru: cca 42 MB Perioda aktualizace: měsíční Doba aktualizace pro 1 měsíc: cca 4 minuty Doba odezvy: 1 – 3 sekundy Realizace v prostředí QlikView zahrnula veškerá data a pokryla veškeré výstupy původního řešení. Na následujícím obrázku je doklad o realizaci aplikace.
Obr. 6: QlikView soubor pro datové tržiště Kmen pojištěnců Jak asi lze očekávat z výše uvedeného, logickým výsledkem byla nabídka a následně realizace v prostředí QlikView. Aplikace byla v prostředí ZP MV ČR uvedena do rutinního provozu v r. 2008. Během letošního roku bude dokončen převod všech dalších aplikací do prostředí QlikView a od příštího roku budou v ZP MV ČR veškeré aplikace z oblasti BI&DWH&MIS výhradně v prostředí QlikView.
130
SYSTÉMOVÁ INTEGRACE 1/2009
BI & DWH & MIS nástroj 2. generace
Závěr Produkt QlikView splnil beze zbytku veškeré deklarované vlastnosti. O progresivitě řešení v prostředí QlikView svědčí i následující skutečnost. Firma Komix byla do nedávné minulosti v oblasti BI&DWH&MIS zaměřena na dlouhodobé projekty zejména z oblasti zdravotních pojišťoven, státní správy a dalších institucí. Díky produktu QlikView se podařilo proniknout do oblastí retailu (GLOBUS ČR), logistiky, výrobních procesů. Řešení v prostředí QlikView totiž přinášejí uživateli nebývalý komfort, rychlost a výkonnost¨a stávají se tak v rukách koncového uživatele skutečným nástrojem. Na závěr tohoto příspěvku nezbývá než popřát naplnění posledního obrázku co nejširšímu počtu spokojených uživatelů.
Obr. 7: Výstižná charakteristika produktu QlikView
SYSTÉMOVÁ INTEGRACE 1/2009
131