Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky# Lukáš Pitka Exact Software CR, s.r.o. Antala Staška 510/38 140 00, Praha 4 – Krč e-mail:
[email protected]
Abstrakt: Článek se zabývá problematikou datové integrace v oblasti podpory rozhodování v reálném čase. Real-time podpora rozhodování vnáší do oblasti integrace dat z různých datových zdrojů nové překážky. Článek se zaměřuje na aktuální integrační možnosti a technologie. Následně jsou identifikovány technologické problémy a překážky datové integrace ve vazbě na oblast analytických systémů pro podporu rozhodování v reálném čase. Poslední část práce je věnována koncepčnímu návrhu, který tyto překážky mírní či úplně odstraňuje. Klíčová slova: podpora rozhodování v reálném čase, real-time BI, datová integrace, datová federace, EII, mikrodávková ETL, CDC, CTF, Data Warehouse 2.0, procesní řízení, podnikový proces Abstract:This paper deals with data integration in the area of a real-time decision support. Researchers have to deal with new issues and overcome a lot of new obstacles while exploring the area of data integration of disparate data sources in a real-time business environment. The paper is focused on actual integration technologies with primary focus on current technological issues and obstructions of data integration in analytical information systems. The other important section of this paper presents suggestions how to overcome or at least mitigate these issues. Keywords: real-time decision support, real-time BI, data integration, data federation, EII, micro-batch ETL, CDC, CTF, Data Warehouse 2.0, process management, business process
1. Úvod Zrychlující se trţní prostředí nevyhnutelně vede k potřebě rychlejšího rozhodování na všech úrovních organizace. Těţko předvídatelné, rychle se měnící, silně konkurenční a zákaznicky orientované trţní prostředí přináší zcela nové nároky na osoby v rozhodovacích pozicích v organizacích. Komplexnost trhů je doplněna (a částečně také vyvolána) zrychlujícím se ţivotním stylem zákazníků. Zákazníci (ať uţ zákazníci komerčních podniků či státních institucí) vyţadují stále nové sluţby a produkty, které budou kvalitnější, levnější a jejichţ inovace budou dostupné stále častěji. Na měnící trţní prostředí musí reagovat také oblast IS/ICT, kde v současné době nalézáme řadu inovačních trendů [1].
#
Článek je zpracován jako jeden z výstupů výzkumných projektu GA ČR P403-10-0092 Advanced Principles and Models for Enterprise ICT Management u Grantové agentury České republiky SYSTÉMOVÁ INTEGRACE 2/2011
87
Lukáš Pitka
Výše uvedené změny a inovační trendy vyvolávají značný tlak na osoby v rozhodovacích pozicích. Na všech úrovních organizace je zapotřebí provádět rozhodnutí rychleji, ale zároveň kvalitněji. Pokud organizace neučiní rozhodnutí o zavedení či inovaci výrobku nebo sluţby dostatečně rychle a na základě správných a aktuálních podkladů, můţe to znamenat pro společnost značné ztráty, případně i existenční problémy. V současné době se stále více hovoří o tzv. Real-Time Enterprise [2]. Tento koncept zavedený analytickou společností Gartner [3] přináší organizaci teoretické přínosy na všech úrovních řízení: zlepšení zákaznické zkušenosti, sníţení stavu zásob, sníţení rizik a niţší procesní náklady na operativní úrovni, na taktické úrovni se jedná o rychlejší vyuţití vznikajících obchodních příleţitostí, sníţení dopadu v případě vzniku kritických situací a zvýšení rychlosti reakce při vzniku ohroţení, strategická úroveň je podpořena zejména rychlejším stanovením a zavedením strategií, které se pruţně přizpůsobují měnícímu se trţnímu prostředí. Tento koncept vyţaduje velmi rychlou a kvalitní podporu v podobě nástrojů pro podporu rozhodování, ať uţ se jedná o rozhodování automatizované či rozhodování prováděné fyzickou osobou. V souvislosti s real-time enterprise a související podporou rozhodování v reálném čase se často zmiňují pojmy BPM (Business Process Management), BI (Business Intelligence), CI (Customer Intelligence), CPM (Corporate Performance Management) a řada dalších. Podpora rozhodování v reálném čase představuje v současné době dynamicky se rozvíjející odvětví podnikové informatiky a výzkum v této oblasti nabývá na intenzitě. V rámci řízení podnikové informatiky (tato oblast je důkladně objasněna např. v [1]) je tedy nutné s tímto novým trendem počítat a přizpůsobit mu jednotlivé stávající modely a principy. Směrů výzkumu existuje několik. Z pohledu podniku (business pohledu) je moţné se s touto oblastí seznámit z několika hledisek, např. v [4] jsou řešeny moţnosti vyuţití Real-Time Businesss Intelligence z hlediska potřeb organizace reagovat na změny trţního prostředí, Eckerson a Wayne se v [5] zabývají metodologií nasazení řešení pro podporu rozhodování v reálném čase do podnikového prostředí, v [6] se autoři věnují novým výzvám, které na DSS systémy klade silně konkurenční trţní prostředí, tato oblast je dále probrána v [7], kde Richard Hackathorn představuje koncept Time-Value Curve, tedy křivky zobrazující klesající hodnotu informace v čase. Claudia Imhoff se v [8] zabývá procesem rozpoznání potřeby systémů pro podporu rozhodování v reálném čase, naopak Stephen Swoyer v [9] zmírňuje nadšení pro oblast Real-Time BI a poukazuje na skutečnost, ţe potřeba musí vţdy vycházet z business poţadavků organizace. Z pohledu architektonického a systémového je tato oblast zkoumána také z několika pohledů. Sborník [10] se věnuje obecně oblasti DSS a jejímu rozvoji a aktuálním trendům, především z technologického pohledu. V rámci výzkumu [11] jsou nastíněny změny v architektuře tradičního BI řešení z pohledu spolupráce a ad-hoc dotazování. Cohen a spol. v [12] přinášejí koncepci systému monitoringu a upozorňování na události v business procesech v reálném čase, včetně zavedení systému včasného varování (predikce vzniku událostí na základě analýzy historických a aktuálních dat). Podobné řešení je uvedeno také v [13], kde je větší důraz kladen na oblast Business 88
SYSTÉMOVÁ INTEGRACE 2/2011
Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky
Performance Management a trvalé zlepšování procesů. Aplikací principů real-time DSS systémů (technologie SARESA – Sense & Response Service Architecture) v oblasti detekce podvodného chování se zabývá [14]. Principy řešení SARESA jsou detailněji uvedeny v [15], [16], [17] a [18]. SARESA představuje v současné době koncept real-time DSS systému, který je z hlediska reálné aplikace nejdále. Výše uvedené výzkumy odhalují dvě základní skupiny překáţek souvisejících s podporou rozhodování v reálném čase a jejím začleněním do podnikových procesů organizace. První skupinou jsou překáţky organizační související s organizační strukturou, definicí procesů a obecně se strategií řízení organizace. Druhou skupinu překáţek představují překáţky technologické. Mezi technologické překáţky patří zejména problémy související s roztříštěností datových zdrojů, dávkovými ETL (Extraction, Transformation, Loading) a související čistotou dat či architekturou datového skladu. Všechny tyto operace musí probíhat v téměř reálném čase tak, aby bylo moţné se v reálném čase také rozhodovat. Tento článek se zaměřuje na konkrétní oblast technologických překáţek – datovou integraci. V této oblasti bylo provedeno několik výzkumů, např. [19], [20] či [21]. Architektura datového skladu 2. generace je uvedena v [22]. Nové trendy v oblasti datových skladů a uloţení dat pro jejich následnou analýzu jsou detailně uvedeny v [23]. Ţádný z těchto pramenů ovšem nepřináší komplexní pohled na jednotlivé překáţky datové integrace v systémech pro podporu rozhodování v reálném čase včetně návrhu moţných řešení pro jejich zmírnění či překonání. Cílem následujících kapitol je: identifikovat a jasně pojmenovat současné technologické problémy a překáţky v oblasti analytických systémů pro podporu rozhodování z hlediska jejich zapojení do podnikových procesů, navrhnout koncepční řešení (či rozšíření existujících řešení) a zmírnění jednotlivých překáţek v oblasti datové integrace pro podporu real-time analytických a rozhodovacích systémů. Pro dosaţení výše uvedených cílů je článek rozčleněn následovně: V kapitole 2 se stručně zaměřím na potřebu podpory rozhodování v reálném čase, tj. na otázku, zda se organizace potřebují rozhodovat v reálném čase. Kapitola 3 se zabývá aktuálním stavem v oblasti datové integrace a moţnostmi vyuţití těchto technologií pro podporu rozhodování v reálném čase. Kapitola 4 obsahuje analýzu aktuálních problémů a překáţek souvisejících s datovou integrací v prostředí real-time podpory rozhodování. Kapitola 5 obsahuje návrh směrů řešení a dalšího výzkumu, který směřuje k překonání těchto překáţek, či alespoň ke zmírnění problémů. Kapitola 6 obsahuje rekapitulaci článku a návrh dalších rozšíření této práce.
2. Potřeba analytické podpory rozhodování v reálném čase Potřeba tzv. real-time rozhodování či real-time analýz představuje v současné době frekventované slovní spojení. Článků zabývajících se real-time analýzou, real-time podporou rozhodování, real-time organizací či real-time BI je celá řada. Tyto články se však velmi zřídka zabývají otázkou, zda je real-time podpora rozhodování pro organizaci skutečně potřebná. Touto otázkou se zabývá Swoyer v [9] či okrajově Gartner v rámci definice Real-Time Enterprise [3], kdy je vyzdviţena nutnost podpory
SYSTÉMOVÁ INTEGRACE 2/2011
89
Lukáš Pitka
rozhodování v reálném čase pro zajištění všech benefitů, jeţ Real-Time Enterprise přináší.
2.1 Real-time vs. right-time Spojení real-time bývá některými autory nahrazováno termínem right-time (např. [5]), tj. potřebou dodání podkladů pro rozhodnutí ve správný okamţik. Jaký je ovšem ten správný okamţik pro dodání této informace? Jedná se o co nejrychlejší dodání? Nebo o co nejvýhodnější? Nejvýhodnější pro zákazníka? Nebo jde o dosaţení ekonomicky nejvýhodnějšího času pro organizaci (např. dle modelu Time-Value Curve [7])? Termín real-time naopak přináší polemiku o tom, co znamená „dodání podkladů v reálném čase“ – vţdy vznikne určité zpoţdění a organizace se ve většině případů ani nepotřebují rozhodovat na základě právě vloţených dat. V dalším textu se budu drţet rozšířenějšího spojení real-time podpora rozhodování. Potřeba podpory rozhodování v reálném čase začíná být v současné době vnímána jako důleţitý směr rozvoje analytických nástrojů (tj. nástrojů typu BI, CPM, CI či specializovaných DSS systémů např. v oblasti energetiky, financí či telekomunikací). V současné době se většina výzkumných úvah zabývá speciálními aplikacemi této oblasti, tj. např. vyuţitím pro monitorování, analýzu a automatickou reakci v rámci rozvodné sítě elektrické soustavy. Obecnější implementace myšlenky real-time podpory rozhodování v jakémkoli podnikovém procesu (tj. začlenění real-time analytických úloh do oblasti BPM) prozatím není realizována. Dle výzkumu analytické společnosti Aberdeen Group [24] je moţné oblast real-time podpory rozhodování rozdělit do několika oblastí, přičemţ tyto oblasti do značné míry odpovídají primárnímu zaměření mého výzkumu na oblast tzv. real-time BI, CPM a BPM (jednotlivé oblasti dle [24] jsou uvedeny v tab. 1). Oblast CPM je detailněji rozebrána v [1]. Časový interval
Oblast
Popis
Transactional BI
Analytické a reportingové moţnosti začleněné v transakčních systémech
ad-hoc, denně
Real-Time Analysis
Automatizovaná analýza aplikovaná na data pomocí business pravidel a algoritmů v okamţiku uloţení dat do primárních informačních systémů
sekundy, desetiny sekund
Near Real-Time Analysis
Automatizovaná analýza aplikovaná na data pomocí business pravidel a algoritmů v okamţiku uloţení dat do primárních informačních systémů
sekundy aţ hodiny
Operational Reporting
Automaticky generované (a často distribuované) reporty v závislosti na definovaných business pravidlech, algoritmech nebo neupravených datech v okamţiku zachycení dat v integrovaném datovém úloţišti nebo v transakčních databázích primárních systémů
jakýkoli interval
90
SYSTÉMOVÁ INTEGRACE 2/2011
Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky
Časový interval
Oblast
Popis
BAM, BPM
Typicky se jedná o monitorování systémů nebo výkonnosti procesů a jednotlivých aktivit – zahrnuje reporting, analýzu získaných dat a automatizovanou reakci v závislosti na předdefinovaných business pravidlech
minuty, sekundy, desetiny sekund
Decision Management
Automatizované systémy integrované s reportingem a analytickými aplikacemi, které jsou navrţené pro automatizaci akcí učiněných v závislosti na identifikovaných výjimkách, prahových hodnotách či jiných definovaných pravidlech
jakýkoli interval
tab. 1 - Oblasti tzv. Operational Business Intelligence dle Aberdeen Group [24] V další části kapitoly uvedu několik příkladů, které dokládají potřebu analytické podpory rozhodování v reálném čase. Všechny situace jsou v současné době ve fázi teoretického konceptu, popř. probíhá pilotní nasazení, které má ověřit teoretické poznatky.
2.2 Praktické příklady využití real-time podpory rozhodování Následující přehled ukazuje několik konceptů, které vyuţívají podporu rozhodování v reálném čase. Tato představuje plně či částečně automatizovaný analytický systém vyhodnocující podněty z primárních informačních systémů, na jejichţ základě následně dodává data pro rozhodnutí. Plánování výrobního programu při zpracování kovů a nerostných surovin Analytické nástroje pro podporu rozhodování v reálném čase je moţné vyuţít v případě řízení výrobního cyklu zpracování nerostných surovin, popř. v obecném výrobním programu MES (Manufacturing Execution System) systémů. V [25] je nastíněn systém pro podporu rozhodování z oblasti zpracování hliníku, který je aktivován v případě vzniku nečekané události ve výrobním programu (narušení výrobního programu) a automaticky vyhodnotí nastalou situaci a rozhodne o dalších krocích (např. o zastavení výroby nebo o změně/přeuspořádání výrobního procesu). Automatický systém monitoringu a rozhodování v oblasti stavebnictví a stavebních konstrukcí Propojením oblasti stavebnictví a prediktivních modelů spojených s automatickým monitoringem a real-time analýzou získaných dat je moţné získat účinný nástroj především pro prevenci proti přírodním katastrofám. V [26] autoři uvádějí koncept systému automatizovaného monitoringu mostů a budov. Tato data je následně moţné analyzovat a např. v případě hrozícího zřízení budovy včas automaticky upozornit příslušné sloţky na vzniklé nebezpečí. Rozhodování v oblasti kritické péče o pacienta Oblast péče o pacienta a zdravotnictví obecně je pro aplikaci podpory rozhodování v reálném čase velmi vhodná a nabízí mnoho moţností pro nasazení takovýchto systémů. Jeden z moţných scénářů je uveden v [27] – autoři se zabývají moţností SYSTÉMOVÁ INTEGRACE 2/2011
91
Lukáš Pitka
aplikace mobilních koncových zařízení v péči o pacienty. Mobilní koncová zařízení obsahují systém pro podporu rozhodování, který na základě vstupních dat od lékaře provede jejich vyhodnocení a následně predikci vývoje stavu pacienta či rozhodnutí o změně dávkování léků atd. Jiným případem je automatické monitorování stavu pacienta např. na jednotce intenzivní péče. Data z přístrojů jsou zaznamenávána na centrální server a analytická aplikace provádí v reálném čase jejich analýzu. Na základě aktuálních dat a historické zkušenosti je systém schopen vyhodnotit pravděpodobnost vzniku kritické situace předtím, neţ k ní skutečně dojde. Detekce podvodného chování (Fraud Detection) Bankovní instituce a pojišťovny potřebují na vzorce podvodného jednání reagovat velmi rychle, zpravidla v řádu několika málo minut. Proto je vhodné systémy Fraud Detection či Anti-Money Laundering zaloţit na konceptech systémů pro podporu rozhodování v reálném čase. V případě těchto systémů je doba analýzy a učinění rozhodnutí kritická pro předcházení zločinům. Obzvláště v případě elektronických bankovních transakcí jsou tyto systémy doslova zaplavovány daty, která musí co nejrychleji zpracovat a vybrané podezřelé transakce nahlásit. Call centra Pracovníci call center potřebují přímou interakci se zákazníkem na telefonu, ať uţ se jedná o prodejní call centra (cross-sell, up-sell, kreditní analýzy klienta atd.) či o servisní call centra (analýza moţných problémů zákazníka v závislosti na zakoupených produktech, predikce těchto problémů a chování zákazníka, predikce odchodu ke konkurenci atd.). Na základě zaznamenaných odpovědí a chování zákazníka je nutné v reálném čase vyhodnotit např. pravděpodobnost odchodu zákazníka ke konkurenci či v reálném čase operátorovi vybrat produkty, které můţe zákazníkovi nabídnout. Takovéto systémy musí reagovat na změny zákazníkova chování v řádu sekund, tj. během přímé interakce s ním. Automatické monitorování rozvodných sítí V oblasti utilit se nabízí moţnost automatizovaného monitorování rozvodné soustavy a následného analytického zpracování těchto dat. V oblasti energetiky se této oblasti věnovalo jiţ několik vědeckých týmů, např. [28] či [29]. V [28] je koncept real-time podpory rozhodování pouţit pro předcházení kolapsu rozvodné sítě nebo její části. Kehe a Xiaohui v [29] podobný monitorovací systém propojují s geografickým informačním systémem (GIS – Geographical Information System), který obsahuje rozdělení rozvodné sítě do tzv. gridů, které představují samostatně monitorovanou entitu. Monitorování a rozhodování v případě vzniku živelných katastrof – evakuační plány V [30] se autoři věnují problematice automatizovaného systému pro podporu rozhodování v reálném čase, který slouţí pro evakuaci osob při vzniku poţáru. Podobným způsobem je moţné tento systém uplatnit také při vzniku jiných přírodních katastrof. Na základě údajů z čidel systém v reálném čase naviguje osoby nejvhodnější cestou směrem k bezpečnému východu z budovy. Jedná se opět pouze o teoretický koncept, který musí pro správné fungování analyzovat značné mnoţství dat v reálném čase.
92
SYSTÉMOVÁ INTEGRACE 2/2011
Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky
3. Aktuální stav datové integrace v reálném čase Nástroje označované výrobci jako Data Integration Suite zpravidla obsahují několik technik pro datovou integraci. Běţné dělení zahrnuje datovou konsolidaci (Data Consolidation), propagaci dat (Data Propagation) a datovou federaci, neboli virtuální konsolidaci dat (Data Federation). Přístup pomocí vyhledávacích indexů je nazýván Data Access. Datová konsolidace zahrnuje zachycení dat z různých datových zdrojů a jejich integraci do jednoho trvalého datového úloţiště. Časová prodleva závisí na frekvenci spouštění tzv. datové pumpy, zpravidla nazývané ETL (Extraction, Transformation, Loading), nebo ELT (Extraction, Loading, Transformation). Datová konsolidace je zpravidla vyuţívána u datových skladů pro jejich aktualizaci a v rámci velkých podniků a státních institucí můţe denní aktualizace datového skladu trvat i několik hodin. Standardní technika datové konsolidace není vhodná pro datovou integraci v reálném čase – dávkové ETL procesy je nutné nahradit pruţnějším mechanismem aktualizace dat v datovém skladu. Datová propagace zahrnuje replikaci dat z různých datových zdrojů do různých cílových databází. Pouţívané technologie jsou replikace či CDC (Change Data Capture). Technologie CDC je do určité míry vhodná jako základ pro tzv. mikrodávková ETL (detailněji v [6], [31] či [32]). Tuto technologii podrobněji rozeberu v kapitole 5. Virtuální konsolidace dat poskytuje unifikovaný pohled na data z různých datových zdrojů. Data ovšem nejsou nikam přenášena a zůstávají v databázích primárních informačních systémů, popř. v jiných typech zdrojových souborů. Technologickým představitelem datové federace je technologie EII (Enterprise Information Integration), kterou jsem podrobně popsal v [33]. Metoda datové integrace nazvaná Data Access je zaloţena na principu zpřístupnění dat, který je podobný prohledávání obsahu Internetu (indexy, agregace, cache). Komerční technologie je nazývána EIA (Enterprise Information Access). Výše uvedené technologie jsou vyuţívány zejména v oblastech MDM (Master Data Management), CDI (Customer Data Integration), DWH (Data WareHousing) či datové migrace. Stávající technologie do určité míry podporují datovou integraci v reálném čase. EII je primárně určeno pro práci s aktuálními daty primárních podnikových systémů, coţ ovšem přináší na druhé straně několik problémů – výkonnost, zachycení změnových dat, náročnost na správu metadat atd. Technologie CDC zaloţená na zachycení změnových dat představuje vhodnou komponentu do celkové architektury systému pro podporu rozhodování v reálném čase. Aktuální pojetí technologie CDC je ovšem zaloţeno opět na dávkovém zpracování ETL při přenosu dat do centrálního datového skladu. Potřebu analýzy dat v reálném čase si uvědomili také tvůrci původního konceptu datových skladů a vznikla myšlenka tzv. DW 2.0 [22]. Tato architektura datového skladu nové generace přináší mj. rozdělení datového skladu na sektory – jedním z nich je tzv. Interactive Sector, který slouţí pro zpracování dat a jejich analýzu pro potřebu podpory rozhodování v reálném čase. Interaktivní sektor ovšem řeší problematiku datové integrace v reálném čase pouze částečně, problémy spojené s přenosem dat do tohoto sektoru uvedu v části 4. SYSTÉMOVÁ INTEGRACE 2/2011
93
Lukáš Pitka
Na obr. 1 jsem zobrazil přehled aktuálních integračních technologií, které jsou uvedeny výše. Do schématu jsem pro úplnost zařadil také technologii aplikační integrace EAI (Enterprise Application Integration). Schéma jsem vytvořil rozšířením a úpravou grafu z článku [34].
obr. 1 - Přehled aktuálních/konceptuálních integračních technologií Schéma zobrazuje jednotlivé aktuální technologie a konceptuální návrhy nových technologií ve dvourozměrném grafu. První rozměr (vodorovná osa) představuje Rozsah integrace, tj. zda se jedná o technologii datové integrace, aplikační integrace či procesní integrace. Vzhledem k tématu této práce je většina technologií v levé polovině schématu. Druhý rozměr ukazuje Časový rámec integrace, tj. zda se jedná o technologii dávkové integrace či integrace v reálném čase.
4. Analýza a rozbor problémů datové integrace spojených s real-time podporou rozhodování V předchozí části jsem uvedl aktuální moţnosti v oblasti datové integrace. Potřeba rozhodování v reálném čase ovšem vnáší do oblasti datové integrace nové poţadavky, na které není ţádná ze stávajících technologií plně připravena. Poţadavky na tzv. Real-Time Data Warehouse jsou poměrně jasně specifikovány např. v [35 ] nebo v [22]. Poţadavky na komponentu plnící datový sklad ovšem jiţ tak jasně specifikovány nejsou.
4.1 Technologické požadavky datové integrace v reálném čase V následujícím výčtu uvedu jasnou specifikaci nejdůleţitějších poţadavků na datovou integraci v reálném čase:
94
SYSTÉMOVÁ INTEGRACE 2/2011
Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky
získání, transformace a uloţení dat pro potřeby následné analýzy v téměř reálném čase, tj. s minimální latencí, trvalý a nepřetrţitý tok relevantních dat z primárních informačních systémů do analytického úloţiště dat (datového skladu), trvalé a nepřetrţité „fungování“ centrálního datového úloţiště, kdy na rozdíl od dávkového nahrávání dat není moţný výpadek funkčnosti analytického řešení, synchronizace datových entit napříč všemi systémy zákazníka, tj. moţnost získat např. komplexní objekt zákazníka z několika primárních systémů s minimální latencí, zajištění kvality dat, tj. jejich čištění tak, aby do centrálního úloţiště k analytickému zpracování data vstupovala v maximální moţné kvalitě, minimální nároky na primární systémy, tj. zajištění minimální spotřeby systémových prostředků primárních systémů při extrakci dat z nich, škálovatelnost řešení musí zajistit schopnost zpracovat tzv. mixed workloads, tedy zpracování velmi rozdílných objemů dat – řešení datové integrace pro real-time analýzu produkčních dat musí být schopno zpracovat jednak nepřetrţitý tok menších objemů dat, ale také musí být schopné pracovat s dávkovým zpracováním velkého objemu dat v krátkém čase, součástí procesu datové integrace je zpravidla uloţení transformovaných dat do centrálního datového úloţiště, architektura datového skladu musí být připravena na potřebu real-time analýz, historických analýz či analýz nad historickými a aktuálními daty zároveň, tj. na integraci dat různé povahy v rámci datového skladu. Výše uvedené poţadavky představují dle mého názoru v současné době základní rozdíly mezi tradičním řešením pro podporu rozhodování a řešením pro podporu rozhodování v reálném čase (ať uţ se jedná o oblast analytického CRM, BI nebo CPM). Technologie uvedené v kapitole 3 některé z těchto poţadavků řeší, ovšem ţádná z nich je komplexně nepokrývá. V následujících částech se budu podrobněji zabývat těmito dílčími technologiemi a jejich problémy z hlediska datové integrace v reálném čase. V kapitole 5 pak nastíním směr, kterým bychom se měli v rámci dalšího výzkumu této oblasti ubírat tak, aby bylo moţné kompletně zajistit výše uvedené poţadavky na real-time systém pro podporu rozhodování.
4.2 Aktuální metody datové integrace z pohledu real-time zpracování V následujících částech jsou uvedeny jednotlivé metody datové integrace uvedené v kapitole 3. Na obr. 1 jsou navíc uvedeny metody EAI a DW 2.0. Metoda EAI není dále rozpracována, jelikoţ se nejedná o metodu datové integrace, ale spíše o aplikační a procesní integraci zaloţenou na volání rozhraní. Interaktivním sektorem DW 2.0 se budu zabývat v kapitole 5, v současné době se jedná pouze o koncept, který není pouţit v reálných aplikacích. Interaktivní sektor představený v [22] mně poslouţí jako základ pro návrh řešení níţe uvedených překáţek.
SYSTÉMOVÁ INTEGRACE 2/2011
95
Lukáš Pitka
ETL (Extraction, Transformation, Loading) ETL představuje nejznámější technologii pro datovou integraci, vyuţívanou především v architektuře řešení BI a budování datových skladů. Z hlediska real-time podpory rozhodování se jedná o technologii přinášející nejvíce problémů, které je nutné překonat. Komponenty tradičního BI řešení s dávkovou ETL datovou pumpou jsou uvedeny na obr. 2.
obr. 2 - Komponenty tradičního BI řešení obsahující ETL datovou pumpu [36] Aktuální překáţky bránící v pouţití tradičního ETL konceptu při datové integraci v reálném čase jsou dle mého názoru následující: ETL nástroje jsou zaloţené na dávkovém zpracování dat, nikoli na průběţném zpracování změnových dat, na kterém je zaloţena datová integrace v reálném čase. Spouštění ETL úloh je naplánováno mimo špičku, tj. tak, aby co nejméně ovlivnilo práci uţivatelů primárních podnikových IS. Z tohoto důvodu nejsou ETL úlohy příliš optimalizovány pro minimální zátěţ zdrojových databází. Real-time datová integrace se musí ke zdrojovým databázím chovat velmi šetrně, tj. tak, aby uţivatel nepoznal probíhající úlohu přenosu dat pro analytické účely na své práci. Při provádění ETL úloh je centrální datový sklad pravidla nedostupný pro provádění analytických operací – aktualizace dat datového skladu (prováděná zpravidla v noci) umoţňuje pracovat maximálně s offline snímkem dat datového skladu. Real-time datová integrace probíhá prakticky neustále, není tedy moţné jakkoli omezit uţivatele analytického řešení znepřístupněním centrálního úloţiště dat. Navíc zpravidla potřeba maximálního přenosu dat do centrálního úloţiště koliduje se špičkou zatíţení primárního IS. Datová čistota (transformace a čištění dat představuje časově nejnáročnější operaci v ETL) je v tradičních ETL nástrojích řešena během přenosu dat do centrálního úloţiště. V případě přenosu dat v reálném čase vzniká problém s vyčištěním dat dostatečně rychle. Zpravidla není moţné na data aplikovat shodnou sadu algoritmů jako v případě dávkového zpracování. EII (Enterprise Information Integration) EII je přístup k integraci nesourodých datových typů z více datových zdrojů, přičemţ data zůstávají fyzicky uloţena pouze v těchto datových zdrojích. EII přístup se skládá z obecných pravidel, metod a poznatků businessu, které propojuje s daty organizace, technickými a softwarovými prostředky, a vytváří tak obecnou informační strategii 96
SYSTÉMOVÁ INTEGRACE 2/2011
Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky
organizace. [33] EII koncept je postaven na přístupu k datům primárních systémů v reálném čase, je tedy moţné hovořit o datové integraci v reálném čase. Základní komponenty EII řešení jsou uvedeny na obr. 3. Oproti ostatním metodám integrace data zůstávají stále v primárních systémech, tj. EII řešení pracuje pouze s metadaty, pomocí kterých je definován význam jednotlivých databází a dat v nich uloţených. Koncový uţivatel tedy můţe pracovat s daty několika systémů, od čehoţ je odstíněn vrstvou metadat – uţivatel pracuje např. s entitou zákazník, která je sloţena z několika primárních systémů.
obr. 3 - Konceptuální schéma EII řešení [33] Z hlediska datové integrace pro podporu rozhodování v reálném čase brání v nasazení EII následující překáţky: EII značným způsobem zatěţuje primární IS. Veškeré dotazy jsou prováděny přímo nad produkčními databázemi, jejichţ uţivatelé by měli být od datové integrace pro analytické účely odstíněni. Tento problém by byl zvládnutelný při optimalizovaných standardních dotazech, ovšem v případě ad-hoc analýz mohou analytické dotazy způsobit značné výkonnostní problémy. EII neřeší historii dat a jejich změny. Data primárních informačních systémů zpravidla neumoţňují časové analýzy, tj. neobsahují historii dat a jejich změn v podobě vhodné pro analytické zpracování. EII data nikam nepřenáší a pracuje tedy s daty v nevhodné formě pro analytické zpracování. Problém
SYSTÉMOVÁ INTEGRACE 2/2011
97
Lukáš Pitka
SCD (Slowly Changing Dimensions) nemá pomocí standardního EII konceptu řešení. EII pro potřeby podpory rozhodování v reálném čase není pruţné ke změně struktury dat primárních systémů. V případě tradičních řešení s meziúloţištěm ve formě datového skladu je tento problém řešitelný, v případě ETL přijdeme o původní strukturu dat a zůstane pouze struktura nová. Datová kvalita představuje v případě EII stejný problém jako v předchozím případě real-time ETL – data primárních systémů je nutné v reálném čase transformovat a vyčistit pro potřeby analytického zpracování. V případě EII je situace ještě sloţitější tím, ţe pracujeme pouze s virtuálními daty – data primárních systémů je moţné měnit pouze ve velmi omezené míře. EIA (Enterprise Information Access) EIA se od dalších výše uvedených metod datové integrace výrazně liší. Jedná se o jedinou metodu, která je určena spíše k vyhledávání informací v několika oddělených datových zdrojích. Ostatní metody slouţí primárně pro datovou integraci. EIA je řešení agregující podnikové informace z různých datových zdrojů. Data uloţená v primárních systémech jsou řešením EIA indexována a následně je uţivatel prostřednictvím funkce tzv. Enterprise Search prohledává. EIA tedy představuje jakýsi korporátní vyhledávač. Na rozdíl od ostatních metod datové integrace je EIA blíţe koncovému uţivateli, který vyhledává podnikové informace podobně jako informace na Internetu. Technologie EIA není pro analýzu dat v reálném čase vhodná. Slouţí k naprosto jiným účelům, jedná se pouze o technologický způsob prohledávání podnikového obsahu, nikoli o jeho přesun, agregace a přípravu pro analytické zpracování. V rámci výčtu jsem tuto metodu uvedl pouze pro úplnost. CDC (Change Data Capture) Metoda CDC je zaloţena na analýze logů jednotlivých primárních podnikových informačních systémů. Díky zjištění nových a změněných dat v relevantních tabulkách databáze primárních informačních systémů je moţné do centrálního úloţiště průběţně přenášet pouze tato data. Jedná se o základ metody nazvané Micro-Batch ETL (mikrodávkové ETL). Detailní popis CDC je uveden v [6],[31] či [32]. CDC kontroluje změny transakčního logu primárních databází a relevantní změny zapisuje do svých změnových tabulek - obr. 4. Následně jsou záznamy změnových tabulek přeneseny do datového skladu pomocí mikrodávkové ETL datové pumpy obr. 5. Technologie CDC je různými dodavateli různě nazývána, proto je moţné se v některých případech setkat také s označením CTF (Capture, Transform, Flow).
98
SYSTÉMOVÁ INTEGRACE 2/2011
Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky
obr. 4 - Architektura CDC (Change Data Capture) [6]
obr. 5 - Celková koncepce Micro-Batch ETL s využitím CDC [6] Jako překáţky vyuţití CDC pro datovou integraci v reálném čase vnímám zejména: Log záznamy primárních systémů nejsou zpravidla určeny pro zpracování jiným systémem. I kdyţ jsou tyto záznamy zpravidla uloţené v relační databázi, jejich struktura není vhodná pro zjišťování změn v datech/zjišťování nových dat. Aplikační log je zpravidla velmi rozsáhlý a operace nad ním mohou způsobit výkonnostní potíţe primární aplikace. CDC je určeno pouze pro strukturovaná data. V případě nestrukturovaných dat neexistuje transakční log změn, proto není moţné s nestrukturovanými daty pomocí CDC pracovat. Potřeba real-time analýzy nestrukturovaných dat ale není v současné době primárním poţadavkem v oblasti podpory rozhodování v reálném čase. CDC řeší pouze nalezení změn v databázi transakčního systému, ale jiţ se nezabývá přenosem těchto změn do centrálního datového skladu. Pro tyto účely je nutné vyuţít jiné technologie, např. ETL, která přenese data z CDC databáze do centrálního datového skladu.
5. Návrh řešení problémů Všechny tři relevantní způsoby (ETL, EII, CDC) datové integrace uvedené v předchozí kapitole mají specifický způsob pouţití. Ani jedna z nich ale není sama o sobě vhodná SYSTÉMOVÁ INTEGRACE 2/2011
99
Lukáš Pitka
pro datovou integraci v případě potřeby podpory rozhodování v reálném čase. V této kapitole představím koncept architektury řešení datové integrace v reálném čase, přičemţ tento bude v souladu s architekturou tzv. DW 2.0 [22].
5.1 Data Warehouse 2.0 Tradiční koncept datových skladů přestává dostačovat aktuálním potřebám organizací. Z tohoto důvodu byla vytvořena koncepce datového skladu nové generace – Data Warehouse 2.0 [22], která reaguje na následující změny v prostředí, ve kterém organizace působí: poţadavek na intenzivnější a širší vyuţití technologií zpracování informací, online zpracování dat, tj. zpracování, analýza dat a reakce na události v reálném čase, poţadavek po integrovaných korporátních datech, tj. odstranění jednotlivých datových sil a vytvoření skutečně jediné verze pravdy, poţadavek na zpracování a analýzu semistrukturovaných a nestrukturovaných dat, zvyšování výkonu a moţností informačních technologií – uţivatelé poţadují sofistikovanější zpracování a analýzy dat rychleji, na rozdíl od zvyšování výkonu technologií klesá jejich cena – jednotka výkonu je neustále levnější, coţ tvoří příznivé prostředí pro inovace. Z hlediska tématu článku je nejdůleţitější poţadavek na online zpracování dat. Architektura datového skladu dle koncepce DW 2.0 je uvedena na obr. 6. Pro splnění poţadavku real-time datových analýz přináší DW 2.0 tzv. Interactive Sector, který obsahuje aktuální data primárních informačních systémů. Data mohou do interaktivního sektoru DW 2.0 vstupovat dvěma způsoby. Prvním je mikrodávková ETL pumpa s metodou CDC. Druhý způsob představují aplikace implementované přímo v prostředí interaktivního sektoru DW 2.0. Na obr. 6 je v rámci interaktivního sektoru zobrazeno API (Application Programming Interface), pomocí kterého je moţné implementovat aplikace přímo v prostředí tohoto sektoru, data jsou následně ukládána aplikací v reálném čase přímo do DW 2.0 pro potřeby analytického zpracování.
100
SYSTÉMOVÁ INTEGRACE 2/2011
Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky
obr. 6 - Architektura Data Warehouse 2.0 [22 p. 25]
5.2 Koncept řešení datové integrace v reálném čase Koncepce DW 2.0 uvedená v předchozí části (a rozpracovaná v [22]) neobsahuje detailnější architekturu datové integrace v reálném čase. ETL datová pumpa přenášející data do Integrated Sector je standardní dávková ETL úloha. ETL úloha přenášející data z transakčních systémů do interaktivního sektoru DW 2.0 není v rámci práce dostatečně řešena a k technologiím ETL a CDC je moţné vznést připomínky, které jsem uvedl v části 4.2. Rozdělení datového skladu do několika sektorů dle aktuálnosti a rozdílných poţadavků na zpracování dat je vhodné. Do určité míry je moţné souhlasit také se začleněním aplikačních API přímo do prostředí interaktivního sektoru – z této koncepce ale vyplývají určité problémy (např. to, ţe datová architektura transakčních
SYSTÉMOVÁ INTEGRACE 2/2011
101
Lukáš Pitka
systémů není primárně určena pro analytické zpracování dat, ale spíše pro jejich rychlé uloţení), které jsou nad rozsah této práce. Do celkové architektury je ovšem nutné doplnit prvotní vstup dat do interaktivního sektoru, tj. koncepční způsob datové integrace mezi transakčními systémy a interaktivním sektorem DW 2.0. Komplexnější koncepci celkového řešení analytické podpory rozhodování se zapojením DW 2.0 jsem zobrazil na obr. 7. Koncepce představená tímto schématem přináší řešení problémů datové integrace pro podporu rozhodování v reálném čase, (viz kapitola 4). Zdrojové systémy obsahují data různých formátů – jedná se o data strukturovaná (typicky uloţená v některých z rozšířených databázových systémů), data nestrukturovaná (dokumenty s nestrukturovaným obsahem) a data semistrukturovaná (data uloţená např. pomocí značkovacích jazyků). Pomocí ETL a nestrukturovaných ETL procesů je moţné data přímo přenášet do prostředí DW 2.0, konkrétně do integrovaného sektoru datového skladu. Standardní, dávkový přenos informací pomocí procesu ETL není v koncepci detailněji uveden. Historická data uloţená v integrovaném sektoru je moţné pro následnou analýzu zpřístupňovat přímo datovým skladem nebo prostřednictvím datových trţišť (Data Mart). Analýza a reporting historických dat je následně určen zejména koncovým uţivatelům, kteří dostávají pravidelně aktualizované statické reporty, mají aktualizované dashboardy či vznášejí ad-hoc analytické dotazy. V určitých případech mohou být na základě těchto historických dat prováděna automatizovaná rozhodnutí v procesech podpořených dalšími IS. Analytická podpora rozhodování v reálném čase, resp. datová integrace v reálném čase je ovšem velmi odlišná. Ve stěţejní části schématu jsem navrhnul koncepci přenosu dat z primárních informačních systémů do interaktivního sektoru DW 2.0 (v koncepci nejsou zahrnuta data interaktivního sektoru vytvořená aplikacemi, které jsou v tomto sektoru umístěné). Přenos dat v reálném čase kombinuje a rozšiřuje přístupy uvedené v části 4.2. Základní bloky této koncepce jsou CDC (Change Data Capture) [23], [19], ETL Pipelining/Partitioning [23] a Metadata. Pokud bude jasně specifikována mnoţina potřebných dat pro real-time podporu rozhodování (která je, jak vyplývá z kapitoly 2, pouze velmi malou podmnoţinou veškerých dat organizace), je moţné pomocí této koncepce dosáhnout zpracování a analýzy dat v (téměř) reálném čase. Uvedený koncept odstraňuje překáţky uvedené v kapitole 4. Jeho funkčnost v reálném prostředí je ovšem nutné ověřit detailní analýzou a implementací. CDC Úlohou části CDC [23] je extrakce změnových dat z primárních systémů na základě monitorování a analýzy logů těchto systémů. Přístup k získání těchto nových/upravených dat je různý. Nejčastější moţnost představuje analýza databázových logů, jinou moţností je monitorování aplikačního rozhraní (API – Application Programming Interface) systémů. Tyto moţnosti se aktuálně týkají pouze dat strukturovaných a do určité míry semistrukturovaných. V případě nestrukturovaných dokumentů je výzkum zachycení změn do strukturované podoby v současné době na počátku. Komponenta Event Monitor provádí monitoring jednotlivých primárních systémů (za pomoci vrstvy metadat, která odstiňují zejména technologickou náročnost mapování
102
SYSTÉMOVÁ INTEGRACE 2/2011
Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky
na jednotlivé systémy, podrobněji viz část Metadata). Změny zachycené v log tabulkách/log souborech/předané pomocí programového rozhraní API jsou následně uloţeny prostřednictvím změnových tabulek v definované podobě a zpřístupněna pomocí CDC API k dalšímu zpracování v rámci řešení datové integrace v reálném čase. Pomocí CDC tedy získáváme real-time informaci o datech, která jsou pro nás z hlediska podpory rozhodování relevantní, a u kterých došlo ke změně v primárních informačních systémech organizace. ETL Pipelining/Partitioning ETL Pipelining/Partitioning představuje mechanismus přenosu dat získaných komponentou CDC do interaktivního sektoru datového skladu. CDC API předává ke zpracování minimální mnoţství dat, která je nutné v téměř reálném čase zpracovat. K tomu je v představené koncepci vyuţito především moţností ETL Pipelining a ETL Partitioning, resp. jejich vhodné kombinace. Metoda Pipelining [23] rozděluje úlohu ETL do několika paralelních subprocesů, kdy je moţné simultánně data načítat (Extraction), zpracovávat (Transformation) a nahrávat do cílových systémů (Loading). Uţ v současné době navíc řada úloh ETL procesů probíhá v paralelních větvích, kdy jsou nezávislé oblasti dat zpracovávány simultánně. Metodu Partitioning [23] je vhodné pouţít jako doplněk k ETL Pipelining. Jedná se o rozdělení datového souboru do několika dávek s menším počtem záznamů a tyto zpracovávat paralelně. Současné prostředky výpočetní techniky nejsou překáţkou ani pro jednu z těchto technik. Cílem pouţití těchto metod je rozdělení dávky z CDC komponenty na několik menších dávek, které je moţné paralelně zpracovat a uloţit do interaktivního sektoru k následné analýze v poţadovaném čase. V koncepci datové integrace v reálném čase uvedené na obr. 7 je navíc přidána moţnost tzv. ETLT (Extraction, Transformation, Loading, Transformation), tedy moţnost pokročilých transformací a čištění dat poté, co byla tato data vloţena do cílového úloţiště (ať uţ se jedná o DW 2.0 či jiné úloţiště). V případě potřeby je tedy moţné aplikovat sloţitější business pravidla aţ následně, a v rámci standardního ETL běhu pracovat pouze s časově nenáročnými transformacemi. Následná práce s daty interaktivního sektoru a návaznost na další komponenty řešení uvedeného na obr. 7 je uvedena v jiţ vydaných publikacích ([22], [4], [35], [6], [23]), schéma na obr. 7 představuje nové pouţití a sjednocení těchto komponent do prostředí pro podporu rozhodování v reálném čase. Enterprise Metadata Repository (EMR) Vrstva metadat se vztahuje ke všem komponentám řešení. Jednotná a centralizovaná vrstva metadat je pro uvedenou koncepci kritická, proto počítám s celopodnikovou správou metadat, nikoli s oddělenými úloţišti těchto informací. Přínosy jednotného EMR řešení v rámci DW 2.0 jsou uvedené v [22]. Tato myšlenka je uvedena jiţ v koncepci DW 2.0 [22], v rámci své práce jsem ji rozšířil na veškeré komponenty analytické podpory rozhodování.
SYSTÉMOVÁ INTEGRACE 2/2011
103
Lukáš Pitka
obr. 7 - Koncepce analytických systémů pro podporu rozhodování v reálném čase
104
SYSTÉMOVÁ INTEGRACE 2/2011
Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky
Metadata je moţné rozdělit do několika skupin: procesní metadata – definice datových souborů a jednotlivých prvků řešení pomocí jazyka podnikového prostředí. Definice business pravidel, pravidel datové kvality či jednotlivých datových prvků pomocí jazyka koncového uţivatele umoţňuje snadnou správu řešení a tvorbu návazných sestav a analýz. Prvek procesních metadat je znám z koncepce EII – uţivatel takto můţe do real-time řešení pro podporu rozhodování přidat další objekt podnikového prostředí bez potřeby znalosti technologického detailu řešení. Tato odstiňující vrstva následně umoţňuje načtení potřebných změnových dat komponentou CDC a propagaci informace do dalších částí řešení. technická metadata – zajišťují připojení jednotlivých částí řešení do databází či na rozhraní primárních informačních systémů, nastavení datových pump, definice dočasných tabulek atd. Jedná se o nejběţnější typ metadat. operační metadata – data o samotném analytickém systému pro podporu rozhodování, resp. o jeho běhu. Obsahuje zejména identifikaci procedur či skriptů pro tvorbu dočasných datových úloţišť a historii běhů. MDM (Master Data Management) – MDM představuje širší oblast neţ pouze správu metadat. V rámci představené koncepce řešení má tato oblast metadat naznačit nutnost aplikace principů MDM na celou architekturu. Datová kvalita, úplnost a čistota je pro oblast real-time analýz kritická – časy na čištění a transformaci dat jsou minimální, proto je nutné data administrovat co nejlépe přímo na místě jejich vzniku, tedy v primárních systémech. Navrţená koncepce vyuţívá informací z oblasti MDM pro efektivní nastavení real-time datových přenosů tak, aby nebyly prováděny operace zbytečně zpomalující celý proces.
5.3 Návaznost konceptu na metodiku MMDIS Konceptuální model řešení datové integrace v reálném čase uvedený v předchozí části klade nové nároky na metodiku implementace, nasazení a provozování informačních systémů. V této části nastíním úpravy jednotlivých částí metodiky MMDIS (Multidimensional Management and Development of Information Systems) [1] tak, aby metodika zahrnula prvek práce v reálném čase. Detailnější úpravy principů a modelů MMDIS budou předmětem návazného výzkumu. Z hlediska podpory rozhodování a datové integrace v reálném čase je nutné klást důraz zejména na následující principy MMDIS: princip integrace – v rámci principu integrace by bylo vhodné doplnit časovou dimenzi řešení, tj. u jednotlivých vazeb definovat nutnost stanovení časového rámce, který je potřebný pro dosaţení optimálního stavu integrační vazby. princip flexibility – tento princip je nastaven na úpravu parametrů uţivatelsky (osobou). V případě podpory rozhodování v reálném čase je vhodné zapracovat do řešení prvky samoučení, tj. jakési korekce parametrů v návaznosti na historický průběh procesů. V pravidlech flexibility je v rámci MMDIS vhodné doplnit moţnost automatické korekce hodnot parametrů informačního systému. princip procesního přístupu k řízení podniku a podnikové informatiky – procesní přístup je stěţejní při úvahách o zavedení systému pro podporu SYSTÉMOVÁ INTEGRACE 2/2011
105
Lukáš Pitka
rozhodování v reálném čase. V kapitole 2 je uvedena nutnost porovnávat náklady na analýzu a rozhodování v (téměř) reálném čase s přínosy, které organizace tímto systémem realizuje. Princip procesního přístupu by měl zahrnovat jednak definici časů reakce na jednotlivé události, ale také by měl obsahovat odpovídající funkce vývoje nákladů a přínosů, které s těmito událostmi souvisejí. princip učení a růstu – procesy v podpoře rozhodování v reálném čase jsou zpravidla velmi automatizované. Aby bylo moţné plně vyuţít výhod datové integrace a podpory rozhodování v reálném čase, musí být příslušné podnikové procesy alespoň formalizované, spíše však měřitelné. Měřitelné procesy mohou následně obsahovat určitý prvek samoregulace, tedy regulace svého běhu v závislosti na vstupních parametrech a okolních podmínkách. princip měřitelnosti – metriky a jejich vyhodnocování velmi úzce souvisí s předchozím principem učení a růstu. Na jejich definici, měření a vyhodnocování velmi závisí míra automatizace procesů. Vliv datové integrace a konceptu systému pro podporu rozhodování v reálném čase na jednotlivé modely MMDIS je následující: model řízení podniku založený na procesním řízení – tento model velmi přesně odráţí potřeby systémů pro podporu rozhodování v reálném čase. Jednou z hlavních myšlenek modelu je, ţe čas a rychlá reakce na interní i externí události se stává klíčovým. Další klíčová myšlenka, která je v plné shodě s potřebami podpory rozhodování v reálném čase, souvisí s vyspělostí procesů – čím vyšší vyspělost procesu, tím více je moţné prováděné činnosti automatizovat. Také vrstva monitoringu a analýzy metrik jiţ obsahuje klíčovou otázku, zda všechny vrstvy reagují na monitoring nákladově efektivně (tj. zda přínosy převýší náklady), kvalitně a včas. Pouze ve vrstvě správy zdrojů by bylo vhodné doplnit, ţe kaţdý zdroj musí být získán a udrţován nejen v dostatečném objemu a kvalitě, ale také musí být k dispozici dostatečně rychle, tj. tak rychle, jak jej vyţadují podnikové procesy. model SPSPR – v rámci modelu SPSPR je nutné zajistit optimální vazbu mezi jednotlivými vrstvami. Real-time datová integrace a obecně podpora rozhodování v reálném čase musí být velmi úzce navázána na SLA mezi IT a businessem. Obecné principy modelu zůstávají tedy zachovány, ale je nutné se v rámci modelu pohybovat více agilně. model tvorby a dalšího rozvoje IS/ICT podniku – model je potřeba v případě potřeby rozhodování v reálném čase rozšířit o metadata (resp. v něm více akcentovat jejich úlohu). Globální architektura a jednotlivé dílčí architektury představují metadata pro následné budování celopodnikového informačního systému. Vhodná definice jednotlivých architektur a vazeb mezi nimi usnadní nejen budování IS, ale také jeho následnou správu a jakékoli změnové poţadavky. V případě potřeby reagovat na vnější i vnitřní události v reálném čase je kontext, který dodávají metadata velmi důleţitý, proto je vhodné celou vrstvu zabudovat také do architektury IS/ICT. model integrace IS/ICT podniku – článek se do značné míry zabývá datovou integrací, tedy jednou částí celkového modelu integrace IS/ICT podniku. 106
SYSTÉMOVÁ INTEGRACE 2/2011
Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky
Kromě nových cest datové integrace přináší podpora rozhodování v reálném čase vyšší nároky na integraci IS/ICT s okolím a výraznou integraci s podnikovými procesy (nástroje BPM). Z hlediska obecných je MMDIS plně ve shodě s potřebami datové integrace v reálném čase. model ITGPM – v rámci modelu řízení podnikové informatiky ITGPM je nutné poznatky pro podporu rozhodování v reálném čase zařadit hned v několika oblastech. Obecné poznatky modelu jsou opět platné i v případě řešení pro podporu rozhodování v reálném čase, ale větší návaznost je nutná zejména ve stanovování efektů a nákladů na zavedení takového řešení, tj. opět je nutné do modelu promítnou otázku, zda je podpora rozhodování v reálném čase nutná a ekonomicky přínosná. Z hlediska řízení datových zdrojů, lidských zdrojů, ICT zdrojů přináší potřeba rychlé reakce vyšší nároky – zdroje musí být k dispozici rychleji, ale ve stejné kvalitě a opět za přijatelných nákladů tak, aby bylo moţné plnit velmi striktní SLA na poskytování těchto sluţeb směrem k businessu. model tvorby informační strategie – obecný model tvorby informační strategie je ve shodě s poţadavky systémů pro podporu rozhodování v reálném čase. Informační strategie v sobě musí kombinovat prvky modelů a principů uvedených výše, proto by se měly veškeré poznámky související s datovou integrací a podporou rozhodování v reálném čase brát v potaz také při jejím budování. Jednotlivé modely MMDIS jsou rozsáhlé a detailní analýza dopadů podpory rozhodování v reálném čase na jednotlivé prvky MMDIS je součástí návazného výzkumu v této oblasti.
6. Závěr Datová integrace představuje jednu z nejobsáhlejších oblastí systémů pro podporu rozhodování. Rozhodování v reálném čase vnáší do celé problematiky zcela nový rozměr – data musí být dostupná on-line ve správném formátu a v maximální moţné kvalitě tak, aby na jejich základě bylo moţné provádět analýzy slouţící pro kvalifikovaná rozhodnutí, ať jiţ automatizovaná nebo prováděná osobami v organizaci. V rámci této práce jsem představil technologický pohled na oblast datové integrace v reálném čase. Potřebu podpory rozhodování v reálném čase jsem dokumentoval v kapitole 2 za pouţití oblastí, ve kterých by zavedení těchto systémů znamenalo nezanedbatelné přínosy. Současné technologie (uvedené v kapitole 3) ovšem nejsou schopny plně zajistit datovou integraci potřebnou pro rozhodování v reálném čase. Kapitola 4 přináší analýzu překáţek a problémů, které v současné době brání dosaţení potřebné rychlosti datové integrace. Jasné pojmenování a analýza těchto slabých míst současných přístupů k datové integraci je prvním přínosem mé práce. Jasná definice současných slabých míst mně umoţnila rozpracovat koncepční návrh řešení překáţek v následující kapitole 5. V rámci této práce neuvádím detailní technologické řešení, ale spíše architektonický koncept, který je nutné v návazném výzkumu dále rozpracovat. V rámci práce jsem si nekladl za cíl detailně prozkoumat oblast datové integrace pro potřeby rozhodování v reálném čase. Proto také vnímám určité nedostatky, které je nutné odstranit návazným výzkumem v této oblasti. Jedná se především o: SYSTÉMOVÁ INTEGRACE 2/2011
107
Lukáš Pitka
rozpracování jednotlivých oblastí navrţeného řešení z kapitoly 5 na úroveň detailních návrhů určených k implementaci, praktické ověření koncepčního návrhu řešení jednotlivých překáţek uvedených v kapitole 5 a zpracování případové studie, analýzu nástrojů typu Data Integration Suite z hlediska jejich připravenosti na datovou integraci v reálném čase, analýza a prozkoumání netechnologických překáţek problémové oblasti – tedy pohled na problematiku datové integrace v reálném čase z hlediska organizačního, bezpečnostního či procesního, tj. z pohledu celkové Enterprise Architektury organizace, analýza přínosů a nákladů řešení pro podporu rozhodování v reálném čase – kapitola 2 se zabývá otázkou potřeby rozhodování v reálném čase, ale nezabývá se ekonomickou otázkou nasazení těchto řešení, začlenění prvků podpory rozhodování v reálném čase do metodiky MMDIS.
7. Literatura 1. VOŘÍŠEK, J. a kol. Principy a modely řízení podnikové informatiky. Praha : Oeconomica, 2008. 446 str. ISBN 978-80-245-1440-6. 2. FINGAR, P. AND BELLINI, J. The Real-Time Enterprise : Competing on Time with the Revolutionary Business S-Ex Machine. s.l. : Meghan-Kiffer Press, 2004. pp. 222. ISBN 0929652304. 3. SOEJARTO, A. Now is the Time for Real-Time Enterprise. Gartner. [Online] Gartner, Inc., September 27, 2002. [Cited: February 5, 2011.] http://www.gartner.com/pages/story.php.id.2646.s.8.jsp. 4. AZVINE, B., et al. Real Time Business Intelligence for the Adaptive Enterprise. San Francisco, USA : IEEE Computer Society, 2006. The 8th IEEE International Conference on E-Commerce Technology and The 3rd IEEE International Conference on Enterprise Computing, E-Commerce, and E-Services. ISBN 0-7695-2511-3. 5. ECKERSON, W. W. A Business Approach to Right-Time Decision Making. TDWI Monograph Series. 2006, June. 6. GATHIBANDHE, H., DEOGIRIKAR, S. AND GUPTA, A.K. How Smart is Real-Time BI? Information Management: How Your Business Works. [Online] Information Management and SourceMedia, Inc., January 28, 2010. [Cited: November 15, 2010.] http://www.informationmanagement.com/infodirect/2009_152/real_time_business_intelligence-100170571.html?pg=1. 7. HACKATHORN, R. The BI Watch: Real-Time to Real-Value. DM Review. 2004, January. 8. IMHOFF, C. Operational Business Intelligence – A Prescription for Operational Success. BeyeNETWORK. [Online] Powell Media, LLC, October 23, 2007. [Cited: November 16, 2010.] http://www.b-eye-network.com/view/6281.
108
SYSTÉMOVÁ INTEGRACE 2/2011
Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky
9. SWOYER, S. The Real-Time BI Dilemma. Enterprise Systems. [Online] 1105 Media Inc., April 9., 2008. [Cited: November 15, 2010.] http://esj.com/articles/2008/04/09/the-realtime-bi-dilemma.aspx?sc_lang=en. 10. GUPTA, N.D. JATINDER, FORGIONNE, A. GUISSEPPI AND MORA, T. MANUEL, [ed.]. Intelligent Decision-making Support Systems: Foundations, Applications and Challenges. London : Springer-Verlag, 2006. pp. 503. ISBN 978-1-84628-228-7. 11. BERTHOLD, H., et al. An Architecture for Ad-hoc and Collaborative Business Intelligence. New York : ACM, 2010. EDBT '10 Proceedings of the 2010 EDBT/ICDT Workshops. ISBN 978-1-60558-990-9. 12. COHEN, M. A., SAIRAMESH, J. and CHEN, M. Reducing business surprises through proactive, real-time sensing and alert management.. Seattle, Washington : USENIX Association, 2005. Proceedings of the 2005 workshop on End-to-end, sense-and-respond systems, applications and services. pp. 43-48. ISBN 1-931971-32-3. 13. KANG, JIN GU AND HAN, KWAN HEE. A Business Activity Monitoring System Supporting Real-Time Business Performance Management. Busan : IEEE Computer Society, 2008. 2008 Third International Conference on Convergence and Hybrid Information Technology. pp. 473 - 478. ISBN 978-0-7695-3407-7. 14. NGUYEN, THO MANH, SCHIEFER, JOSEF AND TJOA, A. MIN. Sense & response service architecture (SARESA): an approach towards a real-time business intelligence solution and its use for a fraud detection application. Bremen, Germany : ACM, 2005. Proceedings of the 8th ACM international workshop on Data warehousing and OLAP. pp. 77-86. ISBN 1-59593-162-7. 15. SCHIEFER, J. and SEUFERT, A. Management and Controlling of Time-Sensitive Business Processes with Sense & Respond. Vienna, Austria : IEEE Computer Society, 2005. International Conference on Computational Intelligence for Modelling, Control and Automation and International Conference on Intelligent Agents, Web Technologies and Internet Commerce Vol-1. pp. 77-82. ISBN 0-7695-2504-0. 16. SCHIEFER, J., et al. Process Information Factory: A Data Management Approach for Enhancing Business Process Intelligence. San Diego, California : IEEE Computer Society, 2004. 2004 IEEE International Conference on E-Commerce Technology (CEC'04) . pp. 162-169. ISBN 0-7695-2098-7. 17. SCHIEFER, J., et al. Event-driven rules for sensing and responding to business situations. Toronto, Ontario, Canada : ACM, 2007. Proceedings of the 2007 inaugural international conference on Distributed event-based systems. pp. 198-205. ISBN 978-1-59593-665-3. 18. SEUFERT, A. and SCHIEFER, J. Enhanced Business Intelligence - Supporting Business Processes with Real-Time Business Analytics. Copenhagen, Denmark : IEEE Computer Society, 2005. 16th International Workshop on Database and Expert Systems Applications (DEXA'05). pp. 919-925. ISBN 0-7695-2424-9. 19. DAYAL, U., et al. Data Integration Flows for Business Intelligence. New York : ACM, 2009. EDBT '09 Proceedings of the 12th International Conference on Extending Database Technology: Advances in Database . pp. 1-11. ISBN 978-1-60558-422-5.
SYSTÉMOVÁ INTEGRACE 2/2011
109
Lukáš Pitka
20. SANTOS, R.J. and BERNARDINO, J. Optimizing Data Warehouse Loading Procedures for Enabling Useful-Time Data Warehousing. New York : ACM, 2009. IDEAS '09 Proceedings of the 2009 International Database Engineering & Applications Symposium. pp. 292-299. ISBN 978-1-60558-402-7. 21. SANTOS, R. J. and BERNARDINO, J. Real-Time Data Warehouse Loading Methodology. New York : ACM, 2008. IDEAS '08 Proceedings of the 2008 international symposium on Database engineering & applications. pp. 49-58. ISBN 978-1-60558-188-0. 22. INMON, W. H., STRAUSS, D. and NEUSHLOSS, G. DW 2.0: The Architecture for the Next Generation of Data Warehousing. s.l. : Morgan Kaufmann, 2008. p. 400. ISBN 978-0123743190. 23. KOZIELSKI, S. and WREMBEL, R., [ed.]. New Trends in Data Warehousing and Data Analysis. Dordrecht : Springer Science, 2009. p. 364. ISBN 9780387874302. 24. HATCH, D. s.l. Operational BI: Getting 'Real Time' About Performance : Aberdeen Group, Inc., 2007. 25. de UGARTE, B. S., et al. Development and integration of a reactive real-time decision support system in the aluminum industry. Engineering Applications of Artificial Intelligence. September 2009, Vol. 22, 6, pp. 897-905. 26. QUINTELA, H., SANTOS, M. F. AND CORTEZ, P. Real-time intelligent decision support system for bridges structures behavior prediction.. Braga : Springer-Verlag, 2007. EPIA'07 Proceedings of the aritficial intelligence 13th Portuguese conference on Progress in artificial intelligence. pp. 124-132. ISBN 3-540-77000-3 978-3-540-77000-8. 27. FORTIER, P., et al. Development of a Hand-held Real-time Decision Support Aid for Critical Care Nursing. Hawaii . IEEE Computer Society Washington, 2003. ISBN 0-7695-1874-5. 28. CHANG, CHEN-SUNG. A Real-Time Decision Support System for Voltage Collapse Avoidance in Power Supply Networks. IEICE - Transactions on Information and Systems. 2008, Vol. E91, 6, pp. 1740-1747. 29. KEHE, WU AND XIAOHUI, WANG. s.l. The Integration of GIS and Real-Time Monitoring System for Power Grid. IEEE Computer Society Washington, 2010. ICECE '10 Proceedings of the 2010 International Conference on Electrical and Control Engineering . pp. 4425-4428. ISBN 978-0-7695-4031-3. 30. GEORGOUDAS, I., SIRAKOULIS, G. and ANDREADIS, I. s.l. An Intelligent Cellular Automaton Model for Crowd Evacuation in Fire Spreading Conditions. IEEE Computer Society Washington, 2007. pp. 36-43. ISBN 0-7695-3015-X. 31. LEVY, E. Operational BI From the Trenches. Information Management: How Your Business Works. [Online] Information Management and SourceMedia, Inc., February 17, 2009. [Cited: November 15, 2010.] http://www.informationmanagement.com/blogs/10014977-1.html. 32. WHITE, C. The Next Generation of Business Intelligence: Operational BI. Information Management: How Your Business Works. [Online] Information Management and SourceMedia, Inc., May 2005. [Cited: November 15, 2010.] http://www.information-management.com/issues/20050501/1026064-1.html?pg=1.
110
SYSTÉMOVÁ INTEGRACE 2/2011
Datová integrace pro podporu rozhodování v reálném čase: metody, technologie, překážky
33. PITKA, L. EII (Enterprise Information Integration). Systémová integrace. Vol. 14, 2007, No. 4, stránky 95-116. 34. IMHOFF, C. Understanding the Three E's of Integration EAI, EII and ETL. Information Management. [Online] Information Management and SourceMedia, Inc., April 2005. [Cited: January 30, 2011.] http://www.informationmanagement.com/issues/20050401/1023893-1.html. 35. BRUCKNER, R. M., LIST, B. and SCHIEFER, J. 2454, s.l. Striving towards Near Real-Time Data Integration for Data Warehouses. Springer, 2002, Lecture Notes in Computer Science, pp. 173-182. ISBN 3-540-46145-0. 36. NOVOTNÝ, O., POUR, J. a SLÁNSKÝ, D. Business Intelligence. Praha : Grada Publishing, a.s., 2005. ISBN 80-247-1094-3.
SYSTÉMOVÁ INTEGRACE 2/2011
111