Business Intelligence pro univerzitní prostředí Martin Závodný, Robert Pergl Katedra informačního inženýrství Provozně ekonomická fakulta České zemědělské univerzity Kamýcká 129, 165 21 Praha 6 – Suchdol
[email protected],
[email protected] Abstrakt: V příspěvku je představen metodický rámec vhodný pro analýzu, návrh a implementaci Business Intelligence systémů pro prostředí vzdělávacích a výzkumných institucí (VVI). Tento typ analytických aplikací umožňuje svým uživatelům monitorovat výkonnostní ukazatele týkající se určité agendy (např. studijní agendy) a podporuje proces rozhodování na všech úrovních řízení dané agendy. Dále je v příspěvku prezentována případová studie, jež byla realizována s použitím představeného rámce. Abstract: The contribution presents a methodology framework for analysis, design and implementation of Business Intelligence systems suitable for educational and research institutions. This type of analytical applications enables its users to monitor performance indicators related to chosen agenda (e.g. study agenda) and supports decision making process on all levels of management of the given agenda. A case study performed using the presented methodology framework is also described in the contribution. Klíčová slova: Business Intelligence, metodický rámec, analýza, návrh, implementace, vzdělávací a výzkumné instituce Keywords: Business Intelligence, methodology framework, analysis, design, implementation, educational and research institutes
1. Cíl Příspěvek se zabývá problematikou analýzy, návrhu a implementace Business Intelligence systémů pro prostředí vzdělávacích a výzkumných institucí (VVI), především vysokých škol. V příspěvku je prezentován metodický rámec vytvořený autory pro provádění analýzy, návrhu a implmementace a je též prezentován pilotní projekt, jež využívá zmíněnou metodiku.
2. Metodika Prezentovaný metodický rámec vznikl na základě analýzy existujících metodik v oblasti BI a byla syntetizována do podoby vhodné pro BI aplikace studijní a ekonomické agendy vzdělávacích institucí. Syntéza byla provedena v návaznosti na provedenou analýzu požadavků a potřeb zmíněných agend. Pilotní projekt byl realizován v prostředí Provozně ekonomické fakulty České zemědělské univerzity. Byly shromážděny informační potřeby, které bude pokrývat navržená aplikace. Potřeby byly prioritizovány a s použitím metod a technik prezentovaného rámce byla navržena a implementována pilotní aplikace.
288
SYSTÉMOVÁ INTEGRACE 2 - PŘÍLOHA/2011
Business Intelligence pro univerzitní prostředí
3. Výsledky 3.1 BI v prostředí VVI Business Intelligence (BI) systémy patří do skupiny systémů pro podporu rozhodování. Tyto systémy zpracovávají data zejména z interních provozních systémů organizací a ve vhodné agregované formě je poskytují uživatelům, kteří na jejich základě činí rozhodnutí operativního, taktického nebo strategického významu [6]. Pro univerzitní prostředí je typická heterogenita informačních systémů (IS). Obvykle se setkáváme s následujícími typovými IS: IS evidující sylaby předmětů. Rozvrhy předmětů, učitelů a místností. Evidence studijních agend a výsledků (zápočty, zkoušky, závěrečné práce, apod.). IS pro podporu e-learningu. IS podporující výzkumné činnosti (granty, projekty, evidence publikační činnosti). Administrativní agendy (správa budov, kolejí a menz, aj.). Kromě těchto specifických agend se samozřejmě setkáváme i s ostatními IS běžnými ve všech podnicích a institucích, např. Personální a mzdová agenda. Ekonomicko-finanční agenda (účetnictví, majetek, manažerské plánování a rozpočtování), aj. Již z tohoto výčtu je zřejmé, že prostředí VVI se vyznačuje vysokou rozmanitostí aplikační infrastruktury, ve které figurují nejen systémy různého zaměření, ale též platformy, technologie a dodavatelé. Z hlediska architektury používaných systémů se v našich podmínkách setkáváme spíše s méně kvalitními řešeními, což je dáno typicky menšími rozpočty VVI. Spolupráce, výměna dat a integrace není tedy často jednoduchá úloha. Navíc dolování dat z provozních systémů zatěžuje nevhodně systémy a dochází k často velmi citelným zpomalením. V prostředí VVI, kde k některým systémům přistupuje současně velmi mnoho uživatelů (až tisíce studentů), je tento aspekt též velmi důležitý. Z tohoto důvodu je vybudování vhodného datového skladu a BI systému strategickou záležitostí přinášející vysokou přidanou hodnotu a zvyšující konkurenceschopnost. Základní technologií, kterou BI systémy využívají, je tzv. On-Line Analytical Processing (OLAP). OLAP je technologie založená především na koncepci multidimenzionálních databází, které umožňují sledovat data potřebná pro rozhodování, tzv. ukazatele, ve vztahu k jejich relevantnímu kontextu, tzv. dimenzím. Příkladem může být analýza výsledků zkoušek, kdy sledujeme počty vykonaných zkoušek v členění podle výsledku zkoušky, předmětu, učitelů, oborů, semestru studia, kdy byla zkouška složena, a dalších 1 (obr. (1)).
1
Jelikož pilotní systém byl navržen v angličtině, autoři se rozhodli ponechat anglickou terminologii. SYSTÉMOVÁ INTEGRACE 2 - PŘÍLOHA/2011
289
Martin Závodný, Robert Pergl
Obr. 1. Multidimenzionální analýza – sledování počtu vykonaných zkoušek dle času, kdy byla složena, předmětu a výsledku zkoušky Vývoj Business Intelligence systémů je v porovnání s tvorbou klasických podnikových informačních systémů odlišný. BI je silně orientováno na podporu rozhodovacího procesu, dominantními komponentami jsou datová a prezentační vrstva. Tvorba BI systémů vyžaduje využití vhodného konceptu, který zaručí, že navržené řešení bude splňovat výchozí zadání a že budou vzaty v úvahu specifické rysy systémů tohoto typu i podmínky, v rámci nichž je řešení realizováno.
3.2 Koncept analýzy a návrhu BI systémů v prostředí VVI Následuje popis jednotlivých fází vývoje BI systémů spolu s identifikací rizik ovlivňujících úspěšnost zavedení BI.
3.2.1 Analýza informačních potřeb uživatelů Úvodní fází vývoje BI systémů je analýza informačních potřeb uživatelů, která má za cíl vymezit data, která budou uživateli prezentována ve vhodné podobě (např. v podobě sady reportů a grafů), nebo budou využita jako zdroj pro ad-hoc analýzy, data mining a další. Při identifikaci a zpřesňování informační potřeby je vhodné čerpat z existujících modelů pro doménovou oblast (pro VVI např. [2]), které doporučují využívání určitých typů reportů, resp. stanovují klíčové výkonnostní ukazatele (takzvané Key Performance Indicators), které je vhodné v rámci VVI sledovat. Tyto modely bývají často cenným know-how specializovaných konzultačních společností. Úkolem BI projektů je technicky zabezpečit včasné dodání hodnot ukazatelů definovaných těmito modely vedoucím pracovníkům dané organizace . Ve fázi analýzy je potřeba stanovit obsah, vhodný rozsah sledovaných údajů a požadavky na vizuální podobu výstupu. Co se týče klíčových výkonnostních ukazatelů, jejich počet by měl být omezen. Je doporučováno soustředit se v rámci jedné řízené oblasti podniku spíš na menší počet klíčových ukazatelů (do počtu 10). Velký počet
290
SYSTÉMOVÁ INTEGRACE 2 - PŘÍLOHA/2011
Business Intelligence pro univerzitní prostředí
implementovaných ukazatelů BI projekt spíše prodražuje a není obvykle ze strany uživatelů plně využit. Součástí této fáze by měla být tzv. dimenzní analýza ukazatelů, v rámci níž je potřeba určit, zda je žádoucí určitý ukazatel sledovat z různých pohledů, a pokud ano, jakou mají mít tyto pohledy strukturu (např. ukazatel počtu vykonaných zkoušek může být sledován přes časovou dimenzi v struktuře rok, měsíc, den a dále přes dimenzi předmětů se strukturou oborů a předmětů). Vhodným nástrojem pro analýzu je použití tzv. dimenzní tabulky (ukázka v tab. (1)), která zachycuje vztah, zda je určitá dimenze relevantní vzhledem k danému ukazateli. Každá dimenze musí mít zároveň nadefinovánu svoji hierarchickou strukturu, přes kterou je ukazatel nahlížen (viz [5]). Rozpad ukazatele přes dimenze je jednou ze základních funkčností aplikace BI, není však potřebný pro všechny typy analýz. Metriky \ Předmět Semestr Výsledek Čas Učitel Student Dimenze studia zkoušky Počet zkoušek
x
Počet studentů
X
x
x
X
x
x x
Počet učitelů
x
x
Počet předmětů
x
x Tab. 1. Ukázka části dimenzní tabulky
V případě některých ukazatelů se rovněž nastavují cílové (plánované) hodnoty, na základě kterých je v provozu možno vyhodnocovat úspěšnost naplňování cílů měřených těmito ukazateli (např. ukazatele pro vyhodnocování úrovně služeb – Service Level Agreement). O nedosažení určité hodnoty může být uživatel informován prostřednictvím automatické notifikace. Každý ukazatel by měl mít definovaného svého zodpovědného vlastníka a přesný způsob výpočtu. Bude-li například sledován ukazatel úspěšnost podaných grantových žádostí, je potřeba z odpovídající množiny dat spočítat poměr úspěšných žádostí a všech podaných žádostí. Je nutné rovněž určit, na základě jakého údaje mají být data pro výpočet ukazatele zařazena do kontextu (dimenze). Například granty mohou být zařazeny do časové dimenze podle data podání či rozhodnutí o přijetí/nepřijetí. Důležitou součástí analýzy je definice požadavků na odezvu systému a aktuálnost získaných dat. Kritickým faktorem této fáze je úplnost analýzy informačních požadavků a přesná definice výkonnostních ukazatelů.
3.2.2 Analýza datové základny Na analýzu požadavků navazuje analýza datové základny instituce, neboť je potřeba určit zdroje, ze kterých mohou být data čerpána pro naplnění datové vrstvy BI řešení. Jako nástroj je zde vhodné uplatnit tzv. mapovací tabulku, která zachycuje pokrytí navržených ukazatelů a dimenzí zdrojovými datovými objekty (z produkčních databází, příklad viz tab. (2)). SYSTÉMOVÁ INTEGRACE 2 - PŘÍLOHA/2011
291
Martin Závodný, Robert Pergl
Dimenze/metrika
Zdroj
Počet zkoušek
Hroch.T_ExamRes
Předmět
Hroch.T_Subject
Semestr studia
Hroch.T_Students
Učitel
Hroch.T_Teachers
Student
Hroch.T_Students
Výsledek zkoušky
Hroch.T_ExamRes
Čas
Hroch.T_ExamRes Tab. 2. Ukázka mapovací tabulky
Analýza datové základny determinuje další postup. Je vhodné se zaměřit na požadavky, které jsou pokryty daty a které nevyžadují nadměrné úsilí pro jejich získání. Požadavky z fáze analýzy informačních potřeb se promítají do požadavků na provozní systémy, neboť ty jsou zdrojem dat, která informační potřebu pokryjí. Z analýzy datové základny vyplyne, zda pro určitou oblast, která má být sledována, v instituci existují vhodná data. Neexistence relevantních dat generuje požadavky na úpravy zdrojových systémů. Tyto požadavky je vhodné prioritizovat na základě analýzy nákladů a přínosů a řešit dále v rámci vývoje zdrojových systémů.
3.2.3 Návrh řešení a jeho architektury Data, která jsou uživateli prezentována ve vhodné vizuální podobě, je velmi vhodné u rozsáhlejších řešení zpracovávat v několika stupních. Z velkoobjemových databází produkčních systémů jsou data nahrávána do dočasných úložišť, dále do jednoúčelových analytických databází a také komplexních datových skladů. Cílem je mít na konci tohoto řetězce data v takové podobě, aby je bylo možné flexibilně a agregovaně prezentovat uživateli, případně mu umožnit s předpřipravenými daty dále pracovat s pomocí dalších analytických nástrojů (např. aplikace pro data mining). Nad zdrojovými systémy by kromě odlévání dat do dočasných úložišť neměly probíhat jakékoli transformace, neboť by mohlo dojít k nadměrnému zatížení a omezení jejich řádného provozu. Příprava dat v datové vrstvě zahrnuje řešení řady transformačních úloh, souvisí s aspekty týkajícími se kvality dat, včasností získávání dat ze zdrojových úložišť, správou metadat, zabezpečením a další. Platí zásada, že do oblasti dočasných úložišť je vhodné získat co nejvíce dat transakčních systémů. Do dalších vrstev, kterými jsou datový sklad nebo datové tržiště, 2 kam jsou data transformována do vhodné struktury a často historizována , by měla být přenášena pouze data pro analytické účely. Pro případ budoucí potřeby doplnit datový sklad nebo datové tržiště je výhodnější mít tato data připravena v dočasném úložišti, než je získávat od počátku ze zdrojových systémů. Návrh vhodné architektury řešení datové vrstvy závisí na konkrétních podmínkách instituce. Architektura by měla brát v potaz rozsah zahrnutých zdrojových systémů, objemy dat přenášených mezi komponentami 2
Data, u nichž je rozlišena doba jejich vzniku a platnosti.
292
SYSTÉMOVÁ INTEGRACE 2 - PŘÍLOHA/2011
Business Intelligence pro univerzitní prostředí
datové vrstvy, požadavky na aktuálnost dat a dále potřebné kapacity na uložení velkých objemů historizovaných dat v datovém skladu nebo datovém tržišti. V současnosti se uplatňují především architektura nezávislých datových tržišť a architektura konsolidovaného datového skladu nebo jejich kombinace (viz [3]). Přehledové schéma typické architektury je na obr. (2). Tmavějším odstínem je vyznačena komponenta „Online analytical processing“, které v rámci našeho projektu věnujeme především. Pro podporu dimenzního sledování ukazatelů je na základě analýzy navržen vhodný datový model, jeho technickou implementací bývá hvězdicové schéma, schéma sněhové vločky nebo normalizované uložení s využitím vrstvy pohledů, podrobněji viz [4], ukázka viz obr. (3). Analytical Layer Planning
Reporting Dasboarding Scorecarding On-line Analytical Processing
In-Memory Analytics
Data Layer Components
Independent Data Mart
Dependent Data Mart
Metadata
Data Processing
Event Management
Data Mining
Data Warehouse Operational Data Store
Data Staging Area
Data Transformation Components Extraction Transformation Load
Internal systems
Enterprise Application Integration
External systems
Obr. 2. Typická architektura BI systémů Při návrhu architektury je potřeba počítat s budoucími požadavky na změny obsahu reportingu. BI aplikace prochází obdobně jako jiné kategorie aplikací svým životním cyklem a vyvíjí se. Vývoj s sebou nese především požadavky na změny výstupních reportů, změny datového modelu datové vrstvy a zejména změny ve zdrojových systémech, které je potřeba promítnout tak, aby nebylo narušeno nahrávání dat do datové vrstvy BI řešení. Z tohoto důvodu je nezbytné u BI systémů uchovávat metadata na všech úrovních řešení, aby bylo možno provést dopadovou analýzu (lineage analýzu) v případě změn ve zdrojových systémech. Kritickým bodem této fáze je řešení požadavků na zajištění dostatečné výkonnost BI infrastruktury a také návrh datového modelu. Konečnou komponentou návrhu řešení je analytická aplikace (dashboard, reporting, scoracarding, data mining, atd.).
SYSTÉMOVÁ INTEGRACE 2 - PŘÍLOHA/2011
293
Martin Závodný, Robert Pergl
dim_department ID_department (PK)
department_name
dim_subject ID_subject (PK) ID_department (FK) subject_name
dim_time ID_time (PK) year week
dim_teacher ID_teacher (PK) ID_subject (FK) teacher_name
dim_student
exam_results ID_teacher (FK) ID_subject (FK) ID_student (FK) ID_time (FK) ID_result_cat (FK) count_of_results
dim_result_cat ID_result_cat (PK) result_category
ID_student (PK) ID_branch (FK) student_name
dim_branch ID_branch(PK) branch_name
Obr. 3. Ukázka transformace relačního schématu do schématu sněhové vločky Analýzu a návrh BI systémů je vhodné sepsat do podoby specifikace řešení popisující požadavky uživatelů (na reporting), obsahující logický pohled na komponenty systémy BI a datový pohled řešící datovou vrstvu a transformační procedury.
3.3 Pilotní projekt BI na PEF ČZU Popsaná metodika byla prakticky využita v pilotním projektu analýzy, návrhu a implementace BI systému pro studijní a ekonomickou agendu Provozně ekonomické fakulty České zemědělské univerzity podporovaném interní grantovou agenturou. Projekt proběhl v průběhu minulého roku a byl zaměřen zejména na analýzu informačních potřeb, návrh vrstvy datového tržiště a návrh vhodných OLAP kostek pro sledování definovaných ukazatelů pokrývajících informační potřeby vedení fakulty. Očekávání od navrhované BI systému byla zejména následující: Možnost identifikace problémových předmětů výuky – analýza studijních výsledků může indikovat potřebu rozšířit časovou dotaci předmětů, zkvalitnit výukové materiály, upravit návaznosti předmětů ve studijních plánech a další. Možnost prevence vyloučení studentů ze studia – identifikace rizikových skupin studentů a návrh vhodných opatření. Optimalizace struktury pedagogických pracovníků – možnost analýzy počtů pracovníků dle akademické hodnosti, typu úvazku, objemu zajišťované výuky, odpracovaných let a další.
294
SYSTÉMOVÁ INTEGRACE 2 - PŘÍLOHA/2011
Business Intelligence pro univerzitní prostředí
Optimalizace čerpání finančních prostředků a možnost analýzy struktury příjmů – sledování alokace nákladů a rozpočtu dle nákladových středisek, sledování původu příjmů dle typu finančního zdroje. V souladu se záměrem projektu byly zpracovávány vstupy získané rešerší literatury a analýzou procesů studijní a ekonomické agendy PEF ČZU. Byl navržen prototyp aplikace v systému Cognos Express, datová vrstva v podobě datového tržiště byla vytvořena nad databázi MS SQL Server Po analýze informačních potřeb byl navržen kompletní datový model nezávislého datového tržiště vytvářený na obecné konceptuální úrovni pro oblast VVI (ukázka modelu byla použita pro obr. (3)), tento model byl následně přizpůsoben podmínkám ČZU s ohledem na data dostupná ve zdrojovém systému Hroch (IS pro studijní agendu). Dále byla vytvořena databáze v MS SQL Server s navrženým schématem, která byla iniciálně naplněna extrakty s testovacími daty. Nad těmito daty byla vytvářena sada OLAP kostek s ukazateli a hierarchickými dimenzemi, které byly definovány v rámci dimenzní analýzy (tab. (1)): kostka pro analýzu studijních výsledků, sledování statistik studentů, sledování statistik učitelů, sledování statistik předmětů. Pro oblast ekonomické agendy byly v pilotním projektu navrženy tři kostky: sledování nákladů, příjmů, sledování rozpočtu. Výsledky je možno flexibilně agregovat na úroveň většího celku, např. průměrný studijní výsledek všech studentů, kteří daný předmět absolvovali, nebo zobrazovat detail za konkrétního studenta. Lze například také agregovat výsledky daného předmětu za celou dobu výuky předmětu nebo zobrazit v detailu za jednotlivé semestry výuky. Tento princip je označován jako tzv. drill-down a drill-up. Ukázková obrazovka výsledné aplikace je na obr. (4).
4. Závěr V příspěvku byla ve stručnosti představena metodika analýzy, návrhu a implementace Business Intelligence systémů pro prostředí vzdělávacích a výzkumných institucí. Popsaná metodika zastřešuje nejlepší praktiky a techniky, jež jsou úspěšně v praxi používány, a je uzpůsobena pro specifika prostředí vzdělávacích a výzkumných institucí. V rámci omezeného rozsahu příspěvku nebylo možno se věnovat všem částem metodiky, např. řešení datové kvality s ohledem na tvorbu BI řešení, vhodnou strukturu řešitelského týmu a rolí, problematika podpůrných nástrojů používaných při analýze a návrhu BI řešení, obsah dokumentace BI projektů, aspekty odhadu složitosti a pracnosti BI projektu a další. Prezentovaný pilotní projekt BI na PEF ČZU posloužil jako vhodná případová studie. Na základě praktického řešení byla metodika ještě zpřesněna, mírně rozšířena a upravena. V současnosti je plánováno pokračování projektu a ostré nasazení.
SYSTÉMOVÁ INTEGRACE 2 - PŘÍLOHA/2011
295
Martin Závodný, Robert Pergl
Obr. 4. Ukázková obrazovka pilotní BI aplikace na PEF ČZU
5. Literatura [1]
[2]
[3] [4]
[5] [6]
ČECH, P., BUREŠ, V.: Utilisation of Business Intelligence in an Educational Environment, In: Formatex 2006 Proceedings, 2006, p. 210-214. ISBN 84-690-2471-X. GALA, D.: KPI for Educational Institutions, 2009, dostupné on-line na http://blog.maia-intelligence.com/2009/09/07/kpi-for-educational-institutions/ (únor 2011). INMON, H. W.: Buildig the Data Warehouse. Wiley Publishing, 2005, Indianapolis. ISBN 0-7645-9944-5. KIMBALL, R., ROSS, M.: The Data Warehouse Toolkit – The Complete Guide To Dimensional Modeling. Wiley Compure Publishing, New York, 2002. ISBN 0-471-20024-7. NOVOTNÝ, O., POUR, J., SLÁNSKÝ, D.: Business Intelligence – Jak využít bohatství ve vašich datech. Grada Publishing, 2004, Praha. ISBN 80-247-1094-3. ZÁVODNÝ, M., STRUSKA Z.: Návrh metodiky analýzy, nasazení a rozvoje Business Intelligence systému, sborník konference Agrární perspektivy 2009. Praha 2009 ISBN 978-80-213-1965-3.
Dedikace Příspěvek byl vytvořen s podporou grantu č. 201011130053 Interní grantové agentury Provozně ekonomické fakulty České zemědělské univerzity v Praze a grantu č. 2C06004 Inteligentní nástroje pro hodnocení relevance a strukturování obsahu obecných i specializovaných zdrojů dat, informací a znalostí (IZMAN), Ministerstva školství, mládeže a tělovýchovy České republiky
296
SYSTÉMOVÁ INTEGRACE 2 - PŘÍLOHA/2011