Pilotní projekt implementace Business Intelligence ve studijní agendě VŠE v Praze Ota Novotný, Lukáš Hrnčíř katedra informačních technologií VŠE v Praze email:
[email protected]
Úvod Business Inteligence (BI) má již pevnou pozici v telekomunikacích, bankovnictví a ostatních „business“ oblastech. V akademickém prostředí v zahraničí se BI teprve prosazuje a v ČR čeká na svoji příležitost. Hlavním přínosem implementace datového skladu v rámci vysoké školy je integrace roztříštěné datové základny ze zdrojových systémů, zrychlení a zefektivnění reportingu a tím pádem ke zlepšení podpory rozhodování a zefektivnění vzdělávacího procesu, což by mělo umožnit například identifikací problematických studentů, zhodnocení studijních programů a učitelů, monitorování rozvoje a pokroků studentů podle určených standardů, apod.. V zahraničí, zejména v USA, Kanadě a Anglii, se BI v akademickém prostředí využívá celkem úspěšně. Existuje velké množství podrobně zdokumentovaných projektů i SW řešení navržených přímo pro školy. Na vysokých školách v ČR nebyly zaznamenány připravované, probíhající či dokončené projekty datového skladu a navazujících BI aplikací. V rámci úspěšně obhájených diplomových prací [HRNČÍŘ 2006] a [PETR 2006] byl na katedře informačních technologií VŠE v Praze uskutečněn pilotní projekt implementace datového skladu a návazných aplikací.
Průběh pilotního projektu Jako základ posloužila data Studijního informačního systému VŠE (SIS), který obsahuje data shromážděná za posledních 15 let. To umožňuje podrobnou analýzu historických dat. Nyní používá škola několik funkčních provozních databází, které fungují na principu transakčního zpracování, ve kterých se zaznamenávají jednotlivé události chronologicky. Jednotlivé systémy zajišťující informační potřeby VŠE jsou v současné době rozděleny do několika aplikací, z nichž každá má vlastní datovou základnu např. registrace a zápisy, bakalářské zkoušky, centrální databáze, atd. Předmětem těchto produkčních databází školy jsou mimo jiné záznamy např. o studentech, vyučujících, vyučovaných předmětech, jednotlivých konkrétních kurzech, jejich aktuální obsazení, atd. Základním předpokladem implementace datového skladu jsou stabilní zdrojové systémy, což v tomto případě není bohužel bezezbytku splněno. Momentálně přetrvává nejistota ohledně dalšího vývoje nového informačního systému na VŠE. Datový sklad vyvinutý v rámci pilotního projektu nemá za cíl zajistit komplexní BI/DW řešení pro celou VŠE, ale jen části týkající se Studijního informačního systému VŠE. To potom může posloužit spolu s analýzou požadavků jako prototyp pro další rozvoj BI na VŠE. Hlavním zdrojem datového skladu je databáze Projektu evidence studia (PES), která vznikla v roce 2000 jako jeden z prvních pokusů o datovou a aplikační integraci na VŠE. PES obsahuje většinu dat studijního informačního systému a zajišťuje např. následující funkcionalitu: historie studenta, studijní informace, tvorba rozvrhu či výběrové řízení pro výjezdy do zahraničí. Databáze PES je provozována na databázi Oracle 9i a fyzicky je umístněna na jednom ze serverů na sále Výpočetního centra. Aplikační prostředí je realizováno skriptovacím jazykem PHP3. PES vznikl z Centrální databáze, jejíž počátky sahají až do roku 51 SYSTÉMOVÁ INTEGRACE 2/2006
Ota Novotný, Lukáš Hrnčíř
1990. V roce 1992 vznikla potřeba nového databázového systému určeného pro studijní agendu v souvislosti s přechodem na kreditní systém. Proto byl zvolen databázový systém Progress, který slouží dodnes. Mezi uživatele centrální databáze patří referentky, zástupci pedagogického oddělení, děkani, proděkani, zástupci kateder a učitelé. Projekt byl rozdělen do následujících fází: 1. Zmapování metodik vhodných pro implementaci datového skladu v akademickém prostředí 2. Multikriteriální výběr metodiky 3. Aplikace metodiky v akademickém prostředí VŠE vytvořením datového skladu z dat SIS 4. Navazující analytická BI aplikace Multikriteriálním výběrem podle zvolených kriterií s ohledem na využití v akademickém prostředí byla pro pilotní projekt vybrána metodika R. Kimballa The Data Warehouse Toolkit [KIMBALL 2002], která pracuje s datovými tržišti, které tvoří datový sklad. Hlavní výhodou je rychlejší vývoj po menších částech. Narozdíl od Inmonova přístupu [INMON 2002], který je velmi náročný na počáteční analýzu, Kimball doporučuje vybudovat datová tržiště podle analytických potřeb vybraných oddělení firmy, kterým bude datové tržiště sloužit. V případě VŠE je to část Studijního informačního systému (SIS), která bude sloužit hlavně pracovníkům fakult, učitelům a vedení školy. Dále tato metodika vhodným způsobem pokrývá celý životní cyklus vytvářeného systému, poskytuje velmi cenné konkrétní příklady a případové studie. Takový přístup se jeví jako optimální pro tuto konkrétní situaci, tj. existenci roztříštěné datové základny. Tato metodika však nepokrývá odpovídajícím způsobem fázi analýzy požadavků, a byla proto v této oblasti doplněna metodikou M. Humphriese [HUMPHRIES 2001]. V metodice R. Kimballa je definováno 5 fází projektu: 1. Plánování projektu 2. Analýza požadavků 3. Technologická část 4. Datová část 5. Aplikační část V rámci plánování projektu bylo zapotřebí zajistit si kontakt na osobu či organizační jednotku v organizaci, jenž bude plnit funkci sponzora. Tuto roli převzala Katedra informačních technologií (KIT). Dalšími kroky při plánování bylo zjištění motivace a očekávání organizace související s implementací datového skladu, posouzení realizovatelnosti projektu, definice přínosů a nákladů projektu a v neposlední řadě také samotný plán projektu Analýza požadavků byla prováděna prostřednictvím interview, pro které byla vybrána Ing. Helena Benáčanová, CSc., která se věnuje oblasti reportingu pro katedru KIT a je potenciálním koncovým uživatelem BI aplikace a profesor RNDr. Jan Pelikán, CSc., který reprezentuje vedení fakulty. Uživatelské požadavky získané v interview byly analyzovány, vybrány ty hlavní a hlavním požadavkům byly přiřazeny priority (viz tabulka 1)
Požadavek Identifikace recyklovaných studentů Plnění studijních povinností studenty
Priorita
Složitost
Vysoká Vysoká
Vysoká Vysoká
52 SYSTÉMOVÁ INTEGRACE 2/2006
Pilotní projekt implementace Business Intelligence ve studijní agendě VŠE v Praze
Zápočty a zkoušky Vysoká Střední Bakalářské zkoušky Vysoká Střední Státní zkoušky Vysoká Střední Počty studentů a učitelů Vysoká Střední Úspěšnost předmětů, zkoušek a bakalářStřední Střední ských zkoušek Neúspěšné registrace Nízká Nízká Tab 1: Uživatelské požadavky zjištěné z interview s přiřazenými prioritami a složitostí V technologické části byl nejprve sestaven model nezávislý na platformě a SW. Skládal se z následujících vrstev: zdrojové systémy, Data Stage Area (DSA), datové pumpy (ETL), relační datový sklad, OLAP datamart a prezentační vrstva. Na základě požadavků definovaných pro každou vrstvu byly vybrány konkrétní produkty. Řešení bylo zvoleno na základě tvorby prototypů. Nejprve byl vytvořen prototyp pro řešení od firmy Microsoft, který je založen na databázovém serveru MS SQL server 2000, Analysis services pro ETL a Excelu pro prezentaci výstupů. Další prototyp byl založen na řešení od firmy Oracle a obsahuje databázový server Oracle 10g, Oracle warehouse Builder (OWB) pro tvorbu modelu datového skladu a ETL, Analytic Workspace Manager (AWM) pro tvorbu OLAP kostek a Excel pro prezentaci výstupů. Pro projekt datového skladu na VŠE bylo ve finále zvoleno řešení od firmy Oracle, a to zejména díky tomu, že jeden z hlavních zdrojových systémů je také založen na databázovém serveru Oracle, což usnadní přenos dat ze zdrojových systémů do datového skladu a OWB poskytuje vývojáři lepší komfort a větší množství komponent při vývoji datových pump při pokročilejší podpoře metadat. Nevýhodou řešení firmy Oracle je na druhou stranu především jeho HW náročnost oproti nástrojům firmy Microsoft. Na základě analýzy požadavků a analýzy dat ze zdrojových systémů byl sestaven návrh dimenzí a ukazatelů a byly navrženy možné vztahy mezi dimenzemi a ukazateli. Na základě dimenzionální analýzy byl sestaven fyzický model datového skladu. Následovala tvorba datových pump v OWB, které tvořily časově nejnáročnější oblast technologické části. Nejprve ETL ze zdrojových systémů do DSA, kde se jednalo zejména o přenos tabulek 1:1 ze zdrojových systémů (aby nebyly zbytečně zatěžovány) nebo nahrání textových extraktů. V DSA došlo k čištění dat a jejich přípravě pro nahrání do datového skladu. Datové pumpy z DSA do datového skladu obsahovaly náročnější transformace dat, jednalo se zejména o naplnění dimenzí, transakčních tabulek a výpočet faktů. Následovala transformace relačních dat z datového skladu do OLAP datamartu pomocí Analytic Workspace Manager (AWM). Prezentační vrstva byla realizována pomocí plugginu do v Excelu.
Výstupy pilotního projektu Součástí prezentační vrstvy jsou výstupy reflektující požadavky uživatelů uvedené v tabulce 1. Vzhledem k omezenému rozsahu článku jsou uvedeny pouze vybrané výstupy.
53 SYSTÉMOVÁ INTEGRACE 2/2006
Ota Novotný, Lukáš Hrnčíř
Tab 2: Úspěšnost bakalářských zkoušek celkově podle jednotlivých fakult a specializací
Tab 2: Úspěšnost bakalářských zkoušek celkově podle jednotlivých fakult a specializací Bakalářské zkoušky, Fakulta informatiky a statistiky (1993 - 2005) 100% 90% 80% 70% % BZ Oml
60%
% BZ Uzn
50%
% BZ Neusp
40%
% BZ Usp
30% 20% 10%
20 05
20 04 +
20 04 /
20 03 +
20 03 /
20 02 +
20 02 /
20 01 +
20 01 /
20 00 +
20 00 /
19 99 +
19 99 /
19 98 +
19 98 /
19 97 +
19 97 /
19 96 +
19 96 /
19 95
19 95 /
+
19 94 /
+
+
19 93 /
19 94
0%
Obr. 1: Úspěšnost bakalářských zkoušek probíhajících na vybrané fakultě v čase V rámci interaktivních výstupů, jejichž část je uvedena v Tabulce 2 a na Obr. 1 je možné identifikovat problémové bakalářské zkoušky a na základě získaných výsledků aplikovat příslušná opatření (např. úprava času věnovaného na výuku problémového předmětu). Výsledkem je také splnění základního požadavku nasazení BI v akademickém prostředí – zlepšení vzdělávacího procesu a příp. také prevence problémů.
54 SYSTÉMOVÁ INTEGRACE 2/2006
Pilotní projekt implementace Business Intelligence ve studijní agendě VŠE v Praze
Obr 2.: Způsob ukončení studia jednotlivých studentů na VŠE jako celku a v rámci vybraných fakult V interaktivním výstupu, jehož část je uvedena na Obr. 2 je možné identifikovat rozdíly v úspěšnosti studia na jednotlivých fakultách VŠE. Jak je vidět, mezi jednotlivými fakultami existuje významná disproporce a bude nutno dále hledat důvody takovéto odlišnosti.
Závěrem Na VŠE byl v rámci pilotního projektu implementován datový sklad s navazující BI aplikací. Svým charakterem je tato kombinace v současné době ojedinělá, neboť není známa žádná jiná aplikace tohoto charakteru v prostředí vzdělávací instituce v ČR. Datový sklad Studijního informačního systému (SIS) integruje data z datově roztříštěných zdrojových systémů a umožňuje jejich další analýzu. Pro implementaci datového skladu na VŠE byla pomocí multikriteriálního výběru zvolena metodika R. Kimballa [KIMBALL 2002]. Užití této metodiky při tvorbě tohoto datového skladu ukázalo, že se dá aplikovat i na toto specifické prostředí. Charakter systému je pouze ukázkový a jeho úkolem je pouze demonstrovat schopnosti BI/DW v akademickém prostředí. Momentálně není systém nasazen do reálného použití. Před nasazením do (testovacího) provozu bude nutné zabývat se otázkami bezpečnosti systému, definicí rolí a přístupových práv. Dále také otázkami technického řešení a infrastruktury. Po nasazení do provozu následuje v rámci životního cyklu systému fáze údržby a rozvoje. Rozšíření funkčnosti systému může být dosaženo například doplněním prezentační vrstvy dalšími specializovanými reportovacími a analytickými nástroji pro koncové uživatele. Analýza požadavků, datový sklad a navazující BI aplikace bude dále rozvíjena v rámci studentských prací tak, aby mohla být použita jako základ pro BI řešení VŠE jako celku. Vytvořený datový sklad a aplikace budou také sloužit jako prototyp, který může ukázat uskutečnitelnost návrhu a praktické přínosy nasazení BI pro vedení a zaměstnance školy.
Použitá literatura: [HRNČÍŘ 2006] Hrnčíř, L: Aplikace Business intelligence ve studijní agendě VŠE v Praze – datové pumpy a realizace datového skladu, Diplomová práce, VŠE, 2006 [HUMPHRIES 2001] Humphries, Mark: Data warehousing – data a implementace, Praha, Computer press, 2001, 257 s., ISBN 80-7226-560-1 55 SYSTÉMOVÁ INTEGRACE 2/2006
Ota Novotný, Lukáš Hrnčíř
[INMON 2002] Inmon, W. H.: Building the Data Warehouse , Canada, John Wiley & Sons, 2002, 412 s., ISBN 0-471-08130-2 [KIMBALL 2002] Kimball R., Ross M.: The Data Warehouse Toolkit – second edition, Wiley computer publishing, New York, 2002, 447 s., ISBN 0-47120024-7 [PETR 2006] Petr, J: Aplikace business intelligence ve studijní agendě VŠE v Praze – aplikační část, Diplomová práce, VŠE, 2006
56 SYSTÉMOVÁ INTEGRACE 2/2006