Dr. Molnár Bálint ©
Bevezetés - Az üzleti intelligencia fogalma
KUTATÁSI TANULMÁNY ADATBÁNYÁSZATI MEGOLDÁSOK FEJLESZTÉSI IRÁNYA - OLAP TECHNOLÓGIÁJÚ MEGOLDÁSOK BEVEZETHETŐSÉGÉNEK ELEMZÉSE
1 (106)
Dr. Molnár Bálint ©
Bevezetés - Az üzleti intelligencia fogalma
Tartalomjegyzék 1 2
Bevezetés - Az üzleti intelligencia fogalma ................................................................. 7 A szervezeti és informatikai stratégia illesztése ......................................................... 8 2.1 Az üzleti intelligencia szerepe az információellátásban.................................. 10 2.2 Hajtóerők az üzleti intelligencia technológiai fejlődésében: ........................... 11 2.3 Stratégiai teljesítménymenedzsment eszközök ................................................ 12 2.4 A folyamat-kontrolling mint az informatikai és vállalati stratégia illesztése 13 2.4.1 A folyamat-kontrolling szabályozóköre .................................................... 15 2.5 Üzleti intelligencia szervezeti keretei és irányítása.......................................... 16 2.6 Egy üzleti intelligencia rendszer klasszikus adatáramlási architektúrája ..... 17 2.7 Adat, információ, tudás és az információs igény.............................................. 17 2.8 Mutatószám rendszer (Scorecarding)................................................................. 18 2.9 Üzleti, vállalati teljesítmény kezelés (Business Performance Management) 18 3 OLAP alapfogalmai....................................................................................................... 18 3.1 Az OLTP és az OLAP.............................................................................................. 19 3.2 Dr. Codd’s OLAP szabályai ................................................................................. 20 3.3 Adatkocka - Többdimenziós elemzés alapfogalmai......................................... 23 3.4 Műveletek a többdimenziós adatelemzésben ................................................... 24 3.5 OLAP elemzések lehetősége költséges adattárház nélkül ............................. 27 4 Az adatbányászat elméleti háttere.............................................................................. 27 4.1 Az adatbányászat fontossága .............................................................................. 27 4.2 Az adatbányászat definíciója............................................................................... 27 4.3 Adatbányászati rendszer architektúrája ............................................................ 28 4.4 A SEMMA módszertan (SAS Enterprise Miner) .............................................. 29 4.4.1 Mintavételezés (Sampling)........................................................................... 30 4.4.2 Feltárás (Exploration).................................................................................... 30 4.4.3 Módosítás (Modification) ............................................................................. 32 4.4.4 Modellezés (Modeling)................................................................................. 33 4.4.5 Értékelés (Assessment) ................................................................................. 34 4.5 CRISP-DM (CRoss Industry Standard Process for Data Mining) .................. 35 4.6 Adatbányászati módszerek.................................................................................. 36 4.7 Az adatbányászati technikák csoportosítása..................................................... 36 4.8 Felhasználási területek ......................................................................................... 37 4.9 Előrejelző elemzések ............................................................................................. 38 4.10 Statisztikai regresszió............................................................................................ 38 4.10.1 Lineáris regresszió......................................................................................... 38 4.10.2 Nemlineáris regresszió ................................................................................. 39 4.11 Döntési fák.............................................................................................................. 40 4.11.1 CART algoritmus........................................................................................... 41 4.11.2 CHAID ............................................................................................................ 42 4.12 Adatbányászati modellek..................................................................................... 43 4.12.1 Gépi tanulás ..................................................................................................... 43 4.12.2 Felügyelt tanulás ........................................................................................... 44 4.12.3 Nem felügyelt tanulás................................................................................... 45 4.12.4 Neurális hálózatok ........................................................................................ 46 2 (106)
Dr. Molnár Bálint © 4.12.5 4.12.6 4.12.7 4.12.8 4.12.9
5
6
7
8
Bevezetés - Az üzleti intelligencia fogalma
Mesterséges neurális hálózatok................................................................... 46 Mesterséges neuron....................................................................................... 46 A Kohonen háló ............................................................................................. 48 A SOM algoritmus ........................................................................................ 49 Memóriában végzett következtetés (Memory-based reasoning (MBR)) 50 4.12.10 Genetikus algoritmusok ........................................................................... 50 4.13 Leíró elemzések ..................................................................................................... 51 4.13.1 Klaszterelemzés ............................................................................................. 52 4.13.2 Nem hierarchikus klaszterképzés ............................................................... 52 4.13.3 Asszociáció elemzés (Kapcsolat elemzés).................................................. 53 4.13.4 Adatmegjelenítő eljárások............................................................................ 54 4.14 Fuzzy-rendszerek .................................................................................................. 54 4.15 Szövegbányászat ................................................................................................... 55 4.16 Világháló bányászat - Web mining..................................................................... 55 Hagyományos statisztikai területek és adatbányászat ............................................ 56 5.1 Statisztika kontra adatbányászat........................................................................ 56 5.2 Adatbányászat által nyújtott korszerűbb megközelítések .............................. 57 5.2.1 Mesterséges intelligencia és az adatbányászat.......................................... 57 Néhány kereskedelmi forgalomban kapható üzleti intelligencia rendszer (BI) .. 58 6.1 A jelenlegi BI piacvezetők .................................................................................... 58 6.1.1 Cognos ............................................................................................................ 59 6.1.2 Oracle .............................................................................................................. 60 6.1.3 SAS................................................................................................................... 60 6.1.4 SAP .................................................................................................................. 61 6.1.5 Microsoft......................................................................................................... 62 6.1.6 SPSS ................................................................................................................. 63 6.1.7 Business Objects üzleti intelligencia megoldások (SAP) ......................... 63 Nyílt forráskódú adatbányászati rendszerek............................................................ 67 7.1 Kereskedelmi nyílt forráskódú üzleti intelligencia .......................................... 67 7.2 A nyílt forráskódú üzleti intelligencia rendszerek gazdaságossági kérdései 68 7.3 Kettős termékkínálat ............................................................................................. 69 7.4 Nyílt forráskódú üzleti intelligencia megoldások ............................................ 70 7.5 Nyílt forráskódú licencek..................................................................................... 70 Nyílt forráskódú üzleti intelligencia rendszerek...................................................... 71 8.1 Pentaho ................................................................................................................... 71 8.2 A vállalat bemutatása ........................................................................................... 71 8.3 Pentaho BI Suite Enterprise Edition 3 ................................................................ 72 8.4 A Pentaho eszközei és termékkínálata ............................................................... 72 8.4.1 Pentaho Reporting......................................................................................... 73 8.4.2 Pentaho Analysis ........................................................................................... 73 8.4.3 Pentaho Dashboards ..................................................................................... 73 8.4.4 Pentaho Data Integration ............................................................................. 74 8.4.5 Weka - Pentaho Data Mining....................................................................... 74 8.4.6 A Community és az Enterprise Edition összehasonlítása ....................... 76
3 (106)
Dr. Molnár Bálint ©
Bevezetés - Az üzleti intelligencia fogalma
8.5 . RapidMiner .......................................................................................................... 78 8.5.1 A RapidMiner-ről általában......................................................................... 78 8.5.2 A RapidMiner funkcionalitása .................................................................... 78 8.6 Talend...................................................................................................................... 81 8.6.1 A Talend Open Studio .................................................................................. 81 8.6.2 A Talend termékei......................................................................................... 84 8.6.3 Talend használhatósága bevezethetősége ................................................. 86 8.7 JasperSoft ................................................................................................................ 87 9 Az adatbányászat szerepe az üzleti intelligenciában............................................... 87 10 Az adatbányászati technológiák é szervezeti folyamatok jellemzése ............... 88 10.1 Adatbányászati folyamatok ................................................................................. 88 10.1.1 Adatbányászat ............................................................................................... 88 10.1.2 Cselekvés ........................................................................................................ 90 10.1.3 Eredmények mérése...................................................................................... 90 10.2 Adatbányászat alkalmazási területei ........................................................................ 90 10.3 Ügyfélkapcsolat menedzsment (CRM) .............................................................. 90 10.3.1 CRM definíció ................................................................................................ 90 10.3.2 Az adatok elemezése..................................................................................... 93 11 Megvalósíthatósági kérdések .................................................................................. 94 11.1 Az üzleti intelligencia területének várható fejlődése ....................................... 94 11.2 Üzleti intelligencia megoldás bevezetése és buktatói ...................................... 96 11.3 BI eszköz kiválasztása........................................................................................... 97 11.4 A bevezetési projektek.......................................................................................... 97 11.5 A bevezetés leggyakoribb problémái ................................................................. 98 11.6 A BI projektek sikerességét befolyásoló tényezők............................................ 98 11.7 A BI projektek leggyakoribb buktatói ................................................................ 98 11.8 BI költségösszetevői .............................................................................................. 99 12 Üzleti intelligencia, adatbányászat és több dimenziós elemzés megvalósíthatósági kérdései Vatera.hu-nál ...................................................................... 99 12.1 Vásárlói magatartás modellezése........................................................................ 99 12.2 Adatbázis alapú vásárlói magatartás előrejelzés............................................ 100 12.3 A vásárló értékének vizsgálata.......................................................................... 101 12.4 A külvilág eseményeinek figyelembevétele az adatokban ........................... 101 12.5 Törzsvásárlói és egyéb ösztönzési programok ............................................... 102 12.6 Adatbányászat az ügyfél kapcsolattartásban.................................................. 102 12.7 OLAP alkalmazhatóság az ügyfél kapcsolattartásban................................... 103 12.8 A vállalkozás vezetése felé nyújtott információk ........................................... 104 13 Irodalom ................................................................................................................... 105
4 (106)
Dr. Molnár Bálint ©
Bevezetés - Az üzleti intelligencia fogalma
Ábrajegyzék 1. ábra Döntéshozó csoportok információigénye [Forrás: BCE Információrendszerek Tanszék]..................................................................................................................................................................9 2. ábra: Az IT‐alkalmazások szerepe a vállalat működésében ..................................................... 10 3. ábra: Az üzleti intelligencia szerepe a vállalati információellátásban ................................. 11 4. ábra: Az EIM referenciamodellje .......................................................................................................... 12 5. ábra Folyamatteljesítmény kontrolling [Forrás: IFUA 2006].................................................. 14 6. ábra A folyamat kontrolling szabályozóköre [Forrás: IFUA 2006] ....................................... 15 7. ábra Üzleti intelligencia klasszikus architektúrája [Forrás: IFUA]........................................ 17 8. ábra OLTP és OLAP (Kő – Lovrics, 2003) ......................................................................................... 19 9. ábra: Eladási adatok háromdimenziós adatkockája .................................................................... 23 10. ábra Az adatkockán végezhető műveletek (Abonyi, 2006, 62.oldal)................................. 26 11. ábra: Adatbányászati rendszer adat és alkalmazás kiszolgáló architektúrája .............. 29 12. ábra: A CRISP‐DM lépései ..................................................................................................................... 35 13. ábra: Példa a kétváltozós lineáris regresszióra (Abonyi, 2006. 274.old) ........................ 39 14. ábra: Példa egyszerű kétváltozós matematikai döntési fára................................................. 41 15. ábra: CHAID algoritmussal generált döntési fa [Forrás: http://www.smartdrill.com/About/process4.html] ....................................................................... 43 16. ábra: Egy mesterséges neuron vázlata (Turban et. al., 2010)............................................... 47 17. ábra: A Kohonen háló (Sárközy, 2005) ........................................................................................... 48 18. ábra: Kétdimenziós térkép ................................................................................................................... 49 19. ábra: Színek csoportosítása SOM részéről..................................................................................... 50 20. ábra Klaszterek.......................................................................................................................................... 53 21. ábra: Business Intelligence Platform Magic Qudrantja, 2007............................................... 58 22. ábra 2011 Magic Quadrant for Business Intelligence Platforms ........................................ 59 23. ábra: SAS adattárház ............................................................................................................................... 61 24. ábra: SAP BW komponensek ............................................................................................................... 62 25. ábra: A szemantikus réteg .................................................................................................................... 64 26. ábra: A Business Objects termékstruktúrája................................................................................ 66 27. ábra: Oktatóprogram .............................................................................................................................. 67 28. ábra: A Community és az Enterprise Edition összehasonlítása Forrás: Pentaho: Compare Pentaho Community and Enterprise Edition Products, http://www.pentaho.com/products/enterprise/enterprise_comparison.php................... 77 29. ábra: Az operátor fa kinézete Forrás: RapidMiner: Screenshots, http://rapid‐ i.com/content/view/122/139/lang,en/ ............................................................................................... 80 30. ábra: A Talend Integration Suite modellje Forrás: Talend: Talend Integration Suite, http://www.talend.com/products‐data‐integration/talend‐integration‐suite.php.......... 85 31. ábra: A Talend On Demand modellje Forrás: Talned: Talend On Demand, http://www.talend.com/talend‐on‐demand/talend‐on‐demand.php .................................... 86 32. ábra Az adatbányászat értékteremtő folyamata (Fajszi – Cser, 2004, 12.old) .............. 89 33. ábra: CRM alkalmazások kördiagramja (Forrás: SAS) ............................................................. 93 34. ábra: Az üzleti intelligencia fejlődési irányai............................................................................. 95
5 (106)
Dr. Molnár Bálint ©
Bevezetés - Az üzleti intelligencia fogalma
Táblázatjegyzék
1. Táblázat Az OLTP és az OLAP összehasonlítása ............................................................................ 19 2. táblázat2: Mérföldkövek a BI‐technológia várható fejlődésében........................................... 95
6 (106)
Dr. Molnár Bálint ©
Bevezetés - Az üzleti intelligencia fogalma
1 Bevezetés - Az üzleti intelligencia fogalma Ebben a fejezetben az üzleti intelligenciához kapcsolódó alapfogalmakat mutatjuk be. Az informatikában viszonylag új fogalom az üzleti intelligencia, ezért nem lehet egységes meghatározást fellelni a szakirodalomban, valamint a szakterülettel foglalkozó vállalatok weboldalain sem. Az egyes definíciók néhol teljesen különböző módon közelítik meg az üzleti intelligencia fogalmát függetlenül attól, hogy a szakirodalomban jelent-e meg, vagy a szakma képviselőitől hangzott-e el. Először néhány, a szakirodalmakban fellelhető definíciót, majd az üzleti életben maghatározó szereplők által közzétett meghatározást mutatunk be: „ Olyan módszerek, fogalmak halmazát jelenti, melyek a döntéshozás folyamatát javítják adatok és ún. szakterület alapú rendszerek használatával. A "szakterület rendszer" fogalma a következő alrendszereket foglalja magába: Vezetői információrendszerek (Executive Information Systems); Döntéstámogató rendszerek (Decision Support Systems, DSS); Vállalat irányítási információrendszerek (Enterprise Information Systems); Üzleti információ elemző rendszerek (Online Analitical Processing (OLAP)); Adat és szövegbányászat; Adat vizualizáció Térinformatikai rendszerek (Geographic Information Systems, GIS). [Howard Dresner, Gartner Group, 1989] Egy másik megközelítés, mely a definíciót a rendszer forrásoldaláról közelíti meg: „Az üzleti intelligencia sokféle forrásból származó adatot, információt (és tudást) használ fel az üzleti döntéshozatalban. Az üzleti analitika (elemzés) mindezt egy újabb dimenzióval gazdagítja: modellekkel és megoldásokat szolgáltató eljárásokkal.” (Turban 2010). Végül egy szakirodalomban fellelhető , véleményem szerint az üzleti intelligenciát a legjobban leíró definíció „Az üzleti intelligencia olyan eszközök és eljárások együttese, mely lehetővé teszi a vállalkozás alapadatainak magasabb, vezetői szintű elemzését.”(Kókai 2005) A szakirodalmakban elhangzott definíciók után az üzleti élet szereplői részéről elhangzott meghatározások: Microsoft : „Az Üzleti Intelligencia a jobb és gyorsabb döntéshozatalról szól – a megfelelő információ biztosításáról a megfelelő emberek számára, a megfelelő időben, a megfelelő formában. Már nem a vezetők és elemzők kizárólagos territóriuma, mert vállalati szinten ma már mindenki hozzáfér a fontos üzleti adatokhoz, így valós idejű döntéshozókká válnak, akiknek így megalapozott tevékenységében közvetlenül megjelenik a vállalat stratégiája. A siker kulcsa ma már az, hogy a szervezetek hogyan képesek az adatokat feldolgozni, és azokra reagálni a szervezet minden szintjén.” IFUA Horváth & Partners: „ Az Üzleti intelligencia megoldások (BI, Business Intelligence) körébe olyan alkalmazások és technológiák tartoznak, melyek célja, hogy a szükséges adatokhoz való hozzáférés biztosításával, ezen adatok megfelelő tárolásával, valamint sokoldalú 7 (106)
Dr. Molnár Bálint ©
A szervezeti és informatikai stratégia illesztése
elemzési lehetőségekkel támogassák a vállalati döntéshozatalt. Az üzleti intelligencia megoldások magukban foglalják tehát az adattárolási, a valós idejű lekérdezési, analitikai, előrejelzési és adatbányászati eljárások modern formáit.” És végül egy olyan definíció, mely egy másik oldalról közelíti meg ugyan azt a fogalmat: BiXPERT: „Intelligence = 1. Intelligencia, 2. Felderítés (hírszerzés, információ-szerzés) Business Intelligence = Üzleti Felderítés. Az Üzleti Intelligencia értelmezése tehát sokkal inkább egy olyan vezetői készség, képesség, tudás és megérzés, amelyet nem lehet szoftveres alkalmazással helyettesíteni.” Valamint szintén a BiXPERT Kft.-nél található másik definíció: „Heterogén adatforrásokból származó adatokból stratégiai és taktikai döntéseket támogató vezetői információ előállítása konzisztens módon és egységes felületen” Összefoglalva elmondható, hogy az üzleti intelligencia adatokat elemez és dolgoz fel különböző informatikai rendszerek segítségével (ezen informatikai rendszereket hívjuk BI eszközöknek), támogatva a vezetői döntéshozatalt.
2 A szervezeti és informatikai stratégia illesztése A szervezeti és informatika stratégia illesztése a stratégiai menedzsment és a stratégia illesztése kontextusában értelmezhető. Definíció: A szervezeti és informatika stratégia illesztését úgy lehet felfogni mint egy olyan mértéket, amely azt méri, hogy a szervezet informatikai stratégiája és informatikai infrastruktúrája milyen mértékben áll összhangban a szervezet üzleti stratégiai célkitűzésével és szervezeti infrastruktúrájával. (Nickles 2004). Ez a definíció tovább bővíthető a következőkkel: A célok, a stratégiák, az architektúrák, a szolgáltatások, a folyamatok és a szervezeti kultúra összhangja, amely fennáll a szervezeten belül mind az informatikai funkció mind a szakterületek között. A vállalatok szervezeti struktúrája általában három szintből áll: operatív, taktikai és stratégiai. Operatív szinten a vállalat mindennapi működéséhez szükséges információkat állítja elő. Ez a folyamatos működés zavartalanságát hivatott segíteni, valamint az ehhez szükséges információkkal látja el az egyes tevékenységeket. Taktikai szinten többnyire középvezetők állnak, ők határozzák meg a fontosabb feladatokat, valamint elvégzik a vállalat valódi és elvárt teljesítményének az összehasonlítását, és szükség szerint beavatkoznak a folyamatokba. Stratégiai szinten a vezetők a hosszú távú feladatokkal foglalkoznak, és ennek megfelelően az ehhez szükséges információkat várják el a vezetői rendszertől. Ezen a szinten a vezetőket a kulcsfontosságú adatok érdeklik és nem szükséges, sőt fölösleges őket terhelni a részletesebb adatokkal, mert a hosszú távú döntésekhez nem szükségesek.
8 (106)
Dr. Molnár Bálint ©
A szervezeti és informatikai stratégia illesztése
1. ábra Döntéshozó csoportok információigénye [Forrás: BCE Információrendszerek Tanszék] Általánosságban megfogalmazható, hogy az üzleti intelligencia legnagyobb értéke, hogy az információ visszakerül a végfelhasználóhoz. Ehhez a Microsoft vizualizációs eszköznek az Excelt használja, természetesen az Excel hátterében működik egy OLAP, illetve adattárház. Ez utóbbi kettő is jelen van a Microsoft termékportfoliójában. Az Exceles vizualizáció tapasztalatok szerint az egyik leginkább felhasználóbarát megoldás. Ez abból is jól látszik, hogy a többi szállító esetében is (Cognos, SAP, Oracle) sokszor a felhasználók által nagyon kedvelt Excel táblázat jelenti a végső megjelenítő felületet. A vezetői döntéstámogatási perspektíva a következő előfeltevéseken nyugszik (dr. Drótos György, 2001, 75. old.): o A szervezetek működésének eredményességét a döntések minősége határozza meg. o A döntések minősége azon múlik, hogy meghozásukhoz szükséges információ rendelkezésre áll-e. o A döntéseket a vezetők hozzák a szervezetekben. o A szervezeti információrendszerek legfontosabb feladata tehát a vezetők ellátása a döntéseik meghozatalához szükséges információval. A vállalatok operatív és stratégiai folyamatait támogató IT alkalmazások szerepét szemlélteti a 2. ábra. 9 (106)
Dr. Molnár Bálint ©
A szervezeti és informatikai stratégia illesztése
Vállalati szintű döntéshozatali és stratégiai irányítási folyamatok
IT alkalmazások Üzleti intelligencia (BI)
Beszállítói lánc kezelése (SCM)
Operatív vállalatirányítás (ERP)
Ügyfélkapcsolatok kezelése (CRM)
A vállalat operatív (termelő-szolgáltató) folyamatai
2. ábra: Az IT‐alkalmazások szerepe a vállalat működésében
2.1 Az üzleti intelligencia szerepe az információellátásban A 3. ábra egy általános vállalat információellátási ciklusát szemlélteti. Négy szakaszt különböztet meg: 1. Előállítás – ez a szakasz olyan operatív irányítási és munkafolyamattámogató
alkalmazásokat
tartalmaz,
amelyek
a
vállalati
információk
elsődleges forrásai. 2. Rendszerezés - olyan alkalmazásokat fog össze, amelyek a vállalati szintű információk konszolidációjáért és integrációjáért felelősek. 3. Elemzés - különböző olyan alkalmazásokat tartalmaz, amelyek a vállalati szintű információk egyszerű ill. komplex elemzését végzik. 4. Hasznosítás - olyan döntéstámogatási és beavatkozási alkalmazásokat fed le, amelyek az irányítási és termelési-szolgáltatási folyamatok ill. rendszerek működésé re lehetnek közvetlen hatással.
10 (106)
Dr. Molnár Bálint ©
A szervezeti és informatikai stratégia illesztése Üzleti intelligencia
vállalati munkafolyamat támogatása
1. ELŐÁLLÍTÁS
EAI
vállalati működés támogatása Egyéb alk.
2. RENDSZEREZÉS
3. ELEMZÉS
metaadatkezelés kutatási és elemzési adattárház
metaadattár
vállalati adattárház
ERP
CRM
adattranszformáció és -integrálás
SCM
kigyűjtés, átalakítás és betöltés
4. HASZNOSÍTÁS vállalat teljesítményalapú írányítása (CPM)
adatelemzés, adatbányászat, információfeltárás
adattárolás
vállalatközi együttműködés támogatása
adatpiacok
operatív adattár
ügyfélkapcsolat vállalatirányítás döntéstámogatás (DSS) beszállítói lánc
operatív piacok
értékesítési lánc üzleti folyamatok felügyelete (BAM)
Külső források
A vállalati információellátás ciklusa
3. ábra: Az üzleti intelligencia szerepe a vállalati információellátásban1 Az üzleti intelligenciát a 3. ábra 2. és 3. szakaszaként lehet közelebbről meghatározni. Ezek alapján tehát az üzleti intelligencia az informatikai alkalmazások és eszközök összessége, amelyek a vállalati információk összegyűjtését, rendszerezését, elemzését és további hasznosításra (elsősorban döntéshozatalra) való átadását végzik.
2.2
Hajtóerők az üzleti intelligencia technológiai fejlődésében: Alkalmazások számának és használhatóságának növekedése Adatbázisok képességeinek fejlődése Tároló rendszerek képességeinek fejlődése Adatmennyiség mértéktelen növekedése Teljesítményalapú irányítás Adatok átlátásának, megértésének fontossága Jogszabályi megfelelés
1
Az adattárház-technológia kezdeményezője, Bill Inmon nyomán.
11 (106)
Dr. Molnár Bálint ©
A szervezeti és informatikai stratégia illesztése
Ezek a hajtóerők várhatóan olyan változásokat okoznak, amelyek a vállalatok információvagyonának2 a mainál jóval egységesebb, összetettebb és közvetlenebb hasznosítását eredményezik. Ennek hatására az üzleti intelligencia sokkal jobban össze fog fonódni a vállalatok operatív ill. stratégiai folyamatainak irányításával, és a legfontosabb hajtóerővé válik a vállalati szintű információgazdálkodás (Enterprise Information Management - EIM) kialakulása felé vezető úton. Ennek célját és egyes rétegeit az ún. EIM referenciamodell írja le (4. ábra). üzleti folyamatok összeállítása
üzleti folyamatok platformja
integrált összeállítási technológiák üzleti szolgáltatások tára egyedi alkalmazások
termékek tartalom- és adatkezelése
ügyféladatok integrációja adatátalakítás tartalomintegráció
csomagalkalmazások
külső szolgáltatások
üzleti intelligencia alkalmazások
Adat-szolgáltatások adatgazdál adatkodás mozgatás adat adatbeszerzés bővítés
alkalmazási portfólió
vállalati tartalomkezelés adatelérés adatminőség
Metaadatkezelés és szemantikai egyeztetés modellek tárak és nyíl- szabványok üzleti szabályok vántartások keresés sémák osztályozás
EIM infrastruktúra
tranzakciós, operatív éa analítikus forrásokból ügyfél alapadat
termék alapadat
eszköz alapadat
külső adatforrások
vállalati adattárház
struktúrált, félig struktúrált és nem-struktúrált tartalmakból
4. ábra: Az EIM referenciamodellje3
2.3 Stratégiai teljesítménymenedzsment eszközök „A vállalati teljesítménymenedzsment az a mindennapos feladat, amelynek során a szervezetet a humán és pénzügyi erőforrások optimalizálásával, a hosszú‐ és a rövidtávú vállalati stratégiával összhangban közös célkitűzések és a tulajdonosi célok elérése érdekében menedzselik” (Portik, 2008) A fenti szemléletmód megvalósításának egyik elterjedt módszertana a kiegyensúlyozott mutató számrendszer ((Balanced Scorecard (BSC)) modell, ahol a stratégiai célokat hierarchiák mentén bontják le elemi, mérhető célok-ra. Miért éri meg bevezetni ezt a módszertant? A BSC modell előnyei: a vezetőség jövőképét közös, szervezeti jövőképpé alakítja 2
„Az információs vagyon az adat, az információ és a tudás felhalmozott értéke, az információs tőke.” Forrás:
Dobay Péter, 1997, 134. old. 3
Forrás: Gartner nyomán
12 (106)
Dr. Molnár Bálint ©
A szervezeti és informatikai stratégia illesztése
a stratégiát könnyen értelmezhető és összehangolt célokká bontja le a célokhoz mutatókat, elvárásokat és akciókat rendel támogatja a tervezést és a visszamérést alkalmas az ok-okozati összefüggések megfogalmazására
Ezen célok mérését manapság már a vállalati adattárház adatai alapján oldják meg, tehát az üzleti intelligencia a BSC alkalmazásában fontos szerepet játszik. A BI szerepe azonban sok megoldás esetében túlmutat az adatok egyszerű kiszolgálásán. Napjainkra a legtöbb üzleti intelligencia rendszer már tartalmaz olyan modult, mely ezen BSC mutatókat ki tudja számolni, és a feldolgozott adatokat grafikusan meg tudja jeleníteni. Ezeket a mutatókat a megfelelő szelektálás után az úgynevezett dashboard-okra (műszerfalakra, vezérlőpultokra) szokás elhelyezni, ahol a felelős vezető közvetlenül belépés után egy áttekintő képet kap arról, hogy a szervezet mennyiben követi a stratégiai célok teljesülését. Amennyiben a dashboard szemlélője abnormális működésre utaló adatokra lesz figyelmes, akkor az OLAP technikában ismert lefúrás segítségével a hibás adatra kattintva lehetősége van a „rosszul viselkedő” mutató adatainak egyre részletesebb megtekintésére, és egyúttal az okok felderítésére is. (Kaplan & Norton, 1999)
2.4 A folyamat-kontrolling mint az informatikai és vállalati stratégia illesztése A folyamat-teljesítmény növelésének - ami a folyamat valamely jellemzője szerinti javítást jelenti: minőség, költség, idő, ciklusidő, biztonság szempontjából - egyik leghatékonyabb eszköze a rendszeres mérés és a mérés során szerzett tapasztalatok alapján a folyamatok továbbfejlesztése. A cél ugyanis az, hogy irányítani lehessen a vállalati folyamatokat és ez által fejlődést lehessen elérni a vállalati teljesítményben. Az irányítás természetesen azt is magába foglalja, hogy nem csupán észleljük a változásokat a folyamatokban, hanem reagálni is tudunk azokra. A megfelelő reakcióhoz feltétlenül ismerni kell a folyamatokban bekövetkezett változások okát. Érdemes különbséget tenni a szervezeti teljesítménycsökkenések okai között. Előfordulhat, hogy nyáron a dolgozók szabadságra mennek, és azért csökken a vállalat teljesítménye, de az is lehet, hogy maga a belső folyamat működik hibásan és azon kellene változtatni. A példaként említett két eset teljesen eltérő reakciót igényel a vállalatvezetés részéről. Míg az első esetben „csupán” HR oldalról kellene jobban kezelni az emberek szabadságolását, addig ez utóbbi esetben már előfordulhat, hogy komoly strukturális illetve koncepcionális problémák állnak a teljesítménycsökkenés hátterében. A folyamat-kontrolling sikeres működéséhez nélkülözhetetlen a megfelelő indikátorok definiálása. Ezen mutatóknak le kell képezniük a költséget, az időt és a minőséget. E három területnek egyensúlyban kell lenni ahhoz, hogy ne borítsák fel a folyamatmérés egyensúlyát. A folyamat-kontrolling természetesen nem csupán mutatószámokból áll. Azt is állandóan ellenőrizni kell, hogy az egyes folyamatok elérték-e az előre definiált folyamatcélokat. Amennyiben a vállalat vezetése úgy dönt, hogy a legutóbb elért eredmény nem elegendő, úgy megteremtik a 13 (106)
Dr. Molnár Bálint ©
A szervezeti és informatikai stratégia illesztése
folyamatfejlesztés szükségességét. Ez a tevékenység rendszeres időközönként ismétlődik, beépülve a vállalat mindennapi üzletmenetébe. A folyamat-kontrolling alkalmazásának két fő területe van: A stratégiai és operatív teljesítmény mérése, ellenőrzése.
5. ábra Folyamatteljesítmény kontrolling [Forrás: IFUA 2006] Ahhoz, hogy képet kapjunk a teljesítményről, mindenképpen olyan információkat kell kapnunk, amelyek megfelelően leírják a stratégiai folyamatteljesítményt. Stratégiai cél egy szervezet esetében lehet a vállalat versenyképességének javítása, az árbevétel növelése 20%-kal vagy akár az üzletszerzési folyamatköltség csökkentése 20%-kal. Ezzel szemben a vállalat operatív sikeréhez a futó folyamatok vagy tevékenységek figyelemmel kísérése szükséges. Ennek klasszikus területe az erőforrás tervezés. Erőforrás tervezés egyik legismertebb és leggyakrabban használt területe a költségtervezés, mely a folyamatok tervezésekor szintén kulcsfontosságú. A folyamatok erőforrásainak (emberi és nem emberi) megtervezésekor információt kapunk a folyamatok hatékonyságáról, mind költségoldalról, mind az egyéb szükséges erőforrások oldaláról. A stratégiai a jövőkép első szintű részletesebb lebontása, amely már konkrétumokat is tartalmaz. Ezt tovább lehet bontani kisebb célterületekre, működési folyamatokra, mint például a marketing, gazdálkodás, vagy projektek. A célok egy kisebb közösség érdekeinek összehangolódását jelenti, mely területek együttműködve kell, hogy a vállalati stratégiát képviseljék. Ezen célok megvalósulásához szükséges meghatározni az ehhez kapcsolódó operatív teendőket/feladatokat. A stratégiai folyamatcélok része a folyamatok outputjának ellenőrzése, valamint a nem kívánt változások felderítése az egyes folyamatokban. Ellenőriznie kell, hogy a folyamatok összhangban vannak-e a stratégiai célokkal és, hogy elérték-e a kívánt eredményességet. Természetesen nem azonnal kell elérniük a stratégiai célokat, hanem ezek eléréséhez kiemelkedőjelentőségű elvárásokat kell csupán teljesíteniük. Összefoglalva a folyamatcontrolling egy olyan eszköz, mely biztosítja a szükséges információkat a folyamatcélok eléréséhez.
14 (106)
Dr. Molnár Bálint ©
A szervezeti és informatikai stratégia illesztése
2.4.1 A folyamat-kontrolling szabályozóköre A „hagyományos” kontrollingtól annyiban különbözik a folyamat-kontrolling, hogy ez utóbbinak szabályozóköre a folyamatokra is érvényes. Az ábra (6. ábra) alapján jól látható, hogy külön kell bontani a bevezetési szakaszt és a mindennapi üzletmenetben való alkalmazást. A bevezetési szakasz során először azt kell eldönteni, hogy a vállalat mely folyamataira szeretnénk bevezetni a folyamatkontrollingot. Természetesen törekedni kell arra, hogy a vállalat összes folyamatára bevezessük, de mindenképpen érdemes pilot jelleggel egy-egy területen „kipróbálni” a rendszer működését. Ahhoz, hogy fennakadások nélkül működhessen egy ilyen rendszer, tisztázni kell a folyamatok illeszkedését a szervezeti struktúrába. Folyamatok esetében a folyamatfelelős feladata ellenőrizni és megfelelően működtetni a folyamatokat. Ehhez feltétlenül szükséges annak tisztázása, hogy a folyamatfelelős hogyan illeszkedik a szervezeti struktúrába, és hogy milyen hatáskörökkel rendelkezik az adott feladat betöltéséhez. Ezen felül érdemes kijelölni egy szervezeti egységet, amely felel az egész folyamat-kontrollingért. Ez a szervezeti egység jellemzően a kontrolling lehet, de sok vállalat esetében ezt a funkciót a minőségbiztosítási részleghez rendelik. Ez utóbbinak a hátránya az lehet, hogy nem tudnak megfelelő tartalmi ellenőrzést végezni a különböző szakmai területeken. A bevezetés során még egy kulcsfontosságú tényező meghatározása fontos: a rendszeresség. Ahhoz, hogy a folyamat-kontrollingot be lehessen építeni a vállalat irányításába, a rendszer használatának gyakoriságát össze kell hangolni az üzleti igényekkel. Az eddigi – bevezetéssel kapcsolatos-tevékenységek egy folyamatkontrolling rendszer esetében egyszeri tevékenységet jelentenek. Az ezt követő tevékenységek azonban folyamatos és visszatérő feladatokat jelentenek a szervezet számára.
6. ábra A folyamat kontrolling szabályozóköre [Forrás: IFUA 2006] A folyamat kontrolling bevezetés utáni szakaszai: Tervezés 15 (106)
Dr. Molnár Bálint ©
A szervezeti és informatikai stratégia illesztése
A tervezés első fázisa minden esetben a már korábban említett stratégiai-és operatív folyamati célok meghatározása. A célok meghatározása után definiálni kell az ezekhez tartozó teljesítménymutatókat a célértékekkel együtt. Nem szabad elfelejteni a meghatározott teljesítménymutatók előállításához tartozó erőforrásigény tervet sem. Minden folyamathoz általában 1-3 célt határoznak meg, amelyikből nem mindegyik lesz közvetlenül folyamatcél. Ezek meghatározásánál abból kell kiindulni, hogy milyen elvárásai vannak a folyamat „fogyasztójának”, azaz mi legyen a folyamat outputja. Nem érdemes a célokból sokkal többet meghatározni, mert akkor jóval nehezebb koncentrálni az egyes célokra, aminek az lesz a következménye, hogy egyik cél sem fog teljesülni A folyamatcélok ismeretében már meghatározhatók az azt leíró mutatók, valamint azok célértékei. Ezen mutatók definiálásakor érdemes azt figyelembe venni, hogy a létrehozott mutató előállításának ne legyen magasabb a költsége, mint amekkora hasznot hozhat maga a mutató, azaz legyen költségtakaékos. 1. Végrehajtás A végrehajtás az előző(tervezési) fázis során meghozott döntések normál üzletmenetbe való implementálását jelenti. Ezzel átültetve a működésbe a folyamatcélokat. 2. Ellenőrzés Ahhoz, hogy az előbb végrehajtott két fázis sikeresen működhessen elengedhetetlen azoknak az ellenőrzése. Ebben a szakaszban ellenőrizzük azt, hogy a korábban meghatározott stratégiai és operatív céloknak vajon eleget tesznek-e a folyamatok. Ebben a szakaszban történik a terv/tény összehasonlítás, valamint az esetleges eltérések okainak felderítése. Ezt az eltérést meg kell vizsgálni minden egyes folyamat esetében, és ahhoz, hogy megállapíthassuk ennek esetleges okait meg kell nézni a folyamatokhoz tartozó mutatókat is(azok célértéktől való eltérését). Ezen eltérések elemzésére gyakran használnak vizuális megjelenítő eszközöket (pl.grafikonok, ábrák, cockpit), azért hogy ezek elemzése jóval gyorsabban megtörténhessen, illetve már ránézésre látni lehessen mi az, ami nem a normál üzletmenetnek megfelelően működik. A stratégiai és operatív célok ellenőrzését nem érdemes ugyan olyan rendszerességgel vizsgálni, hiszen míg egy stratégiai célhoz képesti eltérést jellemzően elegendő negyedévente vizsgálni, addig az operatív működést lehet akár naponta is ellenőrizni a gyorsabb beavatkozás érdekében. 3. Beavatkozás Az előző szakasz során feltárt hiányosságok, illetve problémák esetén gyakran elengedhetetlen a korábban meghatározott folyamatokon való változtatás. Ezen kiigazítások elindítanak egy újabb tervezési fázist, ahol újra meghatározzák az egyes folyamatcélokat.
2.5
Üzleti intelligencia szervezeti keretei és irányítása
Az üzleti intelligenciával való foglalkozás céljaira létrehozható egy szervezeti egység, amelynek a fő feladatai a következők lehetnek: Az üzleti intelligencia stratégia kialakítása; Koncepcióalkotás, tanácsadás Az igények, követelmények rangsorba állítása, a szakmai tartalom figyelembevételével; 16 (106)
Dr. Molnár Bálint ©
A szervezeti és informatikai stratégia illesztése
Az üzleti intelligenciát alkalmazók, oktatása, képzése, szakmai támogatása; Az ismerte, tudás, bevált gyakorlat átadásának megszervezése a szervezeten belül; A kulcsfelhasználók tevékenységének szervezése és irányítása; Az üzleti intelligencia projektek folyamatainak, alkalmazási módszereknek a kialakítása; Az üzleti intelligencia mint információrendszer szolgáltatással kapcsolatos szolgáltatási szint megállapodások kezelése.;
2.6 Egy üzleti intelligencia rendszer klasszikus adatáramlási architektúrája 7. ábra Üzleti intelligencia klasszikus architektúrája [Forrás: IFUA] Az ábra (7. ábra) leegyszerűsítve az adat áramlásának lehetséges útjait mutatja egy
tipikus üzleti intelligencia rendszerben. Az adatáramlásnak három fő állomása van: Forrásrendszer (adatforrás): ezek jellemzően a belső tranzakciós(OLTP) rendszerek, de lehetnek bármilyen más külső rendszerek vagy adatok a források. Ezek a rendszerek már az üzleti intelligencia rendszer bevezetése előtt jelen vannak a vállalatnál, erre épül az adatáramlási rendszer többi szintje. Nem szabad elfelejteni, hogy ezek a rendszerek eltérő struktúrájúak, inhomogének lehetnek. Adattárolási réteg: ebben a rétegben találjuk az adattárházat, melyet hívhatunk az üzleti intelligencia központjának. Itt állnak elő azok az adatok, amelyek különböző rendszerekben találhatóak meg. Az adattárház feladata ezeknek az alapadatoknak az üzleti logika szerinti rendezése, valamint ezen adatok előkészítése az elemzéshez. Az ábrán láthatunk az adattárolási rétegnél egy úgynevezett előkészítő területet. Erre azért van szükség, hogy a forrásrendszer integritását megőrizzük, és a terhelését csökkentsük. Ezen kívül azért, hogy a különböző gyakorisággal előálló adatok adattárházba való betöltése előtt egy közös adatbázis területen raktározhassuk. A szaggatott vonallal jelöli az ábrán az üzleti intelligencia rendszer adatáramlásának alternatív lehetőségeit. Lehetőség van a köztes eszközök, mint például az előkészítő adatbázis terület (staging area) kihagyására, így az adatok közvetlenül betölthetők a forrásrendszer(ek)ből az adattárházba, vagy egy multidimenzionális elemzőeszközbe. Végül nem szabad elfeledkezni a végfelhasználók által legtöbbet látott megjelenítő eszközről sem. Az adattárház és a multidimenzionális elemzőeszköz is lehet adatforrása a megjelenítő eszköznek. Adattárház akkor lehet forrása közvetlenül a megjelenítő eszköznek, amikor az ott tárolt adatokat, általában statisztikai módszerekkel elemezzük, és próbálunk az ott található adatokból új információt, üzleti tudást kinyerni szakértői tapasztalat és emberi tudás segítségével. Ezt a folyamatot nevezzük adatbányászatnak.
2.7
Adat, információ, tudás és az információs igény
Az üzleti intelligencia fogalom rendszerével jobban megismerkedhessünk szükséges néhány magától értetődő informatikai alapfogalmat tisztázni. Adat: Jelek sorozata (pl. bitek, betűk, „karakterek”), amelyek számítástechnikai eszközökkel feldolgozhatók és megjeleníthetők. 17 (106)
Dr. Molnár Bálint ©
OLAP alapfogalmai
Információ: Olyan adat, amely csökkenti a világról bizonytalanságát. Tudás: Az információt aktív, cselekvéssé tudja alakítani.
alkotott
2.8
ismeretek
Mutatószám rendszer (Scorecarding)
A mutatószám rendszer (scorecarding) olyan módszer, ahol a vállalati stratégiából mutatószámokat képzünk, ezek teljesülése mérhető és a vállalati teljesítményről visszajelzést ad. A mutatószámokat kulcs teljesítmény jelzőknek nevezik (Key Performance Indicator-oknak (KPI)). A mutatószámok képzésével a vállalati tevékenységből képződő adatok aggregálása, szelekciója történik, amit hozzárendelnek a teljesítmény méréséhez. Minden munkavállaló által érthetővé válik, milyen célokat kell elérni.
2.9 Üzleti, vállalati teljesítmény kezelés (Business Performance Management) A BPM, azaz üzleti teljesítmény menedzsment olyan menedzselési és elemzési folyamatokat takar, amik segítik a vállalatokat stratégiai célok definiálásában, majd a teljesítmény mérését ezen célok tükrében. A BPM különböző forrásokból származó adatok elemzését, összesítését teszi lehetővé. A folyamatok javítását pedig visszajelzési csatornák létrehozásával, fejlesztésével éri el. Itt is szerepet kapnak a teljesítményi kulcsjellemzők (key performance indicators). Fontos a prioritásukat pontosan meghatározni, hogy jó mérési eredményeket kapjunk. Teljesítményi kulcsjellemző lehet például: eladási adatok termékszegmensre bontva, új vásárlók száma adott időszakban, vásárlók megoszlása demográfiai csoportonként. Ezen, jól definiált jellemzők mentén leírható a vállalat tevékenysége, mérhetővé válik a teljesítmény. Időszakokat lehet jól összehasonlítani. Figyelemmel kell lenni az adatok elérhetőségének biztosítására. Ahogy fejlődik az informatikai háttér, úgy várnak el a döntéshozók minél aktuálisabb mutatószámokat. Manapság már napra pontosan lehet ezeket generálni, megmutatva nem csak azt, hogy milyen volt a vállalati teljesítmény 1 hónappal ezelőtt, hanem, hogy akár 24 órája.
3 OLAP alapfogalmai Az OLAP (on-line analytical processing) legfontosabb ismérve, hogy lehetővé teszi az adatok gyors és rugalmas lekérdezését, majd ezt követő elemzését, mindezt többdimenziós nézetekre, struktúrákra alapulva. A többdimenziós elemzések lehetővé teszik, hogy a vállalat az adatainak mint vagyonának maximális értékét használja ki. Nagy adatmennyiséget alakít át információvá, melyet üzleti kontextusban elemezhet a felhasználó. Ezzel a
18 (106)
Dr. Molnár Bálint ©
OLAP alapfogalmai
többdimenziós nézettel a felhasználó számára könnyen átlátható a vállalati teljesítmény és a piaci, gazdasági tendenciák (Cognos white paper, 2006). 3.1
Az OLTP és az OLAP
A felhasználói igények növekedése és a technológiai fejlődés a 90-es években felerősítette az integrációs tendenciákat az információrendszerek egyes funkciói között. A tranzakció-feldolgozó rendszer (TPS) a vezetői információrendszerrel (MIS) összeolvadva egy új információrendszer megjelenését eredményezte, a tranzakcióorientált integrált információrendszerét (OLTP). A felsővezetői információrendszerek (EIS) pedig a döntéstámogató rendszerekkel (DSS) hoztak létre újfajta alkalmazást, a már említett OLAP rendszereket. Ezen integrációk láthatóak az ábrán (8. ábra).
EIS
OLAP
DSS MIS OLTP
TPS
8. ábra OLTP és OLAP (Kő – Lovrics, 2003) A hagyományos on-line adatbázis-rendszerek fő feladata az on-line tranzakciók és lekérdezések megvalósítása. Ezeket a rendszereket ún. on-line tranzakció feldolgozó (OLTP, on-line transaction processing) rendszereknek nevezzük. Ide sorolhatók például a raktárnyilvántartások, a könyvtári kölcsönzési adatbázisok vagy a számlanyilvántartó-rendszerek. Az OLTP és az OLAP közötti különbségeket az alábbiakban lehet összefoglalni: 1. Táblázat Az OLTP és az OLAP összehasonlítása OLTP
OLAP
Alkalmazás
Tranzakciók és lekérdezések
Adatelemzés
Felhasználók
Adminisztrációt végző alkalmazottak és informatikusok
Vezetők, döntéshozók és az őket segítő elemzők
Felhasználó-orientált
Piacorientált
Aktuális adatok, kisebb adatmennyiség
Nagy mennyiségű történeti adat
Relációs adatmodell
Multidimenzionális vagy relációs adatmodell (csillagséma)
Rendszer orientációja Adattartalom és mennyiség Adatbázistervezés 19 (106)
Dr. Molnár Bálint ©
3.2
OLAP alapfogalmai
Adatforrás
Vállalat aktuális adatai
Hozzáférés
Nagyobb konkurencia (rövid, gyakrabbi tranzakció)
Különböző adattárak (külső és belső) adatainak integrációja Kisebb konkurencia (általában csak olvasási művelet)
Dr. Codd’s OLAP szabályai
A Codd által 1993-ban definiált követelményrendszer 12 szabálya, mely meghatározza az OLAP-eszközökkel szembeni általános követelményeket (Abonyi, 2006, 50.oldal): 1.
Többdimenziós nézet: az OLAP termékekben az adatok modellje többdimenziós és többváltozós, így lehetővé válik, hogy a felhasználó igény szerinti műveleteket (adatszeletek kiválasztása (slice and dice), forgatás, lefúrás (drill down), stb.) végrehajtson. Ennek lényege abban áll, hogy a vállalatot több dimenzió mentén lehet vizsgálni. Például az értékesítési adatokat könnyedén lebonthatjuk a különböző régiókra, termékekre vagy éppen időszakokra.
2.
Átláthatóság a felhasználó számára: a felhasználónak ne kelljen tudni, hogy az adatok fizikailag vagy logikailag milyen módon vannak tárolva. Mivel az OLAP rendszerek mindennapi használatban vannak, fontos, hogy a felhasználók átlássák működését, és ennek köszönhetően ne legyenek kiszolgáltatva a betöltött adatforrásoknak, képesek legyenek a rendszer működési logikájához alkalmazkodni.
3.
Hozzáférhetőség: az OLAP, mint közvetítő. Codd eredeti elképzelése szerint az OLAP egy – a heterogén adatbázis és az OLAP-felhasználói felülete (front-end) része között elhelyezkedő – eszköznek kell lennie. Az OLAP rendszernek tudnia kell egy olyan logikai struktúrát alkalmaznia, amely elfedi azt, hogy valójában különböző forrásból származó heterogén adatokat, adatbázisokat ér el, és ezeket az adatokat a célnak megfelelően fel tudja dolgozni.
4.
Stabil vagy egyenletes lekérdezési teljesítmény: a dimenziók számának és az adatbázis méretének növelésével a felhasználónak nem szabad lényeges teljesítménycsökkenést érzékelnie.
20 (106)
Dr. Molnár Bálint © 5.
OLAP alapfogalmai
Információ architektúra (Kliens-szerver architektúra, manapság gyakran háromrétegű architektúra): az adattárházak esetében előforduló hatalmas méretű
adattömeget
nagyteljesítményű
szervereken
tárolják
tehermentesítve ezzel a PC-ket. Maguknak az OLAP szervereknek (alkalmazási, szoftver és hardver) is intelligensnek kell lenniük. Tudniuk kell a különböző adatbázisok adatait tárolni és aggregálni. 6.
Általános érvényű dimenziófogalom: Minden adatdimenziónak azonos struktúrával, és működési elvvel kell rendelkeznie. Napjainkra azonban ez a szabály a legvitatottabb – és legkevésbé teljesített – szabállyá vált.
7.
Dinamikus ritkamátrix-kezelés (sparsity): az OLAP-eszközöknél használt többdimenziós adatmodellek miatt garantálni kell a ritkamátrixok feldolgozásának optimális feltételeit.
8.
Több párhuzamos felhasználó támogatása: könnyen előfordulhat, hogy több felhasználó ugyanazzal az adatmodellel szeretne dolgozni, vagy azonos adatokból különböző modelleket szeretne létrehozni. Az OLAPeszközöknek biztosítani kell a párhuzamos, konkurens elérést, az adatok védelmét és épségét, sértetlenségét (integritását).
9.
Korlátozás nélküli dimenzióműveletek: a dimenziók közötti műveletek összes formáját meg lehessen valósítani.
10.
Intuitív adatkezelés: a felhasználók számára az adatok kezelése közvetlenül a megjelenítési felületen történhet. A felhasználók számára olyan szolgáltatásokat kell nyújtani, hogy a felhasználók képesek legyenek az
adatokat
összefüggéseket
összefüggéseikben feltárni.
A
látni,
kezelni,
szolgáltatásnak
feldolgozni,
egyszerű
elérést
az kell
biztosítania, nem szükséges a főmenüben vagy a felhasználói felületen keresztül többlépéses, bonyolult módon keresni. 11.
Rugalmas alakítható jelentés készítés: az adatok megjelenítésének legkülönbözőbb módjai legyenek támogatva. A felhasználó számára lehetővé kell tenni, hogy mindig a saját igényeinek megfelelő nézetben tudja megtekinteni az információkat.
21 (106)
Dr. Molnár Bálint © 12.
OLAP alapfogalmai
Korlátlan dimenzió szám: szó szerint értelmezve az OLAP-eszköz legyen képes tetszőleges számú dimenzió és hierarchiaszint kezelésére. A rendszer által támogatott dimenziók számának korlátlannak kell lennie, hogy bármilyen szempont alapján lehessen vizsgálni az adatokat. Ezeknek a dimenzióknak a felhasználók által kívánt, bármilyen aggregációs szintű lekérdezést biztosítaniuk kell. A valóságban természetesen egyetlen számítógép sem tud megfelelni ennek a kritériumnak. Codd javaslata alapján legalább 15, de inkább 20 dimenziót kell tudnia kezelnie a szoftvernek, noha a tapasztalatok szerint egy konkrét adatkocka esetén ritkán van igény 8-10 dimenziónál többre.
Codd felismerte azt, amit már a döntéstámogatással foglalkozó szakértők régóta hangoztattak: a napi, folyamatos működési adatok önmagukban nem alkalmasak a vezetők kérdéseire választ adni. „Az OLAP egy olyan döntéstámogató szoftver-technológia, amely segítségével különböző
vizsgálati
szempontok
és
azon
belül
különböző
aggregáltságú
(összegzettségű) adatok alapján több dimenzióban elemezhetjük a vállalatunk működése során keletkezett alapadatokat.” (Kókai Lászlóné, 2005, 35. old.) Az OLAP technológia elsődleges feladata az elemzéshez szükséges információk minél gyorsabb és egyszerűbb elérésének a biztosítása. Erre az OLAP egy ún. többdimenziós adatbáziskezelőt használ, amely segítségével az adatokat több vizsgálati szempont (dimenzió) mentén vizsgálhatjuk. A multi-dimenzionális adatbázist úgy kell elképzelni, mint egy kockát, amelynek minden éle egy, a vállalkozás számára fontos jellemzőket (dimenziót) képvisel (Kókai Lászlóné, 2005). Bár Codd 12 jellemzője kétségtelenül a legismertebb leírása az OLAP-nak, vannak e mellett más módszertanok is. A BARC (Business Application Research Center) kutatóközpont szerint a 12 meghatározás túl sok, nehezen követhető a fejlesztők számára. Emellett sok implementációval kapcsolatos megkötést tartalmaz, ami a túlzott gyártói befolyásra utal. 1995-ben kiadták leegyszerűsített, termék-független OLAP meghatározásukat, a FASMI („Fast Analysis of Shared Multidimensional Information”)tesztet. [Pendse, 2008] Ez az alábbi 5 kulcsfontosságú feltételből áll: Fast: A gyorsaság ebben az esetben úgy értelmezhető, hogy a felhasználó átlagban maximum 5 másodperc alatt választ kap legtöbb lekérdezésére, feltéve, hogy a legegyszerűbb analitikai kérdésre kevesebb mint egy másodperc alatt megérkezik a válasz, míg a komplexebb esetekben is ritkán tart 20 másodpercnél tovább. Ennek alapja, hogy egyes kutatások szerint a felhasználók 30 másodperces várakozás után hajlamosak azt hinni, hogy a folyamattal valami baj történt.
22 (106)
Dr. Molnár Bálint ©
OLAP alapfogalmai
Analytical: Az analitikus tulajdonsága az OLAP rendszereknek arra utal, hogy tetszőleges, a felhasználó számára fontos, üzleti logikai vagy statisztikai számítást el kell tudjon végezni. Noha mininmális programozásra szüksége lehet a felhasználónak új, ad hoc típusú számításai elvégzéséhez és az eredmények kívánt módon történő megjelenítéséhez, de célszerű ezt minimális szinten tartani. Shared: A megosztott tulajdonsága azt jelenti, hogy az eszköz teljesít minden, az adatok bizalmas kezeléséhez szükséges biztonsági követelményt, továbbá olyan esetekben, amikor lehetőség van az adatok egyidejű írási elérésére, képes a helyzetet megfelelő módon kezelni. Multidimensional: Az OLAP alkalmazások többdimenziós volta kulcskövetelmény. Ha egyetlen tulajdonságot kellen kiemelni, akkor ez lenne az, ezért a következő fejezetben részletesen foglalkozom vele. Information: Maga az információ. A két módszertanban közös, hogy kulcsfontosságúnak tartják az adatok multidimenzionális szervezését. A multidimenzionális modellen alapuló OLAP megoldásokat MOLAP rendszereknek hívjuk. Ezek úgy tárolják az adatokat, hogy minél könnyebben és gyorsabban lehessen lekérdezéseket végezni rajtuk. Ezt úgy érik el, hogy az adatokat nemcsak egy kulcs szerint lehet elérni, hanem lehetőség van több kulcs szerinti elérésre is. A kulcs jellemzők ebben az esetben a dimenziókat jelentik. [Fajszi-Cser, 2004]
9. ábra: Eladási adatok háromdimenziós adatkockája4
3.3
Adatkocka - Többdimenziós elemzés alapfogalmai A többdimenziós elemzés az adatokat egy jól vizsgálható struktúrába rendezi,
melyet
adatkockának
nevezünk.
Ez
a
struktúra
az
adatok
többdimenziós nézetét szolgáltatja – például, melyik termékből adtuk el a 4
Forrás: Sidló Csaba, 2004, 16. old.
23 (106)
Dr. Molnár Bálint ©
OLAP alapfogalmai
legtöbbet adott területen, időszakban és eladási csatornán. Ez a nézet átláthatóvá teszi a vállalatot és információt szolgáltat a döntéseknél (Cognos white paper, 2006). Az OLAP terminológiába tartozó legfontosabb fogalmak: Dimenzió (dimension) – egy tranzakcióhoz köthető attribútum, egy meghatározó mező. Ilyen például a termék, dátum, eladó. E három dimenzió által létrehozott adatkocka látható a 8. ábrán. Hierarchia (hierarchy) – a dimenziókhoz gyakran hierarchiákat rendelünk, melyek meghatározzák az adatok megjelenítésének részletességét, azok csoportosítását. Így például nap → hónap → negyedév → év a dátum dimenzió hierarchiáinak lehetséges szintjei. Mérték (measure) – adatmezők, melyek valójában összeadható mennyiségek. Ilyen például egy konkrét termék ára. A szakirodalom a mértéket gyakran ténynek (fact) is nevezi. Kategória (category) – A Cognos megfogalmazása szerint a kategóriák dimenziókhoz hozzárendelt adatpontok, melyek gyakran hierarchiába rendezhetőek. Ilyen kategóriák például az év dimenzióban a 2004 és 2005.
3.4
Műveletek a többdimenziós adatelemzésben Felgöngyölítés (roll up) – ez a művelet az adatkockán az adatok összevonását, csoportosítását végzi el oly módon, hogy csökkenti a dimenziók
számát,
vagy
összevonja
a
valamely
dimenzió
elemcsoportjaihoz tartozó értékeket. Az előbbi esetre példa lehet ha az értékesítésből eltávolítjuk az idő dimenziót, így a mindenkori értékesítést kapjuk meg. Az utóbbira példa, ha az eladókat régiónként csoportosítjuk (10. ábra a. ábra), melyet a szakirodalom összegzésnek is nevez. Lefúrás (drill-down) – ez a művelet a felgöngyölítés ellentéte, hiszen a kevésbé részletes adatokból a jobban részletezett adatok 24 (106)
Dr. Molnár Bálint ©
OLAP alapfogalmai
felé visz. A lefúrás is megvalósítható oly módon, hogy egy dimenzió hierarchiarendszerében egy szintet lefelé lépünk vagy pedig dimenzió hozzáadásával. Lefúrásra példa lehet ha az idő dimenzió hierarchiaszintjében egy szintet lefelé lépve a negyedév helyett a hónapokra lebontva mutatjuk meg az értékesítési darabszámokat (10. ábra b. ábra).
d. Kockázás a. Felgöngyölítés
Hónap: 1 2 3 4
c.Szeletelés
5 6 7 8 9 10 11 12
e.Elforgatás
Adatkocka
25 (106)
b.Lefúrás
Dr. Molnár Bálint ©
OLAP alapfogalmai
10. ábra Az adatkockán végezhető műveletek (Abonyi, 2006, 62.oldal) Szeletelés (slice) – ezt a műveletet a kocka egy dimenzióján hajtjuk végre. A művelet eredménye a kocka egy része, egy szelete. A 10. ábra c. ábrán például egy konkrét eladó szelete látható, azaz meghatározott eladó értékesítési adatai. Kockázás (dice) – a művelet során részkockát választunk ki, azaz az egyes dimenziók szeletei által meghatározott kocka metszetet választjuk ki. A 10. ábra .d. ábrán látható kockázás művelet a központi kockán a következő feltételekkel hajtódott végre: termék legyen P2, P3, időpont legyen I, II negyedév, eladó legyen S3, S4. Elforgatás (pivot vagy rotate) – ennek a megjelenítési műveletnek az a célja, hogy a kocka tengelyeit az adatprezentációban úgy rendezzük át, hogy az adatokat megfelelő elrendezésben lássuk. Ez a jelentések átalakításának egyszerű módszere, ezzel a művelettel egy pillanat alatt egy új jelentéshez juthatunk (10. ábra e. ábra). Egyéb OLAP műveletek: bizonyos OLAP rendszerekben további műveletek találhatóak. Ilyen például a keresztülfúrás (drill-across), mely egyszerre több ténytábla lekérdezését végzi el. 1.1.1
MOLAP
MOLAP: Multidimensional OLAP, azaz olyan OLAP megoldások, melyek saját speciális adatbázis-kezelővel közvetlenül valamely multidimenzionális célstruktúrában tárolják az adatokat. Nagy hagyományokkal rendelkező megközelítés, szinte a relációs adatbázis-kezelővel egyidőben megjelent a multidimenzionális elemzési célú tárolás: a 70-es évek elején két MIT hallgató fejlesztett ki egy modellt és működő rendszert, amely jóval később az Oracle Express termékcsalád alapját is képezte. 1.1.2
ROLAP
ROLAP: Relational OLAP, azaz olyan OLAP megoldások, ahol az adatok tárolását hagyományos relációs adatbázis-kezelővel végezik. Itt a multidimenzionális megjelenést speciális relációs adatbázis-sémákkal biztosítják. Ez a leginkább elterjedt megoldás, ami főképp rugalmasságára és a relációs adatbázis-kezelők viszonylagos olcsóságára és megbízhatóságára, valamint a relációs tárolási technika kiforrottságára vezethető vissza 1.1.3
HOLAP
26 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
HOLAP: Hybrid OLAP, azaz olyan hibrid megoldások, ahol az adatbázis-kezelő biztosítja a hagyományos relációs tárolás lehetősége mellett a multidimenzionális tárolási metódusokat. Egyre inkább megfigyelhető tendencia, hogy a relációs adatbázisok támogatják a multidimenzionális adattárolást speciális indexekkel, SQL bővítményekkel és beépített multidimenzionális tárolási lehetőséggel.
3.5
OLAP elemzések lehetősége költséges adattárház nélkül
OLAP kockát azonban létrehozhatunk erre specializálódott szoftver nélkül is. Dr. Abonyi János ajánlása alapján az Oracle adattárház környezetben az Oracle Warehouse Builder ETL-eszközzel avagy az Analytic Workspace Manager többdimenziós adminisztratív eszközzel is létrehozható adatkocka. Ezen kívül könyvében leírást ad egy OLAP kocka létrehozására MS Excelben is (Abonyi, 2006, 66.oldal).
4 Az adatbányászat elméleti háttere 4.1
Az adatbányászat fontossága
A fő ok, amelynek köszönhetően az adatbányászat az utóbbi időben a figyelem központjába került, a széles körben megjelenő hatalmas méretű adatmennyiség, és a növekvő igény arra, hogy abból mihamarabb használható információ és tudás váljék. Ez a hatalmas adatáradat leginkább annak köszönhető, hogy az elmúlt évtizedekben minden emberi tevékenység egyre jobban automatizált, hisz számítógépes rendszerek rögzítik vásárlási, internetes szokásainkat, elektronikusan dokumentálják a modem vállalat folyamatait, termelő rendszereit, általában a működését. A bennünket körülvevő adatmennyiség szinte elképzelhetetlen mértékben növekszik. Előrejelzés a globális információ mennyiségének 2010-es növekedéséről (The Expanding Digital Universe: A Forecast of Worldwide Information Growth Through 2010) című tanulmányból kiderül, hogy a világon egy adott évben mennyi információ keletkezik és másolódik át. Az IDe piackutató cég jelentése szerint a 2006os digitális univerzum 161 milliárd gigabájt (161 exabájt, vagyis hárommillió szor akkora, mint az összes könyvben leírt információ) méretű volt, de a 185 exabájtos tárolókapacitás ezt még fedezte. Az információ mennyisége a 2006-2010 közötti időszakban a jelenlegi hatszorosára fog nőni, 988 exabájt lesz, ezt viszont az előrejelzés szerint a 601 exabájtos tárolókapacitás nem fogja fedezni.
4.2
Az adatbányászat definíciója
Az adatbányászatot különböző szerzők többféleképpen definiálják. Han és Kamber szerint "az adatbányászat a tudás nagy mennyiségű adatból történő kiválasztása, kibányászása". [Han - Kamber, 2004, 26. p.] Formálisabb módon fogalmazza meg Abonyi János az adatbányászatot: "az adatbányászat egy olyan döntés támogatást szolgáló folyamat, mely érvényes, hasznos, és előzőleg nem ismert, tömör információt tár fel nagy adathalmazból". [Abonyi, 2006, 10. p.] Ebben a
27 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
definícióban a szerző kiemeli a kulcsszavak fontosságát: az adatbányászat egy rendkívül összetett folyamat, amelyben a kinyert információnak pontosnak, szignifikánsnak és teljesnek kell lennie (érvényes), a feltárt tudásnak az adott elemzés szempontjából hasznosnak kell lennie, a cél új információ generálása (előzőleg nem ismert), ill. az eredményeknek könnyen értelmezhetőnek kell lennie (tömör). A DataExplorer Kft. adatbányászattai foglalkozó cég szerint az adatbányászat "rejtett információ automatikus kinyerése nagy adatbázisból", az információszolgáltatás területén, az adatelemzés (folyamatelemzés) legújabb módszertana. A SAS szoftvercég szerint pedig: ·
eljárás, folyamat;
·
nagy mennyiségű adat leválogatása, vizsgálata, modellezése;
·
korábban ismeretlen jellemzők, összefüggések feltárása - üzleti előnyök kiaknázása
céljából. [Sántáné et. al., 2008, 154. p.] Sokan szinonimaként használják az adatbázisban végzett tudásfeltárás (Knowledge Discovery in Databases, KDD) és az adatbányászat fogalmát. Míg mások az adatbányászatot a tudásfeltárás folyamatának egyik állapotának tekintik, amelyikben az összefüggések felfedezése. A tudásfeltárás rejtett, ismeretlen, hasznos tudás kinyerése az adatokból.
Ezeknek a definícióknak a legfontosabb elemei, hogy valamilyen hasznos információ, tudás előállítása az adatbányászat célja. Egy olyan tudásé, amelyet a felhasználó korábban nem birtokolt, mert rejtve volt előle, és valóban értéke van a döntéshozatalban. Ezeket az információkat adatokból kinyerjük, előállítjuk, ezek az adatok pedig jellemzően adatbázisban, adattárházakban találhatók. Némelyik meghatározás azt is kiemeli, hogy az adatbányászat egy valamilyen szinten automatizált folyamat. Az adatbányászat egy multi-diszciplináris terület. Számos tudományterület eszközeit használja, ezek közül lényegesebb a statisztika, a matematika és a mesterséges intelligencia. A statisztikával összehasonlítva nagyobb hangsúlyt fektet az algoritmusokra, és többet a modellekre, mint a mesterséges intelligencia gépi tanuló eszközei. (Bodon, 2010)
4.3
Adatbányászati rendszer architektúrája
Az adatbányászati rendszerek adatfolyamai és feldolgozó egységei Adatbázis, további adatforrások: itt tárolják a későbbi műveletekhez szükséges adatok Adattisztítás, adatintegráció, szűrés: a zajok és inkonzisztens adatok eltávolítása, több adatforrás összekapcsolása, egyesítése Adatbázis- vagy adattárház szerver: felelős az igényelt adatok szolgáltatásáért, biztosításáért Tudásbázis: tárgyköri tudás, amely a keresés vezérfonalát adja Adatbányász motor: egy adatbányász rendszer leglényegesebb eleme, funkcionális modulokat tartalmaz, olyan műveletek elvégzéséhez, mint például a jellemzés, asszociáció, korreláció, predikció (előrejelzés). 28 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
11. ábra: Adatbányászati rendszer adat és alkalmazás kiszolgáló architektúrája Grafikus felhasználói felület: biztosítja a rendszer és a felhasználó közötti kommunikációt. Adatbányászati módszertanok
4.4
A SEMMA módszertan (SAS Enterprise Miner)
A SEMMA rövidítés mögött a SAS által definiált módszertan rejlik, mely a felhasználók számára adatbányászati projekteknél nyújt átfogó segítséget. A módszertan a következő részfolyamatokból áll (SAS whitepaper): mintavételezés (Sampling),
29 (106)
feltárás
(Exploration),
módosítás
(Modification),
modellezés
(Modelling),
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere értékelés
(Assessment).
Az Enterprise Miner csomópontjai (adatbányászat eszközei) alapértelmezett helyzetben a SEMMA módszertan alapján vannak elrendezve, de természetesen ezen a sorrenden szükség szerint változtathatunk.
4.4.1 Mintavételezés (Sampling) A módszertan első lépésében az adatok beolvasása történik, melyet a Bemeneti adatforrás csomópont (Input data source node) a diagram munkaterületen való elhelyezésével érünk el. Több mint 50 állománytípus olvasása lehetséges, így többek között DB2 vagy Oracle adattáblák is forrásként jelenhetnek meg. Ezután dönthetünk arról, hogy a teljes beolvasott adathalmazon vagy annak egy reprezentatív mintáján végezzünk elemzést. A minta használata (teljes adathalmaz helyett) akkor ajánlott, amikor gigantikus adathalmaz áll a rendelkezésünkre, mert így megbízhatóbb modellek készíthetőek, melyeknek ugyanakkor tanítási ideje szignifikánsan lerövidül. Amennyiben minta használata mellett döntünk, a Mintavételezés csomópontot (Sampling node) elhelyezzük a diagram munkaterületen a bemeneti adatforrás csomópont mellé. Az Enterprise Miner támogatja az egyszerű véletlen, a rétegzett, az első N elemű, a minden N-edik elemet kiválasztó és a csoportos mintavételezési eljárásokat. Az előzetes modell felépítését segítheti, ha adathalmazunkat (vagy reprezentatív mintánkat) három részhalmazra bontjuk: tanuló (training), érvényességet ellenőrző (validation) és tesztelő (testing). Adataink szétosztását az Adatpartícionálás csomópont (Data partition node) valósítja meg.
4.4.2 Feltárás (Exploration) A SEMMA módszertan második lépéseként vizuális és analitikus eszközök segítségével végezhetünk adatfeltárást. Az adatok jellemzőinek feltárása következtében olyan hiányzó értékek vagy extrém értékek (outliers) mutatkozhatnak meg, melyek szignifikánsan módosíthatnák az elemzés végső eredményét. Ezért fontos ezeket az értékeket feltárni és módosítani ebben a fázisban. Ezen túl érdemes lehet megvizsgálni, hogy sok változó esetében nem lehet–e összevonásokat alkalmazni, redukálni a változók számát, illetve abban az esetben, ha a változók eloszlása nem felel meg az alkalmazott statisztikai módszernek, szükség lehet a változók transzformációjára is. 30 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
Az adatfeltárást az Enterprise Miner következő eszközei támogatják: Eloszlást
feltáró
adathalmazból
csomópont készít
(Distribution
explorer
többdimenziós
node):
nagy
hisztogramot
(oszlopdiagramot), mely megmutatja, hogy adott érték hányszor fordult elő az adathalmazban. Ez a gyakorisági eloszlást ábrázoló eszköz hasznos lehet extrém trendek keresésénél. Bepillantást biztosító csomópont (Insight node): nagy adathalmazból készíthetünk általa többablakos, dinamikus megjelenítést. Ennek a vizualizációs módszernek az a lényege, hogy az egyik ablakban megjelölt vagy módosított adatok a többi ablakban is automatikusan kijelölődjenek vagy módosulnak, miközben minden egyes ablakban más típusú megjelenítési módszer (2D ill. 3D grafikonok vagy táblázat) helyezkedik el. Asszociáció
csomópont
(Association
node):
az
adatkapcsolatok
vizsgálatát végző olyan eszköz, mely adott esemény mentén azonosítja a közösen elhelyezkedő adatokat. A módszer kitűnően alkalmazható akár vásárlói kosár elemzéseknél is. Változó kiválasztó csomópont (Variable selection node): ez az eszköz tulajdonképpen egy algoritmus, mely értékeli a célváltozót prediktív módon meghatározó bemeneti változókat. Az algoritmus statisztikaimatematikai feltételeknek alávetve kizárja azon bemeneti változókat, melyek nem kapcsolódnak a célváltozókhoz, melyek hierarchiába vannak rendezve, melyek nagy arányú hiányzó adatokat sejtetnek és melyek adatai extrém értékeket mutatnak. A fennmaradó változók értékeit ún „információ-gazdag” bemeneti adatoknak nevezzük és ezeket használjuk az adatbányászat további lépéseiben (SAS whitepaper). Linkanalízis csomópont (Link analysis node): a vizuális linkanalízis lényege az adatok közötti összefüggések erősségének vizsgálata. Ha bizonyos események között erős a kapcsolat, vagy az esetek sűrűn ismétlődnek, akkor azok közötti kapcsolat fontos összefüggést, esetleg azonosságot jelenthet (Fajszi, 2004).
31 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
4.4.3 Módosítás (Modification) A módszertan harmadik lépésében a felhasználó a feltárás során szerzett ismereteket felhasználva módosíthatja ill. állíthatja be adatait. Az adathalmazaink tulajdonságait (pl neveit) az Adathalmaz tulajdonságok csomópontban (data set attributes node) változtathatjuk meg. Itt módosíthatjuk az adatainkból készített reprezentatív mintát is. Az adatbányászati modellek algoritmusai gyakran megkívánják, hogy a bemeneti változók meghatározott tulajdonságokkal rendelkezzenek (pl linearitás). Az ilyen követelményeknek nem megfelelő változókat a Változó-átalakító csomópont (Transform variables node) alakítja át a megfelelő formára. Az extrém adatok kezelését segíti az Extrém adatok szűrője csomópont (Filter outliers node), melynek segítségével kiszűrhetjük azokat az adatokat, amelyek az adatbányászati modellek számára káros hatásúak (instabil modellek). Az adatbányászati modellekben használt bemeneti változók hiányzó adatai torzult eredményeket eredményeznek. Ennek elkerülése érdekében a már bemutatott Változó kiválasztó csomópont ezeket a változókat kizárja a bemeneti változók csoportjából. Mivel
azonban
a
hiányos
adatokat
tartalmazó
változók
is
rendelkezhetnek az elemzés szempontjából hasznos információval, a Pótlás csomópont (Replacement node) pótolja a kérdéses változók hiányzó értékeit. Ily módon releváns információt menthetünk meg. Klaszterezés (csoportosítás) során egy adathalmaz elemeit olyan elkülönülő csoportokba soroljuk, ahol az azonos csoportba tartozó elemek hasonlóak egymáshoz, míg az eltérő csoportokba tartozó elemek nagy mértékben különböznek egymástól (Abonyi, 2006, 132.old). Ezt a csoportosítást végzi el a Klaszterező csomópont (Clustering node). Módosítás (Modification, SEMMA) szempontjából a klaszterezés
32 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
célja, hogy nagy adathalmazból generált csoport jöjjön létre, mely önálló bemeneti változócsoportot képvisel meghatározott adatbányászati modell számára. A SOM/Kohonen csomópont (SOM/Kohonen node) hasonló okból kapott helyet az Enterprise Miner SEMMA módszertanának Módosítás (Modification) lépésében mint a klaszterezés.
4.4.4 Modellezés (Modeling) A SEMMA módszertan negyedik lépése az adatbányászati folyamat legfontosabb fázisa, hiszen itt dől el, milyen végső felismerésekre jutunk. Az Enterprise Miner több modelltípust kínál, melyből a felhasználó választja ki a számára megfelelőt. A kiválasztott modelltípus feladata tulajdonképpen a bemeneti (független-) változók alapján megbecsülni a kimeneti (függő-) változót. Ezek a modell tanítás alapján (bemeneti változók és ismert kimeneti, ún. célváltozók közti szabály felismerése) önállóan állítódnak be, ezzel is megkönnyítve a felhasználó munkáját. A Minerben a következő modelltípusok állnak a rendelkezésünkre: A Regresszió csomópont (Regression node) egyaránt támogatja a lineáris és nem lineáris regressziós modellezési technikát. Feladata – leegyszerűsítve – változók közötti összefüggések pontos feltárása és a feltárt összefüggések alkalmazása. Ez az eszköz a modell által indukált összefüggéseket táblázat és grafikon formájában összesíti, hogy a felhasználó szabad szemmel ellenőrizhesse a modell által meghatározott eredményt. A Döntési fa csomópont (Decision tree node) döntési fa konstruálását végzi el bemeneti- és célváltozók közötti szabály meghatározásával. A kialakított fa tulajdonképpen egy bonyolultabb döntést egyszerű döntések sorozatára bont fel (Abonyi, 2006, 193.old). A modell eredményét átfogóan mutatja be az Enterprise Miner: összefoglaló táblázat, fa térkép, értékelő táblázat és a konkrét fa diagram által. A
Neuronháló
csomópont
(Neural
network
node)
különböző
architektúrájú neuronhálók kezelésére ad lehetőséget, melyből az MLP (Multi Layer Perceptron) típus a leggyakrabban alkalmazott architektúra becslési feladatok megoldására. Mivel a különböző modelltípusok beállítása nem egyszerű feladat, a neuronháló csomópont kezelőfelülete néhány egyszerű beállítási kérdés után önállóan beállítja a modell paramétereit.
33 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
A Modell kombináló csomópont (Ensemble node) két vagy több modelltípust kombinál abból a célból, hogy az így kapott modell erősebb és stabilabb legyen. Ez az eszköz jól alkalmazható például neuronháló és döntési fa modelljeinek egyesítésére. A Kétlépcsős modell csomópont (Two stage model node) egy csoportosító és egy becslő modellt kombinál abból a célból, hogy a bemeneti változók alapján konkrét jellemzőkkel rendelkező csoport (melyet a csoportosító modell határoz meg) sokaságáról tudjunk megbecsülni adatokat (melyet a becslő modell meghatározott csoporton határoz meg). Erre példa lehet egy marketingkutatási feladat, melynek során a megkérdezettek azon csoportjának vásárlási hajlandóságát kívánjuk megbecsülni, akik válaszadási hajlandóságát magasra becsültük. A kétlépcsős modell regresszió, döntési fa és neuronháló modelltípusokat foglalhat magában.
4.4.5 Értékelés (Assessment) Az értékelés – mint a SEMMA módszertan utolsó fázisa – lehetőséget ad különböző
modellek
illetve
ugyanazon
modell
különböző
paraméter
beállításainak összehasonlítására grafikus és analitikus eszközökkel. Az Értékelés csomópont (Assessment node) modellek összehasonlítására és kiértékelésére az Enterprise Miner által kínált kezelőfelület. A kiértékelés
funkciójának
nagy
előnye,
hogy
a
felhasználó
összehasonlíthatja azokat a modelleket, melyeket különböző modellezési eljárással hozott létre. Mivel az adatbányászat célja mindig valamilyen üzleti probléma megoldása, a kapott eredményeket a statisztikában kevésbé jártas döntéshozók számára is átlátható formában kell megjeleníteni. Ezt a feladatot az értékelést elősegítő Jelentéskészítő csomópont (Reporter node) látja el, mellyel az elemzés eredményei egy HTML fájlba gyűjthetőek össze, s később akár egy egyszerű Web böngészővel is megtekinthetőek.
34 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
4.5 CRISP-DM (CRoss Industry Standard Process for Data Mining) A CRISP-DM (CRISP-DM (2010)) egy átfogó adatbányászati folyamatszabványt jelent, amit 1996-ban dolgoztak ki több nagyvállalat aktív közreműködésével. Korábban az adatbányászok munkája nagyon elkülönült az eredményeket alkalmazni kívánó üzletemberekétől, így nem volt hatékony köztük az együttműködés, gyakran nem értették egymás igényeit. Ezért is volt szükség egy olyan szabvány létrehozására, ami irányt mutat a különböző adatbányászati projektek lebonyolítása során. Ahogy a mellékelt ábrán (12. ábra) is látható a folyamat 6 lépésből áll, amelyek sorrendje gyakran változhat.
12. ábra: A CRISP‐DM lépései
1. Üzleti probléma értelmezése: a módszer első lépése a problémameghatározása. A probléma felismerésén és megfogalmazásán túl ide tartozik még a helyzetértékelés, a cél meghatározása, amit az adatbányászat segítségével el akarunk érni. Még az elemzés megkezdése előtt hasznos, ha 35 (106)
Dr. Molnár Bálint ©
2.
3.
4.
5.
6.
4.6
Az adatbányászat elméleti háttere
projekttervet készítünk. Ahogy az ábra is mutatja, ez az a pont, amelyhez leggyakrabban vissza lehet térni a teljes ciklus több szakaszában. Adat értelmezés: ez a szakasz foglalja magába a szükséges adatok összegyűjtését. Az adatbányászat e korai szakaszában is szükség lehet az adatok általános elemzésére, általános statisztikai mutatószámok meghatározására. Fontos funkciója az adatok értelmezésének, hogy minőségileg ellenőrizzük a felhasználni kívánt adatokat Adat előkészítés: ezen a ponton történik meg az összegyűjtött adatok minőségi ellenőrzése, és az elemzés során felhasználandó adatok kiválasztása, a korábban összegyűjtött adatok közül. Ilyenkor kerül sor az adatok egységes formára hozására, az elnevezések valamint a jelölések egységesítésére és az adattisztításra. Modellezés: a CRISP-DM módszertan negyedik lépése a használni kívánt modellezési technika valamint egy olyan teszt minta kiválasztása, amelyre a kiválasztott modellt alkalmazni szeretnénk. Ezután történik a modell alkalmazása, és a modell tesztelése során kapott eredmények kiértékelése. Értékelés: a teljes adatelemzés végeztével kerül sor a folyamat eredményeinek kiértékelésére, kielégítő hatékonyságú kimeneti eredmény hiányában módosítások alkalmazására, az elemzés újragondolására. Ekkor kell eldöntenünk, hogy mennyire felelnek meg a kapott eredmények a korábban meghatározott kutatási célnak, szükség van-e arra, hogy egy korábbi szakaszhoz visszatérjünk Alkalmazás: a módszertan utolsó, elkülönített fázisa, a technikai értelemben vett adatbányászat eredményeinek alkalmazása a gyakorlatban, leginkább az üzleti életben. Ennek a záró szakasznak a végterméke az ún. üzleti jelentés, ami tartalmazza a vizsgált módszerrel kapott eredmények üzleti alkalmazásának megtérülését.
Adatbányászati módszerek
Az adatbányászathoz használt módszerek felsorolása előtt fontos tisztázni két, egymástól alapjaiban eltérő megközelítési mód, az ellenőrző és a feltáró adatbányászat közötti alapvető különbséget. Az ellenőrző adatbányászat célja, hogy egy korábban felállított hipotézis valódiságát ellenőrizze. Ebben az esetben tehát az elemzést végzők konkrétan tudják, mit keresnek azért, hogy a feltételezéseket az eredményekkel igazolják vagy éppenséggel megcáfolják. Ez a hipotézis tesztelés egy felül nézetből végrehajtott (top-down) megközelítés.
4.7
Az adatbányászati technikák csoportosítása
A feltáró adatbányászat eszközeihez képest egyszerűbb SQL utasításokat használva juthatnak el az adatbázissal dolgozók a végső eredményhez. A közvetlen SQL lekérdezések mellett szerepet kapnak az OLAP (On-Line Analytical Processing) eszközök, melyek az adatok multidimenzionális megjelenítését teszik lehetővé. A feltáró adatbányászat az előzőekkel ellentétben nem hipotézisekből indul ki, hanem elsődleges célja új hipotézisek megfogalmazása. Az ellenőrző adatbányászattal szemben ez alul nézetből (bottom-up) közelítő szemléletmód, az adatokból indul ki és 36 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
olyan információ felszínre hozatala a cél, amiről korábban nem volt az elemzőknek elképzelése. Habár itt már nagyobb hangsúly van a szoftvereken, az eljárás nem teljesen automatizált, fontos szerepet játszik az elemző. A feltáró adatbányászat lehet irányított vagy irányítatlan. Az irányított elemzés során egy bizonyos mező (jövedelem, válaszadási valószínűség, kor, stb.) értékét próbálják meghatározni a többi mező segítségével. A kiválasztott mezőre végeznek tehát becslést, előrejelzést az adatbányászati algoritmus segítségével. Az irányítatlan elemzésnél ezzel szemben nincsen kiválasztott mező, egyszerűen az algoritmus segítségével a probléma megoldása szempontjából fontos szabályszerűségeket próbálják azonosítani az adatok halmazán. Ebben az esetben tehát konkrét cél nélkül futtatják az adatbányászó eszközt az adathalmazon. Az irányítatlan feltáró elemzések segítenek felismerni az adatok közötti kapcsolatokat, majd az irányított elemzést felhasználva megmagyarázhatóvá válnak ezek az összefüggések. Irányítatlan vizsgálat hasznos lehet klaszterelemzésnél vagy asszociációs kereséseknél, piackosár-elemzéseknél, de legtöbbször az irányított módszereket használják. A két módszer közötti különbséget egy példán szemléltetve: Kérdés: Milyen termékeket vesznek együtt? – Irányítatlan Kérdés: Milyen termékeket vesznek a sörrel együtt? – Irányított.
4.8
Felhasználási területek
Az adatbányászat különböző problématípusok megoldására képes. Alapvetően adatbázisokban található adatokat elemez. Az adatok különböző entitásokból (egyedekből) állnak, amelyekhez tartozó attribútumokat (egyedtulajdonságokat) szintén tárol az adatbázis. Az attribútumok közti összefüggések feltárása az adatbányászat feladata. Az összefüggések típusától függően különböző feladatokat láthatnak el az adatbányászati eszközök. A leggyakoribb feladatok a következők: gyakori minták kinyerése, mintázatok felismerése: a gyakran ismétlődő elemek felfedezése. attribútumok közötti kapcsolat: a minta összefüggéseinek meghatározásával általánosítás a teljes adattömegre és egy újabb, ismeretlen elem attribútumainak megbecslése, előrejelzése. klaszterezés: a feldolgozandó objektumokat előre definiált csoportokba, ún. klaszterekbe való rendezése. Ez általában függvények segítségével történik. sorozatelemzés: a matematikai sorozatokhoz hasonlóan ismétlődések, összefüggések keresése az egymást követő adatok között. Olyan általános érvényességű szabályszerűség felfedezése, amelynek segítségével meghatározható a sorozat következő eleme. eltéréselemzés: az előbbi ellentéte. Célja az olyan elemek kiszűrése, amelyek nem illenek bele a sorozatba. Leginkább visszaélések, csalások vagy vírusok kiszűrésére szolgál. webes adatbányászat: a világ legnagyobb adatbázisából, az internetről való információkinyerés.
37 (106)
Dr. Molnár Bálint ©
4.9
Az adatbányászat elméleti háttere
Előrejelző elemzések
Előrejelző elemzéseknél egy modell felállítása a cél, mellyel múltbeli adatokból következtethetünk jövőbeli eredményekre. Ilyen modellel lehetséges pl. egy változó értékének becslése több változóból úgy, hogy megvizsgáljuk milyen összefüggés volt a múltban a kulcsváltozó és a többi változó között. A már rendelkezésre álló adatokra építve tehát felállítható egy előrejelző modell. A bankok ügyféladatait felhasználva ilyen modellel mérhető fel az egyes ügyfelek hitelkockázati mutatója, mely valamennyi ilyen esetre építve keres kapcsolatot a hitelkockázat és már egyéb változók – nem, kor, jövedelem, adósság, betétállomány, folyószámla – között. Előrejelző modellek épülhetnek statisztikai regresszióra vagy osztályozó (classification) technikákra, mint pl. döntési fa vagy neurális háló, de alkalmazható az un. memória-alapú következtetés (memory-based reasoning) technikája is. A regressziós eljárások közül a logisztikus regresszió, az osztályozó technikák közül mind a döntési fa, mind a neurális háló módszerek alkalmasak nem lineáris összefüggések felismerésére.
4.10 Statisztikai regresszió A statisztikai regresszió a független és függő változók közötti összefüggéseket vizsgálja és a kapcsolatot leíró két-vagy többváltozós függvényt keresi. Egyszerűbb formája a lineáris regresszió, amikor lineáris kapcsolatot feltételezünk a változók között, s a folytonos eredményváltozó értéke egy vagy több független változó lineáris függvényeként alakul ki. Logisztikus regressziónál ugyanakkor az eredményváltozó mérési szintje bináris vagy ordinális változó, s keresett kapcsolat lehet nemlineáris is. Logisztikus regressziót alkalmaznak bankok, biztosítók ügyfélkockázat-elemzésénél, de az egészségügyben a különböző rizikófaktorok ismeretében a betegségek kialakulásának valószínűségét is ezzel az eljárással lehet megállapítani. A regresszió két vagy több ismérv közötti összefüggés pontos feltárását és a feltárt összefüggés alkalmazását jelenti. Gyakorlatban ez úgy definiálható, hogy egy y = f (x,β) függvény segítségével – ahol y a függő (kimeneti) változó, x a független (bemeneti) változó – ismert x és y adatokkal meghatározható a közöttük fennálló összefüggést megtestesítő β paraméter. Ezután ismert független változók (x) bevitelével az ismert összefüggésnek (β paraméternek) köszönhetően kiszámítható lesz az ismeretlen függő változó (y). A regressziós technikák két csoportba oszthatók a függő és független változók között fennáló összefüggések milyensége alapján: lineáris és nemlineáris regresszió.
4.10.1 Lineáris regresszió A legelterjedtebb regressziós technika a lineáris regresszió, mely a függő változót független változók lineáris kombinációjaként becsli (Abonyi, 2006, 273.old): n
yˆ 0 j x j . j1
A tanulási fázisban a rendelkezésre álló adatokra egy síkot illesztünk, mely sík definiálja a β paramétert (lásd 13. ábra). Matematikailag ezt általában a legkisebb négyzetek módszerével valósítjuk meg, mely lényegében minimalizálja az ismert 38 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
adatpontok távolságát a síktól. Az ily módon kapott minimális távolságot nevezzük reziduálisnak (maradéktagnak): ε = y – ŷ . Mivel ez a reziduális érték vagy különbség a minimális becslési hibát testesíti meg, a regressziós függvény módosul: y = f (X,β) + ε (ahol X a független változók mátrixa). A β meghatározása ezután matematikai műveletekkel történik, ahol a maradéktag várható értékét egyenlővé tesszük 0-val. A megkapott β-ra vonatkozó képletbe5 ezután ismert x változók behelyettesítésével ismeretlen y változót számíthatunk ki. A lineáris modell azonban csak bizonyos feltételek teljesülése esetén ad megfelelő becslést. A linearitás feltétele szerint a függő változó várható értéke a független változók lineáris kombinációja.6 y
x2 x1
13. ábra: Példa a kétváltozós lineáris regresszióra (Abonyi, 2006. 274.old)
4.10.2 Nemlineáris regresszió A lineáris regressziós modell alapfeltételezése, hogy a modell változói közötti kapcsolat leírható egy lineáris függvénnyel. A függő és független változó között azonban előfordulhat, hogy bonyolultabb, nem lineáris összefüggés van. Ilyen esetben használhatóak a nemlineáris regressziós modellek, mint a paramétereiben lineáris regresszió vagy a paramétereiben nemlineáris regresszió. A paramétereiben lineáris modellnél a nemlineáris összefüggéssel rendelkező függvény paraméterei között lineáris kapcsolat van. Az adatokat (ill. a nemlineáris függvényt) ezért - megfelelő matematikai transzformációval – olyan adatokká (ill lineáris függvénnyé) érdemes változtatni, melyeken lineáris regresszió alkalmazható. A becsült (kapott) értékeket minden esetben vissza kell transzformálnunk nemlineárissá, hogy a kezdeti (nemlineáris) összefüggésnek megfelelő releváns adatokat kapjunk. Mivel az összefüggés – függő és független változó között – matematikai meghatározása transzformált adatokon történik, ezért az alapadatokra ezek az összefüggések nehezen értelmezhetők. A paramétereiben nemlineáris modellnél az y = f (x,β) függvény a β paraméterekre nézve sem lineáris. Mivel az ilyen függvényeknél alkalmazható nemlineáris modellek felállítása sokkal bonyolultabb, a nemlineáris függvény paramétereinek meghatározására érdemes valamilyen programcsomagot használni.
5
az említett szakirodalomban például β = (XT X)-1 XT y . A reziduálisra vonatkozó feltételek szerint az ε független az összes megfigyelés tekintetében, normál eloszlású, szórása ismeretlen és várható értéke 0.
6
39 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
A paramétereiben nemlineáris modellre példaként szolgálhatnak a mesterséges neurális hálózatok is, mivel a hálózatban szereplő neuron nem más, mint egy paramétereiben nemlineáris regressziós modell.
4.11 Döntési fák A döntési fa felépítése során az egész adathalmazt bontjuk részekre olyan változók mentén, amelyek feltehetően szoros kapcsolatban vannak a kulcsváltozónkkal. A fa ágainak minden elágazásánál egyszerű igen/nem vagy több választástlehetővé tevő (multiple choice) kérdésekkel bontjuk további részekre a halmazt. Az így kialakított döntési fa felhasználásával új adatok felvételekor a megfelelő ágat végigkövetve becslést kaphatunk a kulcsváltozó lehetséges értékére. Ennek a módszernek előnye, hogy szavakkal is könnyen kifejthető szabályokat alkot, mivel a fa legvégén található bármely rekordhoz egyértelműen meghatározható az út és ezzel azoknak a szabályoknak a sorozata, mellyel a kiválasztott rekord helyét magyarázhatjuk meg. A döntési fát klasszifikációra, osztályozásra és előrejelzésre érdemes alkalmazni olyan esetekben, amikor a bemenő változók közül várhatóan sok az irreleváns, s az eredményváltozó értéke kis számú input változó értékétől függ. A döntési fa algoritmusok alapját az adja, hogy veszünk egy nagy adathalmazt, majd szabályok sorozatát alkalmazva rá, kisebb és kisebb részhalmazokra bontjuk. Minden egyes bontás során arra törekszünk, hogy a keletkező csoportok homogénebbek legyenek mint az előző szinten, a kiemelt célváltozónk, szempontunk szerint. Kategorikus célváltozók esetén Gini vagy khi-négyzet teszt alkalmazható a szétválasztások tisztaságának becsléséhez. Folyamatos, numerikus változók esetén pedig variancia-redukció vagy f-próba a megfelelő. A döntési fa kialakítása elején az algoritmusokkal megpróbáljuk azonosítani azt a célváltozót, aminek a legnagyobb esélye van arra, hogy kellően homogén csoportokat képezzen. Majd a következő szinten megint minden változót számba veszünk és kiértékeljük melyikkel érdemes a következő bontást végrehajtani. Ez a folyamat hosszú és erőforrás-igényes, tekintve, hogy minden változót meg kell vizsgálni minden szinten. (Ao, 2008) A döntési fánk teljesítményének értékeléséhez tesztadatot használhatunk, ami olyan elemekből áll, melyeket nem használtunk fel a fa építésénél. Ezeknek az adatoknak a vizsgálatával, egyedi besorolásával lehet meghatározni, hogy a kialakított döntési fánk milyen hibaszázalékkal sorolta be az adatokat a megfelelő kategóriákba.
40 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
14. ábra: Példa egyszerű kétváltozós matematikai döntési fára A döntési fát fejjel lefelé állítják, felül van a gyökér, ahonnan indul a fa felépítése az ábra alján található levelekig. A fa csomópontjai kérdéseket reprezentálnak, a kérdésre adott válasz dönti el, hogy milyen kérdést teszünk fel legközelebb. Ez a folyamat a gyökérben kezdődik, ahol a rekord tesztelésre kerül, és ennek a tesztnek az eredménye határozza meg, hogy merre megy tovább a folyamat. Ez egy iteratív folyamat, amelyet a levél eléréséig ismételni kell. A levelet az adat egy osztályaként kell értelmezni. Minden csomópont egy attribútum vizsgálatát jelöli, és a gyökértől a levélig haladó útvonal az osztályozás szabályát reprezentálja. (Bach – Cosic, 2007) Az ID3 egy tanuló algoritmus, amely egy döntési fát hoz létre a számára bemenetként megadott példák alapján. A fát a gyökértől kezdve a levelek felé haladva építi fel. Az algoritmus a következőképp működik: kiválasztunk egy attribútumot, ami a célváltozó szerepét fogja betölteni. Következő lépésben az kerül meghatározásra, hogy melyik változó az, amelyik a megadott tanító példák alapján ennek a céla ttribútumnak az értékét a leginkább befolyásolja. Ez a változó lesz a fa gyökere, a lehetséges értékek pedig az elágazások. A következő lépésben feltesszük ugyanezt a kérdést, de kivesszük az imént a fába rajzolt attribútumot, és így tovább. Amikor a végén már csak egy példa marad, annak a célváltozójának értékével, mint levéllel zárjuk a fa adott ágát. Az algoritmus tehát meghatározza egy adott változó esetén az információhasznosságot. Az információhasznosság, vagy információnyereség annál az attribútumnál a legnagyobb, ahol a legkevesebb információval a legjobban szét lehet osztani a példákat. Az algoritmus az információnyereség alapján sorba állítja a változókat, és a legnagyobb nyereséget adó attribútummal elkezdi felépíteni a fát. (Sántáné-Tóth, 2008) Az alap ID3 algoritmus jól működik egy meghatározott számú rekorddal rendelkező adathalmaz esetén. Nem tudja kezelni a hiányos adatokat, és ha megnövelik az adattábla méretét, az algoritmus nem tud alkalmazkodni a változáshoz. (Jyothirmayi – Surech, 2010)
4.11.1
CART algoritmus
A CART (Classification and regression tree), avagy klasszifikációs és regressziós fa a döntési fák csoportjába sorolható.
41 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
A CART egy bináris döntési fa, aminek a kialakítása a döntési fákkal megegyezően kezdődik. A kezdeti állapot tartalmazza az összes adatot és ezt bontjuk részhalmazokra. A bontási folyamat a következő lépésekből áll: - Minden bontáshoz kiválasztjuk a célváltozót; nominális változók esetében ezt sorba rendezéssel kezdjük, majd ezeket értékeljük a meghatározott kritérium(ok) szerint - Az összes bontási lehetőség közül kiválasztjuk azt, amelyik a leginkább megfelel a kritériumok szerinti értékelésnek - Végrehajtjuk a bontást a kiválasztott bontóértékkel Külön figyelmet kell arra fordítani, hogy ne képezzünk túl sok bontást, erre vannak a CART algoritmus esetében megállási szabályok. - Ha homogénné válik a halmaz, azaz a függő változónk esetében minden elemünk ugyanazt az értéket veszi fel - Ha minden célváltozónk esetében minden elem ugyanazt az értéket veszi fel (ilyenkor nincs mi alapján bontani) - Ha elértük az általunk definiált maximális mélységét a fának - Ha elértük az általunk definiált minimális elemszámot, ami egy csoportban lehet (SPSS dokumentáció).
4.11.2
CHAID
A CHAID (CHi-squared Automatic Interaction Detector) szintén a döntési fák közé sorolható, többváltozós regressziós klasszifikáló eljárás. A CHAID esetében szintén a teljes adathalmazból indulunk ki, ez a fa törzse. A legerősebb magyarázóváltozó mentén alakítjuk ki a fa ágait, melynek kiválasztása megegyezik a korábbi döntési fák esetében ismertetettekkel. A magyarázóváltozók csoportosításával lehet új, releváns változót kialakítani (például korcsoportösszevonással). (Hámori, 2001) Az alábbi ábrán látható egy CHAID algoritmus által generált döntési fa. Itt a háztartásméretet választotta ki legerősebb magyarázóváltozónak az algoritmus, majd ezt követték a jövedelem, illetve a bankkártya-tulajdonosság jellemzők.
42 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
15. ábra: CHAID algoritmussal generált döntési fa [Forrás: http://www.smartdrill.com/About/process4.html]
4.12 Adatbányászati modellek 4.12.1
Gépi tanulás
Az értelmező szótár szerint a tanulás nem más, mint ismeretszerzés, megértés, képességszerzés vizsgálat, útmutatás vagy tapasztalat útján, illetve ez alapján a viselkedésmód megváltoztatása. Ami a gépeket illeti, a tanulás az ő esetükben akkor megy végbe, amikor változtatnak a struktúrán, a programon, az adatokon (a bemenetek alapján vagy egy külső információra adott válaszként) oly módon, hogy a jövőbeli teljesítmény javulása várható. (Nilsson, 2005). Felmerülhet a kérdés, hogy miért szükséges egy gépnek tanulnia, miért nem tervezik eleve olyanra, hogy az adott feladatot el tudja végezni? Válaszként több érvet is fel lehet sorolni (Nilsson, 2005): Vannak olyan feladatok, amelyeket nem lehet jól definiálni. Meg tudunk adni egy példát, a bemenő és kimenő értékeket, de nem látjuk a kapcsolatot az input és a kívánt output között. Ilyenkor szeretnénk azt elérni, hogy a gép úgy tudja változtatni a belső struktúráját, hogy a nagy mennyiségű példa alapján a megfelelő outputot produkálja. Lehetséges, hogy egy nagy adathalmazban rejtett, nem látható kapcsolatok és korrelációk vannak, amelyeket gépi tanuló módszerekkel lehet kibányászni. Bizonyos feladatokhoz kapcsolódó rendelkezésre álló tudás túl nagy ahhoz, hogy emberi munkával explicite kodifikálni lehessen. Egy gép, ami megtanulja az adott tudást, sokkal többet le tud írni belőle, mint egy ember. A környezet idővel változik. Azok a gépek, amelyek képesek folyamatosan alkalmazkodni a változó környezethez, lecsökkentik az újratervezés okozta többlet ráfordításokat. 43 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
Az adatbányászat területén tehát a számítógépes tanulással támogatott módszerek olyan automatizált ismeretszerzési technikák, amelyekkel rendelkezésre álló példákból, adatbázisokból, adattárházakból fedhetünk fel eddig nem ismert összefüggéseket, mintázatokat, szabályokat. Ehhez hasonló, vagyis egyedi esetekből általánosító módszereket már a számítógépek megjelenése előtt is alkalmaztak, mint például statisztikában a regresszió és az előrejelzés, vagy a vezetéstudományban a készletszintre vonatkozó döntések meghozatalakor. Azonban számítógép hiányában az ilyen számításigényes problémák megoldása igencsak nehézkes volt, sok esetben nem is voltak használhatók. (Sántáné-Tóth, 2008) A tanulási folyamatnak három alapmódszere létezik (Sántáné-Tóth, 2008): - Indukció: rendelkezésre áll egy mintahalmaz, amelyből egy általános érvényű következtetés kerül levezetésre. Ennek a következtetésnek az igazságát érdemes további példákon is megvizsgálni. Ez az utólagos vizsgálat hozhat olyan eredményt, hogy a meghozott általánosítás nem állja meg a helyét. - Dedukció: az indukció fordítottja, vagyis egy általános érvényű állításból jut el egyedi jellegű következtetésre. Ha a kiinduló állítás igaz volt, akkor a levezetés is helyes lesz. - Analógia: feltételezi, ha két probléma hasonló, akkor a megoldásuk is hasonló módon megy végbe. Analógia esetén elő kell venni egy korábban már megoldott problémát, amely a lehető legtöbb tulajdonságában hasonlít a jelenlegi esetre, és ugyanazt a módszert alkalmazzuk a megoldásánál. Az analógia ugyanis azt feltételezi, ha két problémának vannak közös tulajdonságaik, akkor vannak még további tulajdonságaik, amelyek megegyeznek. Az így kapott eredmény hipotézis jellegű, az igazságában nem lehetünk biztosak. Az indukcióalapú tanulásnak két formáját különböztethetjük meg, az egyikben létezik a megtanulandó fogalom, a másikban viszont a tanulás során kerül definiálásra. A számítógépes tanulás során leginkább az előbbi változat kerül hatékony megvalósításra. A gépi tanulás célja a kiinduló adatok alapján egy olyan hipotézis keresése, amely ezekre a kiinduló adatokra, illetve az ebben az adathalmazban nem megtalálható esetekre is alkalmazható. (Sántáné-Tóth, 2008) A gépi tanulásnak megkülönböztetjük a felügyelt és a nem felügyelt változatát. Mindkettőnek az a célja, hogy információt vagy tudást nyerjen ki a nyers adatokból, amelyet egyébként csak nagyon nehézkesen lehetne végrehajtani. (Giménez, 2010)
4.12.2
Felügyelt tanulás
A felügyelt tanulást nevezik prediktív, előrejelző, jósló, következtető elemzésnek is. A tanulás egy példákból álló adathalmaz segítségével megy végbe, ahol létezik egy attribútum, amely a többi attribútum értékétől függ (ez lesz a célváltozó). A tanuló algoritmus ezt a kapcsolatot igyekszik feltárni. Az eredményül kapott függvény alapján további bemeneti példák esetén is megjósolható a célváltozó értéke, ugyanis az algoritmus által talált függvénykapcsolattól elvárjuk, hogy eddig nem látott, a tanulási folyamatból kihagyott példák esetén is megfelelő pontosságú becslést adjon. A pontosságot meghatározza az algoritmus robosztussága. Robosztusság alatt azt értjük, hogy hiányos, vagy zajos bemeneti példák esetén mennyire romlik a becslés pontossága. További tulajdonság a skálázhatóság. A 44 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
modellt skálázhatónak tekintjük, ha nagy mennyiségű példa esetén is hatékonyan működik. Amennyiben a célváltozó csak két lehetséges értéket vehet fel, akkor egy fogalom tanulásáról beszélhetünk. (Sántáné-Tóth, 2008) Egy klasszikus példa szerint van néhány ezer email, amelyből tudjuk, hogy melyik spam és melyik nem. Készítünk egy függvényt, amelynek inputja a küldő, tárgy, dátum, idő, üzenet szövege, csatolmány, stb., az output pedig egy osztályba sorolás (spam vagy nem spam). A célváltozó nyújt egyfajta felügyeletet, amelyet a tanuló algoritmus felhasznál arra, hogy a paramétereken igazítson, amely alapján előre tudja jelezni az új adatok célváltozójának értékét (Giménez, 2010). A folyamat a következőképpen néz ki (Giménez, 2010): 1. Adatok előkészítése és súlyozása: Először input vektorokat készítünk, amelyek alkalmasak a tanuló algoritmusunk számára. 2. Tanító és ellenőrző halmaz készítése: Véletlenszerűen kettéosztjuk a teljes adathalmazunkat. A tanító halmaz tartalmazza azon adatokat, amelyeken az osztályozó algoritmus megtanulja az osztályozást, az ellenőrző halmazon pedig alkalmazzuk az elkészült modellt annak érdekében, hogy a hibaarányt és a teljesítményt megállapíthassuk. 3. Modell tanítása: megadjuk az algoritmusnak a tanító halmazt. A végeredmény (remélhetőleg) egy olyan modell, amely sikeresen képes megadni a célattribútum értékét új, ismeretlen adatok esetén. 4. Ellenőrzés és finomhangolás: Miután elkészült a modellünk, tesztelni szeretnék a pontosságát, megbízhatóságát. Ezt egy olyan adathalmazon kell elvégezni, amit az algoritmus nem látott, vagyis nem volt benne a tanító halmazban. Pont ezért történik az adatok kettéválasztása a második pontban. Ha az ellenőrző adathalmazon a hibaarány jóval nagyobb, mint a tanító adatokon, akkor vissza kell menni és változtatni kell a modell paraméterein. 5. A modell teljesítményének ellenőrzése: Számtalan technika áll rendelkezésre ennek megvalósítására, ilyen például a ROC-analízis. Ha nem megfelelő a teljesítmény, akkor változtatni kell a modell paraméterein, inputjain vagy a súlyokon. 6. Modell alkalmazása új adatokon.
4.12.3
Nem felügyelt tanulás
Nem felügyelt, vagy felügyelet nélküli tanulást nevezik leíró elemzésnek is. Ezek az algoritmusok olyan mintázatot keresnek, amellyel csoportosítani tudják a példákat. Komplexebb összefüggések keresésekor ismeret-feltárási algoritmusokról beszélhetünk (Sántáné-Tóth, 2008). A nem felügyelt tanulás során használt algoritmusok nagymértékben különböznek a felügyelt változattól. Ahelyett, hogy megpróbáljuk a cél attribútum értékét megjósolni, megkíséreljük a változók közti összefüggéseket, szabályokat feltárni a tanító adathalmazban. Tehát felügyelet nélkül tanulás esetén nem kerül meghatározásra célváltozó (Giménez, 2010). A nem felügyelt tanulás folyamata egyszerűbb, mint a felügyelt tanulásé, mindössze három lépésből áll (Giménez, 2010): 1. Adatok előkészítése és súlyozása 45 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
2. Modell építése 3. Validálás A felügyelt és nem felügyelt tanulás esetében is beszélhetünk egy fontos, nulladik lépésről. Mielőtt elkezdenénk dolgozni a problémán, fontos hogy megértsük a rendelkezésre álló adathalmaz tulajdonságait. Ehhez segítséget nyújtanak a vizualizációs megoldások, illetve a leíró elemzések. (Giménez, 2010)
4.12.4
Neurális hálózatok
A neurális hálózatok fejlett adatbányászati eszközként jelentek meg olyan esetekben, ahol más technikák nem produkálnak kielégítő előrejelző, prediktív modellt. A mesterséges neurális hálókat csupán ihlették a biológiai neurális hálók, tehát nem egzakt leképezése az agy működésének. A neurális hálók a tanulási, általánosítási képességüket számos előrejelző és osztályozó alkalmazás során bizonyították. A neurális számítástechnikával megalkotott modellt gyakran mesterséges neurális hálózatoknak, vagy csak röviden neurális hálónak nevezik. A neurális hálókat számtalan üzleti alkalmazás során (pénzügy, marketing, gyártás, informatika, stb.) használták osztályozásra, előrejelzésre, becslésre, szabályok illetve mintázatok felismerésére. (Turban et. al., 2010). A neurális hálók alkalmasak klasszifikációra, osztályozásra és előrejelzésre is, ha a modell megértésénél fontosabb az eredményekre alapozott döntés. Továbbá használható irányítatlan klaszterezésre azzal a hátrányával, hogy más technikával kell meghatározni miért is sorolt bizonyos rekordokat egy adott klaszterbe. Módszerével tehát vásárlási minták felismerésére, fogyasztók klaszterekbe sorolására, hitelminősítésre vagy csalásfelderítésre nyílik lehetőség. A neurális hálót akkor érdemes becslő eljárásként alkalmazni, amikor az eredményváltozó értéke nagyon sok inputváltozó függvényeként alakul ki, valamint a feltételezett kapcsolat nemlineáris összefüggésre vezethető vissza. Túl sok változó esetén a számítás idő csökkentése érdekében kombinálni lehet döntési fákkal: először döntési fával meghatározni a releváns változókat, majd ezeket felhasználva keresni mintákat az adatokban neurális hálóval.
4.12.5
Mesterséges neurális hálózatok
A mesterséges neurális hálózatok (Artificial Neural Networks, ANN) olyan nem lineáris modelleket jelölnek, amelyek megpróbálják a az agy biológiai neurális hálóját leképezni. Az ANN-ek mintázatok keresésével, előrejelzések adásával és tanulással utánozzák az agy működését. Ehhez számítógépes programokat használnak. A két fő szerkezeti komponense az ANN-eknek a neuron és a közöttük levő kapcsolatok. Az ANN-k jó képességet mutatnak arra, hogy mintázatokat ismerjenek fel adathalmazokban, adatbányászathoz pedig asszociációval, klasszifikációval és az adatok kinyerésével járulnak hozzá.
4.12.6
Mesterséges neuron
Egy mesterséges neuronhálózati modell a biológiai neurális hálót emulálja. A mesterséges neuron inputokat kap, úgy ahogy az idegsejt dendritje is fogadja a többi 46 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
neuron impulzusait. A mesterséges neuron analóg azokhoz a jelekhez, amit a biológiai idegsejt küld az axonján keresztül. Ezeket a mesterséges jeleket lehet módosítani súlyokkal, ahogy a biológiai szinapszisban is valami hasonló történhet. Egy mesterséges neurális hálóban a legfőbb feldolgozó elem az agyhoz hasonlóan a neuron. A mesterséges neuron a bemeneteken keresztül érkező jeleket súlyozottan összegzi, egy függvény révén transzformálja, majd továbbítja más neuronoknak. (Turban et. al., 2010) Alább kicsit bővebben bemutatjuk a neuron információfeldolgozásához kapcsolódó fogalmakat (Turban et. al., 2010): - Mindegyik input egy attribútumhoz kapcsolható. Például hitelbírálat esetén, ezek az attribútumok lehetnek az ügyfél jövedelmi szintje, kora, információ arról, hogy rendelkezik-e ingatlannal. Ezeknek a változóknak az értéke bemenetként szolgál a hálózat számára. Numerikus értékeken túl még akár képek, videók, hanganyagok is lehetnek bemenetek. Gyakran szükséges az adatok elő feldolgozása, hogy a hálózat számára használható bemenetként szolgáljanak. - Egy hálózat outputja tartalmazza a megoldást az adott problémára. Vegyük ismét a hitelbírálatos példát, itt a kimenet két értéket vehet fel: vagy engedélyezzük a hitelfelvételt, vagy nem. - A súlyok a neurális hálók kulcselemei, ezek segítségével fejezi ki az adott input adat relatív erősségét. Vagyis ezen keresztül tudatja a feldolgozó elemmel minden egyes input fontosságát. A neurális hálózat a súlyok változtatásán keresztül valósítja meg a tanulás folyamatát.
16. ábra: Egy mesterséges neuron vázlata (Turban et. al., 2010) - Az összegző függvény számítja ki az egyes feldolgozó egységekbe bemenő inputok súlyozott összegét, vagyis megszorozza minden egyes bemenet értékét a súlyával és összeadja ezeket az értékeket. 47 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
- Az átviteli függvény kombinálja a neuronba érkező inputokat, majd ezekből egy outputot produkál az átviteli függvénynek megfelelően. Leggyakrabban lépcsős vagy szigmoid alakú. Egy mesterséges neuronhálózat tehát mesterséges neuronokból tevődik össze. Tulajdonságai a neuronokat leíró paraméterektől, és a hálózat topológiájától függenek. A kutatók az idők során különböző típusú neuronhálózatot dolgoztak ki, ezek körül három különösen fontos (Sántáné-Tóth, 2008): - A legegyszerűbb perceptronnál a kimeneti réteg egyetlen neuronból áll és két, 0 vagy 1 értékű bemenetet fogad. Lépcsős aktivációs függvényt használ, amivel a kimenet is csak 0 vagy 1 lehet. - A Kohonen-térkép egy önszerveződő neuronháló. Ennél a típusnál tanítás nélküli tanulás történik, amelynek során többdimenziós vektorok kétdimenziós leképezései alakulnak ki. Jól alkalmazható ismeretlen szerkezetű sokdimenziós halmazok klaszterezésére. - A back-propagation (visszaterjesztéses) neurális háló egy folytonos adatokat kezelő, hiba-korrekciós elven alapuló, felügyelten tanuló modell. Tehát létezik egy bemenetként használt adathalmaz, amin a neurális háló tanulni tud, továbbá egy súlymátrix, amivel a kiszámított és az elvárt értékek közötti eltérést korrigálni tudja. Ez a modell tulajdonképpen a perceptron továbbfejlesztése, szokás többrétegű perceptronnak (MLP, Multilayer Perceptron) is nevezni.
4.12.7 A Kohonen háló A Kohonen háló nevét feltalálójáról Teuvo Kohonen finn professzorról nyerte. Kohonen 1982-ben dolgozta ki ezt a rétegtípust felügyelet nélküli klaszterező módszere számára. Az agyban a neuronok csoportokba tömörülnek, és az egyes csoportokon belül a neuronok közti kapcsolat erősebb. A Kohonen háló ezt próbálja szimulálni egy egyszerűbb módon. A már ismertetett neuronhálókra csak egy kimenet volt jellemző. Az önszerveződő neurális háló ezzel szemben sok kimeneti neuronból áll, melyek végső elhelyezkedése a fontos számunkra (mint az agyban a csoportokba tömörült neuronok). A neuronok ilyen elhelyezkedését nevezzük önszerveződő térképeknek (Self-Organizing Maps, SOM) (Kohonen, 1997).
17. ábra: A Kohonen háló (Sárközy, 2005) 48 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
4.12.8 A SOM algoritmus A SOM algoritmus egy felügyelet nélküli tanulási módszer, amely az n-dimenziós bemenő adatokat alacsonyabb dimenziószámú (általában 2-dimenziós) tömbökre képezi le, és a leképezés eredményét grafikusan (neuronháló) és numerikusan ábrázolja (Abonyi, 2006, 173.old). A SOM-ban a neuronok önszervezése versengés útján történik: a neuronok a minta reprezentálásáért versengenek és a következő verseny megnyerése reményében a minta képe szerint változnak. Ezen a szelekciós és tanulási mechanizmuson keresztül a neuronok egy hasonlóságokat feltáró térképbe szervezik magukat. A térképről ezután könnyen levonhatjuk azt a következtetést, hogy mely hasonló adatok alkotnak csoportot. A SOM algoritmus kiváló csoportosító módszer abban az esetben, amikor nem áll rendelkezésünkre a csoportok kialakításához explicit információ. Az előző fejezetben tárgyalt klaszterező módszer (a nem hierarchikus klaszterképzés) explicit információt igényelt, hiszen előre el kellett döntenünk, hány csoportot alkosson az algoritmus. A SOM tehát két dolgot valósít meg: 1. Csökkenti a dimenziók számát. A 18. ábra: Kétdimenziós térkép mutatja a kimeneti neuronok elhelyezkedését kétdimenziós térkép felállításánál. 2.
Ábrázolja a hasonlóságokat. Csoportba sorolja a bemeneti adatokat aszerint, hogy a kialakuló térképen egymáshoz mennyire kerülnek közel.
18. ábra: Kétdimenziós térkép7 A 19. ábra 40x40 kimeneti neuron már csoportosult a hasonló tulajdonság (jelen esetben a színek) szerint. Az ábrán jól kivehető, hogy 8 neuroncsoport képződik, melyet az ábra jobb oldalán is feltüntet a demó.8
7 8
Forrás: http://www.willamette.edu/~gorr/classes/cs449/Unsupervised/SOM.html Forrás: http://www.ai-junkie.com/ann/som/som1.hml
49 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
19. ábra: Színek csoportosítása SOM részéről
4.12.9 Memóriában végzett következtetés (Memory-based reasoning (MBR)) Az MBR adatbányászati technika az ismert esetek során szerzett tapasztalatokat használja fel arra, hogy becsléseket végezzen ismeretlen esetekre. A becslésre valamilyen metrikában értelmezve, a legközelebbi szomszédokat keresi meg és ezek értékeit használja fel kategorizálásra valamint előrejelzésre. Az MBR két legfontosabb összetevője a távolság függvény, amit a legközelebbi szomszédok azonosításához használ, valamint a kombinációs függvény, amely az így meghatározott szomszédok értékeit használja fel az előrejelzéshez. Az MBR előnye, hogy különösebb módosítások nélkül tulajdonképpen bármilyen adatokkal elvégezhető az elemzés – akár hosszabb szövegekkel, képekkel, hanganyagokkal is. A módszer másik előnye a döntési fákkal és a neurális hálókkal összehasonlítva, hogy miután a megfelelő távolság függvény és kombinációs függvény meghatározásra került, új kategóriákba tartozó új esetek bevitele után is stabilak maradnak, míg a másik két módszer esetében hosszabb ideig tartó újratanításra (retraining) van szükség. Az MBR a döntési fákhoz hasonlóan klasszifikációra, osztályozásra és előrejelzésre olyan területeken használható, ahol a múltbeli tapasztalatoknak nagy szerepe van új esetek vizsgálatánál: ügyfélreakció előrejelzése, csalásfelderítés, hosszabb szövegek kódokkal való ellátása.
4.12.10
Genetikus algoritmusok
A genetikus algoritmusok olyan eljárások, amelyeket a darwini evolúciós elmélet ihletett. A lehetséges alternatívákat egyedek reprezentálják, amelyek egy populációt alkotnak, tehát az algoritmus egyszerre több megoldással dolgozik. Az aktuális populációból minden lépésben egy új populációt állító elő az evolúció mintájára, miközben az elemek mutációja és keresztezése mehet végbe, így az új populáció valószínűleg rátermettebb egyedeket fog tartalmazni, ugyanis a kiválasztás során előnyt élveznek a valamilyen szempont alapján magasabb rátermettségi értékkel rendelkezők. A lépést újra és újra megismételve feltételezhető, hogy a populáció egyre alkalmasabb (de semmiképp sem alkalmatlanabb) egyedekből fog állni. (Jelasity, 2011)
50 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
A genetikus algoritmusok (GA) számítástechnikailag utánozzák azt, ahogy a természetes szelekció működik, majd ezt a megközelítést üzleti és kutatási problémák megoldásában hasznosítják. John Holland fejlesztette ki őket az 1960-as és 1970-es években. A Genetikus algoritmusok vázat adnak olyan biológiai indíttatású vizsgálatokhoz, mint például a párválasztás, a reprodukció, mutáció vagy a genetikus információ továbbadása (pl. öröklés). (Larose, 2006) Ennek megfelelően, a genetikus algoritmusok terminológiája nagyon hasonlít és sokat kölcsönzött a genetikai terminológiából. A kromoszóma itt egy problémamegoldási lehetőséget jelöl, a gén ennek a megoldásnak egy számjegye vagy bitje. 4.12.10.1 Műveletek A genetikus algoritmusok három műveletre épülnek: - Szelekció: az a művelet, amikor kiválasztjuk melyik kromoszómák fognak párosodni - Kereszteződés: két kromoszóma újrakombinálását jelöli - Mutáció: véletlenszerűen változtat géneket a kromoszómán belül 4.12.10.2 Az algoritmus lépései Inicializáció: tegyük fel, hogy az adatunk bit stringbe van kódolva. Meghatározunk egy kereszteződési valószínűséget és egy mutációs valószínűséget Kiválasztjuk a vizsgált népességet (adathalmazt), ami n db l hosszú kromoszómából áll Az alkalmassági függvénnyel minden kromoszómáról meghatározzuk a fittségét a népességben A következő lépéseket ismételjük n utód eléréséig - Szelekció: kiválasztunk két egyedet a populációból, a magasabb alkalmasságú egyedeket nagyobb valószínűséggel választjuk ki - Keresztezés: véletlenszerűen kiválasztunk egy keresztezési pontot, a két szülő kromoszómáiból létrejön két utód - Mutáció: a mutációhoz tartozó valószínűséggel mutáljuk a két utód génállományát Létrejött az új populáció. Ellenőrizzük, hogy a megszakítási kritériumunkat elértük-e, ha nem, ismételjük a lépéseket. Egy ilyen ciklust nevezünk generációnak és általában 50-500 generációba kerül, mire az értékek (egyedek) konvergálni fognak. A genetikus algoritmusokat gyakran használják neurális hálózatok optimalizálásánál.
4.13 Leíró elemzések Az előrejelző elemzésekkel szemben, melyekkel múltbeli adatokból lehet következtetéseket levonni a jövőben bekövetkező eseményekre, leíró elemzéseknél egyszerűen csak a meglévő adatok jellemzése a cél, amellyel az adatok mögött rejlő információkhoz kerülhetünk közelebb. A leíró elemzések technikái közé sorolhatjuk a klaszterelemzést, a különböző asszociáció elemzéseket, valamint az adatmegjelenítő eljárásokat.
51 (106)
Dr. Molnár Bálint ©
4.13.1
Az adatbányászat elméleti háttere
Klaszterelemzés
Klaszterképzés során az összes adatot kisebb, valamilyen szempontból homogénebb részhalmazokra bontjuk, melynek elemei valamilyen jellemzőjüket tekintve hasonlóságot mutatnak. Ezeket a homogénebb részhalmazokat nevezzük klasztereknek. Mivel az elemzés eredményeként kialakított klaszterek közös jellemzőiről előzőleg nem tudunk semmit, sőt az elemzés célja ezek azonosítása, a klaszterelemzés kitűnő példája az irányítatlan feltáró adatbányászatnak. A klaszterképzést az különbözteti meg a hagyományos osztályozástól, hogy míg az utóbbinál előre definiált osztályokba soroljuk be az adatokat, a klaszterezésnél nincsen szükség ilyen előre meghatározott kategóriákra, a rekordokat hasonlóságuk alapján rendezi klaszterekbe. A klaszterek azonosítását követően szabadon választhatunk azonosító nevet a csoportoknak. A klaszterképzés nem önállóan alkalmazott módszer, de jó kiindulópontot adhat további adatbányászati elemzésekhez. Fogyasztói szegmensek kialakításánál például első lépésként könnyen meghatározható a vásárlók klaszterei, melyeket a promóció részleteinek kidolgozásánál – melyhez további elemző módszereket vehetünk igénybe - már azonosított egységként lehet kezelni. Sajnos a klaszterképzésnek megvan az a hátránya, amely irányítatlan jellegéből következik az, hogy hiába kapja meg az elemző a végső klasztereket, nem biztos, hogy könnyen felismerni és értelmezni tudja a klaszterek által feltárt hasonlóságokat.
4.13.2 Nem hierarchikus klaszterképzés Nem hierarchikus csoportosítás esetén előre el kell döntenünk, hogy hány csoportot szeretnénk képezni, az algoritmus az összes adatot a meghatározott számú csoportokba ossza. A leggyakoribb nem hierarchikus technika alapja az újracsoportosítás, melynek Kátlag (K-Means) néven ismert módszerét MacQueen javasolta (Berry – Linoff, 1997). A módszer a legegyszerűbb és leginkább elterjedt algoritmusok közé tartozik a klaszterképzésben, ezért ezen illusztrálom az eljárás metodikáját. Először is az ábrán felrajzolt adatpontokból kijelölünk K darabot (kiválasztott adatpontok száma = csoportok száma), ezeket nevezzük magoknak. A kijelölt magok az a. ábrán (20. ábra) feketével jelölt adatpontok. Második lépésben minden adatpontot besorolunk abba a klaszterbe, amelynek a középpontja (a magja) a legközelebb van az adott ponthoz. Az így kapott 3 klasztert az a. ábra (20. ábra) vastag vonalai választják el egymástól. A piros színnel jelölt adatpont az előbb leírt módon a hozzá legközelebb levő mag csoportjába tartozik, a második klaszterbe. A következő lépésben kiszámítjuk a klaszterek új középpontjait (magok mozgatásával), melyet az adott klaszterbe tartozó adatpontok koordinátáinak átlaga ad meg. Az új klasztercentroidok a b. ábrán (20. ábra) kereszttel vannak jelölve. Miután megtaláltuk az új klaszter magpontokat, ismét besorolunk minden egyes pontot a hozzá legközelebbi centroidhoz. A c. ábra (20. ábra) mutatja az új klaszterhatárokat. Figyeljük meg, hogy a pirossal jelölt adatpont az algoritmus lefutásának végére átkerült a második klaszterből az elsőbe. A pontok beosztását és a centroidok újraszámítását addig folytatjuk, míg a klaszterhatárok változása meg nem áll.
52 (106)
Dr. Molnár Bálint ©
a: Kezdeti klaszterek
Az adatbányászat elméleti háttere
b:Klasztercentroidok mozgása
c: Végső klaszterek
20. ábra Klaszterek
4.13.3
Asszociáció elemzés (Kapcsolat elemzés)
Az asszociáció elemzés technikájával előfordulási szabályszerűségek, összefüggések találhatóak meg két halmaz között. Asszociáció elemzéssel kivitelezhetőek a piackosár-elemzések (Market Basket Analysis – MBA) is, mely során arra keressük a választ, mely termékeket vásárolnak együtt, azaz milyen vásárlási minták léteznek. A modell segítségével megkapjuk annak a valószínűségét, hogy a különböző termékeket együtt fogják megvásárolni. Ilyen szabály lehet például: “Chips vásárlásakor az esetek 60%-ban vásárolnak kólát, hacsak nincsen akció, amikor ez az arány 75%-ra emelkedik.” Az asszociációs eszközök különösen hasznosak a kiskereskedelemben, hiszen az elemzések eredményeképpen az árucikkek között fennálló kapcsolatokról konkrét, azonnal felhasználható szabályokat kapunk. Ezeket a szabályokat többféleképpen lehet hasznosítani: promóciók ütemezése áruk elhelyezése az üzleten belül, direkt marketing kiadványban vagy a honlapon árukapcsolások kuponok a kosárban megtalálható, de egyébként külön árusított termékekre. Az MBA elemzések a kiskereskedelem számára nemcsak hasznos, hanem gyakran kizárólagos elemzési eszközként jelennek meg, hiszen a fogyasztókról legtöbbször a kosárba rakott és megvásárolt terméken kívül más információ nem áll rendelkezésre. Más jellegű adatok – demográfia, termékhasználat stb. – csak ritkán, pl. törzsvásárlói kártyák alkalmazásával gyűjthetőek. Az asszociáció elemzés - a klaszterelemzéssel együtt - azon kevés technikák közé tartozik, mellyel irányítatlan elemzések is végezhetőek, azaz mindenféle előzetes feltevés, sejtés nélkül is használhatók. A kapcsolatelemzés egyik területe a gráf-elméletre épülő ún. kapcsolat elemzés (link analysis), melynek segítségével egy adathalmaz szerkezete jeleníthető meg olyan ábrával, amely az egymással összeköttetésben lévő elemeket mutatja meg. Ez a kapcsolat elemzés speciális üzletágakban, - mint pl. telekommunikáció - hasznos információt nyújthat a fogyasztók közötti kapcsolatokról, hiszen minden egyes telefonhívással két előfizető kerül összeköttetésbe, kedvezőbb esetekben ugyanannak a társaságnak az ügyfelei. Alkalmazható továbbá csalás ill. bűnözők hálózatainak felderítésében vagy az világháló honlapok (Web site) használatának elemzéséhez. Az asszociációs elemzések egyik fajtája a szekvencia elemzés, melyet akkor érdemes használni, ha az események, melyek között összefüggéseket keresünk időben 53 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
egymást követik. Így tehát annyival több az előbb említett asszociációs elemzésnél, hogy egyrészt szükséges az időpontok ismerete, másfelől nélkülözhetetlen az ügyfelek pontos azonosítása, hiszen a technika lényege, hogy egy személynél vizsgáljuk az események bekövetkezését. Egy szekvencia elemzés által felismert lehetséges szabály: ·”Egy bank ügyfele, aki folyószámlával rendelkezik, majd három hónapon belül betétszámlát is nyitott, az esetek 24%-ban hat hónapon belül hitelkártyát is igényelni fog.” A szekvencia elemzést tehát a személyre szabott ajánlatok időbeli ütemezésére lehet felhasználni, hogy a vevőt a megfelelő időben érje el a megfelelő üzenet. Azok a vállalatok, melyek saját honlappal rendelkeznek, a honlap hatékonyságát kapcsolat elemzés mellett a kattintások (clickstream) elemzée segítségével is górcső alá vehetik, mellyel képesek adatokat gyűjteni az ügyfelek látogatási (session) ideje alatt tanúsított magatartásáról, melyet az un. a napló állományokban (log file) gyűjtenek. Az internetezők mozgását figyelő eszközökkel meg lehet állapítani honnan jöttek a mi oldalunkra, melyik oldalt mennyi ideig nézte, mit csinált a látogatás alatt, s legközelebb mikor tért vissza. Az így megfigyelt böngészési szokások fontos többlet információkat biztosíthatnak a fogyasztókról, de sejtethetnek termékkapcsolatokat, melyek cross-sell ill. up-sell lehetőségek alapjait jelenthetik. Több ezer látogató mozgásából már magatartási mintákat lehet felállítani, s később ezekre építve lehet átépíteni a honlap szerkezetét. Mivel kattintások analízisének adatbázisa igen dinamikusan változik, az adatokat általában a többi adattól elkülönítve kell tárolni, de rendszeresen össze kell kapcsolni az egyes ügyfelek többi adataival. Különösen jó eszköz az e-nyomkövetők (e-tailerek) számára, akik nyomon követhetik e-boltjuk hatékonyságát. Információkat szerezhetnek arról, hogy ha valaki már összegyűjtött néhány terméket a virtuális vásárló kocsijában, akkor miért hagyta ott az oldalt pont a rendelés véglegesítése előtt. Megállapíthatja, hogy ez az ügyfél ügyfélértékének megfelelően megérdemli-e, hogy pl. egy e-mailhez csatolt elektronikus kuponnal kedvezményesen vásárolhassa meg a korábban ott hagyott termékek egy részét.
4.13.4
Adatmegjelenítő eljárások
Az adatmegjelenítő technikák nagyobb mennyiségű adathalmaz könnyebb áttekintését segítik elő azzal, hogy valamilyen képi formára transzformálják a számokat. Az elemzési folyamat bármelyik fázisában segíthetik az eredmények megértését, valamint új ötleteket sugallhatnak a továbblépéshez. Adatmegjelenítő eljárásként segítségül hívhatóak többek között hisztogramok, pont diagramok vagy vonal diagramok, melyek 2 ill. 3 dimenzióban ábrázolhatják az adatokat. Ezeknek az ábráknak a felhasználásával olyan felismerések is születhetnek, melyek a hagyományos táblázatos formában soha nem merültek volna fel, de vizualizáció segítségével könnyebben feltűnhetnek. (Ld. Hiba! A hivatkozási forrás nem található.. Hiba! A hivatkozási forrás nem található.)
4.14 Fuzzy-rendszerek A fuzzy-rendszerek az elmosódott halmazok logikáján (fuzzy logic) alapszik. A fuzzy logika lényege, hogy nem csak igen és nem értékkel dolgozik, hanem közbülső értékekkel is, ezáltal matematikailag jobban megragadhatók az olyan 54 (106)
Dr. Molnár Bálint ©
Az adatbányászat elméleti háttere
meghatározások, amelyeknek nincsenek egzakt határai. Például hány centiméteres férfi számít magasnak? 190? 185? Ha 190 centiméter magasnak számít, akkor a 189 már nem? A fuzzy logika úgy oldja meg a kérdést, hogy megad egy értéket, amely azt jelöli, hogy az adott elem mennyire van benne az adott halmazban. A fuzzyrendszerek leginkább akkor hasznosak, ha egy probléma matematikai leírása nem áll rendelkezésre, azonban hétköznapi verbális megfogalmazása adott. (Wikipedia, 2011c)
4.15 Szövegbányászat A szövegbányászat definiálása egyszerű feladat, mivel az adatbányászat egyik változatáról van szó. A szövegbányászat az adatbányászat olyan alkalmazása, amelyben a bemenő adat strukturálatlan, vagy csak kevéssé strukturált szöveg. Ilyen rosszul strukturált adatnak tekinthetünk például egy szerződést Word formátumban, egy tanulmány szövegét, vagy egy tetszőleges weboldal tartalmát. A szövegbányászat során a vizsgált dokumentumok „rejtett” tartalmát keressük, így például az egyes szövegrészek közt fellelhető kapcsolatok és egyéb nehezen felfedezhető tendenciák után kutatunk. A szövegben (mint az adatbányászat során) szabályokat, mintázatokat keresünk, melyeket később egy döntés indoklására, vagy egy másik modell alapjaként fel lehet használni. A folyamatot azzal kezdjük, hogy megalkotjuk a stopszavak listáját. Ez egy olyan lista, amely azon szavakat tartalmazza, amelyeket nem kívánunk figyelembe venni a vizsgálat során. A magyar nyelvben ez tipikusan a névelők, kötőszavak és egyéb –a vizsgálat során haszontalan– szavak listája. A fennmaradó szavakat ezután meg kell fosztani összes toldalékuktól, így megkapjuk azok szótövét. Az így létrejött szóhalmazon különböző matematikai és statisztikai módszereket elvégezve (például az előfordulások száma alapján történő súlyozás) egy olyan adathalmazt kapunk, amely már alkalmas egy komplex adatbányászati elemzés bemeneteként szolgálni. (Efraim, Aronson, Liang, & Sharda, 2007)
4.16 Világháló bányászat - Web mining A webes adatbányászat az üzleti intelligencia alkalmazásának egy viszonylag új területe. Ennek a területnek az alapja a szövegbányászat, mely azért vált lehetségessé, mert a webes tartalom legnagyobb részét még mindig a szöveges tartalom adja. Ne feledkezzünk el arról sem, hogy a Web mára már talán a világ legnagyobb adat- és szöveghalmaza. (Efraim, Aronson, Liang, & Sharda, 2007) A világháló bányászat üzleti alkalmazásaira manapság csak kevés és nagyon specializált példát találunk. A jelenlegi alkalmazók körét leginkább a keresőmotorok gyártói (Google, Microsoft, Ya-hoo, stb.), a keresőoptimalizálást végző ügynökségek és a webbel foglalkozó kutatócsoportok alkotják. A cél természetesen ugyanaz, mint az összes adatbányászati alkalmazás használata során: a nagymennyiségű adatot úgy kell elemezni, hogy az valamilyen új, addig nem látható vagy nem egyértelmű információra hívja fel a figyelmet, mely alapján üzleti döntést hozhatunk. A webes kereséssel foglalkozó vállalatok esetében a világháló bányászat technológia maga a cég alapvető képessége (ilyen vállalat például Google), ami felhívja figyelmünket az üzleti intelligencia ezen ágának a jövőbeni kiemelt jelentőségére. 55 (106)
Dr. Molnár Bálint ©
Hagyományos statisztikai területek és adatbányászat
5 Hagyományos statisztikai területek és adatbányászat 5.1
Statisztika kontra adatbányászat
Míg az adatbányászat mesterséges intelligenciával támogatott módszereket, addig a statisztika hagyományos adatelemzési módszereket alkalmaz. A statisztika kérdőíves felméréseket használ alapadatként, valamint ezekből a mintákból következtet vissza az eredeti sokaság tulajdonságaira. A becslések készítésén kívül az adott hipotézisek tesztelésére támaszkodik. A folyamat során egyedi modelleket használ. A statisztikai elemzés tehát mindig valamilyen, az adatbázison kívüli információra támaszkodva építi fel modelljét, hipotézisét, és teszteli azt. Ezzel szemben az adatbányászat módszertana képes a teljes rendelkezésre álló adatbázist elemezni. Flexibilis modelleket használ, melynek köszönhetően alkalmas olyan rejtett összefüggések kinyerésére, melyekről az eszköz alkalmazása előtt fogalmunk sem volt. A nagy adatbázisokon megvalósított elemzések az adatbányászat sikeres alkalmazási területei. Az adatbányászat alkalmazása komoly emberi erőforrások bevonását igényli, főképpen az adatokat és a célokat jól ismerő elemzők részéről. A szakmai oldal képviselői mellett szükség van mélyebb statisztikai, elemzői gyakorlattal rendelkező munkatársakra is. Eszközeit, és lehetőségeit tekintve, az adatbányászat, mint adatelemzés két kategóriába sorolható: leíró adatbányászat
következtetéses adatbányászat
A két kategória megfeleltethető a statisztika hasonló kategóriáinak. A leíró adatbányászat adatok megjelenítését, összesítését, klaszterezést, osztályjellemzést, kapcsolat elemzést (link analízis) jelent; egyszóval az adatok általános jellemzőit tárják fel. Míg a következtetéses adatbányászat feladata az osztályozás, az előrejelzés, a regresszió, és az idősorok elemzése. Az adatbányászat felhasználás szempontjából a következő területekre terjed ki: Csoportleírás, mely eljárás során az adatok egy meghatározott körének jellemzőit tárja fel az alkalmazó. Ilyen leírás, jellemzés az adatok alap statisztikáinak megadása, várható érték, szórás stb Alkalmas továbbá különféle asszociációs kapcsolatok feltárására, amelynek során kiderül, hogy a különböző adatok mennyire viselkednek hasonlóan, ezért melyeket lehet nyugodtan elhagyni. Tipikus felhasználási területe a különböző adatcsoportok különbségeinek és hasonlóságainak jellemzése. Szaknyelven ez az információtisztítás, például hogy az életkor és a születési dátum közül elegendő csak az egyiket tárolni. (A modellépítésben használt adatbányászati algoritmusok futási ideje ugyanis jelentősen csökkenhet, ha szűkebb leíró adathalmazon történik meg.) Asszociációs kapcsolatok feltárása, mely kifejezés azt jelenti, hogy egy tételsor milyen gyakorisággal foglalja magában más tételek jelenlétét egy adott ügyleten. 56 (106)
Dr. Molnár Bálint ©
Hagyományos statisztikai területek és adatbányászat
Például egy, az X adathalmazban előforduló x értékhez milyen gyakorisággal kapcsolható egy Y adathalmazbeli y elem. Amennyiben létezik ilyen kapcsolat, akkor az adatbányászat segítségével feltárható, és annak erőssége jellemezhető. Szabálygenerálás, mely alkalmazás a már rendelkezésre álló csoportosítás szabályát fedi fel. Adott egy X adathalmaz csoportosítása n részhalmazba, mely részhalmazok páronként diszjunktak. Az adatbányászat alkalmazásával lehetséges megállapítani, hogy a rendelkezésre álló paraméterek miként határozzák meg azt, hogy az adott elem melyik részhalmazba tartozik. Nagy előnye ennek az alkalmazásnak, hogy eredményei könnyen interpretálhatóak, és látványosak. Előrejelzés, mely alkalmazás esetén a múlt adataira támaszkodva képes az alkalmazás előrejelzéseket készíteni. Ilyen előrejelzés lehet például a szabálygenerálás során felfedezett összefüggések alkalmazása új adatokon. Az adatbányászat a rejtett összefüggések feltárása után képes ezen összefüggéseket új szituációkra is kiterjeszteni. Szegmentáció, klaszterezés. Osztálycímkék előállítására használják. Az ügyletek egy adatbázisa alapján felosztja az adatbázist oly módon, hogy azok a felvételek, amelyek hasonló tulajdonságokkal rendelkeznek, egy csoportba kerüljenek. Minden kialakított klaszter felfogható egy-egy objektumosztálynak, amelyből szabályok származtathatóak. Ezen alkalmazás során egy adott adathalmazt kell adott paraméterek szerint előre meghatározott számú, vagy előre nem meghatározott számú csoportra osztani. Ezen csoportosítás az adathalmaz elemeinek hasonlóságán alapul. Sok esetben ezek a hasonlóságok nem ismertek, logikai úton nem következtethetőek ki, ekkor alkalmazhatóak az adatbányászat klasszifikáló eszközei. Idősor elemzés. Idősorok minden vállalat életében találhatók, igaz, sokszor olyan bonyolult formában, olyan sok magyarázó változóval kísérve, hogy hagyományos statisztikai eszközökkel már nem elemezhetők. Ekkor jön az adatbányászat, mely képes ezekben a bonyolult esetekben is jó közelítéssel az összefüggések feltárására, és előrejelzések készítésére.
5.2
Adatbányászat által nyújtott korszerűbb megközelítések
5.2.1 Mesterséges intelligencia és az adatbányászat A két tudományterület szoros összefüggésben áll egymással, így az olyan fejlesztések, felhasználási módozatok, amelyek mindkét területet érintik az utóbbi években eléggé elterjedtek. A kutatások természetesen nemcsak elméleti szinten folynak. A mesterséges intelligencia kutatások, póriasan fogalmazva, az emberi agy elektronikus megfelelőjét keresik. A tudományág így szoros összefüggésben áll az agykutatással. A két terület közös „fejlesztési eredményének” tekinthetőek a neurális hálók, amelyek az emberi idegrendszert próbálják elektronikus módon leírni. A kiinduló elképzelés az idegsejtek működéséből vezethető le, mely esetben az adott idegsejt több különböző inger hatására jelzést bocsát ki, reagál. Ez az eljárás úgy 57 (106)
Dr. Molnár Bálint ©
Néhány kereskedelmi forgalomban kapható üzleti
formalizálható, hogy a bejövő adatok (ingerek) valamilyen függvénye határozza meg a kimenő adatot (reakció). A fentiek alapján például a bejövő adatok egy súlyozott összege határozza meg a kimenő értéket, tehát ha ez a súlyozott összeg meghalad egy bizonyos küszöbértéket, akkor 1 lesz a kimenő érték, míg ellenkező esetben 0. Bonyolultabb esetekben lehetőség nyílik a döntési függvény megváltoztatására, például exponenciális formára hozása, illetve egyéb transzformációk, melyek segítségével több neuron összekapcsolása valósítható meg, azaz akár a teljes idegrendszer is modellezhető. Ugyanígy értelmezni lehet a neurális háló tanulását, amely esetben a döntési függvénybe beépülhetnek olyan információk, amik az eddigi döntések eredményein alapszik (tapasztalás, egyes feladatok rutinná válása, reflex).
6 Néhány kereskedelmi forgalomban kapható üzleti intelligencia rendszer (BI) 6.1 A jelenlegi BI piacvezetők A számos üzleti intelligencia szoftvert gyártó cég közül egy 2007-es kimutatás szerint piacvezető a francia Business Objects és a kanadai Cognos vállalat (Anonymus, 2007c). 2011-ben Business Objects az SAP, a COGNOS az IBM tulajdonában áll. A vezetők szegmensébe tartozik még a Hyperion Solutions és az Oracle (21. ábra). Gartner szerint, azok a cégek a vezetők, akik a valóságban sikeresek, világos jövőképpel rendelkeznek és aktívan dolgoznak a piacvezető pozíciójuk megtartásáért.
21. ábra: Business Intelligence Platform Magic Qudrantja9, 2007
9
Forrás: Gartner (Január 2007)
58 (106)
Dr. Molnár Bálint ©
Néhány kereskedelmi forgalomban kapható üzleti
A 2011-es jelentésből látszik, hogy mind az IBM mind az SAP a felvásárlásokkal erősítette pici helyzetét. (22. ábra)
22. ábra 2011 Magic Quadrant for Business Intelligence Platforms 10
6.1.1 Cognos Cognos Inc. a vállalati szintű adatelérési és -elemzési igények kielégítésére képes „üzleti intelligencia” szoftverek a világ vezető szállítója. A Cognos üzleti intelligencia eszközök nagy sebességű megoldást kínálnak az értéklánc teljes hosszán: A vállalat napi működését támogató tranzakciós rendszerekben felhalmozódó adatokat különféle téma-orientált adatpiacokba és/vagy vállalati adattárházba gyűjthetjük a DecisionStream ill. SAP Accelerator segítségével, A Magic Quadrant a Gartner piacelemző cég szerzői joggal védett objektív kutatási eszköze. A Magic Quadrant a piac egy meghatározott időszakának grafikus ábrázolása. A Gartner azon elemzéséről szól, amely meghatározott gyártókat mér fel a Gartner által meghatározott piaci ismérvek alapján. 10
http://www.microstrategy.com/Company/GartnerQuadrant.asp
59 (106)
Dr. Molnár Bálint ©
Néhány kereskedelmi forgalomban kapható üzleti
Az adatokat üzleti információvá alakíthatjuk, az Impromptu-vel lekérdezhetjük, a PowerPlay-jel elemezhetjük, a Scenario-val és 4Thought-tal a rejtett összefüggéseket kutathatjuk fel őket, Mindezen információk bekerülhetnek a vállalati tudásbázisba, és az Upfront üzleti intelligencia portál segítségével a megfelelő időben, a megfelelő módon eljuthatnak minden döntési pontba.
6.1.2 Oracle Az Oracle az adatbázis technológia területén egyike a vezető vállalatoknak. Az üzleti intelligenciához kötődő termékei: - Oracle Database; - Oracle Discoverer; - Oracle Warehouse Builder; - Oracle Express. Az üzleti intelligencia megoldásai a következő speciális funkciókkal rendelkeznek: Adattárház konform adatbázis kialakítását segítő eszközkészlet: a nagytömegű adatok menedzselését segítő partícionálás, a válaszidők felgyorsítására szolgáló sokrétű index- és aggregált adatkezelés megkönnyíti az adatpiac / adattárház megoldások központi adatbázisának kialakítását. ETL (Extract, Transform, Load) eszközkészlet: az adatintegráció, adatbetöltés során szükséges funkciók az adatbázisba vannak integrálva, mely optimalizált végrehajtást tesz lehetővé. OLAP eszközkészlet: a korábban csak multidimenzionális eszközök által nyújtott többdimenziós elemzések, előrejelzések, analitikus függvények használatát biztosítja skálázható módon akár adattárház méretű adathalmazokon is. Adatbányászati eszközkészlet: az üzleti adatok között található mélyebb kapcsolatok feltárását teszi lehetővé klaszterezés, asszociációs szabályok és más algoritmusok segítségével.
6.1.3 SAS Az 1976-ban alapított SAS Institute a világ legnagyobb magánkézben levő szoftvervállalata. Napjainkban a SAS a döntéstámogató, információ szolgáltató rendszerek egyik vezető szállítója. A SAS alkalmazások alapvető célja az adatvagyon minél hatékonyabb kiaknázása. A SAS üzleti megoldásai: Analitikus CRM; e-Intelligence – e-business rendszerek döntéstámogatói környezete; CFO Vision – Pénzügyi konszolidáció és jelentéskészítés; Strategic Vision – Vállalati teljesítmény menedzsment; IT Menedzsment megoldások; Procurement Vision – Beszállítói kapcsolatok menedzsmentje; HR Vision – Humán erőforrás menedzsment; Risk Dimensions – Teljes Vállalatot átfogó kockázat menedzsment; Enterprise Miner – Adatbányászat; Statisztikai elemző, modellező rendszerek. 60 (106)
Dr. Molnár Bálint ©
Néhány kereskedelmi forgalomban kapható üzleti
A SAS üzleti megoldások technológiai keretrendszere a SAS adattárház (ld. 23. ábra).
23. ábra: SAS adattárház11
6.1.4 SAP Az 1972-ben alapított SAP AG. vezető helyen áll az integrált vállalatirányítási rendszerek piacán. Az üzleti intelligencia területén az SAP két megoldást kínál: a BW-t (Business Information Warehouse) és a SEM-et (Strategic Enterprise Management). A BW előnye, hogy előre definiált adatkinyerő programokkal és információs struktúrákkal rendelkezik, melyek segítségével az adattáház-építési munka felgyorsítható, kockázata csökkenthető. „Használatra kész“ megoldás, tehát tartalmaz minden olyan komponenst, amely az adattárházak működtetésének elengedhetetlen feltétele (ld. 24. ábra). A BW eszközei: Business Explorer és más webes felhasználó-oldali kliens eszközök BW szerver komponensek Administrator Workbench az adminisztrációs feladatok ellátására kisebb adatkinyerő, adatszolgáltató modulok az SAP R/3 rendszerhez A SEM hosszútávú (strtégiai) tervezési és felsővezetői beszámolási eszköz. Az SAP üzleti intelligencia eszközök célja, hogy integrálják és könnyebben elemezhetővé tegyék a különböző forrásokból származó adatokat, valamint hogy támogassák az elemzések vizualizációját és kommunikációját. Ezáltal a vezetés hatékonyabb teljesítménytervezést és -ellenőrzést valósíthat meg: a piaci változásokhoz gyorsabban igazíthatja hozzá a szervezet működését.
11
Forrás: Kő Andrea, 2006, 16. old.
61 (106)
Dr. Molnár Bálint ©
Néhány kereskedelmi forgalomban kapható üzleti
24. ábra: SAP BW komponensek12
6.1.5 Microsoft A Microsoft üzleti Intelligencia megoldása egymáshoz szervesen illeszkedő termékek teljes csomagját kínálja, amellyel folyamatosan elérhetők a széles körben használt alkalmazások és jelentések, amelyek a döntéshozási folyamatot minden oldalról támogatják. Az SQL Server 2005 egy olyan integrált adatkezelési és -elemzési megoldást nyújt, amely mérettől függetlenül minden szervezet számára lehetőséget teremt a következőkre: Biztonságosabb, skálázhatóbb és megbízhatóbb vállalati alkalmazások elkészítése, bevezetése és felügyelete. Az informatikusok produktivitásának maximalizálása az adatbázisalkalmazások fejlesztésének és támogatásának leegyszerűsítése révén. Az adatok megosztása több platform, alkalmazás és eszköz között, melynek köszönhetően egyszerűbbé válik a belső és a külső rendszerek összekapcsolása. A költségek keretek között tartása a teljesítmény, a rendelkezésre állás, a skálázhatóság és a biztonság terén tett engedmény nélkül. Az SQL Server 2005 szolgáltatásai leegyszerűsítik a vállalati adatkezelő és elemző alkalmazások elkészítését, felügyeletét és használatát minden platformon, a mobileszközöktől kezdve egészen a nagyvállalati adatkezelő rendszerekig. Mindenre kiterjednek, képes együttműködni a meglévő rendszerekkel, és automatizálják a rutinfeladatokat, így mérettől függetlenül minden vállalat számára teljes körű megoldást biztosítanak.
12
Forrás: Sidló Csaba, 2003
62 (106)
Dr. Molnár Bálint ©
Néhány kereskedelmi forgalomban kapható üzleti
6.1.6 SPSS Az SPSS napjaink üzleti intelligencia piacának egy igen jelentős szereplője, a mai napig világszerte 60 országban 250 000 vásárlóval büszkélkedhet. Saját definíciójuk szerint megoldásuk azért különleges, mert szoftverük segítségével prediktív elemzésekre is lehetőség nyílik. A SAS rendszere is képes ugyanezt a funkciót elvégezni. A prediktív elemzések előnye az, hogy a reaktív (a történésekre reagáló) üzletvitel helyett proaktív, azaz a jövőbeli történéseket alakító stratégia folytatható. A jövőbeli adatok jóslása természetesen változatlan módon a múltbéli adatok alapján történik, például varianciaanalízis, vagy regresszió segítségével. (SPSS Inc., 2009) Az SPSS fő piaci megkülönböztető tulajdonsága az, hogy alapvetően nem a mindennapi üzleti adatok feldolgozására szánják, hanem kérdőívek elkészítésére, valamint annak feldolgozására. Ettől függetlenül az üzleti tranzakciós adatok áttöltése esetén természetesen itt is lehetőség nyílik a széleskörű statisztikai fegyvertár alkalmazására. Az adatbányászati eszköze a Clementine.
6.1.7 Business Objects üzleti intelligencia megoldások (SAP) A Business Objects-et 1990-ben egy az Oracle-ből kivált csapat alapította meg. Központja USA-ban a Szilícium-völgyben található. A cég kizárólag döntéstámogató rendszer fejlesztésével foglalkozik. Mára a Business Objects a világ több mint 80 országában van jelen több mint 2 500 000 eladott licenccel bír nagyjából 11 500 vállalatnál. Több mint 500 vállalattal alakított ki partneri kapcsolatot termékfejlesztésre, támogatásra és értékesítésre. Ezek a partnerek a szaktanácsadás, adatbázis kezelés, fejlesztés, adatáruházak és üzleti alkalmazások szakterületeiről kerültek ki. Gartner piacelemző cég Magic Quadrantja szerint Business Objects az első a vállalati döntéstámogató és üzleti intelligencia redszerek fejlesztői között (ld. 21. ábra). A cég jelmondata is erre utal: „First in e-business intelligence”. Termékei teljes megoldást biztosítanak az adatok eléréséhez, elemzéséhez és terjesztéséhez, emellett teljes mértékben internetes alkalmazásokon alapuló kommunikációt biztosítanak a felhasználó számára. A Business Objects 1990-ben elsőként vezette be a „szemantikus réteg” technológiát. Ez biztosítja az adatok üzleti megjelenítését (ld. 25. ábra). Ennek a technológiának köszönhetően lehetőség nyílik az üzleti végfelhasználók számára közérthető módon üzleti fogalmakkal leképezni és ábrázolni a bonyolult adatbázisok szerkezetét és fogalomrendszerét.
63 (106)
Dr. Molnár Bálint ©
Néhány kereskedelmi forgalomban kapható üzleti
25. ábra: A szemantikus réteg13 6.1.7.1
A Business Objects termékstruktúrája
A Business Objects hitelesített Microsoft Office kompatibilis eszközöket kínál, ezzel is biztosítva termékei könnyű kezelhetőségét, kiterjedt funkcionalitását. A termékek mindegyike személyre szabható attól függően, hogy új vagy tapasztalt felhasználó (egyszerre akár 20 vagy 20 000) kezeli ezeket. A döntéstámogatás minden elemére kiterjedő spektrumon belül biztosít alkalmazásokat a felhasználók részére, és mindezt egyetlen, integrált csomagban. Ez a csomag magába foglalja a lekérdezést, a riportkezelést, elemzést, adatbányászatot, Excelből lehívható adatbázis támogatást és még sok egyéb nélkülözhetetlen alkalmazási lehetőséget. A Business Objects termékcsalád moduljai több platformra is elérhetőek. A kliens modulok Microsoft Windows 95, 98, 2000, XP és NT operációs rendszereken futnak, míg a szerver alkalmazások nem csak Windows NT-re és 2000-re, de a legelterjedtebb Unix platformokra (pl. Sun Solaris, HP UX, AIX) is elérhetőek. Elérési csomagjai (Access Packs) rendelkezésre állnak nemcsak relációs adatbázisokhoz, mint a Microsoft SQL Server, Essbase, Oracle, Informix, IBM DB2, de az OLAP szerverekhez is (pl. Microsoft OLAP Server, Arbor Essbase, Oracle Express, Informix MetaCube, IBM DB2 OLAP Server). A közvetlen elérési csomaggal nem támogatott adatbázisokhoz is lehetőség van kapcsolódni az ODBC-n keresztül, amit akár a Business Objects, akár az adatbázis forgalmazók biztosítanak. A termékek azon kívül, hogy szorosan összefüggenek, képesek teljes funkcionalitásukat megőrizni külön-külön is. A végfelhasználói termékek közvetlenül a riportokkal vannak szoros kapcsolatban, míg az adminisztrációs termékek a riportok menedzselését és a háttér- ill. alapanyagok elkészítését teszik lehetővé. A különböző moduloknak azonban vannak a családon belül bizonyos előfeltétel termékeik, azaz olyan modulok, amelyek a működéshez szükségesek. A termék tulajdonságai: Könnyen használható, felhasználóbarát, MS Office kompatibilis. Gyorsan implementálhatóak, akár órák vagy napok alatt elkészíthetőek az első kimutatások. Teljes egészében integrált rendszer, a felhasználónak mindössze egy felületet kell megismernie. Bármilyen adatforrásból nyerhet ki adatokat, legyen az egy ERP rendszer, adattárház, Excel fájl vagy egy weboldal.
13
Forrás: Business Object IX R2 és Sybase IQ bemutató, 2007
64 (106)
Dr. Molnár Bálint ©
Néhány kereskedelmi forgalomban kapható üzleti
Támogatja különböző adatforrásokból az adatok kinyerését, összehasonlítását, elemzését, terjesztését. A Business Objects termékstruktúrája (ld. 26. ábra) (Dr. Raffai Mária, 2006): 1.Portál infoView InfoViewMobile BroadcastAgent 2.Lekérdezések, jelentéskészítés Webintelligence BusinessObjects BusinessQuery 3.Adminisztráció Designer Supervisor Auditor 4.Elemző eszközök BusinessMiner SetAnalyzer Elemző alkalmazások 5.Vállalati bevezetés
DevelopmentSuite OLAP elemzések Fejlesztési sablonok: RDT/ERP oktatóprogram
65 (106)
Dr. Molnár Bálint ©
Néhány kereskedelmi forgalomban kapható üzleti
26. ábra: A Business Objects termékstruktúrája14
6.1.7.2
Példa módszer vállalati bevezetésre – Business Object
A vállalatok mind nagyobb szegmense vásárol integrált rendszereket, amelyek átfogják a teljes vállalat vagy vállalati rendszer adatfeldolgozását. Ezekben a csomagokban, mint az SAP, Oracle Applications, Peoplesoft, Baan, JD Edwards, stb. a vállalat teljes adatrendszere megtalálható. A helyi adatfeldolgozó és számítástechnikai osztályok hamarosan felismerték, hogy a döntéshozók riport és adatlekérdező igényeit szinte lehetetlen kielégíteni ad hoc módon. A létező vállalati adatbázisokban szinte minden alapadat rendelkezésre állt, a hozzáférés mégis lehetetlen volt, hiszen az alapadatok struktúrája kezelhetetlenül bonyolult minden végfelhasználó számára. A Business Objects gyorsan implementálható mintákat (Rapid Deployment Template, RDT) biztosít a népszerű integrált rendszerekhez. Ezek a minták közérthető üzleti nyelven leképezik a nagy bonyolultságú adatbázis szerkezeteket, így az átalakított nevezéktanú és felületű adatbázis közérthetővé válik minden döntéshozó számára. Mindegy milyen szintű vezető szakember - legyen az pénzügyi, kereskedelmi vagy reklám saját maga - önállóan képes lesz adatbázis lekérdezést, ad hoc riportgenerálást és elemzést végezni a saját munkahelyén a helyi számítástechnikai osztályok igénybevétele - azaz várakozása - nélkül. Ez azt jelenti, hogy a vállalati szervezetek - bármely nagyságrendbe legyenek is kis, közép, nagy, avagy multi - önállóan képesek döntéstámogató rendszerek kiépítésére és ezzel teljes mértékben ki tudják használni azokat az összefüggéseket, amelyek a meglévő integrált alkalmazásokból létrehozott adatbázisokban rejlenek. A vállalati bevezetés célja az üzleti intelligencia rendszer felhasználói igényeket messzmenően kielégítő, biztonságos működtetésű bevezetése. Lehetőségek: Fejlesztői csomag: Development Suite 14
Forrás: Dr. Raffai Mária, 2006
66 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú adatbányászati rendszerek
Elemzési lehetőségek OLAP-szervereken Sablonok biztosítása integrált vállalatirányítási rendszerekben (ERP) való gyors fejlesztéshez (Rapid Development Templates) Személyes oktatóprogramok biztosítása (ld. 27. ábra). Az iparágban elsőként személyre alakított tömeges oktatást biztosít döntéstámogatók számára.
27. ábra: Oktatóprogram15 Míg a jelenlegi VIR-ek (Vállalati információs rendszer) a meglévő adatfeldolgozási rendszerek melléktermékei, addig a Business Objects-nél a döntéstámogatás a fő cél. A jó döntés alapfeltétele, hogy az információ a megfelelő időpontban és könnyen áttekinthető formában a vezető rendelkezésére álljon. A Business Objects segítségével a felhasználók képesek lesznek arra, hogy a döntéstámogató alkalmazások minden elemét teljes körűen kihasználva hozzák döntéseiket.
7 Nyílt forráskódú adatbányászati rendszerek A nyílt forráskód üzleti intelligencia múltja 2004-re vezethető vissza, előtte is voltak már olyan üzleti intelligencia rendszerekkel projektek, amelyeket nyílt forráskódú alapokon fejlesztettek ki, de ekkor alakult az első kommerciális nyílt forráskódú szállító, a Pentaho is. Természetesen azok a szoftverek, amelyeket ezek a cégek elkezdtek használni, már korábban is léteztek, általában hobbi projektekként indultak, és onnan fejlődtek tovább.
7.1
Kereskedelmi nyílt forráskódú üzleti intelligencia
A nyílt forráskódú termékeket szállító cégek olyan üzleti célú vállalkozások, amelyek valamilyen nyílt forráskódú szoftver köré építik tevékenységüket. A szoftvereket ők maguk fejlesztik, vagy fejlesztetik általában otthon dolgozó fejlesztőkkel, fejlesztői közösségekkel. Általános szolgáltatási körük szerint el lehet mondani, hogy ezek a cégek technikai támogatást és konzultációt nyújtanak a termékekhez, és 15
Forrás: Dr. Raffai Mária, 2006
67 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú adatbányászati rendszerek
természetesen jogi biztosítékot is, továbbá egyedi funkcionalitást biztosítanak. Majdnem minden kommerciális nyílt forráskódú üzleti intelligencia cég foglalkozik azzal, hogy saját maguk irányítják a termékfejlesztést. A fejlesztőknek megmondják, hogy mit szeretnének csinálni a rendszerrel, milyen új funkcionalitásokat szeretnének látni a következő verziókban. A cégeknek vannak termék menedzsereik, piackutatást végeznek, vizsgálják, hogy a konkurencia mit csinál. Az összes ilyen cég nagyon erősen pozícionálja a termékét a piacon már bent lévő cégekkel szemben. A Pentaho, amelyik talán a legismertebb nyílt forráskódú üzleti intelligencia cég, a meglévő nagy cégekkel szeretne versenyezni, így neki az Oracle-t, a SAP BusinessObjects-et, IBM Cognos-t kell megszorongatnia a termékeivel. Éppen azért érdemes azt megfigyelni, hogy az utolsó egy-két évben, a nyílt forráskódú cégek már elkészültek az alapfunkciók fejlesztésével. Általában van kimutatás,jelentés, riport szerkesztőjük és készítőjük, további más alapeszközeik, és ezután mennek abba az irányba, hogy a nagy cégek számára fontos funkciókkal foglalkozzanak, például személy azonosítás, hitelesítés (autentikációval), SSO-val (Single Sign On), adat aggregálást tervező modullal, aminek az a funkciója, hogy a relációs táblákból történő lekérdezések gyorsabban menjenek. Úgy lehet ezt a helyzetet igazából elképzelni, hogy megvannak már az alap építőkockák, és most építik rá azt a hatalmas infrastruktúrát, amely a nagyvállalati munkák, feladatok hatékony működtetéséhez szükséges, és náluk még nincs meg. A nyílt forráskód nem más, mint egy licencezési, fejlesztési taktika, egy módszer arra, hogy egy meglévő piacon el tudják adni a terméket, ahol már ott vannak a nagy szállítók jó szoftverkínálattal, sok referenciával, szakértői háttérrel, partnerhálózattal, tanácsadókkal és értékesítőkkel, nagy projekttapasztalattal. Elsősorban nem csak az ár miatt választják ezeket a rendszereket, hanem a plusz funkciók miatt, mivel olyan jobb képességekkel rendelkeznek, amelyet a zárt forráskódú eszközök nem képesek nyújtani. Mindenki tudja azt, hogy olcsóbbak, de az is fontos, hogy nyílt, módosítható, integrálható, beilleszthető, kiegészíthető, testre szabható egy nyílt forráskódú üzleti intelligencia rendszer.
7.2 A nyílt forráskódú üzleti intelligencia rendszerek gazdaságossági kérdései Az a modell nem igazán jellemző, hogy egy cég tisztán nyílt forráskódú eszközöket forgalmaz, tehát nem kínál semmi féle fizetős szoftver változatot, hanem mindent ingyenesen hozzáférhetővé tesz, és kizárólag tanácsadásból, támogatás nyújtásából szerzi a bevételét. A legtöbb cég alapvetően valamilyen zárt forráskódú licencű terméket, azaz kereskedelmi terméket forgalmaz. A bevételek fő forrása tehát általában nem az eseti támogatás nyújtása ott sem, ahol nemcsak licenc értékesítés van, hanem a tanácsadás, és a szoftverértékesítés. A szoftver eladás jelentős része direkt értékesítési csatornákon keresztül folyik, még ha azt is gondolnánk, hogy a piacon a disztruptív, a hagyományoktól eltérő módú megjelenés miatt tipikusan ezt a csatornát nem használják a cégek, hanem az Interneten keresztül mindenki letölti, vagy megrendeli, és úgy használja. De a bevételek nagyobbik részét a direkt értékesítés hozza be, a nyílt forráskódú megoldások értékesítésénél. Természetesen a közösségi kiadást óriási számban töltik le az emberek, és használják, de a cég érdeke 68 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú adatbányászati rendszerek
az, hogy a vállatok a fizetős szoftvert vegyék igénybe, és ilyenkor kellenek a direkt értékesítési csatornák, egy kereskedő kell, aki a helyszínre megy, prezentációt tart, hogy el tudják adni a terméket. A nyílt forráskódú üzleti intelligencia nagyon sok cég számára leginkább és legelőször, költségtakarékosságot jelent. Azt lehet állítani, hogy a nyílt forráskódú rendszerek nagyon olcsók a nagy, zárt rendszerekhez képest – legalábbis a nyílt forráskódú piac szereplői e legfőbb érv mellett sorakoztatják fel rendszereiket, hogy a piacon teret nyerjenek. Közelebbről megvizsgálva a helyzetet, a cégek erősen vitatják – sok tanulmányt lehet erről olvasni –, hogy ténylegesen melyik megoldás az olcsóbb. A nyílt forráskódú üzleti intelligencia cég azt hirdeti, hogy válasszák az ő megoldását, mert az ő rendszerük TCO-ja sokkal alacsonyabb. A nagy hagyományos cég, az Oracle, a Microsoft, vagy a SAS is azt javasolja, hogy válasszák az ő rendszereit, mert azok TCO-ja sokkal alacsonyabb. Igaz, hogy rengeteg pénzt elkérnek az induláskor licenc díj fizetése címén, de három-négy év alatt a költségek megtérülnek, és a teljes költség kevesebb lesz, mint a másik megoldás esetén. Mert amit rákölt a megrendelő a nyílt forráskódú megoldás integrációjára, működtetésére, tesztelésére, arra, hogy a felmerülő problémákat elhárítsa, az összességében több, mint amit a nagy cég el fog kérni egy jól működő, megbízható, biztos megoldásért. A nyílt forráskódú cégek viszont drasztikusan kevesebb költségráfordítást igényelnek a licenc díj, és az üzemeltetés terén – állítják, és hirdetik a nyílt forráskódú cégek, ami lényegében igaz is. Mindkét szereplő ugyanazzal az érvvel próbálja a vevőket magához csábítani. Nagy dilemma, de mindegyik cég a saját kereskedelmi érdekei alapján fog majd dönteni, amikor a rendszer beszerzésére kerül a sor.
7.3
Kettős termékkínálat
A leggyakrabban azt a klasszikus megoldást látjuk mostanában a nyílt forráskódú üzleti intelligencián belül, hogy kettős termékkínálattal rendelkeznek a cégek. Van egy ingyenes, szabadon letölthető közösségi kiadás, amit úgy szoktak hívni, hogy Community Edition. Ez funkcionálisan sokszor egészen hasonló a fizetős kiadáshoz, de bizonyos funkciók hiányoznak belőle. Az üzleti verziót, más néven az Enterprise Edition-t, ami a fizetős terméke a cégeknek, plusz funkcionalitásokkal, számos extra tulajdonsággal kínálják, adnak hozzá támogatást, és elvégzik ők a teszteléseket. Előre fordított, hivatalosan tanúsított binárisokat adnak, tehát nem a forráskódot, hanem egy készen futtatható, telepítésre váró programot. A fizetős verzió kódbázisa sokkal jobb minőségű, sokkal gondosabban tesztelik, és regresszió teszteléseket is végeznek rajta. Saját, kiegészítő, a közösségi kiadásban meg nem jelenő komponenseket adnak hozzá, például ami gyakori eset a nyílt forráskódú rendszereknél, hogy a riport futtató, és kezelő környezet ingyenesen elérhető, benne van a közösségi kiadásban, de a a jelentés, kimutatás, riport szerkesztő, annak jobb változata, amivel szép riportokat hatékonyan, könnyen, és gyorsan lehet csinálni, az már az üzleti kiadásban érhető el. Fontos megemlíteni még, hogy jogi garanciát nyújtanak a fizetős változat estében. Egy olyan környezetben, ahol a rendszerek, komponensek egymásra épülnek, nem lehet tudni pontosan, hogy egy-egy termékben milyen forráskódok futnak, így nem is igazán lehet meggyőződni arról, hogy a szoftver teljesen jogtiszta-e, hiszen nem egy cég szellemi tulajdona az, amit licencelnek. Ha
69 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú adatbányászati rendszerek
kifizetjük a kereskedelmi termék árát, kapunk garanciát, a szállító helyettünk átvállalja, megoldja, ha valamilyen probléma merül fel jogi szempontból. A két változatot két nézőpontból kell megvizsgálni, azaz, melyiket hogyan ajánlja ügyfeleinek a cég. Mit állít a cég a termékeiről annak érdekében, hogy ha a kínálatában van egy pénzért árusított Enterprise verzió, amiből a bevételeit szerzi – és hogy ezt eladják, rábeszélnek mindenkit a használatára –, akkor milyen fajta érvekkel tudja ajánlani az ügyfeleknek a szabad változatot. Az egyik ilyen érveléssel akkor találkozik az ügyfél, amikor ellátogat a forgalmazó honlapjára, és megnézi az ingyenes verzió ajánlását, akkor azt látja ott, hogy a Community Edition nagyon jó, mindent tud, hozzá lehet nyúlni a forráskódhoz, és természetesen ingyen van. Azonban a forgalmazó az ügyfélnek tartott értékesítési prezentációjában általában teljesen mást állít, hogy miért kellene mégis csak a fizetős változatot használni. Az ügyfelet olyan érvekkel akarja rábeszélni a fizetős verzióra, miszerint az ingyenes verzió nem felel meg a számára, mert használatát csak annak ajánlják, aki vállalja annak a gyenge minőségű, nem tesztelt, garancia nélküli szoftver alkalmazásának üzleti kockázatát, illetve aki nem akar fontos döntéseket hozni az üzleti intelligencia segítségével. Aki ténylegesen alkalmazni akarja az üzleti intelligenciát a döntések megalapozásában, annak számára a teljesen nyilvános változat csak korlátozottan használható, mondhatni, szinte egyáltalán nem.
7.4
Nyílt forráskódú üzleti intelligencia megoldások
Manapság szinte minden eszközt el lehet érni a nyílt forráskódú üzleti intelligencia piacon, szinte mindenre kínálnak megoldást a szállítók. Nem lehet olyan szegmenset találni az üzleti intelligencián belül, ami ne lenne nyílt forráskódban elérhető, de azt azért nem lehet kijelenteni, hogy ezek a megoldások mind ugyanolyan szinten jó minőségűek. Nem mindegyik egyformán jó, vannak olyan szegmensei a piacnak, ahol már nagyon érett nyílt forráskódú megoldásokat lehet fellelni, de vannak olyan szegmensek is, ahol nagyon korai verziók találhatók, de az azért látszik, hogy minden területen történt fejlődés az elmúlt időszakban. A következő nyílt forráskódú megoldásokat kínálja az üzleti intelligencia piaca: Klasszikus relációs adatbázis; Oszlopalapú tömörítés, MPP (masszív párhuzamos feldolgozású) rendszerek; ETL (Extract, transform, load) szoftverek; Jelentéskészítő eszközök; OLAP motorok; Portálok; Adatbányászati szoftverek; Vállalati teljesítménymenedzsment alkalmazások.
7.5
Nyílt forráskódú licencek
A General Public Licence a legrégibb, 1989-ben készítették, és még az eredeti Richard M. Stallmann féle koncepciót követi, ami szerint minden szabad szoftvernek annak is kell maradnia. A licenc alatt azt lehet érteni, hogy a védelmében álló szoftverek szabadon felhasználhatóak, módosíthatóak, de csakis ugyanilyen licenc típus alatt jelenhetnek meg, hogy garantálják annak a szoftvernek is a szabadságát. 70 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
A harmadik verziója nemrég jött ki, azért, hogy bizonyos kiskapukat bezárjon, ne lehessen azokat kihasználva a kódot zárttá tenni. Fontos megemlíteni a copyleft kifejezést, ami a szoftver szabadságát biztosítja. Ez a fajta licenc egy korlátozást jelent, miszerint a felhasználók azzal a feltétellel használhatják, módosíthatják, másolhatják a szoftvert, ha beleegyeznek abba, hogy a keletkezett mű is ugyanúgy szabad marad, ugyanolyan licencet biztosítva. Vannak gyenge copyleft licencek, az ilyen típusúak nem az egész kódra követelik meg az eredeti licencet, illetve nem kell a módosított forráskódot közzé tenni sem, amik megkönnyítik az egybeépítést zárt forráskódú programokkal, és vannak erős copyleft licencek is. Ilyen a GPL licenc egyik változata a Lesser General Public Licence – jelenleg a harmadik verzió van érvényben –, ami lehetővé teszi, hogy a programkönyvtárakat kereskedelmi programok felhasználják, függvényeit meghívják, tehát jogvédett termékekhez is hozzá lehet építeni az ilyen licenc alatt álló nyílt forráskódú szoftvereket. Az LGPL, és az eredeti GPL egy erős copyleft licenc, ami megköveteli, hogy az összes módosításra az eredeti licenc vonatkozzon. Van még egy másik változata is, az Affero General Public Licence, ami lényegében a GPL harmadik verziójából épül fel kiegészítve egy paragrafussal, ami a hálózati felhasználást engedélyezi a forráskódnak. Nagyon sok féle további szabad szoftver licenc létezik, ami természetesen kompatibilis a GPL licenccel. Ezek különböző rendszerekhez és szoftverekhez készültek. A nyílt forráskódú üzleti intelligencia szoftverek is, hasonlóan más szoftverekhez, egy megfelelő, jogvédett licenc alatt érhetők el. Egy nyílt forráskódú üzleti intelligencia rendszer licencelése jogi szempontból ugyanolyan fontos, mint bármelyik másik terméké. A szabadon letölthető verziók általában ezzel az általános GPL licenc típussal érhetők el, vagy az LGPL változatával. A Pentaho például GPL licenc alatt működik, tehát normális esetben nem lehetne összeépíteni semmilyen más nem kompatibilis licenc típussal, de kitaláltak egy kivételt, ami ezt mégis lehetővé teszi.
8 Nyílt forráskódú üzleti intelligencia rendszerek 8.1 Pentaho 8.2
A vállalat bemutatása
Ez a vállalat stratégiai szempontból nagyon hasonlít a nagy szállítókhoz, mivel fejleszt saját komponenseket, de mellette fel is vásárol más eszközöket. Egy nyílt forráskódú projekt felvásárlása igazából úgy néz ki, hogy csak átveszik, és aztán ők finanszírozzák tovább a projektet, fizetik a kulcs fejlesztőket, mint ahogy a Weka-val, a Mondrian-nal, és a Kettle-lel tették. A Pentaho megoldást nyújt az összes fő üzleti intelligencia területre. A Mondrian felvásárlásával egy jó minőségű relációs OLAP motort kaptak, aminek a felhasználásával egy jó eszközt készítettek Pentaho Analysis néven. Az operatív döntéstámogatásra a Weka-t nyújtják - amely egy adatbányászati eszköz - mint kínálatot. Természetesen ez nem egyezik meg a sima Weka-val, továbbfejlesztették, a közösségi kiadásban egy másik verzió érhető el. A Kettle az adatintegrációs, metaadat vezérelt megközelítésű ETL eszköz. A saját fejlesztésekkel elérhető a a 71 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
vezérlőpult (dashboard), illetve a jelentés készítő (reporting) funkciók. Ezek az eszközök elérhetőek mind a Pentaho BI Suite Enterprise Edition-ban, illetve a Community Edition-ban is. Egy olyan közös felhasználói felület már elengedhetetlenül szükséges egy ilyen üzleti intelligencia alkalmazásnál, amely összekapcsolja az egyes eszközöket. A Pentaho erre a User Consol-t kínálja, ami központosított hozzáférést biztosít az üzleti intelligencia elemekhez.
8.3
Pentaho BI Suite Enterprise Edition 3
A Pentaho három irányban ment tovább az üzleti intelligencia programcsomag kiadásának fejlesztésével. Az első az egyszerűség iránya, néha már túlságosan is egyszerű a használata, de kétségtelen, hogy bizonyos területeken óriási jelentősége van ennek. Központosították az összes komponens elérését felhasználói oldalról, amit úgy hívnak, hogy Pentaho User Console, ami lehetőséget nyújt a Pentaho platform többi tagjával az adatok részletesebb feltárására. Az új Flash alapú felhasználói felület pedig a gazdag vizuális megjelenésért felel. A meta-adat alapú integráció megjelent az egyik nyílt forráskódú rendszerben, amely a szoláltatás kínálat részét alkotja; ez egy központ meta-adat tároló (repository) réteg, ahol az egységesítés végbemehet. Természetesen ez a funkció is csak a fizetős változatban érhető el. Az új meta-adattár Data Source Catalog néven fut, ezzel gyakorlatilag beléptek az Enterprise szintű üzleti intelligencia eszközök világába, természetesen ez még nem olyan kiforrott, mint a nagy szállítók eszközei, de a fejlesztés területén minden bizonnyal nagy előrelépés. Továbbmentek a skálázhatóság irányába, sok új skálázási funkcióval bővült ki. Sokat javult az előző változat óta, gyakorlatilag ugyanúgy skálázható, mint bármelyik nagy üzleti intelligencia rendszer. Az adat integrációs eszköz rendelkezik egy Data Integration Enterprise Consol-lal, ez alapján a vállalati adminisztrátorok felügyelni és menedzselni tudják az ETL-t. A harmadik irány a biztonság volt, egy sokszintű központilag kezelhető meta-adat niztonsági rendszert (security-t) hoztak létre. Továbbá több ezer felhasználós disztribúcióval rendelkeznek. A robosztusság területén is tovább léptek például több mint 500GB-os OLAP adatbázisról lehet adatokat olvasni. Az új verziót jobb ár/érték arány jellemzi.
8.4
A Pentaho eszközei és termékkínálata
A Pentaho teljes palettát kínál a főbb üzleti intelligencia eszközökből. Egy üzleti vállalkozás számára elengedhetetlen funkciókat kínál. Operatív, és analitikus jelentéseket, ad-hoc lekérdezéseket lehet készíteni, továbbá vezetői vezérlőpult (dashboard) és adatbányászati funkciókkal rendelkezik. A legtöbb architektúra modern, részben nyílt szabványokon alapszik, például XML alapú adattárat (repository-t), J2EE szerver komponenseket, és sok féle zárt és nyílt forráskódú adatbázishoz támogat JDBC alapú kapcsolatot. Pentaho User Console Ez egy olyan alkalmazás, amivel a felhasználó központosítottan éri el a rendszer egyes funkciót, a jelentéseket, kimutatásokat, a diagramokat (chart-okat), és az OLAP táblázatokat. Ez egy AJAX alapú alkalmazás, egységesített felülettel rendelkezik, meglehetősen korszerű, Windows-os GUI élményt nyújt, és az új kiadásban már Flash alapú. Ebben a verzióban személyre szabott riasztások beállítására is van lehetőség. 72 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
8.4.1 Pentaho Reporting A Pentaho kimutatás és jelentés készítő eszköz, használata nagyon egyszerű és letisztult, a JfreeReport Java jelentéskészítő alkalmazáson alapul. Gyorsan, és egyszerűen el lehet készíteni egy jelentést, ha persze megfelelő az előkészített adat, adathalmaz, amit a program felkínál. Ennek a funkciónak a kipróbálására a demó verzióban lehetőség van, és néhány lépés után már készen is áll egy jelentés. Néhány sablont (template-t) kínál, és azzal kész, jó minőségű riportokat lehet nagy számban előállítani. Ez egy saját fejlesztése a Pentaho-nak, valószínűleg ezért ilyen kezdetleges az eszköz, legalábbis az, amit a demó verzióban ki lehet próbálni. Viszont biztos, hogy az Enterprise Edition verzióban található eszköz sokkal jobban kezelhető, több funkcionalitással rendelkezik.
8.4.2 Pentaho Analysis Az analitikus elemzés eszközöket a hagyományos Mondrian megoldásra alapozták. Annyi módosítás történt, hogy gyakorlatilag azt a részt, ahol az OLAP elemzést lehet végezni, beleépítették a User Consol-ba. Rendkívül gazdag grafikus felülettel rendelkezik, ami könnyű és interaktív navigálást tesz lehetővé az adatok között. Már korábban is probléma volt azzal, hogy nem rendelkezett azzal a funkcionalitással, ami egy profi OLAP elemző eszköznél elvárás, bár már sokat javult az eszköz a 3.0-ás verzióban. Ez az a terület, ahol manapság biztos, hogy a standard mutatók nem elegendőek, azonnal különböző függvények, és számított mutatók létrehozására van szükség. Erre pillanatnyilag az ingyenes verzióban nincs lehetőség, itt is a fizetős verzióban találjuk meg azt az extra funkcionalitást, amit üzleti környezetben elvárunk ettől a rendszertől. Ez egy MDX szabványon alapuló motor, az alapfunkciók, rotálás, lefúrás megvan, ezeket a demó verzióban ki is lehet próbálni. Lehetőség van exportálásra, méghozzá Excel formátumban. Van egy MDX editor is, ami jól kihasználható, ha valaki programoz az adott nyelven. Az MDX utasításokat azonnal lefordítja SQL lekérdezésekké. A jogosultág kezelésben tekintetében felhasználó és szerep alapúra képes (USer, RBAC, Role Based Accountig). Előnye, hogy ez elérhető a közösségi változatban is, készen, letölthető és telepíthető formában, amelyben azonnal hozzá lehet férni egy megtervezett OLAP adatbázishoz, és rögtön lehet végezni elemzést.
8.4.3 Pentaho Dashboards Önmagában a vezérlőpult (dashboard ) egy felhasználónként teljesen személyre szabható portál felület, egy gyűjtemény, ami szabadon alakítható; beintegrálhatóak a tőzsdei árfolyamok, analitikus elemzések, kész riportok. A Dashboard Designer csak az Enterprise Edition-ben érhető el, az ingyenes kiadásban nem, ott csak a keretrendszere, a váza, amin alapul. Ennek a használatához azonban elengedhetetlenek a programozási képességek. Az Enterprise Edition-ben további AJAX és Java alapú komponensek érhetőek el az egyedi megoldásokba történő integrálhatóság megkönnyítésére, és magas szintű dashboard funkcionalitás kiegészítésére, köszönhetően a gazdag vizualizációnak. Szerep és téma specifikus vezérlőpultok (dashboard-ok) létrehozására és megosztására van lehetőség, ahol szerepek szerint külön szűrőket is beállíthatunk, hogy mindenkinek csak a számára 73 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
lényeges információ jelenjen meg. Az adatok részletesebb feltárása érdekében lefúrásokat is végrehajthatunk, de az összekapcsolás funkció is megkönnyíti az egyik vezérlőpultról a másikra történő navigálást, szintén az adatok részletesebb feltárása végett. Támogatja a szerep alapú biztonságot és az SSO-t, továbbá olyan protokollokat támogat, aminek használatával integrálhatjuk a már meglévő vállalati biztonság irányítási rendszerbe.
8.4.4 Pentaho Data Integration Ez az a terület, ahol adatot akarunk eljuttatni A-ból B-be, ahol A egy tetszőleges adatbázis, a forrásrendszer, és B az adattárházas kívánalmaknak megfelelő, tisztított, feldolgozott adathalmaz. A nyílt forráskódú megoldás rendkívül költséghatékony egy ilyen funkcióra. A Kettle felvásárlásával a Pentaho egy jó rendszerhez jutott hozzá az ETL terén; az eszköz használható alapfunkciói megvannak, üzleti logikát jól lehet definiálni az adatintegrálás során, de nyilvánvalóan egy kevésbé komplex megoldás iránti igényt elégít ki, de azt teljes mértékben kielégíti. Az, hogy milyen forrásokat használhatunk, az természetesen limitált, nem minden alkalmazás-csatoló érhető el a licence alatt, nem hasonlítható össze egy Enterprise szintű alkalmazással, de rendkívül széles kínálatot nyújt adatbázis csatolók terén, lehet hozzá kapni például SAP konnektort. Robosztusság jellemzi, a komplex transzformációk támogatása hiányos, továbbá nincs fejlesztői együttműködés támogatás, tehát ha egyszerre tízen akarnak fejleszteni, kódolni, azt nem támogatja az eszköz.
8.4.5 Weka - Pentaho Data Mining A Weka-t – ami egyébként egy Új-Zélandi madárról kapta a nevét – egy ÚjZélandi egyetem kezdte el fejleszteni, és még mindig érződik rajta, mert egyes funkciói nem tökéletesek. Az egyetem állami támogatással kezdte el fejleszteni a Weka-t, még 1996-ban adták ki az első szabadon használható verziót. Java platformon készült, pontosabban arra írták át 1999-ben. Három különböző grafikus felülettel rendelkezik: Explorer – adatfeltáró alkalmazás Experimenter – algoritmus tesztelő alkalmazás KnowledgeFlow – adatfolyam alapú megoldás. Igazából, ezekből csak egy használható, olyan szempontból, hogy aki elemzést akar készíteni, az a KnowledgeFlow, ma már szokásosnak mondható felhasználó felületű eszközt használja. A felület működését tekintve a hagyományokat követi, egyszerűen ikonokat rakunk fel egy felületre, összekötjük őket, és így az adatfolyam alapján az elemzéseket el tudjuk végezni. A másik két felület lényegében egy adatfeltáró, illetve egy tudományos célokat szolgáló, az egyetem által saját maga számára kifejlesztett visszamérő megoldás. Elég sok modell van benne, ami alatt azt kell érteni, hogy különböző adatbányászati eljárásokat, gépi tanulásból, és egyéb helyekről összeszedett eljárásokat tartalmaz. Alacsonyabb szinten, egy eléggé korlátos ETL funkciója is van. Sok modellel, eljárással rendelkezik, körülbelül ötven elő-feldolgozó lépést, adatbányászati modellből körülbelül 90 operátort tartalmaz. Ez a szám azért napról napra, ha nagyon lassan is, de emelkedik. Amiket fontos kiemelni ezek közül, ami más „klasszikus” – zárt forráskódú – adatbányászati eszközökben nincs meg, vagy legalábbis csak más megoldásokkal valósították meg, az például a meta modell, 74 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
ami paraméterként egy másik modellt vár, és ezen tud különböző optimalizációs, és egyéb eljárásokat alkalmazni. Azt lehet mondani, hogy a többi „klasszikus” adatbányászati eszközben ilyen fajta lehetőség, mint kész megoldás nem szerepel, ott különböző más módokon kell megoldani hasonló eljárásokat. A Weka GPL licenc alatt van, ami azt jelenti, hogy ha valaki manapság készít egy hasonló nyílt forráskódú megoldást, akkor szinte kötelező bejelentenie, hogy a Weka-t integrálta. Ez annyit jelent, hogy a Pentahonak az adatbányászati funkciója szinte egy az egyben a Weka rendszere, de például a RapidMiner is magába foglal Weka-s megoldásokat. A Pentaho 2006-ban vásárolta fel a Weka-t, ami alatt azt kell érteni, hogy szponzorálják őket. Azokat a készítőket, akik a Weka-t fejlesztik, anyagilag támogatják, de maga a Weka közösség látszólag, üzletileg, jogilag teljesen független közösség maradt továbbra is. Viszont a felvásárlással a Pentaho készít egy olyan kiadást is a Weka-ból, egy olyan továbbfejlesztett, eladható formát, amit cégek számára ajánl. A kérdés az, hogy a Pentaho milyen többletet tud nyújtani annál, mintha egyszerűen letöltenénk a Weka-t az Internetről. Természetesen ad hozzá támogatást, ami egy-két órás, de akár egy-két napos válaszidőt is jelenthet a fokozattól függően. Van egy automatikus frissítési rendszer, tehát ha valaki ezt a kiadást használja, akkor a frissítés folyamatos, ha valami újdonság van, akkor az rendkívül hamar megjelenik a letöltési és telepítési lehetőségek között. Továbbá garanciákat is adnak a hibajavításra. Az a tény, hogy csak kipróbálás, tapasztalat útján lehet rájönni, hogy a Weka-nak bizonyos funkciói, egyes elemei működnek-e, vagy sem, az egyetemi kiindulású fejlesztésre vezethető vissza. Ezért például megtehették volna, hogy a dokumentációban értékelnék, osztályoznák, hogy mennyire is megbízható egy-egy mód, így nagyobb bizalommal lehetne használni az eszközt. A másik probléma a teljesítmény, funkcionálisan nagyon sok eljárást implementáltak, de van sok eljárás, amit valószínűleg nem hatékonyan hoztak létre, és ez a Java-ban történő fejlesztéssel együtt teljesítmény problémákat eredményezhet. Adnak az Enterprise Edition-höz egy biztonsági megoldást a jogosultság kelés tekintetében, de ezek a rendszerek alapvetően nem tartalmaznak felhasználók megkülönböztetésére való megoldásokat, így a Community Edition sem. Egy ilyen rendszernél mindenhez hozzá tudunk férni egy adatbázison keresztül, amiből egy céges környezetben problémák adódhatnak. A Weka-hoz a Pentaho oktatási lehetőségeket is biztosít. Mivel a Weka fejlesztése ilyen régre nyúlik vissza, elég sok könyv és irodalom van hozzá. Ezek alapján viszonylag jól meg lehet tanulni ezt az eszközt kezelni. Pozitívum, hogy amit most már klasszikus folyamat alapú programozásnak tekintünk, és szinte minden eszköz kezelőfelületénél ilyen megoldást kell használnunk, azt a Weka biztosítja számunkra. Negatívum, hogy teljesítménye korlátos. Csak asztali gépen használható, tehát ha párhuzamosan fejlesztünk modelleket, azt nem vagyunk képesek kezelni ezzel a rendszerrel. Nincsen modell adattár (repository) megoldása, tehát kész megoldásokat, kész modelleket nem lehet egy központi helyen tárolni. Nem lehet a modellekre ezen a rendszeren belül triggereket kiadni, azaz nem lehet a folyamatokat ütemezni. A Weka egy asztaligép alkalmazás, ahol az elemző leül, modellt készít, és ha készen van a modell, akkor az abból kapott eredményeket elemezni tudja. Ha ezt üzletszerűen szeretnénk használni, akkor a Pentaho féle megoldást kell megvásárolnunk. Nem rendelkezik egyenszilárdságú eljárásokkal, sok olyan kódrészlet, funkció van, amit nem biztos, hogy tudunk majd használni.
75 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
8.4.6 A Community és az Enterprise Edition összehasonlítása A Community Edition, ahogy más nyílt forráskódú szállítóknál, úgy a Pentaho-nál is egy szolgáltatásnak tekinthető, le lehet tölteni, majd egy egyszerű környezetben használni. De ez a verzió nem rendelkezik se dokumentációval, se támogatással. Nincsenek összeválogatva, letesztelve a komponensek verziói, és nincsenek telepítő fájlok sem. Ennek a felhasználásakor csak az IT-re, fejlesztőinkre támaszkodhatunk a az adattár (repository), a biztonság, a jogosultsági rendszer, valamint a teljesítmény szempontjából. Azonban az Enterprise Edition rendelkezik integrációs eszközökkel, biztonsági megoldásokkal, mint például SSO, illetve megfelelő dokumentációval. Oktatás, támogatás jár hozzá, és a komponensei tesztelt verziókból állnak össze. Az alábbi ábra (28. ábra) a két kiadás komponenseinek eltérését mutatja be.
76 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
28. ábra: A Community és az Enterprise Edition összehasonlítása Forrás: Pentaho: Compare Pentaho Community and Enterprise Edition Products, http://www.pentaho.com/products/enterprise/enterprise_comparison.php A legtöbbször akkor szokták igénybe venni a Pentaho-t, vagy más nyílt forráskódú rendszert, amikor a már működő zárt forráskódú üzleti intelligencia eszköztől olyan funkcionalitást várnak el, amit az nem képes nyújtani, illetve, amikor nincs költségvetési keret egy zárt forráskódú megoldásra. 77 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
Viszont több olyan helyzet is van, ahol nem lehet ezt a rendszert használni. Ahol erősen korlátozottak a fejlesztői és IT erőforrások, mert egy ilyen rendszert úgyis testre kell szabni. Ennek a problémának a megoldására szoktak külső fejlesztéseket igénybe venni, ami viszont elég kockázatos. Sok időbe és pénzbe kerülhet egy külső cég igénybe vétele, mert ők nem látják át a folyamatokat, vagy a fejlesztés egy hiba folytán sokat késik. Olyan felhasználói környezetben sem javasolt, ahol nagy tudású üzleti elemzők, adatbányász szellemi alkalmazotak („power user-ek” ) vannak, mert hamar túllépnek az eszköz funkcionalitásán, nem fogják tudni azt végrehajtani, amire képesek. Gyorsan változó környezetben sem lehet alkalmazni például a Pentaho-t, mert nagyon rugalmasan kellene a helyzetet kezelnie a rendszernek, amire ez a rendszer még nem képes. További sok olyan kritikus tényező van, ami egy cég eszköz kiválasztási folyamata során a Pentaho-t kizárhatja, mint például a teljesítmény elvárások, vagy a megbízhatóság.
8.5
. RapidMiner
8.5.1 A RapidMiner-ről általában A RapidMiner 2004-től érhető el ingyenes szoftverként, azóta lehet használni nyílt forráskódú megoldásként. Ez az eszköz 400 operátorral rendelkezik, amiben benne vannak a Weka operátorai is. A tapasztalatok azt mutatják, hogy bizonyos hiányosságokat, vagy olyan problémákat, amik a Weka-ban megvanak, azt itt már sikerült megoldani. Egy régi nyílt forráskódú megoldáson, a YALE-en alapszik, ennek a felületét hozta tovább, amit továbbfejlesztettek, további elemeket, funkciókat alakítottak ki hozzá. A Rapid-I cég felügyeli a közösségnek a munkáját, illetve ő az, aki az üzleti megoldást, az Enterprise Edition kiadását irányítja. Java nyelven van megírva, és egy modern eszköznek megfelelő grafikus felületet biztosít a rendszer. De maga a RapidMiner belül XML alapú szintű parancssoros megoldásokkal, leíró állományokkal operáló program. Fontos kiemelni a RapidMiner-ben, hogy nem követi a klasszikusnak mondható folyamat alapú filozófiát, hogy egy vászon alapra ikonokat rakunk fel, hanem egy úgynevezett operátorfát biztosít a számunkra. Ez a felület nagyon zavaró tud lenni mindazok számára, akik már dolgoztak olyan eszközzel, ami folyamat alapú megoldást használ. Tehát az, hogy bármilyen fajta körmentes gráfot össze lehet klikkelni egy folyamat alapú rendszerben, ahhoz képest ennél a rendszernél köteles az ember egy fába beszorítania magát, ami nagyon zavaró, és kényelmetlen tud lenni. Illetve azt a fajta adatvezérelt, adatorientált gondolkodásmódot, ami egy folyamat alapú megoldásnál teljesen természetesen olvashatóvá teszi az eredményt, azt itt teljes mértékig elvesztjük. Az operátor fát lényegében egy mélységi bejárással járják be, de sajnos még ez sem teljesen determinisztikus, néha hamarabb lehet beolvasni a modellt, mint az adatot.
8.5.2 A RapidMiner funkcionalitása A RapidMiner képességeinek bemutatása során a két vezető gyártó lehet hivatkozni, az SPSS Clementine-ra, és a SAS Enterprise Miner-ra azért, hogy látható legyen, hogy bár ebben az eszközben vannak hiányosságok, azért képes olyan megoldásokra, mint a zárt forráskódú adatbányászati megoldások. 78 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
Adatforrásokat tekintve fájlból, vagy egy adatbázis kapcsolaton keresztül SQL-lel tud lekérdezni bármilyen adatot a RapidMiner. Az adatokat mindig végigolvassa, betölti a memóriába, és a legegyszerűbb műveleteken is végig megy minden betöltéskor. Hátrány, hogy nem képes a legegyszerűbb szövegutasítások szintaktikáját felismerni az operátorfájlban, ami mindenképpen erős teljesítmény problémát okoz. Viszont vannak makró lehetőségek a RapidMiner-ben. Adatmanipulációs kérdések terén táblázatszintű műveletekre képes, sorokat, oszlopokat tudunk hozzáadni, illetve elvenni, de ha például szeretnénk az előző sorból kivonni a mostaninak az eredményét, és a különbözetet megnézni, ennek a bevitele az adatmanipulációba RapidMiner-ben elég nehéz. A RapidMiner rendelkezik meta operátorokkal, amik egy modellezési technikánál nagyon látványosak. A meta operátorok használatával olyan megoldásokra van lehetőség, amivel például teljesen automatikusan egyszerre több modellnek az eredményét is össze lehet kombinálni, vagy ugyanabból a modellből sok változatot készítve azokat különböző technikákkal össze lehet kombinálni. Ez mindenképpen abba az irányba mutat, hogy sokkal jobb teljesítményt lehet elérni különböző prediktív és egyéb esetekben, amikre magas szintű operátorok adottak a rendszeren belül. Sok magas szintű meta operátor adott, de ha ezek nem elegendőek, és saját magunk szeretnénk újakat létre hozni, tehát valami fajta rugalmasságra vágyunk a bővíthetőség téren, akkor nincs semmiféle lehetőség „szkriptek” írására, rögtön Java nyelven kell programozni. A Clementine-ban van egy megfelelő szkript nyelv, a SAS-nak is van saját nyelve, ahol nagyon sok megoldást ki lehet próbálni. Ezeknél a rendszereknél épp ez jelenti a problémát, hogy szkriptet kell írni, ha valaki egy meta operátort akar létrehozni. A modellezési képességek terén nagyobb a választék, mint a meta operátorok esetében. A Weka is bővebb, mint azt egy általános adatbányászati eszköztől elvárnánk, de nála még a RapidMiner is több modellezési lehetőséggel rendelkezik. Találhatunk olyan képességeket, amik már régóta benne vannak a RapidMiner-ben, de csak most jelentek meg az Clementine-ban. Ennek az oka az, hogy a hagyományos, és a modern programozási és fejlesztési elvek versenyeznek egymással. A SAS rendszerét több mint harminc éve kezdtek el fejleszteni, és kicsit lassan mozdulnak, ha valami új lehetőség felmerül. A RapidMiner-t viszont 2000 után kezdték el fejleszteni, ezért bizonyos funkciók, eredmények már teljesen egyértelműen benne vannak, míg más zárt forráskódú rendszerben el se lehet képzelni, hogy megjelenjenek. Az operátor fa megoldás a folyam típusú kezelés ellenében nem természetes gondolkodásmód, egy kicsit visszalépés a fejlesztők részéről, hogy ragaszkodnak ehhez a felfogáshoz a működés terén. Gyakran e megoldás miatt nem használják az eszközt. Nagyon sok energiát köt le ennek az újfajta logikának a megtanulása, használata, és ez visszatartja a felhasználókat, annak ellenére, hogy már nagyon sokan megértik, hogy mi is az operátor fa valójában, és használni is tudják valamilyen szinten. Viszont ha van olyan meta operátor, ami semmilyen más rendszerben nem elérhető, csak RapidMiner-ben, akkor hajlandó az ember a betölteni kívánt adatokat teljesen más formátumba átkonvertálni, hogy valamilyen szinten elkerülje az operátor fa használatát, és hogy ne kelljen túl sokat programozni a
79 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
megoldás elérése érdekében. A leginkább használt funkciói azonban a betöltés és a modellkutatás.
29. ábra: Az operátor fa kinézete Forrás: RapidMiner: Screenshots, http://rapid‐ i.com/content/view/122/139/lang,en/ A megjelenítés oldaláról nézve, míg a Pentaho-nak van egy saját kimutatás, jelentés készítő eszköze (Penaho Reporting), ami illeszkedik az adatbányászati rendszerhez, addig a RapidMiner egy olyan eszköz, amely nem teljes BI platformot nyújt, hanem csak egy jól megkonstruált adatbányászati eszközt. Tehát nem feladata, hogy jelenté készítési funkciókat el tudjon látni. Lényegében, ami a modellezés kapcsán a jelentés készítéshez tartozik, különböző diagramok, grafikonok, görbék, amelyek a modellek minőségének összehasonlítására elterjedtek, azokat létre tudja hozni. Ez nem egy olyan eszköz, hogy beolvassuk az adatokat, kihagyjuk belőle az adatbányászati lépéseket, és mint jelentés készítő alkalmazást használjuk, mert ilyen lehetőségeink nincsenek. Jelentéskészítés területen valamilyen más nyílt forráskódú megoldásra van szükség ebben az esetben. Az eredményeket, a modelleket, a görbéket megjeleníti a képernyőn, és ki is lehet menti ezeket, de csak abban az esetben, ha a fizetős verziót használjuk. Ez az első olyan funkció, aminek a hiányát meg lehet érezni. A közösségi kiadásból ezt kihagyták, jó lenne, ha a képeket egyből ki tudnánk emelni az alkalmazásból, és így azokat máshol fel tudnánk használni. Ha ezt a rendszert szeretné valaki saját üzleti környezetében használni, akkor csak azt a verziót szabad megvenni, ami rendelkezik megfelelő támogatással. A Rapid-I egy németországi cég Dortmundi központtal, amely a rendszer fejlesztését összefogja, illetve az Enterprise Edition forgalmazását végzi. Kurzusokon lehet részt 80 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
venni a központban, Dortmundban, ahol a RapidMiner használatát, illetve adatbányászati technikákat oktatnak. AGPL licenc alatt lehet a rendszert használni, ami a klasszikus GPL licenc egy változata. Ez az GPL licenc azt jelenti, hogy ha módosítjuk a tartalmat, és a módosított szoftverrel szolgáltatást nyújtunk, akkor azt a szoftvert szintén nyílt forráskódú alapra kell helyezni, olyan rendszerként kezelni. De ha egy cégnél bevezetnek egy nyílt forráskódú rendszert, és elkészítik a saját maguk számára használható megoldást, és persze maguknak szolgáltatnak, nem az ügyfeleknek – az adatbányászatnál maradva nem szolgáltatnak az ügyfeleknek adatbányászati megoldást – akkor természetesen nincs erre szükség. Ebben a fajta konstrukcióban van például a MySQL is. Kettős licencezési technikával rendelkezik, van a szabadon elérhető Community Edition, és van az Enterprise Edition. Az exportálási lehetőség csak az üzleti kiadásban érhető el. A leírások alapján van egy teljesítménynövelő csomagjuk az üzleti kiadásban, ami lényegében egy 64 bites környezetben való hatékonyabb működést biztosít, illetve multiprocesszoros rendszerekhez szolgálnak megoldással, hogy ki lehessen használni a teljesítményben rejlő lehetőségeket. További operátorokat lehet elérni, amelyek nem része a közösségi kiadásnak. A rendszer egy automatikus frissítési funkcióval is rendelkezik. Az Enterprise Editionhöz jár támogatás, amit 2-től 4 óráig terjedő válaszidővel garantálnak. Végül van egy nagyon határozottan megírt hibajavítási garancia, tehát ha valamilyen bug-ot találunk, ami az üzleti világunk kritikus, és nem tudunk továbblépni miatta, akkor vállalják, hogy azt a hibát kijavítják. Természetesen ott van a megjegyzés, hogy hány órát hajlandóak ezen dolgozni, de már maga a garancia lehetőség is egy olyan dolog, ami fontos egy ilyen rendszernél, és pozitívan hat az értékesítésre. Ld.: A RapdiMiner Enterprise Edition verziói Forrás: RapidMiner: Features, http://rapidi.com/content/view/123/141/lang,en/
8.6
Talend
8.6.1 A Talend Open Studio Maga az Open Studio 2005 óta létezik a piacon, akkor jelent meg az első változat. Nagyjából negyed évente jelentkezik egy jelentősebb frissítés, és egy-két havonta pedig valamilyen kisebb, javító változata. A Talend sikernek könyveli el, hogy sokan töltik le az eszközét, a megjelenés óta több mint 500000-en töltötték le világszinten a különböző verziókat. Maga a Talend Open Studio a GPL v2 licenc alapján működik. A letölthető fájlnak a mérete 200 MB, de létezik egy kicsit nagyobb változat is, amiben megtalálható mind a Linuxos, mind a Windowsos változat. Alapvetően Javas környezetben működik az eszköz, Windows, illetve Linux/Unix változatban. Sok helyen vannak irodái a cégnek, Amerikában, Európában, és még Kínában is. A cég, amelyik a Talend-et fejleszti, sok pozitív tulajdonsággal rendelkezik – azon kívül, hogy nyílt forráskódú alapokon piacra juttatják ezt az eszközt –, például, hogy az eggyel korábbi változathoz is adnak ki frissítést. Ez azt jelenti, hogyha valaki éppen egy futó projektben használja az egyik korábbi verziót, akkor ahhoz is adnak javítást, ami egy nyílt forráskódú megoldásokat szállító cégtől igen meglepő tulajdonság. Ami talán a Talend-et a legerősebb szereplővé teszi ebben a környezetben, az a több mint 400 komponense. A komponensek száma nagyon gyorsan bővül, 81 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
köszönhetően a nyílt forráskódnak, mert nemcsak a Talend fejlesztői, de mások is tudnak hozzá komponenseket készíteni. Az eszköz fejlesztői is újabb és újabb komponenseket írnak hozzá a felmerülő problémák megoldására. Ha az a bizonyos komponens megfelelően működik, megbízható és jól dokumentált, akkor bekerülhet a következő verzióba. Ilyen egyszerű módon történik a rendszer funkcionalitásának kibővítése. Pearl, Java és SQL nyelveken bővíthető, de a komponensek, amiket fejlesztenek hozzá, túlnyomórészt Java nyelven vannak programozva. A jelenlegi 3.0ás verzióban jelentek meg azok a komponensek, amelyek ETL komponensek. A Talend a Community Edition-ben állomány alapú adattárat (repository-t) használ. Az ingyenes kiadás első nagyobb hiányossága, hogy amikor csoportmunkára van szükség, ami miatt egy központi adattárat (repository-t) kellene létrehozni, tehát nem állomány alapút, akkor már nem elég a Community Edition, a fizetős verziót kell használni. A Talend képes a meta-adat alapú tervezésre és futtatásra. Egy kódgeneráló eszközről van szó, amivel metaadatot állítunk elő azzal, hogy a grafikus felületen műveleteket végzünk a komponensekkel. A hátránya az, hogy nem tartalmaz semmiféle meta-adat szabványt, ami alapján lehetne azt használni. Fontos előnye, hogy a kódgenerálás abban a pillanatban történik, ahogy feltesszük a vászonra a komponenst, vagy módosítjuk. A Java kódban azonnal lehet látni, hogy mi változott, ami a generált kód azonnali megfigyelhetőségét jelenti, lehetővé téve a jelen idejű hibakeresést. Továbbá lépésenkénti statisztikákat tudunk gyűjteni, és kijelezni. A lépésenkénti futtatás előnye az, hogy meg lehet keresni, melyik kódsorban van a hiba, és a hibát rögtön be is lehet jelenteni a fejlesztőknél. A Talend Open Studio, ami az ingyenes verziócsomag, tartalmaz egy Business Modelling eszközt. Érdekes, hogy maga a Talend is, más nyílt forráskódú eszközökhöz hasonlóan, több projektekkel egyetemben egy másik nyílt forráskódú projektet használ fel, az Eclipse fejlesztői környezetet. Nagyon sok eszköz alapjául szolgál ez a projekt, egymástól teljesen eltérő, nemcsak fejlesztői eszközökben, hanem adatmodellező, adatbetöltő eszközökben is felhasználják. Az Eclipse projekt a kód újrafelhasználhatóságról szól, hogy ha egy komponenst kifejlesztenek, akkor azt máshol is fel tudják majd használni. Különböző eszközökhöz, vagy rendszerekhez való csatlakozáshoz más-más funkcionalitás készlet van, a legegyszerűbb az, amikor írni és olvasni is tudja ezeket a rendszereket, de bizonyos esetekben sokkal szélesebb körben lehet használni. A Talend Open Studio eddig is tartalmazott már interfészeket más zárt forráskódú üzleti alkalmazásokhoz, de az új verzióban jelent meg az SAP, és az Oracle ERP támogatása. Továbbá a különböző üzleti intelligencia megoldásokhoz, például a Mondrian-hoz, JasperSoft-hoz kínál megoldásokat, valamint az üzleti világból származó ERP, CRM eszközökhöz is. Nagyon hasznos az egyedi kódoknak a beépíthetősége például Java, vagy Groovy nyelven, ami a Java-nak egy szkriptelő nyelve. Főleg akkor hasznos ez a tulajdonsága, ha nagyon egyszerű eszközök használatára van szükség, ha esetleg az eredetileg használni kívánt eszköz nem működne. Ilyenkor egy másikat csatlakoztathatunk hozzá, helyettesítve az eredeti elképzelést. Az adatminőség tekintetében vannak benne ingyenes komponensek, de az igazi megoldások már a fizetős változatban érhetők csak el. Az adatbázisok terén –
82 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
és ez az egyik legnagyobb előnye – mindenhonnan tud adatokat betölteni, szinte bármilyen fájlt, bármilyen adatbázisból. A legutolsó, 3.0-ás verzióban jelent meg az ELT üzemmód. A kód, amit így generál, különböző SQL-eket fogalmaz meg, és azt átadja az adatbázis szervernek, ahol a műveletek elvégzése történik. Fájlokból is gyakorlatilag mindent fajtájút be tud olvasni. Nagyon érdekesek a különböző Internetes kapcsolatok, amelyekkel a Talend rendelkezik, látszik, hogy ebben világháló szolgáltatásainak bevonásában érdekeltek közül nagyon sokan használják, hiszen valószínűleg azért fejlődtek ki ezek a lehetőségek. A Talend egyik nagy előnye a Web szolgáltatások (Web Services), hogy különböző generált kódokat Web szolgáltatásként lehet telepíteni. Olyan komponenssel is rendelkezik a rendszer, amellyel pingelni lehet egy hálózati gépet, hogy különböző vezérlőfolyamatokat legyünk képesek felépíteni. A WaitForFile komponens arra jó, hogy egyszerűen megadunk egy könyvtárat, és azt, hogy milyen időközönként vizsgálja meg, maximum hányszor próbálja ezt megtenni, és amikor megjelent ott egy adott fájl, akkor indítson egy folyamatot, tehát egy trigger vezérelt betöltést tesz lehetővé. Még érdekesebb talán az, hogy ezt SQL adatokkal is meg lehet tenni, azaz addig várjon egy alkalmazással, amíg egy táblában meg nem jelent például 50000 sor, és akkor indítsa csak el a folyamatot. Magasabb szintű feldolgozási műveletek, normalizálás, denormalizálás, aggregálás, egyesítés és egyéb hasonló folyamatok végrehajtására képes. Opreációs rendszer szintű parancsok kiadására van lehetőség, például SSH, vagy környezeti változók beállítására. Végül XML kezelő komponensekkel is rendelkezik. Ezek után már lehet látni, hogy ez nem egy tipikus adattárház építő eszköz, hanem egy adatintegrációs eszköz, tehát jóval szélesebbek a lehetőségei. A Talend rendelkezik SCD, azaz Slowly Changing Dimension kezeléssel, tahát ha a komponens nevében benne van az SCD, akkor az olyan kódot generál, ami úgy hajtja végre az adott komponenst, hogy csak SQL-ként jelenik meg a végeredmény, amit beszúr az adatbázisba, így csak írni akarja az adatbázis kezelőt. Továbbá vannak még az ELT névvel kiegészített komponensek is, ami azt jelenti, hogy az adatbázis kezelő az, ami a műveleteket elvégzi, és nem a Java kliens. Egy másik nagyon fontos komponens a leképezés (mapping) komponens, ez az a lehetőség, ahol különbözőek az adatforrások, és nem feltétlenül a cél, hanem átmeneti tárolóban tudjuk az adatokat mozgatni, ezt jelenti a leképezést (mappelést) ebben a környezetben. Különböző számításokat lehet az egyes mezők között végrehajtani. Fontos megvizsgálni egy használandó rendszer kapcsán, hogy az rendelkezik-e fejlesztő környezettel. Ha egy adattárházat fejlesztünk egy projekt kapcsán valós körülmények között, akkor azt általában nem az éles rendszeren tesszük, hanem szükségünk van külön fejlesztői, és éles környezetre. Továbbá a jobb rendszerek rendelkeznek tesztelői környezettel is. Tehát egy rendszernél két ilyen kapcsolat kell az adatbázishoz, amivel a környezeteket el tudjuk választani egymástól. A Talend 3.0-ás verziója már tudja ezt,
83 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
különböző környezeteket lehet létrehozni, be lehet állítani éles adatbázist, és egyéb környezeteket. A rendszer a benne lévő projekt példában ennek a használatát is bemutatja, hogy például hogyan kell az egyes környezetek között váltani. Pozitívum, hogy ezt a funkciót benne hagyták a Community Edition-ben, és nem csak a fizetősben érhető el. Nyílt forráskódú rendszer lévén ez a funkció nem annyira jól kidolgozott, vannak hiányosságai, például, hogy ugyanarra a transzformációra más-más kódot generáljon az eltérő környezetek eltérő verziójú adatbázisaihoz. Megoldásként tehát be kell állítani, hogy az adott komponens környezet alapján generálja a változókat, és akkor futtatáskor mindig meg kell adnunk, hogy melyik környezetben akarjuk ezeket megtenni. A komponenspaletta elemei, és azok főbb funkciói16: Business Intelligence: Chart, SCD, Jasper, OLAP kocka (Mondrian, Palo) Business (ERP, CRM): Centric, MS AX (Axapta), SAP, Salesforce, SugarCRM, VtigerCRM Custom Code: Groovy, Java Data Quality: CRC, FuzzyMatch, IntervalMatch, ReplaceList stb. Databases: AS400, Access, JDBC, DB2, FireBird, Greenplum, HSQLDb, Informix, Ingress, Interbase, JavaDB, LDAP, MS SQL, MaxDB, MySQL, Netezza, Oracle, Paraccel, Postgres, SQLite, Sybase, Teradata, Vertica ELT: MySQL, Oracle, Teradata File: Apachelog, ARFF, CSV, Excel, DIF, Mail, Regex, XML; Archive/unarchive, compare, copy, delete, Exist, filelist, rowcount, PGP Internet: FTP, SCP, POP, RSS, SVN, sendmail, Socket, Webservice, XMLRPC Log&Error: Assert, Chronometer, Flowmeter, LogCacther, logRow, StatCacher Misc: Ping, Rowgenerator, Contextload, Msgbox Orchestration: Filelist, Foreach, Loop, Pre-, Postjob, Replicate, Unite, Sleep, WaitForFile, WaitForSqlData Processing: Normalize, Denormalize, AggregateRow, ConvertType, FilterRow, Join, Map System: RunJob, SSH, SetEnv, System XML: DTDValidator, Input-Outpu, ParseXMLRow, XSLT.
8.6.2 A Talend termékei A Talend üzleti modelljében öt csomag van. Ezek a következőek: a Talend Open Studio, a Talend Integration Suite, a Talend On Demand, a Talend Open Profiler, és a Talend Data Quality. A Talend Open Studio a magja az egész csomagnak, ez az ingyenesen letölthető közösségi verzió. Rendelkezik az alapvető elemekkel, amelyekkel az összes többi kiadás is. Ezek a következők: Business Modeler, Job Designer, Metadata Manager, Job Hierarchy, 400+ Components, Import Ecosystem Components. Továbbá elérhető hozzá a dokumentáció, illetve a közösségi alapú szolgáltatások, mint például a 16
Forrás: I. Nyílt Forráskódú BI Konferencia, Pásztor Sándor (2008): ETL fejlesztés a Talend nyílt forráskódú eszközeivel
84 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
fórum, a Bugtracker, ahol a hibabejelentéseket lehet megtenni, és további alkalmazások. Ez a kiadás a nyílt forráskódú GPL licenc alatt érhető el. A Talend Integration Suite az Enterprise szintű programcsomag. Háromféle változata van, három különböző szinten: Team, Professional, és Enterprise. Ennek a magja az Open Studio, továbbá jár hozzá a támogatás is, illetve rendelkezik egy központi repository-val, ami a csoportfejlesztést teszi lehetővé. Objektum szintű check-in/check-out funkcionalitással működik a felhasználók megkülönböztetése, továbbá hozzáférési jogosultságokat is tud kezelni. A csoportfejlesztés itt azt jelenti, hogy a különböző Job-ok felhasználónként blokkolódnak, és így mások nem tudják azokat használni. Ezekkel a funkciókkal képes a csoportmunkát támogatni. Az egész rendszer használatát megkönnyíti, hogy a telepítése egyszerűsített. Az Integration Suite központosított futtatás vezérlését tesz lehetővé, ami időzített és eseményvezérelt.
30. ábra: A Talend Integration Suite modellje Forrás: Talend: Talend Integration Suite, http://www.talend.com/products‐data‐integration/talend‐integration‐suite.php A Talend On Demand, azt jelenti, hogy a szoftvert, mint szolgáltatást kapjuk. Ennél a megoldásnál az eszköz használata webes felületen történik, nem kell installálnunk, konfigurálnunk, karbantartanunk, ezt mind megteszi a Talend. A kommunikációra biztonsági kapcsolatot biztosítanak, és természetesen van on-line adattár (repository) Open Studio Online Repository néven. Ebben az adattárban ( repository) tárolják a meta-adat, és projekt információkat, ami projektcsoportok számára biztosít lehetőséget az adatok tárolására, és egyesítésére egy központosított, és megosztott adattárban (repository-ban). A szolgáltatást havi és éves előfizetés alapján is igénybe lehet venni. A támogatást ehhez a verzióhoz Silver, vagy Gold szinten lehet igénybe venni. Van ennek is egy kipróbálási fázisa, ahol ingyenesen lehet tesztelni, kérelmezni kell egy regisztrációs e-mail elküldésével, és akkor néhány napon belül megkapjuk az engedélyt a használatra.
85 (106)
Dr. Molnár Bálint ©
Nyílt forráskódú üzleti intelligencia rendszerek
31. ábra: A Talend On Demand modellje Forrás: Talned: Talend On Demand, http://www.talend.com/talend‐on‐demand/talend‐on‐demand.php A Talend Open Profiler is egy szabadon letölthető, közösségi verzió, egy adatminőség elemző eszköz, ami az adatok jellegzetességeinek, profiljának megállapítását végzi. Az adatfeltáró folyamat megvizsgálja az adatforrásokban lévő adatokat, összegyűjti a statisztikákat és az információkat róluk. Az adatok minőségét is megvizsgálja. A tulajdonságaik megismerésével azonosíthatjuk a problémás adatokat, mielőtt az adatintegrációt elvégeznénk, ezáltal tudjuk a betöltési folyamatok kockázatát, és a ráfordítandó idő mértékét csökkenteni. Található benne egy meta-adat adattár (repository), amiben a program a megvizsgálandó adatbázis meta-adatainak jellemzőit, leírását tárolja. Továbbá indikátorokkal statisztikákat tudunk készíteni, például, hogy hány üres érték van, vagy hány duplikátum van, és a szöveges mezők hosszát is fel tudjuk mérni. Pozitívum, hogy egy ilyen ingyenes eszközt készítettek, de ez csak egy adat elemző eszköz, tisztítást nem végez, így ahhoz a folyamathoz egy másik eszköz kell. A Talend Data Quality egy teljesen önálló eszköz, de a funkcionalitása integrálva van a Talend Integration Suite-tal, azaz lehet ahhoz opcionálisan vásárolni. Ez az adattisztító eszköz három fő folyamattal rendelkezik. Az első a már említett adatminőség elemzés, ami az első lépés az adatok tisztításának folyamata során. A problémás területek felmérése után az adatok tisztítása, helyreállítása következik. Végső folyamatként értéknövelő információval gazdagítják az adatokat. Kezelőfelületét, használatát tekintve ugyanolyan, mint az összes többi folyamat elven működő szoftver.
8.6.3 Talend használhatósága bevezethetősége A Talend használatát ott érdemes megfontolni, ahol eddig kézzel kódoltak SQL-eket, és ez már kezd sokba kerülni. Alkalmazás fejlesztők számára hasznos lehet egy ilyen eszköz használata, és az alkalmazás fejlesztők alatt nem csak azokat kell érteni, akik ETL-t fejlesztenek, hanem különböző adatintegrációs eszközöket fejlesztőket is, hiszen a Talend-ben kapott Java kódokat nagyon egyszerűen lehet felhasználni más alkalmazásokban. Bonyolult, 86 (106)
Dr. Molnár Bálint ©
Az adatbányászat szerepe az üzleti intelligenciában
és összetett modelleket, adatfolyamokat is egyszerűen legenerálhatunk benne, és azt beemelhetik egy másik alkalmazásba. Erősen heterogén környezetben nagyon jól használható a Talend, ilyen környezeteket találhatunk a kormányzati szegmensben, az önkormányzatoknál. Nyílt forráskódú környezetekben is termeszétesen javasolt ennek a megoldásnak a használata, mert kiválóan illeszthető bizonyos rendszerekre, jól használható együtt más alkalmazásokkal. Hasznos lehet ez a megoldás ott is, ahol nincs keret Enterprise megoldásokra, ahol az ár döntő tényező.
8.7
JasperSoft
A JasperSoft fő termékét, a JasperReports-ot 2001-ben kezdte el hobbiból fejleszteni a bukaresti származású Teodor Danciu. A fejlesztésre azért volt szükség, mert Teodor megszállott Java fejlesztőként nem talált olyan, jelentések megjelenítésére szolgáló komponenst, amely megfelelő funkcionalitással rendelkezett volna, és ezzel együtt Java platformra is elérhető lett volna. Miután nekiállt a fejlesztésnek, az open source projektek de facto otthonaként ismert SourceForge.org-ra töltötte fel a rendszer forráskódját, ahol egyre több és több programozó csatlakozott a fejlesztéshez. Mivel a rendszer egyelőre híján volt a jelentés megtervezéséhez szükséges grafikus tervezői szoftvernek, ezért 2002-ben a JasperReports-ot fejlesztő Giulio Toffoli külön projektként elindította az erre a célra szolgáló iReport nevű open source szoftver fejlesztését. Időközben a piaci viszonyok alakulása lehetővé tette azt, hogy Teodor és Giulio kereskedelmi hátteret adjanak a fejlesztői munkának, így született meg 2004-ben a JasperSoft nevű, San Francisco-i székhelyű vállalat. A fejlődés következő lépcsője a JasperServer nevű termék megalkotása volt, mely az eddigiektől eltérően már nem kliens-szoftverekbe építhető megjelenítő komponens volt, hanem önállóan futni képes, webes alapú rendszernek lett megalkotva. A termékportfolió egyre inkább lehetővé tette azt, hogy a JasperSoft egy teljes üzleti intelligencia rendszert dobjon a piacra. 2006-ra, a JasperAnalysis OLAP modul megjelenésével teljessé vált a rendszer, így mára a JasperSoft egy minden igényt kielégítő üzleti intelligencia rendszert kínál a felhasználók számára. A vállalat saját adatai szerint a rendszert több mint 10.000 üzleti ügyfél használja a világ 96 országában. A letöltések száma mára meghaladta a 8 milliós értéket. (JasperSoft, 2010) A vállalat azóta is töretlenül fejlődik, melyet a Forrester és Gartner-féle kutatás is alátámaszt. A 2008. közepén kibocsátott 3-as verzió rengeteg fejlesztést tartalmaz az előző verziókhoz képest. Újdonság a továbbfejlesztett metaadat-kezelés és az erre épülő ad-hoc jelentéskészítő felület megjelenése. Ennek segítségével már nem csak jelentéseket, hanem akár lekérdezéseket és vezérlőpultok (dashboardokat) is lehet készíteni webes felületen keresztül. A webes felület megjelenése is sokat fejlődött, az új felület a trendeknek megfelelően már AJAX alapon működik, és támogatja a külső forrásból származó Flash és Flex komponensek beépítését is az egyes vezérlőpultokba. (Richardson, Schlegel, Sallam, & Hostmann, 2009)
9 Az adatbányászat szerepe az üzleti intelligenciában A vállalati napi tevékenységeit, amelyeket a szervezeti hierarchia alsó ill. középső szintjén lévő alkalmazottak végeznek, olyan vállalati alkalmazási rendszerek 87 (106)
Dr. Molnár Bálint ©
Az adatbányászati technológiák é szervezeti folyamatok
támogatják, mint az ERP, SCM, CRM, SFA, HRM3 stb. Ezek az operatív rendszerek viszont nem alkalmasak a vállalati felső ill. középvezetés feladatköreibe tartozó döntéshozatal és stratégiai irányítás hatékony támogatására. Ezeknek a feladatköröknek a kiszolgálására, melyek a vállalat hosszabb távú működésére, a piaci pozíciójára, gazdasági eseményeire vannak befolyással, másfajta rendszerek, az üzleti intelligencia rendszerek állnak rendelkezésre. "Az üzleti intelligencia olyan technológiák és alkalmazások összessége, amelyek az adatok
összegyűjtésével, hozzáférhetőségével és elemzésével foglalkoznak egy vállalatban, hogy vezetői jobb üzleti döntéseket hozhassanak." Bill Inmon, az adattárház-technológia kezdeményezője nyomán (3. ábra) a szervezetek teljes információ ellátási ciklusát egy olyan folyamat keretében tekinti át, amely valamilyen formában a legtöbb nagyvállalatnál megtalálható. A vállalati információ ellátás négy szakaszra. Az előállítás szakasza olyan operatív irányítási és munkafolyamat-támogató alkalmazásokat tartalmaz, amelyek a vállalati információk elsődleges forrásai. A rendszerezés szakaszában az alkalmazások a vállalati szintű adatok konszolidációjáért és integrációjáért felelősek, vagyis operatív folyamatokból származó adatok összegyűjtése, megfelelő átalakítása és különböző, vállalati szintű, jól strukturált adattárakba és adattárházakba való eltárolása történik. Az elemzési tevékenység az eltárolt és integrált adatok több szempontú megjelenítéséből, ad-hoc és/vagy feltáró jellegű, stratégiai szintű elemzéséből áll. Végűl a hasznosítás szakasza olyan döntéstámogatási és beavatkozási alkalmazásokat fed le, amelyek az irányítási és termelési-szolgáltatási folyamatok ill. rendszerek működésére lehetnek közvetlen hatással.
10 Az adatbányászati technológiák é szervezeti folyamatok jellemzése 10.1 Adatbányászati folyamatok 10.1.1
Adatbányászat
Ez a lépcső az adatok előkészítését, a modell kiválasztását, felépítését, magát az elemzési műveletet, végül pedig az eredmények megjelenítését foglalja magába. A művelet tehát az elemzéshez felhasználásra kerülő adatok azonosításával, kiválasztásával és előkészítésével kezdődik. Az adatok megtisztítása után kerül sor az elemzési modell megtervezésére, mely az megelőző fázisban definiált problémához leginkább megfelelő adatbányászati algoritmus kiválasztásával kezdődik. A használatra kijelölt modellhez szükséges lehet az adatok további tisztítására, esetleg hiányzó adatok pótlása. A feltáró adatbányászat esetén a kiválasztott modell paramétereit egy ún. betanító adathalmaz (training set) segítségével lehet kialakítani. A modell pontosságát és megbízhatóságát pedig egy vagy több teszt halmazon (test set) kell továbbfejleszteni, melyre azért van szükség, hogy a modell még általánosabb legyen, a betanító adathalmazban szereplő adatok sajátosságainak köszönhető torzulásokat kiszűrjük. (Ezt a torzulást túltanításnak (overfitting) nevezik, mely szélsőséges esetekben odavezethet, hogy a modell betanulja a betanító halmaz összes 88 (106)
Dr. Molnár Bálint ©
Az adatbányászati technológiák é szervezeti folyamatok
rekordját és első ránézésre 100%-os pontossággal képes lesz előre jelezni. A modell hibája a teszt halmazon történő lefuttatáskor derül ki.) Végül egy harmadik halmazon az értékelő (evaluation) halmazon a modell becslőképességének felmérése történik. A betanító, a teszt és az értékelő halmazokat csoportosító eljárásokkal, szegmentálással lehet az eredeti adatokból kijelölni. Nagy valószínűséggel az első alkalommal felépített modell nem a végső változatot jelenti majd, s az adatok különböző részhalmazain számos adatbányászati technikát kell kipróbálni, amíg a kívánt eredményt megkapjuk. Ez a modell újra tervezését és az adatelemzési fázis ismételt elvégzését jelentheti. Az egymást ismétlő ciklusok során az eredmények értékelését, de a végső elemzés felfedezéseinek megértését is elősegítik a különböző adat megjelenítő eljárások. Az üzleti cél meghatározása Elemzési lehetőségek összegyűjtése, értékelése
Üzleti szituáció felmérése
Az elemzési feladat megfogalmazása
Visszamérés, monitoring
Döntés az üzleti célokról
Idő- és költségtervezés
Döntés a projekt indításáról
Adatgyűjtés és feltárás
Üzleti alkalmazás
Modellek felállítása
Modellek építése
Eredmények összesítése üzleti megoldássá
Az üzleti cél elérésének ellenőrzése
Modellek üzleti validálása
Modellek kiértékelése
Modellek megvalósítása
Modellek finomhangolása
Előrehaladás
Jelmagyarázat
Informatikai tevékenység
Adatbányászati tevékenység
Üzleti tevékenység Visszacsatolás
32. ábra Az adatbányászat értékteremtő folyamata (Fajszi – Cser, 2004, 12.old) A kapcsolódó szakirodalomban számos megközelítés ismert az adatbányászat, mint módszer leírására. Minden szakértő számára azonban egyértelmű, hogy az „információ-gyémánt kutatása” üzleti célú elemzői feladat. Ezért – mint minden az üzleti életben előforduló feladat – az adatbányászatnak is az üzleti cél 89 (106)
Dr. Molnár Bálint ©
Az adatbányászati technológiák é szervezeti folyamatok
meghatározásával kell kezdődnie A következőkben Fajszi Bulcsú - Cser László által megrajzolt folyamatábrán (32. ábra) láthatjuk az adatbányászat üzleti folyamatát:
10.1.2
Cselekvés
Az előző fázis kimeneteként kapott eredmények mit sem érnek, ha nem használják fel, nem hasznosítják őket az üzleti folyamatokba integrálva. Ehhez azonban a frissen szerzett információknak és az arra épülő tudásnak el kell jutnia a szervezeten belül a megfelelő helyekre, ill. személyekhez
10.1.3
Eredmények mérése
Mint minden befektetésnél, úgy az adatbányászati folyamatokra fordított erőforrások megtérülését is érdemes megvizsgálni. Habár ez az a fázis, amit a legtöbb vállalatnál elmulasztanak, a fejlődés, a tanulás, azaz tapasztalat-felhalmozás egyik legjobb táptalaja a múltban elkövettet hibák, sikerek elemzése. Az, hogy pontosan mit is mérünk, függ a folyamat jellegétől, a vállalat képességeitől és a rendelkezésre álló adatoktól. Ebben fontos szerepet játszhat az adatbányászatra magára is alkalmazott folyamat kontrolling (ld. 2.4). 10.2
Adatbányászat alkalmazási területei
Az adatbányászat üzleti és közszolgálati alkalmazási lehetőségei szinte korlátlanok. Általánosan igaz, hogy azon a területen alkalmazható adatbányászati eszköz, ahol az adatbázisban (vagy adattárházban) levő adatok nagy mennyisége megnehezíti a hagyományos eszközökkel történő elemzést. Mivel az adatbányászat üzleti célú elemzői feladat, főként azon döntéseknél nyújt segítséget, melyek az üzleti életben látnak napvilágot. Az alábbiakban felsorolok néhány jellemző megoldást.
10.3 Ügyfélkapcsolat menedzsment (CRM) Az ügyfélkapcsolat menedzsment (Customer Relationship Management, CRM) az ügyfeleket középpontba helyező vállalati stratégia, amely az ügyfelek teljes körű megismerésén alapul. A CRM célja, hogy az összegyűjtött ügyfél-információ alapján az ügyfél igényeinek megfelelő termékek és szolgáltatások kialakítását tegye lehetővé (Abonyi, 2006, 367.old).
10.3.1
CRM definíció
A CRM olyan üzleti megközelítés, melynek célja, hogy hatékony kommunikáció segítségével megértsük és befolyásoljuk a fogyasztók viselkedését azért, hogy új ügyfeleket szerezzünk, a régieket megtartsuk, valamint hogy növeljük a fogyasztói hűséget és jövedelmezőséget.” (Swift (2001)) Ahogy a marketing is többet jelent egyszerű eszközök egymástól elszigetelt alkalmazásánál vagy egy marketing divízió kialakításánál, a CRM esetében is többről van szó. A vállalatok által alkalmazott CRM stratégia nem merülhet ki egy-egy kulcsrakész szoftver alkalmazásában, nem is kell feltétlenül egy „cél alkalmazás, vagy 90 (106)
Dr. Molnár Bálint ©
Az adatbányászati technológiák é szervezeti folyamatok
célszoftver”, a szervezeti folyamatok , a meglevő információrendszer szolgáltatások és folyamatok célszerű kialakításával a CRM funkciók elláthatók. A CRM-nek létezik egy szélesebb meghatározása is: A CRM magában foglal minden olyan vállalati tevékenységet, amelynek köszönhetően az alkalmi vásárlóból hűséges fogyasztó lesz. A következőkben röviden áttekintjük a CRM egyes üzleti alkalmazásait: Ügyfélszegmentáció – az ügyfeleket olyan csoportokra osztjuk fel, amelyek egymástól lényegesen különböznek olyan kulcsfontosságú tulajdonságok tekintetében, mint a profitabilitás, kockázat, csatornahasználat, lemorzsolódási valószínűség és várható haszon az üzleti kapcsolat teljes ideje alatt. E feladatra a klaszterező eljárásokat, sőt akár az önszervező neurális hálókat is használhatjuk. Ügyfélérték-számítás – alkalmazásának célja, hogy minden ügyfélről szolgáltasson egy mérőszámot, amely megmutatja, milyen mértékben járul hozzá az adott ügyfél a vállalat eredményességéhez a jelenben és a jövőben. A feladatokra alkalmas modellek elkészítésére regressziós technikák alkalmazása célszerű. Pontozás (Scoring) – adatbányászat segítségével olyan modell építhető, amely pontozási rendszer alkalmazásával sorrendet állapít meg az ügyfelek között egy meghatározott kritérium alapján, például pontozza őket a fizetési fegyelem szempontjából. Így a cég ezt az információt fel tudja használni hitelkérelmek elbírálásakor (Kő, 2006). Ügyfelek lojalitása – a lemorzsolódás-elemzés során a vállalat nyomon követi a cégtől elvándorló ügyfeleket (és az elvándorlás lehetőségét) a célból, hogy megelőzze a számára értékes ügyfelek elvándorlását. Az adatbányászat prediktív modelljei a kilépést kiváltó okok feltárásával és a kilépés előrejelzésével segítik ebben a folyamatban. Keresztértékesítés (cross-selling) – során a meglévő ügyfeleinket igyekszünk új termékek megvásárlására ösztönözni. Az elemzés során egy adott termék vásárlóit elemezzük, aszerint, hogy mely más terméket is vásárolták. A prediktív elemzés eredménye egy keresztértékesítési hajlandóságot kifejező pontszám, amely konkrét ügyfélhez rendelhető. Csalásfelderítés – Az adócsalások becslésére a korábban végrehajtott adóellenőrzések adatai alapján modell készíthető, amely rámutathat, hogy mely cégek ellenőrzésére érdemes a revizori kapacitásokat fordítani. Csalásfelderítésnél alkalmazható adatbányászati eszköz például a döntési fa. Internetes viselkedési szokások elemzése – mivel az üzleti tranzakciók egy jó része elektronikus, elsősorban Internet alapú, a különböző web adatforrásokból származó kattintások elemzése, a web log analízis segítséget ad az optimális site kialakításához, javítva a látogatás/eladás arányt. Így a cég például feltérképezheti az ügyfelek érdeklődési területeit, és ennek alapján az oldalakon fenntartott reklámterületekre személyre szabott információkat helyez el (Kő, 2006). 91 (106)
Dr. Molnár Bálint ©
Az adatbányászati technológiák é szervezeti folyamatok
Ügyfélkockázat számítás: Az ügyfélérték számításánál is figyelembe vett kockázati érték. Különösen fontos a hitelintézetek versenyképességének fenntartásához, hiszen segíti az új ügyfelekkel vállalt kockázatok minimalizálását az ügyfél hitelképességének meghatározásával. Vásárlási valószínűség elemzése: Ez annak megértését jelenti, hogy egy vásárló mely termékeket fogja megvásárolni. Szekvenciális elemzés: Azt mutatja meg, hogy az egyes termékeket milyen sorrendben vásárolják, azaz a fogyasztó nagy valószínűséggel milyen terméket fog legközelebb megvenni. Piackosár elemzés: Megmutatja, hogy milyen termékeket vásárolnak együtt Árrugalmasság elemzése, dinamikus árazás: Ezek a modellek az egyedi ügyfelekre vagy nagyobb szegmensekre vonatkozó optimális ár meghatározásához adnak segítséget. Az operatív CRM azon üzleti folyamatok informatizálását jelenti, melyek a fogyasztóval való kapcsolat kialakításáért felelősek. Hagyományosan ezek az eszközök: az értékesítés (sales force automation), az ügyfélszolgálat (call centerek, contact centerek, customer interaction centerek, help deskek) és a marketing (marketing automation) területén találhatóak meg. Az egyes területeken az alábbi folyamatokat támogathatják az operatív CRM eszközei: Marketing o marketing folyamatok automatizálása (marketing automation) o kampánymenedzsment (campaign managment) Értékesítés o értékesítési folyamat támogatása (SFA, sales force automation) o a vállalati ügyfelekről rendelkezésre álló információk rendszerezése (account management) A következő felsorolás az analitikus rendszereknél leggyakrabban előforduló technológiákat foglalja össze. A felsorolás sorrendje egyben e technológiák felhasználásának logikai sorrendjét is tartalmazza: Adattárházak alkalmazása Adatbányászat és online analitikus feldolgozás (OLAP, On-Line Analytical Processing) Döntéstámogató és jelentéskészítő eszközök Az adattárházakban tárolt adatokból adatbányászati és OLAP eszközökkel feltárt tudást a vállalaton belül a megfelelő személyekhez kell eljuttatni. A kommunikációra különböző Web-alapú jelentéskészítő eszközök és vezetői információs rendszerek használhatóak fel, így az ügyfelekkel kapcsolatos ismeretek a megfelelő döntéshozókhoz, valamint az egyes ügyfélkapcsolati pontokhoz továbbíthatóak. 92 (106)
Dr. Molnár Bálint ©
Az adatbányászati technológiák é szervezeti folyamatok
33. ábra: CRM alkalmazások kördiagramja (Forrás: SAS)
10.3.2
Az adatok elemezése
Az adatok időben folyamatos és logikailag rendszerezett gyűjtésével és adattárházakba töltésével létrehozott adatbázis lehetővé teszi az adatokban rejlő tudás megfelelő elemző eszközökkel való felszínre hozatalát. A hagyományos STP (Segmenting – Targeting -Positioning folyamat rövidítése) stratégia esetén az adatok elemzésének célja fogyasztói szegmensek definiálása. Többváltozós statisztikai módszerek, mint pl. klaszter vagy diszkriminancia analízis segítségével magatartási vagy leíró változók szempontjából homogénebb csoportkora lehet bontani a hatalmas fogyasztói csoportot. Az így megformált szegmensekhez aztán különböző stratégiát lehet rendelni a marketing kampány során. A technológiák fejlődésével azonban egyre több kritika érte ezt a fajta módszert, hiszen az így kialakított szegmensek homogenizálják az egyébként még mindig heterogén fogyasztói csoportot és a marketing tevékenység során a csoport egy átlagához fordulunk. A vállalat számára tehát nem az adatbázis egy nagyobb halmaza, hanem minden egyes sora fontossá válik, reprezentálva a vállalat egy fogyasztóját és annak személyiségét. Az egyes sorok elemzése során felderíthetővé válik, hogy a sorok mögött megbújó ügyfél a későbbiek során mekkora jövedelmet jelenthet a vállalat számára. Ez egy új fogalomban, az ügyfélérték (LTV, Life-Time Value) kifejezésben jelent meg. Az LTV 93 (106)
Dr. Molnár Bálint ©
Megvalósíthatósági kérdések
számítása során figyelembe veszik a fogyasztó által eddig megvásárolt termékeket a pozitív oldalon, míg a fogyasztó elérésére költött összeget a negatív oldalon. A csökkentő tételeknél csak az egyedi megkereséseket – email, direkt levél – vehetjük számításba, a tömeg médiumok használatát nem. Utóbbiak ugyanis valamennyi fogyasztónál felmerülnek, így az egy főre kiszámított összegük a végső sorrendet nem befolyásolják. Az LTV számítása során nemcsak a múltban, illetve a jelenben realizált nyereségeket vesszük számba, hanem az ügyfélprofilnak megfelelően becslés történik a jövőbeni nyereség diszkontált jelenértékére is, de többek között magában foglalhatja a cross-sell valószínűségeket, az elvándorlási valószínűségét vagy a várható ügyfélélettartamot is. Ezek természetesen feltételezéseket jelentenek a jövőbeli vásárlásokra, termék ill. marketing költségekre vonatkozóan. A mutató kiszámítását követően a marketingért felelős vezetők már ki tudják választani az adatbázisból, hogy kiket célozzanak meg a következő kampány során. Az LTV mutató segítségével az is megállapítható, hogy mely területeken lehet többlet profitra szert tenni: az eladott termékek mennyiségének növelése – cross-sell; az eladási ár növelése – up-sell vagy egyszerűen áremelés-termékköltségek csökkentése; ügyfélszerzés költségeinek csökkentése. További mutatószámok: lemorzsolódási arány, ügyfél elégedettség . Az adatok elemzése többlépcsős folyamat, melyben nagy hangsúlyt kapnak a különböző elemző statisztikai módszerek.
11 Megvalósíthatósági kérdések 11.1 Az üzleti intelligencia területének várható fejlődése A fejlődés üzleti intelligencia területén alapvetően a 34. ábra által jelzett három irányban fog várhatóan bekövetkezni: 1. A vállalatoknál integrált információgazdálkodási rendszerek jönnek létre, amelyek mind alulról felfelé – az operatív rendszerektől az analitikus alkalmazásokig –, mind pedig a fordított irányban is biztosítani fogják az üzleti folyamatok teljes információellátását. 2. Az üzleti intelligenciát biztosító technológiák kilépnek a nagyvállalati keretek közül, és a mainál jóval szélesebb skálán mozogva lesznek képesek kiszolgálni a szervezetek
és
egyének
növekvő
igényét
pontos,
lényegi
és
érthető
információkat. 3. Az üzleti intelligencia technológiái az adatok elemzésénél egyre mélyebbre ásnak (adatbányászat) és egyre szélesebb területre terjednek ki (nem jól strukturált 94 (106)
Dr. Molnár Bálint ©
Megvalósíthatósági kérdések
adatok, félig strukturált dokumentumok(XML) pl. szövegek elemzése). Nagy vállalatok
BI
Struktúrált adatok
Nagy vállalatok és intézmények
1
Könnyen struktúrálható adatok
3
Kis és közepes vállalatok, egyéb szervezetek
2
BI
Nehezen struktúrálható adatok
Egyének
34. ábra: Az üzleti intelligencia fejlődési irányai A 34. ábra jól látható, hogy az üzleti intelligencia megoldások már nemcsak a nagyvállalatok
felsővezetőinek,
hanem
a
kisebb
vállalatok,
közszolgálati
intézmények, civil szerveződések és természetesen egyének számára is elérhetők, általuk létrehozhatók és ellenőrizhetők lesznek. Ez az irány BI 2.0-ként (ld. 2. táblázat), azaz a Web 2.0 jelenségkörének az üzleti intelligencia területén való kibontakozásaként is megfogalmazható. A BI 2.0 észrevehető elmozdulást jelent az “emberközpontú” üzleti intelligencia felé, amely eddig nem látott mértékű felhasználói beavatkozást, együttműködést és rugalmasságot fog lehetővé tenni. Nemcsak az informatikai szervezet által előrekonfigurált
vállalati
üzleti
intelligencia
elemzéseket
hajthatják
végre
a
felhasználók, hanem az adatokat saját igényeik szerint értelmezve a saját kérdéseikre saját maguk találhatják meg a választ. 2. táblázat2: Mérföldkövek a BI‐technológia várható fejlődésében17 < időszak: felhasználó:
BI 1.0 2004-2008 1000+
felület:
Közzétett jelentés
lekérdezés:
Kivonatok kalkulációs (Excel)
lapból
Ad hoc lekérdezés és kalkulációs lapok 17
Forrás: Gartner nyomán
95 (106)
>
<
2008-2012 100 000+ Egyszerűsített interfész
BI 2.0
web-
> 2012-16 1 000 000+
"Információvonzás" Az információ Mély Excel"megtalálja" a integráció felhasználóját Önellátó Kontextus-alapú végfelhasználó figyelemfelhívás
Dr. Molnár Bálint © < időszak: felhasználó:
BI 1.0 2004-2008 1000+
Megvalósíthatósági kérdések >
< 2008-2012 100 000+
BI 2.0
> 2012-16 1 000 000+
Szerepüzletiszabályorientáltság Adaptív személyesítés
és
Fejlett megjelenítés szín, méret, megjelenítés:
OLAP- nézetek
Adatbányászat elemzés: Statisztika
alak, szövegkörnyez Fejlett értelmezés Bonyolult et és mozgás elemzések felhasználásáv Automatizált al Irányított elemzés analítikai folyamat Előre megadott Rendszervezérelt munkafolyamat Intelligens feltételezések
11.2 Üzleti intelligencia megoldás bevezetése és buktatói Az üzleti intelligencia alkalmazásával megnyíló lehetőségek korlátlanok, csak úgy mint az „elpuskázásának" lehetőségei is. Nagyon sok BI-projekt végződik kudarccal. A pozitív eredménnyel kecsegtető bevezetések aránya javul, s várhatóan ez a trend folytatódik. Ez az arány gyorsabban javulhatna, ha az üzleti intelligenciát bevezetők tudatában lennének a rendszer buktatóinak. Mielőtt sor kerülne az üzleti intelligencia megoldás kiválasztására, bevezetésére, a cégnek ajánlatos (ha még nincs kiképzett belső csapata) a projektet képzéssel kezdenie. Új rendszer esetén az adat-transzformációs eljárásokat újra kell gondolni. Mivel a rendszer üzemeltetője az informatika lesz, ám az üzleti tartalom létrehozásáért, gondozásáért, felhasználásáért az üzleti oldalnak kell felelősséget vállalnia, ezért célszerű legalább egy virtuális szervezetet (pl. kompetenciaközpontot) felállítani. Ajánlatos egy személy az üzleti egységekben, aki az egyes jelentések tartalmáért, az adatok minőségéért és áramlásáért felel, és a technikai oldalon is egy-egy adatbázisért és más technikai jellegű összetevőkért felelős személy felállítása. A bevezető vállalatoknál az érintett folyamatoknak és a támogató adatszolgáltató rendszereknek egyaránt rendben kell lenniük. Ha a vállalatnál az egymást követő lépések a rendszerek közötti váltást igényeik, és nem akarnak integrált rendszerbe beruházni, ez a folyamatok oldalán, middleware megoldásokkal korrigálható. Az üzleti intelligencia ugyanis nem oldja meg az integrációt. Minél integráltabb az informatikai, technológiai környezet, annál könnyebb az adattárház üzembe állítása. Az üzleti intelligencia megoldás kiválasztása előtt a vezetőknek ajánlatos a következő kérdéseket feltenniük maguknak: 96 (106)
Dr. Molnár Bálint ©
Megvalósíthatósági kérdések
1. Mennyire sikeresek a bevezetési projektek? 2. Melyek jellemző problémák? 3. Milyen tényezők befolyásolják leginkább projektek sikerességét? 4. Melyek leggyakoribb buktatók és hogyan kerüljük őket?
11.3 BI eszköz kiválasztása Az üzleti intelligencia-szoftverek kiválasztása gyakran okoz nehézségeket a vállalatoknak. A kiválasztáshoz szükség van a vállalatok üzleti és informatikai oldalának az együttműködésére, ami sok vállalatban gondot okoz. Ezért sokszor az egyik vagy a másik oldal szempontrendszere szerint történik a kiválasztás. A kiválasztást ezenkívül megnehezítik a BI szoftvereket kínáló cégek is, hiszen az üzleti intelligencia eszközüket a legjobbnak, a legjobb referenciákkal rendelkezőnek mutatják be, amit a kiválasztás során nehéz ellenőrizni. A választás előtt érdemes felmérni, hogy milyen alkalmazásokat kell támogatnia az eszköznek (pl. költséghelyi tervezés, teljesítménymenedzsment, értékesítés elemzés), milyen speciális funkciókat kell ellátnia (pl. visszaírás támogatása, statisztikai, pénzügyi függvények), mekkora adatmennyiséget kell a rendszernek kezelnie (figyelembe véve a jövőbeli kiterjesztéseket is), és végül, hogy mekkora pénzügyi és humán erőforrás áll rendelkezésre a bevezetéshez.
11.4 A bevezetési projektek Egy üzleti intelligencia eszköz bevezetésének sikere csak a használatbavételt követően dől el. Az átlagos telepítési ideje egy ilyen üzleti intelligencia eszköznek 3-6 hónap. Ez a bevezetés ideje és nem a befejezésé. Ezeket a projekteket abbahagyni lehet csak, befejezni nem. Egy független elemzés18 szerint a bevezetési projektek sikeressége alapján a következők állapíthatók meg: A projektek 73 %-ban elérik a kitűzött célokat. A felhasználók 90 %-a gondolja úgy, hogy a felhasználást a vállalatukon belül más területekre is kiterjesztik. A felhasználók 38 %-a tervez újabb licencek vásárlását.
11.5
A bevezetés leggyakoribb problémái
A két leggyakoribb probléma a bevezetés során az adatminőség kérdése, ill. a lekérdezési idővel kapcsolatos probléma. Az adatminőség többnyire belső okokra vezethető vissza. Alapszabályként kell elfogadni, hogy a működő rendszer nem jelenti automatikusan, hogy jók a benne lévő adatok. A bevezetésében részt vevő szállító, tanácsadó feltételezi az adatok 18
Az
elemzést
Nigel
Pendse,
a The
OLAP
http://www.olapreport.com/survey.htm oldalon érhető el.
97 (106)
Report
szerkesztője
készítette.
Az
elemzés
Dr. Molnár Bálint ©
Megvalósíthatósági kérdések
megfelelő minőségű rendelkezésre állását. Az adattárház projekt összköltségének meghatározó részét az adathozzáférés, -transzformáció, -tisztítás és a rendeltetési helyre juttatás költségei teszik ki. Így ha ez a projektrész hibádzik – minőségi adat híján nem teremtődik meg az adattárház felhasználói oldala –, elvész a felhasználók projektbe vetett hite, nem használják a rendszert, s odavész a befektetés. Az óriásprojektekben az előzetes adatfelmérés erősen idő- és költségigényes lenne, így gyakori a felhasználói ellenállás. A BI-projektekben gyakran a szisztematikusan végzett adattisztításnál jelentősen olcsóbb, ám csupán egyszer alkalmazott módszer kerül előtérbe. Pedig a folyamatosan keletkező és változó adatok miatt az adatminőség biztosítása mindennapos tevékenységet igénylő, az értékesítéshez, a számlázáshoz vagy a könyveléshez hasonló üzleti folyamatnak tekinthető. Ezért az adattárházakban végzett elemzések alapjául szolgáló minőségi adatok biztosítására, betöltésére, frissítésére célszerű egy szervezeten belüli adatgazda-hálózattal saját szervezetet létrehozni, amire már a projekt tervezési szakaszában fel kell készülni.
11.6 A BI projektek sikerességét befolyásoló tényezők A következő tényezőket érdemes megvizsgálni a BI eszközök bevezetése előtt:
Termék: a legtöbb probléma abból ered, hogy a szoftvert nem arra használják, amire a leginkább alkalmas. Tehát a projekt eredményessége szempontjából a megfelelő feladathoz a megfelelő eszköz kulcsfontosságú.
Bevezető személye: az üzleti intelligencia területen specialista tanácsadó cégek által bevezetett projektek a leginkább sikeresek és a legkevesebb problémával járnak.
Bevezetés
időtartama:
a
gyorsabban
eredményeket
produkáló
és
kiterjesztett bevezetések sikeresebbek.
11.7 A BI projektek leggyakoribb buktatói A leggyakoribb buktatók a következők: A vezetők többsége a táblázatkezelőket részesíti előnyben az adatbázisokkal szemben. Ezek egy jelentős részét meg kell szüntetni, a kulcs teljesímény adatokat központosítani kell. Az adatminőség probléma. Az adatok minőségét nem szabad megváltoztathatatlan adottságként kezelni, fel kell lépni a javításuk mellett. Az üzleti intelligenciával kapcsolatos tevékenységek kiszervezése. Ezért különösen fontos az alap kompetenciák azonosítása és a vállalaton belül tartása! A vezetők gyakran gondolják, hogy az ügyviteli rendszerük szállítója professzionális megoldást nyújt üzleti intelligencia kérdéseikre. Azonban ajánlott megvizsgálni az adott feladatra specializált eszközöket is. 98 (106)
Dr. Molnár Bálint ©
Üzleti intelligencia, adatbányászat és több dimenziós elemzés
11.8 BI költségösszetevői Az üzleti intelligencia projekt és a kiépített alkalmazás üzemeltetésének költségei összetettek. Ide tartozik a projektköltség, a hardver működőképességét biztosító, évente fizetendő fix karbantartási díj, a szoftverek licencének fenntartási díja. Az elmúlt években nőtt a projektköltségben a tanácsadói díjak aránya, mára megközelíti a 60 százalékot, de a jövőben e tendencia ellen hathat az alkalmazások terjedése. Az említetteken túl – a felhasználói kör és az üzemeltető szervezet képzéseit magában foglaló oktatási költségek mellett – az üzleti igények alapján a következő időszakra tervezett BI-projektek kiadásaival is számolniuk kell a döntéstámogató rendszer kialakítása és üzemeltetése mellett döntő vállalkozásoknak, intézményeknek (Fekete Gizella, 2005). Elsősorban az adattárház projekteket jellemző kedvezőtlen tapasztalatokról esetenként a tanácsadók is tehetnek. Előfordul, hogy a napi- vagy óradíjban fizetett szakemberek az optimálisnál nagyobb feladatot definiálva – saját érdekeiket tartva szem előtt – elhúzódó projekteket generálnak.
12 Üzleti intelligencia, adatbányászat és több dimenziós elemzés megvalósíthatósági kérdései Vatera.hu-nál A mérhető hasznok Az üzleti intelligencia, adatbányászat és több dimenziós elemzés, az ismeretek felfedezése (KDD, Knowledge Discovery) mérhető üzleti hasznot hoz, költségcsökkentést, magasabb nyereséget, jobb szolgáltatást jelent az ezeket alkalmazó cégek, szervezetek számára. Kimutatható eredményekkel jártak az alkalmazások olyan gazdasági ágazatokban mint például a biztosítási szektor, marketing (értékesítés reklám levéllel, „direct mail”), távközlés, kiskereskedelem, és egészségügyi szolgáltatások.
12.1 Vásárlói magatartás modellezése Ügyfél profil és jellemzők kialakítása: egy komoly pontossággal előrejelző modell létrehozásának fontos tényezője az olyan előrejelző jellemzők, tulajdonságok, attribútumok és változók megtalálása, amelyek a modellek bemenő paramétereit alkotják. A tranzakció adatbázisok adatait általában át kell alakítani alkalmas formátumra. Tipikusan a tranzakciós adatbázisok olyan rekord párokból állnak, amelyek közül az egyik az „egyedet”, a másik a kapcsolódó „eseményt” jellemzi. A kereskedelemben tipikus példa erre a vásárló és az általa vásárolt termékek, amelyek egy „bevásárló kosarat” alkotnak. A másik példa olyan honlapok (Web lap) halmaza, amelyet egy másik Web helyről kértek le és párbeszédenként csoportosítottak. A tranzakciós adatok sok szempontból jelentenek kihívást az adatbányászat számára: Nagy mennyiségű adatrekord: A kiskereskedelmi forgalomban naponta több millió tranzakció keletkezik.
99 (106)
Dr. Molnár Bálint ©
Üzleti intelligencia, adatbányászat és több dimenziós elemzés
Szórványosság: Egy tipikus bevásárló kosár csak egy kis töredékét tartalmazza az összes lehetséges árucikknek; egy vásárlónak csak néhány bevásárló kosara van, az is lehet. hogy csak egy van. Homogenitás: A vásárlási szokások időben változnak, és az egyedi vásárló ízlésétől, lehetőségeitől függenek, valamint az egyedi vásárlási szokások mintázatának időbeli változásától. Az árucikkek vásárlása közötti korreláció feltárására az asszociációs szabályok felismerésére szolgáló algoritmust lehet alkalmazni ( association-rule) , míg a tények feltárására ez az algoritmus alkalmazható, azonban nem képes előre jelezni az egyedi vásárlási magatartást. Tranzakciós adatokat megőrző, előrejelző modell ( transaction detain predictive modeling) az egyik lehetséges modellezési megoldás a problémára. Ez a vásárlói profil előrejelzésére szolgáló modell egy rugalmasan alakítható, valószínűségelméleti modellre alapul, amelyik a következőképpen működik: legyen y egy véletlenül kiválasztott bevásárló kosár (valószínűségi változó ), ahol y egy d dimenziós vektor, amely leírja azt, hogy az adott bevásárló kosárban a d árucikkből mennyit vásároltak. A több dimenziós p(y) együttes valószínűségi eloszlás közelíthető K egyszerűbb modell lineáris kombinációjával. A K modell mindegyike valójában a bevásárló kosár egy véletlenszerű prototípusa, amely kosár a termékek egy véletlenszerű kombinációját tartalmazza. A modellezés első szakaszában a K prototípus termék kombinációkat megtanítják a modellnek az adatokból a jól ismert statisztikai becslési módszerrel, elvárásmaximalizálás (expectation-maximization) módszerrel. A modellezés második szakaszában minden egyes, egyedi vásárlót a leképeznek „termék térbe”. A termék teret a K prototípus jeleníti meg, a vásárló leképezése pedig a korábbi, vásárlási mintázatok alapján történik. Ez a leképezés tulajdonképpen a tranzakciós adatok eredményes leképezését jelenti olyan jellemzők halmazára, amelyeket fel lehet használni a jövőbeli vásárlói magatartás előrejelzésére. Ezt az átalakítást nem az adatbányászati lépések előtt hajtják végre, hanem az adatbányászati algoritmus eredményeiből következtetik ki. Ezt a modellt nem arra tervezték, hogy az egyedi vásárlók magatartásának összes oldalát megragadja, hanem arra, hogy ki lehessen nyerni azokat az első rendű jellegzetességeket, amelyek jellemzik a vásárlók szokásait.
12.2 Adatbázis alapú vásárlói magatartás előrejelzés Pontozás (Scoring) – A tranzakciós adatbázis alapján, az adatbányászat során kialakul egy olyan modell, amely a vásárlói magatartást előrejelzi, például egyéb termékek megvásárlását (cross-selling). A modell alapján keletkezik egy pontérték, valamilyen számszerű érték, amelyet a vásárló adatbázis rekordjához kapcsolnak és annak a valószínűségét jelzi, hogy egy bizonyos vásárlói magatartást fog mutatni. Ha modell a vásárló lemorzsolódásának előrejelzésére szolgál, akkor a magas pontszám a vásárló távozásának magas valószínűségét jelzi, az alacsony pontszám az ellenkezőjét. A pontszám alapján lehet célzott hirdetési, törzsvásárlói vagy egyéb kedvezmény kampányokat indítani.
100 (106)
Dr. Molnár Bálint ©
Üzleti intelligencia, adatbányászat és több dimenziós elemzés
12.3 A vásárló értékének vizsgálata A vásárló értéke egy olyan általános fogalom, amely különböző körülmények között különböző dolgokat jelent, pl. az ügyfél átlagos havi jövedelme, a bérelt telefonvonalak száma vagy egyéb más érték kombinációk egy adott idő pillanatban. Az ügyfél megtartása érdekében a következő adatbányászati módszerek alkalmazhatók: Az adatbányászat előtti ügyfél szegmensek kialakítása, az ügyfél értéke alapján és a különböző szegmensekre elemzés végrehajtása. Adatbányászat után az eredmények elemzése a vásárló értéke alapján – pl. az előrejelzési szabályok érvényességének vizsgálata a legmagasabb értékű ügyfelekre. Az ügyfél „élettartamának” vizsgálata, amely az ügyfél „élettartamának” vizsgálatát összekombinálja a becsült árbevétellel.
12.4 A külvilág eseményeinek figyelembevétele az adatokban Az ügyfél lemorzsolódás elemzésének adatforrása a tranzakciós adatbázis, az adatbázisból származtatott adatok. Az ügyfél vásárlói szokásainak jellemzői (vásárlás gyakorisága, összege stb.) és az ügyfelek népesség statisztikai adatai (bevétel. lakhely, iskolai végzettség, szakma stb.) . Azonban más események is befolyással lehetnek a vásárlói magatartásra, pl. konkurencia megjelenése, a konkurencia kampánya, komoly gazdasági válság a régióban. Ezek az események a vásárlók különböző szegmenseire eltérő hatásokat gyakorolnak, függően a földrajzi régiótól, a vásárlói szokásoktól stb. Ezeknek a hatásoknak a figyelmen kívül hagyása rossz előrejelző modellhez vezethet. Az ideális helyzet az, ha van egy szakértő, aki számszerűsíteni tudja ezeknek az eseményeknek hatását az ügyfelek különböző szegmenseire vonatkozóan. Ennek a kvantifikációs lépésnek a tipikus eredménye egy olyan adatmező, attribútum bevezetése a modellbe illetve az egyes rekordokhoz, rekord csoportokhoz, amely a hatás számszerűsített értékét tartalmazza. Abban az esetben, ha ilyen számszerűsített érték nem létezik, akkor egy olyan adatmezőt, attribútumot lehet az egyes rekordokhoz, rekord csoportokhoz hozzákapcsolni, amely csak annyit jelez, hogy valamilyen külső hatás létezik egy IGEN / NEM jelzőértékkel, (pl. „versenytárs promóciós kampánya”, „gazdasági válság” stb.). Ez azonban nem túlzottan jó megoldás. Ráadásul egyes esetekben nem kívánt eredményre vezethet, ha pl. a versenytársak különböző promóciós kampányai eltérő hatásokat eredményeznek. Bizonyos mértékig az egyes egyedi események hatását el lehet tüntetni egy, un. „véletlenszerű idősor” módszer alkalmazásával. Ilyenkor a modellt különböző időpontokban vett mintákból építik fel. Ezen a módon a külső események hatásának valamilyen átlaga jelenik meg a modellben, de az eredményül kapott modell előrejelző képessége gyengébb azokhoz a modellekhez viszonyítva, amelyek figyelembe veszik a hatásokat. Neurális hálók segítségével készített előrejelző modelleknél a külső hatások független forrásokból származó, statisztikai mérések eredményét mint önálló, bemeneti adatmezőt lehet kezelni, és az érintett rekordokhoz, rekord 101 (106)
Dr. Molnár Bálint ©
Üzleti intelligencia, adatbányászat és több dimenziós elemzés
csoportokhoz kapcsolni. A modell hangolásakor ezeknek a bemeneti mezőknek figyelembevétele vagy elhagyásával lehet vizsgálni a modell előrejelző képességét, hiba értékeit (pl. GDP, egy főre jutó GDP, munkanélküliségi ráta stb.).
12.5 Törzsvásárlói és egyéb ösztönzési programok Sok adatbányászati alkalmazás esetében az elvégzett elemzés tárgya a megtett üzleti, piaci ellenlépések hatásának felmérése. Például a lemorzsolódás elemzés gyakran valamilyen ügyfél megtartási, ösztönzési kampány kialakításhoz vezet, a cég látóköréből potenciálisan kikerülő ügyfelek irányában. Két fő terület van az ügyfélösztönzési és adatbányászati komponens alkalmazásban: az egyik az ügyfél szegmensek és ösztönzési programok összerendelése; a másik a hatások és eredményesség mérése a jövőbeli elemzésekben. Egy ésszerű megközelítés az adatbányászat eredményeinek alkalmazására - az adott megvalósításból következő szabály rendszer szerint - az ösztönző elemek és az ügyfél szegmensek összerendelésének kialakítása. Az adatbányászati eljárásokból származtatott szabályok és a vonatkozó ügyfél szegmensek közötti illeszkedés mértékét jól jellemző, a jelenségeket jól megragadó leíró elemekhez lehet jutni ezzel a módszerrel. Ha például az elemzés azt mutatja, hogy egyes területeken, régiókban a fiatal ügyfelek tömegesen hagyják el a céget, az elemző olyan piaci kampányok szervezésére tehet javaslatot, amely kedvező árstruktúrára tesz javaslatot a fiatal ügyfeleknek megfelelő vásárlói profillal rendelkezők számára, és egy agresszív, a helyi médiumokon keresztül folytatott kampány indításon keresztül teszi ismertté a kedvezményeket.
12.6 Adatbányászat az ügyfél kapcsolattartásban Az adatbányászat fogalmának különböző megközelítéseivel és definícióival már találkoztunk (ld. 4.2), amelyeknek lényeges vonása az, hogy az adatbányászat egy feltáró, felfedező jellegű tevékenység, amelynek célja, hogy eddig nem ismert szabályszerűségeket, mintázatokat tárjanak fel. Következő mintázatok felismerésére van lehetőség az adatbányászat révén: Asszociációk, kapcsolatok: Az üzleti, kereskedelmi életből a következő példák hozhatók: például akkor, amikor egy férfi pelenkát vásárol, akkor általában sört is. Vagy ha valaki egy bizonyos típusú szolgáltatást vásárol meg, akkor egy másik kapcsolódó szolgáltatás is vásárol. Szekvenciális mintázat: például valaki vásárol egy fényképezőgépet és utána néhány havonta fotózáshoz szükséges kellékanyagokat, és kis vártatva pedig további fényképezőgép kiegészítőket; vagy ha egy ügyfél vásárol egy szoftver csomagot, akkor rendszeresen megvásárolja a szoftver frissítéseket és az új beépülő modulokat (plug-ins). Ügyfél osztályozási fa : Az ügyfeleket a szerint lehet osztályozni, hogy milyen gyakran vagy mely termékeket és mely szolgáltatásokat vásárolják, milyen mennyiségben vásárolnak, vagy mi az előnyben részesített fizetési mód, amit használnak stb. Az adatbányászatot több cél elérése érdekében lehet végezni: 102 (106)
Dr. Molnár Bálint ©
Üzleti intelligencia, adatbányászat és több dimenziós elemzés
Előrejelzés: Azért, hogy előrejelzéseket lehessen végezni az adatbányászati módszereket és a cég tevékenységére vonatkozó üzleti ismereteket össze kell kapcsolni annak érdekében, hogy meg lehessen jeleníteni azt, hogy bizonyos adatok, attribútumok hogyan viselkedhetnek a jövőben. Például az egyik modell arra szolgál, hogy azt jelezze, hogy egy ügyfél mit fog vásárolni, ha egy bizonyos kedvező ajánlatot kap, egy másik arra, hogy egy bizonyos áruház mennyit fog értékesíteni egy bizonyos idő alatt, vagy arra, hogy egy bizonyos termék vagy szolgáltatás értékesítésének megszüntetése növelné-e a nyereséget. Osztályozás: A cég információrendszerében tárolt adatok alapján az ügyfeleket különböző osztályokba és kategóriákba lehet sorolni az ügyfélről az információrendszerben tárolt sajátosságok alapján. Ennek az osztályozásnak a révén a cég (elsősorban marketing) erőfeszítéseit azokra az ügyfél csoportokra koncentrálhatja, amelyek nyereségesek, lojálisak vagy növekvő fogyasztást mutatnak. Optimalizálás: Az idő, a tér, a pénz, az anyag, és sávszélesség mint szűkös erőforrások optimális felhasználására lehet törekedni az értékesítés növelése és a nyereség maximalizálása érdekében. Affinitás elemzés: Az affinitás elemzés egyik tipikusan jellemző példája a bevásárló kosár elemzés. Amikor ezt az algoritmust alkalmazzák jellemzően a következő szabályokat kapják: „ Azok a bevásárló kosarak, amelyek az X terméket tartalmazzák 75%-os valószínűséggel tartalmazzák az Y terméket is”.
12.7 OLAP alkalmazhatóság az ügyfél kapcsolattartásban Az összes adatelemző, adatbányászati módszerrel kapcsolatban már előkerült a leíró (felfedező, feltáró) , magyarázó, előrejelző kategóriákba sorolás (ld. 4). A gyakorlatban különböző következtetési módszereket alkalmaznak az üzlet vagy szervezet tevékenysége leíró modelljének felállításához. Ha sok a kitöltetlen adat, információ, amely üres mezőként vagy táblázat cellaként jelenik meg, akkor szükség van különböző következtetési eljárásokra a hiányok kitöltéséhez; ezt az eljárást leginkább az adatrégészethez (archeológiához) lehet hasonlítani. A színvonalas adatrégészet megkívánja az OLAP , az adatbányászati technikák és a statisztikai eszközök kombinált és összehangolt alkalmazását. A magyarázó modellek ott kezdődnek, ahol a leíró jellegű modellek ábrázoló ereje véget ér. A magyarázó modellek a leíró modellek közötti kapcsolatokat jelenítik meg. Például a következő jellegű megállapítások „A kamatláb 1%-os emelkedése, az ingatlan értékesítés 2%-os csökkenéséhez vezet” képviselik az ingatlan értékesítés és a kamatlábak leíró modelljéből a magyarázó vagy kapcsolatot megjelenítő modell elemét. A regresszió elemzés, a döntési fa, a neurális hálók, az asszociációs (kapcsolat) szabályok és a klaszterezési algoritmus a magyarázó modellek tipikus példái. Az előrejelző modellek a magyarázó modellek kiterjesztései. Az adatbányászati módszerek az előrejelző modellek létrehozására koncentrálnak, azonban az algoritmusok lényege a szabályszerűségek és a mintázatok felismerése. Az OLAP eszközök sem magyarázó sem előrejelző modellezési eljárásokat nem tartalmaznak. Az adatbányászati eszközök nem nyújtanak több dimenziós strukturálási lehetőséget. Mégis az a legelőnyösebb, ha az adatbányászati 103 (106)
Dr. Molnár Bálint ©
Üzleti intelligencia, adatbányászat és több dimenziós elemzés
tevékenységet egy OLAP (ld. Hiba! A hivatkozási forrás nem található.) környezetben (több szintű, több dimenziós) végezzük. Az alkalmazhatóság illusztrálására egy olyan szakirodalmi esettanulmányra támaszkodunk, amely egy új reklám kampány tervezéséről szól és a pénztárgépek (POS, point-of-sales) és az ügyfelek népesség statisztikai adataira kíván támaszkodni. Egy OLAP eszközzel az árucikkeket a készletazonosítójuk alapján termék kategóriákba csoportosítják; Az OLAP eszközben magyarázó modelleket készítenek és új változókat alakítanak ki; A pénztárgépekből származó adatokból klaszterezéssel a természetes szegmensek feltárást végzik el; A klasztereket vizualizálják az értelmezhetőség végett; OLAP eszközzel a klaszterek beillesztése a modellbe magasabb aggregációs szintek kialakítása révén. A klaszterezés utáni aggregált adatokon több fajta, irányított adatbányászati módszert alkalmaznak; Az adatbányászati eredményeket újra megjelenítik, vizualizálják; Az adatbányászati, előrejelzési eredményeken az OLAP eszközzel további adat csoportosításokat, aggregálást végeznek Mindezt azért, hogy egy adatokra alapozott ötletroham előkészítésével támogassák a leendő, új reklám kampány kialakítását. Ebben a didaktikus példában az OLAP eszköz, az adatbányászati módszerek és a vizualizáció kombinált használatával kívántak egy üzleti intelligencia célt (BI) elérni: egy új reklám vagy promóciós kampány kialakítását. Több dimenziós elemzés az értékesítésre, ügyfelekre, termékekre, időre és régióra: A kereskedelemben általában szükség van olyan aktuális információkra, amelyek az ügyfél szükségleteire, a termékek értékesítésére, a tendenciákra, a divathullámokra, de ugyanakkor a minőségre, a költségekre, a nyereségre és az árukkal kapcsolatos szolgáltatásokra vonatkozik. Ezért szükség van olyan hatékony és eredményes OLAP eszközökre, amelyek több dimenziós elemzést és megjelenítést, vizualizációt tudnak nyújtani, ebbe beleértve a jól kidolgozott és kialakított adatkockákat, az adatelemzési igényekkel összhangban.
12.8 A vállalkozás vezetése felé nyújtott információk A cég felső vezetése (ld. 2. ) számára az OLAP eszközök és az adatbányászat olyan jelentések és kimutatások elkészítését tudja elősegíteni, amelyek támogatják a döntés előkészítést. Az üzéleti intelligencia alkalmazások erre a területre a következő megoldás alkalmas: A kulcs teljesítmény mérőszámok (KPI) megjelenítésére szolgáló műszerfal: A tipikus vállalkozásokra vonatkozó kulcs teljesítmény mérőszámok: a termék nyereséghez történő hozzájárulása, ügyfél kérésekre a reagálás idő, reklám kampány költségek, ügyfél lojalitás időtartama. Ezeket az adatokat érdemes a felső vezetők felé megjeleníteni a műszerfalon keresztül.
104 (106)
Dr. Molnár Bálint ©
Irodalom
13 Irodalom 1.
Bach M. P. – Cosic, D (2007): Data mining usage in health care management: literature survey and decision tree application. http://www.ljkzedo.com.ba/medglasnik/vol51/M8_10.pdf letöltve: 2011.03.24. 2. Bodon Ferenc (2010): Adatbányászati algoritmusok. http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/adatba nyaszat.pdf letöltve: 2010.10.24. 3. Cognos white paper (2006): The Strategic Importance of OLAP and Multidimensional Analysis, Canada. Letöltve a www.cognos.com címről 2007. január 22-én 4. CRISP-DM (2010): Forrás: http://www.microsegment.hu/cgibin/ms/methodology2.php?lang_id=1 Letöltve: 2010-10-05 5. Dr. Abonyi János (2006): Adatbányászat a hatékonyság eszköze (ComputerBooks 2006) 6. Dr. Drótos György (2001): Az információrendszerek perspektívái. Információrendszerek mint a vezetői döntéstámogatás eszközei. Budapest 7. Dr. Kő Andrea – Lovrics László (2003) : Döntéstámogató rendszerek, BCE, Információrendszerek Tanszék – megtalálható az informatika.bke.hu címen. Letöltve 2006. március 16-án. 8. Dr. Raffai Mária (2006): BI: Business Objects, döntéstámogató rendszer. rs1.szif.hu/~raffai/org/dontesTamogat-3.pdf, 2007. 03. 30. 9. Dr. Sárközy Ferenc: Távérzékelés http://www.agt.bme.hu/tutor_h/terinfor/t34c.htm címen. Letöltve 2005. december 5-én. 10. Efraim, T., Aronson, J. E., Liang, T.-P., & Sharda, R. (2007). Decision Support and Business Intelligence Systems. Upper Saddle River, New Jersey: Pearson Education International. 11. Fajszi Bulcsú- Cser László (2004): Üzleti tudás az adatok mélyén. Budapest Műszaki és Gazdaságtudományi Egyetem, Budapest 12. Hámori Gábor (2001): A CHAID alapú döntési fák jellemzői. Statisztikai szemle, 79. Évfolyam, 2001. 8.szám 13. Han J. – Kamber M (2006): Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers 14. J. Han - S. Chee - J.Y. Chiang (1998): Issues for on-line analytical mining of data warehouses. Workshop on Research Issues on Data Mining and Knowledge Discovery. Letöltve 2006. február 19-én a http://citeseer.ist.psu.edu/17942.html címről. 15. JasperSoft. (2010). How It All Began - Saving The World From The Oppression Of Complex, Heavyweight BI. Letöltés dátuma: 2010. április 21., forrás: JasperSoft Web site: http://jaspersoft.com/company 16. JasperSoft. (2010). SaaS Business Intelligence. Letöltés dátuma: 2010. április 7., forrás: JasperSoft Web site: http://www.jaspersoft.com/saas 105 (106)
Dr. Molnár Bálint ©
Irodalom
17. Jelasity Márk (2011): Genetikus algoritmusok. http://www.inf.uszeged.hu/~jelasity/cikkek/mikonyv.pdf letöltve: 2011.04.30. 18. Kohonen, T. (1998): Self-Organizing Maps Springer Verlag, New York, ISBN: 354-076-266-3 19. Kókai Lászlóné (2005): Üzleti intelligencia az informatikában. Dunaújvárosi Főiskola Kiadói Hivatal, Dunaújváros 20. Kő Andrea (2006): Üzleti intelligencia – Oktatási segédlet. 21. Larose, D.T. (2006): Data Mining Methods and Models. John Wiley & Sons 22. Molnár, B.; Kő, A. & Vas, R. 2003. Az információs társadalom tudástranszfer innovativ módjai. Az Informatikai és Hirközlési Minisztérium. http://www.mtaita.hu/hu/Publikaciok (2011-08-29) 23. Nickles (2004), David W.: “IT-Business Alignment: What We Know that We Still Don’t Know”, Proceedings of the7th Annual Conference of the Southern Association forInformation Systems, 2004. 24. Nilsson, N. J. (2005): Introduction to machine learning. http://ai.stanford.edu/~nilsson/MLBOOK.pdf letöltve 2011.03.18. 25. Pendse, N. (2008) What is OLAP? http://www.biverdict.com/fileadmin/FreeAnalyses/fasmi.htm. Letöltés dátuma 2010.04.01 26. Portik, I. (2008). SAS Enterprise BI Server (prezentáció). Budapesti Corvinus Egyetem. 27. Richardson, J., Schlegel, K., Sallam, R. L., & Hostmann, B. (2009. január 16.). Magic Quadrant for Business Intelligence Platforms. Letöltés dátuma: 2010. április 7., forrás: Gartner Web site: http://www.gartner.com/technology/mediaproducts/reprints/sas/vol5/article8/article8.html 28. Sántáné-Tóth Edit (szerk.) (2008): Döntéstámogató rendszerek. Panem Kiadó. Budapest 29. Sidló Csaba (2004): Összefoglaló az adattárházak témaköréről. http://scs.web.elte.hu/Work/DW/adattarhazak.htm, 2007. 03. 25. 30. Sio-long Ao (2008): Data Mining and Applications in Genomics. Springer, Oxford 31. Swift, Ronald S. (2001): Accelerating Customer Relationships – Using CRM and Relationship Technologies. Prentice Hall PTR. 32. Turban E. – Sharda R. – Aronson J. E. – King D. (2010): Business Intelligence – A Managerial Approach. Prentice Hall. Online Chapter 6. http://wps.prenhall.com/wps/media/objects/4242/4344809/turban_online_ ch06.pdf letöltve: 2011.03.20.
106 (106)