PROJEKTVEZETŐI DÖNTÉSEK TÁMOGATÁSA WEBBÁNYÁSZATTAL Bóta László, e-mail:
[email protected] Eszterházy Károly Főiskola
Adatbányászat, a webbányászat alapja A jól működő projektek döntés-előkészítési és ellenőrzési szemszögből hasonlatosak egy profitorientált ipari vállalat hosszabb vagy rövidebb tevékenységi ciklusának működéséhez. A vezetők részéről széles körű tájékozottság, megalapozott tudás szükségeltetik a célok megvalósításához, a projekt résztvevői pedig akkor képesek a teljes projektet a lehető legmagasabb elvárások szerint teljesíteni, ha az elvégzett megoldások helyességét igazoló, minőségbiztosítási alappal rendelkező tények alapján van lehetőségük dolgozni. Tekintsük át, hogy a vállalatoknál ez hogyan valósul meg, ha mindez erős informatikai háttérkörnyezetre épül. A vezetők döntéstámogatási rendszerét a projektvezetés szemszögéből vizsgáljuk, azaz aláhúzzuk az átemelhető elemeket, valamint kitérünk azok alkalmazásának nehézségeire.
1. ábra: Az üzleti intelligencia szerepe a vállalati információellátásban [3] A vállalati stratégiai döntések a felső vezetőkre, esetenként a középvezetők felső szintjére hárulnak, ezen döntések hatása befolyásolja és meghatározza a cég jövőjét, gazdasági pozícióját, eredményeit, ezekhez a tevékenységekhez másfajta támogató rendszerek szükségesek, amit összefoglaló néven üzleti intelligencia rendszereknek neveznek.
„Az üzleti intelligencia (BI - business intelligence) olyan technológiák és alkalmazások összessége, amelyek adatok gyűjtésével, hozzáférhetőségével és elemzésével foglalkoznak egy vállalatban, hogy vezetői jobb üzleti döntéseket hozhassanak.” - hangzott el egy tanulmányban [3]. Az üzleti intelligenciához tartoznak többek között a vállalati információs rendszerek, döntéstámogató rendszerek, vezetői információs rendszerek, adatbányászat, adatmegjelenítés, geográfiai információs rendszerek stb. Az 1. ábrán az információellátás ciklusának 2-es, 3-as szakasza kapcsolódik az üzleti intelligenciához. Az adatbányászat (data mining) jelentősége az 1990-es években nőtt meg. Az adatbányászat egy folyamat, amelynek során intelligens műveleteket, műveletsort hajtunk végre az adatminták kiemelése érdekében, vagyis az érdeklődésre számot tartó tudás nagy mennyiségű adatból történő feltárása. Az intelligens műveletek különféle statisztikai alapú elemző technikákat jelentenek, pl. neurális hálózat, faktoranalízis stb. Az adatbányászat a statisztika elemeit használja ugyan, de messze túlmutat azon, egy igen mélyreható matematikai és informatikai alapot igényel. [2] A folyamat bemeneti adatai tárolhatók adatbázisokban, adattárházakban vagy más információtárakban. A folyamat végén egy új tudáshoz juthatunk, ami az eddigi adatbázistechnológián alapuló eszközökkel felfedezhetetlen. [4]
2. ábra: Tipikus adatbányászati-rendszer architektúrája [1] Az adatbányászat minden olyan területen használható, ahol a tevékenység során nagy mennyiségű adat keletkezik (pl. üzleti, államigazgatási, egészségügyi, oktatási stb.). Az adatbányászathoz elengedhetetlen a hatalmas adathalmaz, akár a vállalat életciklusa során tárolt összes adata, hiszen csak akkor bukkanhatunk értékes összefüggésekre. Az ilyen adatok, – emberi léptékkel felfoghatatlan – halmazának adatbányászat nélküli feldolgozása a vezetők számára információban szegény, költséges, időigényes, előítéletekre épített, félrevezethető tudást eredményezhet. Az adatbányászat, mint multidiszciplináris tudomány az alábbi területekre támaszkodik: - adatbázis-technológia, információ-visszakeresés, - mesterséges intelligencia, neurális hálók, - számítógépes tanulás,
-
statisztika, alakfelismerés, tudás alapú rendszerek, tudásmegerősítés, nagy teljesítményű számítások, vizuális adatmegjelenítés.
Az adatbányászati feladatok két osztályba sorolhatók: - leíró - az adatok általános jellemzőit tárja fel, - előrejelző – meglévő adatokból következtet, prognosztizál. Az adatbázisokban végzett tudásfeltárást (KDD - Knowledge Discovery in Databases) az adatbányászat szinonimájaként vagy annak részeként használják. Jelen munkában a KDD szinonimája az adatbányászat. A KDD iteratív folyamatának lépései: -
adattisztítás – zajos, inkonzisztens adatok eltávolítása adatintegrálás – több adatforrás összekapcsolása adatkiválasztás – adatok kiolvasása az adatbázisból az elemzéshez adat-transzformáció – az adatok bányászható formájának előállítása adatbányászat – az adatminták kiemelése érdekében végzett eljárás minta kiértékelése – tudást reprezentáló, valóban érdekes minták meghatározása tudásmegjelenítés - a kinyert tudást tudáskifejező technikákkal tárja a felhasználó elé
Az előállított, érdekes adatminta, vagyis az eredmény tudást reprezentál, de az adatminta kizárólag akkor lesz érdekes, ha egyszerűen érthető, bizonyos megbízhatósággal érvényes új vagy kísérleti adatokon, potenciálisan hasznos, újszerű. Egy adatminta akkor is érdekes, ha olyan hipotézist igazol, amelyet a felhasználó bizonyítani szeretne. Szükséges megemlíteni a nehézségeket is. Az első probléma, hogy az adatbányász, és az azokat kiegészítő webbányász programcsomagok az üzleti szférához szabott, kiemelten magas áron érhetők el. Jelenleg két piacvezető adatbányász programcsomag létezik: a Clementine az SPSS-től és a SAS Enterprise Miner alkalmazása. A másik probléma a használathoz kötődik, ugyanis a rendszer működtetésének elsajátítása jelentékeny szellemi erőfeszítést igényel, tehát jelenleg még nem lehet önálló vezetői döntéseket támogató informatikai eszköz. További gond, hogy egy adatbányászban jártas szakértő alkalmazása csak hosszabb távon hozza meg a kívánt eredményt, hiszen kiválóan kell ismerni az elemzett vállalat vizsgált folyamatait, belső működési- és kommunikációs-rendszerét. A leírtakból kitűnik, hogy jelenleg egy projekt köré egy üzleti intelligencia rendszer kiépítése szükségtelen, mind az informatikai, mind a humán beruházás mértékét figyelembe véve. Ezen túlmenően az adatbányászat teljes szegmensének alkalmazása is elképzelhetetlen, sok esetben a nélkülözhetetlen adathalmaz sem állna rendelkezésre. Az adatbányászat egyes szegmenseivel ugyanakkor lehetséges a nagyobb projektek vezetői döntéseit támogatni, ha a szükséges szoftverek elérhetőek. Az általunk megvalósítandó, a digitális könyvtári szolgáltatások elérést célzó projekt alapja és kommunikációs eszköze a World Wide Web, a hozzá kapcsolódó osztott információs szolgáltatásokkal, emiatt tartjuk a webbányászatot a projektnél jól alkalmazható, döntéseket támogató eszköznek. A webbányászat (web mining) az adatbányászat egyik részterülete, amihez a leíró osztályba tartozó adatbányászati feladatok tartoznak.
A webbányászat Az online felületet alkalmazó projekt vezetője számára a látogatók szokásainak minél alaposabb megismerése állandó kihívás. Az online kommunikációs csatornákat használó látogatók magatartását a hagyományos eszközökkel nem, vagy nagyon nehezen lehet megismerni. Azonban ez a felhasználói réteg nagyon sok nyomot hagy maga után, a kiszolgáló számítógépeken rögzített adatok kincset érnek, melyek webbányászati eszközökkel a „felszínre hozhatók”. A látogatók igényeit kielégítő, individualizált szolgáltatás csak abban az esetben valósítható meg, ha az online szokásaikat, magatartásukat elemezzük a weboldalakon található linkeken át bejárt útvonalak alapján. A vizsgálatokat néhány említésre méltó tény nehezíti: -
a web túlságosan bőséges tárolt adathalmaza, a weboldal strukturálatlansága, bonyolultsága, a weboldal dinamikusan változásai, a felhasználók azonosítási anomáliái stb.
A webbányászat feladatköre a vizsgálat tárgya szerint három területet fog át: - webtartalom-bányászat (web content mining), - webstruktúra-bányászat (web structure mining) és - webhasználat-bányászat (web usage mining). A webhasználat-bányászat használatával a látogatók szokásainak, magatartásmintáinak tanulmányozása válik lehetővé. A webhasználat-bányászat nevezhető webnapló bányászatnak is, hiszen a webkiszolgálók által rögzített webnapló-bejegyzéseken alapul. A webnaplóbejegyzések (weblog fájl) vizsgálata során a weblapok hozzáférési mintáit lehet feltárni, így a látogatók számára az interneten keresztül nyújtott szolgáltatások minősége javítható, akár a webet kiszolgáló számítógépek (webszerverek) teljesítménye is növelhető. Egy adott webnapló-bejegyzés mezői eltérőek lehetnek, de mindegyik webszerver tárolja a következőket: -
a kérés kiindulási helyének IP címét, a kérés pontos idejét, a kért URL címet, és ezen kívül még néhány adatot.
A webnapló-bejegyzéseknél gyakorta a túlságosan is sok adat jelenti a nehézséget. A rögzített adatokból, - amelyek leginkább technikai jellegűek - kell megtalálni a relevánsakat. A felhasználók hozzáférési mintáinak ilyen osztott információs környezetben történő kigyűjtését nevezik hozzáférési útvonalminta bányászatnak is. A két piacvezető adatbányász programcsomag rendelkezik webbányász kiegészítéssel is. A kutatásoknál használt SPSS Clementine esetén ezt nevezik WebMining CAT modulnak. Projektvezetői döntések Az Eklektika tudásportál, vagyis a könyvtári portál létrehozása jelenleg a tervezés szakaszában tart, éppen ezért érdemes megvizsgálni azokat a szempontokat is, amelyek a későbbi vizsgálatokat támogatják. Az elemzések két fő célját lehet kiemelni: az ergonómiai szempontoknak egyre jobban megfelelő site kilakítására tett vizsgálatokat, valamint az individualizált tartalomszolgáltatás tökéletesítését. Mindkét célhoz a látogatók magatartásának állandó vizsgálata, szokásaik feltérképezése szükséges. Kezdetben a honlapok készítését technikusokra és informatikusokra bízták, később belátták, hogy a honlapot látogatottságát jelentősen befolyásolja annak kinézete, ma már az oldalnak elsősorban nem esztétikusnak kell lennie, hanem a tartalmakat egyszerű formában - a
perszonalizáció lehető legmagasabb fokán – kell kínálni a felhasználó számára. Ez nem minden esetben a design függvénye. A rendszertervezés tökéletesítése során elérhető egy tájékoztatásra épülő website-nál az erősen korreláló objektumokhoz történő hatékonyabb hozzáférés, de a honlapot látogatók individualizált kiszolgálása is tökéletesedhet. Az individualizált kiszolgálás itt elsősorban nem azt jelenti, hogy mindenki számára személyre szabottan jelennek meg a weboldalak, hanem a látogatók klaszterezése révén meghatározott jelentékeny létszámú látogatócsoportra alakítjuk ki a megfelelő megjelenést, természetesen a látogató ebből csak azt érzékeli, hogy otthonosabb számára az a honlap. A webbányászati technikákkal a webhely egyfajta minőségellenőrző funkcióját is ellátjuk, és a korrekció az online felületen azonnal megtörténhet. A webbányászatnál nem csupán egy-egy reprezentáns minta vizsgálatáról van szó, hanem a teljes látogatói bázis összes interakciójának vizsgálatáról, mely az egérkattintás adatainak mélységéig terjed. A webbányászati elemzés a célpopulációra nézve mindig teljes körű. A vizsgálatok jelentős eredménye az oldal ergonómiai, legtöbbször navigációs hibáinak kiszűrése. Az online látogatók gyakorta névtelenül jelennek meg egy honlapon, és a weben az ismeretlen felhasználók azonosítása a visszatéréskor igen körülményes, pl. az eltérő IP-cím miatt. A nyilvántartott, felhasználói névvel és jelszóval belépő felhasználók nagy mértékben javíthatják az elemzések hatékonyságát, ami a projektnél is segíthet. A webbányászati tevékenység csak akkor lehet sikeres, ha a vizsgálatot végző személy a vizsgálat tárgyaként szolgáló website-ot és szolgáltatatásait alaposan ismeri, átlátja, és a vizsgálat után, a különféle modellek adta eredményeket képes felhasználni. A projektnél ez biztosított, hiszen a főiskola dolgozó végzi majd a vizsgálatokat. A túlságosan kevés adat a magatartásminták kiemelését lehetetlenné teszi, de a főiskola esetén a hallgatók létszáma jó alapot biztosít. A túlságosan sok tárolt adat ugyanakkor felvet tárolás szervezési problémákat, melyek a weboldal dinamikusan változásai miatt pótolhatatlanok. Más részről a webnapló-bejegyzések adatait nem lehet azonnal felhasználni, a tudás érvényességének és megbízhatóságának érdekében többnyire szükséges az adatbányászatnál meglévő előfeldolgozás (tisztítás, tömörítés, transzformálás), melyhez a Clementine WebMining CAT modulja jelentékeny segítséget ad. Az előfeldolgozást követi az elemzés, melynek eredményeként a felhasználók böngészési szokásai tárulnak fel, majd az adatok prezentálása. Ez a folyamat iteratív, azaz elképzelhető, hogy csak többszöri finomítás és elemző eszköz váltása után érjük el célunkat. A kutatás alapja A BME Alkalmazott Pedagógia és Pszichológia Intézete (APPI) egy Human Computer Interaction (HCI) kutatócsoportot hozott létre. A HCI kutatócsoport fő célja a webbányász technikák közül a webhasználat-bányászat elméleti, majd - a Clementine program révén gyakorlati elsajátítása. A HCI kutatócsoport a költséges, de nélkülözhetetlen adatbányász szoftvert térítésmentesen használhatja az SPSS Hungary engedélyével, kizárólag non-profit célra. Az adatbányászati Clementine szoftver mellett a WebMining CAT modult is biztosították, ami a webbányászati tevékenységek gyakorlati megvalósítását teszi lehetővé. A felhasználó középpontú Clementine adatbányász program a WebMining CAT modullal alkalmas a web alapú kommunikációra épülő projektek támogatására. Használatához az adott szakterület, a weboldal, és adatbányász szoftver mély ismerethalmaza szükséges. Az SPSS Clementine adatbányász programcsomag sajátossága, hogy a lap-központú szemléletet megszüntette, és a program felhasználó központú filozófiára épül, azaz a látogatókra koncentrál. A WebMining CAT modul a Clementine programnak nem része.
Az adatbányász informatikai eszköz csomagot az üzleti szféra igényeinek a kielégítésére fejlesztették ki, a professzionális vizsgálat középpontjában az interakció áll. Ezzel érhető el a webhasználat módjának feltérképezése, mely jó alapot szolgáltat a hatékonyság eléréséhez, azaz a felhasználók jobb kiszolgálásához, mindezt az előre elkészített elemzési lehetőségek, az ún. streamek teszik lehetővé a rögzített adatok közötti rejtett összefüggések feltárását, többek között a látogatások és a látogatók szegmentációját, az online hirdetési tevékenység vizsgálatát, valamint a látogatók viselkedését és aktivitását (3. ábra). Egy stream paramétereinek megváltoztatásával egy konkrét elemzéshez igen rövid idő alatt adaptálható a saját weblog állomány.
3. ábra: Egy stream garfikus megjelenítése az SPSS Clementine programban Összegzés Az Eklektika tudásportál projekt támogatható webbányászati eszközökkel, de ehhez szükségeltetik az oktatás számára átadott üzleti szoftver is. A technológiák nemcsak a tudásportál létrejöttét, hanem annak üzemeltetését is képesek az elemezések révén támogatni. A tudásportál így kiszolgálhatja a legkülönbözőbb online látogatók valós vagy látens, de mindenképpen növekvő igényét a pontos, lényegi és érthető információkra. Az adatbányászat, és azon belül a webbányászat még kevesek kiváltsága napjainkban, de várhatóan a web2.0-val jelzett korszak előrehaladott szakaszában akár ilyen alkalmazásokkal a projektvezetők is képesek lesznek adataikat elemezni. Ehhez a program felhasználóbarát használatán és árán egyaránt javítani szükséges. A web 2.0-ás technikák révén a jövőben egyre több korlátozott feladatkörű, de ingyenes program megjelenése várható.
[1] Jiawei Han-Micheline Kamber: Adatbányászat. Koncepciók és technikák. Budapest, 2004, Panem. [2] Bodon Ferenc: Adatbányászati algoritmusok. 2006. november 26. [elektronikus dokumentum] URL: http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/index.html [3] Krauth Péter: Üzleti intelligencia. Információs Társadalom Technikai Távlatai (IT3) projekt. (2007) [elektronikus dokumentum] URL cím: www.nhit.hu (letöltve: 2006. június 10.) [4] Mikulás Gábor (szerk.): Információból üzleti érték. Az információbróker környezete és munkája. Budapest, 2006, Magyar Információbrókerek Egyesülete.