Web-bányászati technikák alkalmazása webhelyek minőségvizsgálatára Bevezető Izsó Lajos A BME EPT konferenciája 2007. június 15. BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
1
Web-bányászat az SPSS Clementine programcsomag WebMining CAT modulja segítségével
BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
2
Előzmények Megállapodás az SPSS Hungary és a • BME APPI Ergonómia és Pszichológia Tanszéke között arról, hogy • az SPSS Hungary a Tanszék Web-bányász Kutatócsoportja számára – kizárólag nonprofit kutatások céljára! - biztosítja a Clementine 10.1 adatbányász programcsomag és az azt kiegészítő WebMining CAT 1.5 modul használatát • a 2006.05.15. – 2007.12.31. időszakra összesen legfeljebb 15 gépre. BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
3
Emlékeztető Az adatbányászat meghatározása: – nagy adatbázisokban rejlő, – korábban nem ismert mintázatok, információk felismerése és kinyerése, – legtöbbször tanuló algoritmusok segítségével. A web-bányászat az adatbányászatnak az üzleti szférában kidolgozott alkalmazása az interneten – vagy adott intraneteken – található adatok elemzésére. További tájékoztató anyagok találhatók a Kutatócsoport webhelyén: http://www.erg.bme.hu/webmining/ BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
4
A web-bányászat területei Web WebMining Mining
Web WebStructure Structure Mining Mining
Web Web Usage UsageMining Mining
Web WebContent Content Mining Mining
The taxonomy of web mining
A felhasználó és az adott webhely interakciójának a jellegzetes mintázatait, szekvenciáit, kapcsolatait és összefüggéseit azonosítja. A továbbiakban ebben az értelemben használjuk a BME APPI Ergonómia és Pszichológia Tanszék web-bányászat fogalmát. www.erg.bme.hu
5
A web-bányászat filozófiája a Clementine-ban A webhelyek (site-ok) forgalmának hagyományos, „lap-középpontú” kvantitatív mérése abban állt, hogy valamilyen „Web stats” programcsomag segítségével olyan standard jelentéseket készíttettek, illetve metrikákat számoltak, mint pl. • 50 Most popular Pages (az első 50 legtöbbet látogatott lap), • Visits Over Time (az egyes lapok kérésének óránkénti, napi vagy heti száma). Bár ezek az egyszerű leszámlálással kapható jellemzők is fontosak lehetnek, a tapasztalat szerint általában nagyon nehéz a hasznosításuk. BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
6
A web-bányászat filozófiája a Clementine-ban A korábbi • „lap-középpontú” megközelítés helyett a Clementine radikálisan új, • „felhasználó-középpontú” elemzési filozófiát dolgozott ki. A kettő közötti különbség, bár igen finom, mégis nagyon jelentős.
BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
7
A web-bányászat filozófiája a Clementine-ban A két megközelítés közötti különbség lényege a következő. Ha egy felhasználó a másnapi időjárásról kíván tájékozódna, akkor nem így gondolkodik: „Felmegyek a kezdőlapra, onnan pedig az időjárás-lapra”, hanem így: „Felmegyek a CNN-re és megnézem a várható időjárást”. BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
8
A web-bányászat filozófiája a Clementine-ban Ha valaki a barátjának egy általa éppen olvasott könyvről beszél, nem arról szól, hogy mi van az egyes lapokon, hanem a történet egészéről, összefüggéseiről. A lap fogalma mindkét esetben pusztán technikai, a felhasználótól valójában idegen. Ha meg akarjuk érteni, hogy a felhasználók számára az adott site hogyan jelenik meg, akkor nem egyes lapokban kell gondolkodnunk, hanem tényleges tevékenységüket kell elemezni. BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
9
A web-bányászat filozófiája a Clementine-ban Az régóta ismert, hogy a weblog (naplófájl) adatok elvben igen gazdag információ-források a felhasználók tevékenységére vonatkozóan. A problémát sohasem az adatok hiánya okozta, hanem az analízis eszközének a megfelelő megválasztása: az egyszerű (pl. leszámlálással kapható) statisztikai jellemzők csupán a felszínt jelentik, a lényeg mélyen el van temetve a nagy mennyiségű és igen technikai természetű adatban.
A lényeget tehát ki kell bányászni Ö web-bányászat BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
10
A web-bányászat filozófiája a Clementine-ban A CAT (Clementine Application Templat) megközelítés lényege: az elemző kezébe adnak egy részletesen kidolgozott példa stream-ekből álló gyűjteményt, amelyek az elemző konkrét igényeihez könnyen adaptálhatóak. Az elemzésnek a logfájl adatoktól független fontos támpontja az, hogy az elemző jól ismeri a site rendeltetését, szerkezetét és saját felhasználói tapasztalatokkal is rendelkezik. BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
11
A web-bányászat filozófiája a Clementine-ban A WebMining CAT jellegzetessége, hogy az annak központi eleméül szolgáló „Web Mining node” a logfájl adatokból egy igen jól elemezhető adatállományt állít elő, amely a további elemzések alapja. A WebMining stream-ek többsége minimális módosítások (pl. fájl-nevek, elérési útvonalak aktualizálása, logfájl formátumok kiválasztása) után saját adatainkkal futtatható. BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
12
A WebMining CAT használata A honlapok üzemeltetőjének a szerverén általában ún. logfájlok formájában automatikusan gyűlnek a forgalomra jellemző következő adatok: • a kérelmet intéző távoli gép neve vagy IP címe • a látogató bejelentkezési neve a távoli gépen és a kiszolgáló szerveren • a kiszolgálás befejezésének dátuma (+időeltolódás) • a kérelem metódusa (pl. GET, POST, HEAD) • az adott lap (resource) URL címe • a kliens által használt HTTP protokoll verziója • a kliensnek visszaküldött státusz kód (pl. „sikeres”) • a letöltött bájtok száma • az ún. „referrer” (annak az oldalnak a címe, ahonnan a kérés jött) • BME az ún. „user agent” (infók a látogató operációs rendszeréről és APPI Ergonómia és Pszichológia Tanszék 13 www.erg.bme.hu a kliens programról)
A WebMining CAT használata Ezek az adatok különböző formátumokban kódolva állnak rendelkezésre. A legelterjedtebb logfájl formátumok: • CLF (Common Log Format) • ECLF (Extended Common Log Format) • Combined Log Format • Combined Log with User Identifier • Combined Log with Session Identifier • NetGenesis Extended Log Format A Web Mining node-ban ezeken kívül még választható az • Autodetect Log Format (W3C and flexible only) amely a W3C és a flexible formátumokat. BME APPIfelismeri Ergonómia és Pszichológia Tanszék www.erg.bme.hu
14
A webhelyek minősége A minőség számos lehetséges definíciója közül talán leginkább lényegre törő: A minőség a vevők (fogyasztók, felhasználók, ügyfelek, stb.) igényei kielégítésének a mértéke. A webhelyek esetén a minőség egyre növekvő fontosságú, az üzleti világban közvetlen gazdasági jelentősége lehet. BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
15
A webhelyek minősége
A „barátságtalan” – azaz gyenge minőségű - webhelyekkel BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu folytatott harc feleslegesen terheli a felhasználót.
16
Az oktatási webhelyek minősége • Az interakció professzionális vizsgálata lehetővé teszi a tananyag tényleges használati módjainak az azonosítását, amiből megalapozottan következtetni lehet a tananyag hatékonyságára, illetve a hatékonyság konkrét akadályaira. • A web-bányászati technikák ezért a tananyag fejlesztésének a folyamatában – mintegy az ipari gyártásközi minőségellenőrzés analógiájára - az egzakt közbenső „mérések” lehetőségét nyújtják: a fejlesztés minden „mintavételezés” után attól függő irányokat vehet, hogy a tanulók a megelőző lépésben hogyan fogadták a tananyag számukra rendelkezésre bocsátott verzióját. BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
17
Az oktatási webhelyek minősége • A menet közben azonosított szakmai, didaktikai, használhatósági, szoftver-ergonómiai (leggyakrabban a navigációval vagy az információmegjelenítéssel kapcsolatos) stb. problémákra ilyen módon gyors áttervezési, javítási javaslat adható és az így kialakított verzió egy újabb ciklusban tesztelhető. • Ez a megközelítés annyiban radikálisan más a korábbiakhoz képest, hogy itt a tanulók és a tananyag vonatkozásában nem egyfajta mintavételezésről van szó, hanem valamennyi tanuló valamennyi interakcióját elemezhetjük a teljes tananyagban a billentyűleütések és egérkattintások szintjének megfelelő finomságú felbont ásban . BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
18
Az oktatási webhelyek minősége • A sikeres web-bányászati elemzés feltétele, hogy a különböző modellekkel nyert eredményeket az elemző képes legyen a tanulói/felhasználói szintű élményekkel, illetve tapasztalatokkal összekapcsolni. • Ez azt jelenti, hogy csak az lehet valóban sikeres, aki mind a web-bányászati elveket és eszközöket, mind az elemzett konkrét tananyagot, mind pedig a tananyagot használó tanulókat eléggé mélyen ismeri. BME APPI Ergonómia és Pszichológia Tanszék www.erg.bme.hu
19
Az oktatási webhelyek minősége • Végül, az előnyök felsorolása után szólni kell ennek a megközelítésnek két jelenleg fennálló akadályáról. • Az egyik az adatbányász, illetve webbányász programcsomagok igen magas ára. • A másik pedig az a tény, hogy a technikai elsajátítása komoly szellemi erőfeszítéseket igényel. • Hosszabb távon azonban mindkét akadály vonatkozásában optimisták vagyunk. BME APPI Ergonómia és Pszichológia Tanszék 20 www.erg.bme.hu