Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket viszonylag homogén csoportokba rendezze, az elemzésbe bevont változók alapján. A folyamat akkor sikeres, ha az egységek hasonlítanak csoporttársaikhoz, azonban eltérnek a más csoportba tartozó elemektől.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Alkalmazási területei • • • •
Piacszegmentálás Szerkezet-elemzés Homogén tesztcsoportok létrehozása Adatcsökkentés
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
A klaszterelemzés korlátai • Nem vonhatók le következtetések a mintából az alapsokaságra, vagyis elsősorban feltáró technikaként használható. • Nincs egyetlen legjobb megoldás. • Minden esetben létrehoz klaszterek, függetlenül attól, hogy azok ténylegesen léteznek-e az adatokban, vagy sem. • A megoldások teljes mértékben a változóktól függnek. • A kialakult csoportok nem függetlenek az egyedek adatbázisbeli sorrendjétől.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
A klaszterelemzés menete 1. kutatási probléma áttekintése • Mi a hipotézisünk. • Mekkora legyen a vizsgálandó elemek nagysága. • Milyen releváns változók alapján csoportosíthatunk. A klaszterelemzésnél alapvető feladat azoknak a változóknak a megtalálása, amelyek a csoportok közötti különbséget okozzák. Ez történhet korábbi kutatások, elméleti megfontolások, intuíció alapján
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
A klaszterelemzés menete 2. A feltételek vizsgálata • Kiugró értékek (outliers) feltárása és kezelése. • A változók skálázásának vizsgálata. Szükség van-e skálatranszformációra, standardizálásra? • A változók korrelációjának elemzése. • A minta reprezentativitásának ellenőrzése.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
A klaszterelemzés menete 3. Hasonlósági- és távolságmértékek Milyen hasonlósági- vagy távolságmértéket válasszunk? • Bináris változó esetében mindkét típus fajtáiból választhatunk. • Metrikus változó esetében: távolságmértékek (ha a távolság a lényeges); hasonlóságmértékek (ha a profilok hasonlósága a lényeges).
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
A klaszterelemzés menete 4. Klasztermódszer kiválasztása • Hierarchikus eljárás. • Nem hierarchikus eljárás. • A kettő kombinációja.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
A klaszterelemzés menete 5. A klaszterek száma • Milyen szempontok alapján történik az elemzés? • Hány csoportot képezzünk? • A csoportok számának változtatása hogyan hat az eredményekre?
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
A klaszterelemzés menete 6. A klaszterek értelmezése, jellemzése • Miben különböznek egymástól a klaszterek? • Értelmesen interpretálhatók-e az eredmények? • Szükség van-e új változók bevonására? • Hogyan nevezzük el a klasztereket?
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
A klaszterelemzés menete 7. Az elemzés érvényességének elemzése • Különböző eljárásokat, vagy távolságmértékeket alkalmazunk és összehasonlítjuk az eredményeket. • Az adatokat véletlenszerűen két részre osztjuk. A két almintán külön-külön elvégzett elemzések eredményeit összehasonlítjuk. • Az elemzés többszöri lefuttatása az adatok sorrendjének megváltoztatásával.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
2. A feltételek vizsgálata Kiugró értékek (outliers) feltárása és kezelése. A klaszteranalízis rendkívül érzékeny az olyan egyedekre, melyek jelentősen különböznek a többitől. Ezek az elemek vagy ténylegesen „abnormális” megfigyelések, melyek nem jellemzők az alapsokaságra, vagy a mintában szereplő egyedek alulreprezentálják az alapsokaságban lévő csoport nagyságát. Az első esetben tehát érdemes azokat kitörölni az adatbázisból.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
2. A feltételek vizsgálata Kiugró értékek (outliers) feltárása és kezelése. Feltárásuk történhet • egyszerű grafikus ábrázolással: pontdiagram, boxplot ábra • egyszerű láncmódszer segítségével (lásd később)
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
2. A feltételek vizsgálata A változók skálázásának vizsgálata. Ha a klaszteranalízis során különböző szintű metrikus skálákat használunk, teljesen torz összevonási sémát kaphatunk eredményül. Pl: életkor, jövedelem, megelégedettség változócsoport esetében. A különbözős skálák azonos szintre hozásához a standardizálást használjuk, mely során az átlagot kivonjuk az egyes értékekből és a különbséget elosztjuk a szórással.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
2. A feltételek vizsgálata A változók skálázásának vizsgálata. A standardizált skála átlaga 0. a szórása pedig 1 lesz, lehetővé téve ezáltal a különböző szintű skálán mért változók összehasonlítását.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
2. A feltételek vizsgálata A változók korrelációjának elemzése. A klaszterelemzés minden változót azonos súllyal kezel. Ha tehát két változó, vagy egy változócsoport tagjai egymással szoros korrelációs kapcsolatban vannak, akkor nagyobb szerepet kaphatnak az eredményekben. Ilyen esetben célszerű a változók valamilyen módon történő redukálása.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
3. Hasonlósági- és távolságmértékek Bináris változók esetén Távolságmértékek: • euklidészi távolság • négyzetes euklidészi távolság • variancia .
Hasonlóságmértékek: • Russel and Rao • Egyszerű illesztés • Jaccard • Yule
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
3. Hasonlósági- és távolságmértékek Metrikus változók esetén Távolságmértékek: • euklidészi távolság • négyzetes euklidészi távolság • City block • Csebisev .
Hasonlóságmértékek: • Pearson korreláció
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
4. Klasztermódszerek
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
4. Klasztermódszerek Hierarchikus összevonó eljárások • Egyszerű láncmódszer (Single linkage): Azokat a megfigyelési egységeket vonja össze első lépésben, amelyek között legkisebb a távolság (legjobban hasonlítanak egymáshoz). Két klaszter közötti távolságot mindig a két legközelebbi pont távolsága határozza meg.
• Teljes láncmódszer (Complete linkage):
két klaszter
közötti távolságot a két legtávolabbi pont határozza meg.
• Átlagos láncmódszer: két klaszter távolságát az összes megfigyelési egység páronkénti távolságának átlaga definiálja. (általában előnyösebb mint az előzőek)
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
4. Klasztermódszerek
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
4. Klasztermódszerek Hierarchikus összevonó eljárások • Ward-féle eljárás: Minden klaszterre kiszámolják az összes változó átlagát, majd minden megfigyelési egységre meghatározzák a négyzetes euklidészi távolságot. Minden lépésnél azt a két klasztert vonják össze, amelyeknél a klaszteren belüli szórásnégyzet növekedése a legkisebb.
• Centroidmódszer: Két klaszter közötti távolság a centroidjuk (összes változó átlaga) közötti távolság. A centroidokat minden lépés után újra számolják.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
4. Klasztermódszerek
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
4. Klasztermódszerek Nem hierarchikus eljárások Nagyobb esetszámnál (kb. 2000) a hierarchikus klaszterezés már körülményesebb, ezért célszerű a K-közép módszert választani. A két módszer közötti alapvető különbség: • Előre meg kell határozni a létrehozandó klaszterek számát. • Induláskor ismertnek tételezzük fel a klaszterközepeket, melyeket mi is megadhatunk, de érdemes a programra bízni ezek kijelölését.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Outputok
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Outputok
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Dendogram
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Eredmények ábrázolása Ward Method
2,00000
1
HAJDU ZF
2 3
F
4
BC
Műszaki kutatási
1,00000
TVK
EFOAM
KIP
P
0,00000 MVK MIHŐ
-1,00000
S
RAK
MIK
MÁV
-1,00000
BAZ
SEMM TMF
0,00000
ImKKK
1,00000
2,00000
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Eredmények ábrázolása Ward Method 1
HAJDU TVK
2
RAK
3
BC
1,00000
AVE MIK
MÁV
KIP
13 képessg
TMF
MVK
MIHŐ
ZF
0,00000
-1,00000
BAZ
EFOAM F SEMM P S
-2,00000
-2,00000
-1,00000
0,00000
13 helyzet
1,00000
2,00000
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Ajánlott irodalom: Naresh K. Malhotra: Marketingkutatás Budapest, 2005. Székelyi Mária-Barna Ildikó: Túlélőkészlet az SPSS-hez, Budapest, 2005. Elérhetőség:
[email protected]
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Köszönöm a figyelmet!