Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Klaszterelemzés az SPSS-ben
Petrovics Petra Doktorandusz
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis • Olyan dimenziócsökkentő eljárás, amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. • Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Gyakorlati alkalmazási területei • Piacszegmentálás 1. 2. 3. 4.
Releváns piac meghatározása Szegmentáció alapjául szolgáló ismérvek meghatározása Szegmentálás (Faktor-, klaszteranalízis) 1 csoportba került fogyasztók jellemzése
• Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség)
• Új termék lehetőségeinek feltárása • Tesztpiacok kiválasztása • Adatcsökkentés
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis folyamata
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Feladat TK/286. oldal (Sajtos-Mitev) • Levesport gyártó vállalat kérdezték meg • • • • •
fogyasztóit
Név: String Főzős: 1-7-ig terjedő skálán mennyit főz Házias: 1-7-ig terjedő skálán mennyire házias Nem: 1: férfi, 2: nő Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Név
Főzős
Házias
Nem
Lakhely
Kereset
Béla Jenő Bea Marci Ubul Zsuzsa Rita Zoli Dávid Robi Kriszti Zsófi Géza Éva Dóra Vera
1 2 5 2 4 2 2 3 2 6 3 6 7 6 5 1
3 3 5 4 4 7 6 4 2 5 3 6 1 7 7 6
1 1 2 1 1 2 2 1 1 1 2 2 1 2 2 2
3 1 2 3 1 1 2 3 1 3 3 2 2 1 1 2
3000 1500 2000 1000 7000 8000 7000 1500 5000 1000 2000 4000 8000 1000 3000 6000
Nem: 1-férfi, 2-nő Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
SPSS
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
1.
• A probléma megfogalmazása
• A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni.
• Vizsgálandó elemek kiválasztása: Sokaság nagysága: Pl. Magyarország levespor-fogyasztói Mintanagyság meghatározása Mintavétel módjának meghatározása Most itt: n=16 fő (nem reprezentatív)
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
2.
• A klaszteranalízis feltételeinek vizsgálata I.
• Reprezentatív-e a minta? Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan
• Kiugró adatok (outliers) – Olyan abnormális megfigyelések, amelyek nem jellemzők a sokaságra; – Alulprezentálják az alapsokaságban levő csoport nagyságát.
Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
• A klaszteranalízis feltételeinek vizsgálata II.
2.
• Skálák – –
Hasonló skálázási adatok az összehasonlíthatók Célszerű: azonos mértékegység (ok: nagyobb szórás nagyobb hatást mutat) Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk; A jövedelmet hasonlítanánk össze a főzéssel, stb. Ha eltér: standardizálni! Ha: - a válaszok egymáshoz képesti relatív fontossága a lényeges, - hasonló profilokat keresünk, - nem érdekel a „válaszadó stílusa hatás”. zi =
xi − x sx
Átlaga 0, szórása 1
Összehasonlítható adatok
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Analyze / Classify / Hierarchical Cluster / Method…
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
2.
• A klaszteranalízis feltételeinek vizsgálata III.
• Erősen korrelálnak az elemzésbe bevont Multikollinearitás változók egymással? Analyze / Regression/ Linear …
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
• Hasonlósági és távolságmérték meghatározása
3.
Bináris változók esetén Távolságmérték Euklidészi távolság
Metrikus változók esetén
Hasonlóságmérték Távolságmérték Russel and Rao Euklidészi távolság
Négyzetes Egyszerű illesztés euklidészi távolság
Négyzetes euklidészi távolság
Variancia
Jaccard
City block
Yule
Csebisev
Analyze / Classify / Hierarchical Cluster / Method
Hasonlóságmérték Pearson korreláció
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
• Klasztermódszer kiválasztása
4.
Hierarchikus Agglomeratív (Összevonó) Lánc módszer A legközelebbi 2 elem távolsága
Egyszerű Teljes
Nem hierarchikus Divízív (Felosztó)
Variancia módszer Ward-féle eljárás
Centroid módszer
Forgy: kezdőpont magpont
Pl: Belson: kettéosztás A centroidok (kp.) közötti távolság
A klasztereken belüli szórásnégyzet növekedése a legkisebb
A legtávolabbi 2 elem távolsága
Átlagos Az elemek közötti távolság átlaga Forrás: Malhotra [2001]
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Hierarchikus módszer
Nem hierarchikus módszer
Előnyös a használata, ha: • nem tudjuk előre, hány • a mintavételi egységek száma magas klasztert szeretnénk létrehozni • kevésbé függ kiugró értékektől • kevésbé függ távolságmértékektől • kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó
Hátránya • Érzékeny a kiugró értékekre
• A klaszterek számát előre kell meghatározni • Klaszterközéppont kiválasztása • Függ a megfigyelések sorrendjétől
Kombinált használat: 1. 2. 3.
Hierarchikus: klaszterek ideális száma Kiugró elemek kiszűrése Nem hierarchikus csoportosítás
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Analyze / Classify / Hierarchical Cluster
Az összevonás lépései
A szerintünk releváns változók Ne használd, lefagy a gép!
Megfigyelési egységeket / változókat szeretnénk összevonni
Távolságmátrix Ha az egyes egységeket el szeretnénk nevezni Jégcsapdiagram meghatározott klasztertartományra
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Outlierek kiszűrése miatt! Távolságmérték
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Output Rita
Vera
Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám)
Az összevonás lépései
Milyen távolságok alapján vonták össze a klasztert
Az összevonásra került klaszter melyik lépésben jelenik meg először
Túl nagy ugrás
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Vertical Icecle – Jégcsap diagram
Nagy elemszám esetében nehezen kezelhető.
3
Géza ~ kiugró érték Alulról kezdjük értelmezni: Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Dendogram Legkisebb távolság alapján von össze
Kiugró értékek kezelése
Géza ~ kiugró érték
Abnormális? Ki kell zárni?
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Kiugró elemek törlése Data / Select Cases / If condition is satisfied… Ez marad benn.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Analyze / Classify / Hierarchical Cluster / Method: Ward
• Metrikus változók • Nincs kiugró érték • Nincs korreláció a változók között
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
• Klaszterek számának meghatározása
5.
a. b. c. d.
Kutatói tapasztalat Távolságok Könyökkritérium Klaszterek relatív mértéke
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
b) Távolság ( Dendogram) Ahol a koefficiens értéke hirtelen megnő De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát
⇒ 2 v. 3 klaszter
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
c) Könyökkritérium
Ábraszerkesztés Line
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
⇒ 12. lépés után n - stagetöréspont 3 klaszter
(n-1) elem
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Analyze / Classify / Hierarchical Cluster / Save… Konkrét klaszterszám
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Graphs / Scatter/Dot…
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
6.
• Klaszterek értelmezése, jellemzése
• Klasztercentroidok és szórások Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek ⇒ vegyes kapcsolat Analyze / Compare Means / Means
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
• Demográfiai vizsgálat (nem, lakhely) Minőségi-minőségi ismérv ⇒ asszociáció Analyze / Descriptive Statistics / Crosstabs
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
• Mennyiségi (kereset) +minőségi (cluster) ismérvek ⇒ vegyes kapcsolat (ANOVA) Analyze / Compare Means / Means
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
• Klaszterek jellemzése, elnevezése
6.
Klasztereljá- Sokat főz rásba bevont Házias változók Csak a jellemzésbe bevont változók
Elnevezés
Nem Lakhely Kereset
1. klaszter
2. klaszter
3. klaszter
Nem
Igen
Nem
Nem
Igen
Igen
Túlnyomórészt Túlnyomórészt férfiak nők ?
Nagy város
Alacsony (3000€) Nemtörődömök
Alacsony (2200€)
Nők Megyeszékhely
Magas (7667€) Rohanó Házi tündérek üzletasszonyok
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Graphs / Pie…
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
7.
• • • • • •
• Klaszterelemzés érvényességének ellenőrzése
Más távolságmérték Más klasztereljárások Változók elhagyása A minta 2 részre bontása Az esetek sorrendjének megváltoztatása Nem hierarchikus klaszterelemzés… Folyt. köv. órán
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Köszönöm a figyelmet!