Csoport(Cluster) analízis SPSS-el: K-alapú csoport Analízis A Cluster(csoport) analízis egy adat osztályozási eljárás amivel adatokat csoportokba lehet elkülöníteni. A cluster analízis célja hogy n számú elemet kategorizáljon k számú csoportba (k>1) ,mely csoportokat Clustereknek nevezzük, p (p>0) változók használatával. Ahogyan a többi statisztikai típusnak is, a cluster analízisnek is számos változata van, mindegyik egy-egy külön műveletsor. Két fő alosztálya van a cluster eljárásnak. Az egyik féle eljárásban a csoportok előre meghatározottak. Ez a „K alapú csoportosítási eljárás” néven ismert. Amikor a csoportok száma nem előre meghatározott, olyankor a Hierarchical Cluster(Rangsor szerinti csoportosítás) analízist alkalmazzuk. A csoportosítási eljárások nagy választéka a sokféle szerkesztési folyamat eredménye, melyeket két külön tárgy között hajtunk végre. A leggyakrabban használt szerkesztési eljárások : Euklidészi szerkesztés, Manhattan szerkesztés, Chebysev szerkesztés, stb. Ezeknél különböző szabályokat alkalmazunk a csoportok létrehozására. Néhányuk engedi a tagokat eltérő csoportokat megosztani, míg a többiek csak zártkörű tagságot engednek.
K-alapú csoport analízis Az SPSS főmenüjében rendre kattintsunk az „Analyze” „Classify” „K-means cluster” gombokra.
Jelöljük meg a változókat az alapján hogy milyen módon fogjuk őket csoportosítani, majd tegyük be őket a Variables(változók) dobozba (Ez a mező
a változók bevitelére szolgál. A Label cases by dobozba sorváltozókat írhatunk, melyek megjelölik az egységeket. Ezután meghatározzuk a kívánt csoportok számát a Number of clusters dobozban. Esetünkben a Method dobozban bejelöljük az „Iterate and classify”t . Nem úgy mint az alternatív módszerrel, ha a „Classify Only”t jelöljük, ami meghatározza a csoportok középpontját; ez meghatározza az egymást követő ismétlődést és megállapítja hogyan fog a csoportosítás végbemenni.
A Cluster Centers dobozban megadjuk, hogy a file (ha van file) melyik tartalmazza a kezdeti csoport központokat a fileban (ha szükséges) és melyik a végső csoport központokat. A Read Initial From-ban megadjuk, hogy melyik file tartalmazza a kezdeti csoport központokat, és a Write final as-ban pedig megadjuk hogy melyik file tartalmazza a végső csoport központokat. Az Iterate kritériumokat határozhatunk meg a végső csoport központok frissítésére, a Maximum Iterations-ban pedig megadhatjuk a megengedett ismétlések maximumát (ami nem több mint 999) és a Convergence Criterion ban eldönthetjük melyik szabály hatályos az ismétlési folyamatra. Alapértelmezetten 10 „Iterations” és 0 „Convergence Criterion” van beállítva. Továbbá lehetséges még a Use running means opciót bejelölni. Ha ez ki van választva, a csoport központok minden új tárgy hozzáadásával változnak. Ha ez az opció nincs kiválasztva, a csoport központok egy adott csoport minden meghatározott eleme után lesz kiszámítva. Mindkét esetben más eredményt kapunk ezért a módszer, amivel a csoportosítást véghezvisszük, ki kell, hogy legyen jelölve. A „Continue” gombra kattintással továbblépünk.
A „Save” gombot használva új változókat menthetünk egy adat file-ba ami minden egyes tárgy „Cluster Membership (csoport tagság)”ét jelzi, és a tárgyak csoport központtól való távolságát („Distance from cluster center”)
Az options gomb megadja a plusz statisztikai adatok megjelenítésének lehetőségét – kezdeti csoport központok(Initial Cluster Centers) , szóródásos analízis tábla( ANOVA table) és minden tárgy csoport tagságának információját(Cluster information in each case) Kívánatos hogy mind három opció ki legyen választva. A végső eredményt az „OK” gombra kattintva kapjuk meg.
Menjünk végig tömören a K-alapú csoport analízis különböző lépésein a példából vett UniCredit Bulbank adatait felhasználva (Az egyes táblát az „Első lépések SPSS-ben fejezetből vettük). A csoportok számát megadjuk 4-nek, és a kezdeti csoport központok az adatok alapján vannak kiértékelve. Négyzetes euklidészi távolság egységet??? Használunk az egységek közötti távolság mérésére. Továbbá a csoport központokat kiszámoltatjuk minden egyes új objektum felvételekor egy adott csoportba, pl. nem pipáljuk ki az Use running means mezőt.
A kezdeti csoport központok az 1-es táblában adottak(Initial Cluster Centers). Ezek vektorok amelyeknek értékei 5 változón alapulnak, ami a 2000(első csoport) 2005(második csoport), 2006(harmadik csoport), és 2003(negyedik csoport). Ez a 4 év maximum index távolságra van egymástól.
A kettes táblában láthatjuk az ismétlések számát, és a csoport központok változásait. Az első ismétlésben 2001 év csatlakozik 2000 évhez, a csoport központ frissül. A 2004-es év csatlakozik a második csoporthoz – a 2005-ös évhez, és a 2002-es év csatlakozik a negyedik csoporthoz – a 2003-mas évhez. A harmadik csoport nem változik. A második ismétlésben az egységek átrendeződési folyamata megáll, mivel nincs változás a csoport központban.
Az eredmények összegezve vannak a 3-mas táblában, pl. amelyik csoport egyes elemei hova tartoznak, és az új csoport központok. Az első csoport a 2000 és 2001 évek által lett létrehozva, a második a 2004, 2005 által, a harmadik csak 2006 által, és a negyedik 2002 és 2003 által. A negyedik táblában láthatjuk a végső csoport központokat, az ötödikben pedig e központok közötti távolságokat.
Ha összehasonlítjuk az eredményeket az egyes és négyes táblákból, hogy a harmadik csoport csoportközpontja nem változik. Mivel esetünkben a csoportok akarattal a közöttük lévő többdimenziós távolság szerint lettek fölvéve, a feltétel a véletlenszerű megfigyelésekre vonatkozóan különböző csoportokban nem teljesül, az eredmények a szórás analízisből tisztán leíróak. Más szóval nem használhatjuk a fontossági szintet (Sign. Oszlop az ANOVA táblában – csoport eredmények szórás analízise) az egyszerű változókról szóló hipotézis ellenőrzésére. Mindemellett az F-ráták közötti különbség( F oszlop az ANOVA táblában) lehetővé teszi általános következtetések levonását az alakító csoportokban levő egyszerű változók szerepéről. A hatos táblában a szórás analízis eredményei vannak adva. Ezek megmutatják hogy az „assets” van a legnagyobb befolyással a csoportok alakítása során, a „net profit” pedig a legkisebbel.
A hetes tábla adatokat mutat az egységek számáról csoportonként, továbbá a teljes létszámról, és a hiányzó egységekről(ha vannak ilyenek). Most bemutatjuk az eredményeket ugyanazon csoportosítási módszert alkalmazva azzal a különbséggel, hogy most a csoport központokat mindig változónak választjuk miután egy tárgy csatlakozott az adott csoporthoz és a Use running means opciót választjuk.
A megjelenített adatból (9-es tábla) látjuk hogy az első csoport a 2000, 2001, 2002 évek által jött létre, a második a 2004, 2005 évek által, a harmadik 2006 által, és a negyedik csak a 2003 által.
Az ANOVA táblában megjelenített adatok szerint az „assets” még egyszer a maximális befolyással voltak a csoportok létrehozása során, a „net profit” pedig a legminimálisabbal. Szerző: Dessislava Vojnikova, Plovdiv University, Negyedik évi Bachelor Program az Alkalmazott Matematikában Felügyelő: Snezhana Gocheva-Ilieva Fordította: Hajdú Attila