Esettanulmány Kvantitatív elemzési módszerek (GTÜSE3915) tantárgyhoz Az SPSS statisztikai program World95.sav nevű adatbázisa a világ 109 nemzetének 26 társadalmi-gazdasági és politikai helyzetét leíró változót tartalmaz. Ezek rendre a következők: 1. táblázat: World95.sav adatbázis változói
1 2 3 4 5 6 7 8 9
SPSS-beli megnevezés country populatn density urban religion lifeexpf lifeexpm literacy pop_incr
10
babymort
11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
gdp_cap region calories aids birth_rt death_rt aids_rt log_gdp lg_aidsr b_to_d fertilty log_pop cropgrow lit_male lit_fema climate
Változók
Leírás
Mérési skála
Ország megnevezése Népesség (1000 főben) Népsűrűség (fő / km2) A városban élők aránya (%) Vallás Nők átlagos születéskor várható élettartama Férfiak átlagos születéskor várható élettartama Azon emberek aránya, akik tudnak olvasni (%) Népesség éves növekedés mértéke (%) Csecsemőhalandóság (1000 élve születésre jutó halálozások száma) 1 főre jutó GDP Régiók, gazdasági csoportok Napi kalória bevitel AIDS-es esetek száma 1000 főre jutó születési arányszám 1000 főre jutó halálozási arányszám 100 000 főre jutó AIDS-es esetek száma A GDP_CAP változó 10-es alapú logaritmusa Az AIDS_RT változó 10-es alapú logaritmusa 1 halálozásra jutó születések száma Termékenységi mutató: átlagos gyermekszám A népesség 10-es alapú logaritmusa Vetemény Azoknak a férfiaknak az aránya, akik olvasnak (%) Azoknak a nőknek az aránya, akik olvasnak (%) Éghajlat
Nominális Arány Arány Arány Nominális Arány Arány Arány Arány Arány Arány Sorrendi Arány Arány Arány Arány Arány Arány Arány Arány Arány Arány Arány Arány Arány Sorrendi
Feladat: Az SPSS World95.sav fájl adatait felhasználva hozzon létre az országokat alkotó homogén csoportokat (klasztereket) úgy, hogy a klaszterképző ismérvek a várható élettartamot leginkább befolyásoló tényezők legyenek! 1. Válassza ki a várható élettartammal legszorosabb és szignifikáns kapcsolatban levő változókat, amelyek a klaszterképzés alapjául szolgálhatnak! 2. Redukálja le a változók számát a könnyebb értelmezhetőség kedvéért! 3. Az elemzés célja homogén csoportok létrehozása. Nézze meg, vannak-e kiugró értékek, s ha igen, azokat hagyja ki az elemzésből! 4. Határozza meg az ideális klaszterszámot! 5. Ábrázolja a befolyásoló tényezők alapján a különböző klaszterekbe sorolt országokat! 6. Jellemezze a klasztereket! Készítsen kutatási összefoglalót a kapott eredményekről!
Megoldás Az esettanulmány eredményeinek bemutatása, az eredmények értelmezésének gyakorlása Kutatási célunk az adott országoknak a várható élettartammal szignifikáns kapcsolatban álló változók alapján való klaszterekbe sorolása. Ennek első lépéseként meghatároztuk azon változók körét, amelyek szignifikáns kapcsolatban állnak a várható élettartammal, tehát amelyek befolyásolják az eredményeket. 1. Válassza ki a várható élettartammal legszorosabb és szignifikáns kapcsolatban levő változókat, amelyek a klaszterképzés alapjául szolgálhatnak!
Többváltozós korrelációszámítás segítségével megvizsgáltuk, mely változók kerülhetnek be az elemzésbe. Az eredményeket a táblázat terjedelme miatt nem szerepeltetjük. Arra a következtetésre jutottunk, hogy a várható élettartamot szignifikánsan (p<0,1) a következő tényezők befolyásolták: városi népesség aránya, olvasni tudók aránya, olvasni tudók aránya a férfiak, valamint a nők körében, a népesség növekedési üteme, csecsemőhalandóság, egy főre eső GDP, napi kalória bevitel, 1000 főre jutó születések száma, 1000 főre eső halálozások száma, 10000 főre jutó AIDS esetek száma, átlagos gyermekszám. Mivel a klaszteranalízis alapjául szolgáló változók száma túl sok, faktoranalízis segítségével redukáltuk a számukat. 2. Redukálja le a változók számát a könnyebb értelmezhetőség kedvéért!
A faktoranalízis első lépéseként megvizsgáltuk az elemzéshez szükséges feltételek teljesülését. A változók közötti korrelációs együtthatókat már a változók körének kiválasztásakor meghatároztuk. Mivel szignifikáns kapcsolatokat figyelhetünk meg, az elemzés ezen feltétele, miszerint szoros és szignifikáns kapcsolatoknak kell lennie a változók között, teljesült. Ez után az anti-image mátrix segítségével megvizsgáltuk, hogy van-e a faktoranalízis eredményeit torzító változónk. Az anti-image korrelációs mátrix főátlójának elemei 0,502 és 0,899 közötti értékeket vesznek fel, amely mindegyike a kritikus 0,5 feletti érték. Viszont a 100 000 főre jutó AIDS-es esetek száma esetében a 0,502-es érték oly mértékben eltér a többitől, hogy célszerűnek tartottuk azt a változót kihagyni az elemzésből. A változó elhagyása után a KMO értéke 0,838-ról 0,856-ra emelkedett, amely értelmében az adatok alkalmasak a faktorelemzésre. Ezt támasztja alá a Bartlett hipotézisvizsgálat is. 2.1. táblázat: KMO és Bartlett Teszt Kaiser-Meyer-Olkin érték Bartlett Teszt
,838 Becsült chi négyzet df (szabadságfok) Szignifikancia
971,601 66 ,000
Miután meggyőződhettünk arról, hogy a feltételek teljesültek, valamint az adatok alkalmasak a faktorelemzésre, ki kell választanunk a faktormódszert. Jelen esetben a főkomponenselemzést választottuk a módszerek közül, hogy a kiindulási változók lineáris kombinációjaként olyan korrelálatlan főkomponenseket képezzünk, amelyek a legmagasabb magyarázott varianciával bírnak. Ezután meghatároztuk az ideális faktorok számát. Ebben lehet segítségünkre a Scree Plot, amely értelmében a 2 főkomponenst kellene létrehozni – ugyanis a közös variancia és az egyedi faktorok töréspontja a 2-es főkomponens számnál található. Amennyiben a Kaiser kritériumot vesszük alapul, vagyis az 1-nél alacsonyabb sajátértékű főkomponenseket kizárjuk az elemzésből, akkor 3 az ideális száma a főkomponenseknek. 2.1 ábra: Vonaldiagram az ideális főkomponensszám meghatározásához
3 főkomponens esetén a teljes magyarázott variancia 88,438% lenne, ami magasabb, mint a kritikusként meghatározott 60%, vagyis a 3 főkomponens 88,438%-ban foglalja össze a kiindulási változók tulajdonságait.
2.2. táblázat: Teljes magyarázott variancia Kezdeti sajátértéks Komponensek 1 2 3 4 5 6 7 8 9 10 11
Összesen 7,436 1,261 1,031 ,468 ,292 ,265 ,101 ,068 ,034 ,024 ,019
A variancia %-ban
Loading négyzetösszege
Kumulált %
67,597 11,466 9,375 4,257 2,659 2,410 ,923 ,616 ,306 ,215 ,177
67,597 79,063 88,438 92,695 95,354 97,764 98,686 99,303 99,608 99,823 100,000
Összesen
A variancia Kumulált % %-ban
7,436 1,261 1,031
67,597 11,466 9,375
67,597 79,063 88,438
Mivel a klaszteranalízis feltétele a független változók használata, és a változóink jelen esetben a főkomponensek lesznek, ezért a főkomponenseket derékszögű forgatással rotáljuk. Azért választjuk a Varimax módszert, mert az eljárás a főkomponensek által magyarázott varianciát maximalizálja. 2.3. táblázat: Rotált főkomponensek Főkomponensek 1 2 3 1000 főre jutó halálozások száma Csecsemőhalandóság Olvasni tudó emberek aránya Olvasni tudó nők aránya
-,910 -,749 ,686 ,673
,036 ,426 -,638 -,653
-,147 -,417 ,228 ,212
Olvasni tudó férfiak aránya Népesség éves növekedési üteme (%) Átlagos gyermekszám 1000 főre jutó születések száma Egy főre jutó GDP Napi kalória bevitel Városokban élők aránya (%)
,651 ,089 -,463 -,424 ,069 ,340 ,626
-,622 ,948 ,774 ,765 -,302 -,262 -,082
,213 -,206 -,283 -,395 ,878 ,804 ,626
Az első főkomponensben negatív súllyal szerepel az 1000 főre jutó halálozások száma, valamint a csecsemőhalandóság, ezen kívül pedig pozitív súllyal szerepel benne az olvasni tudók aránya összesen, illetve nemenként. A második főkomponenst alkotó változók a népesség éves növekedési üteme, az átlagos gyermekszám, valamint az 1000 főre jutó születések száma. Ezen változók közös ok-okozati összefüggése az országok népességének növekedésére, mondhatni „frissülésére” utal vissza. A harmadik főkomponenst az egy főre jutó GDP, a napi kalória bevitel, valamint a városokban élők aránya alkotja, amelyek az országok „gazdagsági helyzetére” utalnak. Miután több faktormódszerrel, forgatási eljárással leteszteltük a főkomponenselemzés eredményességét, meggyőződtünk annak érvényességéről, a főkomponensek elnevezése következik. Az elnevezéshez további vizsgálatok lennének szükségesek, de mivel a főkomponenselemzés jelen esetben csak egy alkalmazott módszer egy másik elemzés feltételeinek teljesüléséhez, így az egyszerűség kedvéért tekintsük ezeket F1, F2, F3 főkomponenseknek. Mivel az elemzést egy nagyobb volumenű vizsgálat (klaszteranalízis) első lépéseként alkalmaztuk, szükséges a főkomponensek új változóként való elmentése. A változók létrehozására a legelterjedtebb regressziós faktorérték módszert választottuk. A mentést követően már három új változóval (F1, F2, F3) dolgozhatunk, hogy a vizsgált országokat klaszterekbe sorolhassuk. 3. Az elemzés célja homogén csoportok létrehozása. Nézze meg, vannak-e kiugró értékek, s ha igen, azokat hagyja ki az elemzésből!
Visszatérve eredeti kutatási tervünkhöz, folytattuk a klaszteranalízis menetét. A faktoranalízis előzetes alkalmazása már biztosította nekünk, hogy a változók egymástól függetlenek legyenek, valamint hogy a vizsgált változók skálái megegyezzenek. Az elemzés módszerének a hierarchikus klaszterelemzést választottuk, mert nincs előzetes információnk a klaszterek számáról. Mivel célunk homogén csoportok létrehozása, ezért első lépésben az egyszerű láncmódszert (Nearest neighbour) alkalmazva megvizsgáltuk, hogy vannak-e az adatbázisban kiugró értékek. Az eredmények alapján azt mondhatjuk, nincsenek kiugró értékek, ezért a továbbiakban a Ward-féle eljárással folytattuk az elemzést. A Ward módszer alkalmazásával azok az elemek kerültek egy klaszterbe, amelyek összevonása minimalizálja a belső szórásnégyzet növekedését. Távolságmértéknek a négyzetes euklediszi távolságot határoztuk meg. 4. Határozza meg az ideális klaszterszámot!
Az ideális klaszterszám meghatározásához az Agglomeretion Schedule táblázat alapján kirajzolt vonaldiagramot használtuk.
4.1 ábra: Vonaldiagram az ideális klaszterszám meghatározásához
Az ábra alapján 4 klasztert lenne érdemes létrehozni. A kialakítandó klaszterek lehetséges számát megvizsgáltuk a dendogram segítségével is. Ha a klaszterösszevonások transzformált távolságát 5-ben határozzuk meg, akkor 5 klasztert, ha egy kicsivel magasabb értékben (pl. 6) határozzuk meg, akkor pedig 4 klasztert lenne érdemes létrehozni.
4.2 ábra: Dendogram Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E Label Num
0 5 10 15 20 25 +---------+---------+---------+---------+---------+
32 79 31 80 25 77 23 26 2 15 105 98 108 24 51 67 99 66 107 46 78 58 44 72 20 73 14 50 109 12 34 59 52 87 53 64 60 63 88 36 90 33 39 17 22 85 97 19 8 18 45 103 56
-+ -+ -+ -+ -+-+ -+ | -+ | -+ | -+ | -+-+-------+ -+ | | -+ | | -+-+ | -+ | -+ | -+ +-----------------------+ -+ | | -+ | | -+---+ | | -+ | | | -+ | | | -+ +-----+ | -+ | | -+-+ | | -+ | | | -+ +-+ +---------+ -+ | | | -+ | | | -+-+ | | -+ | | -+ | | -+ | | -+ | +---+ -+ | | | -+-+ | | | -+ +-------------------------------+ | | ---+ | | -+ | | -+---+ | | -+ | | | -+ +---------------------------------------+ | -+-+ | | -+ | | | -+-+-+ | -+ | | -+ | | -+ | | -+ | | -+-+ | -+ | -+ | -+ | -+ |
Mivel az 5 klaszteres megoldás homogénebb csoportokhoz vezet (ld. alábbi táblázatok), így azt választjuk és mentjük el. 4.1./a táblázat: Klaszterek gyakorisági táblázata Relatív Érvényes relatív Klaszterek száma Gyakoriság gyakoriság (%) gyakoriság (%)
Kumulált relatív gyakoriság
Valid 1
32
29,4
54,2
54,2
2
7
6,4
11,9
66,1
3
15
13,8
25,4
91,5
4
5
4,6
8,5
100,0
59 50 109
54,1 45,9 100,0
100,0
Összesen Hiányzó adatok Összesen
4.1./b táblázat: Klaszterek gyakorisági táblázata Relatív gyakoriság Érvényes relatív Klaszterek száma Gyakoriság (%) gyakoriság (%)
Kumulált relatív gyakoriság
1
15
13,8
25,4
25,4
2
7
6,4
11,9
37,3
3
15
13,8
25,4
62,7
4
17
15,6
28,8
91,5
5
5
4,6
8,5
100,0
59 50 109
54,1 45,9 100,0
100,0
Összesen Hiányzó adat Összesen
5. Ábrázolja a befolyásoló tényezők alapján a különböző klaszterekbe sorolt országokat!
A megfelelő klaszterösszetétel kiválasztását azok ellenőrzése követi. Miután egyéb módszerekkel is leteszteltük, hogy a kapott eredmények megfelelnek az elemzésnek, a klaszterek értelmezése, jellemzése következik. Az elmentett 5 klasztert a jellemzésük egyszerűsítése kedvéért célszerű kirajzoltatni, ennek eredményeit mutatja az alábbi ábra.
5.1 ábra: Pontdiagram a klaszterekről
6. Jellemezze a klasztereket!
A klasztereket kereszttábla-vizsgálattal, valamint varianciaanalízis segítségével elemezhetjük annak függvényében, hogy minőségi vagy mennyiségi ismérvekkel hasonlítjuk össze a klasztertagságot. Az első klaszter országaiban átlagosan a lakosság fele él városokban (55,4%±23,81%), az olvasni tudók aránya is magas (87,67%±5,95%), a nők születéskor várható élettartama 72 év, a férfiaké pedig átlagosan 66,5év. A népesség átlagos növekedési üteme +66%±41%. Átlagosan egy halálozásra 3,6 születés jut, 1000 csecsemő közül pedig átlagosan 38,5 veszíti el az életét. Az AIDS-es megbetegedések száma a többi klaszterhez viszonyítva átlagosnak mondható. Dominánsan a latin-amerikai, valamint ázsiai országok tartoznak ide, mint például Uruguay, Honduras vagy Kína, Vietnam. A második klaszter országai már fejlettebbek, ugyanis átlagosan 76,3%±13,1%-a él városokban, a nők születéskor várható élettartama 79,4 év, a férfiaké pedig átlagosan 72,9év, valamint az egy főre jutó GDP, valamint olvasni tudók aránya itt a legmagasabb (95,6%±4,1%). Az átlagos csecsemőhalandóság is itt a legalacsonyabb. A népesség viszont évről évre átlagosan fogy, ugyanis a születési arányszám alacsony: 12,86‰. Az AIDS-es megbetegedések száma a többi klaszterhez viszonyítva magasnak mondható. Dominánsan az OECD országok tartoznak ebbe a csoportba, mint például Olaszország, Görögország, Magyarország valamint az USA és Ausztrália. A harmadik klaszter országai mondhatók a legszegényebbnek, ugyanis átlagosan a lakosság negyede él városokban (24,9%±15,6%), a fejlettséget jelző változók értékei, mint az átlagos egy főre jutó GDP, a várható élettartam, a napi kalória bevitel értéke, az olvasni tudók aránya (39,8%) itt a legalacsonyabb. Az AIDS-es megbetegedések száma, a csecsemőhalandóság, valamint a halálozási arányszám magas a fejlettség hiánya
következtében. Ugyanerre az okra vezethető vissza a magas (42,2%±6,5%) születési arányszám, valamint a népesség növekedésének mértéke is. Dominánsan az afrikai országok tartoznak ide, mint például Nigéria, Közép-Afrikai Köztársaság, Burkina Faso. A negyedik klaszter országaiban átlagosan a lakosság fele él városokban (47,9%±18,01%). Ezek az országok az egy főre jutó GDP alapján kevésbé fejlettek. Ezt támasztja alá az is, hogy a nők születéskor várható élettartama 66 év, a férfiaké pedig átlagosan 62 év, valamint az olvasni tudók aránya 71,2%±13%. A születések száma átlagosan 4,7-szer akkora, mint a halálozások száma. A 100 000 főre jutó AIDS-es megbetegedések száma 40,15±81,86 fő, ami a többi klaszterhez viszonyítva átlagosnak mondható. Többnyire a latin-amerikai országok tartoznak ebbe a klaszterbe. A klaszter tagjai például Guatemala, Nicaragua, valamint Kenya és Egyiptom. Az ötödik klaszter országaiban átlagosan a lakosság 76,8%±24%-a él városban. A nők születéskor várható élettartama 70 év, a férfiaké pedig átlagosan 66 év. Az AIDS-es megbetegedések száma minimális ezekben az országokban, valamint a halálozási arányszám is itt a legalacsonyabb (6,2‰±2‰). A napi átlagos kalória beviteli értéke a többi klaszter tagjaihoz viszonyítva – kivéve a 2. klasztert – magas (3092±201,2). Az olvasni tudók aránya 62,6%±6,9%. A születések száma átlagosan 7,5-szer akkora, mint a halálozások száma. Többnyire a Közel-Kelet országai tartoznak ebbe a klaszterbe, mint például Líbia, Irak. A várható élettartam alapján elvégzett klaszterelemzés eredményei alapján létrejött csoportok szinte a regionális illetve gazdasági csoportosulások adatait tükrözik. Vagyis a várható élettartamot befolyásoló tényezők alapján vett klaszterek a gazdasági-regionális csoportokon belül homogének, amíg a különböző csoportok egymással összehasonlítva eltérő jellemzőkkel bírnak.
Továbbgondolandó kérdések, feladatok: Milyen szempontok alapján választhatná még ki az ideális változók körét? Mire alapozná a döntését, ha a klaszterek kialakításánál több lehetséges klasztermegoldás is elfogadhatónak tűnik? Ön szerint diszkriminancia-analízis alkalmazható-e a probléma megoldására? Mit tenne, ha a KMO értéke 0,5 lenne? Mit tenne akkor, ha nem teljesül a homoszkedaszticitás? Mit tenne az eredmények ellenőrzése érdekében?