Társadalomstatisztika, Németh Renáta
6. előadás
Társadalomstatisztika, 2004/2005 I. félév.
Mai tematika: A szóródás mérőszámai 1 Bevezetés. 1 A Kvalitatív Változékonyság Indexe (KVI) (Kiegészítő anyag) 2 Terjedelem 4 Interkvartilis terjedelem 5 Doboz ábra (box-plot) 7 A variancia és a szórás 8 Hogyan válasszuk meg a megfelelő szóródás-mutatót? 10 Speciális szóródási mutatók 12 Decilis-hányados 12 Gini együttható 13
A szóródás mérőszámai Bevezetés. A változók eloszlásának egyetlen számmal történő jellemzése. Eddig: egyetlen számmal jellemeztük a változó tipikus értékeit/centrális tendenciáját. Valójában sok esetben kevéssé informatív, vagy akár félrevezethető is lehet csupán a középértékkel (a centrális tendencia mutatóval) jellemezni az eloszlást. Ezért további információk szükségesek. A mai órán a változó változékonyságát/szóródását leírni képes mérőszámokat tárgyaljuk. Miért szükségesek ezek? Egyfajta sztereotipizálás lenne a középértékkel jellemezni a teljes populációt, ignorálva a populáción belüli különbségeket. Pl. 1998, ISSP, Tematika: vallás. „Mennyire ért egyet vagy nem ért egyet a következő állítással: Ha egy pár össze akar házasodni, helyes, ha előtte együtt élnek egy ideig.” % within Country
Ország
Magyarország Lengyelország
Teljesen egyetért 27,5% 18,4%
Együtt élni házasság előtt... Nem is ért egyet, Egyetér Nem ért nincs is t egyet ellene 30,3% 21,3% 13,3% 36,1% 18,8% 18,8%
Egyáltalán nem ért egyet 7,6% 7,9%
Magyarországon a módusz az Egyetért kategória. De csak ezt megadni igen félrevezető lehet, hiszen csupán a válaszolók harmada tartozik ide. Sőt, az „Egyáltalán nem ért egyet” kategória százalékos gyakorisága ugyanakkora, mint a köztudottan erősen vallásos Lengyelországban. A példában ordinális változó szerepelt. Nézzünk egy intervallum-arányskála mérési szintű változót! (1998, ISSP). A magyarországi minta eloszlását vizsgáljuk. Havi nettó jövedelem iskolázottsági kategóriánként: Iskolázottság = Érettségi Mintael emszám Havi nettó jövedelem 196
Átlag 38664,74
-1-
Együtt 100,0% 100,0%
Társadalomstatisztika, Németh Renáta
6. előadás
Iskolázottság = Főiskola Mintael emszám Havi nettó jövedelem 72
Átlag 38987,56
Láthatóan a két iskolázottsági kategórián belül megegyezik az átlagjövedelem. Ugyanakkor lényeges különbségek vannak a két csoporton belüli jövedelem-eloszlásban. Pl. a szélső értékeket figyelve kiderül, hogy az érettségizetteken belül ugyanazon átlag mögött jóval szórtabb eloszlás áll: Iskolázottság = Érettségi
Havi nettó jövedelem
Minimum 4000
Maximum 500000
Minimum 10800
Maximum 200000
Iskolázottság = Főiskola
Havi nettó jövedelem
A Kvalitatív Változékonyság Indexe (KVI) A KVI kiegészítő anyag, nem fog szerepelni a vizsgán. Szerepeltetése amiatt fontos, hogy lássuk: minden mérési szinthez rendelhető szóródási mérőszám. (Index of qualitative variation) Nominális vagy ordinális változók esetén használható. Értéke 0 és 1 közötti szám lehet. Ha a minta minden eleme ugyanabba a kategóriába esik, tehát egyáltalán nincs változékonyság, 0 a KVI értéke. Ellenkezőleg, ha minden kategóriába ugyanazon számú megfigyelés esik, tehát maximális a változékonyság, 1 az index értéke. Példa (ISSP, 1998, Magyarország). Az iskolázottság megoszlása két munkaerőpiaci helyzet kategórián belül.
Önálló Alkalmazott
Érettségi nélkül 27 35,5% 516 62,6%
Iskolázottság Érettségi zett Diplomás 32 17 42,1% 22,4% 195 113 23,7% 13,7%
Láthatóan az alkalmazottak körében az iskolázottság egységesebb: kétharmaduk az iparban dolgozik. Számoljuk ki a KVI-t a két csoportra! KVI = különbségek száma / a lehetséges különbségek maximális száma Hogyan számítjuk ki a különbségek számát? Ha az alábbi kis mintánk lenne …
-2-
Együtt 76 100,0% 824 100,0%
Társadalomstatisztika, Németh Renáta
János István Károly Ildikó
6. előadás
ÉRETTSÉGI ALATT DIPLOMA DIPLOMA ÉRETTSÉGI
… akkor az alábbi párok különböznének: 1. 2. 3. 4. 5.
János-István János-Károly János-Ildikó István-Ildikó Károly-Ildikó
Tehát 5 „különbséget” találunk. Egyszerűbb módszer a különbségek megszámlálására, ha az alábbi módon járunk el: ÉRETTSÉGI ALATT 1 dolgozó DIPLOMA 2 dolgozó ÉRETTSÉGI 1 dolgozó Különböző párok: ÉRETTSÉGI ALATT-DIPLOMA – 2 pár, ÉRETTSÉGI ALATT-ÉRETTSÉGI – 1 pár, DIPLOMA-ÉRETTSÉGI – 2 pár, az összesen 5 pár. Ha K kategóriánk van, és fi jelöli az i. kategória gyakoriságát, ezt röviden ezt az alábbi formulával írhatjuk le: Σi=1..K, j=i..K, i≠jfifj A formulát alkalmazva az önállókra, az alábbi KVI adódik: 27*32+27*17+32*17=1867 Míg az alkalmazottakra: 516*195+516*113+195*113=180963
Önálló Alkalmazott
Érettségi nélkül 27 35,5% 516 62,6%
Hogyan számítjuk ki a lehetséges különbségek maximális számát? A maximális különbségek számára az alábbi formula alkalmazható: (K(K-1)/2)*(N/K)2 , ahol K a változó kategóriáinak száma, N pedig a mintaelemszám. Esetünkben az önállókra az alábbi érték adódik:
-3-
Iskolázottság Érettségi zett Diplomás 32 17 42,1% 22,4% 195 113 23,7% 13,7%
Együtt 76 100,0% 824 100,0%
Társadalomstatisztika, Németh Renáta
6. előadás
(3*2/2)*(76/3)2 = 1925 Míg az alkalmazottakra: (3*2/2)*(824/3)2 = 226.325 A KVI számítása = különbségek száma / a lehetséges különbségek maximális száma Az önállókra: 1867/1925 = 0,97 Az alkalmazottakra: 180.963/226.325 = 0,8 Vagyis a KVI értéke alátámasztja korábbi megfigyelésünket: az alkalmazottakon belül egységesebb az iskolázottság, más szóval: az önállókon belül nagyobb az iskolázottság változékonysága. FIGYELEM! A fentiekben ordinális mérési szintű változóra alkalmaztuk a KVI-t. A KVI nem vesz tudomást arról, hogy rendezés van a kategóriák között, tehát úgy kezeli az iskolázottsági kategóriákat, mintha azok között nem lenne hierarchikus rend. Alkalmazása tehát egyfajta információvesztéssel jár. Megjegyzés: A KVI képletében szereplő fi gyakoriságok helyett százalékos arányt is használhatunk, ugyanazt az értéket kapjuk. Pl. a fenti esetben az önállókra: KVI = (35,5*42,1+35,5*22,4+42,1*22,4)/((3*2/2)*(100/3)2) = 0,97 Példa Rassz/Etnikum szerinti eloszlás az USA 50 államában. (kategóriák: fehér / fekete / ázsiai / spanyolajkú / amerikai bennszülött). Az alábbiakban néhány államra megadjuk a KVI-t. Interpretáld a számokat! Tagállam Új Mexikó Kalifornia New York Florida Alaska Washington Maine Vermont
KVI 0,7 0,69 0,58 0,52 0,48 0,29 0,06 0,04
Terjedelem (Range) Intervallum-arányskála esetében használatos. Definíciója: a maximális és a minimális érték különbsége, vagyis az értékkészlet terjedelme.
Példa. Az 1996-os ISSP magyar adatain korábban már láttuk az átlagjövedelmet pártszimpátia szerinti csoportokon belül. Már ott említettük, hogy pl. az SZDSZ-szavazók magas átlagjövedelme nem feltétlenül jelenti azt, hogy minden SZDSZ szavazó jövedelme magas. A kérdés megvizsgálásához szükségünk lenne a szóródás valamely mértékére; válasszuk ehhez most a terjedelmet!
-4-
Társadalomstatisztika, Németh Renáta
6. előadás
Jövedelem, havi nettó Pártszimpátia MSZP SZDSZ MDF FIDESZ KDNP FKGP Munkáspárt MSZDP Egyéb párt Bizonytalan, nem szavazva Total
Átlag 22731,35 29506,70 22629,42 26873,47 20355,46 19869,89 20364,78 16233,33 26118,18
Minimum 1800 5600 5600 2500 7500 2500 8600 15000 8700
Maximum 80000 250000 43000 165000 45000 65000 50000 18700 40000
Terjede lem 78200 244400 37400 162500 37500 62500 41400 3700 31300
19595,47
1200
100000
98800
21906,26
1200
250000
248800
Ellenőrizzük le a minimum és maximum alapján a terjedelmek számítását! Interpretáljuk a terjedelem értékeit! Nézzük meg az SZDSZ esetét! Melyik párt esetén leghomogénebb a jövedelem? Miért nem használhatjuk a terjedelmet nominális vagy ordinális mérési szint esetén?
Interkvartilis terjedelem Bár a terjedelem igen könnyen számolható mennyiség, nyilvánvaló hátránya, hogy csak a két szélső értékre érzékeny; tehát nyers mutató. A szélső értékek sokszor atipikusak, ami a terjedelmet félrevezető indexszé teszi. Ezért vezetjük be az interkvartilis terjedelmet. Definíciója: a 75-ös és a 25-ös percentilis (vagyis a két szélső kvartilis) különbsége. Intervallum-arányskála esetén használható (ordinális szint esetén történő esetleges használatáról lásd a Hogyan válasszuk meg a megfelelő szóródás-mutatót? c. fejezetet). A fenti példára visszatérve: N
Jövedelem, havi nettó
MSZP SZDSZ MDF FIDESZ KDNP FKGP Munkáspárt MSZDP Egyéb párt Bizonytalan, nem szavazva
156 70 24 94 50 121 18 3 11 356
-5-
Társadalomstatisztika, Németh Renáta
6. előadás
Percentilis Jövedelem, havi nettó
Jövedelem, havi nettó
MSZP
SZDSZ
MDF
FIDESZ
KDNP
FKGP
Munkáspárt
MSZDP
Egyéb párt
Bizonytalan, nem szavazva
MSZP SZDSZ MDF FIDESZ KDNP FKGP Munkáspárt MSZDP Egyéb párt Bizonytalan, nem szavazva
25 14850,00 15897,25 15000,00 15600,00 15025,00 13053,00 13000,00 15000,00 21000,00
75 28000,00 36250,00 29525,00 31250,00 25000,00 25000,00 25497,50 , 35000,00
13000,00
24575,00
Átlag Terjedelem Interkvartilis terjedelem
22731,35 78200
Átlag Terjedelem Interkvartilis terjedelem
29506,70 244400
Átlag Terjedelem Interkvartilis terjedelem
22629,42 37400
Átlag Terjedelem Interkvartilis terjedelem
26873,47 162500
Átlag Terjedelem Interkvartilis terjedelem
20355,46 37500
Átlag Terjedelem Interkvartilis terjedelem
19869,89 62500
Átlag Terjedelem Interkvartilis terjedelem
20364,78 41400
Átlag Terjedelem Interkvartilis terjedelem
16233,33 3700
Átlag Terjedelem Interkvartilis terjedelem
26118,18 31300
Átlag Terjedelem Interkvartilis terjedelem
19595,47 98800
-6-
13150,00
20352,75
14525,00
15650,00
9975,00
11947,00
12497,50
,
14000,00
11575,00
Társadalomstatisztika, Németh Renáta
6. előadás
Ellenőrizd a kvartilisek segítségével az interkvartilis terjedelem számítását! Interpretáld az értékeket! A terjedelemmel mérve az SZDSZ-en belüli változékonyság volt a legmagasabb, most megváltozott-e ez? Néhány esetben üres a kvartilis helye, mert nem számolható ez a statisztika. (pl. MSZDP, felső kvartilis). Miért nem számolható? Nézd meg az első táblázatban közölt mintabeli esetszámokat! Példa Terjedelem vagy interkvartilis terjedelem? Gyermekek száma anyák két különböző csoportjában. Gyermekek száma 0 1 2 3 4 5 6 7 8 9 10
A Csoport ☺☺ ☺☺☺ ☺☺☺ ☺☺☺
B Csoport ☺ ☺☺ ☺ ☺☺ ☺ ☺☺
☺☺
☺
Mi az A csoportra ill. a B csoportra számolt terjedelme a gyermekszám változónak? Mi az interkvartilis terjedelem értéke? Te melyik mutatót választanád ebben esetben?
Doboz ábra (box-plot) A terjedelem, az interkvartilis terjedelem, a medián, a legkisebb és a legnagyobb érték ábrázolására szolgáló grafikus eszköz. Az interkvartilis terjedelmet egy dobozzal szemlélteti, ebben van meghúzva a medián, a legnagyobb és legkisebb értékek pedig egy-egy talppal vannak ábrázolva. A doboz elhelyezkedése a teljes talphoz viszonyítva, illetve a medián helyzete a dobozon belül információt ad az eloszlás szimmetrikus vagy ferde voltáról. Tökéletesen szimmetrikus eloszlás esetén a doboz és a medián is középen helyezkedne el. Fiktív példa a jövedelmi egyenlőtlenségek megyénkénti alakulására Magyarországon:
Havi nettó jövedelem
200000
100000
0 Budapest
Szabolcs-Szatmar
Megye
Interpretáld az ábrát! Különbözik-e lényegesen a két megyében mért jövedelmi medián? Melyik megyében nagyobb a jövedelmi egyenlőtlenség (ha terjedelemmel mérem, ha interkvartilis terjedelemmel mérem)? Mit mondhatunk az eloszlások szimmetrikus voltáról? Ha nem szimmetrikus valamelyik: az alsó vagy a felső kvartilishez van közelebb a medián? Mit mutat ez?
-7-
Társadalomstatisztika, Németh Renáta
6. előadás
Megjegyzés: A box-plotnak több verziója létezik. Pl. az SPSS-ben implementált változat a mediánt, az interkvartilis terjedelmet ábrázolja, de a terjedelmet nem, ehelyett megad bizonyos feltételeknek megfelelő kiugró értékeket (outliers, extrems).
A variancia és a szórás Ezek a mutatók is csak magas mérési szintű változók esetén használhatók. A fenti három mutatóval szemben ezek számolásakor az eloszlás összes értékét figyelembe vesszük, vagyis a teljes változékonyságot, nem csak a „szélsők” közötti távolságot mérik. A legelterjedtebb szóródás-mutatók, minden szoftver, még a zsebszámológépek többsége is képes megadni az értéküket. Azt mérik, hogy átlagosan mennyire térnek el az eloszlás értékei az átlagtól. Az átlagot használjuk centrális tendencia mutatóként, mert az is az eloszlás összes értékére érzékeny. (Hátránya, miszerint érzékeny egy-egy kiugró értékre, azáltal lényegében kiküszöbölődik, hogy átlagos eltérést számolunk. Nagyon ferde eloszlás esetén mégsem ajánlott, erről lásd a Hogyan válasszuk meg a megfelelő szóródás mutatót? c. fejezetet) A mutatók 0 értéke mellett nincsen szóródása a változónak (azaz minden értéke azonos). A mutatóknak csak pozitív értéke lehet; nagyobb érték nagyobb szóródást jelez. A variancia és a szórás egymásból számolhatók. Míg a variancia az átlagtól vett négyzetes eltérések átlagát adja, addig a szórás ennek négyzetgyökét: Variancia:
S
2
Y, n
∑ =
i =1..n
(y - y.) 2 n
.
ahol Y a változó, n a mintanagyság, y. az átlag. Szórás:
S Y,n =
∑
i =1..n
(y - y.) 2 n
.
Miért a négyzetes eltéréssel definiáljuk az átlagtól vett eltérést? • Ha egyszerűen csak az eltérést vennénk (y.-y), akkor a negatív ill. pozitív előjelű különbségek kioltanák egymást. Pl. a következő egyszerű eloszlás esetén, ahol a mintanagyság három: {1,2,3}, az eltérések összege Σi=1..n(y-y.)=(1-2)+(2-2)+(3-2) = 1+0-1 = 0 lenne, így a variancia is 0 lenne, pedig van szóródása az értékeknek! • Vehetnénk az eltérések abszolút értékének összegét is, az ugyanúgy csak pozitív értékeket ad, mint a négyzetre emelés. Az abszolút értékkel azonban matematikailag nehezebb bánni, ezért alkalmazzuk a négyzetre emelést. Egy másik lényeges különbség a két művelet között az, hogy a négyzetre emelés a nagy abszolút eltéréseket még nagyobbá teszi, vagyis a nagy eltéréseket jobban bünteti, mint az abszolút eltérés. Pl. a következő 3 elemű minta esetén {1, 3, 8}, az abszolút eltérések összege Σi=1..n|y-y.| = |1-4|+ |3-4|+ |8-4| = 3+1+4, míg a négyzetes eltérések összege Σi=1..n(y-y.)2 = (1-4)2+(3-4)2+(8-4)2 = 9+1+16. Példa a kiszámítására Vegyük az előbbi egyszerű példát, az {1, 3, 8}mintát. A variancia Σi=1..n(y-y.)2/3 = (9+1+16)/3 = 26/3 = 8,7. Kérdés: Azt mondtuk, hogy a variancia 0 értéke mellett nincsen szóródása a változónak (azaz minden értéke azonos). Melyik szóródási mutatóra igaz még ez a fentiek közül? A szórás A variancia egyik problémája az, hogy négyzetes eltéréssel definiált, így nem a változó eredeti skáláján van kifejezve. Pl. az ISSP 1998-as felmérésében az egyéni havi nettó jövedelmek átlaga 31.000 Ft körül van, míg varianciája 587 millió, ami nehezen interpretálható érték. Ezért gyakran inkább négyzetgyökét, a szórást
-8-
Társadalomstatisztika, Németh Renáta
6. előadás
használjuk. Ebben a példánkban a szórás 24.246-nak adódik, ami könnyebben megfogható: azt mutatja, hogy átlagosan a jövedelmek nagymértékben szóródnak az átlag körül, hiszen maga a szórás értéke sincs messze az átlagtól. 1998, ISSP, Magyarország. A havi nettó jövedelem eloszlása
Átlag 31062,54
Jövedelem
Szórás 24246,54
Variancia 587894773
Igazán a szórás interpretálására két csoport vagy időpont összevetése esetén van lehetőség: Példa Első fordulós részvételi arány megyék szerint, 1990-ben ill. 2002-ben (forrás: KSH, Társadalmi helyzetkép, 2002). Megye Budapest Pest Fejér Komárom-Esztergom Veszprém Gy-M-S Vas Zala Baranya Somogy Tolna B-A-Z Heves Nógrád H-B J-N-Sz Sz-Sz-B Bács-Kiskun Békés Csongrád Összesen
1990 71,2 63,3 64,5 64,5 70,9 76,4 76,8 69,3 65,9 62,5 64,0 61,0 65,3 62,6 56,3 59,0 53,8 60,7 54,6 63,4 65,8
2002 77,5 70,6 69,6 71,0 72,6 73,9 74,2 70,7 71,8 68,0 68,5 68,0 70,1 69,3 66,0 66,7 65,8 65,0 66,9 67,3 70,5
Számítsuk ki a megyei választási részvételi arányok szórást 1990-re, illetve 2002-re! A képlet: S Y, n =
∑
i =1..n
(y - y.) 2 n
.
Első lépés: az átlag kiszámítása. Használhatjuk-e az országos részvételi arányt (65,8 ill. 70,5) átlagként? Nem. Az az érték nem egyezik meg a tényleges átlaggal. A tényleges átlag 1990-re: (71,2+63,3+..+54,6+63,4)/20 = 64,3. Ugyanez az érték 2002-re (77,5+70,6+..+66,9+67,3)/20 = 69,7. Behelyettesítve a képletbe, 1990-re a szórás √[(71,2-64,3)2+(63,3-64,3)2+…+(54,6-64,3)2+(63,4-64,3)2]/n = 6,3.
-9-
Társadalomstatisztika, Németh Renáta
6. előadás
Míg a szórás 2002-re: √[(77,5-69,7)2+(70,6-69,7)2+…+(66,9-69,7)2+(67,3-69,7)2]/n = 3,2. Interpretáld az átlagok és a szórások különbségét! 1990-ben mintegy 5%-kal alacsonyabb volt az átlagos megyénkénti részvételi arány, mint 2002-ben. Az 1990-re számolt szórás csaknem kétszerese a 2002-esnek, ami azt jelzi, hogy 2002-ben jóval homogénebb volt a megyénkénti részvételi arány. Megjegyzés Némely tankönyvben, így a Frakfort-Nachmias könyvben is a fenti mutatók nevezőjében n-1 szerepel n helyett. Megegyezés kérdése, hogy ki melyik definíciót használja. Mivel későbbi matematika és matematikai statisztika órákon az előbbi változat szerepel majd, itt is ahhoz tartjuk magunkat.
Hogyan válasszuk meg a megfelelő szóródás-mutatót? A fentiekben öt különböző szóródási mutatót tárgyaltunk: a KVI-t, a terjedelmet, az interkvartilis terjedelmet, a varianciát és a szórást. Mikor melyiket válasszuk? A válaszadás, akárcsak a centrális tendencia mutatók esetén, több szempont együttes figyelembe vételével történik. Az alábbi döntési fa a szóródási mérőszám megválasztásának folyamatát mutatja be. Nem kötelező érvényű a betartása, inkább csak a lehetséges problémákra hívja fel a figyelmet. Néhány megjegyzés: • magas mérési szintű változó esetén, ha az eloszlás nagyon ferde, az átlag nem reprezentálja megfelelően a centrális tendenciát, így a variancia vagy a szórás megadása félrevezethető lehet. • ordinális mérési szintű változó esetén a KVI használata információvesztést eredményez, hiszen nem vesz tudomást a kategóriák rendezéséről • ordinális mérési szintű változó esetén az interkvartilis terjedelem használata megkérdőjelezhető, hiszen a két kvartilis távolságát, azaz két érték különbségét adja, pedig a különbségképzés ordinális mérési szint mellett nem alkalmazható. A kompromisszum az, hogy az interkvartilis terjedelmet mint a rendezett értékek középső 50%-át tartalmazó sávot interpretáljuk, és óvatosan használjuk csak két ordinális változó szóródásának összevetésére (csak akkor, ha azok hasonló dolgokat mérnek hasonlóan kódolva, pl. véleménykérdések azonos számú, azonosan címkézett válaszkategóriával)
- 10 -
Társadalomstatisztika, Németh Renáta
6. előadás
A szóródási mutató megválasztása Mérési szint
Nominális
Ordinális
Intervallum-arány
KVI (az eloszlás változékonysága)
Kutatási kérdés:
Az eloszlás alakja:
A teljes eloszlás változékonysága, a rendezést ignorálva: KVI
A rendezett kategóriák középső, 50%-os terjedelmének meghatározása: INTERKVARTILIS TERJEDELEM
Inkább szimmetrikus. Kutatási kérdés:
A változékonyság durva mérése: TERJEDELEM INTERKVARTLIS T.
- 11 -
Nagyon ferde: TERJEDELEM INTERKVARTILIS T.
A teljes eloszlás változékonysága: VARIANCIA SZÓRÁS
Társadalomstatisztika, Németh Renáta
6. előadás
Speciális szóródási mutatók Decilis-hányados A terjedelemmel összevetve kiegyensúlyozottabb, egy-egy szélső értékre nem érzékeny index (akárcsak az interkvartilis terjedelem). Intervallum-arányskála mérési szint mellett használható. Leggyakrabban jövedelmi egyenlőtlenségek mérésére alkalmazzák. Definíciója: a 10. decilisbe tartozókra (azaz a 90. percentilis felettiekre) számolt átlagnak és az 1. decilisbe tartozókra számolt átlagnak hányadosa. Az interkvartilis terjedelemhez képest inkább koncentrál a magas ill. alacsony értékekre. Ezért jó eszköz pl. az ilyen szempontból definiált jövedelmi egyenlőtlenségek (kb.: a társadalom legjobban kereső tizedének és legrosszabbul kereső tizedének távolsága) mérésére. Példa a kiszámítására Vegyük az alábbi, 30 elemű fiktív mintát, jövedelem szerint rendezve:
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30.
42 720 43 866 45 821 49 418 49 781 50 975 53 739 57 693 69 131 89 341 111 940 137 045 150 307 156 443 156 498 208 115 227 996 235 034 249 609 262 369 300 046 328 424 348 137 351 597 362 036 368 305 372 850 447 664 449 088 484 355
Az alsó decilisre számolt átlag (42 720+43 866+45 821)/3=44 802, míg a felső decilisre számolt átlag (447 664+449 088+484 355)/3=460 369. Tehát a decilis-hányados 460369/44802=10
- 12 -
Társadalomstatisztika, Németh Renáta
6. előadás
Példa Több kutatás alátámasztja (pl. Kolosi: A terhes babapiskóta), hogy Magyarországon a rendszerváltás körüli időszak óta folyamatos jövedelmi egyenlőtlenség növekedés figyelhető meg. Az alábbi adatok is ezt támasztják alá (forrás: KSH, Társadalmi helyzetkép, 2002). Háztartások jövedelmi egyenlőtlenségének változása az egy főre jutó nettó jövedelem alapján számolt decilis hányados alapján 12 10 8 6 4 2 0
1987 1995
A háztartásfő A háztartásfő A háztartásfő aktív kereső vezető vállakozó ill. beosztású önálló
Interpretáld az ábrát!
Gini együttható A Gini együtthatóként ismert szóródás-mutatót leggyakrabban jövedelmi vagy más típusú egyenlőtlenség mérésére használják, főként közgazdasági területeken (gazdaság-szociológia, egészség-közgazdaságtan stb.) Az index az eloszlás teljes terjedelmét figyelembe veszi – szemben a percentilis-típusú indexekkel (mint az interkvartilis terjedelem vagy a decilis-hányados). A Gini értékkészlete a [0;1] intervallum. 0 az értéke, ha a populáció minden tagja azonos jövedelemmel rendelkezik, tehát tökéletes az egyenlőség. Értéke 1, ha minden jövedelem egyetlen személy kezében összpontosul, azaz teljes egyenlőtlenség esetén. A 0,4 körüli Ginit már viszonylag jelentős egyenlőtlenségként interpretálhatjuk. A Gini-index szemléletesen interpretálható a Lorenz-görbe segítségével, ugyanakkor a görbe maga is az egyenlőtlenség leírásának - a Gini-nél komplexebb - eszköze. A görbe az alacsonyabb jövedelmek irányából kumulált népesség és az általuk birtokolt jövedelmi hányad kapcsolatát mutatja. Az 1. ábrán látható Lorenzgörbe szerint például a lakosság alacsonyabb jövedelmű 50%-a birtokolja a populációs összjövedelem 30%-át. Tökéletes egyenlőség esetén a görbe 450–os dőlésszögű egyenesként jelenne meg. A Gini az aktuális görbe és a tökéletes egyenlőség esetén megfigyelhető görbe által bezárt terület nagyságának kétszerese. (Az adatok forrása az Országos Lakossági Egészségfelmérés (OLEF2000). A jövedelmet az egy főre jutó havi nettó háztartási jövedelemmel definiáltuk.). Esettanulmány – Jövedelmi egyenlőtlenségek Magyarországon Az országos szinten jelentkező jövedelmi egyenlőtlenségeket szemlélteti az 1. ábra Lorenz-görbéje. A görbéből számol GINI értéke országos szinten 0,31. Összevetésképpen: a 90-es években Latin-Amerikában volt a Gini értéke a legmagasabb (0,5 körüli átlaggal), az iparosodott nyugati államokban 0,35 körül mozgott, míg a legalacsonyabb a kelet-európai államokban volt 0,25 körüli átlagos értékkel.
- 13 -
Társadalomstatisztika, Németh Renáta
6. előadás
1. ábra: Lorenz görbe, országos 1,00
összjövedelem kumulatív aránya
0,80
aktuális
0,60
tökéletes egyenlőség esetén
0,40
0,20
0,00 0,00
0,20
0,40
0,60
0,80
1,00
populáció jövedelem szerint rendezve
A jövedelmi egyenlőtlenségek mértékét vélhetően nagyban befolyásolja a populációnak a jövedelmek meghatározásában szerepet játszó tényezők, mint az életkor, az iskolai végzettség vagy a foglalkozás szerinti összetétele. Az alábbi ábrán látható, hogy az egyenlőtlenség korcsoportonként igen különböző mértékben jelenik meg, leghangsúlyosabb a fiatalok, legkisebb az idősek között. A GINI értéke ennek megfelelően az életkorral csökken, ahogyan csökken az iskolai végzettség alacsonyabb foka felé haladva is. A foglalkozási kategóriákat tekintve a segéd- és betanított munkások között a legkisebb, és a foglalkozások presztízssorrendjét követve fokozatosan nő. A legnagyobb különbség az életkori bontásban jelenik meg. A különbség érzékeltetése végett: az idősekre érvényes 0,18-as GINI kisebb, mint valaha az utóbbi 40 évben országos szinten volt, míg a fiatalok 0,36-os együtthatója a nyugat-európai államokra jellemző. 0,24
Legfeljebb 8 általános
0,27
Középfokú éretts égi nélkül Éretts égi
0,29 0,34
Fels őfokú 0,00
0,10
0,20
0,30
0,40
Iskolai végzettség
- 14 -
Társadalomstatisztika, Németh Renáta
6. előadás
0,18
65+
0,31
35-64
0,36
18-34 0,00
0,10
0,20
0,30
0,40
Korcsoport
0,24
Betanított- vagy segédmunkás
0,27
Szakmunkás
0,30
Egyéb szellemi
0,33
Értelmiségi 0,00
0,10
0,20
0,30
0,40
Foglalkozás
- 15 -