STATISZTIKA jegyzet szociológus hallgatók számára
Tartalomjegyzék 1. BEVEZETÉS A TÁRSADALOMSTATSZTIKÁBA....................................................... 2 1.1. Mi a statisztika? .............................................................................................................. 2 1.2. Alapfogalmak.................................................................................................................. 4 1.3. Mérési szintek ................................................................................................................. 7 1.4. Adatbázisok létrehozása, címkézés................................................................................. 9 1.5. Az SPSS által kezelt adatállományok, adatbázisok összekapcsolása, esetek leválogatása ............................................................................................................................................. 13 1.6. Változók átalakítása ...................................................................................................... 18 2. EGYVÁLTOZÓS ELEMZÉSEK .................................................................................... 25 2.1. Statisztikai alapm veletek, egyszer elemzések: gyakorisági eloszlások, rangsorok. . 25 2.2. Gyakorisági eloszlások ................................................................................................. 28 2.3. A centrális tendenciák mutatói: átlag, medián, módusz................................................ 35 2.4. Szórás és szóródás ........................................................................................................ 45 2.5. Momentumok, ferdeség és csúcsosság ......................................................................... 53 3. MINTAVÉTEL.................................................................................................................. 60 3.1. Elemi valószín ségelmélet. Várható érték.................................................................... 60 3.2. Elemi mintavételi elmélet. Standard hiba ..................................................................... 64 4. KÉTVÁLTOZÓS ELEMZÉSEK .................................................................................... 71 4.1. Változók közötti kapcsolatok........................................................................................ 71 4.2. Min ségi változók közötti kapcsolat ............................................................................ 75 4.3. Vegyes kapcsolat .......................................................................................................... 91 4.4. Két mennyiségi változó közötti kapcsolat: korreláció .................................................. 99 5. TÖBBVÁLTOZÓS ELEMZÉSEK................................................................................ 108 5.1. A többváltozós elemzések fajtái ................................................................................. 108 5.2. A faktorelemzés .......................................................................................................... 113 5.3. A klaszterelemzés ....................................................................................................... 135 MELLÉKLETEK................................................................................................................ 146 A χ2 -eloszlás táblázata (p=0.05, P=0,01 és p=0,001) ....................................................... 146 A t -eloszlás táblázata (p=0.05, P=0,01 és p=0,001).......................................................... 147 Az SPSS 9.0 program menüsor parancsainak rövid leírása ............................................... 148 BIBLIOGRÁFIA ................................................................................................................. 158
1
STATISZTIKA jegyzet szociológus hallgatók számára
1. BEVEZETÉS A TÁRSADALOMSTATSZTIKÁBA 1.1. Mi a statisztika? A statisztika (általános statisztika, matematikai statisztika) a valóság számszer információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati tevékenység és tudomány. A statisztika tömegjelenségekkel foglalkozik. Tehát módszeresen megfigyeli a tömegjelenségek tulajdonságait, begy jti a jellemz információkat és feldolgozza, értékeli, elemzi. A statisztika legf bb érdeme, hogy: -
információt szolgáltat a megfigyelt jelenségekr l
-
lehet séget ad a tudományos elemzésekhez
-
tájékoztat a fontosabb társadalmi-gazdasági folyamatokról (legfontosabb az állami vagy hivatalos statisztika).
A statisztika fogalmán az általános és az alkalmazási területhez köt d módszertannak, valamint a gyakorlati tevékenységnek a szorosan összefügg egységét értjük. A statisztika arra szolgál, hogy a valóság tényeinek valamely adott körét tömören, a számok nyelvén jellemezze. A statisztika történeti kialakulása és fejl dése A statisztika el ször mint gyakorlati, számbavételi tevékenység jelent meg az ókorban. A legkorábbi statisztikai adatok az ókori államokban végrehajtott népszámlálásból származnak. A középkorban a h bérurak földbirtokával összefügg leltározó jelleg összeírásokat végeztek, kés bb, a polgári társadalmak kialakulásával pedig egyre n tt az érdekl dés a különböz országok földrajzi, politikai és gazdasági viszonyai iránt. Mindezek az úgynevezett német leíró iskola kifejl déséhez vezettek. Maga a statisztika szó is ebb l az id b l származik, a státus (állam) szóból ered. A polgári társadalmak fejl désével a leíró jelleg információk köre b vült, a közöttük lév
számszer
összefüggések ismeretének igénye pedig kikényszerítette az
elemzések módszertani fejlesztését is. Ebben az id ben az államszámtant átnevezték politikai aritmetikának – ez lett a tudományos elemz statisztika alapja. A legnagyobb el relépést az a tény képezte, hogy a XVIII-XIX. században meghatározták a valószín ség számítás tételeit és ezen tudományág fejl désének hatására alakult ki a mai matematikai statisztika. 2
STATISZTIKA jegyzet szociológus hallgatók számára
A statisztika ágazatai és kapcsolata más tudományokkal Miként ez köztudott, a statisztikának a matematikához való köt dése a leger sebb, hiszen a matematika elmélete (f ként a valószín ség számítás elmélete, lásd III. Fejezet) a szakmai összefüggések leírására megfelel módszertani tárházat nyújt. A statisztika a matematika eredményeit (amelyek alkalmasak a tömegjelenségekben rejl törvényszer ségek feltárására) és a szakmai jelenség természetét ismerve alakítja ki módszereit. A statisztikai tevékenység sok irányba ágazik szét, így alakulnak ki a szakstatisztikák. A szakstatisztikák egy-egy terület szakmai összetev it ismerve olyan matematikai módszert választanak, amely az ott el forduló jelenségeket szakmai szempontból is helyesen írja le. A szakstatisztika nem más, mint a társadalmi-gazdasági élet egy-egy területének statisztikai módszerekkel való vizsgálata (pl. gazdaságstatisztika, népességstatisztika stb.). A szakstatisztikán belül is további differenciálódás következik be, de egy szakterületen belül egységes alapelvek érvényesülnek. A társadalomstatisztika A
társadalomstatisztika
az
általános
statisztika
egy
sajátos
változata.
A
társadalomstatisztika is az általános statisztikán alapul, de a vizsgált változók, mutatók és eljárások a társadalmi viszonyok sajátos mérési módjához vannak igazítva, így egyes számítások matematikai értelemben vett pontossága magyarázatra szorul (Mezei-Veres, 2001). A mérési szint meghatározása, a mérési hibák befolyása sajátos jelleggel bír a társadalomtudományokban. Megtörténik, hogy egy módszert olyan adatokra is alkalmaznak, amelyek nincsenek kell faktorelemzést
alkalmaznak
ordinális
mérési
pontossággal mérve (pl. szint
változókon).
A
társadalomstatisztika ezekkel a problémákkal is meg kell birkózzon. A társadalomtudományi kutatás lépései: Kutatási kérdés
Hipotézis készítés ELMÉLET
Hipotézis tesztelés
Adatelemzés
Adatgy jtés
A statisztikai elemzés leginkább az Adatelemzés lépcs jéhez köthet . De a kutatás minden lépését a mögöttes elmélet határozza meg, és fordítva, minden lépés eredménye hatással lehet az elméletre. 3
STATISZTIKA jegyzet szociológus hallgatók számára
Ebb l következnek a társadalomstatisztika legfontosabb korlátai: - az elemzések eredménye er sen függ a vizsgálatba bevont szempontoktól, változóktól (elméleti kerett l) - a bevont szempontok kiválasztásának mindig szakmai döntésre kell támaszkodnia minden szakmailag releváns szempontot be kell vonni az elemzésbe - a matematikai eszközök mechanikusan nem alkalmazhatók, szükség van szaktudásra (társadalomtudományi ismeretekre). szakmai
Tehát a statisztikai módszerekkel kapott eredményeket csak megfelel
ismerettel lehet hatékonyan felhasználni, ugyanakkor a korszer társadalomtudományi szakismeret elképzelhetetlen a mennyiségi összefüggések ismerete nélkül. Az eddigi átfogó értékelés helyett a különböz szakterületek igénye az értékelés mélysége fele mutat, amely a módszertani apparátus ismeretén túl igényesebbek a vizsgált szakterület ismeretét (elméleti vonatkozásait) illet en. A statisztikai ismeretek megértésének talán legjelent sebb összetev je a módszerek alkalmazásának gyakorlása. Az elméleti ismeretek segítik a gyakorlást, ám a készségek effektív munka során alakíthatók ki (ez utóbbi jelent sen visszahat az elméleti ismeretek elmélyítésére is), amelyben nagy segítséget nyújtanak a számítógépes
programcsomagok.
A
statisztikai
programcsomagok
közül
a
szociológusok által leginkább használt SPSS (Statistical Package for the Social Sciences) Windows alatt futó programjának 9.00-ás alkalmazását ismertetem.
1.2. Alapfogalmak A szociológiában a társadalmi valóság tömör, számszer
jellemzéséhez az
operacionalizálás révén jutunk el. Mindezt megel zi a vizsgált területre vonatkozó szakismeret áttekintése, a kutatási kérdések és hipotézisek megfogalmazása és konceptualizálása (lásd Társadalomtudományi kutatási módszerek és technikák tárgy). Ezeket a fázisokat követi maga az operacionalizálás, ami nem más, mint a vizsgált kutatási probléma különböz jellemz inek megadása (kérd íves adatfelvételek esetén a kérd ív
kérdéseinek
megfogalmazása képezi
ezt
a tevékenységet).
Az
operacionalizálás elképzelhetetlen a megfigyelési egységek definiálása (a vizsgált sokaság beazonosítása), valamint a mérési eljárások kialakítása (az ismérvek vagy változók megfogalmazása) nélkül.
4
STATISZTIKA jegyzet szociológus hallgatók számára
A vizsgálat tárgyát képez egységek összességét, halmazát statisztikai sokaságnak, vagy rövidebben sokaságnak esetleg populációnak nevezzük. A statisztikai sokaság egyedei a statisztikai egységek. Ezek az egységek lehetnek él lények: emberek, pl. a népszámlálás esetén; állatok, a mez gazdasági összeírásoknál; tárgyak, pl. a személygépkocsi állomány állapotának felmérésénél; szervezetek, pl. a vállalkozások IT felszereltségének felmérésekor, események, pl. a kulturális rendezvények vizsgálata esetén, de lehetnek képzett egységek is, pl. a GDP alakulásának vizsgálatakor. Azt, hogy mit tekintünk a statisztikai vizsgálatnál a sokaságnak, mindig a vizsgálat célja dönti el. Ha pl. a Sapientia egyetem hallgatóinak tévénézési szokásait szeretnénk vizsgálni, akkor az alapsokaság nem más, mint az abban az id pontban hallgatói jogviszonnyal rendelkez diákok sokasága. Mivel a valóságban legtöbbször nem áll módunkban a populáció egészér l adatfelvételt készíteni, ezért mintát veszünk és az ilyen módon begy jtött adatokon végzünk statisztikai elemzéseket. A sokaság egységei különböz
tulajdonságaik megadásával jellemezhet ek. Ezen
tulajdonságok egy része a sokaság minden egyes egységére nézve közös, más részük azonban nem. A sokaság tagjai, egységei a vizsgálat tárgyának ismeretében legtöbbször elég egyértelm en adódnak, de vannak olyan esetek is, amikor a sokaság egységei nem különülnek jól el egymástól, hanem csak önkényesen definiálhatóak (vagy a valóságban nem is léteznek). Amikor a valóság jól elkülönül egységekb l áll (számolásnál), diszkrét sokaságról beszélünk, ilyen pl. egy adott településen él lakósok száma. Amikor valóságos, de csak önkényesen elkülöníthet egységekb l áll (két adott érték között elméletileg az összes értéket felveheti), akkor folytonos sokaságról beszélünk, mint pl. a Sapientia egyetem diákjai által egy nap elfogyasztott ásványvíz mennyisége. Ha a sokaság elképzelt egységekb l áll, fiktív sokaságról beszélünk (pl. Románia 2009. dec. 1-i lakósainak száma). Amikor a sokaság csak egy adott id pontra vonatkozóan értelmezhet , álló sokaságnak nevezzük (pl. a lakosság száma 2006. március 28-án), amikor csak valamely adott id tartamra vonatkoztatva értelmezhet , mozgó sokaságnak nevezzük (pl. a Hargita megyei munkanélküliek száma a 2002-es év folyamán).
5
STATISZTIKA jegyzet szociológus hallgatók számára
Ismérv vagy változó Az ismérvek olyan vizsgálati szempontok, amelyek alapján egy sokaság egymást át nem fed
részekre bontható. A sokaság egyes egységeinek e felbontásban való
elhelyezkedését az egységek adott szempont szerinti tulajdonságai határozzák meg. A valamely
szempont
szerint
lehetséges
tulajdonságokat
ismérv-változatoknak
(attribútumnak) nevezzük. Ha az ismérv változatai számszer ek, akkor azokat ismérvértékeknek, magát az ismérvet pedig változónak (a logikailag egymáshoz tartozó attribútumok halmazának) nevezzük. A mindössze két változattal rendelkez ismérveket alternatív ismérveknek (dumy vagy dichotóm változónak) nevezzük. Nézzük az alábbi példát. Kérd íves kutatást készítettünk a Sapientia Egyetem diákjai körében. Ebben az esetben: Sokaság: a 2007/2008-az tanévben az egyetemmel hallgatói jogviszonyban álló diákok Ismérvek:
Ismérvváltozatok:
Nem
férfi, n
Életkor (év)
1988, 1989, stb.
Állandó lakóhely (település neve)
Csíkszentgyörgy, Sepsiszentgyörgy, stb.
C típusú nyelvvizsga
nincs, alapfokú, középfokú, fels fokú
Internethasználat
igen, nem
Magasság (cm)
171, 168, stb.
Testsúly (kg)
48, 66, stb.
Fizikai állapotával való elégedettség
elégedetlen, igen is meg nem is, elégedett
Látható, hogy a fenti példában alkalmazott ismérvek nem ugyanolyan jelleg információt hordoznak. Az életkor, magasság és testsúly ismérvek ismérvváltozatai konkrét számértékek, amelyekkel akár m veleteket is végezhetünk (például annak megállapítására, hogy a diák hány éves lesz négy év múlva, vagy átlagosan milyen magasak a diákok). Ezzel szemben a nyelvvizsga foka, valamint a fizikai állapotával való elégedettség olyan ismérvek, amelyek ismérvváltozatai nem számértékek, de mégis fennáll valamiféle hierarchia az ismérvváltozatok között, hiszen tudjuk, hogy a középfokú nyelvtudás magasabb szint , mint az alapfokú, stb. A nem, az internethasználat, illetve az állandó lakóhely esetében azonban az ismérvváltozatok egyrészt nem számértékek, másrészt nem áll fenn semmiféle hierarchia sem az egyes ismérvváltozatok között, hiszen nem dönthet el, hogy Csíkszentgyörgyön lakni jobb, vagy rosszabb, mint Sepsiszentgyörgyön, és az sem egyértelm en eldönthet , hogy n nek, vagy férfinek lenni jobb, stb. Ezenkívül a nem és az internethasználat ismérveknek csak két ismérvváltozata lehet, míg a lakóhelynek jóval több. Összefoglalva
tehát
azt
mondhatjuk,
hogy
mivel
a
statisztikai
egységek
tulajdonságainak észlelése és rögzítése adat formájában valamiféle mérésnek 6
STATISZTIKA jegyzet szociológus hallgatók számára
tekinthet , a különböz ismérveknek más-más mérhet ségi tulajdonságaik vannak. Mindez jelent sen befolyásolhatja a statisztikai vizsgálatot. Az ismérvek mérhet ségi tulajdonságainak egyik jellemz je a hozzájuk tartozó mérési szint, vagy mérési skála. Bizonyos szabályok betartása mellett egy eredetileg nem mennyiségi ismérv (valamilyen számlálás vagy mérés számszer eredményeit rendeli hozzá a sokaság egységeihez) lehetséges változatai számértékké alakíthatóak, „kódolhatók”. Ilyen módon bármely észlelt tulajdonság szám formájában történ rögzítése az egységek számokkal való jellemzésének, azaz mérésnek tekinthet . De miként a fenti példából is kit nik, egyáltalán nem mindegy, hogy a sokaság egységeihez ilyen módon hozzárendelt számértékek mely tulajdonságai érvényesek a sokaság egységeinek a számértékekkel jellemezni kívánt tulajdonságaira is. Err l szólnak a mérési skálák vagy mérési szintek.
1.3. Mérési szintek A szociológiában négy mérési skálát szokás használni: 1. nominális, megnevezéses vagy névleges mérési szint 2. ordinális, rendezési vagy sorrendi mérési szint 3. intervallum vagy különbségi mérési szint 4. arány-skála. Ebb l az els két skálát szokás még min ségi, a második kett t pedig mennyiségi mérési skáláknak nevezni. A nominális skála a legegyszer bb és legkevésbé informatív mérési fokozat. Csak az egységekhez rendelt számértékek egyez egységeket ténylegesen is jellemz
vagy különböz
voltát engedi meg az
tulajdonságként elfogadni. Az egységekhez
hozzátartozó számértékeknek nincs mértékegysége, tulajdonképpen csupán egy megkülönböztet címkér l beszélhetünk. A kódszámok közti különbségeknek, azok hányadosának vagy a nagyságrendjének nincsen semmi értelme, viszont az egységek csoportosítására kiválóan alkalmas. A fenti példánkban ilyen mérési szint változó a nem, az állandó lakhely és az internethasználat. Az ordinális skála esetében nemcsak a skálaértékek azonos vagy nem azonos volta, hanem azok sorrendisége is az egységek között fennálló valós viszonyokat írja le. Az egységekhez hozzárendelt számértékek sorrendje az adott egységek valamilyen szempontból vett sorrendjét mutatja (az egyes attribútumok a vizsgált tulajdonsággal 7
STATISZTIKA jegyzet szociológus hallgatók számára
relatíve kisebb vagy nagyobb mértékben rendelkeznek). A skálaértékek bármilyen, az egységek adott sorrendjét megtartó számértékek lehetnek, hiszen maguk a számértékek nem hordoznak információt, csakis azoknak sorrendje. Akár csak a nominális mérési szint
változók esetében, ezeknek a számértékeknek sincs
mértékegysége, valamint a skálaértékek különbsége sem informatív, továbbá nincs értelme a skálaértékekkel végzett más m veleteknek sem. A fenti példánkban ilyen mérési szint változó a nyelvvizsga, valamint a fizikai állapottal való elégedettség. Az intervallum skála a szó szoros értelmében is mérést jelent, mivel a mennyivel nagyobb kérdésre is választ tudunk adni. A skálaértékek különbségei is valós információt nyújtanak a sokaság egységeir l, valamint e skálának már valamilyen mértékegység is a szerves tartozékát képezi. A skála kezd pontja a 0-pont, azonban ez önkényes, illetve valamilyen konvención alapszik - ez lehetetlenné teszi a skálaértékek
egymás
közötti
arányának
meghatározását.
A
szociológiai
adatfelvételekkor ritkán találkozunk intervallum skálával, a fenti példánk sem tartalmaz ilyen változót. A klasszikus példa intervallum mérési szint változóra a h mérséklet, hiszen nincs abszolút 0 pont, a víz fagyáspontjának választása esetleges, függ az alapul vett h mérsékleti skálától. Példa 1. A 100C és 200C h mérséklet közötti különbség Fahrenheit skálán mérve is ugyanannyi, mint a –50C és 50C közötti különbség (a különbségnek valós értelme van). F = 9*C/5 + 32 a. 100C = 9*10/5 + 32 = 500F b. 200C = 9*20/5 + 32 = 680F c. -50C = 9*(-5)/5 + 32 = 230F d. 50C = 9*5/5 + 32 = 410F 200C – 100C = 100C
680F –500F = 180F
50C – (-5)0C = 100C
410F – 230F = 180F
2. A 200C és az 50C h mérséklet egymáshoz viszonyított aránya nem független az alapul vett h mérsékleti skálától (az arányoknak nincs értelme). 200C = 680F (b.) 680F/410F = 1,66
50C = 410F (c.) 200C/50C = 4
8
STATISZTIKA jegyzet szociológus hallgatók számára
Az arány-skála a legtöbb információt nyújtó mérési szint. Már a kezd pont is egyértelm en adott és rögzített, bármely két skála-érték egymáshoz viszonyított aránya is egyértelm en meghatározható, azaz információt hordoz. A fenti példánkban ilyen mérési szint változó az életkor, magasság és testsúly változók. A mérési szintek egymáshoz való viszonya A mérési szintek bemutatott sorrendje a mérés egymást követ olyan fokozatainak tekinthet k, amelyek a mérés eredményeit kifejez
számértékek egyre több
tulajdonságának kihasználását teszi lehet vé. Ilyen értelemben a nominális mérési szint a legalacsonyabb, az arány-skála pedig a legmagasabb mérési szint, ugyanakkor egy adott mérési szint változó alacsonyabb szint ként is kezelhet . Az ismérvfajták és mérési skálák egymástól való megkülönböztetése azért lényeges, mert más-más fajta elemzést tesznek lehet vé. Az ismérvek fajtája, illetve a mérés adott szintje mindig behatárolja az elemzés egy-egy adott esetben szóba jöv eszközeit, tehát különböz
mérési szint
változók más-más típusú statisztikai
elemzéseket tesznek vagy nem tesznek lehet vé. A mérés adott szintje azonban kétféle értelemben is relatív: 1. sohasem függetleníthet el teljesen a vizsgálat célkit zéseit l – a magas mérési szintek „alacsonyabbakká” válhatnak 2. bizonyos elemzési technikák a megkívántnál alacsonyabb mérési szint adatok elemzésére is jól használhatók (pl. faktorelemzés).
1.4. Adatbázisok létrehozása, címkézés Az adatbázis (adatmátrix) nem más, mint a kutatás során a sokaság (vagy minta) elemeir l begy jtött adatok halmaza. Az adatokat kódolt és rendszerezett formában szokás elektronikus formában rögzíteni, úgy, hogy minden egyes egységünk (esetünk, amely lehet egy megkérdezett személy, szervezet, stb.) külön sorba, minden egyes változónk (ismérvünk, mért tulajdonságuk) pedig külön oszlopba kerüljön. Az adatbázisban minden egyes cellában egyetlen érték szerepelhet. Az operacionalizálás során nyert fogalmak, tulajdonságok a mérés eredményeként elvileg megfelel i lesznek a statisztikai adatbázist alkotó változóknak, de ez a megfelelés nem teljes. Vannak olyan tulajdonságok, amelyeknél a megfeleltetett kérdésb l nem egy, hanem
9
STATISZTIKA jegyzet szociológus hallgatók számára
több változó is készül, pontosan azért, hogy a statisztikai feldolgozhatóság kedvéért egy cellában csak egyetlen adat szerepeljen. Adatbázist több programban is létre lehet hozni, Excel-ben, dBase-ben, SPSS-ben, stb. A továbbiakban csak a szociológusok által leggyakrabban használt SPSS programcsomagra (ennek is a 9.0-ás verziójára) fogok kitérni. A példákban és ábrákban használt adatbázis a MOZAIK2001 – Magyar fiatalok a Kárpát-medencében cím szociológiai kutatás székelyföldi adatbázisa. Az adatbázis formája az SPSS-ben az alábbi ábra szerint néz ki: Változó 1
Változó 2
Változó 6
Eset 1 Eset 2
Eset 7
Adatbázis létrehozása SPSS-el Indítsuk el az SPSS programot! Válasszuk a TYPE IN DATA opciót és kattintsunk az OK gombra. Ha már fut a program, akkor a File f menüpontban a New pontban válasszuk a Data-t.. Miként a fenti ábrából is kit nik, az SPSS táblázata hasonlít az Excel-ére. Számozott sorok vannak, ahova az egyes esetek/megkérdezettek (cases) adatai fognak kerülni, az oszlopokba (variables) pedig a változók szerepelnek. Els
lépésben el kell neveznünk (definiálnunk) az egyes változókat és azok
tulajdonságait. Ezt úgy kezdjük, hogy a DATA f menüpont Define Variable menüpontjára megyünk, vagy duplán klikkelünk az els oszlop var (az els változó) mez jére (a 10.0-s vagy ennél kés bbi SPSS-ek ekkor átváltanak a Variable View nézetre). Itt a Variable Name pontnál nevet adunk a változónak (max. 8 karakter hosszúságú lehet, nem kezd dhet számmal), amely meg fog jelenni az adatbázis fejlécében (érdemes olyan nevet adni, amivel könnyen beazonosítható, hogy melyik kérdésr l is van szó). A Type pontnál beállítjuk a változó formátumát. Legtöbb esetben numerikus adataink vannak, mivel a kódokat (számokat) sokkal könnyebb
10
STATISZTIKA jegyzet szociológus hallgatók számára
bevezetni, mint a szöveget, így az SPSS is alapértelmezésben numerikus adatbevitelre van beállítva. Sokszor azonban el fordul, hogy pl. egy nyílt kérdést nem sikerült kódolni és a szöveget szeretnénk bevezetni – ilyenkor a Define Variable Type-nél a „string” gombra kattintunk. A Labels pontnál felcímkézzük a változónkat, vagyis a Variable Label-nél megadjuk az ismérvünk bármilyen hosszú nevét, a Value Labelnél pedig megadjuk a változóhoz tartozó egyes attribútumokat (minden egyes bevezetett címke után „Add”-et nyomunk): pl. Variable Label: A megkérdezett neme, Value: 1, Value Lable: n , majd Add, Value: 2, Value Lable: férfi (a Remove gombbal törölhetjük, a Change gombbal módosíthatjuk a korábban beírtakat), majd Add és Continue.
Visszatérve a Define Variable almenübe, a Missing Values pontnál megadhatjuk, hogy milyen kóddal szerepl eseteket kezeljen az SPSS hiányzó adatként: pl. ha a 0 azt jelentette, hogy valaki „nem tud válaszolni” és nem szeretnénk a számításainkba bevonni ezt az értéket, a Define Missing Values-nál a 0-t beírjuk a Discrete missing values pontnál, majd Continue-t nyomunk. A Define Variable almenüben még beállítható az oszlopszélességet (Column Format) és az ismérvünk mérési szintje (nominális, ordinális vagy skála, azaz mennyiségi). Amikor több változónk ugyanazokkal az attribútumokkal rendelkezik megkérdeztük a háztartásban él
(pl.
összes személy foglalkozását, vagy több olyan
kérdésünk van, amelyekre igen/nem válaszokat lehet adni), a DATA f menüb l a Templates almenüt választjuk. Ezen belül a Define menü segítségével beállíthatjuk a változó típusát, felcímkézhetjük, megadhatjuk a hiányzó adatok kezelésére vonatkozó 11
STATISZTIKA jegyzet szociológus hallgatók számára
utasításokat (az el z ek szerint), majd a Name-re kattintva nevet adunk a változónak (pl. IGENNEM) és Add-et klikkelünk.
A következ
ilyen típusú változónknál nincs más dolgunk, mint a Templates
almenüb l kiválasztani a megfelel változót (pl. IGENNEM), az Apply funkcióval bejelöljük, hogy milyen beállításokat szeretnénk az új változónkra alkalmazni, majd Ok-t klikkelünk.
Ilyen módon tudunk létrehozni változókat, el tudjuk ket nevezni. Miután megvan a keretfájlunk, nem marad más dolgunk, mint bevezetni az adatokat a kódutasítás (az UTILITIES f menü File Info pontja segítségével könnyen elkészíthet ) szerint. Adatbázisunkat a többi Windows alatt futó programokhoz hasonlóan a FILE f menü Save vagy Save As… menüpontjai segítségével menthetjük meg.
12
STATISZTIKA jegyzet szociológus hallgatók számára
1.5. Az SPSS által kezelt adatállományok, adatbázisok összekapcsolása, esetek leválogatása
Az SPSS által kezelt adatállományok Az Excel programmal szemben egy SPSS sajátosság, hogy egyszerre csak egy adatbázist lehet megnyitni. Ezért nagyon fontos arra figyelni, hogy amikor több adatbázissal dolgozunk, mindig a megfelel változatot mentsük el. Miként a többi ismert programban is, a megnyitás a FILE f menü Open almenüjéb l történik. Az SPSS több más, nem SPSS (.sav) formátumú adatbázist is be tud olvasni. Ez nyilvánvalóan akkor igen hasznos, amikor nem saját adatbázisból szeretnénk dolgozni, ismerjük az SPSS programcsomagot, viszont a feldolgozandó adatfájlunk nem SPSS-ben készült. A legvalószín bb eset, amikor az adatokat egy Excel file-ba vitték be. Ebben az esetben úgy járunk el, hogy az Excel fájlt 4.0-ás verzióba elmentjük (mivel a magasabb verziók egyszerre több adatbázist is tudnak kezelni, az SPSS pedig csak egyet), bezárjuk, majd SPSS-ben az Open menüpontból (a Files of Type mez nél az *.xls kiterjesztés
fájlokat jelöljük meg) megnyitjuk az Excel
állományt. Amennyiben az Excel fájlunk fejléccel rendelkezik, az opcióknál beállítjuk, hogy az SPSS adatbázisban is maradjon meg a fejléc (Read Variable Names), majd elmentjük SPSS adatbázisként.
Adatfájlok összekapcsolása az SPSS-ben A program lehet séget ad különböz
SPSS adatbázisok összekapcsolására.
Adatmátrixról lévén szó, két lehet ségünk van: 1. olyan adatbázisokat ragasztunk össze, amelyek ugyanazokat a változókat tartalmazzák, de más-más esetekre vonatkoznak (pl. egy kérd íves felmérés kitöltött kérd íveit több személy vezette be számítógépbe úgy, hogy X az A településen lekérdezetteket, Y pedig a B településen lekérdezetteket) 2. olyan adatbázisokat ragasztunk össze, amelyeknél ugyanazok a megfigyelési egységek/esetek, de különböz
változók szerepelnek (pl. egy kérd íves felmérés
13
STATISZTIKA jegyzet szociológus hallgatók számára
kitöltött kérd íveit több személy vezette be számítógépbe úgy, hogy X minden kérd ív els 20 kérdését, Y pedig minden kérd ív utolsó 10 kérdését). Az els esetben a DATA f menü Merge Files, Add Cases menüpontjával, a második esetben a Merge Files, Add Variables menüponttal dolgozunk. Mindkét esetben a megnyíló ablakban kiválasztjuk a megnyitott adatbázishoz kapcsolni kívánt fájlt, majd az Open gombra kattintunk. Mindkét esetben az SPSS lehet séget ad arra, hogy ellen rizzük az új, összeragasztott adatbázis változóit és módosítsunk rajta (a megnyitott adatbázisunk változóit (*)-al, az importált adatbázis változóit pedig (+)-al jelöli).
Amikor új változókat szeretnénk hozzáadni az adatbázisunkhoz, mindig figyeljünk arra, hogy az eseteink ugyanabban a sorrendben legyenek mindkét adatbázisban (a DATA, Sort Cases segítségével lehet ugyanazon változó szerint sorba rendezni adatbázisainkat), tehát legalább egy közös változónk kell legyen mindkét adatmátrixban.
Megfigyelések leválogatása az SPSS-ben A megfigyelések/esetek szelektálása SPSS sajátosság. Miként a neve is jelzi, olyankor használjuk, amikor nem a teljes adatbázissal, hanem csak annak egy részével kívánunk dolgozni. A leválogatásra több lehet ségünk is van a DATA f menü Select Cases almenüjében. A Select, If condition is satisfied, If mez nél egy vagy több változó értékei szerinti feltételes leválogatást hajthatunk végre numerikus és logikai m veletek segítségével.
14
STATISZTIKA jegyzet szociológus hallgatók számára
Mint a legtöbb SPSS f ablakban, ebben is (baloldalon) megtalálható az összes változó, amivel jelenleg dolgozunk. Jobboldalon helyezkednek el (egy számológépre emlékeztet
rész formájában) a különböz
m veleti és numerikus gombok. Az
ismer s m veleti jeleken kívül (+,-, *, /) vannak olyanok is, amelyek az egyszer számológépeken nem találhatók meg. Ilyen pl. az &, a ~ stb., ezek logikai m veletek elvégzését teszik lehet vé, amelyekr l az alábbi táblázat nyújt összefoglalót: Jel
Jelentése
<
„Kisebb, mint…”
>
„Nagyobb, mint…”
<=
„Kisebb vagy egyenl , mint…”
>=
„Nagyobb vagy egyenl , mint…”
=
„Egyenl ”
~=
„Egyenl tlenség”
&
„És” „Vagy”
~
„Nem”
A numerikus gombok mellett található még egy ablak, a Functions, amely el re elkészített
utasításokat,
függvényeket
tartalmaz,
egyszer bbeket
és
kicsit
bonyolultabbakat is.
Példa Munkaadatbázisunkban (AdatbazisifjusSap.sav) 14-30 éves fiatalokon felvett adatok szerepelnek. Feltételezzük, hogy a továbbiakban csak a 20 évnél id sebb fiatalokról szeretnénk elemzést készíteni, ezért a 14-20 éves fiatalokat „kisz rjük”. Ekkor a 15
STATISZTIKA jegyzet szociológus hallgatók számára
következ képpen járunk el: a DATA f menü Select Cases almenüjében a Select, If condition is satisfied, If mez re kattintva átvisszük a k2.1 (születési év) változót, majd megadjuk a leválogatás feltételét, vagyis, hogy a válotzó értékei legyenek kisebbek, mint 1982. Aki 1982-ben született, az 2001-ben, vagyis az adatfelvétel évében pontosan 20 éves volt (minket az k adataik sem érdekelnek, hiszen csak a 21-30 évesekr l szeretnénk valamit mondani, ezért a „Kisebb, mint…”, nem pedig a „Kisebb vagy egyenl , mint…” feltételt adjuk meg), aki ennél korábban született, az 20 évnél id sebb. Miután megadtuk a leválogatás feltételét, tehát k2.1 < 1982, Continue-t klikkelünk, majd visszaérve a Select Cases almenübe az Ok gombra kattintunk.
Az SPSS választási lehet séget kínál, hogy hogyan kezelje a leválogatott eseteket (a példánkban a 14-20 éveseket). Alapértelmezésben a „Filtered”, vagyis a (meg)sz rt eset szerepel, ami azt jelenti, hogy bár a számításainkban nem jelennek meg, fizikailag továbbra is minden adatunk az adatbázisban van. A második lehet ség, hogy kitöröltetünk minden olyan esetet, amelyikkel nem dolgozunk – ebben az esetben nagyon kell figyelni arra, hogy a teljes adatbázisunk még valahol meglegyen, mivel mint tudjuk, ennek létrehozása rendkívül id igényes munka. Miként már korábban említésre került, több változó szerint is lehet feltételes leválogatási parancsot adni. Ha tovább szeretnénk sz kíteni a kört, és csak pl. Hargita megyei 21-30 éves fiatalokat szeretnénk vizsgálni, akkor a következ képpen adjuk meg a parancsot: „k2.1 < 1982
& megye = 1”. A „megye” nem más, mint a
megkérdezett lakóhelyének megyék szerinti besorolására vonatkozó változó, az 1-es kód pedig Hargita megyét jelöli. A logikai feltételek közül az „és” logikai feltételt alkalmazzuk, mivel azt szeretnénk, hogy feltételeink közül mindkett
teljesüljön.
16
STATISZTIKA jegyzet szociológus hallgatók számára
Természetesen ugyanazt a leválogatási feltételt többféleképpen meg lehet adni, pl. az el z vel azonos értelm a „k2.1 < 1982 & (megye ~= 2 & megye ~= 3 )”, stb. Minden esetleválogatáskor nagyon figyeljünk arra (erre az SPSS Data Editor ablak jobb alsó sarkában lev Filter on jelzés is figyelmeztet), hogy amikor befejeztük a részsokaságunk elemzését és újra a teljes adatbázissal szeretnénk dolgozni, mindig vegyük vissza a leválogatási feltételeinket (DATA, Select Cases, All cases).
Mintavétel az SPSS-ben A mintavétel is tulajdonképpen esetleválogatást jelent, hiszen akkor használjuk, amikor nem a teljes adatainkból, hanem azoknak csak egy véletlen halmazából kívánunk dolgozni ( a mintavételr l lásd b vebben a III. fejezetet). Az SPSS-ben két lehet ségünk van a mintavételre: vagy arra utasítjuk a programot, hogy az összesetek bizonyos százalékának megfelel en alkosson véletlen mintát, vagy megadjuk a kívánt mintánk pontos esetszámát. Mindezt szintén a DATA f menü Select Cases almenüjében, a Random sample of cases segítségével lehet megvalósítani. Ha például adatbázisunkból egy 400 f s véletlen mintát szeretnénk venni, a DATA f menü Select Cases almenüjében a Random sample os cases Sample mez jére kattintunk, és utasítjuk az SPSS-t, hogy pontosan egy 400 f s véletlen mintát válasszon az els
750 (az összes) eset közül, majd Continue-t és végül Ok-t
kattintunk.
17
STATISZTIKA jegyzet szociológus hallgatók számára
1.6. Változók átalakítása
Adatok transzformációja vagy változók átalakítása SPSS-ben Ahhoz, hogy az adatbázisunkban szerepl változóinkkal dolgozni tudjunk, legtöbb esetben módosítanunk, alakítanunk kell rajtuk. Elég, ha csak arra gondolunk, hogy minden elemzés el tt meg kell tisztítanunk adatainkat a nem releváns válaszoktól, össze kell vonnunk, csoportosítanunk kell adatainkat. Az SPSS-ben minden, a meglév
adatsokaságunk
változtatásához
(transzformációjához),
új
változók
létrehozásához szükséges alkalmazás a TRANSFORM f menüben található. A TRANSFORM- on belül megjelen menüsor elemei közül a leggyakrabban használt négyet, vagyis a különböz
számítások, matematikai m veletek elvégzésére
használatos Compute, az egyes változóértékek többszöri el fordulása összegzésére használatos Count, az átkódolásra használt Recode, valamint a szöveges adataink kezelésére használható Automatic Recode alkalmazásokat ismertetem. A Compute menü Mint a legtöbb SPSS f ablakban, ebben is (baloldalon) megtalálható az összes változó, amivel jelenleg dolgozunk. Az adatok különféle transzformációinál (pl. a Recode…-ban) lehet ség van választani, hogy a változtatásokat ugyanabba a változóba vagy egy új, általunk létrehozott változóba kérjük. Jelen esetben azonban erre nincs lehet ség. A program alapértelmezettnek veszi, hogy a változón/változókon a különböz
algebrai m veleteket úgy akarjuk végrehajtani, hogy az eredeti
változó/változók „sértetlenek” maradjanak, vagyis nevet kell adnunk az új változónak,
18
STATISZTIKA jegyzet szociológus hallgatók számára
mely a már transzformált adatokat fogja tartalmazni. Ezt az új nevet adhatjuk meg a TARGET VARIABLE mez ben, közvetlenül a változók neveit tartalmazó ablak fölött. A NUMERIC EXPRESSION elnevezés ablakban fognak megjelenni a kért változtatások algebrai alakjai, ahogyan ezt már az esetek leválogatásánál (Select Cases, If…..) megismertük. A m veleti jelek alatt található egy If… feliratú gomb. Amennyiben sz kíteni akarjuk a változtatni kívánt adatok körét, ezt az If… -re kattintva megjelen ablak segítségével megtehetjük (ahogyan a Select Casese-nél). Példa Adatbázisunkban szerepel a megkérdezettek születési éve, de mivel ez intervallum mérési szint változó, nagyon könnyen arányskálává tudjuk alakítani olyan módon, hogy életkorrá alakítjuk. Mivel adataink 2001-b l származnak, minket az érdekel, hogy a kérdezés id pontjában a megkérdezettek hány évesek voltak, így 2001-b l kivonjuk minden egyes megkérdezettünk (esetünk) születési évét. Ekkor a TRANSFORM f menü Compute almenüjében nevet adunk a létrehozni kívánt új változónknak (eletkor), a Numeric Expression mez be beírjuk az algebrai m veletet: 2001 - , majd átvisszük a születési év (k2.1) változót és az Ok-ra kattintunk. Ekkor adatbázisunk végén meg fog jelenni az új „eletkor” nev korább elmondottak szerint
változónk, amelynek a
megadjuk a paramétereit. Az új változónkban olyan
értékek fognak szerepelni, mint 14, 15,…30, tehát a megkérdezettek életkora a kérdezés id pontjában.
19
STATISZTIKA jegyzet szociológus hallgatók számára
A Count menü A Count menüt akkor használjuk, amikor olyan új változót kívánunk létrehozni, amelyben a kijelölt változók együttes el fordulásait szeretnénk regisztrálni. Itt is a Target Variable mez nél nevet adunk az új változónknak, a Target Lable mez nél az új értékünk nevét adjuk meg, a Variables mez be átvisszük azokat a változókat, amelyeknek az együttes el fordulásait vizsgáljuk, majd a Define Values-nál megadjuk a vizsgált értéket/értékeket, amelyek érdekelnek. Az If…segítségével itt is sz kíthet a vizsgált esetek köre. Példa Adatbázisunkban
a
k58.1-k58.7
változók
a
háztartások
infrastrukturális
felszereltségére vonatkoznak, az alábbiak szerint: k58. Van-e ebben a lakásban….. VAN
NINCS
1. vezetékes víz?
1
2
2. vízöblítéses WC?
1
2
3. vezetékes gáz?
1
2
4. villany?
1
2
5. szennyvízelvezet csatorna?
1
2
6. központi f tés?
1
2
7. állandó melegvízellátás?
1
2
Az ebben a formában szerepl adatok esetében egy egyszer gyakoriság segítségével rögtön megtudhatjuk, hogy a háztartások hány százaléka rendelkezik állandó melegvízellátással, stb., viszont a különböz szolgáltatások együttes el fordulásáról nincs
információnk.
Amennyiben
adatbázisunkban szerepl
pl.
azt
szeretnénk
megtudni,
hogy
az
háztartásoknak hány százaléka rendelkezik a felsorolt
infrastrukturális szolgáltatások közül legtöbb 3-al, a Count menühöz folyamodunk. A Target Variable mez nél az ”infrastr” (max. 8 karakter) nevet adjuk az új változónak, a Target Lable mez nél „A háztartások infrastrukturális ellátottsága” nevet adjuk, a Variables mez be átvisszük a k58.1, k58.2, k58.3, …k58.7 változókat, majd a Define Values-nál megadjuk az 1 (a „van” kódja) értéket, mivel az érdekel, hogy az egyes háztartások a maximális 7 szolgáltatásból hánnyal rendelkeznek. Ezt követ en Add-et és Continue-t, majd visszatérve a f ablakba Ok-t klikkelünk. 20
STATISZTIKA jegyzet szociológus hallgatók számára
Ilyen módon tehát létrehoztuk az „infrastr” nev változónkat, amelyben 0 és 7 érték közötti számok szerepelnek. A 0 azt jelenti, hogy a 7 szolgáltatás közül eggyel sem rendelkezik a háztartás, az 1, hogy a 7 közül eggyel, a 2, hogy a hét közül kett vel, stb. Tehát most már egy kumulált gyakorisággal (lásd II. fejezet) meg tudjuk mondani, hogy pontosan 323 háztartás (a háztartások 43%-a) legtöbb három infrastrukturális szolgáltatással rendelkezik a hét közül. Ez nyilvánvalóan sokkal pontosabb képet mutat a háztartások infrastrukturális felszereltségér l, mint ha azt mondjuk, hogy a megkérdezettek közül összesen 5 személy lakásában nincs villany. A Recode menü A Recode menü a változók legegyszer bb átkódolására használatos menüpont. Két lehet ségünk van erre: az Into Same Variables…-el a kért változtatásokat új változó képzése nélkül hajthatjuk végre (pl. adattisztításnál), az Into Different Variables… -el értelemszer en a kért változásokat egy új változó létrehozásával végezzük el (pl. csoportosítások esetén). Mindkét esetben, ahogyan ezt már korábban is láttuk, baloldalon lesz felsorolva az összes használt változó. A jobboldali kis ablakba (Variables, illetve Input Variable) kell áttenni azt a változót/változókat, amelyiken az átkódolást végre akarjuk hajtani. Egyszerre egy vagy több változót egyenként vagy egyszerre is át lehet tenni a jobboldali kis ablakba úgy, hogy duplán kattintunk a változóra, vagy kijelöljük és a középen található nyílra kattintunk. Amikor új változóba kódolunk, az Output Variable-ben el kell nevezni az új változót, ahol már a képzett csoportok fognak szerepelni. A Name mez be kell megadni az új változó nevét, majd a Change gombra klikkelve aktiváljuk az új változó nevét. Ahogy ez 21
STATISZTIKA jegyzet szociológus hallgatók számára
megvan, az ablak legalján található Old and New Values mez ben az Old Value alatt található Value mez be kell beírni, hogy mi a kiválasztott változó(k) eredeti értéke. Jobboldalon van a New Value alatt a másik Value mez , ide kell beírni, hogy az eredeti értékb l mi legyen. Ezután az Add gombra kattintunk és az Old -> New ablakban megjelenik a kért m veleti utasítás. Ugyan így kell eljárni a tétel összes értékével. Fontos, hogy minden változtatás, amit végre szeretnénk hajtani, az OLDNEW ablakban szerepeljen. Miután végeztünk, itt ellen rizzük az utasításokat, miel tt még a Continue-ra kattintanánk, majd a másik ablakban az OK-ra klikkelünk. Példa Nézzük az alábbi esetet. Szintén a már említett születési évet jelöl k2.1-es változóval dolgozunk. Azt szeretnénk, hogy a továbbiakban két életkorcsoportunk legyen, a 1419 évesek és a 20-30 évesek csoportja. Mivel semmiképpen nem szeretnénk elveszíteni az eredeti intervallum mérési szint változónkat, új változóba kódolunk. Legegyszer bben úgy járunk el, hogy a Compute
segítségével még egyszer
létrehozzuk az életkor változót (2001-k2.1), majd a TRANSFORM, Recode Into Different Variables-el átkódoljuk. Tehát átvisszük az „eletkor” változót, jobb oldalon a Name mez be adunk egy új nevet (korcsop), majd Change, az Old and New Values mez nél pedig a 14-19 értékekb l (Old Values) 1-es kódszámút (jelölje ez a 14-19 éveseket) és Add, a 20-30 értékekb l pedig 2-es kódszámú (jelölje a 2-es a 20-30 éveseket) értékeket gyártunk és Add-et kattintunk. Az egyes értékek egyenkénti bevitele helyett tanácsos a Range (terjedelem) gombot használni ott, ahol több egymást követ értéknek azonos új kódja lesz. Miután megnéztük, hogy így akartuk-e kódolni, Continue-t kattintunk, visszatérve az el z ablakba pedig OK-t klikkelünk.
22
STATISZTIKA jegyzet szociológus hallgatók számára
Az új, átkódolt változónkat egy gyakorisággal leellen rizzük, majd felcímkézzük és megadjuk a beállításait. Az Automatic Recode menü Ez a menüpont a szöveges (stringes) változók könnyed kezelésében nyújt segítséget. Tulajdonképpen az történik, hogy az SPSS a változó szöveges értékeit azok rangszámaival cseréli fel, tehát minden egymástól különböz jelölés (szó, kifejezés, mondat) mellé egy (rang)számot rendel. Az automatikusan létrehozott új változó már nem a begépelt szövegeket, hanem az ezekhez tartozó kódszámokat tartalmazza, így lényegesen megkönnyítve a csoportosítást és további elemzést. Akár a többi alkalmazásnál, itt is ki kell választani az adatbázisban szerepl változók közül azt, amelyiket át szeretnénk kódoltatni, majd a Variable -> New Name, New Name mez nél új nevet adunk a változónak és Ok-t klikkelünk. Példa Adatbázisunkban a k53a változó alatt a külföldi munkavállalás helyszínére (ország név) vonatkozó, nyílt kérdésre adott válaszok találhatóak. Mivel meg szeretnénk mondani, hogy a megkérdezettek hány százaléka szeretne a különböz földrajzi
térségekben
munkát
megoldhatnánk az egyszer
vállalni,
össze
kell
vonjuk
nagyobb
adatainkat.
Ezt
Recode menüvel is, viszont el szeretnénk kerülni az
összes válaszlehet ség (pl. AEA, amerika, amerikaieg, Amerika, stb.) begépelését, ezért az Automatic Recode menüt választjuk. Ebben a menüben átvisszük a k53a változót, a New Name-nél „orszagUj” nevet adunk neki, majd ismét a New Name-re klikkelünk, végül Ok-t kattintunk.
23
STATISZTIKA jegyzet szociológus hallgatók számára
A létrehozott új változó értékeir l az Output ablakban megjelen táblázatból, vagy az átvitt értékcímkékb l (dupla klikk az „orszagUj” változóra, majd a Labels…-nél megnézzük a címkéket) kapunk információt. K53A
ORSZAGUJ Old Value
New Value
Value Label
1 0
2
AEA
3
0 AEA
amerika
4
amerika
Amerika
5
Amerika
amerikaieg
6
amerikaieg
ausztria
7
ausztria
Farnciaors
8
Farnciaors
franciaors
9
franciaors
Franciaors
10
Franciaors
Izrael
11
Izrael
Kanada
12
Kanada
magyarorsz
13
magyarorsz
Magyarorsz
14
Magyarorsz
nemetorsza
15
nemetorsza
Nemetorsza
16
Nemetorsza
Nyugatiors
17
Nyugatiors
olaszorsza
18
olaszorsza
portugalia
19
portugalia
Svajc
20
Svajc
Tehát az „orszagUj” változónkban az 1-es érték azt jelenti, hogy adathiányunk van, a 2-es, hogy a megkérdezett nem tudta, hogy hol szeretne dolgozni, a 3-6 értékek, hogy Amerikában szeretne dolgozni a megkérdezett, stb. Ezek után már lényegesen egyszer bb dolgunk van az átkódolással, hiszen a Recode menüvel könnyen megoldhatjuk: TRANSFORM, Recode Into DifferentVariables, Output Variable Name „orszagCs”, Old and New Values, Range: 1-2 -> System Missing, Add, 3-6 ->1 (Amerika), Add, 7-10 és 15-20 ->2 (Nyugat Európai országok), Add, 11-12 -> 3 (más országok), Add, majd Continue és Ok. Végül az „orszagCs” változót felcímkézzük és a továbbiakban ezzel dolgozunk.
24
STATISZTIKA jegyzet szociológus hallgatók számára
2. EGYVÁLTOZÓS ELEMZÉSEK 2.1. Statisztikai alapm veletek, egyszer
elemzések: gyakorisági
eloszlások, rangsorok. Statisztikai alapm veletek A statisztikai alapm veletek, mint az összehasonlítás, csoportosítás - szinte minden statisztikai elemzés részét vagy kiindulópontját képezik. Ezek közül egyik legfontosabb alapm velet a sokaság nagyságának meghatározása. Legf bb el nye, hogy a valóságról nyújt igen tömör és lényeges számszer információt (pl. népesség nagysága). Egy megfelel en meghatározott sokaság nagysága mindig valamilyen jelenségnek a valóságban való elterjedtségét, egyfajta fontosságát jellemzi (pl. öngyilkosok száma). Diszkrét és véges sokaságok esetében ez a m velet egy egyszer
megszámlálást
igényel, folytonos és véges sokaságok esetében a sokaság meghatározása valamilyen mérést igényel (pl. havi húsfogyasztás). Nyilvánvaló, hogy a végtelen sokaságok nagysága nem adható meg számszer en. Amikor két vagy több, azonos fajta egységekb l álló sokaság nagyságát összeadjuk, általában egy nagyobb sokaság egységeihez jutunk (pl. különböz
települések
lakosságának összeadásával megkapjuk egy nagyobb térség lakosságát). Azt, hogy mit tekintünk tartalmilag homogénnek, összeadhatónak, nem csak a vizsgált dolog vagy jelenség, hanem az értékelési szempont is befolyásolja. Amennyiben pl. vidéki gazdák mez gazdasági tevékenységét vizsgáljuk, nem adjuk közvetlenül össze a megtermelt burgonya, répa, stb. termékmennyiségeket, de a mez gazdasági kistermelés nagysága szempontjából ezek tömege a mérvadó és ekkor már összeadhatjuk. Több sokaság nagyságát vagy más adatát nem csak összeadhatjuk, hanem egymással összehasonlíthatjuk, így szintén a sokaság egészét jellemz számszer információt nyerünk. Az összehasonlítás vagy az adott jelenség id beli alakulásáról, vagy területileg eltér
megnyilvánulásairól, vagy pedig egymáshoz valamilyen módon
kapcsolódó jelenségek viszonyáról ad tömör, számszer információt.
25
STATISZTIKA jegyzet szociológus hallgatók számára
Az összehasonlítás többféle lehet: egyszer felsorolás (id sor vagy területi sor, pl. a népesség száma két különböz évben vagy országban), különbség vagy hányados (viszonyszám) képzése. Szemben az összeadással, ami kommutatív (A+B = B+A), a kivonás nem az (A-B ≠ B-A), és az sem igaz, hogy ahol a kivonásnak van értelme, ott az összeadásnak is van. Ha például egy ország lakosságából kivonjuk a városlakók számát, megkapjuk a vidéken él k számát, viszont ha összeadjuk a teljes népességet a városon él k számával, az eredménynek sok értelme nincs. Különbséget csak akkor számíthatunk, ha az adatok mértékegysége azonos, viszont két adat hányadosa akkor is meghatározható, ha a két adat mértékegysége eltér . Ilyen módon az osztás vagy hányados képzése az új adatok el állításának egyik legtermékenyebb módja (elég, ha csak a különböz relatív adatokra gondolunk). Az összehasonlító viszonyszámok és az indexszámok mértékegység nélküli, “tiszta” számok. Az alábbi táblázat több sokaság nagyság- vagy más adatainak összehasonlítását szemlélteti. A sokaságok jellege Id ben és/vagy térben különböz sokaságok
A sokaságok nagyság- vagy más adatainak felsorolására hányadosára használt elnevezés Összehasonlító viszonyszám, index Összehasonlító sor (dinamikus (id sor, területi sor) viszonyszám/területi összehasonlító viszonyszám)
Id ben és/vagy térben azonos, de különböz fajta egységekb l álló sokaságok Az intenzitási viszonyszámok
Intenzitási viszonyszám mértékegysége
mindig
a
A hányados mértékegysége
–, illetve %, ezrelék
a két adat mértékegység ének a hányadosa megfelel
tört
mértékegységeinek hányadosa, az összehasonlító viszonyszámokat és indexszámokat leggyakrabban százalékként vagy ezrelékként adják meg. Példa Nézzük az alábbi fiktív adatok (amely egy iskola két évre vonatkozó különböz adatait tartalmazza) alapján hogyan lehet dinamikus viszonyszámokat számolni.
26
STATISZTIKA jegyzet szociológus hallgatók számára
Ssz.
Megnevezés
Mértékegység
1991 1997 Dinamikus viszonyszám, index (1991=100) 1 Diákok F 1000 750 750*100/1000=75% átlagos évi Ért.: az 1991-es évhez képest száma a diákok átlagos évi száma 1997-re 25%-al (100-75) csökkent 2 Ebb l I-VIII. F 800 600 600*100/800=75% osztályos Ért.: az I-VIII. osztályosok száma is 25%-al csökkent 3 Megírt Db. (1000) 560 403 403*100/560=72% dolgozatok Ért.: a megírt dolgozatok száma száma 28%-al csökkent 4 10-es Db. (1000) 47 35 35*100/47=74,5% feleletek Ért.: a 10-es feleletek aránya száma közel 25%-al csökkent 5 Megtartott Db. (1000) 32 24 24*100/32=75% órák száma Ért.: a megtartott órák száma is 25%-al csökkent 6 Alkalmazott F 107 100 100*100/107=93,5% tanárok Ért.: a tanárok aránya csak száma 6,5%-al csökkent Ha intenzitási viszonyszámokat számolunk, megkaphatjuk pl. az 1991-es évre az egy tanárra jutó megtartott órák számát: 32000/107=299óra/tanár.
Ha ezt az adatot
összevetjük az 1997-es év adatával (24000/100=240óra/tanár), kiderül, hogy 6 év alatt 20%-al (240*100/299=80%) csökkent az egy tanárra jutó megtartott órák száma. Egy további gyakran használt alapm velet a valamely adott sokaság egy vagy több ismérv szerinti tagolása, osztályozása. Az osztályozást gyakran csoportosításnak is szokás nevezni. Az osztályozás során egy sokaság különböz
ismérv(ek) szerinti
szerkezetét lehet megismerni és leggyakoribb célja, hogy a sokaságot valamilyen szempontból homogénebb csoportokra bontsuk. Az osztályok számát nem célszer túl nagyra választani, mivel további kezelésük nehézkessé válik. Az osztályozás eredményeként kapott sokaság-részeket osztályoknak, az osztályok egymástól való elhatárolására használt ismérveket csoportképz
ismérveknek
nevezzük. Az osztályozás követelményei: 1. teljesség 2. átfedés mentesség 3. az eredmény homogén osztályok kialakítása legyen.
27
STATISZTIKA jegyzet szociológus hallgatók számára
2.2. Gyakorisági eloszlások Az egy ismérv szerinti osztályozás eredménye csoportosító (gyakorisági) sor formájában adható meg. A csoportosító sor általános formája: Osztály C1 C2 . . Ci . . Ck Összesen
Egységek száma f1 f2 . . fi . . fk N
ahol: Ci – a csoportképz ismérv alapján képzett i-edik osztály azonosítója fi – a sokaság Ci osztályába sorolt egységeinek száma, gyakorisága k – a kialakított osztályok száma N – a sokaság egységeinek a száma, a sokaság nagysága. Nyilvánvaló, hogy:
N=
k i =1
fi
vagyis a sokaság nagysága egyenl a sokaság különböz osztályaiba sorolt egységei számának summájával (összegével). Az fi gyakoriságokat a sokaság nagyságával elosztva és százalékolva (megszorozva 100-al) relatív gyakoriságokat (megoszlási viszonyszámokat) kapunk. Az osztályokat definiáló jelölést (pl. C1) osztályköznek nevezzük. Amennyiben az osztályköz egy intervallum (pl. 15-19 évesek), a végpontokat osztályközhatároknak (15 és 19 év), a köztük lév
távolságot pedig osztályköz hosszúságnak (5 év)
nevezzük. Amikor az osztályköznek nincs alsó vagy fels határa, nyitott osztályközr l beszélünk. A sokaság osztályozással kialakított részeit külön-külön is tovább lehet vizsgálni, ilyenkor az osztályokat részsokaságoknak nevezzük (pl. N1-el jelöljük), az egész sokaságot pedig f sokaságnak (N). A sokaság több ismérv szerinti kombinatív osztályozása révén kombinációs, kontingencia vagy kereszttábla elnevezést visel
csoportosítást nyerünk. A
28
STATISZTIKA jegyzet szociológus hallgatók számára
kereszttábla bels rovatait celláknak, az osztályozási ismérvet pedig dimenziószámnak nevezzük. A kontingencia tábla általános sémája: X ismérv szerinti osztályok C1 C2 ... Ci ... Cr
Y ismérv szerinti osztályok
i
R1
R2
...
Rj
...
Rc
j
f11 f21 ... fi1 ... fr1 f. 1
f12 f22 ... fi2 ... fr2 f. 2
... ... ... ... ... ... ...
f1j f2j ... fij ... frj f. j
... ... ... ... ... ... ...
f1c f2c ... fic ... frc f. c
f1 . f2 . ... fi . ... fr . N
Ci – az X ismérv szerint képzett i-edik osztály azonosítója (i = 1, 2, ..., r) Rj – az Y ismérv szerint képzett j-edik osztály azonosítója (j = 1, 2, ..., c) fij – az a gyakoriság, amelynek egyedei X szerint az i-edik, Y szerint a j-edik osztályba tartoznak r – az X szerint képzett osztályok száma c – az Y szerint képzett osztályok száma fi . , f . j - peremgyakoriságok Nyilvánvaló, hogy: c j =1
f
r i =1
ij
f
=
i.
f =
r i.
i =1
c j =1
f
.j
=
f
ij
=
r
c
i =1
j =1
f
.j
f
ij
és
=N
Példa Nézzük az alábbi kereszttáblát, amely egy új törvény bevezetésével kapcsolatos véleményeket tartalmazza, nemek szerinti bontásban (fiktív adatok): N
Férfi
Összesen
Egyetért
30
80
110
Nem ért egyet
70
50
120
Összesen
100
130
230
A relatív gyakoriságokat úgy számoljuk ki, hogy a n k esetében a 30 egyetért n t viszonyítjuk az összes n számához (30*100/100), a 70 nem egyetért n számát
29
STATISZTIKA jegyzet szociológus hallgatók számára
pedig szintén az összes n számához (70*100/100). A férfiak esetében a 80 egyetért férfit a 130 f összes férfihez (80*100/130), az 50 nem egyetért férfit pedig szintén a 130 f összes férfi számához arányítjuk (50*100/130). Tehát kiszámolva a relatív gyakoriságokat a Nem változó szerint, az alábbi adatokat kapjuk: N
Férfi
Egyetért
30%
61,5%
Nem ért egyet
70%
38,5%
Összesen
100%
100%
A fenti kontingncia tábla alapján kijelenthetjük, hogy a n k 70%-a nem ért egyet, 30%-a egyetért, a férfiak 61,5%-a egyetért, 38,5%-a pedig nem ért egyet az új törvény bevezetésével. Viszont ez még mindig nem árul el semmit arról, hogy a n k vagy a férfiak értenek-e egyet nagyobb arányban. A kereszttáblát mindig relatív gyakoriságok alapján olvassuk olyan módon, hogy ha sorra százalékoltunk, oszlopra olvassuk, ha oszlopra százalékoltunk, akkor sorra olvassuk az adatokat. Miként a fenti példában is, leggyakrabban a független változó szerint (a Nem változó szerint, mivel ez befolyásolhatja a kérdéssel való egyetértést és nem fordítva) százalékolunk. Tehát oszlopra százalékoltunk, így sorok szerint olvassuk az adatokat: törvény bevezetésével egyetért k körében nagyobb a férfiak, mint a n k aránya, azok körében pedig, akik a törvény bevezetésével nem értenek egyet, nagyobb a n k, mint a férfiak aránya. Bár a fenti példánkban következtetésünk nyilvánvalónak t nik az abszolút gyakoriságok alapján is, figyeljünk arra, hogy mindig relatív gyakoriságok alapján olvassuk a kereszttáblákat (egyáltalán nem mindegy, hogy jelen esetben hány férfi és hány n dohányzási szokásait ismerjük).
A gyakorisági eloszlások kiszámítása az SPSS segítségével Az elemezni kívánt változó eloszlásának, gyakorisági sorának megtekintése minden elemzés els Statistics
lépését képezni. Kattintsunk az ANALYZE f menü Descriptive
almenüje
információlekérdez
Frequencies
parancsára.
Ebben
a
menüben
általános
parancsok találhatóak, amelyek segítségével a változók
legfontosabb tulajdonságait (elemszám, terjedelem, középértékek, stb.) tudjuk megtekinteni. A megnyíló ablakban, bal oldalon, minden változó szerepel, amelyek közül kiválaszthatjuk azt/azokat, amelyekre gyakoriságot akarunk kérni., A változó
30
STATISZTIKA jegyzet szociológus hallgatók számára
kiválasztása után egyszer en Ok-t klikkelünk és az Output ablakban máris megjelenik a kért gyakorisági tábla. Példa Adatbázisunkban a k3.1-es változó a megkérdezettek nemét jelöli. Erre kérünk a fentiek szerint egy gyakorisági táblát.
A kért tábla a következ formában jelenik meg: Statistics Neme N Valid Missing
750 0
Ez az els táblázat azt mutatja, hogy a változóban hány tényleges adat (Valid) és hány hiányzó adat (Missing) szerepel. A gyakoriságok a második táblázatban vannak feltüntetve. Neme
Valid
Az els
férfi nõ Total
Frequency 373 377 750
Percent 49,7 50,3 100,0
Valid Percent 49,7 50,3 100,0
Cumulativ e Percent 49,7 100,0
oszlopban a változó értékei jelennek meg, vagyis a „férfi” és „n ”
(változónkat már korábban felcímkéztük), a második oszlop az egyes változóértékek abszolút gyakoriságait mutatja (Frequency), a harmadik oszlopban a relatív gyakoriságok olvashatók (Percent), a negyedik oszlopban a valódi relatív gyakoriságok (Valid Percent), az utolsó oszlopban pedig a kumulált százalékos gyakoriságok találhatóak (Cumulative Percent). A valódi relatív gyakoriság nem más,
31
STATISZTIKA jegyzet szociológus hallgatók számára
mint az egyes értékek el fordulásainak a tényleges adatokhoz való viszonyítása (amikor hiányzó adataink is vannak, ezek nem kerülnek be a számításba). A kumulált gyakoriság nem más, mint a valódi relatív gyakoriságok osztályonkénti összeadása. Értelmezvén a gyakorisági sorunkat elmondhatjuk, hogy egyetlen hiányzó adatunk sincs, a 750 megkérdezett 49,7%-a (373 f ) férfi, 50,3%-a (377 f ) n . Az SPSS-ben lehet ségünk van a gyakorisági sorunk grafikus megjelenítésére is. Ez szintén az ANALYZE f menü Descriptive Statistics, Frequencies menüben oldható meg, az ablak alján, középen található Chart menü segítségével. Itt beállítható a kért diagram típusa (oszlop, kör vagy hisztogramm), valamint megadható, hogy az adatok abszolút vagy százalékos formában jelenjenek meg. Gyakoribb a százalékos formában való ábrázolás. Mennyiségi változók esetében tanácsos hisztogrammot, kategoriális változók esetében pedig kör- vagy oszlopdiagramot kérni.
A vizsgált változónk esetében kördiagramot kértünk. Az ábrára kétszer kattintva eljutunk a Chart Editor ablakba, ahol kedvünkre „szépítgethetjük” diagramunkat. Neme
férfi 49,7% nõ 50,3%
32
STATISZTIKA jegyzet szociológus hallgatók számára
Kereszttábla készítése az SPSS-el Akárcsak a gyakorisági táblákat, kontingencia táblákat is az ANALYZE f menü Descriptive Statistics almenüjében, viszont a Crosstabs menüpontnál készíthetünk. A bal oldalon szerepl változók közül kiválasztjuk azt a kett t (többet is lehet, de minél több dimenziós a kereszttáblánk, annál kevésbé áttekinthet ), amelyikre kereszttáblát kérünk, majd a Cells gombnál beállítjuk, hogy sorra vagy oszlopra százalékoljon a program és Continue-t kattintunk. Visszatérve a f ablakba, a változók alatt, bal oldalon beklikkelhetjük, hogy ábrázolja is adatainkat (Display Clustered Bar Charts), majd OK-t kattintunk. Példa Készítsünk egy kereszttáblát az adatbázisunkban szerepl Nem és Település típusok változók között, a fentiek szerint.
33
STATISZTIKA jegyzet szociológus hallgatók számára
A kereszttáblánk az alábbi formában néz ki: Település típusok * Neme Crosstabulation
Település típusok
város községközpont falu
Total
Count % within Neme Count % within Neme Count % within Neme Count % within Neme
Neme férfi 147 39,4% 124 33,2% 102 27,3% 373 100,0%
nõ
Total 297 39,6% 249 33,2% 204 27,2% 750 100,0%
150 39,8% 125 33,2% 102 27,1% 377 100,0%
A kereszttábla adatai alapján elmondhatjuk, hogy a férfiak 39,4%-a városon, 33,2%-a községközpontban, 27,3%-a pedig falun él. A n k 39,8%-a városon, 33,2%-a községközpontban és 27,1%-a falun él. Úgy a városon, mint községközpontban és falun él n k aránya azonos az ugyanazon típusú településeken él férfiak arányával. Grafikus formában így néznek ki az adataink:
100
51
50
50
49
50
50
90 80 70 60 50 40 30 20 nõ
10 0
férfi város
községközpont
falu
Rangsorok Az ismérvértékek számszer
jellegében rejl
egyik legkézenfekv bb lehet ség a
sokaság egységeinek sorbarendezése a változó nagysága szerint. Ez akkor is igaz, ha a változó ordinális mérési szint . A változó értékeinek nagysága szerint növekv vagy csökken sorba rendezhetjük a sokaságot és ennek eredményét rangsornak nevezzük.
Általában
monoton
nemcsökken módon szokás rangsorolni. Míg a sokaságnak egy diszkrét ismérv azonos értékeivel bíró egységei valóban egyformák az adott ismérv szempontjából (ezért tetsz leges sorrendbe állíthatóak), addig egy folytonos ismérv azonos értékeivel jellemzett egységek nem feltétlenül 34
STATISZTIKA jegyzet szociológus hallgatók számára
egyformák (csak kényszer ségb l állíthatóak egymás között tetszés szerinti sorrendbe). A rangsor igen gyakran kizárólag azon célból készül, hogy megkönnyítse az osztályozást. F ként mennyiségi mérési szint változók esetén használjuk.
2.3. A centrális tendenciák mutatói: átlag, medián, módusz. A középértékek vagy helyzet-mutatók olyan mutatószámok, amelyek a sokaság egészét vagy a vizsgált gyakorisági eloszlás helyzetét egyetlen számértékkel jellemzik, így a sokaságok tulajdonságait a legtömörebb formában fejezik ki. A középértékek legf bb el nyei: -
közepes helyzet ek (a minimum és maximum értékek között helyezkednek el)
-
tipikusak (viszonylag sz k környezetében az összes ismérvértéknek nagy hányada található)
-
egyértelm en meghatározhatóak
-
könnyen értelmezhet ek
-
közérthet ek.
A középértékeket két nagy csoportba szokás sorolni: vannak számított középértékek (különböz átlagok) és helyzeti középértékek (medián és módusz). Az átlagok matematikai számítások eredményei, az ismérvértékekkel matematikai, számszer összefüggésben állnak, és értéküket nem befolyásolja az észlelési adatok sorrendje. A számított középértékek: számtani átlag (egyszer , súlyozott), harmonikus átlag (egyszer és súlyozott), mértani átlag, négyzetes átlag. A helyzeti középértékek az értékek nagysága szerint rendezett statisztikai sorban, általában matematikai számítás nélkül jelölhet ek ki és az ismérvértékek közötti elhelyezkedésüknél fogva jellemzik a sokaságot. A helyzeti középértékek: medián, módusz. A számtani átlag Az egyszer számtani átlag vagy átlag az észlelési adatok (Xi) összegének és az átlagolandó adatok el fordulási számának hányadosa (N), képlete: N
X + X2 + X = 1 N
+ XN
=
i =1
Xi
N 35
STATISZTIKA jegyzet szociológus hallgatók számára
Tahát egy mennyiségi változó átlaga a felvett összes érvényes értékek számtani középarányosa. Az átlagot csupán mennyiségi változókra számítjuk ki (az SPSS program bármilyen numerikus típusnak definiált változó esetén kiszámítja az átlagértéket, még akkor is, ha annak semmi értelme, pl. a Nem változóra is). Az átlag legfontosabb tulajdonságai Minden ismérvértéket a számtani átlaggal helyettesítve a sor összege változatlan marad, vagyis megegyezik az eredeti sor összegével. Ha minden ismérvértéket a számtani átlaggal helyettesítünk, akkor az is következik, hogy a helyettesítéssel elkövetett el jeles hibák pontosan kiegyenlítik egymást: N i =1
(Xi − X ) = 0
Az ismérvértékek számtani átlaggal való helyettesítése minimálissá teszi a helyettesítéssel elkövetett hibák négyzetösszegét: N i =1
( X i − X )2
Az átlag egyik legfontosabb sajátossága, hogy elt nteti az észlelt adatok értéknagyságbeli különbségét, viszont egyetlen értéknagyság változása megváltoztatja az átlag értékét (függ minden egyes értékt l). Példa Nézzük a következ szemléltet példát átlagszámításra. Adott az alábbi, monoton nem csökken módon rendezett értéksorunk: 0 ; 0 ; 0,5 ; 0,6 ; 0,8 ; 1 ; 1 ; 1 ; 3 ; 5 ; 10. A számtani átlagot a következ képpen számoljuk ki:
X =
X1 + X 2 + N
+ XN
=
0 + 0 + 0,5 + 0,6 + 0,8 + 1 + 1 + 1 + 3 + 5 + 10 22,9 = = 2,08 11 11
Súlyozott átlag A számtani átlagot nagyon gyakran nem az egyenként ismert alapadatokból számítjuk ki, hanem egy gyakorisági sor adataiból. Ekkor súlyozott számtani átlagról beszélünk.
36
STATISZTIKA jegyzet szociológus hallgatók számára
A súlyozott átlagot úgy számoljuk ki, hogy az X ismérv szerint képzett Ci osztályok gyakoriságait (fi) szorozzuk a Ci osztály ismérvértékével, majd ezen szorzatokat összeadjuk: k
f X + f2 X 2 + + fk X k X= 1 1 = f1 + f 2 + + f k
i =1 k
fi X i
i =1
fi
Tehát egy súlyozott számtani átlag nagyságát mindig két tényez határozza meg: az átlagolandó értékek nagysága, azaz az Xi értékek sorozata, valamint az átlagolandó értékekhez tartozó fi súlyszámok egymás közötti aránya, azaz relatív nagysága. Amikor egy ismérvnek a megfigyelt sokaság egységeinél fellép értékei egyenként ismertek, akkor a súlyozatlan esettel, ha pedig az ismérvnek a megfigyelt sokaság egységeinél fellép értékei gyakorisági sorba rendezetten ismertek, akkor súlyozott esetet használunk. Súlyozott esetben az X ismérv szerint képzett osztályok gyakoriságait súlyoknak is nevezik. A súlyok összege mindig N. Példa Nézzünk egy példát a súlyozott átlagszámításra. Egy diák 4 tárgyból az alábbi jegyeket kapja: 8, 9, 7, 10. Azt is tudjuk, hogy amib l 8-as és 10-es osztályzatot kapott, az két 3 kredites tárgy, 7-est egy 5 kredites tárgyból, 9-est pedig egy 4 kredites tárgyból kapott. A kérdés, hogy hányas lesz a tanulmányi átlaga. Miként már a Bevezet ben is említésre került, a társadalomstatisztikában sokszor el fordul, hogy egyes számítások matematikai értelemben vett pontossága magyarázatra szorul. Ebben a példánkban is egy ilyen esettel találkozunk, hiszen az iskolai osztályzat egy ordinális mérési szint változó (nem tudjuk azt mondani, hogy aki 10-est kap, az kétszer annyit tud, mint aki 5-öst kap), és átlagot csak mennyiségi változókból számítunk. Viszont a mindennapi életben nagyon gyakran el fordul, hogy egyetlen számmal szükséges jellemezni egy személy teljesítményét, rangsort kell felállítanunk, és ilyenkor átlagot számolunk.
X=
f1 X 1 + f 2 X 2 + + f k X k 3 * 8 + 4 * 9 + 5 * 7 + 3 *10 125 = = = 8,33 f1 + f 2 + + f k 3+ 4+5+3 15
Értelmezés. A diák négy tantárgyra számított tanulmányi átlaga 8,33.
37
STATISZTIKA jegyzet szociológus hallgatók számára
A folytonos változók (pl. jövedelem) sokféle, egymástól eltér értéket vehetnek fel. Amennyiben az adatokat pontos értékükkel rögzítettük, az SPSS segítségével könnyedén kiszámíthatjuk az átlag pontos értékét. Néha azonban el fordul, hogy adatainkat csoportosított formában rögzítettük (pl. jövedelemkategóriákat adtunk meg a nagyobb válaszolási arány kedvéért), vagy mások által gy jtött adatokon dolgozunk, ahol a folytonos adatok csoportosított formában szerepelnek. Ebben az esetben az átlagértéket pontosan nem tudjuk kiszámítani, csak jó becslést tudunk adni rá (nem tudjuk, hogy egy intervallumon belül a kisebb érték vagy a nagyobb érték köré tömörülnek az adatok). Alapvet , hogy adataink oly módon legyenek csoportosítva, hogy a változó legalább intervallum mérési szint csoportok egyenl
legyen, tehát a létrehozott
hosszúságúak legyenek. Ilyenkor az átlag kiszámításakor az
osztályközepeket kell súlyozni. Az osztályközép nem más, mint az egy osztályba tartozó legkisebb és legnagyobb érték számtani átlaga: (Xmin + Xmax )/2. Példa Nézzük az alábbi gyakorisági sort. A táblázat 40 diák feladat-megoldási idejét tartalmazza,
másodpercben
kifejezve
(3
diák
118-126
másodperc
közötti
id intervallumban oldotta meg a feladatot, stb.): Id (s)
Gy (fi)
118-126
3
127-135
5
136-144
9
145-153
12
154-162
5
163-171
4
172-180
2
X=
f1 X 1 + f 2 X 2 + + f k X k = f1 + f 2 + + f k
3 *[(118 + 126) / 2] + 5 * [(127 + 135) / 2] + .... + 2 * [(172 + 180) / 2] = 3 + 5 + 9 + 12 + 5 + 4 + 2 5879 = = 146,98 40 =
Ért.: A diákok átlagosan 147 másodperc alatt oldották meg a feladatot.
38
STATISZTIKA jegyzet szociológus hallgatók számára
A többi átlagfajtát a következ táblázat szemlélteti: Elnevezés
Számítás
Jelölés
súlyozatlan
súlyozott
N Harmonikus átlag
−
X
N
1 Xi
h
i =1
Mértani (geometriai) átlag Négyzetes átlag
(kvadratikus)
−
X
g
N
N
q
i =1
Π iN=1 X i
−
X
N k
i =1
X i2
N
N
fi Xi
Π ik=1 X i f i k i =1
f i X i2 N
A harmonikus és mértani átlag általában olyan esetekben használható, amikor nem az ismérvértékek összegének, hanem az azok reciprokából képzett összegnek vagy azok szorzatának van valamilyen értelme. Ilyenkor közelít
értéket kapunk. Négyzetes
átlagot akkor számolunk, amikor ki akarjuk küszöbölni az átlagolni kívánt érték el jelét. A medián A medián ordinális skálán mért adatokból is meghatározható. A medián vagy középs szám az ismérvértékek nagyság szerint rendezett adatsorának közepén elhelyezked érték, tehát az az érték, amelynél ugyanannyi nagyobb, mint kisebb érték eset van. Ha N páratlan, akkor a medián értéke közvetlenül a középs érték lesz, amelynek a sorszáma az összes érték növekv sorba rendezése esetében (N+1)/2 lesz. Ha N páros, akkor nincs egy pontosan beazonosítható középs eset. Ilyenkor konvenció szerint a medián értéke a két középs érték számtani átlaga lesz. Az észlelési adatok bármely tetsz leges számtól számított abszolút eltérések közül a mediántól számított eltérések abszolút értéke a legkisebb. Ha a jelenség nem túl változékony, a medián és az átlag közötti különbség általában nem nagy. Legf bb el nye, hogy nem igényel számítást, ezért gyorsan meghatározható. A medián, mint felez érték, nagyszámú megfigyelés esetén az értékek eloszlásának megítélésében játszik szerepet, közvetlenül nem függ az összes rendelkezésre álló értékt l, de a széls séges értékekt l sem. Ezért tekintik a legfontosabb pozicionális centrális mutatónak.
39
STATISZTIKA jegyzet szociológus hallgatók számára
Példa Nézzük az el z szemléltet példánkat. Adott az alábbi, monoton nem csökken módon rendezett értéksorunk: 0 ; 0 ; 0,5 ; 0,6 ; 0,8 ; 1 ; 1 ; 1 ; 3 ; 5 ; 10. Nagyon fontos arra figyelnünk, hogy az adataink monoton nem csökken módon legyenek rendezve (ha nem ilyen formában szerepelnek, rendezzük sorba), hiszen pozicionális mutatót vizsgálunk. Ebben az esetben egy páratlan értéksorunk van, tehát a medián pontosan a középs
érték, azaz a (11+1)/2-ik esetnek megfelel
érték,
vagyis 1. Értelmezése, hogy a 11 esetünk fele 1-nél nagyobb, fele pedig egynél kisebb értékeket vesz fel. Abban az esetben, ha folytonos jelleg adatokból egyenl hosszúságú intervallumokat hozunk létre, akkor számíthatunk mediánt, ha az eseteket úgy tekintjük, mintha az adott intervallumon belül egyenletesen oszlanak meg. Ilyenkor a mediánt az alábbi tapasztalati képlettel számítjuk ki:
N +1 −( 2 M e = L1 + fMe ahol:
f1 )
⋅c
L1 - a mediánt tartalmazó osztály valódi alsó határa f
1
- a mediánt tartalmazó osztály el tt lév
osztályokhoz tartozó
gyakoriságok összege (kumulált gyakoriság) fMe – a mediánt tartalmazó osztály gyakorisága c – osztályköz vagy osztályhosszúság Az eljárás a következ lépéseket tartalmazza: kiszámítjuk a kumulált gyakorisági értékeket, kijelöljük a középs esetet tartalmazó osztályt, meghatározzuk a mediánt tartalmazó osztály valódi alsó határát, kiszámítjuk az osztályhosszúságot, majd kiszámítjuk a mediánt.
40
STATISZTIKA jegyzet szociológus hallgatók számára
Példa Nézzük a 40 diák feladat-megoldási idejét tartalmazó példánkat. Id (s)
Gy (fi)
118-126
3
3
127-135
5
8
136-144
9
17
145-153
12
29
154-162
5
34
163-171
4
38
172-180
2
40
f
1. kiszámoljuk a kumulált gyakoriságokat egy új oszlopba 2. N+1/2=20,5, tehát a medián a huszadik és huszonegyedik esetet tartalmazó osztályban van (az értéke 145 és 153 között kell legyen) 3. a mediánt tartalmazó osztály valódi alsó határa (L1)144,5 (mivel folytonos változónk van, az értékek tizedesek is lehetnek) 4. az osztályhosszúság (c ) a valódi fels és alsó határok különbsége, azaz 9 másodperc (153,5-144,5)
i
Behelyettesítve a képletbe, megkapjuk a medián értékét:
N +1 −( 2 M e = L1 + f Me
f1 )
40 + 1 − (3 + 5 + 9) 2 ⋅ c = 144,5 + .9 = 147,1 12
Értelmezés. A 40 diák fele 146,8 másodpercnél kevesebb, fele pedig ennél több id alatt oldotta meg a feladatot. A módusz A módusz a statisztikai sor leggyakrabban el forduló értéke, az az érték, amely körül az észlelési adatok értéknagyság tekintetében leginkább tömörülnek. A módusz megállapításához célszer az adatokat gyakorisági sorba rendezni, így a módusz a sor legnagyobb gyakorisággal el forduló értéke. Nem mindig létezik és vannak esetek, amikor többmóduszú gyakorisági sorokat észlelünk - ilyenkor nem szokás használni. A módusz szabálytalanul növekv adatsor esetében sem jellemzi a sokaságot. De mivel a ténylegesen leggyakrabban el forduló érték, sokszor a jelenség természetét jobban kifejezi, mint a többi középérték. További el nye, hogy nominális skálán mért alapadatokból is meghatározható.
41
STATISZTIKA jegyzet szociológus hallgatók számára
Példa Az el z szemléltet példánk egy egyszer értéksort tartalmaz. 0 ; 0 ; 0,5 ; 0,6 ; 0,8 ; 1 ; 1 ; 1 ; 3 ; 5 ; 10. Ebb l egyértelm , hogy a módusz 1, hiszen ez a leggyakrabban el forduló érték. Folytonos ismérven mért, intervallum mérési szint csoportosított adatokból az alábbi tapasztalati képlettel számítunk móduszt:
M o = L1 + ahol:
D1 ⋅c D1 + D2
L1 - a móduszt tartalmazó osztály valódi alsó határa D1 – a móduszt tartalmazó és az el tte lév
osztály gyakoriságainak
különbsége D2 – a móduszt tartalmazó és az utána lév
osztály gyakoriságainak
különbsége c – osztályköz vagy osztályhosszúság Az eljárás a következ lépéseket tartalmazza: kijelöljük a legtöbb esetet tartalmazó osztályt, meghatározzuk a móduszt tartalmazó osztály valódi alsó határát, kiszámítjuk a D1 és a D2 értékeit a gyakorisági sorból, kiszámítjuk az osztályhosszúságot, majd kiszámítjuk a mediánt. Példa Nézzük újra a 40 diák feladat-megoldási idejét tartalmazó példánkat. Id (s)
Gy (fi)
118-126
3
127-135
5
136-144
9
145-153
12
154-162
5
163-171
4
172-180
2
1. a legtöbb eset a 12 diákot tömörít 4. osztályban van, tehát a módusz értéke 145153 között kell legyen 2. a móduszt tartalmazó osztály valódi alsó határa (L1)144,5 (mivel folytonos változónk van, az értékek tizedesek is lehetnek) 3. D1=12-9=3 4. D2=12-5=7 5. az osztályhosszúság (c ) a valódi fels és alsó határok különbsége, azaz 9 másodperc (153,5-144,5)
42
STATISZTIKA jegyzet szociológus hallgatók számára
M o = L1 +
(12 − 9) D1 ⋅ c = 144,5 + .9 = 147,2 D1 + D2 (12 − 9) + (12 − 5)
Értelmezés.: A legtöbb diák 147,2 másodperc alatt oldotta meg a feladatot. Választás a középértékek között Gyakorlati szempontból a három legfontosabb középérték az átlag, módusz és medián. Annak eldöntése, hogy adott esetben melyiket használjuk, nem egyszer kérdés. A középértékek közötti választást leggyakrabban motiváló szempontok a következ k: - az adott középérték mindig egyértelm en meghatározható-e - az összes rendelkezésre álló ismérvértékt l függ-e vagy nem - mennyire érzékeny a széls séges ismérvértékekre mekkora és milyen módon értelmezhet hibával képes helyettesíteni az alapadatokat. A döntéshez az alábbi táblázat nyújt segítséget: Átlag Egyértelm en meghatározható Függ az összes értékt l Érzékeny a széls séges értékekre Az el jeles hibák összességükben kiegyenlítik egymást és minimálissá teszi a helyettesítéssel elkövetett hibák négyzetösszegét
Módusz Nem mindig határozható meg egyértelm en Nem függ az összes értékt l Nem érzékeny a széls séges értékekre Az ismérvértékek helyébe téve ritkán és csak kis hibát követünk el
Medián Mindig egyértelm en meghatározható Nem függ az összes értékt l Nem érzékeny a széls séges értékekre A hibaösszeget minimalizálva helyettesíti az ismérvértékeket
Példa A diákok feladatmegoldó képességér l szóló példánkban a három középérték: X = 146,97
Me = 147,1
Mo = 147,2
Látható, hogy mindhárom középérték egymáshoz nagyon közeli érték, így nem könny eldönteni, hogy melyik jellemzi legjobban a 40 diákot. Ilyen esetben az elemzés céljának a függvényében kell eldöntenünk, hogy melyik információ mond a legtöbbet a sokaságról. Ha pl. több diákcsoport teljesítményét szeretnénk
43
STATISZTIKA jegyzet szociológus hallgatók számára
összehasonlítani, akkor átlaggal jellemezzük a sokaságot, ha azt szeretnénk eldönteni, hogy mennyi id alatt lehet egy ilyen típusú feladatot megoldani, akkor móduszt használunk, stb.
A középértékek kiszámítása SPSS-el A centrális tendenciák kiszámítása nagyon egyszer
az SPSS-el. Ahogyan már
korábban is említésre került, legf bbképpen arra kell figyelnünk, hogy a középértékekkel jellemezni kívánt változónk mérési szintje megengedi-e a számítást. Akár csak a gyakorisági tábla lekérése, a középértékek kiszámítása is az ANALYZE f menü Descriptive Statistics, Frequencies menüvel történik. Miután átvittük az elemezni kívánt változónkat/változóinkat, az ablak alsó részén található STATISTICS mez re kattintunk, és bejelöljük a kért statisztikákat. A középértékek a Central Tendency ablakrészben találhatóak, ahol az átlagot a mean, a mediánt a median, a móduszt pedig a mode mellett szerepl mez kre klikkelve lehet lekérni. Példa Adatbázisunkban a k.61-es változó a birtokolt személygépkocsik régiségére vonatkozik (Hány éves az autó?). Tehát arányskálánk van, minden középérték kiszámítható és értelmezhet . El ször azonban, a már ismert módon, kérjünk a változóra egy gyakoriságot, hogy ellen rizzük le adatainkat (kell-e tisztítani, vannak-e nem releváns adataink). A gyakorisági tábla azt mutatja, hogy 291 releváns válaszadónk van, és egyetlen értékt l sem kell megválnunk. Az adattisztítás minden egyes elemzés esetén elengedhetetlen, hiszen néhány rosszul bevitt, vagy az elemzés szempontjából értelmetlen adat nagyon eltorzíthatja következtetéseinket. Például ha a mi esetünkben szerepelt volna egy 1010-es érték és nem válunk meg t le az elemzés el tt, teljesen hibás átlagéletkort számolunk a birtokolt autókra. Vagy ha pl. azokat, akiknek nincs autójuk 0-val kódoltuk és ket is bevonjuk az elemzésbe, azt derítenénk ki, hogy a legtöbb autó 0 éves, vagyis nemrégiben és újonnan vásárolt. A gyakorisági tábla szemrevételezése után az el z ek szerint lekérjük a középértékeket, majd Continue-t és visszatérve az el z ablakba Ok-t kattintunk.
44
STATISZTIKA jegyzet szociológus hallgatók számára
Az Output ablakban rögtön megjelennek a kért statisztikák, amelyb l kiolvasható, hogy 291 válaszadónk van, az általuk birtokolt autók átlagéletkora 12,33 év, az autótulajdonosok fele 12 évnél id sebb, fele pedig 12 évnél fiatalabb autóval rendelkezik és a legtöbb autótulajdonosnak 10 éves az autója. Statistics K61 N Mean Median Mode
Valid Missing
291 459 12,33 12,00 10
2.4. Szórás és szóródás Egy statisztikai sokaság elemei valamely tulajdonság értéknagysága tekintetében eltérnek egymástól, változékonyak. Míg a középérték alkalmas arra, hogy e változékonyság ellenére az adott tulajdonság értéknagyságát tömören, az egész sokaságra nézve kifejezze - tehát a középérték a sokaság közös jellemz je -, addig a szóródás az egyedi tulajdonságokhoz köt dik. A szóródási mutatókat csak mennyiségi változókra számolhatjuk. A szóródás a sokaság elemei egyedi tulajdonságainak értéknagyságát, azok változékonyságát, a középértékt l való eltérését mutatja.
45
STATISZTIKA jegyzet szociológus hallgatók számára
A szóródás egyes változók esetén nagyobb, a másiknál kisebb is lehet annak ellenére, hogy az átlaguk megegyezik. Ugyanakkor a szóródás nagyságának a kifejezésére a középérték megfelel
bázist nyújt, mivel az egyes értékek nem csak egymástól,
hanem a középértékt l is különböznek. Az azonos tulajdonságú, de eltér értéknagyságú észlelési adatok egymástól vagy a középértékt l való különböz sége a szóródás. Az ismérvértékek egymás közötti különbségeib l számított szóródási mutatókat és a valamely kitüntetett értékt l számított eltéréseken alapuló mutatókat abszolút szóródási mutatóknak nevezik. Az abszolút szóródási mutatók mértékegysége mindig az ismérvértékek mértékegysége. A szóródás relatív mutatószámai elvonatkoztatnak az ismérvérték eredeti mértékegységét l és els sorban összehasonlítási célokat szolgálnak. A szóródás kifejezésére használatos mutatószámok: - a szórás terjedelme - a kvartilis eltérés - átlagos különbség - a középeltérés - az abszolút átlageltérés - a négyzetes átlageltérés (szórás) és a variancia - szóródási együttható. A szórás terjedelme – range A szórás terjedelme annak az intervallumnak a teljes hossza, amelyen belül az ismérvértékek elhelyezkednek.
iS = X max − X min Tehát a szóródás terjedelme az észlelési adatok közül a legnagyobb és a legkisebb értéknagyságú adat különbsége. Mivel a két legszéls ségesebb ismérvértékt l függ, csak kevéssé jellemzi a vizsgált jelenség valódi természetét. Alkalmazása inkább homogén részsokaságoknál fejezi ki a szakmai szempontból elfogadható terjedelmet, osztályközös gyakorisági sorokból csak a két széls kategória felez pontjainak különbségéb l becsülhet . Egyértelm hátránya tehát az, hogy az értékskála közbees értékeir l semmit sem tudunk meg, viszont nagyon egyszer en el állítható és könnyen érthet adat. Például
46
STATISZTIKA jegyzet szociológus hallgatók számára
ha egy háztartási adatbázisban a legkisebb bevétel 500 ezer ROL, a legnagyobb pedig 320 millió ROL, akkor a terjedelem 319 millió 500 ezer ROL. A kvartilis eltérés vagy interkvartilis félterjedelem A kvartilis eltérés számítására akkor van szükség, ha a sokaság adatainak széls értékei nagymértékben eltérnek a többi adattól. Használata olyan gyakorisági soroknál a legindokoltabb, ahol nyitott osztályközökkel indul és zárul a statisztikai sor (a szórás terjedelme nem becsülhet kiegészít információk nélkül). A nagyság szerint rendezett értéksort negyedel értékek a kvartilisek. Három kvartilist szoktak megkülönböztetni: - alsó kvartilis: az az érték, amely alatt a sokaság egynegyede által felvett értékek
találhatóak, az nQ1 = - középs
n +1 -edik esetnek megfelel érték 4
kvartilis: az az érték, amely alatt a sokaság fele által felvett értékek
találhatóak, az nQ 2 =
n +1 -edik esetnek megfelel érték, vagyis a medián 2
- fels kvartilis: az az érték, amely alatt a sokaság háromnegyede által felvett értékek találhatóak, az nQ 3 =
3(n + 1) -edik esetnek megfelel érték 4
Akárcsak a medián esetében, intervallum mérési szint
gyakorisági soroknál a
kavartilisek értéknagyságát becsléssel lehet meghatározni:
Qi = Q X 0 +
nQi −
q −1 i =1
fq
fi' .c
ahol: Q X 0 – a kvartilis adat sorszámának megfelel osztály alsó határa nQi – az i-edik kvartilis adat sorszáma q −1 i =1
′ f i - a kvartilis osztályig terjed kumulált gyakoriságok összege
fq – a kvartilist tartalmazó osztály gyakorisága c – osztályköz vagy osztályhosszúság Az interkvartilis terjedelem mér száma – a széls értékekt l függetlenül – azt a távolságot adja meg, amelyen belül az észlelési adatok 50%-a megtalálható.
iq = Q3 − Q1
47
STATISZTIKA jegyzet szociológus hallgatók számára
A kvartilis eltérés vagy interkvartilis félterjedelem a harmadik és az els negyedel értékek különbségének a fele.
Qe =
Q3 − Q1 2
Példa Adott az alábbi fiktív adatsor, amelyen az interkvartilis terjedelem kiszámítását mutatom be. A lépések hasonlóak a mediánnál leírtakkal.
Család évi jövedelme
Családok száma
Kum.
(millió ROL)
gy.
20-39
5
5
40-59
13
18
60-79
18
36
80-99
17
53
100-119
14
67
120-139
13
80
140-159
7
87
160-179
4
91
180-199
4
95
Q1 = Q X 0 +
Q3 = Q X 0 +
nQ 3 −
nQ1 −
q −1 i =1
fq
q −1 i =1
fq fi'
fi'
.c = 59,5 +
.c = 119,5 +
1. kiszámítjuk a két kvartilis sorszámát: n + 1 95 + 1 nQ1 = = = 24 4 4 3(n + 1) 3(95 + 1) nQ 3 = = = 72 4 4 2. kiszámoljuk a kumulált gyakoriságokat egy új oszlopba 3. beazonosítjuk a kvartiliseket: az alsó kvartilis a 3., a fels pedig a 6. osztályban van 4. kiszámoljuk az osztályhoszzúságot: 79,959,9=20
24 − (5 + 13) .20 = 66,16 18
72 − (5 + 13 + 18 + 17 + 14 ) .20 = 127,19 13
iq = Q3 − Q1 = 127,19 − 66,16 = 61,03 Értelmezés. Az alsó kvartilis értéke 66,16, tehát a vizsgált családok egynegyedének 66 millió ROL alatt van az évi jövedelme. A fels kvartilis értéke 127,19, tehát a családok háromnegyede 127 millió lejnél (ROL) kisebb, egynegyede pedig ennél nagyobb évi jövedelemmel rendelkezik. Az interkvartilis terjedelem értéke 61,03 millió ROL, a családok fele 66 és 127 millió ROL közötti bevételre tesz szert évente.
48
STATISZTIKA jegyzet szociológus hallgatók számára
Átlagos (abszolút) különbség Ez a szóródási mutató minden lehetséges módon párba állított ismérvértékek különbségeinek abszolút értékéb l számított átlag.
1 G= N ( N − 1)
k
k
i =1 j =1
fi f j X i − X j
A Gini – féle mutató azt mutatja, hogy az X ismérv értékei átlagosan mennyire különböznek egymástól. Ha minden ismérvérték egyforma, azaz nincs szóródás, akkor G = 0. Az átlagos különbség számszer
meghatározása elég kényelmetlen, ezért a
gyakorlatban ritkán használják. Jelent ségét a koncentrációhoz való szoros kapcsolódása adja.
A középeltérés A középeltérés a sokaságelemek mediántól számított eltéréseinek az átlaga. n
Ke =
i =1
Xi − Me n
Alkalmazása f ként arra az esetre koncentrálódik, amikor a sokaság jellemzésére a medián a legalkalmasabb jellemz . Gyakorisági sorok esetében nem használható.
Az abszolút átlageltérés vagy átlagos eltérés A számtani átlag körüli elhelyezkedés egyik mutatója. Mivel az értékek számtani átlagtól vett távolságainak összege 0, ezért a távolságok abszolút értékeivel számolunk. Az abszolút átlageltérés az ismérvértékek számított átlagtól való eltéréseinek számtani átlaga. n
Ae =
i =1
fi X i − X n i =1
fi
A gyakorlatban ritkán használják. Gyakorisági sorok esetén az Xi helyett az osztályközép kerül.
49
STATISZTIKA jegyzet szociológus hallgatók számára
Szórás (négyzetes átlageltérés) és variancia A szórás a szóródás legfontosabb mér száma. Nagyon hasonlít az abszolút átlageltéréshez, csak az abszolút eltérés helyett négyzetre emeléssel iktatja ki az eltérések el jelét. A négyzetre emelés az eltérések abszolút értelemben vett nagyságát is jobban kiemeli. Az utólagos gyökvonás a négyzetre emelés tompítására és az alapadatok eredeti mértékegységéhez való visszatérést is szolgálja.
σ=
1 N
k i =1
fi (X i − X )2
A szórás az átlagtól vett eltérések négyzetes átlaga. A szórás azt mutatja, hogy az Xi ismérvértékek átlagosan mennyivel térnek el a számtani átlagtól. Számításmódjából adódóan a szórás olyan átlagos hibaként is felfogható, amit abban az esetben követünk el, ha minden alapadatot a számtani átlaggal helyettesítünk. Sok esetben nem a szórás, hanem annak négyzete, a variancia vagy szórásnégyzet bír jelent séggel.
Példa Nézzük az el z példánkat és számoljuk ki a szórást.
Család évi jövedelme
Családok száma
(millió ROL)
O. közép
20-39
5
29,5
1. els lépésként
40-59
13
49,5
kiszámoljuk az
60-79
18
69,5
osztályközepeket egy új
80-99
17
89,5
oszlopba
100-119
14
109,5
2. kiszámítjuk az átlagot
120-139
13
129,5
3. kiszámítjuk a szórást
140-159
7
149,5
160-179
4
169,5
180-199
4
189,5
X=
f1 X 1 + f 2 X 2 + + f k X k 5 * 29.5 + 13 * 49,5 + ......4 *189,5 9262,5 = = = 97,5 f1 + f 2 + + f k 5 + 13 + 18 + .... + 4 95 50
STATISZTIKA jegyzet szociológus hallgatók számára
σ=
1 N
k
fi ( X i − X )2 =
i =1
[
]
1 2 2 2 5(29,5 − 97,5) + 13(49,5 − 97,5) + ... + 4(189,5 − 97,5) = 95
157120 = 1653,9 = 40,7 95 Értelmezés. A szórás 40,7 millió ROL, tehát a vizsgált családok évi jövedelme =
átlagosan 40,7 millió lejjel tér el a 97,5 millió lejes átlagjövedelemt l.
Szóródási együttható vagy relatív szórás A szóródási együttható (variációs koefficiens) a különböz
átlagú és eltér
tulajdonságú sokaságok szórásának összehasonlítását teszi lehet vé. Els sorban különböz ismérvek összehasonlítására használják.
V=
σ X
A szóródási együttható az ismérvértékeknek az átlagtól vett átlagos relatív (százalékos) eltérését mutatja. A közgazdasági vizsgálatoknál általában a következ tapasztalati határokat tekintik mértékadónak: - 0 – 10% állandóságot mutat - 10 – 20% közepes változékonyságot mutat - 20 – 30% er s változékonyságot mutat - 30%-on felüli együttható széls séges ingadozást fejez ki. A közölt határok általános érvény ek és tájékoztató jelleg ek. A vizsgálat céljának, a jelenség
természetének
és
a
számításban
résztvev
elemek
számának
figyelembevételével lehet a szóródás nagyságát szakmai szempontból megítélni.
A kvartilisek és a szóródási mutatók kiszámítása az SPSS-el Miként már korábban is említésre került, kvartilisek és szóródás csak mennyiségi adatokból számítható. Akárcsak a többi egyváltozós statisztika lekérése, a kvartilisek és szóródási mutatók is az ANALYZE f menü Descriptive Statistics, Frequencies parancsával
számíttathatóak
ki.
Miután
átvittük
az
elemezni
kívánt
változónkat/változóinkat, az ablak alsó részén található STATISTICS mez re kattintunk, és bejelöljük a kért statisztikákat. A szóródási mutatók a Dispersion ablakrészben találhatóak, ahol a terjedelmet a Range, a szórást a Std. Deviation, a varianciát a Variance mellett szerepl mez kre klikkelve lehet lekérni. A pozicionális
51
STATISZTIKA jegyzet szociológus hallgatók számára
mutatók a bal fels részben, a Percentile Values ablakrészben találhatóak, ahol a
Quartiles mellett szerepl mez kre klikkelve lehet ket lekérni. Adatbázisunkban újra vizsgáljuk meg a k.61-es változót (Hány éves az autó?), ezúttal a szóródás szempontjából. Tehát arányskálánk van, a szóródási mutatók kiszámíthatóak és értelmezhet ek. Az el z ek szerint lekérjük a mutatókat, majd
Continue-t és visszatérve az el z ablakba Ok-t kattintunk.
Az Output ablakban megjelen statisztikákat értelmezzük. Statistics K61 N Std. Deviation Variance Range Minimum Maximum Percentiles
Valid Missing
25 50 75
291 459 7,01 49,09 29 1 30 6,00 12,00 17,00
A kérdésre 291 személy válaszolt, a legfiatalabb autó 1 éves, a legid sebb 30 éves. A terjedelem tehát 29 év. A szórás 7 év, tehát az autók átlagosan 7 évvel térnek el az autók 12 éves átlagéletkorától. Az autók egynegyede 6 évnél fiatalabb, fele 12 évnél fiatalabb, egynegyede pedig 17 évnél öregebb.
52
STATISZTIKA jegyzet szociológus hallgatók számára
2.5. Momentumok, ferdeség és csúcsosság A momentumok A momentumok a különféle átlagok és a szórás általánosításának tekinthet ek, mivel az Xi – X eltérések helyett az Xi – A eltérések hatványait átlagolják (A egy tetsz leges állandó). Súlyozatlan esetben a momentumokat az alábbi képlettel számoljuk, n
M r ( A) =
i =1
( X i − A) r n
súlyozott esetben pedig az alábbi képlet használatos: k
M r ( A) =
i =1
f i ( X i − A) r n
A képlettel meghatározott mennyiségeket az X ismérv vagy a gyakorisági eloszlás A
körüli r-edik momentumainak nevezzük. Az A = 0 speciális esetben az általános képletek r-edik momentumokat adnak, amelyekre az egyszer Mr jelölést használjuk. Az A = X választás esetén az r-edik
centrális momentumokhoz jutunk. A momentumok több eddig megismert mutatószámot foglalnak egységes elméleti keretbe. Gyakorlati jelent ségüket a gyakorisági eloszlások alakjának jellemzésekor való felhasználásuk adja. Néhány nevezetes momentum:
A=0
A= X
r (hatvány)
jelölés
elnevezés
jelölés, illetve érték
elnevezés
1
X
számtani átlag
0
–
négyzetes átlag négyzete
σ2
variancia
2
X
2 q
Példa Adott az alábbi 5 esetb l álló értéksorunk: 2 ; 3 ; 7 ; 8 ; 10. 53
STATISZTIKA jegyzet szociológus hallgatók számára
Határozzuk meg az els , második és harmadik momentumot (A=0)! n
M 1 (0 ) = n
M 2 (0 ) =
i =1
i =1
n
=
n
M 3 (0 ) =
i =1
=
n
( X i − 0)2 n
n
( X i − 0)1
( X i − 0)3 n
i =1
Xi
i =1
n
=
i =1
=X=
2 + 3 + 7 + 8 + 10 30 = =6 5 5
2
= X2 =
n n
Xi
Xi
2 2 + 32 + 7 2 + 8 2 + 10 2 226 = = 45,2 5 5
3
n
=
2 3 + 33 + 7 3 + 83 + 10 3 1890 = = 378 5 5
Határozzuk meg az átlag körüli els és második (centrális) momentumot (A= X )! n
M1( X ) = n
M2(X ) =
i =1
i =1
( X i − X )1 n
( X i − X )2 n
=
(2 − 6) + (3 − 6) + (7 − 6) + (8 − 6) + (10 − 6) = 0
=σ2 =
5
(2 − 6)2 + (3 − 6)2 + (7 − 6)2 + (8 − 6)2 + (10 − 6)2 5
= 9,2
A koncentráció elemzése A koncentráció a sokasághoz tartozó értékösszeg jelent s részének vagy egészének kevés egységre történ
összpontosulása. A koncentráció foka vagy a sokaság
nagyságának megadásával, vagy a relatív gyakoriságok és relatív értékösszegek egybevetésével jellemezhet . Ha a vizsgált sokaság nagysága kicsi, abszolút
koncentrációról beszélünk, ha a sokaság nagy, relatív koncentrációról beszélünk. Amikor a teljes értékösszeg egyetlen egységre jut, értelemszer en a lehet legnagyobb koncentrációról van szó, amennyiben a teljes értékösszeg a sokaság egységei között egyenletesen oszlik meg, a koncentráció hiányáról van szó. A koncentrációt különböz mutatószámokkal szokták jellemezni: a.) az abszolút koncentráció mutatószámai 1. az egységek száma
(n)
2. valamilyen értelemben vett átlagos nagysága ( X ) b.) a relatív koncentráció mutatószámai Lorentz-görbe (egyenes szakaszokkal összekötött vonaldiagram) által jelölt tc koncentrációs terület nagyságának viszonyítása a négyzet felét képez háromszög területéhez
54
STATISZTIKA jegyzet szociológus hallgatók számára
L=
tc = 2t c 1 2
az átlagos abszolút különbség Gini féle mutatójából számított koncentrációs együttható L=
G 2X
Az L nem más, mint a koncentrációs együttható, a szóródás és a relatív koncentráció korábbi összefüggését támasztja alá.
Alak-mutatók A gyakorisági eloszlások alak-mutatószámai azt jellemzik tömören, hogy milyen tekintetben és milyen mértékben térnek el a normális eloszlás gyakorisági görbéjét l (a Gauss görbét l). Mivel a normális eloszlás egymóduszú, csak egymóduszú gyakorisági görbék körében van értelme. A gyakorisági eloszlás grafikus ábrája kétféle tekintetben térhet el a normális eloszlás görbéjét l: 1. valamilyen irányban hosszabban elnyúlhat, ekkor asszimetria vagy ferdeség áll fenn 2. az ábra csúcsa alacsonyabban vagy magasabban lehet, ilyenkor csúcsosságról
vagy lapultságról beszélünk. csúcsosabb (leptokurtikus)
normális eloszlás balra ferdült
jobbra ferdült
lapultabb (platikurtikus)
55
STATISZTIKA jegyzet szociológus hallgatók számára
Asszimetria: ferdeségi mutatók Az egymóduszú gyakorisági eloszlások szimetrikus vagy asszimetrikus volta többféleképpen is megragadható az eddig megismert mutatószámok segítségével.
baloldali asszimetria
szimetria
jobboldali asszimetria
M0
M0 Me
Me
X
X
M0 = Me = X
M0 < Me < X
X < Me < M0
Az asszimetria mutatószámai A Pearson-féle mutatószám (rendszerint a -1 és 1 határok között mozog) arra a tapasztalati megállapításra alapoz, amely szerint mérsékelten asszimetrikus eloszlás esetében a medián az átlagtól az átlag és a módusz közötti teljes távolság mintegy egyharmadával balra vagy jobbra esik: X – Mo ≅ 3( X – Me). A Pearson-féle mutatószám az alábbi képlettel számítható ki: P= A két széls
3( X − M e )
σ
kvartilis és a medián közötti eltéréseken alapul az A asszimetria
mér szám. Alapja, hogy szimetria esetén Q3 – Me = Me – Q1. Olyankor használjuk, ha a szóródást is a kvartilisek felhasználásával jellemeztük.
A=
(Q3 − M e ) − ( M e − Q1 ) (Q3 − M e ) + ( M e − Q1 )
Az α 3 mutatószám a harmadik centrális momentum viselkedésén alapszik.
α3 =
M3(X )
σ3
Szimmetria esetén α 3 = 0, baloldali asszimetria esetén > 0, jobboldali asszimetria esetén pedig < 0. Az asszimetria mértékének megítélését nem könnyíti meg egy alsó és fels határ, ugyanakkor elég érzékenyen reagál az eloszlás alakjának kismérték változására is.
56
STATISZTIKA jegyzet szociológus hallgatók számára
Az asszimetria mindhárom mutatója szimmetrikus gyakorisági sorok esetén 0 vagy 0 körüli értéket vesz fel (sokszor becsüljük). A baloldali asszimetriát a mutatók
pozitív értékei, a jobboldali asszimetriát a mutatók negatív értékei jelzik. Csúcsosság: csúcsossági mutatók A csúcsosság mértékének megállapítására a két legismertebb mutató a K és az α 4 . A K mér szám alapja: minél csúcsosabb egy eloszlás, annál kisebb a fels és alsó kvartilis különbségének a fele a két széls decilis különbségéhez viszonyítva.
K=
Q3 − Q1 2( D9 − D1 )
Normális eloszlás esetében K ≈ 0,263 (ehhez lehet viszonyítani a K értékét). Minél csúcsosabb az eloszlás, K értéke annál kisebb lesz. Az α 4 mutatószám a negyedik centrális momentumhoz köt dik. Alapja: a 0 várható érték és 1 szórású normális eloszlás negyedik centrális momentuma egyenl 3-al.
α4 =
M4(X )
σ4
−3
A ferdeségi és csúcsossági mutatószámokat csak akkor ajánlatos használni, ha a
gyakorisági poligon a gyakorisági görbe elég jó közelítésének tekinthet . A megfigyelt sokaság ehhez szükséges minimális nagysága 50-100 között van.
Alak-mutatók és gyakorisági poligonok kiszámítása az SPSS-el Az alak-mutatók is (akárcsak a többi egyváltozós statisztika) az ANALYZE f menü
Descriptive Statistics, Frequencies parancsával számíttathatóak ki. Miután átvittük az elemezni kívánt változónkat/változóinkat, az ablak alsó részén található STATISTICS mez re kattintunk, és bejelöljük a kért statisztikákat. A szóródási mutatók a Distribution ablakrészben találhatóak, ahol a ferdeséget a Skewness, a csúcsosságot pedig a Kurtosis mellett szerepl mez kre klikkelve lehet lekérni. A Continue-val visszatérve a Frequencies ablakba, a Charts opciónál le lehet kérni a gyakorisági poligonnak a normális eloszlás görbéjével együtt való ábrázolását (Histograms with normal curve).
57
STATISZTIKA jegyzet szociológus hallgatók számára
Példa Adatbázisunkban újra vizsgáljuk meg a k.61-es változót (Hány éves az autó?), ezúttal az alak-mutatók szempontjából. Az el z ek szerint lekérjük a ferdeségi és csúcsossági mutatókat, majd a gyakorisági poligonra ábrát kérünk.
Alak-mutatóink értékét az Output ablakban tekinthetjük meg. Statistics K61 N Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis
Valid Missing
291 459 ,390 ,143 -,430 ,285
A ferdeségi mutató 0,39, tehát nagyobb, mint 0. Bár a pozitív ferdeségi értékek baloldali asszimetriát jeleznek, általában csak az 1-nél nagyobb értékek utalnak olyan eloszlásra, amely szignifikánsan különbözik a normális eloszlástól. Ilyen módon a kapott értékünk alapján nem beszélünk baloldali asszimetriáról, vagyis nem mondhatjuk, hogy szignifikánsan több lenne az újabb autók száma, mint a régebbieké. A csúcsossági mutatónk –0,43, tehát egy igen alacsony negatív érték. Ekkor azt
58
STATISZTIKA jegyzet szociológus hallgatók számára
mondhatjuk, hogy a normális eloszláshoz képest az adataink egy nagyon kicsivel kisebb mértékben csoportosulnak a centrális értékek körül (egy hajszálnyit laposabb a görbénk).
K61 50
40
30
20
Fr eq ue nc y
10
S td . D e v = 7 ,0 1 M e a n = 1 2 ,3 N = 2 9 1 ,0 0
0 0 ,0
5 ,0 2 ,5
1 0 ,0 1 5 ,0 2 0 ,0 2 5 ,0 3 0 ,0 7 ,5 1 2 ,5 1 7 ,5 2 2 ,5 2 7 ,5
K61
59
STATISZTIKA jegyzet szociológus hallgatók számára
3. MINTAVÉTEL 3.1. Elemi valószín ségelmélet. Várható érték Mint minden elméletben, a valószín ség számításban is vannak alapfogalmak, melyeket nem értelmezünk, csupán szemléltetünk, körülírunk. A valószín ség definíciói: a klasszikus (eseményekre épül ) definíció Egy kísérlet, vizsgálat eredményeként különböz eseményeket figyelhetünk meg (pl. „a 6-os szám megjelenése a kockán”). Minden egyes vizsgálat alkalmával bármely esemény megvalósulhat (bekövetkezik) vagy nem valósulhat meg (nem következik be) és minden esemény meghatározható a kedvez esetek, kimenetelek valamilyen halmazával, vagyis E-nek valamely részhalmazával. Az egyetlen lehetséges esettel megvalósuló eseményeket elemi eseményeknek nevezzük. Széls séges esetekben az esemény lehet biztos esemény és lehetetlen esemény: a biztos esemény minden vizsgálat során teljes bizonyossággal bekövetkezik, a lehetetlen esemény a kísérlet egyetlen ismétlésekor sem következhet be. Két vagy több esemény egymást kizáró (inkompatibilis) esemény, ha a kísérlet egyetlen ismétlése során sem valósulhatnak meg egyszerre. Például, legyen egy kísérlet a játékkocka dobása. A kísérlet leírásához tartozik még a megfigyelt véletlen jelenség leírása: a fels lapon lev pöttyök száma. Egy próba el tt nem tudjuk biztosan, hogy hányast fogunk dobni, de abban biztosak lehetünk, hogy a fels lapon 1, 2, 3, 4, 5 vagy 6 pötty lesz. Az elemi események ekkor: a kocka fels lapján 1 pötty van, a kocka fels
lapján 2 pötty van, …, a kocka fels
eseményeket
minél
egyszer bben
szokták
lapján 6 pötty van. Az elemi
jelölni,
ebben
az
esetben
erre
legalkalmasabb a pöttyök számát adó számjegy: 1, 2, …, 6. Az eseménytér ekkor az E = {1, 2, 3, 4, 5, 6}. Biztos esemény lehet ilyenkor az a kijelentés, hogy 7-nél kevesebb pötty van a kocka fels lapján, lehetetlen esemény pedig, hogy a kocka fels lapján 7 pötty van. Feltételezve, hogy egy E esemény h féleképpen következhet be az összes, egyformán lehetséges
n
kimenetelb l,
akkor
az
esemény
el fordulásának
(kedvez
kimenetelének) valószín sége:
p = Pr{E} =
h n 60
STATISZTIKA jegyzet szociológus hallgatók számára
Annak a valószín sége, hogy az esemény nem következik be (kedvez tlen kimenetel):
q = Pr{nemE } = Ilyen módon
n−h h = 1 − = 1 − p = 1 − Pr {E } n n
p + q = 1, azaz
Pr{E} + Pr{nem E} = 1. Egy esemény
bekövetkezésének valószín sége mindig egy 0 és 1 közötti szám. Ha az esemény nem következhet be (lehetetlen esemény), akkor valószín sége 0, ha az eseménynek be kell következnie (biztos esemény), akkor valószín sége 1. Ha egy esemény bekövetkezésének valószín sége p, akkor p : q („p a q-hoz”) annak az esélye, hogy bekövetkezik, és q : p annak az esélye, hogy nem következik be. A valószín ség definíciói: a relatív gyakoriságra épül
definíció – statisztikai
definíció A valószín ség klasszikus definíciójának az a hátránya, hogy az „egyformán lehetséges” kifejezés nem egyértelm . Mivel ennek a kifejezésnek szinonimája az „egyformán valószín ”, a definíció tautologikus (saját magából kiindulva definiálja a valószín séget). Ezért sokan a valószín ség statisztikai definícióját javasolják. Nagyon nagy számú megfigyelés esetén egy esemény becsült, vagy tapasztalati valószín sége az esemény bekövetkezésének relatív gyakorisága. Ekkor maga a valószín ség a relatív gyakoriság határértéke, amikor a megfigyelések száma korlátlanul n . Például ha egy érmét 1000-szer feldobunk, 529-szer fej lesz az eredmény, így a relatív gyakoriság 529/1000=0,529. Ha a következ 1000 dobás 493 fejet eredményez, akkor az összes 2000 dobásból a fej relatív gyakorisága (529+493)/2000=0,511. A statisztikai definíció szerint ilyen módon folytatva végül egyre közelebb jutunk ahhoz az értékhez, amely megmutatja, hogy mennyi a fej valószín sége egy érme feldobása esetén. Ez a statisztikai megközelítés a gyakorlatban hasznos, viszont matematikai szempontból problémás, mivel a tényleges határérték nem biztos, hogy létezik. Ezért a modern valószín ségelmélet axiomatikusan felépített, azaz a valószín ség fogalmát nem definiálja.
Feltételes valószín ség: független és nem független események Ha E1 és E2 egy-egy esemény, akkor annak valószín ségét, hogy E2 bekövetkezik, feltéve,
hogy
E1
már
bekövetkezett,
E2
E1-re
vonatkoztatott
feltételes
valószín ségének nevezzük. Pr{E2|E1} vagy
Pr{E2 feltéve E1} 61
STATISZTIKA jegyzet szociológus hallgatók számára
Ha
E1
bekövetkezése,
vagy
nem
bekövetkezése
nem
befolyásolja
E2
bekövetkezésének valószín ségét, akkor E1 és E2 független események. Pr{E2|E1} = Pr{E2} Ha E1E2-vel jelöljük azt az eseményt, hogy „mind E1, mind E2 bekövetkezik” (összetett esemény): Pr{E1 E2} = Pr{E1} Pr{E2|E1} - függ eseményekre Pr{E1 E2} = Pr{E1} Pr{E2} - független eseményekre Három eseményre (E1, E2, E3): Pr{E1E2E3} = Pr{E1} Pr{E2|E1} Pr{E3|E1E2} - függ eseményekre Pr{E1E2E3} = Pr{E1} Pr{E2} Pr{E3} - független eseményekre Általános esetben ha E1, E2, E3, ...., En n számú független esemény, amelynek valószín ségei rendre p1, p2, p3, ..., pn, akkor E1 és E2 és E3 és ...En együttes bekövetkezésének valószín sége p1p2p3....pn.
Példa Nézzük az alábbi feladatot. Egy jól megkevert, 52 lapos kártyacsomagból 2 lapot húzunk ki. Határozzuk meg annak a valószín ségét, hogy mindkét lap ász lesz, ha: A.) az els lapot visszatesszük B.) az els lapot nem tesszük vissza Az A.) esetünkben két független eseményünk van: E1 – az els lap ász E2 – a második lap ász Pr{E1 E2} = Pr{E1} Pr{E2}=
4 4 1 . = 52 52 169
A második esetben függ eseményekkel van dolgunk, hiszen a két esemény együttes bekövetkezése függ attól, hogy els ként milyen lapot húztunk. Pr{E1 E2} = Pr{E1} Pr{E2|E1}=
4 3 1 . = 52 52 221
Valószín ségeloszlások Diszkrét eloszlások Ha egy X változó az X1, X2, ... Xk diszkrét értékeket veheti fel, rendre p1, p2, ... pk valószín ségekkel, ahol p1 + p2 + .... pn = 1, akkor ezzel X-hez egy diszkrét
62
STATISZTIKA jegyzet szociológus hallgatók számára
valószín ségeloszlást definiáltunk. A p(X) függvényt, amelynek értékei X = X1, X2, ...Xk-ra rendre a p1, p2,.....pk értékek, X valószín ségi vagy gyakorisági
függvényének nevezzük.
Mivel X csak bizonyos értékeket vehet fel el re
meghatározott valószín ségekkel, ezért diszkrét véletlen változónak szokták nevezni. A véletlen változót sztochasztikus változónak is szokták nevezni. A relatív gyakorisági eloszláshoz
való
hasonlósága
miatt
a
valószín ségeloszlások
a
relatív
gyakoriságeloszlások ideális határértékeként is felfoghatóak (amikor a megfigyelések száma nagyon nagy). Ilyen módon a valószín ségeloszlások sokasági eloszlások, a relatív gyakorisági eloszlások a sokaságból vett minták eloszlásai. A valószín ségek egymás utáni összeadásával kumulált valószín ségeloszlásokat kapunk. A kumulált valószín ségeloszlás hasonló a kumulált relatív gyakorisági eloszláshoz és a hozzá rendelt függvényt eloszlásfüggvénynek nevezik. Folytonos eloszlások A folytonos eloszlás arra az esetre vonatkozik, amikor X változó folytonos halmazon vehet fel értékeket. A minta relatív gyakorisági poligonja sokaságra folytonos görbe lesz, melynek egyenlete Y = p(X): p(x)
a b
X
A görbe alatti, az X tengely által határolt rész teljes területe 1. Az X = a és az X = b egyenesek által határolt görbe alatti terület annak a valószín ségét adja meg, hogy X az a és b érték közé esik ( Pr{a < X < b}). A p(X) függvény neve valószín ségi s r ségfüggvény vagy csak s r ségfüggvény és ezzel definiáljuk X folytonos valószín ségeloszlását. Ebben az esetben X folytonos véletlen változó.
63
STATISZTIKA jegyzet szociológus hallgatók számára
Várható érték Ha annak a valószín sége, hogy valaki S összeg pénzt kap p, akkor a matematikai várható érték vagy várható érték pS. Ha X diszkrét valószín ségi változó Xk értékekkel és rendre pk valószín ségekkel, akkor X várható értéke E(X):
E ( X ) = p1 X 1 + p 2 X 2 +
+ pk X k =
k j =1
pjX j
Amennyiben a pj valószín ségeket fj/n relatív gyakoriságokkal helyettesítjük (n = fj), akkor a várható érték: k
E( X ) =
j −1
fjX j n
=X
Minél nagyobb az n, annál inkább közelítik a relatív gyakoriságok a valószín ségeket. Ilyen módon E(X)-et úgy is tekinthetjük, mint annak a sokaságnak az átlagát, amelyikb l a mintát vettük. A várható érték folytonos valószín ségi változók esetén a matematikai analízis eszközeivel definiálható.
Példa A következ
példánk egy üzleti vállalkozás helyzetét szemlélteti, amelyben egy
szerz dés megkötése 60%-os valószín séggel 300 dollár nyereséget, 40%-os valószín séggel pedig 100 dollár veszteséget fog hozni. A kérdés, hogy ebben a helyzetben
érdemes-e
megkötni
az
üzletet,
vagyis
mennyi
a
várható
nyereség/veszteség összege. E ( X ) = p1 X 1 + p 2 X 2 +
+ p k X k = 0,6 * 300 + 0,4 * (− 100 ) = 140
Tehát a szerz dés várhatólag 140 dollár nyereséget fog hozni.
3.2. Elemi mintavételi elmélet. Standard hiba Bevezetés a mintavételbe A mintavétel a társadalomstatisztikában az adatokhoz való hozzájutás f módja. A mintavétel célja olyan adatokat nyerni, amelyek segítségével megalapozott következtetéseket lehet levonni a sokaságra (populációra) vonatkozóan. Egy mintából akkor vonhatunk le használható következtetéseket a sokaságra nézve, ha a mintának
64
STATISZTIKA jegyzet szociológus hallgatók számára
lényegében (a kutatás szempontjából lényeges változók tekintetében) ugyanolyan az összetétele, mint a sokaságnak (reprezentativitás). Az adatfelvételek mindig tartalmaznak hibákat, viszont ezek egy részét a statisztika segítségével meg lehet becsülni, a lehet ségek keretei között lehet csökkenteni. Tehát az adatfelvételi hibák alapvet en két félék: nem mintavételi és mintavételi hibák (a hiba abból adódik, hogy nem a teljes sokaságot figyeltük meg). Bizonyos mintavételi tervek esetén a mintavételi hiba nagysága el re becsülhet , míg a nem mintavételi hiba nagyságát sem el re, sem utólag nem lehet megadni. A mintavételi tervek alapvet
kérdése az, hogy hogyan választjuk ki a mintát:
véletlenszer en - ekkor valószín ségi mintavételr l beszélünk -, vagy nem véletlenszer en – ekkor nem valószín ségi mintavétellel van dolgunk. A reprezentatív mintavétel f ként véletlen kiválasztáson alapul (a sokaság minden egységének egyforma esélye van a mintába való bekerülésre: p = 1/n), ilyen módon a valószín ségelmélet segítségével meg tudjuk becsülni, hogy a minta mennyire pontosan írja le a sokaságot. A mintavételi tervek fajtái:
I. véletlen mintavételi tervek 1. egyszer véletlen minta (homogén, véges, visszatevés nélkül) 2. független, azonos eloszlású minta (homogén, végtelen, nagyon nagy VAGY véges, visszatevéses) 3. szisztematikus minta (homogén, véges, visszatevés nélküli, lépésköz alkalmazása) 4. rétegzett minta (homogén rétegekbe sorolás, majd egyszer véletlen minta) 5. csoportos minta (homogén, véges, nagyobb összetartozó csoportokból mindenkit) 6. többlépcs s minta (több lépésben jutunk el a megfigyelt egységekhez)
II. nem véletlen mintavételi tervek 1. kvótás minta (el re megadott összetétel mintához való véletlen hozzájutás) 2. önkényes vagy szakért i minta 3. hólabda minta 4. egyszer en elérhet alanyokra hagyatkozó minta
A mintavétel elmélete A minták alapján történ
statisztikai becslés a valószín ségi változókból álló
sokaságból vett minta alapján történik. A valószín ségi változó nagysága véletlenszer en változik és ennek nagy minták (n > 30) esetében meghatározott 65
STATISZTIKA jegyzet szociológus hallgatók számára
törvényszer ségei (véletlen tömegjelenségek törvényei) vannak. Az alapot Bernoulli tétele képezi, amely szerint a relatív gyakoriság eltérése a vizsgált jelenség el fordulási valószín ségét l tetsz leges valószín séggel tetsz legesen kis mérték vé tehet , ha a minta nagysága minden határon túl növekszik. Tehát minél nagyobb a
minta, annál pontosabb a becslés. A mintákból számított különböz jellemz k (átlag, variancia) az alapsokaság hasonló jellemz i becslésének tekinthet ek, és rájuk is érvényes a „nagyszámok törvénye” (átlag – normális eloszlás). A sokaság alapvet
paramétereinek becslésekor
statisztikai indukciót használunk A mintavételi elmélet tulajdonképpen a sokaság és a bel lük vett minták közötti kapcsolatot vizsgálja.
A standard hiba Amennyiben a minta elemei véletlenszer en lettek kiválasztva, a lehetséges átlagértékek er sen megközelítik a normális eloszlást. A normális eloszlás jellegzetességeib l az következik, hogy ha a valószín ségi változók normális eloszlást mutatnak, akkor meghatározható, hogy a várható érték bizonyos határok közötti
elhelyezkedésének milyen a valószín sége. A határok kijelölésénél a szórást vagy a varianciát vehetjük figyelembe. A szórás által kijelölt határokat valószín ségi határoknak, a határok közé esés szintjét pedig valószín ségi szintnek nevezzük. A minta tulajdonságainak átlagát sok véletlen tényez
befolyásolja, ezért a
kiválasztható összes minta lehetséges átlagai és azok szórásának (véletlen hibájának) eloszlása is a normáleloszlást közelíti meg. Egy sokaság esetében a lehetséges kiválasztások során nyert mintaátlagok átlaga minden esetben megegyezik az alapsokaság átlagával, a várható értékkel. A lehetséges mintaátlagok szórása vagy a mintaátlagok standard hibája egyenesen arányos az alapsokaság szórásával és fordítottan arányos a mintanagyság négyzetgyökével:
σX =
σ N
66
STATISZTIKA jegyzet szociológus hallgatók számára
Tehát minél nagyobb a minta nagysága, annál kisebb a lehetséges mintaátlagok szórása, a standard hiba. Ha a minta nagysága egyenl a sokaság nagyságával, a standard hiba = 0. Binominális eloszlású sokaság esetén a standard hibát könnyebb megbecsülni a relatív gyakoriságok (valószín ségek) segítségével, vagyis, hogy mennyire szorosan fognak tömörülni a mintaeloszlások az igazi érték körül:
σp =
pq n
A standard hiba azért nagyon fontos, mert megmutatja, hogy milyen mértékben szóródnak a mintabecslések a sokaság jellemz je körül. A normális eloszlás azt is lehet vé teszi, hogy megállapítsuk becslésünk megbízhatóságát, valószín ségi szintjét (a minta átlagától milyen valószín séggel tér el az alapsokaság átlaga). Meghatározhatjuk, hogy a szórás tetszés szerinti nagyságával mért távolságon belül a lehetséges mintaátlagok hány százaléka helyezkedik el az alapsokaság átlaga körül. Ha pl. a távolság 3 szórásnyi, akkor 1000b l 997 minta a véletlen hiba háromszoros szórásán belül helyezkedik el, így 99,7%os valószín séggel mondhatjuk, hogy a mintánk átlagának értéke ebbe az intervallumba esik. A standard hiba egy tetsz leges t többszörösével megadhatjuk tehát a becslésünk hibahatárát, konfidencia (megbízhatósági) intervallumát. Az átlag esetében a
x ± tσ x képlettel, binomiális megoszlások esetén pedig az alábbi képlettel számolunk:
p ± tσ p A sokaság átlagától számított egy, két, három standard hibán belülre es
minták
részaránya minden véletlen mintavételi eljárásnál ugyanaz, ha elég sok mintát veszünk (a standard hiba nem független a mintanagyságtól és a vizsgált paramétert l). A t értékekhez tartozó leghasználatosabb valószín ségek: t értéke
statisztikai biztonság
1,96 2,58 3,29
0,95 0,99 0,999
67
STATISZTIKA jegyzet szociológus hallgatók számára
Az ebben az alfejezetben felsoroltak a valószín ség számítás elméletének arra az esetére vonatkoznak, amikor a sokaságból nagy számú véletlen mintát veszünk. Ha ismerjük a sokaság jellemz it és nagyon sok számú véletlen mintát veszünk, akkor meg lehet becsülni, hogy a mintákból számolt statisztikák közül hány fog a sokaság átlaga körüli meghatározott nagyságú intervallumokba esni. A bemutatottak a valószín ségi mintavétel alapgondolatát szemléltetik, egy valós kutatásnál általában egészen más történik. Mivel általában azért végzünk kutatásokat, hogy a sokaság paraméterét megbecsüljük, ezt el z leg nem ismerjük. Továbbá általában nem szokás nagy számú mintát venni, csak egyet. Mégis bármilyen kutatás kapcsán alapozhatjuk következtetéseinket a bemutatottakra, mivel tudjuk, hogy ha több ezer mintát választanánk, mi volna a helyzet, és ebb l kiindulva feltevéseink lehetnek arról az egy mintáról, amelyet kiválasztottunk és elemeztünk. Ilyen módon a következtetés iránya megfordul: minden egyes véletlen mintának x %-os esélye van
arra, hogy a sokaság paraméterét l legfeljebb x standard hibányival térjen el. Példa 1. A repül téri utasokból egy 100 elem véletlen mintát veszünk. A mintába bekerült utasok átlagos súlya 80 kg, a minta szórása 20 kg. Állapítsuk meg 95%-os valószín séggel (t=1,96) a repül téri utasok átlagos súlyát. Els lépésben kiszámítjuk a standard hibát:
σX =
σ N
=
20 =2 100
Második lépésben kiszámítjuk a két konfidencia intervallumot:
x ± tσ x
80 ± 1,96 * 2
80+1,96*2=83,92
80-1,96*2=76,08
Tehát 95%-os valószín séggel (0.05-ös szignifikanciaszint mellett) a konfidencia intervallum: (76,08 – 83,92). 95%-os valószín séggel kijelenthetjük, hogy a repül téri utasok átlagos súlya 76,08 és 83,92 kg között van. 99,7%-os valószín ségi szint mellett (t=3) azt mondhatjuk, hogy a repül téri utasok átlagos súlya 74 és 86 kg között van (80±3*2). Tehát nagyobb valószín ségi szint mellett szélesebb a megbízhatósági intervallum is.
68
STATISZTIKA jegyzet szociológus hallgatók számára
2. X kisvárosban egy 1000 f s véletlen mintát vettek a 18 éven felüli lakosságból. A mintába bekerült személyek 45%-a A-t, 55%-a pedig B-t választaná polgármesternek. Számítsuk ki, hogy 95%-os valószín séggel ki fog nyerni a választásokon.
σp =
pq = n
45 * 55 = 2,475 = 1,57 1000
p ± tσ p
45±1,96*1,57
45+3,07=48,07
45-3,07=41,93
Tehát 95%-os valószín séggel (0.05-ös szignifikanciaszint mellett) a kisváros választópolgárainak 41,93 - 48,07%-a fog A-ra szavazni, így 95%-os valószín séggel állíthatjuk, hogy B fogja megnyerni a választásokat.
Konfidencia intervallum kiszámítása az SPSS-el A megbízhatósági intervallumot SPSS-ben az ANALYZE f menü Descriptive
Statistics, Explore menüpontjánál lehet lekérni. Itt a program 95%-os megbízhatósági intervallumot számol az átlagra, de a valószín ségi szint a Statistics mez ben tetsz legesre állítható.
Példa Nézzük a k2.1 (születési év) változóból képzett Életkor változót (Transform,
Compute). Az el z ek szerint kérjük le a 95%-os valószín ségnek megfelel konfidencia intervallumot.
69
STATISZTIKA jegyzet szociológus hallgatók számára
A kért adatok az Output ablakban olvashatóak: Descriptives ÉLETKOR
Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis
Lower Bound Upper Bound
Statistic 22,2867 21,9885
Std. Error ,1519
22,5849 22,3030 22,0000 17,305 4,1599 14,00 30,00 16,00 6,0000 -,043 -1,091
,089 ,178
Tehát p=0,05 megbízhatósági szint mellett állíthatjuk, hogy az alapsokaság (székelyföldi 15-29 éves magyar fiatalok) átlagos életkora 21,9-22,6 év között van.
70
STATISZTIKA jegyzet szociológus hallgatók számára
4. KÉTVÁLTOZÓS ELEMZÉSEK 4.1. Változók közötti kapcsolatok Az ismérvek közötti kapcsolatok vizsgálatának célja a valóság jelenségei között fennálló összefüggések tömör számszer
jellemzése. Ez a terület a statisztikai
módszertan kiemelked részét képezi. Egy sokaság egységei különféle tulajdonságaik felsorolásával jellemezhet ek. A tulajdonságok egy része a sokaság minden egységére nézve közös, másik része azonban egységr l egységre változik, azaz egyedi. Végs soron minden tulajdonság a vizsgált egységekre vonatkozó ismereteket pontosítja valamilyen módon. Ha a vizsgált sokaság egységeinek valamilyen nem közös tulajdonságát rögzítjük, akkor mindig egy részsokasághoz jutunk (lesz kül az egységek köre). Egy ismérv/változó vizsgálatára azért van szükség, mivel az egyes egységek különböz ismérvértékeket vesznek fel, tehát szóródó változókat elemzünk (a „szóródás” itt és a továbbiakban nagyon általánosan értend : min ségi ismérvekre is vonatkozik).
Az ismérvek közötti kapcsolat Egy sokaság (a továbbiakban f sokaság) egységeinek valamilyen ismérv (Y) szerinti megoszlását feltétel nélküli megoszlásnak nevezzük. A f sokaságból egy más ismérv (X) alapján kijelölt részsokaságok el z (Y) ismérv szerinti megoszlását feltételes
megoszlásnak nevezzük. Míg a feltétel nélküli megoszlások mindig, addig a feltételes megoszlások nem szükségképpen szóródóak (egy jó osztályozással el lehet érni, hogy egy-egy részsokaságba a vizsgált ismérv szempontjából azonos elemek kerüljenek). Annak megoszlása, hogy a feltételes megoszlások szóródása milyen mérték , illetve hogyan viszonyul a feltétel nélküli megoszlások szóródásához, az ismérvek közötti kapcsolatra világít rá. A feltételes megoszlásoknak a feltétel nélküli megoszláshoz való viszonyulása kétféle lehet. 1. Minden feltételes megoszlás egyforma, így megegyezik a feltétel nélküli megoszlással – ekkor függetlenség áll fenn. A részsokaságok képzésére használt csoportképz ismérvet (X) és a részsokaságon belüli elemzésre használt ismérvet (Y) egymástól függetlennek nevezzük, amikor az X szerinti csoportba való tartozásának
71
STATISZTIKA jegyzet szociológus hallgatók számára
ismerete nem ad semmiféle többletinformációt a részsokaságon belül használt valamely más ismérv, vagyis Y szerinti hovatartozásáról, tulajdonságáról. 2. Nem minden feltételes megoszlás egyforma – a két változó között összefüggés
van: a.) a feltételes megoszlásokon belül van szóródás - sztochasztikus (statisztikus)
kapcsolat b.) a feltételes megoszlásokon belül nincs szóródás - determinisztikus,
függvényszer kapcsolat. Amikor a két változó között összefüggés van, biztosan tudjuk, hogy legalább egy feltételes megoszlás más, mint a feltétel nélküli megoszlás. Ilyen módon nem mindegy, hogy egy részsokaság, vagy a teljes sokaság megoszlását vizsgáljuk, mivel a csoportosító ismérv (X) nem független a másik ismérvt l (Y), a kett
között
összefüggés van. Determinisztikus kapcsolat esetén a részsokaságon belüli ismérvértékek nem szóródnak, a csoportképz (X) ismérv egyértelm en meghatározza a másik ismérv (Y) nagyságát vagy értékét. Ebben az esetben a két ismérv függvényszer kapcsolatban áll egymással: az X értéke pontosan megadja Y-ét. Például ha a Nem (X) és a Alkoholfogyasztás (Y) közötti összefüggést vizsgáljuk, determinisztikus kapcsolat esetén minden férfi fogyaszt alkoholt és egyetlen n sem iszik szeszesitalt. Tehát ha ismerjük a személy nemét (az X változóra felvett értékét), egyértelm en meghatározhatjuk, hogy fogyaszt vagy nem fogyaszt alkoholt (az Y szerinti értékét). Nyilvánvalóan a determinisztikus kapcsolat a valóságban igen ritkán fordul el , sokkal gyakoribbak a sztochasztikus kapcsolatok. A sztochasztikus kapcsolat a függetlenség és a determinisztikus kapcsolat között helyezkedik el: az ismérvek nem függetlenek, de nincs is közöttük függvényszer kapcsolat. Az egyik ismérv (X) hatással van a másikra (Y), de annak értékeit nem határozza meg egyértelm en. Sztochasztikus kapcsolat esetén az X ismérv szerinti hovatartozás ismeretében levonható valamilyen következtetés az egységek X szerinti hovatartozásáról, de ez a következtetés nem teljesen egyértelm . Az el z példánk esetében a Nem ismeretében következtethetünk arra, hogy pl. a férfiak nagyobb arányban fogyasztanak alkoholt, mint a n k, de ha tudjuk, hogy valaki férfi, az még nem jelenti egyértelm en, hogy szeszesitalt fogyaszt. Az eddigiek könnyen általánosíthatóak kett nél több ismérv esetére is. Több ismérv kapcsolatának vizsgálatakor az is elemezhet , hogy milyen természet kapcsolat van 72
STATISZTIKA jegyzet szociológus hallgatók számára
két vagy több ismérv között (Y, Z) egy másik ismérv (X) szerint kialakított részsokaságon belül (parciális kapcsolat).
Az ismérvek közötti kapcsolat fajtái Amikor két vagy több ismérv közötti kapcsolatot vizsgálunk, el ször mindig meg kell vizsgálnunk, hogy van-e kapcsolat a vizsgált ismérvek között, amennyiben van kapcsolat, milyen szoros a kapcsolat (annál szorosabb, minél közelebb áll a determinisztikus kapcsolathoz), majd el kell döntenünk, hogy hogyan lehet felhasználni a kapcsolat természetének ismeretét következtetések levonására. A kérdések megválaszolása függ az egyszerre vizsgált ismérvek számától és mérési
szintjét l. Ebben a fejezetben csak két ismérv kapcsolatát vizsgáljuk. Az ismérvek jellege szerint a következ eseteket szokás megkülönböztetni: -
min ségi változók közötti kapcsolat, asszociáció (mindkét változó nominális mérési szint , vagy egyik változónk nominális, a másik pedig ordinális mérési szint , illetve mindkét változó ordinális mérési szint )
-
vegyes kapcsolat, átlagértékek összehasonlítása (egy nominális és egy intervallum vagy arányskálán mért változó összefüggése)
-
mennyiségi változók közötti kapcsolat, korreláció (két intervallum vagy arány skálán mért változó közötti kapcsolat)
Ezt a három esetet kapcsolat-fajtáknak nevezik. A statisztika kizárólag az ismérvek együtt-változásának számszer jellemzésére képes (az együttváltozás okát nem vizsgálja). Amikor az ismérvek között közvetlen okozati kapcsolat van, függ és független változókról beszélünk.
A kapcsolatvizsgálat általános eszközei Ha a sokaság elég nagy, a két ismérv közötti kapcsolat vizsgálatának legegyszer bb és legáltalánosabb eszköze a két ismérv szerinti kombinatív osztályozás, kontingencia
tábla vagy kereszttábla.
73
STATISZTIKA jegyzet szociológus hallgatók számára
X ismérv szerinti
Y ismérv szerinti osztályok R1
R2
...
Rj
...
Rc
j
C1
f11
f12
...
f1j
...
f1c
f1 .
C2
f21
f22
...
f2j
...
f2c
f2 .
...
...
...
...
...
...
...
...
Ci
fi1
fi2
...
fij
...
fic
fi .
...
...
...
...
...
...
...
...
Cr
fr1
fr2
...
frj
...
frc
fr .
i
f. 1
f. 2
...
f. j
...
f. c
N
osztályok
A két ismérv közötti kapcsolat fennállása konkrétan a feltételes és feltétel nélküli Y megoszlások összehasonlításával mutatható ki. Ha minden sorban azonos a megoszlás, függetlenségr l beszélünk. Ha minden sor csak egy 0-tól különböz gyakoriságot tartalmaz, és ezek nem mind ugyanabban az oszlopban találhatók, akkor
függvényszer kapcsolatról beszélünk. A fentiek alapján a két ismérv közötti kapcsolat léte legegyszer bben vagy a
soronként számított megoszlási viszonyszámokból (f11/f1. = f21/f2. stb.), vagy az fij tényleges, és f*ij feltételezett gyakoriságok összehasonlítása útján vizsgálható. Függetlenség feltételezése esetén a feltételezett vagy elméleti gyakoriság egyenl a két változó szerinti feltétel nélküli megoszlások (peremgyakoriságok) szorzatának és a sokaság nagyságának hányadosával: *
f ij =
f i. f . j N
A kapcsolat szorosságának mérésére ez az eljárás csak bizonyos esetekben használható, az egyik ismérv szerinti hovatartozásból a másik ismérv szerinti hovatartozásra való következtetésre pedig egyáltalán. A PRE eljárás a függ ség oldaláról közelít. X és Y között annál szorosabb a kapcsolat, minél nagyobb segítséget ad az egységek X szerinti hovatartozásának ismerete az adott egységek Y szerinti hovatartozásának kitalálásához, tehát a többletinformáció mennyiségét próbálja mérni. A PRE minden sztochasztikus kapcsolat szorosságának mérésére alkalmas, azonban a képletben szerepl
hibák
értelmezése és számítási módja mindig a következtetés konkrét módjától függ.
74
STATISZTIKA jegyzet szociológus hallgatók számára
A PRE mutatószám mindig 0 és 1 közé esik és azt fejezi ki, hogy a vizsgált egységek X szerinti hovatartozásának megtudása milyen mértékben csökkenti az egységek Y szerinti hovatartozásával kapcsolatos bizonytalanságot. Ha PRE = 0, egyáltalán nem csökkenti a bizonytalanságot, vagyis a két változó független, ha PRE = 1, akkor teljesen megsz nik a bizonytalanság, tehát a két változó függvényszer kapcsolatban áll egymással. A PRE meghatározása:
1. lépés: meghatározzuk, hogy összességében mekkora hibával járna, ha az Y szerinti hovatartozást kizárólag az Y szerinti feltétel nélküli megoszlásra alapozva próbálnánk meg kitalálni (E1)
2. lépés: meghatározzuk az el z értelemben vett összes hibát azon feltevés mellett is, hogy ismerjük az X szerinti hovatartozást és azok Y szerinti hovatartozását mindig a megfelel feltételes megoszlásra támaszkodva próbáljuk megadni (E2)
3. lépés: meghatározzuk a hibacsökkenés relatív mértékét, amely az Y szerinti feltételes megoszlások ismeretének tulajdonítható
PRE =
E1 − E 2 E1
A mutatószám azt fejezi ki, hogy a vizsgált egységek X szerinti hovatartozásának ismerete milyen mértékben csökkenti az egységek Y szerinti hovatartozásával kapcsolatos bizonytalanságot.
4.2. Min ségi változók közötti kapcsolat A min ségi változók értékei között nincsenek egyértelm mennyiségi különbségek, így a kapcsolatvizsgálat azt jelenti, hogy összehasonlítjuk a feltételes eloszlásokat, és ebb l megállapítjuk, hogy van-e eltérés és az milyen jelleg . Ezt a típusú kapcsolatot asszociációnak nevezzük. Két változó között akkor van asszociáció, ha az egyik értékeinek eloszlása az szerint változik, hogy a másik változó különböz értékeket vesz fel.
Asszociáció-számítás feltételezett gyakoriságok használatával Az asszociációs kapcsolatot a feltételes és a feltétel nélküli megoszlások összehasonlítása révén vizsgáljuk.
75
STATISZTIKA jegyzet szociológus hallgatók számára
El ször az fij tényleges és az f*ij feltételezett gyakoriságok szembesítése útján végezzük (a két eljárás ekvivalens) az összefüggés-vizsgálatot. A χ2 (chi-négyzet) mutató az fij és f*ij összehasonlítására szolgáló igen nevezetes mennyiség. A χ2 -próba azt vizsgálja, hogy egy mintán két mért változó megfigyelt értékeinek feltételes gyakoriságai mennyire térnek el a függetlenség esetén várható elméleti gyakoriságoktól, azaz mekkora valószín séggel fordulnak el
ekkora
eltérések.
χ = 2
r
c
i =1 j =1
*
( f ij − f ij ) 2 f ij
*
A χ2 tulajdonságai: - méri az fij és f*ij különbségét - az (fij – f*ij)2 különbség-négyzet f*ij –vel való osztása révén relatív értéket kapunk - érvényesül a 0 ≤ χ2 ≤ N min {(r – 1),(c –1)} egyenl tlenség, ahol min{(r–1),(c–1)} az r (sorok száma) –1 és c (oszlopok száma) – 1 számok kisebbikét jelöli. Ha a χ2 = 0, akkor fij = f*ij i és j minden értékére, ekkor X és Y független egymástól. Maximális értéket akkor kap a χ2 , ha a kontingencia tábla minden sorában csak egy 0tól különböz gyakoriság van és ezek nem mind azonos oszlopban találhatóak, ekkor X és Y függvényszer kapcsolatban áll egymással. A valószín ség számításból azonban tudjuk, hogy a sztochasztikus összefüggésekre vonatkozó kijelentések csak bizonyos valószín séggel igazak. Kézi számítások esetében mi választunk ki egy vagy több szignifikanciaszintet és ehhez keressük a megfelel értéket/értékeket. Általában p=0,05-öt, azaz 95%-os valószín ségi szintet (vagy ennél kisebb szintet, p=0,01, p=0,001 stb.) szokás választani. Annak eldöntésére, hogy a χ2 értékünk a választott valószín ség mellett szignifikáns összefüggést mutat-e, az úgynevezett χ2-eloszlás táblázatát használjuk. Ebb l a táblázatból egy szignifikanciaszintnek és egy szabadságfoknak (df=(r-1)(c-1), azaz „sorok száma mínusz egy szorozva oszlopok száma mínusz egy”) egyetlen χ2 érték olvasható le. Ezt az értéket küszöbszámnak tekintjük (jelöljük k-val) és ezzel hasonítjuk össze az általunk számított χ2 értéket. Ha χ2 < k, akkor elég nagy az esély arra, hogy a két változó független legyen egymástól. Vagyis ha χ2 < k, X és Y között nincs szignifikáns kapcsolat a választott szignifikanciaszinten (p=0,05 esetében 95%os valószín séggel állítható). Ha χ2
k, akkor azt mondjuk, hogy 95%-os
76
STATISZTIKA jegyzet szociológus hallgatók számára
valószín séggel állítható, hogy az X és Y változók között asszociációs kapcsolat van, azaz az alcsoportokban észlelt eltérések nem csak a véletlennek tudhatók be. A χ2 próbával vizsgált összefüggés er sségét csak viszonylagosan tudjuk megállapítani. Minél nagyobb a χ2 értéke a neki megfelel táblázatbeli értéknél, annál er sebb a kapcsolat. Az adatok számítógépes feldolgozásakor χ2-eloszlás táblázat használatára nincs szükség, hiszen az SPSS automatikusan kiszámolja az adott értéknek megfelel szignifikancia szintet.
Példa A χ2 kiszámítására nézzük az alábbi fiktív példát. A kereszttábla egy ezer f s véletlen minta nem és tévénézési szokások szerinti megoszlását tartalmazza.
Nem/Legtöbbet nézett
Duna
Acas
Eurosport
Ö
Férfiak
200
50
150
400
N k
350
200
50
600
Ö
550
250
200
1000
tévéadó
El ször dolgozzunk relatív gyakoriságokkal. Mivel feltételezzük, hogy a nem változó határozza meg a tévénézési szokásokat és nem fordítva, a nem-et tekintjük független változónak és ez szerint százalékolunk.
Nem/Legtöbbet nézett
Duna
Acas
Eurosport
Ö
Férfiak
50%
12,5%
37,5%
100%
N k
58,3%
33,3%
8,4%
100%
Ö
55%
25%
20%
100%
tévéadó
A fenti táblázatot úgy kaptuk, hogy az egyes cellagyakoriságokat elosztottuk a peremgyakoriságokkal és megszoroztuk százzal. Így a Duna tévét néz férfiak az összes férfiak 50%-át jelentik (200*100/400=50%), az Acas tévét néz férfiak az összes férfi 12,5%-át (50*100/400=12,5%), a Duna tévét néz n k az összes n k 58,3%-át (350*100/600=58,3%), az összes Duna tévét néz a megkérdezettek 55%-át képezik (550*100/1000=55%) stb.
77
STATISZTIKA jegyzet szociológus hallgatók számára
A soronként számított megoszlási viszonyszámok a két változó közti kapcsolatot mutatják, hiszen függetlenség esetén a táblázatunk az alábbi képet mutatná:
Nem/Legtöbbet nézett
Duna
Acas
Eurosport
Ö
Férfiak
55%
25%
20%
100%
N k
55%
25%
20%
100%
Ö
55%
25%
20%
100%
tévéadó
Abszolut gyakoriságokban kifejezve, függetlenség esetén a táblázatunk az alábbi lenne:
Nem/Legtöbbet nézett
Duna
Acas
Eurosport
Ö
Férfiak
220
100
80
400
N k
330
150
120
600
Ö
550
250
200
1000
tévéadó
A fenti táblázatot az el z , függetlenség esetén várt relatív gyakoriságokat tartalmazó táblázatból kaptuk, úgy, hogy az egyes peremgyakoriságokat megszoroztuk a független változó (nem) szerinti relatív gyakoriságokkal és visszaosztottuk 100-al. Így függetlenség esetén 220 Duna tévét néz férfi (400*55/100=220), 330 Duna tévét néz n (600*55/100=330), 100 Acas tévét néz férfi (400*25/100=100), 150 Acas tévét néz n (600*25/100=150) stb. kellene legyen. Mivel tehát az eredeti és a kiszámított abszolút gyakorisági táblázatunk egyértelm en eltér egymástól (elméletileg, ha a tévénézést nem befolyásolná a nem, 100 férfi kellene nézze az Acas tévét, ezzel szemben az adataink szerint csak 50 férfi nézi, stb.), jó okunk van feltételezni, hogy a két változó között van kapcsolat. Másodszor pedig mutassuk ki a kapcsolatot a χ2 kiszámításával. Ehhez els lépésben kiszámítjuk a két ismérv függetlenségének feltételezése mellett a várható gyakoriságokat (f*ij).
Nem/Legtöbbet nézett
Duna
Acas
Eurosport
Ö
Férfiak
220
100
80
400
N k
330
150
120
600
Ö
550
250
200
1000
tévéadó
78
STATISZTIKA jegyzet szociológus hallgatók számára
A táblázatban szerepl adatokat a képlettel számoltuk: *
f ij =
f i. f . j N
.
*
f11 =
400 ⋅ 550 = 220 1000 *
f 21 =
*
f12 =
600 ⋅ 550 = 330 1000
400 ⋅ 250 = 100 1000 *
f 22 =
600 ⋅ 250 = 150 1000
Észrevehet , hogy úgy a képlettel, mint a relatív gyakoriságok segítségével ugyanazokat az adatokat kaptuk. Ismervén az elméleti gyakoriságokat, a képlettel kiszámoljuk a χ2 mutatót.
χ2 =
r
c
*
( f ij − f ij ) 2
i =1 j =1
f ij
*
=
(200 − 220)2 + (50 − 100)2 + .... + (50 − 120)2 220
100
120
= 146,8
Ilyen módon látható, hogy χ2 értéke 0-tól különböz , azaz a két ismérv között
valószín leg van kapcsolat. A kereszttáblákból az is kit nik, hogy a kapcsolat nem függvényszer , hanem sztochasztikus. Példánkra a függvényszer
kapcsolat egy
lehetséges esete az alábbi lenne: Nem/Legtöbbet nézett
Duna
tévéadó
Acas
Férfiak N k
Eurosport
Ö
400
400
600
Ö
0
600
600 400
1000
Nézzük most a Mellékletben szerepl χ2-táblázatot. A szabadságfokunk: df=(2-1)(31)=2, a választott valószín ségi szint 0,05. A χ2-táblázatból idevágó értékek: Szabadságfok 2
Szignifikanciaszint P=0,05
P=0,01
P=0,001
5,991
9,210
13,815
A táblázatból kiolvashatjuk, hogy az ezeknek a paramétereknek megfelel χ2 érték 5,991. Az általunk számított érték 146,8, így jóval nagyobb a küszöbértéknél, tehát az összefüggés szignifikáns (99,9%-os valószín ség mellett is). Ezek alapján elmondható, hogy a nem ismerete nem határozza meg egyértelm en egy bizonyos állománycsoporthoz való tartozását, viszont valamilyen mértékben meghatározza azt. A relatív gyakoriságokat tartalmazó kereszttáblát nézve
79
STATISZTIKA jegyzet szociológus hallgatók számára
elmondhatjuk, hogy a n k nagyobb arányban nézik a Duna és az Acas tévét, mint a férfiak.
Az asszociáció mér számai A χ2 mennyiséget valamilyen alkalmas viszonyítási alaphoz hasonlítva megkapjuk az asszociáció szorosságának különféle χ2 alapú mér számait. A leghasználatosabb viszonyítási alap a χ2 fels
határaként definiált Nmin {(r – 1),(c –1)}érték, ezt
használva az asszociáció Cramer-féle V asszociációs együtthatóját kapjuk meg.
C2 =
χ2
C = C2
N min {(r − 1), (c − 1)}
A C mutatószám 0 és 1 határok között helyezkedik el. C = 0, ha χ2 = 0, vagyis ha a két változó független, C = 1, ha a kapcsolat determinisztikus. A gyakorlatban szintén gyakran használt asszociációs együttható a Csuprov-féle
asszociációs együttható. Ez a mutató az
N
(r − 1) ⋅ (c − 1) viszonyítási
alapot
használja, ahol a szabadságfok (df) az (r-1)(c-1) szorzat:
T2 =
χ2 N (r − 1)(c − 1)
T = T2
Ha r = c, akkor a T viszonyítási alapja nagyobb, mint a C viszonyítási alapja, ha r = c, akkor egyenl ek. A Cramer-féle V és a Csuprov-féle T asszociációs együtthatón kívül még számos más χ2 alapú asszociációs együttható létezik.
Példa Visszatérve az el z példánkhoz, számoljuk ki a C és a T értékeit.
C = 2
χ2
N min {(r − 1), (c − 1)}
=
146,8 = 0,1468 1000 ⋅ (2 − 1)
C = C 2 = 0,1468 = 0,383 T2 =
χ2 N (r − 1)(c − 1)
=
146,8 146,8 = = 0,104 1000 ⋅ (2 − 1) ⋅ (3 − 1) 1000 ⋅ 1,41
T = T 2 = 0,104 = 0,322
80
STATISZTIKA jegyzet szociológus hallgatók számára
Mindkét mutató azt jelzi, hogy a két változó közötti kapcsolat elég laza (közepesnél gyengébb).
Asszociáció-számítás PRE (proportionate reduction of error) eljárással A PRE-eljárás alkalmazásával szintén többféle asszociációs együttható képezhet . A továbbiakban az úgynevezett λ -mutatókkal (lambda) foglalkozunk. A λY / X mutató azt méri, hogy az X szerinti hovatartozás ismerete hány százalékkal csökkenti az Y szerinti hovatartozás becslésekor elkövetett hibát. Ha nem ismerjük az X szerinti hovatartozást, csak az egységek Y szerinti megoszlását, akkor minden egység Y szerinti hovatartozását legkézenfekv bb a legnagyobb (modális) gyakoriságú Y-osztállyal becsülni. Mivel ennek az osztálynak a gyakorisága maxj f . j , ilyen módon eljárva összesen N – maxj f . j számú egység Y szerinti besorolása esetén tévedünk, azaz hibázunk: E1 = N – maxj f . j (j szerinti oszlop max. peremeloszlása) Egy olyan egység Y szerinti hovatartozását, amelyr l tudjuk, hogy X szerint a Cxi osztályba tartozik, azzal az Y osztállyal fogjuk becsülni, amelyre nézve fij az i-edik sorban j szerint maximális. Ilyen módon a Cxi osztályba tartozó egységek Y szerinti besorolásakor fi . – maxj fij számú esetben fogunk hibázni:
E2 =
i
( f i⋅ − max j f ij ) = N −
i
max j f ij
Ezek alapján kiszámítható a PRE mutató: E − E2 PRE = 1 = E1
i
max j f ij − max j f ⋅ j N − max j f ⋅ j
= λY X
Ha PRE = 0, nem feltétlenül függetlenség áll fenn. PRE = 0, ha mind az Y szerinti feltételes eloszlások, mind a feltétel nélküli eloszlások modális osztálya megegyezik, de az eloszlások egyébként eltér ek. A PRE vagy lambda (λ) azt mutatja, hogy az egységek X szerinti hovatartozásának ismerete hány százalékkal csökkenti az azok Y szerinti hovatartozását illet
bizonytalanságot, ez az ismeret hogyan javítja az Y
szerinti hovatartozás becsülhet ségét.
81
STATISZTIKA jegyzet szociológus hallgatók számára
Példa Térjünk vissza a példánkhoz és számítsuk ki a λ értékét. Ha nem tudjuk a nemek szerinti megoszlást, csak azt ismerjük, hogy hányan nézik a különböz
tévéadókat, akkor hibázunk a legkevesebbet, ha arra tippelünk, hogy
mindenki a Duna tévét nézi, mivel ezt nézik legtöbben. E1 = N – maxj f . j = 1000 – 550 = 450 Ismerve a nemek szerinti megoszlást is, minden n t és minden férfit Duna tévét néz nek érdemes tippelni:
E2 =
i
( f i⋅ − max j f ij ) = (400 − 200 ) + (600 − 350) = 450
E2 = N −
i
max j f ij = 1000 − (200 + 350 ) = 450
Ezek alapján kiszámítható a λ: PRE = λ =
E1 − E 2 (450 − 450 ) = =0 E1 450
Tehát a λ értéke 0, mivel úgy a n k, mint a férfiak közül is legtöbben a Duna tévét nézik.
Asszociáció számítása az SPSS-el Ahogyan már a Gyakorisági megoszlások alfejezetben megismertük, kontingencia táblákat az ANALYZE f menü Descriptive Statistics almenüjében, a Crosstabs menüpontnál készíthetünk. A bal oldalon szerepl változók közül kiválasztjuk azt a kett t (többet is lehet, de minél több dimenziós a kereszttáblánk, annál kevésbé áttekinthet ), amelyikre kereszttáblát kérünk. A Cells gombnál beállítjuk, hogy sorra vagy oszlopra százalékoljon a program (Percentages ablakrész), valamint a Counts ablakrészben az elméletileg várt gyakoriságok megjelenítését (Expected Counts), majd Continue-t kattintunk. Visszatérve a f ablakba, a Statistics gombnál lekérjük a χ2 –et (Chi-square) és a Nominal ablakrészben feltüntetett asszociációs mutatókat:
82
STATISZTIKA jegyzet szociológus hallgatók számára
kontingencia együttható (Contingency coefficient): 0 és 1 értékek közötti χ2 alapú mutató: -Phi és Cramer féle V: 0 és 1 értékek közötti χ2 alapú mutató -lambda: 0 és 1 érték közötti PRE-mutató
-bizonytalansági együttható (Uncertainty coefficient): 0 és 1 érték közötti PREmutató. Végül a Crosstabs f ablakban a változók alatt, bal oldalon beklikkelhetjük, hogy a program ábrázolja is adatainkat (Display Clustered Bar Charts), majd OK-t kattintunk.
Példa Adatbázisunkban a k.117-es ismérv a dohányzási szokásokra vonatkozik (Szokott-e dohányozni? 1-naponta, 2-hetente néhányszor, 3-hetente egyszer, 4-ennél ritkábban, 5-nem szokott). Kódoljuk át a k.117-es változót egy új változóba, hogy csak két
kategóriánk legyen: 1. dohányzik és 2. nem dohányzik, majd vizsgáljuk meg, hogy van-e összefüggés a dohányzás és a nem (k3.1-es változó) között. Els lépésként kérünk egy gyakorisági megoszlást (Analyze, Descriptive Statistics, Frequencies) a k.117-es változóra. A táblázat azt mutatja, hogy az 1,2,3,4,5 kódok
mellett szerepel egy 0-ás értékünk is, amely a „nem tudja” válaszlehet séget jelöli. Tehát erre az átkódolásnál figyelnünk kell. Második lépésben hozzuk létre az új változót (Transforme, Recode, Into Different Variables).
83
STATISZTIKA jegyzet szociológus hallgatók számára
Címkézzük fel a k117.Uj változónkat a megadottak szerint (Data, Define Variable), majd kérjünk egy kereszttáblát a k3.1 és a k117.Uj változókra, lekérve az asszociációs együtthatókat is (a Nem változó szerint százalékoltassunk).
A kért statisztikák az Output ablakban tekinthet k meg. Dohányzás * Neme Crosstabulation Neme Dohányzás
dohnyzik
nem dohányzik
Total
Count Expected Count % within Neme Count Expected Count % within Neme Count Expected Count % within Neme
férfi 216 185,3 58,1% 156 186,7 41,9% 372 372,0 100,0%
nõ 157 187,7 41,6% 220 189,3 58,4% 377 377,0 100,0%
Total 373 373,0 49,8% 376 376,0 50,2% 749 749,0 100,0%
Kereszttáblánkra pillantva azt látjuk, hogy a megfigyelt és az elméletileg várt abszolút gyakoriságok között van különbség, a relatív gyakoriságok alapján pedig a férfiak
84
STATISZTIKA jegyzet szociológus hallgatók számára
nagyobb arányban dohányoznak, mint a n k. Azonban a szignifikanciaszint ismerete nélkül nem tudhatjuk, hogy az együtt járás a véletlennek tudható-e be. A χ2 tesztünk er s szignifikáns összefüggést mutat, hiszen a Pearson féle χ2 20,194-es értéke p=0,000 szignifikancia szint (sokkal kisebb, mint 0,05). Tehát a nem és a dohányzás között szignifikáns összefüggés van. Chi-Square Tests
Pearson Chi-Square Continuity Correctiona Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases
Value 20,194b 19,542 20,285 20,167
df 1 1 1 1
Asymp. Sig. (2-sided) ,000 ,000 ,000
Exact Sig. (2-sided)
Exact Sig. (1-sided)
,000
,000
,000
749
a. Computed only for a 2x2 table b. 0 cells (,0%) have expected count less than 5. The minimum expected count is 185,26.
A lambda értéke 0,161 (esetünkben a Nem a független változó) és szintén szignifikáns érték. Tehát a nem ismerete 16%-al csökkenti a dohányzási szokások ismeretével kapcsolatos bizonytalanságot. Directional Measures
Nominal by Nominal
Lambda
Goodman and Kruskal tau
Symmetric Dohányzás Dependent Neme Dependent Dohányzás Dependent Neme Dependent
Value ,160 ,161 ,159 ,027 ,027
Asymp. a Std. Error ,043 ,047 ,048 ,012 ,012
b
Approx. T 3,497 3,131 3,074
Approx. Sig. ,000 ,002 ,002 ,000c ,000c
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on chi-square approximation
A Cramer féle asszociációs együttható értéke 0,164 és szignifikáns (p=0,000), tehát a két változó közötti kapcsolat laza (nem csak a nem befolyásolja, hogy valaki dohányzik vagy nem).
85
STATISZTIKA jegyzet szociológus hallgatók számára
Symmetric Measures
Nominal by Nominal
Phi Cramer's V
N of Valid Cases
Value ,164 ,164 749
Approx. Sig. ,000 ,000
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis.
Összességében tehát azt mondhatjuk, hogy a nem és a dohányzás között szignifikáns összefüggés van (p=0,000): a dohányzók körében nagyobb a férfiak, mint a n k aránya.
Két ordinális mérési szint változó közötti kapcsolat Arra az esetre vonatkozik, amikor mindkét változó sorrendi (ordinális) skálán mérhet . A továbbiakban a kapcsolat szorosságának mérésére használható leggyakrabban alkalmazott mutatóval, a gamma (γ) mér számmal foglalkozunk. Akár csak a lambda, a gamma is azon alapul, hogy mennyire segíti az egyik változó szerinti hovatartozás ismerete a másik értékének becslését. Ilyen módon szintén a PRE-eljárás alapján dolgozunk. Tudjuk, hogy az ordinális mérési szint változók értékeinek csak a sorrendje jelent valamilyen információt, ezért nem a leggyakoribb értékre, hanem az értékek ordinális elrendezésére, sorrendjére tippelünk. Minden egyes eset-párnál azt tippeljük, hogy a két eset elrendezése az egyik változó szerint megfelel (pozitívan vagy negatívan) a másik változó szerinti elrendezésnek: az egyik változó szerint „nagyobb” eset a másik változó szerint is mindig „nagyobb”, vagy pedig a másik változó szerint mindig „kisebb”. A gamma kiszámításánál két mennyiséget kell ismerni: - azon eset-pároknak a számát, amelyeknél egyforma a két változó szerinti nagyságviszony, - azon eset-párok számát, ahol az egyik változó szerint az egyik eset a nagyobb, a másik változó szerint a másik eset a nagyobb.
Az egyez nagyságrend
szám-párok kiszámítása: mindegyik cellában az elemek
számát megszorozzuk az alatta és ugyanakkor t le jobbra fekv
cellákban lév
elemek számának összegével, majd összeadjuk ezeket a szorzatokat.
86
STATISZTIKA jegyzet szociológus hallgatók számára
Az ellentétes nagyságviszonyú szám-párok kiszámítása: a kereszttábla mindegyik cellájában az elemek számát megszorozzuk az alatt és egyben t le balra fekv cellákban lév elemek számának összegével, majd összeadjuk a szorzatokat. A gammát az egyez és az ellentétes rendezés párok számából számítjuk ki:
γ=
N egyezo − N ellentetes N egyezo + N ellentetes
A γ érétke mindig –1 és 1 között van, így a kapcsolat szorosságán kívül annak irányát is megadja.
Példa Az alábbi kereszttábla a saját munkaer -piaci helyzet megítélését jelzi iskolai végzettség szerinti bontásban (fiktív adatok): Isk. végz./Munkaer -piaci helyzet
rossz
közepes
jó
Ö
alapfokú
200
50
50
300
középfokú
50
400
150
600
fels fokú
10
20
70
100
Ö
260
470
270
1000
Számoljuk ki a γ értékét. Negyezo = 200(400+150+20+70) + 50(20+70) + 50(150+70) + 400(70) = 171500 Nellentetes = 80(400+80+10+20) + 150(10+20) + 50(50+10) + 400(10) = 52300
γ=
N egyezo − N ellentetes N egyezo + N ellentetes
=
171500 − 52300 119200 = = 0,532 171500 + 52300 223800
A γ értéke egy közepes er sség , pozitív kapcsolatot mutat a két változó között: a magasabb
iskolai
végzettség
személyek
elégedettebbek
a
munkaer -piaci
helyzetükkel, míg az alacsony iskolai végzettség ek kevésbé elégedettek saját munkaer -piaci helyzetükkel.
Két ordinális változó kapcsolatának vizsgálata az SPSS-el Akárcsak az aszzociációs együtthatókat, a gammát is az ANALYZE f menü
Descriptive Statistics almenüjében, a Crosstabs menüpontnál kérhetjük le. A bal
87
STATISZTIKA jegyzet szociológus hallgatók számára
oldalon szerepl
változók közül kiválasztjuk azt a kett t, amelyikre kereszttáblát
kérünk. A Cells gombnál beállítjuk, hogy sorra vagy oszlopra százalékoljon a program (Percentages ablakrész), majd Continue-t kattintunk. Visszatérve a f ablakba, a Statistics gombnál lekérjük az Ordinal ablakrészben feltüntetett mutatókat: - gamma: -1 és 1 értékek közé es PRE mutató - Somer’s d: a gamma kiterjesztése (az elemzésbe bevonja a független
változóhoz nem köt d eset-párokat is), értéke -1 és 1 közé esik - Kendall’s tau-b: 1 és 1 értékek közé es PRE mutató, figyelembe veszi a
köt déseket - Kendall’s tau-c: 1 és 1 értékek közé es PRE mutató, nem veszi figyelembe a
köt déseket
Példa Adatbázisunkban a már ismert k.117 változó a dohányzási szokásokra vonatkozik (Szokott-e dohányozni? 1-naponta, 2-hetente néhányszor, 3-hetente egyszer, 4-ennél ritkábban, 5-nem szokott), a k.121.1-es ismérv pedig a feketekávé fogyasztásának
gyakoriságát méri (Milyen gyakran fogyaszt kávét? 1-soha, 5-csak alkalmanként, 3hetente egyszer, 4-hetente néhányszor, 5-naponta). Vizsgáljuk meg a két ordinális
mérési szint változó közötti kapcsolatot. Els lépésként gyakoriságot kérünk mindkét változóra és megtisztítjuk az adatokat a nem releváns válaszoktól. Mindkét változónkban szerepel a 0-s („nem tudja”) érték, amelyet kisz rünk az elemzésünkb l. A sz rést többféleképpen is megoldhatjuk: - kétszer a változókra klikkelve a Missing Values mez ben a 0-t hiányzó adatnak jelöljük be - eredeti változóinkat átkódoljuk új változókba úgy, hogy a 0 értéket Sistem Missing-é alakítjuk (Transforme, RecodeInto Different Variable paranccsal)
- esetleválogatással, a „k117 ~= 0 | k121.1 ~= 0” feltételes sz rési paranccsal (Data, Select Cases, If…). A tisztításhoz az els esetet használom, majd ugyanitt felcímkézem a változókat:
88
STATISZTIKA jegyzet szociológus hallgatók számára
Az el z ekben leírtak szerint lekérjük a kereszttáblát és a gammát. A két változónk esetében most teljesen mindegy, hogy melyiket tesszük sorba vagy oszlopba, és, hogy melyikre százalékoltatunk, hiszen nem tudjuk eldönteni, hogy melyik a függ és melyik a független változónk.
89
STATISZTIKA jegyzet szociológus hallgatók számára
Kereszttáblánk az alábbi: Dohányzás gyakorisága * Kávéfogyasztás gyakorisága Crosstabulation
Dohányzás gyakorisága
naponta
hetente néhányszor
hetente egyszer
ennél ritkábban
soha
Total
Count % within Kávéfogyasztás gyakorisága Count % within Kávéfogyasztás gyakorisága Count % within Kávéfogyasztás gyakorisága Count % within Kávéfogyasztás gyakorisága Count % within Kávéfogyasztás gyakorisága Count % within Kávéfogyasztás gyakorisága
soha 16
Kávéfogyasztás gyakorisága csak hetente alkalman néhánysz hetente ként egyszer or 25 2 29
naponta 197
Total 269 36,5%
11,5%
20,3%
9,5%
34,5%
53,4%
1
8
1
13
21
44
,7%
6,5%
4,8%
15,5%
5,7%
6,0%
2
5
7
2,4%
1,4%
1,0%
10
8
3
6
21
48
7,2%
6,5%
14,3%
7,1%
5,7%
6,5%
112
82
15
34
125
368
80,6%
66,7%
71,4%
40,5%
33,9%
50,0%
139
123
21
84
369
736
100,0%
100,0%
100,0%
100,0%
100,0%
100,0%
Mivel adataink 25 cellában oszlanak meg, a 736 f s elemszámunk túlságosan kevés a kereszttábla elemzésére. Viszont a gamma értékének értelmezésére jól használható. A γ értéke –0,535 és az összefüggés szignifikáns (p=0,000). Tehát a két változó között egy szignifikáns, közepes er sség , negatív irányú kapcsolat van. Értelmezéskor vegyük figyelembe, hogy míg a dohányzás gyakoriságánál az 1-es kód a nagyon gyakori (naponta) dohányzást jelölte, az 5-ös pedig a dohányzás hiányát, addig a kávéfogyasztásnál pontosan fordítva voltak kódolva az adataink: az 1-es a kávéfogyasztás hiányát, az 5-ös pedig a napi kávéfogyasztást jelölte. Ebb l adódik a fordított kapcsolat (negatív gamma érték). Adatunk értelme tehát, hogy minél gyakrabban kávézik valaki, annál gyakrabban dohányzik is, és minél kevesebbet dohányzik, annál kevesebbet kávézik. Symmetric Measures
Ordinal by Ordinal N of Valid Cases
Gamma
Value -,535 736
Asymp. a Std. Error ,040
b
Approx. T -12,238
Approx. Sig. ,000
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis.
90
STATISZTIKA jegyzet szociológus hallgatók számára
4.3. Vegyes kapcsolat A vegyes kapcsolatot egy nominális és egy intervallum vagy arány skálán mért változó közötti kapcsolat vizsgálatára használjuk. A kapcsolat szorosságának mérésére a PRE- eljárást használjuk fel. Az egyszerre vizsgált két változó közül a mennyiségi ismérvet jelöljük Y –al, a nominálisat X-el. Ha az Y megoszláson kívül nem áll rendelkezésünkre semmilyen információ, akkor a sokaság valamelyik (pl. g–edik) egységének Y szerinti hovatartozását (Yg -t) legcélszer bb a feltétel nélküli Y megoszlás átlagával, Y –al becsülni. Ha az átlaggal becsüljük az Yg–t, az ezzel összességében elkövetett hiba kisebb, mintha bármely más értéket használnánk erre a célra:
E1 =
N g =1
(Yg − Y ) 2
Ha valamely egységr l ismertté válik, hogy az X ismérv szerint a Cxi osztályba tartozik, akkor az Y ismérv annál el forduló értékét az el bbieknek megfelel en a Cxi osztályba tartozó egységek átlagos Y értékével, Yi –gal (részátlaggal) célszer becsülni:
E2 =
fi ⋅
r
i =1 j =1
(Yi j − Yi ) 2
ahol Yij – a Cxi osztály j -edik egyedének Y értéke. Tehát a PRE-mutató a következ lesz: N
E − E2 PRE = 1 = E1
g =1
(Yg − Y ) 2 − N g =1
r
f ⋅i
i =1 j =1
(Yij − Yi ) 2
(Yg − Y ) 2
= 1−
σ B2 =H2 2 σ
ahol: H2 – variancia-hányados σ2 – a sokaság szórásnégyzete, teljes varianciája σ2B - bels variancia (a f sokaság Yij értékei átlagosan mennyivel térnek el saját
részátlaguktól). A H2 megadja, hogy az egységek X szerinti hovatartozásának ismerete hogyan javítja az Y szerinti hovatartozás becsülhet ségét, vagyis az Y ismérv szórásnégyzetének az
91
STATISZTIKA jegyzet szociológus hallgatók számára
X ismérv által megmagyarázott hányadát. A H2 egy 0 és 1 közötti érték: 0 ≤ H2 ≤ 1. Ha H2 = 0, X és Y független (az X szerint képzett részátlagok mind egyformák), a feltételes és a feltétel nélküli gyakorisági eloszlások mind egyformák. Ha H2 = 1, X és Y függvényszer , determinisztikus kapcsolatban áll egymással (az X szerinti csoportokon belül Y nem szóródik), az X szerinti hovatartozás mindent elmond Y-ról. A gyakorlatban szokták használni a H =
H 2 mutatót is, ez a szórás-hányados. A H
szintén 0 és 1 között mozgó érték. Ha H = 0, függetlenség áll fenn, ha H = 1, a két változó között függvényszer kapcsolat van. H esetén kizárólag a 0-hoz illetve 1-hez való közelségre alapozható a kapcsolat szorosságának megítélése, nem használható megoszlási viszonyszámként.
Példa Nézzük az alábbi szemléltet példát. A táblázatban szerepl fiktív adatok egyedülálló, vezet pozícióban lev n k (8) és férfiak (7) keresetét jelölik (10 millió RON-ban):
Nem (X)
Jövedelem (10 millió RON) -Y
N
Σ
1. Férfi
1; 2; 2; 3; 5; 10; 12
7
35
2. N
1; 1; 1; 2; 2; 2; 3; 4
8
16
15
51
Összesen Els
lépésben kiszámoljuk a teljes sokaság átlagát, majd a férfiak és a n k
jövedelmeinek átlagát (a részátlagokat). Y =
1 ⋅1 + 2 ⋅ 2 + 1 ⋅ 3 + 1 ⋅ 5 + 1 ⋅10 + 1 ⋅12 + 3 ⋅1 + 3 ⋅ 2 + 1 ⋅ 3 + 1 ⋅ 4 51 = = 3,4 15 15
Most kiszámoljuk, hogy mekkora hibát követnénk el, ha nem ismernénk a jövedelmek nemek szerinti megoszlását (akkor tévednénk a legkevesebbet, ha a sokaság átlagával helyettesítenénk): E1 =
N i= g
(Yg − Y ) 2 = 4 ⋅ (1 − 3,4) + 5 ⋅ (2 − 3,4 ) + 2 ⋅ (3 − 3,4) + (4 − 3,4) + ... + (12 − 3,4 ) = 153,96 2
2
2
2
2
Harmadik lépésben kiszámoljuk a férfiak és a n k jövedelmeinek átlagát (a részátlagokat): Y1 =
1 ⋅1 + 2 ⋅ 2 + 1 ⋅ 3 + 1 ⋅ 5 + 1 ⋅10 + 1 ⋅12 35 = =5 7 7
92
STATISZTIKA jegyzet szociológus hallgatók számára
3 ⋅1 + 3 ⋅ 2 + 1 ⋅ 3 + 1 ⋅ 4 16 = =2 8 5
Y2 =
Most, mivel ebben a lépésben már ismerjük a nemek szerinti jövedelem-eloszlásokat is, kiszámítjuk mindkét részsokaságra, hogy mekkora hibát követnénk el, ha a részátlagokkal becsülnénk meg adatainkat:
E2 =
r
fi ⋅
i =1 j =1
2
(Yi j − Yi ) = (1 − 5) + 2 ⋅ (2 − 5) + (3 − 5) + (5 − 5) + (10 − 5) + (12 − 5) + 2
2
2
2
2
2
+ 3 ⋅ (1 − 2 ) + 2 ⋅ (2 − 2 ) + (3 − 2) + (4 − 2 ) = 120 2
2
2
2
Ezek után kiszámítható a variancia hányados: H2 =
E1 − E 2 153,96 − 120 = = 0,22 E1 153,96
H ≈ 0,46
Értelmezés szerint a két változó között közepes er sség kapcsolat van (H ≈ 0,46). A nem ismerete 22%-át magyarázza meg a jövedelmek szórásnégyzetének, vagyis a nem ismerete 22%-kal csökkenti a jövedelmek ismeretével kapcsolatos bizonytalanságot.
A t-teszt A lényegesebb kapcsolatvizsgálat akkor kezd dik el, amikor nem ismerjük a sokaságbeli eloszlást, és arra a kérdésre keressük a választ, hogy a mintánk két részsokaságában az átlagok között tapasztalható eltérés annak tudható-e be, hogy az alsokaságokban is megvan a különböz ség, vagy a kimutatott különbség csak a véletlen m ve. A fenti példánk esetében azt akarjuk megtudni, hogy a n k és férfiak között kimutatott jövedelemkülönbség csak onnan adódik-e, hogy pont ezt a 15 embert kérdeztük meg, vagy a fels vezet n k és férfiak körében ténylegesen létezik ez a különbség. A t-teszttel tehát arra kapunk választ, hogy a mintavétel során fellép véletlen tényez mekkora valószín séggel okoz különböz ségeket. A t eloszlás normális eloszlású változókra számolható és arra alapoz, hogy n>30 elemszám vagy egymástól szignifikánsan eltér szórások esetén, feltételezve, hogy a
kétérték kategoriális változónknál az átlagértékek a teljes sokaságban egyformák (a mintánkban kimutatható különbség csak a véletlen m ve), a két mintaátlag különbsége normális eloszlást követ 0 várható értékkel és
σ 12 n1
+
σ 22 n2
szórással (σ).
93
STATISZTIKA jegyzet szociológus hallgatók számára
Tehát
X1 − X 2
t=
σ1
2
n1
+
σ2
2
.
n2
A t-teszt esetében nem a t értéke, hanem a neki megfelel szignifikanciaszint érdekel bennünket. Ha a t értéknek megfelel szignifikanciaszint kisebb, mint 0,05 (p <0,05), akkor 95%-os biztonsággal állíthatjuk, hogy a mintánkon (a megfigyelt adatainkon) számolt csoportátlagok közötti eltérések nem a véletlen m vei. Ha a mintánkon számolt két részátlag szórása nem különbözik szignifikánsan (p<0,05), vagy kicsi a mintanagyságunk (n<30), akkor a t=
X1 − X 2
(n1 − 1)σ 1 + (n2 − 1)σ 2 2 1 1 ⋅ + n1 + n2 − 2 n1 n2 2
képlettel számolunk. Ebben az esetben is nem a t értéke, hanem a neki megfelel szignifikanciaszint a fontos. Kézi számításokkor a t értékét az úgynevezett t-táblázat vagy a Mintavétel c. fejezetben már megadott t értékek segítségével értékeljük. Tehát ha n>120, szignifikáns összefüggés esetén a t értéke nagyobb, vagy egyenl kell legyen, mint 1,96. t értéke
statisztikai biztonság
1,96
0,95
2,58
0,99
3,29
0,999
Ha n<120, a t értékét a t-táblázat (Melléklet) segítségével értékeljük és hasonlóan járunk el a chi-négyzet esetében leírtaknál (ha t értéke kisebb, mint a megfelel szabadságfokoknál és valószín ségi szintnél szerepl táblázati érték, akkor az észlelt különbség csak a véletlen m ve, az összefüggés nem szignifikáns). Kétmintás t-próba esetén a t szabadságfoka: df= n1 + n2 - 2 eloszlást követ.
94
STATISZTIKA jegyzet szociológus hallgatók számára
Az F-próba Az F próba azt mutatja meg, hogy két vagy több részsokaságban a szórások közti különbség mennyire a véletlen m ve és mennyire annak tudható be, hogy különbözik a populáció alsokaságaiban is. Dichotóm változók esetében az F értéke a két részsokaság szórásnégyzetének hányadosa:
σ 12 F= 2 σ2 Akár csak a chi-négyzet vagy a t értéke esetében, itt is nem az F értéke, hanem a neki megfelel szignifikanciaszint bír jelent séggel. Kézi számításokkor az F értékét az úgynevezett F-táblázat segítségével értékeljük és hasónlóan járunk el a chi-négyzet esetében
részletesen
leírtaknál
(ha
F
értéke
kisebb,
mint
a
megfelel
szabadságfokoknál szerepl táblázati érték, akkor az észlelt különbség csak a véletlen m ve, az összefüggés nem szignifikáns).
Példa Nézzük a n k és férfiak kereseteit tartalmazó korábbi feladatunkat, és számítsuk ki a t értékét. El ször ki kell számítanunk a két alcsoportunk szórását (a csoportátlagokat már kiszámoltuk).
σ=
σ1 =
1 N
k i =1
fi ( X i − X )2
1 112 2 1(1 − 5) + 2(2 − 5) 2 + 1(3 − 5) 2 + 1(5 − 5) 2 + 1(10 − 5) 2 + 1(12 − 5) 2 = =4 7 7
σ2 =
1 8 2 3(1 − 2 ) + 3(2 − 2) 2 + 1(3 − 2) 2 + 1(4 − 2) 2 = =1 8 8
A t kiszámításakor a második képletet használjuk (n kisebb, mint 30). t=
X1 − X 2
(n1 − 1)σ 1 + (n2 − 1)σ 2 2 1 1 ⋅ + n1 + n2 − 2 n1 n2 2
=
5−2 = 3,82 (7 − 1) ⋅ 4 + (8 − 1) ⋅1 1 1 ⋅ + 7+8−2 7 8
Kikeressük a t-eloszlás táblázatból az értéket, df=7+8-2=13.
95
STATISZTIKA jegyzet szociológus hallgatók számára
A t-táblázatból idevágó értékek: Szabadságfok 13
Szignifikanciaszint P=0,05
P=0,01
P=0,001
2,160
3,012
4,221
Behelyezve érétkünket látjuk, hogy a két változó közötti mintánkon megfigyelt összefüggés
99,0%-os
valószín séggel
nem
a
véletlen
m ve.
Tahát
az
alapsokaságban, vagyis a településen él fels vezet k körére is igaz, hogy a férfiak átlagosan többet keresnek, mint a n k.
Vegyes kapcsolat kiszámítása az SPSS-el Az SPSS segítségével három módszerrel vizsgálhatjuk meg egy min ségi és egy mennyiségi változó közötti kapcsolatot. 1. A már ismert módon, az ANALYZE f menü Descriptive Statistics almenüjének Crosstabs parancsával lekérjük a STATISTICS mez nél, a Nominal by Interval
ablakrésznél található Eta statisztikát. Ez az asszociációs mutató a H mutatóhoz hasonlóan egy 0 és 1 közötti érték, amely a két változó összefüggésének er sségét mutatja, amikor a független változónk kategoriális mérési szint , a függ változónk pedig mennyiségi skála. Ebben az esetben az SPSS nem számol szignifikancia szintet. 2. Az ANALYZE f menü Compare Means almenüjénél az Independent Samples T Test…(független mintás t-teszt) paranccsal lekérhetjük a t-eloszlást és az ennek
megfelel
szignifikanciaszintet. Itt fontos még megjegyezni, hogy a mennyiségi
változónk lesz a Test Variable, a dichotóm változónk pedig a Grouping Variable. A kategoriális változónknál minden egyes t-próba lefuttatásakor meg kell nevezni a két kategóriát (Group1-az els csoport vagy osztály kódja, Group2-a második csoport vagy osztály kódja,), még akkor is, ha biztosan nem fordul el az adatállományban ennél a változónál kett nél több érték. Utána Continue-t, majd Ok-t kattintunk. 3. Az ANALYZE f menü Compare Means, Means almenüjénél, az Options ablakban, a Statistics for Firs Layer (bal alsó rész) ablakrészben, az Anova table and
Eta bejelölésével lekérhet az F-próba. A változók átvitelénél figyeljünk arra, hogy a kategoriális változónk mindig a független, a mennyiségi változónk pedig a függ változó legyen. A kijelölés után Continue-t, majd Ok-t kattintunk.
96
STATISZTIKA jegyzet szociológus hallgatók számára
Bár csak kétérték
kategoriális változókra alkalmazható, vegyes kapcsolatok
elemzésekor leggyakrabban a t-tesztet szokás használni.
Példa Adatbázisunkban a k3.1- es változó a megkérdezettek a nemét, a k.135-ös változó pedig az egy éven belül elolvasott könyvek számát jelöli. Vizsgáljuk meg, hogy van-e szignifikáns összefüggés a nem és a könyvolvasás gyakorisága között. Els
lépésben gyakoriságot kérünk mindkét változóra. A gyakorisági tábla azt
mutatja, hogy adataink nem igényelnek tisztítást. A kapcsolatvizsgálatkor az 1. eljárás bemutatására nem térek ki, hiszen az F próbánál is megjelenik az Eta értéke. El ször nézzük a t-tesztet, az el z ekben leírtak szerint.
Az Output ablakban megjelenik a csoportstatisztikákat jelöl táblázat, Group Statistics
Hány könyvet olvasott az utóbbi évebn?
Neme férfi nõ
N 367 375
Mean 5,15 8,05
Std. Deviation 11,97 12,60
Std. Error Mean ,62 ,65
és a t-teszt:
97
STATISZTIKA jegyzet szociológus hallgatók számára
Independent Samples Test Levene's Test for Equality of Variances
F Hány könyvet olvasott Equal variances 4,261 az utóbbi évebn? assumed Equal variances not assumed
Sig. ,039
t-test for Equality of Means
t -3,213
df
95% Confidence Interval of the Difference Sig. Mean Std. Error Upper (2-tailed) Difference Difference Lower
740
,001
-2,90
,90
-4,67
-1,13
-3,215 739,356
,001
-2,90
,90
-4,67
-1,13
El ször a t-teszt táblázatát értelmezzük. Els lépésben megnézzük az F értékének szignifikancia szintjét. Mivel p<0,05, 95%-os valószín séggel állíthatjuk, hogy nem vethet el az eredeti feltételezésünk, amely szerint az elolvasott könyvek számának szórása egyenl a két alsokaságban. Tehát a szóráskülönbség nem a véletlen m ve, így nem igazolódott be az eredeti feltételezésünk: ekkor az „Equal variances not assumed”, vagyis az alsó sorban található t érték szignifikanciaszintjét vizsgáljuk. A
szigifikanciaszint azt mutatja (p=0,001), hogy a két alcsoport átlaga közötti különbség 99%-os valószín ségi szint mellett is szignifikáns. Tehát a csoportstatisztikákat szemléltet
táblázat alapján elmondhatjuk, hogy a n k átlagosan több könyvet
olvasnak, mint a férfiak. A 2. eljárással nyert ANOVA (Analyze of Variance) táblázatunk is ugyanezt az eredményt mutatja.
98
STATISZTIKA jegyzet szociológus hallgatók számára
ANOVA Table Sum of Squares Hány könyvet olvasott Between az Groups(Combined) 1560,738 utóbbi évebn? * NemeWithin Groups 111856,8 Total 113417,5
Mean Square 1 1560,738 740 151,158 741
df
F 10,325
Sig. ,001
Tehát a nem és a könyvolvasás gyakorisága között szignifikáns összefüggés van. Report Hány könyvet olvasott az utóbbi évebn? Neme férfi nõ Total
Mean 5,15 8,05 6,62
N 367 375 742
Std. Deviation 11,97 12,60 12,37
A férfiak átlagosan kevesebb könyvet olvasnak, mint a n k.
4.4. Két mennyiségi változó közötti kapcsolat: korreláció A korreláció arra az esetre vonatkozik, amikor minkét változó mennyiségi (intervallum vagy arány skálán mérhet ). Akár csak a vegyes kapcsolat esetén, itt is megtehet , hogy az egyik ismérvet (X) csak osztályozásra használjuk, a másikat pedig átlag – és varianciaszámítás segítségével vizsgáljuk. Két mennyiségi ismérv esetében azonban két vonatkozásban tehetünk ennél többet: 1. kihasználhatjuk azt, hogy az X ismérv szerint képzett osztályok az X változó nagysága szerint egyértelm en sorrendbe állíthatóak 2. nem csak X, hanem Y szerint is osztályozhatjuk a sokaságot és ekkor X-et vizsgáljuk varianciaanalízis segítségével. Az X és Y szerint képzett osztályok egyértelm rendezhet sége az ismérvek közötti kapcsolat irányának értelmezését teszi lehet vé (akár csak γ esetében): a. ha X növekedésével párhuzamosan Y is növekszik, a kapcsolat pozitív irányú b. ha X növekedésével párhuzamosan Y csökken, a kapcsolat negatív irányú. A kapcsolat iránya csak akkor értelmezhet , ha a két ismérv közötti kapcsolat monoton természet . Az X szerint képzett osztályokhoz hozzárendelt Yi részátlagok sorozatát az Y változó X változóra vonatkozó (X szerinti) empirikus regressziófüggvényének nevezzük. Az empirikus regsessziófüggvény nem csak annak jelzésére szolgál, hogy van-e kapcsolat 99
STATISZTIKA jegyzet szociológus hallgatók számára
a két változó között, hanem a kapcsolat természetének tömör kifejezésére is. A kapcsolat létét itt is az jelzi, hogy az egyes X osztályokhoz különböz Yi részátlagok tartoznak, ellenkez esetben az X ismerete nem adna semmiféle többletinformációt az Y szerinti hovatartozás becsléséhez. Az empirikus regressziófüggvény grafikusan is ábrázolható az (Xi, Yi) pontokat összeköt vonaldiagram formájában, ahol Xi vagy egyedi ismérvérték, vagy az X szerint képzett osztályköz osztályközepe, vagy az adott osztályközbe tartozó X értékek átlaga. Az empirikus regressziófüggvény önmagában nem mutatja meg, hogy a két változó közötti kapcsolat függvényszer -e vagy nem, mert nem derül ki bel le, hogy az Yi részátlagok körül van-e szóródás, ezért célszer bb a pontdiagramal közös ábrát használni. Az eddig tárgyalt esethez rendelhet variancia-hányadosnak külön neve és jelölése van: az X szerinti osztályokhoz rendelt Yi részátlagok sorozatából számítható variancia-hányados Y-nak X-re vonatkozó determinációs hányadosa, jelölése η2y/x .
η
2 yx
σ B2 (Y ) =1− 2 σ (Y )
η y x = η y2 x
Ekkor a ηy/x a korrelációs hányados. Teljesen
hasonlóan
értelmezhet
X-nek
Y-ra
vonatkozó
empirikus
regressziófüggvénye és az ehhez tartozó determinációs hányados és korrelációs hányados. Ha az X és Y közötti kapcsolat sztochasztikus, általában η2y /x = η2x / y. Tapasztalati regressziófüggvényt és determinációs hányadost csak akkor ajánlott használni, ha a megfigyelt sokaság elég nagy ahhoz, hogy az osztályokba 1-nél több egység tartozzon. Ha minden osztályban csak egy egység van, egyik osztályon belül sincs szóródás és így η2 = 1, ami megtéveszt . A determinációs hányados értéke mindig nagyon függ a számításhoz használt osztályozás konkrét módjától. A korrelációs hányados nem értelmezhet százalékként. Ha azonban áttérünk a sokaság egységeinél együttesen fellép (Xi, Yi) érték-párok
vizsgálatára, akkor tovább mehetünk a két mennyiségi változó közötti kapcsolat elemzésében. Ebben az esetben az a kérdés, hogy az az információ, hogy a sokaság valamely egységénél az X ismérv értéke éppen Xi, felhasználható-e valahogyan az adott
egységnél
el forduló
Yi
becslésére.
E
kérdés
megválaszolása
a
regressziószámítás feladata, amelynek célja az X és Y közötti sztochasztikus
100
STATISZTIKA jegyzet szociológus hallgatók számára
kapcsolat természetének egy f(X) függvénnyel való leírása. Az f(X) függvényt az empirikus
reressziófüggvényt l
való
megkülönböztetés
céljából
analitikus
regressziófüggvénynek szokás nevezni, és els sorban arra használjuk, hogy annak Xi helyen vett f(Xi) helyettesítési értékével megbecsüljük az Y változónak az Xi értékével együtt el forduló értékét. Arról, hogy egy ilyen f(X) függvény létezésére lehet-e számítani, a pontdiagram nyújt segítséget. Ha a pontdiagram pontjai nem véletlenszer en szóródnak, biztosak lehetünk az f(X) létezésében. A pontdiagram nem csak a változók közötti kapcsolat
létér l, hanem a kapcsolat jellegér l is informál. Leghasznosabb a pontdiagram és az empirikus regresszióföggvény közös ábrázolása, mivel csak egy ilyen ábra segítségével lehet különbséget tenni a sztochasztikus és függvényszer
kapcsolat
között és az empirikus regressziófüggvény a pontdiagram lényegét is megjeleníti. Néhány jellegzetes pontdiagram séma:
a. X és Y független
b. pozitív kapcsolat
c. negatív kapcs. d. nem-lineáris kapcs.
Amennyiben már ismert az f(X) függvény típusa, a következ lépés a paraméterek meghatározása, becslése a megfigyelt (Xi, Yi) érték-párok alapján {f(X) = aX + b}.
A paraméterek meghatározása után a regressziófüggvény felhasználásával megadható az Y változónak az X változó Xi értékével együtt el forduló értékére az Yi = f(Xi). A következ lépésben alkalmazzuk a PRE eljárást az X és Y közötti korrelációs kapcsolat szorosságának mérésére, feltételezve, hogy a két változó közötti sztochasztikus kapcsolat természetét leíró analitikus regressziófüggvény lineáris. E1 esetén nem ismerjük az X szerinti hovatartozást, így az Yi -t nyilvánvalóan az Y -al becsüljük, ha ismerjük az X szerinti hovatartozást, Yi -t az f(Xi) felhasználásával becsüljük (E2).
E1 = E2 =
(Y − Y )
2
i
=
[Yi − f ( xi )]2 = (1 − r 2 ) ⋅
d y = N ⋅σ 2 y 2
d 2 y = (1 − r 2 ) ⋅ N ⋅ σ 2 y
ahol: r – lineáris korrelációs együttható r2 – determinációs együttható, PRE mutató
101
STATISZTIKA jegyzet szociológus hallgatók számára
d x = Xi – X , d y = Yi – Y
r=
2 2 2 E1 − E 2 Nσ y − (1 − r ) Nσ y PRE = = = r2 2 E1 Nσ y
d xd y d x2
d y2
A determinációs együttható (r2) azt mutatja, hogy az X változó egyes egységeknél el forduló Xi értékeinek ismerete hány százalékkal csökkenti az Y változó azokhoz tartozó Yi értékeinek becslésekor elkövetett hibát, ha a becslés a lineáris analitikus regressziófüggvény segítségével történik. A korrelációs együttható (r) kifejezhet a kovariancia segítségével is, amely bár nem PRE mutató, mégis alkalmas a két változó együtt-ingadozásának mérésére:
r=
C
C=
σ xσ y
dxd y N
Ha C = 0, X és Y között nincs kapcsolat, ha C > 0, a két változó közti kapcsolat pozitív, ha C < 0, a két változó közti kapcsolat negatív irányú. A C önmagában nem alkalmas a kapcsolat szorosságának jellemzésére (a szorosság függ a szóródástól is). Az r korrelációs együttható kiküszöböli a kovariancia e hátrányát (osztja a két változó szóródásával). Az r, vagy a Pearson féle korrelációs együttható egy [-1; 1] intervallumba es érték, mér szám. Ha r = 1 vagy r = –1, a két változó függvényszer lineáris kapcsolatban áll egymással. Az r értéke a kapcsolat szorosságát méri és minél nagyobb, annál szorosabb kapcsolatot jelez. Ha a nullhipotézisünk az, hogy a teljes sokaságban az X és Y változók függetlenek (r=0), akkor az n elem összes lehetséges minták sokaságán a
t = rxy ⋅
n−2 1 − rxy
2
valószín ségi változó n–2 paraméter t-eloszlás (Student-eloszlás), ami elég nagy n esetén (n>120) n (0,1) paraméter normális eloszlás. Így, ha az esetek száma nagy, a p=0.05, a p=0.01 és a p=0.001 szignifikanciaszinteknek megfelel t-érték 1.96, 2.58 és 3.29. Ha viszont az esetek száma kevesebb 100-nál, szükségünk van egy t-eloszlás táblázatra (lásd a Mellékletet).
102
STATISZTIKA jegyzet szociológus hallgatók számára
Példa Az alábbi fiktív példa 10 véletlenszer en kiválasztott n életkorát és vérnyomását mutatja.
Életkor
Vérnyomás
(X)
(Y)
dx = Xi – X
dx2
dxdy
dy = Yi – Y
dy2
36
118
36-50= -14
118-137,7= -19,7
275,8 196
388,09
38
115
38-50= -12
115-137,7= -22,7
272,4 144
515,29
42
125
-8
-12,7
101,6 64
161,29
42
140
-8
2,3
-18,4
64
5,29
47
128
-3
-9,7
29,1
9
94,09
49
145
-1
7,3
-7,3
1
53,29
55
150
5
12,3
61,5
25
151,29
56
147
6
9,3
55,8
36
86,49
63
149
13
11,3
146,9 169
127,69
72
160
22
22,3
490,6 484
497,29
1408
2080,1
Σ
1192
Rajzoljuk fel a pontdiagramot, hogy lássuk van-e értelme lineáris összefüggést keresni. A pontdiagramunk azt jelzi, hogy joggal feltételezhetjük egy pozitív lineáris kapcsolat
Vérnyomás
létét. 180 160 140 120 100 80 60 40 20 0 0
20
40
60
80
Életkor
103
STATISZTIKA jegyzet szociológus hallgatók számára
Számítsuk ki és értelmezzük a korrelációs és determinációs együtthatókat! Els lépésben kiszámoljuk a két változó számtani átlagát.
X = Y =
X1 + X 2 + N Y1 + Y2 + N
+ XN + YN
=
=
36 + 38 + ... + 72 = 50 10
118 + 115... + 160 = 137,7 10
Második lépésben egy-egy új oszlopba kiszámoljuk a dx és dy távolságokat. Harmadik lépésben összeszorozzuk a dx és dy értékeket, majd összeadjuk ket (Σ). Negyedik lépésben négyzetre emeljük a dx értékeket és összeadjuk (Σ), majd ugyanezt elvégezzük dy-ra is. Ötödik lépésben kiszámítjuk a Pearson féle korrelációs együtthatót: dxd y
r=
d x2
d y2
=
1408 1408 = = 0,89 1192 ⋅ 2080,1 1574,6
Négyzetre emeléssel kiszámoljuk a determinációs együtthatót: r2=0,79 Értelmezés szerint a korrelációs együttható értéke egy er s, pozitív kapcsolatot mutat. Tehát minél id sebb egy n , annál nagyobb a vérnyomása. A determinációs együttható azt jelzi, hogy az életkor ismerete 79%-al csökkenti a vérnyomás ismeretével kapcsolatos bizonytalanságot. Most pedig számoljuk ki a t értékét, hogy alapsokaságunkra is tudjunk következtetni. t = rxy ⋅
n−2 1 − rxy
2
= 0,89 ⋅
10 − 2 = 0.89 ⋅ 4,16 = 3,7 1 − 0,79
Mivel elemszámunk 10, a t-táblázatot használjuk (df=10-2=8). A t-táblázatból idevágó értékek: Szabadságfok 8
Szignifikanciaszint P=0,05
P=0,01
P=0,001
2,306
3,355
5,041
Tehát a két változó közötti összefüggés 99%-os valószín ségi szint mellett szignifikáns. 99%-os biztonsággal állíthatjuk, hogy alapsokaságunkban is a két változó összefügg egymással.
104
STATISZTIKA jegyzet szociológus hallgatók számára
Korreláció kiszámítása az SPSS-el Az SPSS segítségével kétféleképpen számolhatunk korrelációt: - a már ismert módon, az ANALYZE f menü Descriptive Statistics almenüjének Crosstabs parancsával, a STATISTICS mez nél a Pearson féle korrelációs együttható (Correlations) lekérésével (a jobb fels
sarokban
található) - az ANALYZE f menü Correlate almenüjénél a Bivariate opcióra klikkelve. Az SPSS program mindkét esetben szignifikanciaszintet is számol, így csak arra kell figyelnünk, hogy releváns adatokkal dolgozzunk, vagyis tisztítsuk meg adatainkat az érvénytelen válaszoktól.
Példa Adatbázisunkban a k.140-es kérdés a hétköznapi tévénézési szokásokra vonatkozik (Egy átlagos hétköznapon hány percet néz televíziót?……..perc, 9999-egész nap be van kapcsolva a tv), a k.141-es kérdés pedig a hétvégi tévénézési szokásokra vonatkozik (Egy átlagos hétvégén –szombaton és vasárnap együtt- hány percet néz televíziót?……..perc, 9999-egész nap be van kapcsolva a tv). Vizsgáljuk meg a két mennyiségi változónk közötti összefüggést. Els lépésben, mint minden esetben, gyakorisági megoszlást kérünk a két változóra. Tudjuk, hogy egy hétköznap max. 1440, egy hétvégén pedig max. 2880 percet lehet tévét nézni. Tehát az ezeknél nagyobb értékekt l (beleértve azokat is, akik egész nap nézik a tévét – 9999 kód) meg kell szabadulnunk, mivel nagyon eltorzítják a számolt statisztikákat. Továbbá azok sem érdekelnek bennünket, akik 0 percet nézik a tévét (hét közben vagy hétvégén), hiszen most csak a tévénéz kkel foglalkozunk. Végignézve a gyakorisági táblákat azt látjuk, hogy mindkét változónk esetében szerepel úgy a 0-ás, mint a 9999-es érték - tehát ezekt l a már korábban ismertetett módszerek valamelyikével (Select Cases, Misind Values, Recode) meg kell válnunk. A többi adatunk elvileg rendben van. Megtisztítva adatainkat, az els
módszerrel lefuttatunk egy korrelációt. Ha a
f ablakban a változók alatt beklikkeljük a Suppress tables-t, a kereszttábla nem fog megjelenni (erre most semmi szükség).
105
STATISZTIKA jegyzet szociológus hallgatók számára
Az Output ablakban megjelenik a kért statisztikánk: Symmetric Measures
Interval by Interval Ordinal by Ordinal N of Valid Cases
Pearson's R Spearman Correlation
Value ,570 ,630 651
Asymp. a Std. Error ,050 ,028
b
Approx. T 17,656 20,688
Approx. Sig. ,000c ,000c
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation.
A korrelációs együtthatónk szignifikáns, értéke közepesnél er sebb pozitív kapcsolatot jelez a két változó között. Tehát 99,9%-os valószín ség mellett kijelenthetjük, hogy aki hétköznap sokat nézi a tévét (de nem egész nap), a hétvégén is sok id t fordít tévénézésre (de nem egész hétvégén tévézik). Természetesen, ha a Correlate almenüb l kérjük le a korrelációs együtthatót, akkor is ugyanezt az értéket kapjuk.
106
STATISZTIKA jegyzet szociológus hallgatók számára
Ebben az esetben az értelmezést megkönnyíti a szignifikáns összefüggések csillagokkal való kiemelése: Correlations K140
K141
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
K140 1,000 , 674 ,570** ,000 651
K141 ,570** ,000 651 1,000 , 670
**. Correlation is significant at the 0.01 level (2-tailed).
Ahogyan az SPSS is jelzi, az összefüggés p=0,01 (99%-os) valószín ségi szint mellett is szignifikáns.
107
STATISZTIKA jegyzet szociológus hallgatók számára
5. TÖBBVÁLTOZÓS ELEMZÉSEK Ebben a fejezetben a legismertebb többváltozós elemzések: regresszió, útelemzés, id sorok elemzése, faktorelemzés, klaszterelemzés, diszkriminancia-analízis és logisztikus regresszió rövid, lényegi összegzésére törekszem, majd rátérek a két legegyszer bb módszer, a f komponens-elemzés és a klaszterelemzés részletes bemutatására.
5.1. A többváltozós elemzések fajtái Regresszióelemzés Két mennyiségi változó közötti sztochasztikus kapcsolat leírása az Y=f(X) függvénnyel történik. A konkrét függvény paramétereinek meghatározása a regresszióelemzés módszerével történik. A regresszióelemzés arra a kérdésre keres választ, hogy melyik az a függvény (lineáris vagy nem lineáris), amelynek segítségével az egyik változó (X) értékét megismerve el rejelzést tehetünk egy másik változó (Y) értékére. Ahogyan a korrelációszámításnál már láttuk, kétváltozós minták egy kétváltozós pontdiagram segítségével ábrázolhatók, amelyr l leolvasható, hogy a kett között milyen jelleg kapcsolat van. A regresszióelemzés fajtái: 1. lineáris regresszió 2. többváltozós regresszió 3. parciális regresszió 4. nem lineáris regresszió Lineáris regresszió Két mennyiségi változó közötti kapcsolat legegyszer bb formája a lineáris kapcsolati típus, amikor az összefüggést egy egyenes írja le. A lineáris regresszióanalízis az a statisztikai eljárás, amellyel megtalálhatjuk a két változóra együttesen felvett értékekhez (a pontdiagram pontjaira) legjobban illeszked egyenest. Tehát a lineáris regresszióban a regressziós egyenes alkalmas a két változó kapcsolatának grafikus ábrázolására, a regressziós egyenlet pedig a kapcsolat összegzésére használható.
108
STATISZTIKA jegyzet szociológus hallgatók számára
A regressziós egyenlet leíró és következtetési szempontból is hasznos: megkapjuk a két változó közti kapcsolat matematikai leírását, valamint lehet ségünk van arra, hogy X ismeretében következtessünk Y értékére. Mivel a pontokra legjobban illeszked egyenest arra akarjuk használni, hogy X értékeib l az Y értékeire következtessünk, a legjobb egyenes az lesz, amellyel az el rejelzés hibája a legkisebb. Ha a lineáris függvény alakja Y = a + bX, akkor az Xi értékhez becsült Y-érték: Y = a + bX i Az a és b értékeit úgy számítják ki, hogy a tényleges Y értékek és a becsült Y értékek (X alapján adott becslések) közötti eltérés minimális legyen. A regressziós becslés jóságának mérésére a becsült Y és a valódi Y érték varianciájának hányadosa használható, amely nem más, mint a korreláció kapcsán számolt determinációs együttható (r2). Többváltozós regresszió A valóságban el forduló jelenségek olyan bonyolultak, hogy legtöbbször az egyszer lineáris regresszió nem elég jó a leírásukra. Sokszor el fordul, hogy egy adott függ változóra egyszerre több független változó is hatással van (pl. a havi alkoholfogyasztás mennyiségét befolyásolhatja az életkor, a különleges események száma, a h mérséklet, a szabadid mennyisége, stb). Ilyen esetek kezelésére nyújt megoldást a többváltozós regresszió. Ilyenkor a regressziós egyenletben több X változó kerül az egyetlen X helyébe és a b paraméterek száma is megváltozik, de a logika ugyanaz: minden egyes b érték megadja az egyes független változók szerepét a végs
érték meghatározásában. A többváltozós lineáris regressziót a többszörös
korrelációs együttható értékével mérik (több független változó együttes hatását méri).
109
STATISZTIKA jegyzet szociológus hallgatók számára
Parciális regresszió A parciális regresszió arra az esetre vonatkozik, amikor azt szeretnénk vizsgálni, hogy milyen kapcsolat van két változó között akkor, ha egy vagy több másik változót állandó szinten tartunk (az el z példánknál maradva, ha megegyezik az életkor, a szabadid mennyisége és az alkoholfogyasztás között megmarad-e az összefüggés). A változók közötti összefüggést leíró egyenletet úgy számoljuk ki, hogy állandó szinten tartjuk a kontrollváltozókat, és az így kapott eredményt összevetjük a két változó közötti eredeti kapcsolattal. A parciális regressziót a parciális korrelációs együtthatóval mérjük. Nem lineáris regresszió Empirikus vizsgálatok esetén nem feltételezhetjük, hogy minden változócsoportban lineáris összefüggések volnának. Sokszor el fordul, hogy egy görbe vonalú regresszióval jobban magyarázhatóak az adatok, mint bármilyen lineáris modellel, ugyanakkor a regressziós modellek kett s funkciójából következik az is, hogy bár egy bonyolult egyenlettel a kapcsolat tökéletesen leírhatóvá válik, de nem használható szinte semmiféle következtetésre. Általában a regresszióelemzés extrapolációra való felhasználása nem igazán megbízható.
Útelemzés Az útelemzés oksági modell a változók közötti kapcsolatok megértéséhez. A regressziószámításon alapul, de szemléletesebb képet ad több változó kapcsolatáról. Abból indul ki, hogy egyik változó értékei más változók értékei okozzák, tehát elengedhetetlen a függ és független változók megkülönböztetése. Útelemzés révén grafikusan megjeleníthet
a változók közötti összefüggések hálózata a kapcsolat
er sségének feltüntetésével. A kapcsolater sségeket parciális regresszióelemzés alapján számítják ki. Az út-együtthatók (path coefficients) két változó kapcsolatát mutatják úgy, hogy a modellben szerepl
összes többi változót konstans szinten
tartjuk. Az útelemzés kiváló módja a változók közötti komplex oksági láncok és hálózatok kezelésének, de az okság rendjét nem az útelemzés, hanem a kutató mondja meg. A kutató határozza meg a változók közötti lehetséges kapcsolatok szerkezetét, a számítógép csak az út-együtthatókat számolja ki.
110
STATISZTIKA jegyzet szociológus hallgatók számára
Id sorok elemzése Gyakran használunk regressziószámítást id soros adatok elemzésére, amikor az egyes változók id beli alakulását, változását kívánjuk vizsgálni. Az id sor-elemzés hosszú távú trendek kifejezésére, egy trend magyarázatára adott hipotézisek tesztelésére, valamint a jöv ben várható változások el rejelzésére is alkalmas. Szintén parciális regresszión alapszik, amikor az id (év, hónap, perc, stb.) változó az elemzési egység. Az id soros összefüggések sokszor nagyon bonyolultak, ilyenkor használatos az id eltolásos regresszióelemzés, amikor az id változó egy korábbi értékét (pl. el z év) tekintjük alapnak és ez alapján becsüljük valamely változó alakulását. A társadalomban el forduló számos oksági viszonyt ilyen id eltolás jellemez. A különböz el forduló esetekben sokféle regressziós egyenlet képzelhet
el, de az
id sorok elemzésénél a lényeg mindig az, hogy a kutatónak mennyire sikerült megmagyaráznia a függ változó megfigyelt értékeit.
Faktorelemzés A faktoranalízis lényegesen eltér a regresszióelemzést l. Statisztikai alapjai elég bonyolultak és különböznek az eddig tárgyaltakétól. A faktorelemzés arra szolgál, hogy mintázatokat fedezzünk fel egy nagyobb változórendszerben. A faktoranalízis tulajdonképpen úgy történik, hogy olyan mesterséges dimenziókat, faktorokat hozunk létre, amelyek er sen korrelálnak egy sor megfigyelt változóval, és amelyek egymástól függetlenek. Minden faktorhoz hozzátartoznak a megfelel faktorsúlyok, amelyek az egyes változók és az egyes faktorok közötti korrelációk. A faktorelemzés a gyakorlatban úgy történik, hogy számos változóból kapunk néhány faktort a megfelel faktorsúlyokkal, majd a kutatónak kell meghatároznia az egyes faktorok jelentését az szerint, hogy az illet
faktornál melyik változók szerepelnek nagy
súllyal. A faktorok kialakításánál a számítógép csak két szempontot vesz figyelembe: 1. a faktor magyarázza meg a vizsgált változók összes varianciájának viszonylag nagy hányadát 2. minden faktor legyen többé-kevésbé független a többi faktortól. A módszer el nyei: -
a faktorelemzés hatékony módszer nagyszámú változó f összefüggéseinek vizsgálatára
-
számos többszörös, egyszer és parciális korreláció egybevetése helyett a számítógép végzi el a faktorelemzést
111
STATISZTIKA jegyzet szociológus hallgatók számára
-
a faktorelemzés eredményei könnyen értelmezhet ek: az alapján, hogy egy adott faktornál melyik változók szerepelnek nagy súllyal, megállapítható, hogy hogyan csoportosulnak a változók
-
az is könnyen megállapítható, hogy egy adott változó melyik faktorokkal korrelál jelent s mértékben és melyikekkel nem.
A módszer hátrányai: -
az elemzés a tényleges jelentésre való tekintet nélkül állítja el a faktorokat (sokszor el fordul, hogy egy faktor magas súllyal járul hozzá az egymással lényegi kapcsolatban nem álló változókhoz)
-
faktorokat mindig létre lehet hozni, de ezek létezése egyáltalán nem garancia arra, hogy értelmük is van.
Klaszterelemzés A társadalomtudományokban az egyének, intézmények, települések vagy országok hasonlósága általában nem egyetlen, hanem számos ismérv/változó alapján állapítható meg (pl. országok esetén hasonló nagyságú az egy f re jutó GDP, a gazdaság növekedése, a munkanélküliségi ráta, a születéskor várható átlagos élettartam, az iskolázottság, stb.). A klaszterelemzés (klaszter = csoport, angolul: cluster) célja el re nem ismert csoportok képzése, keresése, a keresés eredménye pedig a különböz homogén csoportok létrehozása. A klaszteranalízis tehát egy vizsgált sokaság egyedeinek csoportokba való sorolását jelenti, figyelembe véve az egyes egyedeknek egy bizonyos ismérv-rendszerben felvett értékeit. Az elemzés nem tesz különbséget függ
és független változó között és a változókon belüli kölcsönös összefüggést
vizsgálja. A klaszterbe helyezés legelterjedtebben a megfigyelési egységek páronkénti távolságának használatával történik. Az egy csoportba került egységek értelmezése ennél az eljárásnál is a kutató feladata.
Diszkriminancia-analízis és logisztikus regresszió A diszkriminancia-analízis olyan adatelemzési módszer, amelyet kategóriába tartozás el rejelzésére lehet használni, és amelynél alacsony mérési szint
függ
változót
magas mérési szint független változók segítségével magyarázunk. Azt vizsgáljuk, hogy a csoporthoz tartozás mekkora százalékban becsülhet a független változókkal (pl. azt, hogy valaki alkoholista vagy nem, mekkora mértékben magyarázza az életkor, jövedelem, stb.). Az el bb ismertetett lineáris regresszióhoz hasonlóan a 112
STATISZTIKA jegyzet szociológus hallgatók számára
diszkriminancia-analízisben is egyenest illesztünk: olyan egyenest keresünk, amely a legjobban szétválasztja az elemzend csoportokat.
A diszkriminanciaelemzés altervatívája az utóbbi id ben elterjedt logisztikus regresszió, amelynek alkalmazási el feltételei sokkal kevésbé szigorúak. Logisztikus regressziót akkor használunk, ha a megmagyarázni kívánt függ változónk kétérték (dichotóm vagy dumy változó), a magyarázó, független változóink pedig mennyiségi vagy kategoriális változók (pl. azt, hogy valaki alkoholista vagy nem, milyen mértékben magyarázza a nem, a családi állapot, jövedelem, életkor, stb.).
5.2. A faktorelemzés A faktorelemzés egy gy jt fogalom, amely a többváltozós elemzések egy csoportjára vonatkozik. A faktorelemzést arra használjuk, hogy adatainkat tömörítsük, vagy, hogy nagy számú függ változó mintázatát, bels struktúráját feltárjuk. A faktorelemzés célja, hogy sok általunk mért függ változót úgynevezett faktorváltozókba vonjon össze, amelyek közvetlenül nem figyelhet k meg (nem lehetett egy változóval mérni). A vizsgálatba bevont változók legalább ordinális mérési szint ek kell legyenek, és egymással korrelálniuk kell (ha nincs közöttük összefüggés, multikollinearitás, nem érdemes tömöríteni ket). A faktoranalízis tehát olyan adatredukciós eljárás, amellyel az egymással lineáris összefüggésben lév
változók közös lényegét kifejez
faktorok tárhatók fel. Az
elemzés azt feltételezi, hogy a változók hátterében olyan nem mérhet , látens struktúrák állnak, melyeket e módszerrel kiragadva kis információveszteséggel leírható az adathalmaz. Erre akkor van szükség, amikor meg akarunk bizonyosodni arról, hogy a mintában kapott válaszokból kibontható látens struktúra illeszkedik a mért változókra. Az analízis során kapott faktorok száma lényegesen kevesebb, mint az eredeti változóké, és ha ezekkel szeretnénk dolgozni, tudnunk kell, jogunk van-e az 113
STATISZTIKA jegyzet szociológus hallgatók számára
adatredukcióra, azaz a mért változók ugyanúgy viselkednek, mint a latens változók. A két csoport illeszkedését két korrelációs mátrix összehasonlításával mérjük, melyek egyformaságának megítélésére kiválóan alkalmas a λ2 próba. A faktoranalízisnek ez a variációja exploratív (feltáró) jelleg , hiszen sok mért változóból kevés ismeretlen aggregált változót hoz létre, míg a konfirmatív (meger sít ) elemzés egy el zetes hipotézis
(korábban
talált
faktorok)
tesztelésére
alkalmas.
A
konfirmatív
faktorelemzés sokkal komplexebb, ezért a továbbiakban ezzel nem foglalkozom. Az exploratív faktor-elemzés folyamata: 1. az elemzés céljának megfogalmazása, a vizsgálatba bevont változók 2. a faktorelemzés módszerének meghatározása 3. a faktorelemzés alkalmazhatóságának vizsgálata 4. a faktorok/f komponensek számának meghatározása 5. a faktorok értelmezése 6. értelmezés rotálással 7. a faktorok elmentése 8. további felhasználás A faktorelemzést folyamatát egy konkrét példán keresztül, az SPSS programcsomag használatával mutatom be.
1. Az elemzés céljának megfogalmazása, a vizsgálatba bevont változók Adatbázisunkban a k130.1-k130.17 kérdéscsoport alig különbözik a klasszikus Rokeach értéktesztt l. Vizsgálatunk célja a jelzett változóstruktúrából kialakítható értékdimenziók,
látens
értékstruktúrák
faktorelemzéssel
való
feltárása.
A
faktorelemzéssel kialakítandó néhány új változó lényegesen megkönnyítené a fiatalok értéktipológiájának felállítását. A k.130 kérdés: „Most felolvasok néhány olyan értéket, ami az emberek életviteléhez kapcsolódik. Kérem osztályozza 1-5-ig, hogy mennyire fontos az Ön életében... (1 egyáltalán nem fontos, 5 nagyon fontos, a közbüls értékek átmeneteket jelölnek)” 1. bels harmónia (béke önmagammal) 2. hatalom (ellen rzés mások felett, dominancia) 3. szabadság (a cselekvés és a gondolkodás szabadsága9 4. társadalmi rend (stabilitás a társadalomban) 5. érdekes élet (érdekes tapasztalatok)
114
STATISZTIKA jegyzet szociológus hallgatók számára
6. gazdagság (anyagi javak, pénz) 7. nemzet szerepe (nemzetem védelme, megtartása) 8. kreativitás (eredetiség, fantázia) 9. békés világ (háborútól és konfliktusoktól mentes) 10. a tradíciók tisztelete (a tiszteletreméltó szokások meg rzése) 11. elszakadás az evilági terhekt l (vallásos hit) 12. családi biztonság (a szeretett személyek biztonsága) 13. változatos élet (kihívásokkal, új dolgokkal és változásokkal) 14. igaz barátság (szoros, támogató barátok, akik mindenben mellettem állnak) 15. szerelem/boldogság 16. szépség 17. a környezet állapota. Tehát
ordinális
mérési
szint
változóink
vannak,
amelyek
a
társadalomtudományokban alkalmazott kevésbé szigorú követelmények mellett megengedik a faktorelemzést. Els
lépésben a gyakoriságok alapján megtisztítjuk változóinkat a nem releváns
válaszoktól (a 0 kódú nem tudom válaszoktól, pl. a Transform, Recode almenüvel). Faktorelemzést az ANALYZE f menü Data Reduction, Factor menüpontnál kérhetünk. Ahogyan minden elemzésnél, a bal oldalról átvisszük a jobb oldalra a vizsgálatba bevont 17 változót.
2. A faktorelemzés módszerének meghatározása A faktorelemzés menüben az Extraction pancskötegnél adhatjuk meg a tömörítés módszerét. A faktorelemzés extrakciós módszerei: f komponens-elemzés (principal components): a megfigyelt változók egymással nem korreláló lineáris kombinációinak létrehozására szolgáló faktorelemz módszer, ahol az els összetev (faktor) az információk (variancia) nagy részét magyarázza 115
STATISZTIKA jegyzet szociológus hallgatók számára
súlyozatlan legkisebb négyzetek módszere (unweighted least squares): minimalizálja a megfigyelt és az újonnan létrehozott korrelációs mátrixok közötti különbségek négyzeteinek összegét, el nye, hogy a változók eloszlása lényegtelen, viszont skálatranszformációt hajt végre, ezért standardizált változókkal érdemes végezni általánosított
legkisebb
négyzetek
módszere
(generalized
least
squares):
minimalizálja a megfigyelt és az újonnan létrehozott korrelációs mátrixok közötti különbségeket, de a korrelációk súlyozásra kerülnek maximum-likelihood módszer (maximum liklehood): a megfigyelt korrelációs mátrixból indul ki és olyan becsléseket ad, amelyek ezt a korrelációs mátrixot a legnagyobb
valószín ség
mellett
létrehozhatták,
feltételezve
a
változók
normáleloszlását f tengely-elemzés (principal axis factoring): hasonlít a f komponens-elemzéshez, viszont a kezdeti kommunalitásokként az eredeti korrelációs mátrix átlójában a többszörös korrelációs együtthatók négyzeteit használja alfa-eljárás (alpha factoring): feltételezi, hogy az elemzésbe bevont az összes lehetséges változónak csak
egy mintáját képezik, a faktorok alfa-értékét
maximalizálja image eljárás (image factoring): a változókat egy lineáris regresszió részeként kezeli, nem egy mesterséges változó (faktor) függvényeként. A f komponens-, a f tengely-, az alfa- és a maximum liklehood elemzés nagyon sok esetben ugyanahhoz az eredményhez vezet. Ha nagyon sok változóval dolgozunk, a maximum liklehood, az image- és az alfa-elemzés használata javasolt. Mivel a f komponens-elemzés a faktorelemzési eljárások közül a leggyakrabban használt és legkönnyebben alkalmazható módszer, ismerkedjünk meg vele és válasszuk ezt a tömörítési módszert.
116
STATISZTIKA jegyzet szociológus hallgatók számára
3. A faktorelemzés alkalmazhatóságának vizsgálata Az alkalmazhatóság vizsgálatár három lehet ségünk van, ebb l az anti-image mátrix elemzését l eltekintünk. Az egyik legkézenfekv bb módszer a korrelációs mátrix elemzése. A szignifikáns korrelációk arra utalnak, hogy a változóink alkalmasak a faktorelemzésre, ugyanakkor a túlságosan magas korrelációs együtthatók nem jók, mert akkor minden változónk egy faktorba tömörülne. A korrelációs mátrix a faktoranalízis menüben, a Descriptives parancskötegnél kérhet le:
A korrelációs mátrixunk azt mutatja, hogy a változóink többsége szignifikáns, közepesnél gyengébb összefüggést mutat egymással, tehát próbálkozhatunk a faktorelemzéssel. A módszer alkalmazhatóságának vizsgálatára felhasználhatjuk a Bartlett-tesztet és a KMO (Kaiser-Mayer-Olkin) mutatót. A Bartlett-teszt a korrelációkkal kapcsolatos teszt, amely azt vizsgálja, hogy a változók az alapsokaságban korrelálnak-e. Ha a szignifikanciaszint kisebb, mint p=0.05, akkor 95%-os valószín séggel állíthatjuk, hogy a változók közötti korreláció nem a véletlen m ve, tehát a változók között van összefüggés, így alkalmasak a faktorelemzésre. A KMO mutató az egyik legfontosabb mér szám
annak
megítélésére,
hogy
a
változók
mennyire
alkalmasak
a
faktorelemzésre (a már említett anti-image mátrix alapján számolják ki). Ha a: KMO ≥ 0,9 - adataink kiválóak a faktorelemzésre, ha KMO ≥0,7 – adataink megfelel ek, ha a KMO ≥0,5 – adataink még elfogadhatóak a faktorelemzésre. Ha a KMO mutató értéke < 0,5, akkor a faktorelemzés elfogadhatatlan. A Bartlett-teszt és a KMO mutató szintén a faktoranalízis menüben, a Descriptives parancskötegnél kérhet le:
117
STATISZTIKA jegyzet szociológus hallgatók számára
A kért statisztikáink az Output ablakban olvashatóak: KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. Bartlett's Test of Sphericity
Approx. Chi-Square df Sig.
,833 2288,138 136 ,000
A KMO mutatónk faktorelemzésre nagyon alkalmas változókat jelez, a Bartlett-teszt is szignifikáns összefüggést mutat a változók között, tehát nagy reményekkel foghatunk neki a faktorelemzésnek.
4. A f komponensek számának meghatározása A létrehozni kívánt faktorok számának megállapítására több lehet ségünk is van (a program lehet séget ad, hogy mi határozzuk meg a faktorok számát). A legkézenfekv bb az, amikor a faktorok számát egy elméleti modell vagy korábbi vizsgálatok alapján határozzuk meg, ilyenkor a faktorelemzés f ablakban, az Extraction parancskötegnél az alapértelmezett „Eigenvalues over 1” helyett a Number of factors mez nél beírjuk a kívánt faktorok számát (pl.4).
118
STATISZTIKA jegyzet szociológus hallgatók számára
Feltételezzük, hogy a vizsgált változóinkkal kapcsolatosan nem rendelkezünk el zetes feltételezésekkel a látens dimenziók számáról. Ilyenkor a legegyszer bben a Kaiserkritérium alapján határozhatjuk meg a faktorok számát (az SPSS alapértelmezésben ezt használja). A Kaiser-kritérium azt mondja, hogy csak az 1 sajátérték feletti faktorokat vegyük figyelembe. A sajátérték (eigenvalue) azt mutatja, hogy az összes változó varianciájából az illet faktorunk mennyi varianciát magyaráz. Ha egy faktor sajátértéke kisebb, mint 1, akkor ez azt jelenti, hogy kevesebb információt hordoz, mint akármelyik változó, és azt a faktort nem érdemes használni. Viszont ha sok egy sajátérték feletti faktorunk van, akkor nagyobb részt magyarázunk a varianciából, viszont nehezebben tudjuk értelmezni az eredményeket. A Kaiser-kritérium alkalmazását könnyíti az Extraction menüpontnál, a Display ablakrészben található Scree plot elnevezés ábra lekérése, amely a faktorok által megtestesített sajátérték nagyságát szemlélteti.
Adatainkon a következ ábrát kaptuk:
Scree Plot 5
4
3
Eigenvalue
2
1
0 1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17
Component Number
119
STATISZTIKA jegyzet szociológus hallgatók számára
A Scree-teszt azt mutatja, hogy 5 sajátérték feletti faktorunk van és ezeket érdemes megtartani (a függ leges tengelyen a sajátérték nagysága, a vízszintes tengelyen pedig a faktorok száma található). Egy másik alapvet
módszer a faktorszám meghatározására a Varianciahányad-
módszer. A faktorok számát meghatározhatjuk a variancia kumulált százaléka alapján is. Társadalomtudományokban az elfogadott szabály, hogy f komponens-elemzés esetén a faktorok által hordozott információérték ne legyen kevesebb, mint 50%. (más faktorelemzési eljárásoknál 33%). A faktorok által magyarázott varianciát az SPSS alapértelmezésben megadja, a Total Variance Explained táblázatban. Adatainkra ez a táblázat: Total Variance Explained
Component 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Initial Eigenvalues % of Cumulativ Total Variance e% 4,254 25,024 25,024 1,656 9,741 34,765 1,322 7,779 42,544 1,142 6,715 49,260 1,028 6,048 55,308 ,927 5,456 60,764 ,901 5,301 66,065 ,805 4,735 70,800 ,696 4,094 74,894 ,640 3,767 78,661 ,617 3,630 82,291 ,566 3,332 85,623 ,532 3,130 88,752 ,514 3,024 91,776 ,497 2,924 94,701 ,483 2,840 97,540 ,418 2,460 100,000
Extraction Sums of Squared Loadings % of Cumulativ Total Variance e% 4,254 25,024 25,024 1,656 9,741 34,765 1,322 7,779 42,544 1,142 6,715 49,260 1,028 6,048 55,308
Extraction Method: Principal Component Analysis.
A táblázatban szerepl ötödik oszlop az 5 db. egynél nagyobb sajátérték faktorunk sajátértékeit, a hatodik oszlop pedig az egyes faktorok által magyarázott információmennyiséget mutatja. Ahogyan ez a f komponens-elemzést l elvárható, az els
faktornak van a legnagyobb magyarázó ereje, az 5 faktor által hordozott
információ felét jeleníti meg. Ahogyan az utolsó oszlopunkban látszik, az 5 faktorunk által hordozott információmennyiség az eredeti 17 változó által megtestesített információ 55,3%-a, amely érték még elfogadható. Tehát az által, hogy 17 változó helyett 5 változóval dolgozunk, közel felére csökkentette a rendelkezésünkre álló információmennyiséget. Ha értelmezni tudjuk a faktorainkat, ez jó cserének t nik. 120
STATISZTIKA jegyzet szociológus hallgatók számára
Miként az eddigiek alapján már nyilvánvaló, ha túl sok a faktorunk, nehezen tudjuk értelmezni, ha pedig túl kevés, akkor lényeges információkat veszíthetünk el.
5. A faktorok értelmezése A faktorkiválasztás vagy extrakció során az elemzés célja az volt, hogy maximalizáljuk a faktorok varianciáját, amelynek eredményeként megkaptuk a rotálatlan faktorsúlymátrixot. A faktorsúly nem más, mint az eredeti változó és az adott f komponens közötti korrelációs együttható (értéke –1 és 1 közötti érték). A faktorok értelmezésére tehát a faktorsúlymátrixot használjuk. Mivel a faktorsúlynak nagyobb a standard hibája, mint a klasszikus korrelációnak, a faktorsúlyok értelmezése kicsit másként történik. Általános szabály, hogy a faktorsúly értéke
legalább a 0,25 értéket el kell érje (abszolút értékben). Kisebb, mint 100 f s mintákon a faktorsúly értéke legalább 0,5 kell legyen. Minél magasabb egy faktorsúly értéke (abszolút értékben), annál nagyobb szerepet játszik az illet változó a faktor értelmezésében. Továbbá egy változó akkor tartozik egyértelm en egyik faktorhoz, ha
faktorsúlya csak egy faktoron nagyobb, mint 0,25, vagy ha faktorsúlya az egyik faktoron nagyobb, mint bármelyik más faktoron lév
faktorsúlya értékének
kétszerese. A táblázat elemzése el tt azonban még egy nagyon fontos feltétel teljesülését kell megnéznünk, mégpedig azt, hogy minden változó hozzájárul-e a faktorstruktúra kialakításához. Ebben a kommunalitások segítenek. A kommunalitások a többszörös korrelációs együtthatók négyzetei, és azt mutatják meg, hogy a faktorok együtt milyen mértékben magyarázzák az adott változó szóródását. Tehát a kommunalitás a variancia azon hányada, amelyen egy változó osztozik az elemzésbe bevont összes többi változóval. Azt a változót tekintjük a f komponens alkotóelemének, amelynek a
kommunalitása ≥ 0,25, vagyis a f komponens és az eredeti változó közötti kapcsolat szorossága legalább 0,5 érték korrelációval írható le. Amennyiben ez a feltétel nem teljesül, az illet változó nem járul hozzá a faktorstruktúra kialakításához és ki kell vennünk a modellb l. Úgy
a
kommunalitásokat,
mint
a
rotálatlan
faktorsúlymátrixot
az
SPSS
alapértelmezésben kiszámolja. Minden további beállítás nélkül lefuttatunk egy f komponens-elemzést.
121
STATISZTIKA jegyzet szociológus hallgatók számára
Miként már korábban megnéztük, a KMO mutatónk és a Bartlett teszt azt mutatja, hogy változóink alkalmasak a faktorelemzésre. Továbbá a faktorok számának megválasztásában a Kaiser-kritériumot alkalmaztuk, és 5 faktorral dolgozunk. Következ lépésben akkor nézzük a kommunalitásokat: Communalities belsõ harmónia hatalom szabadság társadalmi rend érdekes élet gazdagság nemzet szerepe kreativítás békés világ tradíciók tisztelete vallásos hit családi biztonság változatos élet igaz barátság boldogság szépség a környezet állapota
Initial 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Extraction ,342 ,482 ,515 ,608 ,625 ,728 ,526 ,582 ,504 ,592 ,703 ,490 ,561 ,481 ,535 ,559 ,571
Extraction Method: Principal Component Analysis.
Az els oszlopban a felcímkézett változóink szerepelnek, a második oszlopban a kezdeti kommunalitások (f komponens elemzésnél ez mindig 1), majd a faktorelemzés után kapott kommunalitások. Minden változó kommunalitása megfelel , a 0,25 küszöbérték fölött van. A könnyebb értelmezés kedvéért a faktorelemzés f ablakban, az Options menünél állítsuk be, hogy adatainkat csökken sorrendbe jelenítse meg az SPSS.
122
STATISZTIKA jegyzet szociológus hallgatók számára
Nézzük most a rotálatlan faktorsúlymátrixot. Component Matrixa
a környezet állapota igaz barátság szépség társadalmi rend boldogság tradíciók tisztelete nemzet szerepe szabadság belsõ harmónia családi biztonság érdekes élet változatos élet hatalom békés világ kreativítás gazdagság vallásos hit
1 ,716 ,615 ,607 ,583 ,567 ,537 ,536 ,531 ,476 ,442 ,526 ,414 ,288 ,347 ,474 ,274 ,319
2 -9,97E-02 -5,59E-02 ,284 -,142 -,230 -,264 -,217 ,109 -,250 -,366 ,547 ,544 ,509 -,446 ,236 ,193 -,134
Component 3 4 -,215 1,648E-02 -,274 ,119 ,135 ,279 ,145 -,216 -,232 ,250 ,423 -,168 ,391 -,180 -2,36E-02 -,267 -,156 -,168 -,291 ,263 -,212 1,591E-02 -,297 9,485E-03 ,319 ,188 -8,08E-02 ,316 -6,76E-02 -,544 ,499 ,515 ,414 -,119
5 4,367E-02 ,101 ,115 -,424 ,209 ,164 -7,55E-02 -,387 2,288E-02 8,135E-02 5,638E-02 7,646E-02 5,215E-02 -,280 -3,59E-02 -,317 ,631
Extraction Method: Principal Component Analysis. a. 5 components extracted.
Az els változónk, a „környezet állapota” egyértelm en az els faktorhoz köt dik, hiszen ezen a faktoron ül nagy súllyal (az E bet vel megjelenített értékek nagyon kicsi, 0,100-nál kisebb értékeket jelölnek). Az „igaz barátság” szintén az els faktorhoz tartozik, mivel ezen a faktoron 0,615 a faktorsúlya, a 3. faktoron pedig csak –0,274 (0,274*2=0,548, tehát kisebb, mint 0,615). A „szépség” is az els faktorhoz tartozik, a „társadalmi rend” viszont egyszerre két faktoron is elég magas súllyal ül (1-es és 5-ös faktorok). Szintén egyszerre több faktor kialakításában játszik szerepet a „tradíciók tisztelete”, a „nemzet szerepe”, a „szabadság”, a „bels harmónia”, a „családi biztonság”, az „érdekes élet”, a „változatos élet”, a „hatalom”, stb., tehát minden további változónk. Tehát a rotálatlan faktorsúlymátrix alapján nem tudjuk értelmezni a faktorainkat.
6. A faktorok forgatása, rotálása Tehát a faktorelemzés során nagyon gyakran el fordul, hogy olyan változók korrelálnak ugyanazzal a faktorral (tartoznak ugyanahhoz a faktorhoz), amelyeknek semmi közük egymáshoz, vagy egyszerre két faktorral is korrelálnak, és így nem tudjuk ket értelmezni. Ebben segít a forgatás vagy rotálás, ami azt jelenti, hogy a 123
STATISZTIKA jegyzet szociológus hallgatók számára
faktorok tengelyeit elforgatjuk úgy, hogy egyszer bb és f ként értelmezhet bb faktorokat nyerjünk. A rotálás nem változtatja meg sem a kommunalitásokat, sem pedig az összes magyarázott varianciát, csak a faktorok magyarázott varianciáit módosítjuk. Kétféle rotálási típust szokás megkülönböztetni: derékszög
vagy orthogonális,
valamint hegyesszög rotálást. A hegyesszög rotálás eredményeképpen a faktorok korrelálni fognak egymással (a tengelyek tetsz leges szöget zárnak be), a derékszög forgatás eredményeként pedig a faktorok korrelálatlanok maradnak egymással (a tengelyek derékszöget zárnak be). Ha a faktorelemzés eredményeit további elemzésekbe kívánjuk bevonni, akkor az orthogonális, ha pedig csak értelmezni akarjuk a faktorokat, akkor a hegyesszög forgatás ajánlott. Az SPSS által használt derékszög forgatási módszerek a Varimax (csökkenti az egy faktorra es
magas faktorsúlyú változók számát), Quartimax (az egy változó
megmagyarázásához szükséges faktorok számát csökkenti) és Equimax (az els kett kombinálása), hegyesszög forgatási módszerek pedig a Direct Oblimin és a Promax. A rotálás a faktoranalízis menüben a Rotation menüpontnál kérhet le, a választott forgatási módszer bejelölésével. Mivel értéktipológiánkat klaszterelemzésbe is szeretnénk felhasználni, ugyanakkor értelmezni is szeretnénk faktorainkat, a Varimax módszert használjuk.
124
STATISZTIKA jegyzet szociológus hallgatók számára
Most akkor vizsgáljuk meg a rotált faktorsúlymátrixot. Rotated Component Matrixa
családi biztonság boldogság a környezet állapota igaz barátság békés világ belsõ harmónia érdekes élet változatos élet szépség társadalmi rend szabadság kreativítás nemzet szerepe vallásos hit tradíciók tisztelete gazdagság hatalom
1 ,698 ,686 ,586 ,579 ,572 ,411 ,149 ,121 ,290 ,220 ,122 -3,81E-02 ,170 8,489E-02 ,208 2,972E-02 -,141
2 -5,57E-03 ,174 ,312 ,329 -,260 6,741E-02 ,754 ,731 ,479 1,295E-02 ,253 ,436 -6,15E-02 6,439E-02 -5,30E-02 4,053E-02 ,454
Component 3 2,999E-02 2,492E-02 ,326 ,167 ,206 ,336 ,155 7,350E-02 9,648E-02 ,726 ,654 ,550 ,519 -5,93E-02 ,379 ,109 2,098E-02
4 3,946E-02 ,181 ,155 9,592E-02 -,115 ,162 -1,34E-02 -8,34E-02 ,245 5,809E-02 -6,63E-02 ,169 ,431 ,830 ,620 1,659E-02 ,184
5 -1,10E-02 2,907E-02 -4,18E-03 2,682E-04 ,229 -,170 9,763E-02 1,317E-02 ,419 ,167 6,626E-02 -,244 ,196 -5,69E-03 ,134 ,844 ,471
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 9 iterations.
A rotált faktorsúlymátrixunk sem túlságosan bíztató, hiszen továbbra is több olyan változónk van, amelyik egyszerre több faktorhoz is tartozik: a „környezet állapota”, az „igaz barátság”, a „bels harmónia”, a „szépség”, a „kreativitás”, a „nemzet szerepe”, a „tradíciók tisztelete” és a „hatalom”. Ez azt jelenti, hogy ezek a változók gyakorlati szempontból nem jelent sek, tehát az értelmezéshez nem járulnak hozzá. Ilyenkor több lehet ség el tt állunk: 1. megvizsgáljuk, hogy több vagy kevesebb faktorszám esetén ezek a változók hogyan viselkednek, 2. kizárhatjuk az elemzésb l ezeket a változókat és újrafuttatjuk a faktorelemzést, vállalva, hogy lényeges információkat veszítettünk, 3. a változókat benne hagyjuk az elemzésbe, de az értelmezésnél nem vesszük figyelembe
ket.
Mivel sok ilyen változónk van, az mellett döntünk (ez csak a lehet ségek egyike), hogy a rotálatlan faktorsúlymátrixunk alapján sem értelmezhet
változók közül
els ként a legalacsonyabb kommunalitásútól válunk meg, hiszen ez a változó nem játszik nagy szerepet a faktorstruktúra kialakításában. Ez a változó a „bels
125
STATISZTIKA jegyzet szociológus hallgatók számára
harmónia”, hiszen egyszerre az els és a harmadik faktorhoz is kapcsolódik és a kommunalitása 0,342 (a legalacsonyabb). Újra lefuttatjuk a f komponens-elemzést, kihagyva tehát ezt a változót. KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. Bartlett's Test of Sphericity
Approx. Chi-Square df Sig.
,828 2134,199 120 ,000
A KMO mutató értéke kicsit lecsökkent, de továbbra is nagyon jó, a Bartlett-teszt szignifikáns összefüggést mutat. Communalities hatalom szabadság társadalmi rend érdekes élet gazdagság nemzet szerepe kreativítás békés világ tradíciók tisztelete vallásos hit családi biztonság változatos élet igaz barátság boldogság szépség a környezet állapota
Initial 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Extraction ,500 ,508 ,612 ,624 ,755 ,536 ,585 ,511 ,613 ,696 ,479 ,561 ,505 ,542 ,554 ,582
Extraction Method: Principal Component Analysis.
A kommunalitások továbbra is rendben vannak, az összvariancia 57,27%, tehát a faktormodellünk magyarázó ereje javult.
126
STATISZTIKA jegyzet szociológus hallgatók számára
Rotated Component Matrixa
családi biztonság boldogság békés világ igaz barátság a környezet állapota érdekes élet változatos élet szépség társadalmi rend szabadság nemzet szerepe kreativítás vallásos hit tradíciók tisztelete gazdagság hatalom
1 ,690 ,686 ,591 ,585 ,576 ,139 ,115 ,293 ,218 ,111 ,171 -6,29E-02 6,522E-02 ,214 4,546E-02 -,137
2 7,122E-03 ,182 -,259 ,339 ,329 ,753 ,732 ,459 2,450E-02 ,266 -5,99E-02 ,463 5,976E-02 -5,21E-02 -5,91E-03 ,421
Component 3 4 2,464E-02 4,282E-02 3,726E-02 ,193 ,234 -,108 ,184 ,110 ,333 ,173 ,145 -4,34E-03 5,941E-02 -7,84E-02 ,107 ,246 ,737 5,787E-02 ,643 -7,47E-02 ,542 ,434 ,530 ,177 -6,89E-02 ,826 ,404 ,627 ,128 1,681E-03 1,917E-02 ,171
5 -1,92E-03 4,754E-03 ,170 -3,98E-02 -3,00E-02 ,127 4,788E-02 ,431 ,133 7,703E-02 ,148 -,233 3,769E-02 8,844E-02 ,858 ,524
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 8 iterations.
A rotált faktormátrixunkban továbbra is szerepel 7 olyan változónk, amit nem tudunk értelmezni: „igaz barátság”, „a környezet állapota”, „szépség”, „a nemzet szerepe”, „kreativitás”, „tradíciók tisztelete” és „hatalom”. Most a „hatalom” változótól válunk meg, mert ennek a legalacsonyabb a kommunalitása. Újra lefuttatjuk a faktorelemzést. Továbbra is minden mutatónk rendben van, megmaradt az 5 faktorunk, de a rotált faktormátrixunk továbbra sem egyértelm .
127
STATISZTIKA jegyzet szociológus hallgatók számára
Rotated Component Matrixa 1 családi biztonság ,720 boldogság ,694 igaz barátság ,591 a környezet állapota ,558 békés világ ,551 érdekes élet 9,660E-02 változatos élet 9,111E-02 szépség ,239 társadalmi rend ,215 szabadság ,138 kreativítás -6,77E-02 vallásos hit 5,831E-02 tradíciók tisztelete ,206 nemzet szerepe ,144 gazdagság -4,25E-02
2 -1,97E-02 ,181 ,332 ,350 -,201 ,791 ,749 ,533 2,624E-02 ,224 ,448 7,446E-02 -4,17E-02 -2,25E-02 ,123
Component 3 4,669E-02 3,527E-02 ,187 ,308 ,207 ,142 6,586E-02 6,562E-02 ,736 ,684 ,513 -,118 ,356 ,486 7,420E-02
4 2,821E-02 ,188 ,120 ,208 -6,78E-02 6,697E-03 -7,41E-02 ,288 ,112 -6,84E-02 ,209 ,810 ,660 ,495 7,505E-02
5 -2,12E-02 4,382E-03 -6,13E-02 1,259E-02 ,330 ,102 5,088E-03 ,405 ,145 1,438E-02 -,234 -7,87E-03 7,748E-02 ,193 ,900
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 7 iterations.
Az „igaz barátság”, „a környezet állapota”, „békés világ”, „szépség”, „kreativitás”, „tradíciók tisztelete” és „nemzet szerepe” változók közül az el z logika szerint a „békés világ” változótól válunk meg. Újra lefuttatjuk a faktorelemzést. Továbbra is minden mutató rendben van, a kumulált variancia 61,9%-ra n tt, tehát javult a magyarázó er . Rotated Component Matrixa
boldogság családi biztonság igaz barátság a környezet állapota változatos élet érdekes élet kreativítás társadalmi rend szabadság nemzet szerepe vallásos hit tradíciók tisztelete gazdagság szépség
1 ,757 ,684 ,678 ,590 ,106 ,146 -3,76E-02 ,225 ,138 ,154 6,608E-02 ,202 -5,38E-02 ,332
2 5,603E-02 -3,53E-02 ,214 ,297 ,799 ,787 ,508 -1,38E-02 ,238 -5,54E-02 ,107 -3,67E-02 2,665E-02 ,403
Component 3 7,455E-02 3,416E-02 ,221 ,317 1,829E-02 ,118 ,491 ,752 ,673 ,506 -,132 ,357 9,482E-02 9,562E-02
4 9,828E-02 7,938E-02 2,297E-02 ,174 -1,70E-02 5,740E-03 ,219 7,669E-02 -6,02E-02 ,460 ,844 ,671 3,815E-02 ,190
5 ,101 -7,40E-02 5,606E-02 7,012E-02 2,365E-02 ,173 -,190 ,156 5,767E-03 ,220 1,275E-02 8,022E-02 ,902 ,537
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 7 iterations.
128
STATISZTIKA jegyzet szociológus hallgatók számára
A rotált faktorsúlymátrixból továbbra sem tudjuk eldönteni a „környezet állapota”, a „kreativitás”, „nemzet szerepe”, „tradíciók tisztelete” és „szépség” változók hovatartozását. Megválunk a „nemzet szerepe” változótól és újra lefuttatjuk a faktorelemzést. Minden mutatónk rendben van, nézzük a rotált faktorsúlymátrixot. Rotated Component Matrixa
boldogság igaz barátság családi biztonság a környezet állapota változatos élet érdekes élet kreativítás társadalmi rend szabadság vallásos hit tradíciók tisztelete gazdagság szépség
1 ,763 ,689 ,672 ,605 ,103 ,144 -1,94E-02 ,238 ,134 6,277E-02 ,223 -5,01E-02 ,342
2 5,856E-02 ,222 -5,05E-02 ,299 ,805 ,782 ,501 -4,40E-02 ,198 8,065E-02 -5,12E-02 1,670E-02 ,404
Component 3 5,373E-02 ,192 4,804E-02 ,297 2,210E-02 ,133 ,497 ,769 ,719 -9,26E-02 ,357 9,290E-02 8,086E-02
4 8,573E-02 -1,07E-05 8,600E-02 ,159 -2,64E-02 9,864E-03 ,224 9,315E-02 -2,83E-02 ,874 ,674 3,756E-02 ,178
5 9,866E-02 4,961E-02 -6,71E-02 7,167E-02 1,624E-02 ,175 -,178 ,183 3,512E-02 3,851E-02 ,102 ,911 ,538
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 8 iterations.
Most már csupán három változó hovatartozásában nem vagyunk biztosak: a „kreativitás”, a „tradíciók tisztelete” és a „szépség”. Az alacsonyabb kommunalitású „kreativitás” változótól válunk meg és újra lefuttatjuk a f komponens-elemzést. Ennél a pontnál érdemes megállnunk. A „kreativitás” változó kivételével az eddigi öt faktorváltozó közül kett nek megsz nik az 1 feletti sajátértéke, a magyarázott variancia pedig lecsökken a kritikus 50% alá, továbbá a rotált faktorsúlymátrixunk további értelmezhetetlen változókkal gyarapodik. Lényegi döntés el tt állunk: vagy úgy döntünk, hogy tovább folytatjuk a faktorelemzést ezen logika szerint, és további változók megszabadulásával javítunk a modellünk magyarázó erején, vállalva, hogy lényeges információkat veszítünk, vagy változtatunk az értelmezési módszeren. Ekkor az 1. lehet ség mellett döntünk, mert úgy gondoljuk, hogy két fontos dimenzió elveszítésével a faktoraink már nem az eredeti változóstruktúrát írnák le (az eddig kivett négy változó még nem játszott kulcsszerepet), így nem vesszük ki a „kreativitás” változót. Tehát következ
lépésben megvizsgáljuk, hogy több vagy
kevesebb faktorszám esetén ezek a változók hogyan viselkednek. Sajnos ez a módszer sem vezet el bbre, hiszen a 4 faktoros modellünk sem értelmezhet . Úgy t nik, a 13 129
STATISZTIKA jegyzet szociológus hallgatók számára
változó 5 faktorba való csoportosulását kell választanunk. El tte még próbálkozunk modellünk másik két derékszög forgatásával, reménykedve, hogy legalább még egy változót sikerül egyetlen faktorhoz társítanunk. El tte azonban a faktorsúlyok könnyebb értelmezhet sége kedvéért a faktorelemzés f menüben az Options mez nél beállítjuk, hogy csak a 0,25 (küszöbérték) fölötti faktorsúlyokat jelenítse meg a program:
A Quartimax forgatással az alábbi rotált faktorsúlymátrixot kapjuk: Rotated Component Matrixa
boldogság igaz barátság családi biztonság a környezet állapota változatos élet érdekes élet kreativítás társadalmi rend szabadság vallásos hit tradíciók tisztelete gazdagság szépség
1
Component 3
2 ,771 ,702 ,672 ,630
,287 ,802 ,781 ,503
,274
,260 ,376
4
5
,273
,495 ,762 ,711 ,358
,406
,872 ,662 ,911 ,520
Extraction Method: Principal Component Analysis. Rotation Method: Quartimax with Kaiser Normalization. a. Rotation converged in 7 iterations.
Látható, hogy a „kreativitás”, a „tradíciók tisztelete” és a „szépség” változónk ezzel a módszerrel sem értelmezhet , tehát ugyanazt az eredményt kaptuk, mint a Varimax rotálással. Nézzük az Equimax forgatás eredményét.
130
STATISZTIKA jegyzet szociológus hallgatók számára
Rotated Component Matrixa
boldogság igaz barátság családi biztonság a környezet állapota változatos élet érdekes élet kreativítás társadalmi rend szabadság vallásos hit tradíciók tisztelete gazdagság szépség
1
Component 3
2 ,750 ,674 ,669 ,577
,304 ,806 ,776 ,501
5
,313
,496 ,771 ,724 ,344
,300
4
,873 ,690 ,909 ,568
,389
Extraction Method: Principal Component Analysis. Rotation Method: Equamax with Kaiser Normalization. a. Rotation converged in 8 iterations.
Ezzel a forgatással is a „szépség”, a „környezet állapota” és a „kreativitás” változókat nem tudjuk értelmezni. Látható, hogy ezzel a forgatással a „tradíciók tisztelete” változó besorolódott a 4. faktorba, viszont a „környezet állapota” változó egyik faktorhoz sem tartozik egyértelm en. Mivel az Equimax forgatással kapott mátrixot könnyebben tudjuk értelmezni és a „tradíciók tisztelete” változónak nagyobb a kommunalitása, ezt a modellt fogadjuk el végs modellnek. Tehát a 3. lehet séggel élünk, elfogadjuk a faktormodellünket, hiszen statisztikai szempontból minden kritériumnak eleget tesz, viszont a jelzett három változónkat kihagyjuk az értelmezésb l. A végs modellünk KMO mutatója nagyon jó (0,818), a Bartlett teszt szignifikáns összefüggést mutat (p=0,000), a kommunalitásaink mind nagyon jók (0,5 felettiek), a faktorok által magyarázott variancia pedig kell en magas 63,68%. KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. Bartlett's Test of Sphericity
Approx. Chi-Square df Sig.
,818 1675,719 78 ,000
131
STATISZTIKA jegyzet szociológus hallgatók számára
Communalities társadalmi rend érdekes élet gazdagság tradíciók tisztelete vallásos hit családi biztonság változatos élet igaz barátság boldogság szabadság kreativítás szépség a környezet állapota
Initial 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Extraction ,692 ,680 ,843 ,645 ,784 ,469 ,660 ,564 ,605 ,576 ,580 ,608 ,574
Extraction Method: Principal Component Analysis.
Total Variance Explained
Component 1 2 3 4 5 6 7 8 9 10 11 12 13
Initial Eigenvalues % of Cumulativ Total Variance e% 3,659 28,146 28,146 1,381 10,622 38,768 1,166 8,969 47,736 1,071 8,239 55,975 1,003 7,713 63,688 ,804 6,181 69,869 ,722 5,555 75,424 ,614 4,722 80,146 ,567 4,360 84,506 ,558 4,289 88,795 ,515 3,962 92,758 ,498 3,830 96,588 ,444 3,412 100,000
Extraction Sums of Squared Loadings % of Cumulativ Total Variance e% 3,659 28,146 28,146 1,381 10,622 38,768 1,166 8,969 47,736 1,071 8,239 55,975 1,003 7,713 63,688
Rotation Sums of Squared Loadings % of Cumulativ Total Variance e% 2,005 15,421 15,421 1,856 14,276 29,697 1,683 12,943 42,640 1,416 10,893 53,532 1,320 10,155 63,688
Extraction Method: Principal Component Analysis.
Az Equimax forgatással kapott faktorsúlymátrixunk alapján 5 faktort sikerült beazonosítani. A rotált (mivel ezt értelmezzük) faktoraink által magyarázott variancia viszonylag egyenletesen oszlik meg a faktorok között (a Total Variance Explained táblázat utolsó el tti oszlopa mutatja). A faktorok értelmezése nyilvánvalóan szociológiai háttérismeretet és képzel er t igényel. Az egy faktorhoz tartozó változók alapján az alábbi 5 f komponenst/faktort kaptuk: 1. faktor (boldogság/szerelem, igaz barátság, családi biztonság értékek tartoznak hozzá): interperszonális értékek elnevezést kapta 2. faktor (változatos élet, érdekes élet): individualista értékek 3. faktor (társadalmi rend/társadalmi stabilitás, szabadság): demokratikus értékek 132
STATISZTIKA jegyzet szociológus hallgatók számára
4. faktor (vallásos hit, tradíciók tisztelete): hagyományos közösségi értékek 5. faktor (gazdagság): materialista értékek. Ilyen módon tehát a f komponens-elemzés segítségével 5 statisztikailag releváns, gyakorlatis szempontból pedig hasznos és értelmezhet faktort nyertünk az eredeti 17 változónkból, ami jó cserének t nik.
7. A faktorok elmentése Az SPSS a létrehozott új változókhoz/faktorokhoz úgynevezett faktorszkórokat rendel, ami azt jelenti, hogy minden megkérdezettünk kap egy számot az interperszonális, individualista, demokratikus, hagyományos közösségi és materialista értékorientációjának jellemzésére. A faktorszkórokat tartalmazó faktorokat 3 módszerrel menthetjük el: regressziós módszerrel, Bartlett-módszerrel és AndersonRubin módszerrel. A három módszer közötti különbséget csak nagyon bonyolult matematikai apparátus segítségével lehet megmagyarázni. Elég, ha azt tudjuk, hogy a három módszerrel elmentett faktorszkórok között nincs lényeges különbség. Azonban ha a faktorokat további elemzésre kívánjuk felhasználni, a regressziós módszer használata ajánlott. Mentsük el tehát faktorainkat regressziós módszerrel a faktorelemzés menüben található Scores mez nél.
Az adatbázisunk végén ilyen módon megjelenik az öt új faktorváltozó.
8. További felhasználás A létrehozott faktorainkat a továbbiakban klaszterelemzésbe kívánjuk bevonni, de kétváltozós elemzésekre is jól használható. A további felhasználáshoz azonban el ször címkézzünk fel faktorainkat az értelmezés szerint (1. faktor: interperszonális értékek, stb.). Az faktorszkórok értelmezéséhez legcélszer bb el ször leíró statisztikákat kérni:
133
STATISZTIKA jegyzet szociológus hallgatók számára
Descriptive Statistics
Interperszonális értékek individualista értékek demokratikus értékek hagyományos közösségi értékek materialista értékek Valid N (listwise)
673 673 673
Minimum -9,21847 -3,83449 -4,59503
Maximum 2,35931 2,41376 2,44257
Mean -5,2E-16 2,22E-16 1,73E-16
Std. Deviation 1,0000000 1,0000000 1,0000000
673
-3,75570
1,92144
-1,7E-17
1,0000000
673 673
-3,73644
1,85932
2,17E-18
1,0000000
N
Tehát a faktorok egységnyi szórású, 0 körüli átlagú, standardizált mennyiségi változók. Az eredeti változóink egy 1-5 fokú skálán lettek mérve, ahol a maximális érték 5 volt. A faktorok esetében a maximális és minimális értékek a fenti táblázatban szerepelnek, tehát az adatok értékelésekor ehhez kell viszonyítsunk. Általában a pozitív értékek a magasabb, a negatív értékek pedig az alacsonyabb értéket jelölik. Miel tt változóinkat bevonjuk a klaszterelemzésbe, vizsgáljuk meg, hogy van-e szignifikáns különbség a nem (k3.1 változó) és klaszterváltozóink között. Független mintás T-tesztet futtatunk le. A szignifikanciaszint azt jelzi, hogy az 5 faktor közül csak a „hagyományos közösségi értékek” és a „materialista értékek” tekintetében van szignifikáns különbség (p=0,01) a nemek között. A csoportstatisztikák azt jelzik, hogy a n k számára fontosabbak a hagyományos közösségi értékek (vallás, hagyományok), mint a férfiak számára, a férfiak pedig fontosabbnak tartják a materialista értékeket (a gazdagságot), mint a n k. Group Statistics
hagyományos közösségi értékek materialista értékek
Neme férfi nõ férfi nõ
N 331 342 331 342
Mean -,1096590 ,1061320 ,1169480 -,1131866
Std. Deviation ,9947188 ,9950667 ,9690170 1,0177653
Std. Error Mean 5,47E-02 5,38E-02 5,33E-02 5,50E-02
134
STATISZTIKA jegyzet szociológus hallgatók számára
5.3. A klaszterelemzés Miként a többváltozós elemzések rövid összefoglalásánál láttuk, a klaszterelemzés el re nem ismert csoportok képzésére használatos eljárás. Tehát a klaszterelemzést arra használjuk, hogy a vizsgálatba bevont minden egyes ismérv szerint a hasonló egységek (egyének) azonos, a különböz k pedig eltér csoportokba (klaszterekbe) kerüljenek. Ennél az eljárásnál sem kell megkülönböztetni a függ és a független változókat. A módszer alapvet en feltáró jelleg , vagyis nem vonható le bel le következtetés az alapsokaságra nézve. Akárcsak a faktorelemzés esetében, a klasztereket létre lehet hozni, de a kutatónak kell eldöntenie, hogy tudja-e értelmezni
ket. A
klaszterelemzésbe bevont változóknak magas mérési szint eknek kell lenniük. A klaszterelemzésnek két alapvet
típusa van: hierarchikus és nem hierarchikus
klaszterelemzés. Mivel a hierarchikus klaszterelemzés nagy adatfájlokon (amelyekkel a szociológiai adatfelvételek nyomán dolgozunk) nem végezhet
el, csak a nem
hierarchikus klaszterelemzéssel (ha n >30) foglalkozom. A nem hierarchikus klaszterelemzés folyamata: 1. az elemzés célja, a vizsgálatba bevont változók 2. a klaszterelemzés feltételeinek vizsgálata 3. a klaszterelemzés folyamata, döntés a klaszterek számáról 4. a klaszterek értelmezése és jellemzése 5. a megbízhatóság és az érvényesség vizsgálata Akárcsak a faktorelemzés esetében, a klaszterelemzést is egy konkrét példán keresztül mutatom be.
1. Az elemzés céljának megfogalmazása, a vizsgálatba bevont változók A klaszterelemzés során az SPSS minden esetben létrehoz klasztereket, függetlenül attól, hogy azok ténylegesen léteznek-e. Mivel a klasztermegoldások teljesen az elemzésbe bevont változóktól függenek, nagyon kell vigyáznunk, hogy milyen változókat választunk ki az elemzésre. Továbbá a gyakorlati tapasztalat azt mutatja, hogy amikor el zetes elgondolás nélkül vonjuk be a változókat, nem igazán reménykedhetünk sikeres értelmezésben.
135
STATISZTIKA jegyzet szociológus hallgatók számára
A migrációkutatások a migráció okait három változócsoportba szokták sorolni: az els be a szocio-ökonómiai tényez k tartoznak, a másodikba a migrációs burok kapcsolatai és az emberi t ke elemei, a harmadikba pedig olyan értékrendi és elégedettséget kifejez változók tartoznak, amelyekr l feltételezni lehet, hogy hatnak az egyén migrációs terveire. A szocio-ökonómiai tényez k közül a legfontosabbak: nem, kor, etnikai származás, iskolai végzettség, szegénység, gazdasági aktivitás és település. A migrációs burok kapcsolatai és az emberi t ke tényez i: kapcsolati t ke, az emberi t ke tudáselemei és az emberi t ke pszichikai elemei. Az értékrendhez, az elégedettséghez tartozik úgy a személyes, mint az általános viszonyok megítélése. Ezen elméleti háttérre alapozva adatbázisunkban, a székelyföldi fiatalok 750 f s reprezentatív mintáján keressük a választ arra, hogy a 15-29 évesek körében milyen arányban találhatók meg azok a potenciális migránsok, akik olyan értékrendszerrel, életkorral és környezeti megítéléssel bírnak, amelyekr l feltehet , hogy hatnak az egyén migrációs terveire. Bár adatbázisunk nagyon sok változót tartalmaz, a mennyiségi mérési szint változók száma nagyon kevés, ezért csak néhány változó vonható be a klaszterelemzésbe. Ne feledkezzünk meg arról sem, hogy nem egy migrációs elemzést, hanem egy valóságh módszertani leírást bemutatásáról van szó. A f komponens-elemzéssel már feltérképeztük a fiatalok értékorientációit, az életkort a születési évb l (k2.1 változó) könnyen ki tudjuk számolni. A feln tt társadalom fiatalokhoz
való
viszonyulását
a
k165.1-k165.9
változókból
számított
faktorszkórokkal mérjük (az el z fejezetben leírtak szerint f komponens elemzést használunk. Els lépésben hozzuk létre az „életkor” változót (a Compute menü segítségével, a „2001-k2.1 feltétel megadásával). Második lépésben végezzünk f komponens-elemzést a k165.1-k165.9 váltózó-szettre. A változók az alábbi kérdésekre adott válaszokat tartalmazzák: Egyetért-e a következ
kijelentésekkel? (Osztályozza 1-t l 7-ig, ahol az 1-es azt
jelenti, hogy egyáltalán nem ért egyet, a 7-es pedig azt jelenti, hogy teljesen egyetért a kijelentéssel. A közbüls számok átmenetet jelölnek.) 1. Társadalmunkban mindenhol ellenségeskedést tapasztalsz a fiatalokkal szemben. 2. A fiataloknak nem szabad mindent elt rniük munkahelyükön, hanem vissza kell vágniuk. 3. Tulajdonképpen sokat köszönhetek a szüleimnek. 4. Törekszem arra, hogy megértsem szüleimet, még ha ez id nként nehezen is megy. 136
STATISZTIKA jegyzet szociológus hallgatók számára
5. A fiatalok problémáit valójában nagyon kevés feln tt érti meg. 6. Nem sokat adok a feln ttek tapasztalataira, inkább a magaméra hagyatkozom. 7. A hasonló korú barátaimtól több tapasztalatot szerzek, többet tanulok, mint szüleimt l. 8. A szüleim állandóan beleszólnak olyan dolgokba, amik nem tartoznak rájuk. 9. Általában a rend rök durván bánnak a fiatalokkal. El ször megtisztítjuk adatainkat a nem releváns válaszoktól (kisz rjük a 0 kódú, azaz „nem tudom” válaszokat), majd lefuttatjuk a f komponens-elemzést. A KMO mutató értéke 0,65, a Bartlett-teszt szignifikancia szintje jó (p=0,000), a kommunalitások értéke minden változó esetében nagyobb, mint a 0,25-ös küszöbérték, a faktorok által magyarázott összvariancia 52,38%, tehát változóink alkalmasak a f komponenselemzésre. Minden változó kell mértékben járul hozzá a faktorok kialakításához és a faktorok az eredeti változók információtartalmának több, mint 50%-át megtartották. Elvárásainknak megfelel en a rotálatlan faktorsúlymátrix nem értelmezhet , viszont a Varimax módszerrel rotált faktorsúlymátrix igen. A 9 elemzésbe bevont változónkból mindössze egy, a „fiatalok problémáit kevés feln tt érti meg” változó nem értelmezhet a háromfaktoros modellünkben. Úgy döntünk, hogy bár az elemzésbe otthagyjuk, de az értelmezésbe nem vonjuk be ezt a változót. Rotated Component Matrixa
nem sokat adok a felnõttek tapasztalatára a barátoktól többet tanulok, mint a szülõktõl a fiataloknak nem szabad mindent eltûrniük a fiatalok problémáit kevés felnõtt érti meg törekszem szüleim megértésére sokat köszönhetek a szülõknek a rendõrök durván bánnak a fiatalokkal fiatalokkal szembeni ellenségeskedés a szüleim állandóan beleszólnak a dolgaimba
1
Component 2
3
,750 ,641
-,270
,555 ,475
,427
,254
,843 ,783 ,778 ,659 ,258
,571
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 5 iterations.
Az 1. faktorunkhoz a „nem sokat adok a feln ttek tapasztalatára”, „a barátoktól többet tanulok, mint a szül kt l” és „a fiataloknak nem szabad mindent elt rniük” változók
137
STATISZTIKA jegyzet szociológus hallgatók számára
tartoznak, ezért a lázadás elnevezést kapta. A 2. faktorunkhoz a „törekszem szüleim megértésére” és „sokat köszönhetek a szül knek” változók tartoznak, tehát a család húzóereje elnevezést kapta. A 3. faktorhoz „a rend rök durván bánnak a fiatalokkal”, a „fiatalokkal szembeni ellenségeskedés” és „a szüleim állandóan beleszólnak a dolgaimba” változók tartoznak, így a taszító környezet elnevezést kapta. A faktorszkórokat regressziós módszerrel mentjük meg. Mivel az értékdimenziókat leíró 5 faktorunk közül az egyik a demokratikus értékorientációt fejezi ki, a potenciális migránsok csoportjának feltárásra irányuló klaszterelemzésünkbe nincs sok értelme bevonnunk. Tehát a klaszterelemzést a 4 értékváltozó (az el z
fejezetben nyert faktorok), az életkor és a három új
faktorváltozó bevonásával végezzük.
2. A klaszterelemzés feltételeinek vizsgálata Miként már korábban is említésre került, klaszterelemzést csak mennyiségi változók bevonásával végezhetünk. Továbbá a klaszterelemzés szempontjából rendkívül fontos, hogy ne legyenek túlságosan kiugró adataink (outliers), ezért nagyon figyeljünk az adattisztításra. Mi most ezzel nem kell foglalkozzunk, hiszen adataink „tiszták”. Mivel a klaszterelemzés a távolságra alapszik, nem mindegy, hogy milyen nagyságrend adataink vannak. Ha a változóink nem egyforma skálán lettek mérve, akkor nagyon torz adatokat kapunk, ezért a változókat standardizált formában kell bevinnünk a klaszterelemzésbe. Mivel a faktorváltozóink már eleve standardizáltak (0 átlagú és egységnyi szórásúak), így az „életkor” változóhoz képest jóval kisebb értékeket vesznek fel, ezért az „életkor” változót is standardizálnunk kell. A
standardizálás tulajdonképpen azt jelenti, hogy az átlagot kivonjuk az egyes értékekb l és a különbséget elosztjuk a szórással. Természetesen ezt nem kézzel, hanem az SPSS-el számoltatjuk ki úgy, hogy az ANALYZE f menü Descriptive
Statistics, Descriptives menüjében bal oldalon, a változók alatt szerepl
Save
standardized values as variables parancsot bejelöljük a standardizálni kívánt változóra. Tehát standardizáljuk az életkort.
138
STATISZTIKA jegyzet szociológus hallgatók számára
A standardizálás eredményeként megkapjuk a Zscore(ELETKOR) nev változót. A klaszterelemzés lefuttatásának utolsó kritériuma az elemzésbe bevont változók közötti korrelációk vizsgálata. Ha az eljárásban szerepl
változók között er s
korreláció van, ezek a változók nagyobb szerepet fognak kapni az elemzésben és így az eredményekben is. Amennyiben két változó közötti korrelációs együttható értéke nagyon nagy (ez társadalmi jelenségeknél ritkán fordul el ), a két változó egyikét ki kell zárni az elemzésb l, mivel a redundáns információk torzításhoz vezetnek (a klaszterelemzésben minden változónak azonos a súlya). Lefuttatunk egy korrelációt a 8 változónkra (Analyze, Correlate, Bivariate) és azt tapasztaljuk, hogy egyetlen korrálációs együtthatónk értéke sem nagyobb, mint 0,3. Tehát változóink nem hordoznak redundáns információkat. Most már elmondhatjuk, hogy mind a nyolc változónk készen áll a klaszterelemzésre.
3. A klaszterelemzés folyamata, döntés a klaszterek számáról A nem hierarchikus vagy dinamikus klaszterelemzést a K-közép (K-means) módszerrel végezzük. A K-közép klaszterezés algoritmusa az euklideszi távolságszámításon
(az
egyes
változók
közötti
különbségek
négyzetösszegének
a
négyzetgyöke) alapszik. A K-közép eljárás a kiinduláskor megadott klaszterszám alapján választ ki kezdeti klaszterközéppontokat (initial cluster centers), vagyis minden klaszterhez egy középpontot rendel. A kezdeti klaszterközéppontok tulajdonképpen az adatfájl els k (k a kért klaszterek száma) elemei, és ezek után kerül behelyezésre a többi elem. Tehát a klaszterelemzésben fontos lehet az esetek sorrendje. A program akkor cserél ki egy már kiválasztott klaszterközéppontot, ha az új eset távolsága (euklideszi) a hozzá legközelebb es klaszterközépponthoz képest nagyobb, mint a két egymáshoz legközelebb es
klaszterközéppont távolsága. A
klaszterbe sorolás kritériuma pedig az, hogy egy elem abba a klaszterbe kerül, 139
STATISZTIKA jegyzet szociológus hallgatók számára
amelynek a középpontjához a legközelebb van. Amennyiben új klaszterközéppontot talál a program, a klaszterképz
változók átlagai alapján újra kiszámítja az új
klaszterközéppontokat és minden esetet újra behelyez. Mindez a folymat több iterálás (ismétlés) révén addig folytatódik, míg kialakul egy stabil klaszterstruktúra, vagyis a klaszterközéppontok tovább nem változnak. A klaszterek értelmezése a végs klaszterközéppontok (final cluster centers) alapján történik. Miel tt azonban lefuttatnák a klaszterelemzést, meg kell adnunk a klaszterek számát. Ez azt jelenti, hogy vagy el zetes elvárásokra támaszkodva, vagy „vakon” kell eldöntsük, hogy hány klaszterbe kívánjuk besorolni eseteinket. Mivel mi a potenciális migránsok csoportját kívánjuk feltérképezni, el zetes elvárásainknak megfelel en 2 klasztert szeretnénk kapni: a potenciális migránsok és a potenciálisan nem migránsok csoportját. Tehát próbálkozzunk a két klaszteres modellel. Klaszterelemzést az ANALYZE f menü Classify, K-Means Cluster menüpont alatt kérhetünk. A megszokott módon átvisszük az elemzésbe bevont változókat, majd a változók alatt szerepl
Number of Clusters mez nél megadjuk, hogy 2 klasztert
szeretnénk. Az Iterate mez ben átállítjuk az ismétlések számát 10-r l 100-ra, mivel feltételezzük, hogy 10 ismétlés nem vezet végleges klaszterstruktúrához és lefuttatjuk a klaszterelemzést.
Az Output ablakban megtekinthetjük a kezdeti klaszterközéppontokat tartalmazó táblázatot, az Iteration History tábla azt jelzi, hogy a program 9 iterálás után jutott el a végs klaszterstruktúrához.
140
STATISZTIKA jegyzet szociológus hallgatók számára
Iteration Historya
Iteration 1 2 3 4 5 6 7 8 9
Change in Cluster Centers 1 2 5,595 5,625 ,747 ,117 ,457 7,973E-02 ,304 5,746E-02 ,263 5,546E-02 ,175 3,954E-02 ,106 2,539E-02 8,820E-02 2,112E-02 ,000 ,000
a. Convergence achieved due to no or small distance change. The maximum distance by which any center has changed is ,000. The current iteration is 9. The minimum distance between initial centers is 11,004.
A Final Cluster Centers táblázat a végleges klaszterközéppontokat tartalmazza, a Number of Cases in each Cluster táblázatban pedig az egyes klaszterekhez tartozó esetszámok vannak feltüntetve. Miel tt azonban ezeket megvizsgálnánk, nézzük meg, hogy a klaszterközéppontok mind a nyolc klaszterképz
változó mentén
szignifikánsan különbözik-e. Bár az SPSS arra törekedett, hogy olyan csoportokat hozzon létre, amelyek egymástól jól elkülönülnek, mégis érdemes megvizsgálni a kközép klaszterelemzés menü Options almenüjében lekérhet
(nem klasszikus)
ANOVA-táblát.
Bár a gyakorlatban ritkán fordul el , az egyutas variancia-analízis táblázata azt jelzi, hogy sem a „taszító környezet”, sem az „individualista értékek”, sem a „materialista értékek” változók mentén kialakított klaszterközéppontok nem különböznek szignifikánsan. (p>0,05). A táblázatban szerepl
F-statisztika azt mutatja, hogy
melyik változó mentén sikerült homogénebb csoportokat kialakítani. Minél nagyobb
141
STATISZTIKA jegyzet szociológus hallgatók számára
az F értéke, annál fontosabb szerepet játszik az illet
változó a klaszterstruktúra
kialakításában. ANOVA
lázadás család húzóereje taszító környezet Zscore(ELETKOR) Interperszonális értékek individualista értékek hagyományos közösségi értékek materialista értékek
Cluster Mean Square df 8,054 297,753 3,022E-02 7,339 87,343 2,251
1 1 1 1 1 1
Error Mean Square ,976 ,454 ,998 ,929 ,637 ,853
79,856
1
,892
1
df 573 573 573 573 573 573
F 8,251 656,499 ,030 7,903 137,112 2,638
Sig. ,004 ,000 ,862 ,005 ,000 ,105
,891
573
89,636
,000
1,019
573
,876
,350
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
Tehát a kétklaszteres struktúránk nem jó, 8 változó mentén mindössze két, egymástól jól elkülönül csoport kialakítás túlságosan optimista elképzelésnek bizonyult. Próbálkozzunk a háromklaszteres struktúrával az el z ek szerint. A háromklaszteres struktúra ANOVA táblázata szerint a klaszterközéppontok minden változó mentén szignifikánsan különböznek, a klaszterstruktúra kialakításában pedig a legnagyobb szerepe a „család húzóereje” és a „taszító környezet” változóknak van. ANOVA Cluster
lázadás család húzóereje taszító környezet Zscore(ELETKOR) Interperszonális értékek individualista értékek hagyományos közösségi értékek materialista értékek
Mean Square 3,512 155,585 124,883 18,275 42,666 17,556
Error
2 2 2 2 2 2
Mean Square ,980 ,431 ,564 ,879 ,642 ,797
25,443
2
47,048
2
df
df 572 572 572 572 572 572
F 3,585 361,082 221,575 20,788 66,494 22,021
Sig. ,028 ,000 ,000 ,000 ,000 ,000
,943
572
26,978
,000
,858
572
54,831
,000
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
Az SPSS 25 iterálás után jutott el a végleges klaszterközéppontokig. Most már értelmezhetjük a végs klaszterközéppontokat tartalmazó táblázatot.
142
STATISZTIKA jegyzet szociológus hallgatók számára
4. A klaszterek értelmezése és jellemzése A
klasztereket
tehát
az
euklideszi
távolság
alapján
számolt
végleges
klaszterközéppontok alapján jellemezzük. Final Cluster Centers
lázadás család húzóereje taszító környezet Zscore(ELETKOR) Interperszonális értékek individualista értékek hagyományos közösségi értékek materialista értékek
1 ,18629 -1,64334 -,06655 ,33259 -,81013 -,11918
Cluster 2 -,12103 ,33603 ,71342 -,29003 ,28193 ,39409
3 ,03515 ,35529 -,72739 ,15966 ,16169 -,10344
-,67671
,07477
,16414
,08341
,37571
-,50038
Az egyes klaszretekbe tartozó megkérdezettek számát az SPSS által szintén automatikusan számolt alábbi táblázat szemlélteti. Number of Cases in each Cluster Cluster
Valid Missing
1 2 3
94,000 237,000 244,000 575,000 175,000
Az els klaszterbe tartoznak azok a megkrédezettek, akik lázadó típusúak, a család húzóerejét nem tartják fontosnak, különösebben nem érzékelik a feln tt társadalom részér l megnyilvánuló taszítást, a korosztályon belül id sebbek, számukra nem fontosak az interperszonális értékek (család, barátok, szerelem), nem individualista értékorientáltságúak, a hagyományos közösségi értékeket nem tartják fontosnak, viszont az anyagiakat viszonylag fontosnak tartják. Ebben a klaszterben egy olyan csoportot azonosítottunk be, amely elégedetlennek t nik saját életével. A klaszter a „gyökértelenek” elnevezést kapta, hiszen a mindenfajta immateriális érték elutasítását, az emberi kapcsolatok iránti passzivitást, az elégedetlenséget fejezi ki. Ez az a csoport, amelynek migrációs terveivel kapcsolatosan nehéz feltételezni, hiszen míg az „értéknihilizmus”, a lázadás és az anyagiak fontossága a migrációs döntés meghozatala mellett szólhat, addig az individualista értékorientáció és a taszító környezet hiánya a migrációs döntések meghozatala ellen szólhat. A bármilyen fajta köt dés hiánya, az er s elégedetlenség és az alapvet
emberi értékekt l való
143
STATISZTIKA jegyzet szociológus hallgatók számára
elfordulás inkább egy kilátástalan, bizonytalanságban él és kiszámíthatatlansággal jellemz fiatal csoportot ír körül, mintsem egy potenciális migráns csoportot. Ez a klaszter fiatalokról lévén szó elég számos, a releváns válaszadók (575) közel egyhatodát (94) tömöríti. A második klaszterbe azok a nagyon fiatalok tartoznak (tizenévesek), akik nem lázadóak, akik számára a család húzóer t képvisel, hisznek a közösségi értékekben, viszont a feln tt társadalom részér l nagyon er teljes taszítóer t érzékelnek, fontosak számukra az individualista értékek (érdekes élet, változatos élet) és f ként nagyon fontosak a materiális értékek. Az „egészséges” értékorientáció és családi köt dés az er teljes változatos és érdekes élet iránti vágyakozással, er s környezeti taszítóer kkel és materiális értékorientáltsággal társulva feltehet en a migrációs tervek
kialakulásának
esélyét
er síti,
ezért
ezt
a
csoportot
„potenciális
migránsoknak” neveztem el. A potenciális migránsok még nagyobb arányban képviseltetik magukat, a releváns válaszadók 41,2%-át teszik ki. Végül a harmadik klaszterbe azok a fiatalok kerültek, akik megértik egymást szüleikkel, fontos számukra a családi harmónia, nem érzékelnek taszító környezetet, fontosak számukra az interperszonális kapcsolatok, nem vágynak érdekes és változatos élet után, nagyon fontosnak tartják a vallást és a hagyományokat, az anyagi javak pedig nem értékesek számukra. Ez az a csoport, aki nagy valószín séggel nem fog elvándorolni, hiszen sem egyéni ambíciói, sem a környezete, sem értékrendszere nem erre készteti. Ezért ez a klaszter a „helyhez kötöttek” elnevezést kapta. Ez a legszámosabb csoportunk, a releváns válaszadók 42,4%-át foglalja magába.
5. A megbízhatóság és az érvényesség vizsgálata Miel tt elmentenénk klaszterváltozóinkat, még egyszer ellen rizzük le a kapott klaszterstruktúrát. Miként már korábban említésre került, a klaszterstruktúra kialakítását befolyásolja az adatbázisban szerepl esetek sorrendje, mivel a használt klaszterezési eljárás az adatfile els k darab eleméb l kiindulva határozta meg az iniciális klaszterközéppontokat. Ezért ellen rizni kell, hogy az elemzési egységek más sorba rendezése után (más iniciális klaszterközéppontok) is ugyanezt a végs klaszterstruktúrát adják-e. Rendezési kritériumként jelöljük meg pl. a megkérdezettel közös háztartásban él els személy életkorát (k2.2 változó). A lényeg egy olyan változó szerinti sorbarendezés, amivel a klaszterstruktúra változói gyengén korrelálnak. El ször tehát a Data, Sort 144
STATISZTIKA jegyzet szociológus hallgatók számára
Cases menüponttal a jelzett változó szerint sorba rendeztetjük eseteinket, majd Pearson-féle korrelációs együtthatókat kérünk a k2.2 és a klaszterképz változókra. Várakozásainknak megfelel en egyetlen szignifikáns összefüggést sem találtunk a k2.2 és a klaszterképz
változók között. Most tehát futtassuk le még egyszer a
klaszterelemzést (természetesen 3 klaszter kialakítását kérve). Az ilyen módon kapott iniciális klaszterközéppontok ténylegesen megváltoztak, a végs klaszterközéppontok viszont hasonlítanak egymásra, az F szignifikanciaszintje minden változó esetében megfelel (p=0,000) és szintén 25 iteráció után stabilizálódtak. A három csoport most is nagyon szépen kirajzolódik a klaszterközéppontok alapján. Egyedül a klaszterek sorrendje változott, valamint az egyes klaszterekbe sorolt egyének száma változott egy keveset. Number of Cases in each Cluster Cluster
1 2 3
Valid Missing
257,000 93,000 225,000 575,000 175,000
Tehát sikerült egy valóságos klaszterstruktúrát feltárnunk és beazonosítanunk az értékrendszer, környezeti megítéltség és életkor alapján kirajzolódó migránsok csoportját. Amennyiben a klaszterváltozóinkat további elemzésekbe kívánjuk bevonni, akárcsak a faktorok, a klaszterek is elmenthet k új változókként. Ezt a k-közép klaszterelemzés Save menüpontja segítségével tehetjük meg. A Save New Variable as Cluster membership révén egy kategoriális változót kapunk, amelyben az 1-es érték az els klaszterhez, a 2-es a második, a 3-as pedig a harmadik klaszterhez való tartozást jelzi. A Save New Variable as Distance from cluster center utasítással a klaszterváltozó egy mennyiségi ismérv lesz, amely a klaszterközépponttól való távolságot (euklideszi) jelzi.
A gyakorlatban a könnyebb értelmezhet sége miatt a klaszterbe tartozás szerint szokás menteni a kapott klaszterváltozót.
145
STATISZTIKA jegyzet szociológus hallgatók számára
MELLÉKLETEK A χ2 -eloszlás táblázata (p=0.05, P=0,01 és p=0,001)
146
STATISZTIKA jegyzet szociológus hallgatók számára
A t -eloszlás táblázata (p=0.05, P=0,01 és p=0,001)
147
STATISZTIKA jegyzet szociológus hallgatók számára
Az SPSS 9.0 program menüsor parancsainak rövid leírása A File menü - innen történnek a fájlkezel
m veletek, az adatbázisok megnyitása, elmentése,
nyomtatása és az adatfájlok alapinformációinak lekérdezése
New - Data: új adatfájlok létrehozása New - Syntax: egy új parancseditor ablak megnyitása (SPSS parancssorok beírása) New - Output: megnyit egy új fájlt az output ablakban New - Script: egy új, parancssor-együttes, „script” lehívása (a szkript bizonyos helyzetekhez vagy feltételekhez kapcsolódó program-részlet, amely a helyzet vagy a feltétel változásakor lefut)
Open: megnyit egy háttértárolón fekv (már meglév ) SPSS vagy más formátumú adatfájlt
Database Capture: meglév
adatbázisok megnyitása és lehet ség a különböz
változók szelektív beolvasására (Database Query – adatbázis lekérdezés, *.spq formátum)
Read Text Data: egy szöveg formátumú (*.txt, *.dat formátumú) fájl olvasható be. Ez lehet fix vagy szabad formátumú.
Save: az aktív ablakban lév adatot vagy szöveget elmenti az aktuális néven és a régebbi változatot felülírja
Save as ...: az aktív ablakban található adat vagy szöveg új néven menthet el Display Data Info: az SPSS formátumú (*.sav kiterjesztés ) adatfájlokról és annak változóiról ad információt, a legfontosabb attribútumoknak az output ablakban való kiírásával
Apply Data Dictionary: a tárolt formában lév SPSS formátumú adatfájlok változói közül átveszi és a megfelel változóra alkalmazza azoknak az attribútumait, amelyek ugyanolyan névvel szerepelnek az aktív adat-editor ablakban is megtalálhatóakkal
Print: a program által használt objektumok kinyomtatása Exit: kilépés az SPSS alkalmazásból. A megnyitott fájlok elmentésére rákérdez.
148
STATISZTIKA jegyzet szociológus hallgatók számára
Az Edit menü - ebben a menüpontban található a másolás, beillesztés, csere, törlés, keresés parancs
Undo: visszaállítja az utoljára kiadott szerkesztési parancsot (a syntax, az output és a script ablakban nem aktív)
Cut: az aktív ablakban kiválasztott szövegrészt vagy adatrészletet kivágja és a vvágólapra elrakja. Innen a Paste segítségével lehet visszahozni ugyanide vagy egy másik helyre.
Copy: másolat készítéséhez a kiválasztott szövegrészt vagy adatrészletet felrakja a vágóasztalra, hogy onnan más alkalmazásoknál el lehessen hívni
Paste: a kijelölt ponttól bemásolja a vágóasztalon lév tartalmat Clear: a kijelölt terület törlését végzi és a törlés következtében nem keletkeznek üres sorok vagy oszlopok
Find: a kiválasztott változónál egy specifikált értéket megkeres és az aktív adatkeretet ráviszi az els ilyen értékre és megáll
Options: az SPSS m ködését el zetesen szabályozó parancsok találhatók meg itt. Beállítható a munkaterület a háttértárolón, a journal dokumentációs fájl, a m veletek végrehajtásának a módjai, a grafikus megjelenítés módjai.
A View menü - ebben a menüpontban a megjelenítést vezérl parancsok találhatók
Status Bar: kijelzi az editor ablak jobb alsó sarkában a számításoknál figyelembe vett esetek számát, jelzi, ha csak bizonyos esetekkel dolgozunk, ha az adatfájlt több csoportra osztottuk vagy esetleg súlyozott adatbázissal dolgozunk
Toolbars:
a
leggyakrabban
használatos
parancsok
ikon-formátumban
való
megjelenítése
Fonts: a bet típus és bet méret beállítása Grid Lines: az adatbázis oszlopait és sorait elválasztó vonalak megjelenítése Value Labels: az ismérvértékek szöveges vagy numerikus (kódolt) formában való megjelenítése
149
STATISZTIKA jegyzet szociológus hallgatók számára
A Data menü - ebben a menüpontban lehet a változók attribútumain (változónév, leíró címkék, formátum és típus stb.) változtatásokat eszközölni, itt lehet új változót vagy esetet beszúrni, változókat törölni, adatfájlokat összeragasztani, egy fájlt részekre szabdalni, eseteket kiválasztani
Define Variable: a kiválasztott változó attribútumait itt lehet megadni vagy megváltoztatni
Define Dates: az id beállítás formátumát lehet megadni, olyan id változók generálására alkalmas, amelyekkel megadható az id sorok periodicitása
Tamplates: akkor használjuk, ha több változónak egyszerre akarjuk beállítani a leíró fejlécét
Insert Variable: egy új változó beszúrását végzi az aktív változó után Insert Case: egy új eset (sor) beszúrását végzi az aktív eset után Go to Case: az adateditor táblázatot a kívánt esetig futtatja Sort Cases: a kiválasztott változók esetei értékeinek nagyság szerinti sorrendjébe rendezhet k az adatmátrix sorai. Megadható, hogy a rendezéskor melyik legyen az els dleges, a másodlagos, stb. ismérv.
Transpose: az adatmátrix sorainak és oszlopainak megcserélésével az esetek és változók szerepei is felcserél dnek
Merge Files - Add Cases: hozzáf zi egy vagy több fájl eseteit az adateditorban álló adatfájl eseteihez
Merge Files - Add Variables: hozzáf zi egy vagy több fájl új változóit az adateditorban álló adatfájl változóihoz
Aggregate: adattömörítést lehet végrehajtani, esetek összevonása révén. Az összevont eseteket különféleképpen reprezentálhatjuk: átlaggal, legkisebb értékkel, legnagyobb értékkel, stb.
Orthogonal Design: új adatbázist hoz létre, amely néhány változó vagy változóegyüttes statisztikai tesztelését teszi lehet vé (független leképzésen alapuló minta)
Split File: az adatmátrixot egy megadott változó értékei szerint részekre lehet bontani, hogy a részeken külön-külön statisztikai analízist vagy grafikus megjelenítést lehessen végezni
Select Cases: az adatmátrixnak csak el írt feltételt teljesít eseteit jelöljük ki és a további számításokat csak ezeken az eseteken végeztetjük
150
STATISZTIKA jegyzet szociológus hallgatók számára
Weight
Cases:
az
eseteket
átsúlyozhatjuk
anélkül,
hogy
ténylegesen
megsokszoroznánk ket az adatmátrixban (az alulreprezentált eseteket nagyobb, a túlreprezentált eseteket kisebb értékkel súlyozzuk)
A Transform menü - ebben a menüpontban az adatmátrix adatait lehet megváltoztatni, illetve új változókat lehet el állítani a régi változók segítségével, itt lehet a változókra felvett értékeket átkódolni
Compute: egy új változó, vagy egy már létez régi változó eseteinek értékeit számolja ki, a többi változók esetei értékeinek különféle függvényeiként. Lehet ség van arra is, hogy valamilyen logikai feltételt is beállítsunk. Ilyenkor csak azoknál az eseteknél képz dik számított érték, amelyekhez a beállított logikai kifejezés igaz (a többi helyre system missing value kerül).
Random Number Seed: a számítógéppel generált úgynevezett pszeudó-véletlen számok el állításakor a kiindulási sok számjegy , páratlan egész szám adható meg (ha sokszor generáltunk véletlen számokat, érdemes id nként átállítani)
Count: egy olyan új változó hozható létre itt, amelyben a változólistára felvitt változók együttes el fordulásait lehet regisztrálni
Recode - Into Same Variable: egy létez változó értékeit lehet átkódolni ugyanabban a változóban
Recode - Into Different Variable: egy létez
változó értékeit átkódoljuk egy új
változóba
Categorize Variables: folytonos numérikus változók csoportosítására alkalmas (megadható a létrehozandó csoportok száma)
Rank Cases: egy olyan új változó hozható létre, amelyben az eseteknek nagyság szerinti sorrendben elfoglalt helyzetének megfelel különféle rangszámai találhatók
Automatic Recode: egy adott változó értékeit azok rangszámaival cseréli fel Create Time Series: új id sor változó létrehozását teszi lehet vé, amely id sorelemzéseknél használható
Replace Missing Values: szintén új id sor változó létrehozására alkalmas, a hiányzó adatok becsült adatokkal való helyettesítése révén
151
STATISZTIKA jegyzet szociológus hallgatók számára
Az Analyze menü - a legösszetettebb menü, az egész programrendszer törzse, itt végezhet k el a tényleges statisztikai vizsgálatok
Reports – OLAP Cubes: Online Analytical Processing, vagyis egyváltozós statisztikákat számol folytonos változókra
Reports - Case Summaries: kiszámolja a megadott változók különböz
leíró
statisztikáit, összegzi a számításba bevont esetek számát, valamint megjeleníti az illet változókra felvett egyes értékeket
Reports - Report Summaries in Rows: tömörített formában írja ki a statisztikákat, csoportosított adatokból számít leíró statisztikákat
Reports - Report Summaries in Columns: egy-egy változóra végez összesítést, akár csoportosított adatokból is
Descriptive Statistics -
Frequencies: egy vagy több változóhoz gyakorisági
táblázatokat és leíró statisztikákat, valamint az eloszlást szemléltet ábrákat készít
Descriptive Statistics - Descriptives: az egyváltozós statisztikákat számolja (átlag, szórás, ferdeség, csúcsosság, stb.) és ezek standard hibáit (az elméleti értékekt l való eltérések becslései). A statisztikákat a változók átlagértékei szerinti csökken vagy növekv sorrendben írathatjuk ki. Lehet ség van egy-egy változó standardizáltjának új változóként való el állítására is.
Descriptive Statistics - Explore: az eloszlást jellemz további statisztikákat számol, illetve grafikonokat rajzol. Az adatok közepét, az esetleges adathibákat kisz rve, úgynevezett robosztus becslésekkel (M-estimators) közelíti, megkeresi és kijelzi a tipikustól jelent sen elüt eseteket (outliers), kiszámolja a kvartiliseket és a mediánt. Gyors grafikus normalitásvizsgálat végezhet el, ha a hisztogrammra kikérjük a Gauss görbét. A változók eseteit csoportképz
változók segítségével részcsoportokba
oszthatjuk, és a részcsoportok statisztikáit különböz
grafikonokkal együtt
elkészíttethetjük.
Descriptive Statistics - Crosstabs: kereszttáblák készíthet ek itt két vagy három diszkrét változó eseteinek együttes el fordulásainak szemléltetésére. A táblázatból különféle, a függetlenség ellen rzésére szolgáló statisztikák kérhet ek ki (chi-négyzet statisztikák, asszociációs mér számok, korrelációs együttható, stb.)
Compare Means - egymástól független vagy egymással összefügg minták várható értékeinek egyezését vizsgáló paraméteres statisztikai próbák tartoznak ide
152
STATISZTIKA jegyzet szociológus hallgatók számára
Compare Means - Means: egy vagy több csoportképz
változó segítségével
kialakított alcsoportok leíró statisztikáit számolja
Compare Means - One - Sample T Test: egymintás t-próba számítására alkalmas, amikor egy hipotetikus várható értékhez hasonlítjuk az eloszlás átlagát
Compare Means - Independent Samples T Test: egy t-próbát hajt végre egy változó két független csoportra tördelt részei átlagának egyezésére vonatkozólag
Compare Means - Paired Samples T Test: összetartozó minták esetén ellen rzi a csoportok átlagainak egyez ségét
Compare Means - One-Way ANOVA: egyszeres szórásanalízist hajt végre a különböz csoportok átlagai eltéréseinek ellen rzésére
General Linear Model - segítségével ellen rizhetjük a változók csoportjai közötti szignifikáns különbségekre vonatkozó statisztikai hipotéziseket, és modelleket állíthatunk fel mind az állandó, mind a véletlenszer
hatások elemzésére. Az
általánosított lineáris modell (GLM) rugalmas statisztikai eszköz a normális eloszlású célváltozók vagy függ
változók (dependents) és a független változók (factors)
összefüggésének elemzésére. Ha több faktorváltozónk van, akkor az egyes faktorok közötti kölcsönhatások is figyelembe vehet ek. Lehet ségünk van a függ változóból kisz rni bizonyos változók hatásait, ha a mellékváltozók (covariates) listában azokat a numerikus változókat felvesszük.
GLM - Univariate: regresszióelemzést és varianciaanalízist végezhetünk, azt vizsgáljuk, hogy egyetlen függ
változót hogyan befolyásol egy vagy több
faktorváltozó.
GLM - Multivariate: a faktorváltozókkal széttördelt mintát nem egy, hanem több függ változóval jellemezzük, többváltozós regresszióelemzést és varianciaanalízist végezhetünk, azt vizsgáljuk, hogy több függ változót hogyan befolyásol egy vagy több faktorváltozó
GLM - Repeated Measures: többszörös méréses modelleket is illeszthetünk, amikor minden egyes id ponthoz, illetve a feltételek tetsz leges kombinációjához többszörös mérés (többelem minta) tartozik (pl. a jövedelmet több id pontban mértük)
GLM – Variance Components: a véletlen hatásoknak a függ változó varianciájára gyakorolt hatását becsülhetjük meg
Correlate - több változó között fennálló kapcsolat er sségét lehet itt vizsgálni Correlate - Bivariate: két változó közötti sztochasztikus kapcsolat er sségét méri. Lehet ség van a Pearson-féle közönséges korrelációs együttható és a Kendall és 153
STATISZTIKA jegyzet szociológus hallgatók számára
Spearman-féle rangkorrelációs együtthatók kiszámítására. A korrelációs együtthatók nagyságára vonatkozó statisztikai próba is elvégezhet .
Correlate - Partial: ha kett nél több változónk van, akkor azok közül kett nek a parciális korrelációs együtthatóját lehet kiszámolni (a két változónak az összes többire vett lineáris regresszióinak és a változók különbségéb l képzett maradék változó Pearson-féle korrelációs együtthatója)
Correlate - Distances: különböz hasonlósági, különböz ségi és távolság-mértékeket számol két változó között
Regression - egy változónak egy vagy több vele sztochasztikusan összefügg változó segítségével való kifejezése, egy alkalmas függvénykapcsolattal való közelítése
Regression - Linear: egy- és többváltozós lineáris regressziót hajt végre. A célváltozót vagy függ változót (dependent variable) egy vagy több független változó (independents) lineáris függvényeként írja le. Az együtthatókat a legkisebb négyzetek elvével határozza meg, amelyek a független változó és a függ változó parciális korrelációs együtthatóival arányosak. Az összefüggésben résztvev
változók
kiválasztására különböz modellépítési stratégiák vehet k igénybe.
Regression - Logistic és Regression - Probit: a regressziónak azon speciális estei, amikor a függ változó dichotóm, azaz csak két értéket vehet fel.
Regression - Nonlinear: tetsz leges többparaméteres függvény beadható, a paraméterek kiindulási értékeinek beállítása mellett. Az algoritmus úgy határozza meg a beadott függvénykapcsolat végs paramétereit, hogy közben gradiens módszerrel minimalizálja a közelít
függvényértékek és a függ változó értékei közötti
különbségek négyzetösszegét
Loglinear - General: a program Maximum likelihood módszerrel próbát végez el és megbecsüli az általános loglineáris modell paramétereit, ahol a független változók között nominális mérési szint ek is lehetnek
Loglinear - Logit: a függ nominális változó és több független kategóriaváltozó közötti kapcsolat feltárására szolgáló modell
Loglinear - Model Selection: a loglineáris modell építésében megadható, hogy legtöbb hány lépés nyomán alakuljon ki a véglegesen elfogadható modell
Classify - K-Means Cluster: nagy adatfájlokon alkalmazható klaszterképz , osztályozó eljárás. A klaszter-struktúrához nem-hierarchikus úton jutunk, azaz el re megadott számú klaszterbe csoportosítjuk az eseteket a klaszterközéppontok alapján.
154
STATISZTIKA jegyzet szociológus hallgatók számára
Classify - Hierarchical Cluster: azon az elgondoláson alapul, hogy els lépésben valamennyi klaszterezésre váró esetet külön-külön egyszemélyes klaszterekben képzelünk el, majd az egymáshoz legközelebb álló eseteket ugyanahhoz a klaszterhez soroljuk (hierarchikusan építjük ki az osztályokat)
Classify
-
Discriminant:
a
diszkriminancia-analízis
arra
szolgál,
hogy
korrelációszámítás felhasználásával alacsony mérési szint
függ
változót magas
mérési szint független változókkal magyarázzunk
Data reduction - Factor: a faktorelemzés segítségével olyan látens dimenziókat tudunk feltárni a változóhalmazban, amelyek közvetlenül egyetlen változóval sem mérhet ek
Scale - Reliability Analysis: a különböz skálák megbízhatóságának tesztelése leíró statisztikák és bels korrelációs együtthatók segítségével
Scale -Multidimensional Scaling: a többdimenziós skálázás módszerei arra szolgálnak, hogy segítségükkel valamilyen adott objektumokra vonatkozó észlelt hasonlósági vagy különböz ségi adatokból szisztematikus módon létrehozhassunk olyan geometriai reprezentációkat, amelyek ezen objektumok észlelt viszonyát egy megfelel dimenziószámú geometriai térben a lehet ség szerinti legkisebb torzítással tükrözik vissza. Az eljárás eredménye tehát mindig egy ponthalmaz „térképe” egy el re meghatározott típusú geometriai térben, amelyben az egyes pontok úgy helyezkednek el, hogy egymás közötti távolságaik ismert pontossággal megfelelnek azon objektumok észlelt tulajdonságai közötti különböz ségeknek, amelyekhez ezek a pontok tartoznak.
Nonparametric tests - Chi-Square: diszkrét változók illeszkedésvizsgálatát lehet vele elvégezni
Nonparametric tests - Binominal: annak ellen rzésére alkalmas, hogy az olyan változó, amelynek csak két különböz
értéke van, az el írt arányban veszi-e fel
értékeit
Nonparametric tests - Runs: annak ellen rzésére szolgál, hogy egy kétérték változóban tekinthet -e véletlenszer nek az értékek váltakozása, vagy pedig tendenciózusság figyelhet meg a mintában
Nonparametric tests - 1-sample Kolmogorov-Smirnov: egy változó eloszlását ellen rzi
Nonparametric tests - 2 independent samples: egy változó két részének az eloszlását lehet összehasonlítani több különböz módszerrel 155
STATISZTIKA jegyzet szociológus hallgatók számára
Nonparametric tests - K independent samples: az egyszeres szórásanalízishez hasonló, de annál általánosabb feltett kérdést vizsgál: egy változónak a faktorváltozók által tördelt részeinek eloszlásai homogénnek tekinthet ek-e?
Nonparametric tests - 2 Related Samples: az input adatmátrixról leválasztott két összetartozó változó homogenitását ellen rzi (3 eltér módon)
Nonparametric tests - K Related Samples: kett nél több összetartozó változó homogenitásának ellen rzését végzi
Time Series: id sorok elemzése Survival: a cenzorált mintákat (olyan adatrendszereket, amelyben olyan esetek is szerepelnek, amelyeknél a mérés még nem fejez dhetett be a feldolgozás pillanatáig) kezel statisztikai módszer szerinti adatfeldolgozást tesz lehet vé
Multiple Response: dichotóm változók csoportba rendezésére és ezek elemzésére szolgál
Missing Value Analysis: három alapvet funkciója van: leírja a hiányzó eseteket, ezek szerkezetét; átlagokat, szórásokat, kovarianciákat, korrelációkat becsül; regresszióval vagy EM (a várható értékek maximalizálásával) módszerrel helyettesíti a hiányzó eseteket
A Graphs menü - ebben a menüpontban történik az adatok grafikus megjelenítése, gyors, szemléletes elemzést tesz lehet vé
Bar: egyedülálló vagy csoportokba szervezett oszlop-diagrammok megszerkesztését teszi lehet vé
Line: vonalas grafikonok megszerkesztését teszi lehet vé Area: egy vagy több görbe által lefedett tartomány megjelenítését szolgálja Pie: kör-diagrammok elkészítésére szolgál High-low: érték párok vagy hármasok grafikonját lehet itt elkészíteni Pareto: olyan oszlop-diagramm egymásra pozicionált egyenessel, amely a kumulált összegeket mutatja
Control: segítségével közönséges folyamatirányítási grafikonokat készíthetünk Boxplot: a változók eseteinek elhelyezkedését szemlélteti oly módon, hogy az esetek túlnyomó többsége a doboz által kijelölt intevallumba esik, be vannak jelölve a medián és a kvartilisek helyei is
156
STATISZTIKA jegyzet szociológus hallgatók számára
Error bar: a boxplothoz hasonló grafikont készít, melyen a változók egymáshoz képesti térbeli elhelyezkedése szemléltethet
Scatter: pontszer en jeleníthet meg két- vagy három dimenzióban változó-párok vagy változó-hármasok halmaza
Histogram: egy változó eloszlását szemléltet hisztogram kirajzolását teszi lehet vé Normal P-P: egy változó empirikus eloszlásfüggvényét a normális eloszlás eloszlásfüggvényével együtt lehet kirajzoltatni
Normal Q-Q: egy változó empirikus kvartiliseit és a normális eloszlás elméleti kvartiliseit lehet összehasonlítani ezen az ábrán
Sequence: szekvenciális id sor-elemzés grafikus megjelenítését teszi lehet vé ROC Curves: logisztikus regresszió vagy diszkriminancia-analízis eredményeit szemléltet ábra
Time Series: id soros adatok különböz korrelációs kapcsolatainak ábrázolását teszi lehet vé
Az Utilities menü - ebben a menüpontban néhány hasznos kiegészít szolgáltatást lehet találni
Variables: a megnyitott adatfájl változóiról kérhetünk le gyors információt File info: az adatfájlról és a változókról listát kérhetünk az Output ablakba Define Sets: nagyszámú változó esetén a vizsgálatot lesz kíthetjük az itt definiált változócsoportra
Use Sets: itt sz kíthet le a vizsgálat a változók egy adott részhalmazára Auto New Cases: ha be van kapcsolva, az utolsó eset mögé újabb esetek vihet k be Run Script: a megírt parancssor-együttes (script) futtatása Menu Editor: menüszerkeszt segédprogram A Help menü - általános és részletes információkat lehet lekérni az SPSS m ködésér l és használatáról, strukturált formában, keresési funkcióval ellátva.
157
STATISZTIKA jegyzet szociológus hallgatók számára
BIBLIOGRÁFIA Andersen, Erling B.; Jensen, Niels Erik; Kousgaard, Nils: Statistics for Economics, Business Administration and the Social Sciencies. Springer-Verlag, 1987. Anghelache, Constantin: Statistic general . Ed. Economic , Bucure ti, 1999. Anghelache, Constantin; Niculescu, Emanuela: Statistic . Indicatori, formule de calcul i sinteze. Editura Economic , Bucure ti, 2001. Babbie, Earl: A társadalomtudományi kutatás gyakorlata. Balassi Kiadó Bp., 1996. Buiga, Anu a: Metodologii de sondaj i analiza datelor în studiile de pia . Presa Universitar Clujean , Cluj-Napoca, 2001. Falus Iván; Ollé János: Statisztikai módszerek pedagógusok számára. Okker Kiadói Kft. Füstös László: Az exploratív faktorelemzés módszerei. MTA Szociológiai Kutató Intézet, Értékszociológiai- és Társadalomtudományi Elemzések M helye, Bp., 1988. Gupta, Vijay: SPSS for Beginners. VJBooks Inc.,1999. Hajdu Ottó: Többváltozós matematikai számítások. Statisztikai módszerek a társadalmi és gazdasági elemzésekben. Központi Statisztikai Hivatal, Bp., 2003. Howitt, Dennis; Cramer, Duncan: Introducere în SPSS pentru psihologie: Versiunile SPSS 10, 11, 12 i 13. Ia i, Editura Polirom, 2006. Hunyadi László; Mundruczó György; Vita László: Statisztika. Aula Kiadó, 2000. Huzsvai László: Biometriai módszerek az SPSS-ben. SPSS alkalmazások. Debreceni Egyetem, Mez gazdaságtudományi Kar, 2004. Ketskeméty László; Dr. Izsó Lajos: Az SPSS for Windows programrendszer alapjai. SPSS Partner Bt., 1996. Korpás Attiláné (szerk.): Általános statisztika I. Nemzeti Tankönyvkiadó, Bp., 1996. Korpás Attiláné (szerk.): Általános statisztika II. Nemzeti Tankönyvkiadó, Bp., 1997.
158
STATISZTIKA jegyzet szociológus hallgatók számára
Kövesi János; Erdei
János;
Tóth
Zsuzsanna Eszter;
Nagy Jen
Bence:
Gazdaságstatisztika. Budapesti M szaki és Gazdaságtudományi Egyetem, Üzleti Tudományok Intézet, Menedzsment és Vállalatgazdaságtan Tanszék, Bp., 2007. http://www.uti.bme.hu/data/segedanyag/12/gazdstat_jegyzet_1resz_063553.pdf
Luács Ottó: Matematikai statisztika, Bp, M szaki Könyvkiadó, 2002. Mezei Elemér; Veres Valér: Társadalomstatisztka. Egyetemi Kiadó, Kolozsvár, 2001. Moksony Ferenc: Gondolatok és adatok. Társadalomtudományi elméletek empirikus ellen rzése. Osiris Kiadó Bp., 1999. Molnár D. László: Statisztika. 2000. http://www.sociomed.hu/includes/stat_methodm2.pdf Pah, Iulian: Tehnici de analiz a datelor cu SPSS. Cluj-Napoca, Presa Universitar Clujean , 2004. Rotariu, Traian; B descu, Gabriel; Culic, Irina; Mezei Elemér; Mure an, Cornelia: Metode statistice aplicate în tiin ele sociale. Ia i, Editura Polirom, 1999. Sajtos László; Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv. Alinea Kiadó, Bp., 2007. Sandu, Dumitru: Statistica în tiin ele sociale. Universitatea din Bucure ti, 1992 Sincich, Terry: Business Statistics by Example. Dellen Publishing Company, Collier Macmillan Publishers, 1989. Spiegel, Murray R.: Statisztika. Elmélet és gyakorlat. Panem-McGraw-Hill, Bp., 1995. Székelyi Mária; Barna Ildikó: Túlél készlet az SPSS-hez. Typotex Kiadó 2002. Székelyi Mária; Örkény Antal: Statistical Methods in Social Research – Adv. II. ELTE-UNESCO Minority Studies Program, 1998. Vargha András: Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal. Pólya Kiadó, Bp., 2000.
159