Kutatásmódszertan és prezentációkészítés 8. rész: Statisztikai eszköztár: Alapfokú statisztikai ismeretek Szerző: Kmetty Zoltán Lektor: Fokasz Nikosz
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Nyolcadik rész Statisztikai eszköztár: Alapfokú statisztikai ismeretek
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Tartalomjegyzék • • • • • • • • • • • • • • • • • •
Bevezetés Következtetési statisztika Mintavételi hiba becslése binomiális változó esetében I Mintavételi hiba becslése binomiális változó esetében II Mintavételi hiba becslése binomiális változó esetében III Intervallum becslés átlagok esetében Mérési szintek I Mérési szintek II Hipotézisvizsgálat I Hipotézisvizsgálat II Hipotézisvizsgálat III Kereszttábla elemzés I Kereszttábla elemzés II Kereszttábla elemzés III Kereszttábla elemzés IV Kereszttábla elemzés V Statisztikai próbák Felhasznált irodalom
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Bevezetés • A társadalomtudomány és határterületei már a kezdetektől fogva komoly matematikai, statisztikai módszereket használtak fel elemzéseikben. Ez elsősorban a demográfiára volt igaz, de a 19 századtól elejétől - és még inkább a közepétől - a szociológiában is egyre hangsúlyosabbá váltak a komoly statisztikai eszköztárt felvonultató elemzések. A statisztikának két (egymástól nem élesen elkülönülő) ága is megjelenik a társadalomtudományokban. Az egyik a leíró statisztika, ezzel a 10 egységben foglalkozunk bővebben. Ebben az egységben a következtetési statisztikára koncentrálunk.
• A társadalomtudományokban ritkán van arra lehetőségünk, hogy egy adott kérdés kapcsán mindenkit megkérdezzünk. Ilyen ritka lehetőség a népszámlálás, ez azonban tíz évente csak egyszer van, és a vizsgált adatok köre is viszonylag szűk. A kutatási kérdések megválaszolására mintákat szoktak venni a sokaságból, és a kutatásba bekerültek véleménye alapján próbálnak becslést mondani a teljes sokaság véleményével kapcsolatban.
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Következtetési statisztika • A következtetési statisztika abban segít bennünket, hogy a minták eredményeiből a teljes sokaságra tudjunk valamilyen becslést megfogalmazni. Miért is van erre szükség? Ha mintákkal dolgozunk, akkor a becslésünknek, van valamekkora bizonytalansága. Ha az összefüggés statisztikailag is fennáll, akkor beszélhetünk szignifikáns összefüggésről. • Megkérdezünk 1000 embert a pártpreferenciájáról, és azt kapjuk, hogy X párt támogatottsága 30 százalék. Azonban, ha másik 1000 embert kérdeztünk volna meg, akkor az eredményünk feltehetően nem pont 30 százalék lenne, hanem esetleg 29 százalék, vagy 31 százalék. Ezt a pontatlanságot nevezzük mintavételi hibának. Célunk az, hogy megadjuk azt az intervallumot, amibe a becslésünk nagy valószínűséggel beleesik.
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Mintavételi hiba becslése binomiális változó esetében I • Az előbbi példában szerepelő esetben, ahol az adott változó két értéket vehet fel (ezeket binomiális eloszlású változóknak nevezzük) viszonylag egyszerű képlettel ki tudjuk számolni a becslésünk intervallumát:
• P: probability - az adott érték százalékos megoszlása • N: Esetszám • α: A megbízhatósági szinthez tartozó korrekciós tényező
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Mintavételi hiba becslése binomiális változó esetében II • Az egyenletből, a P (P=0.3), és az N (N=1000) már ismert, azonban az α-ról még nem beszéltünk. • A becsléseinkhez nem csak konfidencia intervallum tartozik, hanem egy megbízhatósági szint – azt is jeleznünk kell, hogy a becslésünk, milyen megbízhatóság mellett érvényes. A korrekciós tényezőt a standard normális eloszlásból lehet kiszámolni A szociológiában leggyakrabban 95 százalékos megbízhatósági szinttel dolgoznak a kutatók, ehhez az α értéke 1.96. (standard normális eloszlású változó esetében +1.96 érték felett található a sokaság felső 2.5 százaléka, -1.96 érték alatt pedig a sokaság alsó 2.5 százaléka)
• Tehát az egyenletünkből így már minden tag ismert, ki tudjuk számolni a konfidencia intervallumot – aminek az értéke jelen esetben 1.86%. Ez a gyakorlatban a következő következtetéshez vezet: •
X párt támogatottsága 95 százalékos megbízhatósági szint mellett 30%+-1.86%, tehát 28.14% és 31.86% között van.
• Ez praktikusan azt jelenti, hogy ha 100 mintát vennénk, abból 95 esetben, ebbe az intervallumba lenne az eredményünk. TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Mintavételi hiba becslése binomiális változó esetében III • A becslés pontosság mind a három benne lévő paramétertől függ. • A P értéke minél közelebb van 0.5-höz, a becslésünknek annál nagyobb a mintavételi hibája. 1000 fős minta esetén, ha P értéke 0.5, és a megbízhatósági szint 95%, akkor a becslési hibánk +-3.1%. Ezt nevezik maximális mintavételi hibának egy sokaságban. • A mintavételi hiba csökkentésének legjobb módja az esetszám növelése. Azonban, mivel az N gyök alatt szerepel a kifejezésben, ezért a csökkenés nem lineáris, hanem gyökös, tehát egy bizonyos szint után már nem érdemes tovább emelni a mintaméretet, mert a becslési hibánk, csak kis arányban fog csökkeni. • Az α értéke pedig a megbízhatósági szint növelésével emelkedik, tehát nagyobb lesz a becslésünk konfidencia intervalluma. Ez logikus is, ha belegondolunk abba, hogy ha 99 százalékos valószínűség mellett akarunk valamit kijelenteni, akkor szélesebb intervallumot kell megadni, hogy a becslésünk biztos a tartományon belül maradjon.
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Intervallum becslés átlagok esetében • A becslési hibát, nem csak kétértékű változók esetén lehet kiszámolni. Ebben az egységben, az átlagokra vonatkozó becslési hibát is bemutatjuk:
• Az S.H. a standard hiba rövidítése. A szigma pedig az elméleti szórásé (l. unit 10). Az N-t már ismerjük a korábbi részből, az esetszám rövidítése, ami ebben az esetben is gyök alatt szerepel. • Ahhoz, hogy egy átlag esetén kiszámoljuk, a becslés konfidencia intervallumát, a standard hibát korrigálni kell az α tényezővel, ebben az esetben is.
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Mérési szintek I • Felmerülhet az olvasóban, hogy mikor kell az egyes képletetek használni. Ahhoz, hogy ezt megértsük, röviden ki kell térnünk a változók mérési szintjére. Mérési szintekből négy fajtát különböztetünk meg. • • Nominális: A változó attribútumai között nem lehet sorrendiséget felállítani •
Nem, kedvenc szín, vallás, politikai preferencia
• Ordinális: A változó attribútumai között lehet sorrendet felállítani, de az attribútumok közötti távolság nem állandó, és matematikailag nem kiszámolható •
Iskolai végzettség, Likert skálás kérdések, településtípus
• Intervallum: A változó attribútumai között lehet sorrendet felállítani, és az attribútumok közötti távolság is állandó, de a változó valós nulla pontja, nem a matematika nulla pontban van. Utóbbiból következik, hogy nem lehet arányokat számolni az adott változóval. •
IQ, Celsius fok
• Arányskála: A változó attribútumai között lehet sorrendet felállítani, és az attribútumok közötti távolság is állandó, és a változónak létezik abszolút nulla pontja, lehet arányok számolni •
kor, jövedelem TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Mérési szintek II • Az első két szintet nevezik, alacsony, vagy kategoriális mérési szintnek, a második kettőt pedig magas vagy folytonos mérési szintnek. A változók mérési szintje megszabja, hogy milyen statisztikai műveleteke lehet velük végezni. • Egy alacsony mérési szintű változó esetén nincs értelme átlagot számolni, mivel annak semmilyen tartalmi jelentősége nincsen. Magas mérési szinten pedig általában nem érdemes százalékos megoszlásokat vizsgálni, mivel mindegyik kategóriába csak 1-2 eset van, ezért ennek sincs tartalmi haszna. • Az első képlet alacsony mérési szintű változók esetében használatos (annak egy speciális esete az, amikor két értéke van egy változónak). A második képlet, pedig magas mérési szintű változóknak esetében adja meg, a várható érték (ami az átlag torzítatlan becslése) konfidencia intervallum becslését.
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Hipotézisvizsgálat I • Az itt bemutatott formulák egy változó esetében adnak becslési a mintavételi hibára. Azonban a mintavételi hiba problémája, előkerül abban az esetben is, ha két változó közötti kapcsolatot szeretnénk megvizsgálni. Mielőtt ennek a módját bemutatnánk, röviden kitérünk a statisztikai hipotézisvizsgálat kérdéskörére. • Ahogy az eddigi tananyagból is kiderült, a mintákból adott becsléseink csak bizonyos megbízhatósági szint mellett érvényesek. Amikor kettő vagy több változó összefüggését szeretnénk elemezni, akkor azt vizsgáljuk, hogy a mintákban látható összefüggés, vajon kiterjeszthető-e a teljes sokaságra is. • Ehhez minden esetben meg kell fogalmaznunk egy nullhipotézist (H0), aminek a helyességéről dönteni szeretnénk a statisztikai vizsgálat során. Ezt a következő példával szemléltetjük. Egy bírósági tárgyaláson azt vizsgálják, hogy a vádlott bűnöse vagy sem. A nullhipotézisünk az lesz, hogy a vádlott ártatlan.
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Hipotézisvizsgálat II
A H0 hipotézis igaz: A H0 hipotézis igaz: a a vádlott ártatlan vádlott bűnös
Elfogadjuk a H0 hipotézist
Elvetjük a H0 hipotézsit
Jó döntés
Rossz döntés: másodfajú hiba
Rossz döntés: Elsőfajú hiba
Jó döntés
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Hipotézisvizsgálat III • Ha a vádlott nem bűnös, és mi is ezt a következtetést vonjuk le, akkor jól döntöttünk. Ugyanez igaz, ha a vádlott nem bűnös, és mi is ezt gondoljuk. Ha a vádlott nem bűnös, mi viszont elítéljük, akkor követjük el az elsőfajú hibát. Ebben az esetben egy ártatlan embert börtönzünk be. Ha a vádlott bűnös, mi viszont azt mondjuk, hogy nem bűnös, akkor a másodfajú hibát követjük el, egy bűnözőt elengedünk. Az adott kutatási problémától függ, hogy az első vagy a másodfajú hiba elkövetése a nagyobb probléma. • A H0 hipotézissel szemben fogalmazzák meg a H1 hipotézist, amit alternatív hipotézisnek is szoktak nevezni. A H0 és a H1 hipotéziseknek egymást kizáróknak kell lennie. A továbbiakban bemutatott statisztikai próbák azt vizsgálják, hogy igaz-e a H0 hipotézisünk. Ezt a következő módon tudjuk megtenni. • Az adott statisztikai próbához meghatározhatunk egy elfogadási tartományt. Ha a teszt statisztika értéke az elfogadási tartományba kerül, akkor nem tudjuk elvetni a nullhipotézisünket. Ha a teszt statisztika az elutasítási tartományba kerül, akkor el kell vetnünk a hullhipotézist, és ebből következően el kell fogadnunk az alternatív hipotézist. Az az értéket, ami az elfogadási és elutasítási tartományt elválasztja, kritikus értéknek nevezzük.
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Kereszttábla elemzés I • A változók közötti összefüggések vizsgálatakor több szempontot is kell mérlegelnünk ahhoz, hogy kiválasszuk a megfelelő statisztikai eljárást. Egyrészről meg kell vizsgálnunk a változók mérési szintjét, másrészről döntenünk kell arról is, hogy az adott statisztika alkalmazási feltételei közül melyik teljesül. Ebben az egységben azt az esetet vizsgáljuk, amikor két alacsony mérési szintű változó közötti kapcsolat meglétét teszteljük. • Ebben az esetben a kereszttábla elemzés módszerét kell használnunk, a változók közötti összefüggés meglétét, pedig Khi2 próbával tesztelhetjük.
• A nullhipotézisünk mindig a következő: • •
H0: A változók függetlenek egymástól H1: A változók összefüggenek egymással
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Kereszttábla elemzés II • Azt vizsgáljuk a példánkban, hogy a mikulás alkalmaz-e bármiféle diszkriminációt a virgácsok kiosztásánál. A következő kereszttábla esetszámokat tartalmaz. 100 főt vizsgáltunk (60 kisfiú, és 40 kislány), akiktől megkérdeztük, hogy kaptak-e virgácsot.
Kap virgácsot Nem kap virgácsot Összesen
Kisfiú 40 20 60
Kislány 20 20 40
Összesen 60 40 100
• Ezt a táblát nevezzük gyakorlati, vagy megfigyelt táblának. A függetlenség megvizsgálásához, ki kell számolnunk egy olyan kereszttáblát, amiben az esetek úgy oszlanak meg, mintha a két változó teljesen független lenne egymástól. Ezt nevezzük függetlenségi, vagy elméleti táblának. Az egyes cellákban lévő esetszámokat úgy tudjuk kiszámolni, hogy az adott cellához tartozó sorösszeget (sor marginális) megszorozzuk az oszlopösszeggel (oszlop marginális), és elosztjuk a teljes esetszámmal. Ez matematikailag a következő formulát követi:
• ahol i a sor index, j az oszlop index, Ei+ az i sorhoz tartozó oszlop marginális, az E+j, pedig a j oszlophoz tartozó sor marginális. TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Kereszttábla elemzés III • Az adatok alapján az elméleti táblánk a következőképp néz ki:
Kisfiú
Kislány
Összesen
Kap virgácsot
36
24
60
Nem kap virgácsot
24
16
40
Összesen
60
40
100
• Ahogy leolvasható, az oszlop- és sor marginálisok állandóak, viszont a cellák értékei megváltoztak. Ha a két változó független lenne egymástól (tehát, ha nem diszkriminálna a mikulás), akkor ezek az értékek lennének a kereszttáblában. Látható, hogy a két tábla esetszámai nem egyeznek meg egymással, a kutatót viszont az érdekli, hogy a függetlenség a teljes sokságra igaz-e vagy sem.
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Kereszttábla elemzés IV • A függetlenség megvizsgálásához kereszttábla esetében a Khi2 próbát tudjuk alkalmazni:
• •
Oij: Megfigyelt táblában a cella értékek Eij: Elméleti táblában a cella értékek
• A példánkban a következő az eredmény: •
Khi2=16/36+16/24+16/24+16/16=2.77
• • Tehát a teszt statisztika értéke 2.77. Azt kell eldöntetnünk, hogy ez az érték az elfogadási, vagy az elutasítási tartományba esik. Ehhez meg kell határozunk még a khi2 statisztika szabadságfokát, ami az adott statisztikai modellen belül a variációs lehetőségeket mutatja be. A kereszttábla elemzésnél ez arra utal, hogy ha ismertek a marginálisok, hány cellát kell ahhoz kitöltenünk, hogy utána a többi cellát már automatikusan meg tudjuk határozni. TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Kereszttábla elemzés V • Szabadsági fok kiszámolása kereszttábla elemzésnél: • sz.f. (degrees of freedom d.f.): (r-1)*(c-1), •
ahol r a sorok száma, c pedig az oszlopok száma
• A mi példánkban a szabadságfok 1 lesz. A khi2 eloszlás tábláját használva (http://en.wikipedia.org/wiki/Chi-squared_distribution) megállapíthatjuk, hogy 1-es szabadságfok, és 95 százalékos megbízhatóság mellett (0.05 szignifikancia szint mellett), a kritikus érték 3.84. • Mivel a teszt statisztika értéke 3.84 alatt van, ezért az elfogadási tartományba esik, tehát nem tudjuk elvetni azt a nullhipotézist, hogy a változók függetlenek egymástól, tehát a 100 fős kutatásunk alapján nem jelenthetjük ki, hogy diszkriminál a télapó. • Gyakorlásként érdemes megvizsgálni, hogyan alakult volna az összefüggés, ha 1000 főt kérdeztünk volna meg, és a válaszok megoszlása ugyanaz lett volna, mint a példánkban.
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Statisztikai próbák • A következő táblázat összefoglal néhány alapvető statisztikai próbát:
Modell
Módszer
Két alacsony mérési szintű változó függetlensége
Khi-négyzet T próba, illetve a T próba robusztusabb változatai
Átlagos összehasonlítása két csoportban Legalább három alacsony mérési szintű változó Átlagok összehasonlítása több csoportban
Loglineáris modellek Variancia analízis (ANOVA)
Két magas mérési szintű változó függetlensége Egy magas mérési szintű függő változó modellezése több magas mérési szintű függő változóval
Korreláció Lineráis regresszió
Egy binomiális (kétértékű) függő változó modellezése több magas mérési szintű függő változóval
Logisztikus regresszió
Egy alacsony mérési szintű függő változó modellezése több vegyes mérési szintű változóval
Általános lineáris modellek
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”
Felhasznált irodalom: • Obádovics Gyula: Matematika, Scolar, 2012 • Obádovics Gyula: Valószínűségszámítás és matematikai statisztika, Budapest Scolar, 2009 • Hunyadi László – Vita László: Statisztika Közgazdászoknak, KSH 2006, ISBN:963215-742-7
TÁMOP-4.1.2.A/1-11/1-2011-0091 „INFORMÁCIÓ - TUDÁS – ÉRVÉNYESÜLÉS”