II. A következtetési statisztika alapfogalmai
Tartalom
Statisztikai következtetések A véletlen minta fogalma Pontbecslés és hibája Intervallumbecslés A hipotézisvizsgálat alapfogalmai A legegyszerűbb statisztikai próbák Normalitásvizsgálat
Kockázás 10-szer dobunk 3 kockával. Partnerem 10-ből 8-szor csupa 6-ost dob.
Milyen következtetést vonsz le ennek alapján?
Néhány szakmai kérdés Jobb-e a lányok verbális intelligenciája, mint a fiúké? Ha igen, mennyivel? Hatásos-e egy bizonyos kezelés az anorexia gyógyításában? Ha igen, milyen mértékben? Van-e kapcsolat a szülők jövedelme és a pszichológia szakra vonatkozó felvételi pontszám között? Ha igen, milyen szoros?
Kiknek jobb a verbális memóriája, a fiúknak, vagy a lányoknak?
A statisztikai következtetések Mindig a populációkra vonatkoznak, a belőlük kiválasztott véletlen minták alapján. Emiatt a hibázás lehetőségét sose lehet kizárni. De: jó módszerekkel a hiba nagyságát (esélyét) kontroll alatt tarthatjuk.
Mikor lesznek jók (érvényesek, megbízhatók) a statisztikai következtetések? Ha a minták jól képviselik populációjukat (reprezentativitás). Ha a következtetési technikák becslési eljárások, statisztikai próbák jók (helyes módszerválasztás).
Mivel lehet a minta reprezentativitását biztosítani? Ha a kiválasztás véletlenszerű Ezzel kizárjuk a szubjektivitást.
Ha a minta elég nagy Ezzel lehetővé tesszük, hogy a populáció sokszínűsége a mintában is megjelenjen.
Hogyan lehet valódi véletlen mintát venni a populációból? Némi véletlenszerűséget könnyű alkalmazni, de a szubjektivitást nehéz kizárni. Az önmagában nem elég, hogy a minta nagy: USA elnökválasztás, 1936: Roosevelt versus Landon. A Literary Digest folyóirat 2,4 millió kérdőív feldolgozása alapján Landon nagyarányú győzelmét jósolta. Ezzel szemben Roosevelt 62%-ot kapott és nyert. A Gallup kisebb, de jó minta alapján helyes becslést adott.
Néhány jó tanács a megfelelő minta kiválasztásához Minden olyan réteg arányosan képviselve legyen, amelyik a populációhoz tartozik. Hólabda módszer (ismerős ismerősének az ismerőse). A kényelmi és hozzáférhetőségi alapon összeállított minták (pl. egyetemisták) esetlegesek. Az ideálistól eltérő mintaválasztást hibafaktorként számítsuk be a döntés bizonytalanságába. Ha összeállt a minta, töprengjünk el azon, hogy az milyen populációt képvisel. (Pl. a jelen évfolyam?)
A valószínűségi döntés véletlen jellege
Az egyik urnából véletlenszerűen kiveszek egy golyót. Látjuk, hogy piros. Melyik urnából vettem ki?
A valószínűségi döntés véletlen jellege Bárhogyan is döntök, nem lehetek teljesen biztos abban, hogy a döntésem helyes, vagyis hogy nem követek el hibát. Ha piros golyót húzva a bal oldali urnát valószínűsítem, 2/3 az esélye, hogy igazam van, de 1/3 az esélye, hogy tévedek. Sárga húzás esetén?
Példa: a depresszió két kezelési típusának összehasonlítása Melyik a jobb kezelés? 1. Placebo (napi 3x1, 3 hónapig) 2. Pszichoterápia (heti 3x1 óra, 3 hónapig)
Gyógyulók %-a 1.
2.
3.
4.
5.
Placebo
0
30
30
30
10
Pszichoterápia
90
60
80
90
70
Következtetés Melyik esetben jelenthetjük ki legalább 95%-os megbízhatósággal, hogy a pszichoterápia hatásosabb a placebónál? Gyógyulók %-a 1.
2.
3.
4.
5.
Placebo
0
30
30
30
10
Pszichoterápia
90
60
80
90
70
A STATISZTIKA RENDSZERE
STATISZTIKA LEÍRÓ STATISZTIKA
KÖVETKEZTETÉSI STATISZTIKA
BECSLÉS PONTBECSLÉS
HIPOTÉZISVIZSGÁLAT
INTERVALLUMBECSLÉS
Következtetési statisztika két fő típusa Becslés (Mekkora? Milyen nagy?) Pontbecslés (kb. 10,6 1,3) Intervallumbecslés (95%-os megbízhatósággal 7,8 és 12,5 között)
Hipotézisvizsgálat (Igaz-e, hogy …?)
Statisztikai hipotézisvizsgálat Van-e különbség az emlékezeti teljesítményátlag tekintetében a magyar pszichológus hallgató fiúk és lányok között? Nullhipotézis (H0): nincs különbség Ellenhipotézis (HA): van különbség a) A fiúk jobbak b) A lányok jobbak
Statisztikai becslés Mi a teljesítményátlaga a 10 szavas memóriajátékban az összes magyar pszichológus hallgatónak? Kb. mekkora egy egészséges felnőtt nő szisztolés vérnyomása? Átlagosan hány próbálkozással tanul meg egy ivarérett patkány egy adott útvesztőt?
Mit szoktak becsülni?
Populációátlag (elméleti átlag: μ, E(X)) Populációmedián (elméleti medián: Med(X)) Populációszórás (elméleti szórás: , D(X)) Elméleti variancia (2, Var(X)) Két elméleti átlag különbsége (μ1 – μ2) Általában a populációk különféle kvantitatív jellemzőit szokták becsülni
Az elméleti átlag pontbecslése konkrét példával illusztrálva Változó: félév végi statisztika vizsgajegy Populáció: I. éves pszichológus hallgatók Egy lehetséges véletlen minta (rendezve): {2, 3, 3, 4, 4, 5, 5, 5, 5, 5} Néhány szóba jöhető pontbecslés az elméleti átlagra:
Módusz: Mo = 5 Medián: M = 4,5 Terjedelemközép: TK = (Min + Max)/2 = 3,5 Átlag: x = 41/10 = 4,1
Pontbecslés a μ elméleti átlagra Következtetés: mintából a populációra. Mi van olyan a mintában, aminek köze van (lehet) a populációátlaghoz? Becslés jelölése: a kalap (^) szimbólummal. Az elméleti átlag egy pontbecslése a mintaátlag: μ=x
A pontbecslésről Amit becsülünk (pl. μ, stb.), az egy konkrét szám. Amivel becsülünk (mintaátlag, TK stb.), egy véletlen minta statisztikai mutatója, véletlen változó, melynek értéke a minta kiválasztása után lesz csak ismert.
10 véletlen minta átlaga: μ = ? 14 13 12 11 10 9 8 7 6 0
1
2
3
4
5
6
7
véletlen minták
8
9
10
Hogyan mérhető a pontbecslés jósága (pontatlansága)? Standard hiba (SH): körülbelül ennyit tévedünk μ ≈ x SH Példa: ROPstat, részletesebb statisztikák
μ = 100, = 15, normális eloszlás
Demonstráció Excel segítségével vegyünk több véletlen mintát az előző eloszlásból! (Lásd „IQ_9.xls” Excel fájl) Számítsuk ki az átlagukat (pontbecslés)! Nézzük meg, hogy mennyire pontosak!
GYAK
A pontbecslés standard hibája: SH Hibavariancia = átlagos négyzetes eltérés a valódi értéktől Standard hiba (SH) = Hibavariancia négyzetgyöke Egyfajta átlagos eltérés
Mit várunk el egy jó pontbecsléstől? Ne torzítson szisztematikusan se pozitív, se negatív irányban (torzítatlanság) SH-ja legyen kisebb, mint a többi becslésé (hatékonyság) SH-ja az elemszám növelésével csökkenjen és tartson 0-hoz (konzisztencia)
A mintaátlag standard hibájának meghatározása Elméleti SH = / n Mintabeli SH = s/ n Mi itt a „” és mi az „s”? Ha X = IQ, n = 25, SH = ? Mekkora elemszámnál lesz SH 1-nél kisebb?
GYAK
Miért jó becslése a mintaátlag a populációátlagnak? A véletlen minta átlaga a populációátlag körül ingadozik (torzítatlanság) A mintaátlag SH-ja az elemszám növelésével csökken (konzisztencia) A mintaátlag SH-ja sok esetben (pl. normális eloszlású változók esetén) kisebb, mint más pontbecsléseké (mediáné, TK-é stb.)
ROPstat illusztráció Minta 500 véletlenszerűen kiválasztott gyerek (antr500.msw) Változók: testsúly és testmagasság (testhossz) születéskor és 10 éves korban Statisztikai elemzés: ROPstatban részletesebb statisztikák
GYAK
Intervallumbecslés Definíció: Olyan intervallum (szakasz, övezet), mely nagy megbízhatósággal tartalmazza a becsülni kívánt értéket.
Intervallumbecslés az elméleti átlagra • Vegyünk alkalmas övezetet a mintaátlag körül! • Milyen övezet lesz jó? • Ha nagyon szűk, könnyen kívül maradhat. • Ha nagyon tág (pl. 0-1000): semmitmondó állítás. X-skála x
Szokásos kritérium Olyan övezetet vegyünk a mintaátlag körül, amelyik nagy (90 vagy 95%-os) eséllyel tartalmazza az elméleti átlagot (azaz -t). Ennek az övezetnek (intervallumnak) a neve: 90, illetve 95%-os konfidencia-intervallum. Jelölés: C0,90, illetve C0,95.
A konfidencia-intervallum meghatározása 95%-os konfidencia-intervallum nagy minták esetén: 2SH
2SH
x C0,95
x 2SH
X-skála
Egy következmény Minél nagyobb az elemszám, annál keskenyebb lesz rögzített (pl. 90 vagy 95%-os) megbízhatósági szinten a konfidencia-intervallum, vagyis annál jobb lesz az intervallumbecslés.
SH = / n
Egy példa Tegyük fel, hogy a MAWI-IQ az egyetemi hallgatók populációjában közel normális eloszlású, szórása 15, de a populációátlagot nem ismerjük. • Egy véletlen 25 fős mintában az átlag 110. • Mekkora lehet a populációátlag? C0,95 110± ·SE 110 ± 2·n ± ·
GYAK
Konklúziók C0,95
95%-os megbízhatósággal állíthatjuk, hogy az elméleti átlag valahol 104 és 116 között van. Következmény: - Az elméleti átlag legalább 95%-os megbízhatósággal 104-nél nem kisebb. - Az elméleti átlag legalább 95%-os megbízhatósággal 116-nál nem nagyobb.
Statisztikai hipotézisvizsgálat
Igen-nem segítségével megválaszolható kérdések 1. Pszichológus egyetemi hallgatók IQ-ja nagyobb-e az átlagosnál? 2. Van-e különbség férfiak és nők verbális intelligenciaszintje között? 3. Van-e kapcsolat az emberek érzelmi intelligenciája és kreativitása között?
A hipotézisvizsgálat fő fogalmai az előző dia 1. kérdésével szemléltetve 1. Szakmai feltételezés: az egyetemi hallgatók IQja nagyobb az átlagosnál. 2. Szakmai hipotézis formulával: E(IQ) > 100. 3. Statisztikai nullhipotézis: E(IQ) = 100. 4. Indirekt gondolatmenet: a szakmai hipotézis igazolása a nullhipotézis elutasításával történik.
10 véletlenszerűen kiválasztott egyetemi hallgató IQ-ja 117, 137, 152, 149, 110, 135, 108, 120, 127, 127 E(IQ) = 100 esetén mi a valószínűsége, hogy 10 véletlenszerűen kiválasztott hallgató mindegyikének 100-nál nagyobb lesz az IQ-ja? p = 1/210 = 1/1024 ≈ 0,001
Vagyis: Ha igaz az a nullhipotézis, hogy az egyetemi hallgatók átlagos IQ-júak, akkor igen kicsi (p < 0,001) annak a valószínűsége, hogy ilyen nagy (csupa 100-nál nagyobb) adatokat kapjunk 10 megfigyelésből.
A statisztikai hipotézisvizsgálat alapgondolata Ha a minta, illetve a mintából kiszámított valamely mutató értéke a nullhipotézis (H0) fennállása esetén igen kis valószínűségű, akkor a nullhipotézist elutasítjuk.
A statisztikai próba p-értéke Mi a valószínűsége, hogy a nullhipotézis (H0) fennállása esetén ilyen, vagy ennél szélsőségesebb legyen a minta, illetve a mintából kiszámított valamely mutató értéke?
A szélsőségesség kétirányú 100-nál nagyobb IQ
100-nál kisebb IQ
Egyoldalú p
Kétoldalú Ellentmond H0-nak? p
10
0
0,001
0,002
IGEN
9
1
0,011
0,022
IGEN
8
2
0,055
0,110
NEM
7
3
0,172
0,344
NEM
Mi is itt a nullhipotézis?
A próba neve: előjelpróba Nullhipotézis: H0: E(IQ) = 100 Az IQ elméleti átlaga 100-zal egyenlő
Ekvivalens nullhipotézis normális eloszlású változók esetén: H0: P(IQ < 100) = P(IQ > 100) A populációban ugyanolyan gyakran fordul elő 100-nál kisebb, mint 100-nál nagyobb IQ-érték Ez az előjelpróba szokásos alakú nullhipotézise Döntés az elemszám alapján statisztika táblázat segítségével (lásd tankönyv)
A statisztikai döntés logikája • Miért érezzük úgy, hogy 10-0 vagy 0-10 esetén elutasítható a nullhipotézis (H0)? • Miért érezzük 10 egymás utáni fej dobás után azt, hogy a pénzérme szabályosságát állító H0 elutasítható? • Ha ilyen esetben H0-t elvetjük, mi az esélye annak, hogy hibásan döntünk? • Ha elméletileg lehetséges ilyen sorozat, akkor miért lepődünk meg, ha bekövetkezik?
Eddig mit néztünk a mintában? Azt, hogy hány 100-nál nagyobb és hány 100-nál kisebb IQ-érték van. Van más mutató is, ami mond valamit a nullhipotézis (H0) valószínűségéről?
Egy másik lehetséges mutató: t-statisztika
min taátlag 100 t SHtap (100: a feltételezett elméleti átlag)
Próbastatisztika A t-statisztikát és a statisztikai hipotézisvizsgálatokhoz használt hasonló – mintából kiszámított – mutatókat próbastatisztikáknak nevezzük.
Ha H0: μ = 100 igaz, akkor t eloszlása n = 10 esetén t
-2,26
0
2,26
Hogyan döntsünk különböző t-értékekre n = 10 esetén? t
t = 0,41
t = -2,50
-2,26
0
t = 4,60
2,26
Széli p-értékek kétirányú döntésnél t-érték
t-értékhez tartozó széli p-érték (2 old.)
Ellentmond H0-nak?
-2,50
0,034
IGEN
-2,26
0,050
IGEN
0,41
0,691
NEM
2,26
0,050
IGEN
4,60
0,001
IGEN***
Döntés H0-ról n = 10 esetén t t = -2,50
Kritikus tartomány
t = 4,60
t = 0,41
-2,26
Megtartási tartomány
2,26
Kritikus tartomány
A H0-ról szóló döntés logikája Hova esik a t-érték? Megtartási tartomány Kritikus tartomány
Széli p
A t-érték megítélése
Nem kicsi Nem mond ellent eléggé H0-nak (> 0,05) Kicsi (≤ 0,05)
Nagyon ellentmond H0-nak
Széli p = H0 jogtalan elutasításának (I. fajta hiba) valószínűsége
Az előjelpróba és az egymintás t-próba nullhipotézise ‘A’: az X változó hipotetikus nagyságszintje Előjelpróba: H0: P(X < A) = P(X > A) Az X változó esetében ugyanolyan gyakran fordul elő A-nál kisebb, mint A-nál nagyobb érték
Egymintás t-próba: H0: E(X) = A Az X változó elméleti átlaga A-val egyenlő
Az előjelpróba és az egymintás t-próba alkalmazási feltételei Előjelpróba: nincs, de kis minták esetén a próba kevéssé hatékony Egymintás t-próba: X változó normalitása Mennyire fontos ez? Ha a minta nagyon kicsi (n < 20): fontos Ha a minta elég nagy (n > 50): nem igazán fontos
Az egymintás t-próba robusztus változatai Mit tegyünk, ha erősen sérül az X változó normalitási feltétele? Léteznek olyan próbák, amelyek a normalitás megsértésére kevésbé érzékenyek: robusztus alternatívák Lásd ROPstat, illetve tankönyv
Szokásos statisztikai szóhasználat p < 0,05 (szignifikancia) • H0-t 5%-os szignifikanciaszinten elutasítjuk • a próba 5%-os szinten szignifikáns p < 0,01 (erős szignifikancia) • H0-t 1%-os szignifikanciaszinten elutasítjuk • a próba 1%-os szinten szignifikáns p < 0,10 (tendencia) • H0-t 5%-os szinten nem utasíthatjuk el • a próba 5%-os szinten nem szignifikáns • csak egy tendencia van arra, hogy H0 nem igaz
Normalitásvizsgálat (n = 500) Változó
Ferdeség
Csúcsosság
Átlag
St.hiba
3,21
0,0223
-0,331**
0,858***
50,15
0,113
-0,352**
1,097***
Szülsúly Szülhosz Súly10 33,23 0,305 1,221*** 1,992*** Jelölés: *: p < 0,05 **: p < 0,01 ***: p < 0,001 Tmag10 138,7 0,288 0,198 0,278GYAK