K¨oz´ep´ert´ek ´es variancia azonoss´ag´anak pr´ob´ai: t-pr´oba, F -pr´oba
2012. m´arcius 21.
Hipot´ezis ´all´ıt´asa
0.5
Különbözö populációhoz tartozó átlagok
0.5
Azonos populációhoz tartozó átlagok
M2
0.4
0.4
M
M1
0.3
x2
0.3
x2
x1
0.0
0.1
0.2
x1 0.2
I
0.1
I
Felt´etelez´es: a minta egy adott szempont alapj´an m´as popul´aci´ohoz tartozik, mint b minta. Nullhipot´ezis (H0 ): a minta ´es b minta egyazon popul´aci´ohoz tartozik, azaz az ´atlaguk ugyanazon µ popul´aci´o´atlag k¨or¨ ul sz´or. Ellenhipot´ezis (H1 ): p val´ osz´ın˝ us´eggel ´all´ıthat´o, hogy b minta ´atlaga nem ugyanahhoz a popul´aci´ ohoz tartozik, mint az a minta.
0.0
I
−2
0
2
M=2, x1=3, x2=1,5
4
6
−2
0
2
4
M1=4, M2=1, x1=3, x2=1,5
6
Hipot´ezis tesztel´ese p = 95%-os megb´ızhat´os´aggal 1. H1 : a nagy val´osz´ın˝ us´eggel elt´ er b-t˝ ol. H0 : a ´es b ugyanazon popul´aci´ o r´esze. Elutas´ıt´as: ha x¯ a s˝ ur˝ us´egf¨ uggv´eny k´et sz´el´en α/2-be esik ⇒ k´etoldali teszt (fels˝o ´abra).
Hipot´ezis tesztel´ese p = 95%-os megb´ızhat´os´aggal 1. H1 : a nagy val´osz´ın˝ us´eggel elt´ er b-t˝ ol. H0 : a ´es b ugyanazon popul´aci´ o r´esze. Elutas´ıt´as: ha x¯ a s˝ ur˝ us´egf¨ uggv´eny k´et sz´el´en α/2-be esik ⇒ k´etoldali teszt (fels˝o ´abra). 2. H1 : a nagy val´osz´ın˝ us´eggel nagyobb, mint b. H0 : b nem kisebb, mint a. Elutas´ıt´as: ha x¯ a s˝ ur˝ us´egf¨ uggv´eny jobb sz´el´en α-ba esik ⇒ egyoldali teszt (als´ o ´abra).
Hibat´ıpusok 1. α-hiba (els˝ o fajta, els˝ ofaj´ u hiba): elutas´ıtjuk H0 -t, mert az ´ert´ek megadott konfidencia-intervallumon k´ıv¨ ul esik → α r´esze (piros tartom´any). 2. β-hiba (m´ asodik fajta, m´ asodfaj´ u hiba): megtartjuk H0 -t, holott az ´ert´ek m´as popul´aci´ ohoz tartozik (s´arga tartom´any).
Hibat´ıpusok 1. α-hiba (els˝ o fajta, els˝ ofaj´ u hiba): elutas´ıtjuk H0 -t, mert az ´ert´ek megadott konfidencia-intervallumon k´ıv¨ ul esik → α r´esze (piros tartom´any). 2. β-hiba (m´ asodik fajta, m´ asodfaj´ u hiba): megtartjuk H0 -t, holott az ´ert´ek m´as popul´aci´ ohoz tartozik (s´arga tartom´any).
H0 igaz H1 igaz
H0 -t megtartjuk
H0 -t elvetj¨ uk
helyes d¨ ont´es β-hiba (´alnegat´ıv)
α-hiba (´alpozit´ıv) helyes d¨ ont´es
¨ Osszehasonl´ ıt´as alapjai I
´ Atlagok,
I
sz´or´asok,
I
minta popul´aci´oval ↔ minta mint´aval,
I
azonos varianci´ak ↔ elt´er˝ o varianci´ak,
I
f¨ uggetlen ↔ p´aros´ıtott mint´ak,
I
parametrikus ↔ ordin´alis vagy nem norm´alis eloszl´as´ u mint´ak.
Ha popul´aci´o σ sz´or´asa ismert: ´atlagok z-eloszl´as szerint sz´ornak µ k¨or¨ ul. Gyakorlatban: popul´aci´ o sz´ or´asa nem ismert, ez´ert a minta´atlag sz´or´as´at a Student-f´ele t eloszl´assal jellemezz¨ uk. t=
x¯−µ √0 s/ n
Mint z meghat´aroz´asa, de σ helyett s.
t-eloszl´as Jellemz˝ok: I szimmetrikus, ´ atlaga 0, aszimptotikus, de nem norm´alis eloszl´as´ u. I k¨ ozvetve f¨ ugg a minta m´eret´et˝ ol, n-t˝ ol. I t-eloszl´ as laposabb, mint z ⇒ adott szignifikanciaszint hat´ar´ert´ekei messzebb esnek az ´atlagt´ ol. I n = ∞ eset´ en t eloszl´as azonos z eloszl´assal. I n ≥ 100 eset´ en k¨ ul¨ onbs´eg elhanyagolhat´ o, z-´ert´ekeket lehet haszn´alni.
Szabads´agi fokok
Szabads´agi fok, degree of freedom, df : a szabadon v´altoztathat´o elemek sz´ama, ami mellett a minta egy adott tulajdons´aga v´altozatlan marad. df = n − 1. Pl. egy n = 5 elem˝ u minta ´atlaga x¯ = 10. H´any elem v´altoztathat´o szabadon a minta´atlag v´altozatlans´aga mellett? N´egy, hiszen az ¨ot¨odik elemet u ´gy kell kiv´alasztani, hogy a minta ´atlaga 10 maradjon, teh´at csak n´egy elem v´altoztathat´o szabadon.
t-eloszl´as ´es szabads´agi fokok
0.4
t-eloszl´as laposs´aga f¨ ugg a szabads´agi fokokt´ ol. Min´el nagyobb a szabads´agi fok, ann´al k¨ ozelebb esik a kritikus ´ert´ek (= szignifikancia-hat´ar, konfidencia-intervallum sz´els˝ o ´ert´eke) az ´atlaghoz. df
0.2 0.1 0.0
dt(x, 1)
0.3
100 30 10 5 2 1
0
20
40 Index
60
80
Egymint´as Student-f´ele t-pr´oba
I
Felt´etel: norm´alis eloszl´as´ u v´altoz´ o, ismeretlen sz´or´assal.
I
Alkalmaz´as: popul´aci´ o vagy nagysz´am´ u referenciaminta ´atlaga ismert, pl. IQ = 100.
I
Elj´ar´as: ha tminta > t1−α(n−1) ⇒ H0 elvet´ese.
´ A Kincskeres˝o ´ovod´aba 60 okos ´es u ¨gyes gyerek j´ar. Atlagos IQ-juk 108, a sz´or´as 10. Okosabbak-e az oda j´ar´ o gyerekek az ´atlagn´al?
Feladat
´atlag: 108, popul´aci´o ´atlaga: 100, sz´ or´as: 10, elemek sz´ama 60. t=
x¯−µ √0 s/ n
=
108−100 √ 10/ 60
=
8 1,29
= 6, 2
Kritikus ´ert´ekhez tartoz´ o t meghat´aroz´asa (p = 1 − α = 0, 95): adott kvantilishoz (0,95) tartoz´ o t-´ert´ek 59-es szabads´agfok mellett: qt(p,df), itt: qt(0.95,59) → 1,67
Feladat
´atlag: 108, popul´aci´o ´atlaga: 100, sz´ or´as: 10, elemek sz´ama 60. t=
x¯−µ √0 s/ n
=
108−100 √ 10/ 60
=
8 1,29
= 6, 2
Kritikus ´ert´ekhez tartoz´ o t meghat´aroz´asa (p = 1 − α = 0, 95): adott kvantilishoz (0,95) tartoz´ o t-´ert´ek 59-es szabads´agfok mellett: qt(p,df), itt: qt(0.95,59) → 1,67 Mivel tminta > t0.95(59) >⇒ H0 -t elutas´ıtjuk. A Kincskeres˝o ´ovod´aba teh´at az ´atlagn´al szignifik´ansan intelligensebb gyerekek j´arnak.
K´etmint´as f¨uggetlen t-pr´oba
I
K´et minta alapj´an k´et ismeretlen µ ´ert´eket hasonl´ıtunk ¨ossze.
I
Mint´ak kiv´alaszt´asa egym´ast´ ol f¨ uggetlen (pl. spanyol ´ovod´asok ´es cseh ´ ovod´asok).
I
Felt´etel: norm´alis eloszl´as, azonos varianci´ak t=
x2 rx¯1 −¯ 2 s2 + ns n 1
2
ahol s 2 a k¨oz¨os variancia becsl´ese a mint´ank´enti sz´or´asokb´ol. DE: sz´or´as egyenl˝os´eg´et ritk´an ´all´ıthatjuk biztosan!
Welch-pr´oba Mint k´etmint´as f¨ uggetlen t-pr´ oba, de nem felt´etelezz¨ uk a varianci´ak egyenl˝os´eg´et. t=
x2 rx¯1 −¯
s2 s2 1+ 2 n1 n2
Elt´er-e az al´abbi mint´aban a n˝ ost´eny ´es h´ım borjak sz¨ ulet´eskor m´ert testt¨omege? bika (kg) u ¨sz˝o (kg)
46 27
37 37
39 35
37 41
33 35
48 34
35 43
bika = c(46,37,39,37,33,48,35) uszo = c(27,37,35,41,35,34,43,38,40)
38
40
Feladat
Norm´alis eloszl´as´ uak-e a mint´ak? shapiro.test(bika), shapiro.test(uszo) Ha p az adott szignifikanciaszintn´el nagyobb, elfogadjuk a norm´alis eloszl´as felt´etelez´es´et. K´et minta ¨osszehasonl´ıt´asa t-pr´ ob´aval: t.test(bika,uszo) alapbe´all´ıt´as: k´etoldali (alternative=two.sided), varianci´ak nem egyenl˝oek (var.equal=FALSE).
Feladat
Norm´alis eloszl´as´ uak-e a mint´ak? shapiro.test(bika), shapiro.test(uszo) Ha p az adott szignifikanciaszintn´el nagyobb, elfogadjuk a norm´alis eloszl´as felt´etelez´es´et. K´et minta ¨osszehasonl´ıt´asa t-pr´ ob´aval: t.test(bika,uszo) alapbe´all´ıt´as: k´etoldali (alternative=two.sided), varianci´ak nem egyenl˝oek (var.equal=FALSE). Mivel p nagyobb, mint 0,05, a k¨ ul¨ onbs´eg nem szignifik´ans.
K´etmint´as p´aros t-pr´oba
Minta egyazon elem vagy ¨ osszetartoz´ o elemek k´etszeri megfigyel´es´eb˝ol ´all. Felt´etel: egy elem k´et ´ert´ek´enek k¨ ul¨ onbs´ege norm´alis eloszl´as´ u, n ≥ 30 eset´en norm´alis eloszl´as n´elk¨ ul is haszn´alhat´o. t=
d¯√ sd / n
ahol d¯ a k¨ ul¨onbs´egek ´atlaga, sd a k¨ ul¨ onbs´egek becs¨ ult sz´or´asa, n a p´arok sz´ama.
Feladat ratings adatm´atrix a languageR k¨ onyvt´arb´ ol. N¨ov´enyek ´es ´allatok m´eret´ere ´es s´ uly´ara adott ´atlagos becsl´esek: meanSizeRating, meanWeightRating. Norm´alis eloszl´as tesztel´ese: shapiro.test(ratings$meanSizeRating), shapiro.test(ratings$meanWeightRating) p´aros t-pr´oba : t.test(ratings$meanSizeRating,ratings$meanWeightRating, paired=T) p 0, 001, teh´at a megk´erdezettek az ´allatok ´es n¨ov´enyek m´eret´et szignifik´ansan nagyobbra becslik egy adott sk´al´an, mint a s´ ulyukat.
Varianci´ara vonatkoz´o pr´ob´ak
(Legal´abb) k´et minta eset´en: I
F -pr´ oba: mindk´et mint´aban norm´alis eloszl´as, f¨ uggetlen mint´ak. R: var.test().
I
Levene-pr´ oba: k¨ ozel´ıt˝ o pr´ oba, de norm´alis eloszl´as hi´any´aban is haszn´alhat´o, t¨obb mint´ara is. R: levene.test a car k¨onyvt´arban.
I
Bartlett-pr´ oba: norm´alis eloszl´as, p´aros mint´akra is haszn´alhat´o. R: bartlett.test().
Feladat T¨olts¨ uk le a trans.RData f´ajlt innen: clara.nytud.hu/∼mady/kurzusok/stat-r/2012tavasz/trans.RData Let¨olt´es load("konyvtar/trans.RData") parancccsal (NEM read.table()). A f´ajl R-form´atum´ u, objektum ment´ese ´ıgy t¨ ort´ent: save(trans,file="celkonyvtar/filenev.RData") A m´atrixban eredetileg angol, ill. portug´al, kb. 1500 szavas sz¨ovegek hossza van megadva, majd a m´asik nyelre val´o leford´ıt´as ut´ani hosszuk. Ellen˝orizz¨ uk, azonos-e az angol ´es portug´al sz¨ ovegek varianci´aja ´es ´atlaga. var.test(fuggovaltozo∼fuggetlenvaltozo), azaz var.test(trans$length∼trans$language) t.test(fuggovaltozo∼fuggetlenvaltozo), azaz t.test(trans$length∼trans$language)
H´azi feladatok megold´asa 1 Pontdiagramm k´esz´ıt´ese az ´allatokra ´es a n¨ ov´enyekre elt´er˝o sz´ınnel. A tengelyhosszok legyenek azonosak. logikai vektor: csak n¨ov´enyek: z = ratings$Class == "plant" N¨ov´enyek [z] ´abr´azol´asa piros sz´ınnel: plot(ratings$Frequency[z],ratings$meanFamiliarity[z], col="red",xlim=range(ratings$Frequency), ylim=range(ratings$meanFamiliarity)) par(new=T) ´allatok [!z] ´abr´azol´asa k´ek sz´ınnel plot(ratings$Frequency[!z],ratings$meanFamiliarity[!z], col="blue",xlim=range(ratings$Frequency), ylim=range(ratings$meanFamiliarity)) range(): egy adott vektor terjedelme (min. . . max)
H´azi feladatok megold´asa 2
Boxplot k´esz´ıt´ese adott csoportra (csak n¨ ov´enyek, csak egyszer˝ u szavak stb.). z = ratings$Class == "plant" boxplot(ratings$Frequency[z]∼ratings$Complex[z]) boxplot(ratings$Frequency[!z]∼ratings$Complex[!z])
H´azi feladatok megold´asa 3 A minta adatb´azisban h´any szem´ely magass´aga t´er el az ´atlagt´ol ´ 2 σ-n´al nagyobb m´ert´ekben? 1 σ-n´al nagyobb m´ert´ekben? Es ´atlag: mean(minta$height), sz´ or´as: sd(minta$height) ´atlagt´ol egys´egnyi sz´or´assal felfel´e, ill. lefel´e elt´er˝ ok sz´ama: sig1p=minta$height>mean(minta$height)+sd(minta$heigth) sig1m=minta$height<mean(minta$height)-sd(minta$heigth) k´et minta ¨osszege: sum(sig1p)+sum(sig1m) K´et σ elt´er´es eset´en: 2*sd(minta$height) sig2p=minta$height>mean(minta$height)+2*sd(minta$height) sig2m=minta$height<mean(minta$height)-2*sd(minta$height) sum(sig2p)+sum(sig2m)
Tov´abbi feladatok
1. Hasonl´ıtsuk ¨ossze a bik´ak ´es u ¨sz˝ ok sz¨ ulet´esi s´ uly´anak varianci´ait a megfelel˝o tesztekkel. Milyen k¨ ul¨ onbs´egeket l´atunk? ratings adatm´atrix a languageR k¨ onyvt´arb´ ol. 2. Igaz-e, hogy a ratings m´atrixban szerepl˝ o ´allatnevek gyakoris´aga ´ az ismerts´eg¨ alacsonyabb m´ert´ek˝ u, mint a n¨ ov´enyek´e? Es uk? 3. Milyen ´ert´eket vesz fel p, ha a n¨ ov´enyek ´es ´allatok s´ uly- ´es m´eretbecsl´es´et k¨ ul¨on-k¨ ul¨ on vizsg´aljuk? Tesztelj¨ uk minden esetben, hogy az adatok norm´alis eloszl´as´ uak-e, ´es hogy a varianci´ak homog´enek (egyenl˝ oek)-e.