Toetsende Statistiek Week 4. Toetsen van Gemiddelden: De t–toets Moore, McCabe & Craig, Chapter 7, Inference for Distributions 7.1 Inference for the Mean of a Population 7.2 Comparing Two Means Niet deze week: p. 433-435: Power of the t-test (Power week 5) William Gosset in 1908 (1876-1937) 1
Conclusies trekken over het Gemiddelde van een Populatie Centrale limiet stelling is nuttig als σ bekend en n groot, maar in de praktijk, met onbekende σ en kleine n, meestal onbruikbaar. Wat nu?
We schatten σ met s, en we schatten de standaarddeviatie van
x
met de standaardfout (Standard Error)
s SE = n Aanname:
steekproef is SRS, observaties (of populatie) normaal verdeeld toetsen met de t-statistiek voor het toetsen van één gemiddelde:
x−µ x−µ = t= s SE n 2
Steekproevenverdeling van de t-statistiek: de t-verdeling 1 t-verdelingen vormen een familie. 2 Ze verschillen van elkaar in het aantal vrijheidsgraden (degrees of freedom) k. 3 Vrijheidsgraden hangen af van de steekproefgrootte: k = n – 1. 4 Dikkere staarten → conservatievere toets De standaardnormaalverdeling samen met een t-verdeling met 5 vrijheidsgraden
5 Als k → ∞, gaat t verdeling naar normale verdeling
3
Hoe lees je de tabel van de t-verdeling (Tabel D)? TABLE D
t distribution critical values Tail probability p
df 1 2 3 4 5 6 7
0.25 1.000 .816 .765 .741 .727 .718 .711
0.20 1.376 1.061 .978 .941 .920 .906 .896
0.15 1.963 1.386 1.250 1.190 1.156 1.134 1.119
0.10 3.078 1.886 1.638 1.533 1.476 1.440 1.415
0.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895
0.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365
0.02 15.895 4.849 3.482 2.999 2.757 2.612 2.517
0.01 31.821 6.965 4.541 3.747 3.365 3.143 2.998
0.005 63.657 9.925 5.841 4.604 4.032 3.707 3.499
0.0025 127.32 1 14.089 7.453 5.598 4.773 4.317 4.029
0.001 318.30 9 22.327 10.215 7.173 5.893 5.208 4.785
0.0005 636.61 9 31.599 12.924 8.610 6.869 5.959 5.408
29 30 40 50 60 80 100 1000 z*
.683 .683 .681 .679 .679 .678 .677 .675 .674
.854 .854 .851 .849 .848 .846 .845 .842 .842
1.055 1.055 1.050 1.047 1.045 1.043 1.042 1.037 1.036
1.311 1.310 1.303 1.299 1.296 1.292 1.290 1.282 1.282
1.699 1.697 1.684 1.676 1.671 1.664 1.660 1.646 1.645
2.045 2.042 2.021 2.009 2.000 1.990 1.984 1.962 1.960
2.150 2.147 2.123 2.109 2.099 2.088 2.081 2.056 2.054
2.462 2.457 2.423 2.403 2.390 2.374 2.364 2.330 2.326
2.756 2.750 2.704 2.678 2.660 2.639 2.626 2.581 2.576
3.038 3.030 2.971 2.937 2.915 2.887 2.871 2.813 2.807
3.396 3.385 3.307 3.261 3.232 3.195 3.174 3.098 3.090
3.659 3.646 3.551 3.496 3.460 3.416 3.390 3.300 3.291
70%
80%
90%
99.5%
99.8%
99.9%
50%
60%
95% 96% 98% Confidence Level C
99%
Wat doe je als de gezochte df ontbreekt? 4
t-Toets procedure: 1 steekproef, 1/2 zijdige toets Te toetsen H0:
µ = µ0 tegen Ha: µ > µ0 of Ha: µ ≠ µ0:
1.
x−µ Bepaal de toets-statistiek t == SE
2.
Bepaal t* uit Tabel D bij
3.
Vergelijk t met t*: als t > t*, |t| > t*, dan Ha; anders H0.
4.
Vertaal statistische conclusie terug naar inhoudelijke vraag.
α.
Bepaal t* uit Tabel D bij
α/2.
Dit is de klassieke vorm van de t-toets als significantie toets. Voor versie met P-waarde (SPSS berekent die exact): 1
2
Zoek P(T ≥ t) in Tabel D als de kleinste overschrijdingskans (tail probability) die hoort bij een waarde niet groter dan t. De P-waarde is 2 × P(T ≥ |t|). Als P-waarde < α, concludeer Ha; anders H0.
5
Voorbeeld: Test voor prestatie Een test meet de totale tijd nodig om een taak te voltooien (het nabouwen van een getekende figuur met blokken). Ongetrainden doen hier gemiddeld 10 minuten over. Men verwacht dat getrainden dit sneller doen. Getrainden (n = 25) worden getest. Resultaat 1 H 0:
x
= 8.4, s = 4.
2 De standaardfout is:
H a: 3 De t* bij
α = 0.05
5 Statistische conclusie:
4 De t-statistiek is: 6 Inhoudelijke conclusie:
6
Eenzijdige toetsing Hypothesen: H0: µ = 10 Ha: µ < 10
De standaardfout is
Bij α = 0.05 en df = 24 t* = 1.711 gebruik -1.711
De toetsstatistiek is
Statistische conclusie: t < t*: Significant
Inhoudelijke conclusie: Getrainden zijn sneller
s 4 SE = = = 0.8 n 25 x − µ 8.4 − 10 t= = = −2.0 SE 0.8
-1.71
t
7
Tweezijdige toetsing Hypothesen: H0: µ = 10 Ha: µ ≠ 10
De standaardfout is
Bij α = 0.05 en df = 24 t* = 2.064 gebruik -2.064 en +2.064
De toetsstatistiek is
Statistische conclusie: |t| < t*: Niet Significant
Inhoudelijke conclusie: Getrainden niet afwijkend
s 4 SE = = = 0.8 n 25 x − µ 8.4 − 10 t= = = −2.0 SE 0.8
-2.06
t
2.06
8
Betrouwbaarheidsinterval met t-marge Zoals de z-toets vervangen wordt door de t-toets als n relatief klein is en σ onbekend, zo ook het C%-confidentie interval. Het level C betrouwbaarheidsinterval voor µ is
x ±t
*
s n
Voorbeeld:
e
baby’s in dagverblijf: onderzoek naar uiten 1 woord, steekproef n = 16, x = 11 maanden, s=3.2. 95%-betrouwbaarheidsinterval = Dus: baby’s in kinderdagverblijven uiten met 95% zekerheid e
het 1 woord tussen … en … maanden 9
Wat is het 95% CI?
df = 16-1 = 15 SE = s/√n =3.2 / √16 = 0.8 t* = 2.131 (opzoeken in tabel D) 95% CI
= 11 +/- 2.131 * 0.8 = 11 +/- 1.7 = (9.3 ; 12.7)
Dus: baby’s in kinder-dagverblijven uiten met 95% zekerheid hun eerste woordje gemiddeld tussen 9.3 en 12.7 maanden
10
Aannamen voor gebruik t-verdeling nader bekeken (a) Steekproef uit normale verdeling; indien niet, P-waarde robuust: ☺ bij symmetrische verdeling afwijkingen geen probleem + check voor outliers en scheefheid ☺ voor n ≥ 15 (b) Steekproef is SRS uit één en dezelfde populatie bedenk of er afwijkingen van aselektheid zouden kunnen zijn + check voor mix van subpopulaties OK
niet OK
11
Twee onafhankelijke steekproeven: 2 situaties.
12
Verschil in Verdeling Steekproevenverdeling van Verschillen Verdeling van lengte voor 10 jarige kinderen.
1.20
1.26
1.32
1.38
1.44
Lengte in meters
1.50
1.56
Verdeling van verschil in gemiddelden.
-0.10
-0.05
0.00
0.05
0.10
Verschil in gemiddelde lengte in meters
13
Procedure z-Toets, 2 steekproeven: Two-sample z-statistic Te toetsen H0: µ1 =µ2 tegen Ha: µ1 > µ2; σ1 en σ2 bekend: 1) Bepaal de toets statistiek
z=
x1 − x2 − ( µ1 − µ2 )
σ 12 n1 + σ 22 n2
2) Bepaal z* bij gekozen α-nivo. Of zoek de P-waarde P(Z ≥ z) in Tabel A . 3) Vergelijk z met z*: als z > z*, dan Ha, anders H0; of vergelijk Pwaarde met
α.
4) Vertaal statistische conclusie terug naar inhoudelijke vraag. NB
Merk op dat onder H0 i.h.a.
µ1 – µ2 = 0.
14
Voorbeeld: Werking van stof X op Waakzaamheid Een psychologe vermoedt dat stof X waakzaamheid bevordert. Zij toetst deze hypothese, door 2*10 mannetjesratten aselekt over 2 groepen te verdelen: groep 1 krijgt stof X en groep 2 een placebo. Deze ratten worden apart gezet, en men telt hoe vaak ze in 20 minuten reageren op een zwak signaaltje. Uit eerder onderzoek is bekend dat σ = 2. Klopt de hypothese? Resultaten
x
groep Stof X Placebo
8 10 12 6 6 7 9 8 7 11 8.4 5
6
3 4 7 8 6 5 4
8 5.6
15
Werking van stof X op Waakzaamheid 2 Hypothesen: x X = 8.4 H0: µX = µp x p = 5.6 Ha: µX > µp Bij α = 0.05 eenzijdig: z*=1.65 (tweezijdig: z*=1.96)
Statistische conclusie: z > z*: z ligt in het verwerpingsgebied van H0: Significant
De toetsstatistiek is
z=
xX − x p
σx
X
−xp
8.4 − 5.6 = = 3.13 4 4 + 10 10
Inhoudelijke conclusie: Stof X heeft effect
16
σ1 en σ2: Two-sample t-statistic Te toetsen H0: µ1 =µ2 tegen Ha: µ1 > µ2: Onbekende
1) Bepaal de toets statistiek
t=
x1 − x2 − ( µ1 − µ2 ) s12 n1 + s22 n2
2) Bepaal de benadering van het aantal vrijheidsgraden df via: a) de kleinste van n1 – 1 en n2 – 1 b) SPSS. 3) Bepaal t* uit Tabel D bij gekozen
α−nivo.
4) Vergelijk t met t*: als t > t*, dan Ha, anders H0; of vergelijk Pwaarde met
α.
5) Vertaal statistische conclusie terug naar inhoudelijke vraag. NB
Merk op dat onder H0 i.h.a.
µ1 – µ2 = 0. 17
σ1 ≈ σ2: gebruik gecombineerde schatter (Pooled Estimator) t-verdeling is nu exact. In de praktijk eerst varianties checken (zie practicum; MM&C raden toetsen af; bekijk verhouding s1 en s2). De pooled estimator is 2 2 ( n − 1 ) s + ( n − 1 ) s 1 2 2 s 2p = 1 n1 + n2 − 2
De SE (standard error) van ( x1 − x2 ) is nu
SE = s p
1 1 + = n1 n2
s 2p n1
+
s 2p n2
We kunnen nu een t-toets doen met: x −x t= 1 2 SE Het aantal vrijheidsgraden df = n1 + n2 – 2. 18
Voorbeeld: Effect van Twee Pijnstillers In een studie naar pijnbeleving worden twee groepen patienten gevormd, bij wie de verstandskies moest worden getrokken. Groep 1 krijgt een nieuwe pijnstiller. Groep 2 krijgt een standaard verdoving. Werkt het nieuwe middel beter? Afhankelijke variabele: Pijnscore op pijnschaal 0 – 100 H 0: H a: Resultaten: # groep n 1 nieuw 30 2 standaard 20
x 62 68
s 8 16 19
Ongelijke populatiespreidingen. Hypothesen: H0: µs = µn of (µs - µn) = 0 Ha: µs > µn of (µs - µn) > 0
82 16 2 SEo = + = 3.86 30 20
Bij α = 0.05 dfo=19, to*=1.729
De toetsstatistiek is
xs − xn 68 − 62 to = = = 1.55 SEo 3.86
Statistische conclusie: Inhoudelijke conclusie: t < t* : handhaving van H0: NS Nieuw niet beter dan Standaard
20
Gelijke populatiespreidingen. 2 2 Hypothesen: 29 × 8 + 19 × 16 2 Sp = = 140 H0: µs = µn of (µs - µn) = 0 48 Ha: µs > µn of (µs - µn) > 0 Sp = 11.83
SE g = 11.83 × 1
30
+1
20
= 3.42
De toetsstatistiek is Bij α = 0.05 xs − xn 68 − 62 dfg=48: tg*=1.684 (bij df=40) tg = = = 1.76
SE g
Statistische conclusie: t > t*: verwerping van H0
3.42
Inhoudelijke conclusie: Nieuw beter dan Standaard
21
Betrouwbaarheidsinterval voor verschil tussen 2 gemiddelden Bij twee steekproeven met n1 en n2 observaties (beide normaal) is het C%- interval voor het verschil:
( x1 − x2 ) ± t
*
s12 s22 + n1 n2
of
( x1 − x2 ) ± t s p *
df = min(n1,n2)-1
1 1 + n1 n2
df = n1+n2-2
Voorbeeld. Wat is het verschil in lengte tussen mannen en vrouwen? twee steekproeven werden gemeten. groep n mannen 20 vrouwen 20
x
s (meter) 1.82 0.067 1.70 0.064
Wat is het 95%-interval? 22
Wat is het 95% CI? df = 38 (n1+n2-2)
1 1 SE = 0.0656 + = 0.021 20 20 t* = 2.042 (zie tabel D bij df=30). 95% CI
= (1.82-1.70) +/- 2.042 * 0.021 = 0.12 +/- 0.043 = (0.077 ; 0.163)
23
Twee gemiddelden uit twee Afhankelijke steekproeven Er zijn verschillende situaties waarin dezelfde soort resultaten worden verkregen: matched pairs dependent groups repeated measures within-subject design before-after design ❍ Er zijn twee observaties per paar of per individu, en we toetsen de verandering/verschil. ❍ Bepaal voor ieder paar of individu een verschilscore Di. ❍ pas nu de één-steekproef (one-sample) procedures toe op de Di’s : a) een toets of b) een betrouwbaarheidsinterval. We zullen kijken naar de t-toets voor verschilscores.
24
Steekproevenverdeling van gemiddelde Verschillen Aanname:
verschilscores D normaal verdeeld, zoals bij toetsing van één populatiegemiddelde. Check verdeling steekproef D’s met Boxplot of QQ plot. NB: µ onder H0 bij verschilscores D vaak eenvoudig te specificeren: H 0: µ = 0 H a: µ ≠ 0
(µ > 0 of µ < 0 bij 1-zijdige toets) De toetsingsgrootheid is
D sD t= met df = n - 1 en SE D = SE D n 25
Voorbeeld: Effect lawaai op Oog-Hand coördinatie Onderzoek waarbij dezelfde 8 personen in twee condities onderzocht worden (typisch within-subjects design). Is er verschil in prestatie? resultaten: conditie
1
2
3
4
5
6
7
8
x
s
rustig
81 86
70 76 90 69 78 70
77. 5
7.82
lawaaierig
76 78
66 72 82 66 73 67
72. 5
5.95
rust – law = D 5
8
4
4
8
3
5
3
5
2
Aanzet berekening s van D 1 2 3 4 5 6 7 8
D−D
∑
s2
0 3 -1 -1 3 -2 0 -2 0
( D − D ) 2 0 9 1 1 9 4 0 4 28 28/7=4 26
Oplossing: op basis van de verschilscores
H 0 : µverschil = 0
Ter vergelijking: 2 sample t-toets
H a : µverschil ≠ 0 SD = 2 2 SE D = = 0.71 8 5 t= = 7.07 0.71 * t ( df = 7,α = 0.05) = 2.365
1 1 SE = 6.95 + = 3.47 8 8 5 t= = 1.44 3.47 * t (df = 14, α = 0.05) = 2.145
27
Within versus Between-subjects Design 1
Within-subjects designs zijn superieur, omdat de individuele variabiliteit verwijderd is uit de SE, wat meestal veel scheelt.
2
Een practisch voordeel van within-subjects designs is dat er minder ppn. nodig zijn dan bij between-subjects designs.
3
Mogelijk nadeel van within-subjects designs zijn a) een order effect (bijv. test-angst; gebruik counterbalancing). b) een carry-over effect (bijv. leren; gebruik voldoende tussentijd).
Als we t-toets voor afhankelijke groepen vergelijken met t- toets voor onafhankelijke groepen, blijft vooral voordeel 1 over, en spelen nadelen 3a en 3b niet.
28
Tot Besluit • t-toets voor twee steekproeven is robuuster dan t-toets voor één steekproef. Bij gelijke n en niet te wilde verdelingen is 2 keer 5 observaties al voldoende. • De t-toets duikt ook in andere situaties op en behoort zo tot de meest gebruikte statistische toetsen in de psychologie.
Stof Volgende Week: Onderscheidend Vermogen en de F-toets 6.4 Power and Inference as a Decision 7.3 Optional Topics in Comparing Distributions 29