t-toets met één steekproef • vergelijking van één steekproefgemiddelde met een “norm’’ (een van te voren bepaald gemiddelde) • probleem: σ uit populatie is niet bekend en het steekproefaantal is klein (<120)
Onderzoeksmethoden: Statistiek 3
• meetwaarden onafhankelijk en identiek normaal verdeeld (met zelfde gemiddelde en variantie) • oplossing: t-verdelingen (vrijheidsgraden spelen een rol)
t obs =
Marjan van den Akker
X( N) − µ s/ N
• t-tabel: zie boek van Wijk blz. 271 1
2
Tweezijdige t-toets met één steekproef
Tweezijdige t-toets met één steekproef
H0: µ = 20 (aantal uren gamen per week) H1: µ ≠ 20
Beslissingsregel: Verwerp H0 indien tobs ≤ -tcrit of tcrit ≤ tobs Accepteer H0 indien -tcrit < tobs < tcrit
Neem aan: waarden in de steekproef zijn onafhankelijk,
identiek verdeeld en normaal verdeeld Voorbeeld steekproef met 10 waarnemingen 18, 25, 28, 21, 23, 18, 18, 26, 25, 21 Als H0 waar is geldt:
t obs =
X ( N) − 20 s2
N
=
Onderzoeksmethoden: statistiek 3
X ( N ) − 20 s N
heeft t-verdeling met df=9 (9 vrijheidsgraden)
3
Onderzoeksmethoden: statistiek 3
4
Onderzoeksmethoden: statistiek 3
Tweezijdige t-toets met één steekproef
Student’s t-verdeling α=0.05
t(N-1)α/2 uit tabel C
We willen significantie niveau α=0.05, ofwel de kans dat
95% = 1 - α
we H0 verwerpen terwijl hij waar is, is 5%. Criterium wordt: Kies tcrit zodat P(t ≥ tcrit ) = α = .025 en P(t ≤ -tcrit ) = α = .025 voor t-verdeling met 9 vrijheidsgraden, dus α =0.025 aan iedere kant met tabel C tcrit (df 9)0.025 = 2.262 Of met Excel TINV(prob=0.05,df=9) = 2.262 (Excel doet standaard tweezijdig) Onderzoeksmethoden: statistiek 3
5
2.5% = α/2
2.5% = α/2
tcrit = t(N-1)α/2
-t(N-1)α/2 6
Onderzoeksmethoden: statistiek 3
Tweezijdige t-toets met één steekproef
Eenzijdige t-toets met één steekproef H0: µ = 20 (aantal uren gamen per week) H1: µ > 20 Voorbeeld steekproef met 10 waarnemingen
Bepaal toetsingsgrootheid: Het steekproefgemiddelde = 22.3 en s=3.65. µ = 20, en N=10 Bepaal de waarde van toetsinggrootheid.
t obs =
X( N) − µ s/ N
18, 25, 28, 21, 23, 18, 18, 26, 25, 21
Nog steeds, als H0 waar is geldt:
tobs = 2.3 / 1.155 = 1.991
t obs =
tcrit (df 9) = 2.262 dus
H0 Accepteren!!!!
7
Onderzoeksmethoden: statistiek 3
X ( N ) − 20 s2
N
=
X ( N) − 20 s N
heeft t-verdeling met df=9 (9 vrijheidsgraden)
8
Onderzoeksmethoden: statistiek 3
Eenzijdige t-toets met één steekproef
Student’s t-verdeling α=0.05
t(N-1)αuit tabel C
Nu beslissingsregel van de vorm: Verwerp H0
95% = 1 - α
indien tobs ≥ tcrit
Accepteer H0 indien tobs < tcrit
We willen α=0.05, ofwel de kans dat we H0 verwerpen
terwijl hij waar is, is 5%. Criterium wordt: Kies tcrit zodat P(t ≥ tcrit ) = α = .05 voor t-verdeling met 9 vrijheidsgraden Tabel C tcrit (df 9) = 1.833 Of met Excel TINV(prob=0.1,df=9) = 1.833
Onderzoeksmethoden: statistiek 3
9
5% = α
tcrit = t(N-1)α 10
Onderzoeksmethoden: statistiek 3
Eenzijdige t-toets met één steekproef
Samenvatting
Toetsingsgrootheid:
t obs =
X( N) − µ s/ N
tobs = 2.3 / 1.155 = 1.991
Nu tobs > tcrit = 1.812
H0
H1
H0 verwerpen
Tweezijdig
µ=µ0
µ≠µ0
t<-tcrit of t> tcrit
Eenzijdig (rechts)
µ=µ0
µ>µ0
t>tcrit
Eenzijdig (links)
µ=µ0
µ<µ0
t< -tcrit
H0 verwerpen!
11
Onderzoeksmethoden: statistiek 3
12
Onderzoeksmethoden: statistiek 3
X1,,…,XN onafhankelijk en normaal verdeeld
Welke µ0 wordt geaccepteerd: betrouwbaarheidsinterval
met gemiddelde µ, variantie σ2 : X1,,…,XN looptijd algortime pizza-koerier:
Goed Histogram heeft `ongeveer’ vorm normale verdeling (hoeft niet al te streng) Vergelijkebare of zelfde instantie Zelfde parameter instellingen
13
Fout Waarden gebaseerd op verschillend aantal klanten Waarden gebaseerd op verschillende parameter-instellingen
Onderzoeksmethoden: statistiek 3
H0: µ = µ0 wordt geaccepteerd in tweezijdige t-toets met
significantie-niveau α (kans op type 1 fout) dan en slechts dan als µ0 ligt in het (1- α)* 100 % betrouwbaarheidsinterval
14
Tweezijdig betrouwbaarheidsinterval
Betrouwbaarheidsinterval: voorbeeld
s2 s2 X ( N ) − t ( N − 1) α 2 , X ( N ) + t ( N − 1) α 2 N N
Hoeveel uur per week
besteden informatica studenten aan gamen?
Niet (1-α)100% van de waarnemingen valt binnen het interval
X = 21 S2 (5) = 9 t (4) 0.025 = 2.776
(1-α)100 % betrouwbaarheidsinterval, bijv α= 0.05 µ valt binnen het interval met kans 1-α, t(N-1)α/2 uit statistische tabel t(N-1)α/2 → zα/2 (normale verdeling) voor grote N (N>120) Pag 90 vWijk mag allleen bij een grote steekproef. 15
Onderzoeksmethoden: statistiek 3
Onderzoeksmethoden: statistiek 3
Student
Aantal uren gamen p week
Marcel
18
Thomas
24
Wouter
24
Steven
21
Paktwis
18
95% betrouwbaarheidsinterval : [21 − 2.776
16
9 ,21 + 5
2.776
9 5
] = [17.28,24.72]
Onderzoeksmethoden: statistiek 3
P-waarde ofwel significantie
Stappenplan toetsen
1. 2. 3. 4. 5.
De p-waarde of significatie van een gegeven steekproef uitkomst is de kans dat in de verdeling gegeven door de nulhypothese de waarde van de toetsingsgrootheid wordt behaald of overschreden Geeft aan hoe extreem de waarde van de toetsingsgrootheid is
Hypotheses formuleren Uitgangspunten en keuze toetstechniek (bijv eenzijdige ttoets) Significantieniveau α en beslissingsregel bepalen Toetsingsgrootheid uitrekenen en beslissing nemen Eventueel betrouwbaarheidsinterval bepalen
T : toetsingsgrootheid, t obs waarde toetsingsgrootheid uit steekproef : Tweezijdig : p - waarde = 2 * P(T ≥ t obs gegeven H 0 ) Eenzijdig : p - waarde = P(T ≥ t obs gegeven H 0 )
17
Onderzoeksmethoden: statistiek 3
18
P-waarde ofwel significantie
Onderzoeksmethoden: statistiek 3
P-waarde ofwel significantie: voorbeeld
Hoe kleiner de p-waarde hoe extremer de uitkomst
Tweezijdige t-toets aantal uren gamen per week UU
informatica studenten Hypothese H0: µ=20
P-waarde kleiner dan gegeven grens (bijv 5%) dan
Alternatieve hypothese H1: µ≠20
significante uitkomst ofwel significant verschil met H0 dus H0 wordt verworpen
Voorbeeld steekproef 18, 25, 28, 21, 23, 18, 18, 26, 25, 21
tobs = 2.3 / 1.155 = 1.991 Mbv Excel TDIST(1.991, df=9,tails=2)= 0.077 0.077 > 0.05 dus geen significante afwijking van H0
19
Onderzoeksmethoden: statistiek 3
20
Onderzoeksmethoden: statistiek 3
t-toets: 3 soorten onderzoeksvraagstellingen
Student’s t-verdeling
1. t-toets met een steekproef 2. t-toets voor twee onafhankelijke steekproeven
1 – p-waarde
p-waarde/2
p-waarde/2 tobs=1.991
-1.991 21
Een onderzoeker wil weten of er intelligentieverschillen bestaan tussen kinderen van het platteland en kinderen uit de grote steden. Hij neemt een willekeurige steekproef van 40 leerlingen van plattelandsscholen en een willekeurige steekproef van 100 even oude leerlingen van scholen uit de grote steden. Voor plattelandskinderen blijkt dit 111 te zijn en voor stadskinderen 106. Wijst dit op een meer-dan-toevallig verschil?
Onderzoeksmethoden: statistiek 3
22
t-toets: 3 soorten onderzoeksvraagstellingen
t-toets met twee onafhankelijke steekproeven: voorbeelden • Bestaat er een (significant) verschil tussen bachelor studenten Informatica en masterstudenten COSC wat betreft leeftijd?
3. T-toets met gepaarde metingen (paired t-
test)
• Zijn vrouwen meer bezorgd over hun veiligheid dan mannen? (zie v Wijk 7.1)
30 zware rokers worden aan een
trainingsprogramma onderworpen om van het roken af te komen, Vóór de training rookten zij gemiddeld 36 sigaretten per dag; één maand na de training rookten dezelfde rokers gemiddeld 28 sigaretten per dag. Is dit verschil groot genoeg om te mogen zeggen dat het trainingsprogramma effect heeft?
23
Onderzoeksmethoden: statistiek 3
Onderzoeksmethoden: statistiek 3
• Is er een (significant) verschil tussen uitwonende en thuiswonende studenten Informatica wat betreft het geld dat zij te besteden hebben? • Is er verschil een significant verschil in looptijd van het forcedirected graph algoritme tussen grafen met 100 punten en 200 kanten die Bipartiet zijn en grafen met 100 punten en 200 kanten die niet bipartiet zijn. 24
Onderzoeksmethoden: statistiek 3
t-toets met twee onafhankelijke steekproeven
t-toets met twee onafhankelijke steekproeven
Onder aanname van H0: µ1 =µ2 Toetsingsgrootheid:
We meten één afhankelijke interval of ratio variabele
t =
twee (onafhankelijke) groepen t-test oftewel twee
onafhankelijke steekproeven
(X − µ )− (X 1
1
2
− µ2
s X1 −X2
X11, X12, ..,X1N1
)= X −X 1
uit t - verdeling df = N1 + N 2 − 2
2
s X1 −X2
X21, X22, ..,X2N2
Aannames: Afhankelijke variabele (meetresultaten) normaal verdeeld Gelijke variantie (niet strict: klopt meestal wel met even grote steekproeven) H0: µ 1 = µ 2
s
X1−X2
=
2
2
sX s + X N1 N 2
met `pooled variance' s X = 2
ook wel µ1 - µ2 = 0
vrijheidsgraden: N1 + N2 - 2
en s 2X1 , s 2X 2 steekproef
In Excel: t-Test: Two-Sample Assuming Equal Variances
s 2X1 ( N1 − 1) + s 2X 2 ( N 2 − 1) N1 + N 2 − 2
varianties
Verder analoog aan t-toets met een steekproef 25
Onderzoeksmethoden: statistiek 3
26
t-toets met twee onafhankelijke steekproeven (1-α)% betrouwbaarheidsinterval:
[( X 1 − X 2 ) − t (df )α 2 s X 1− X 2 , ( X 1 − X 2 ) + t (df )α 2 s X 1− X 2 ]
Onderzoeksmethoden: statistiek 3
Voorspellende waarde van de onafhankelijke variable: verklaarde variantie bij onafhankelijke metingen: percentage verklaarde
variantie Hoeveel van de verschillen in de scores op de afhankelijke variabele wordt verklaard doordat ze uit een verschillende groep afkomstig zijn?
Percentage Verklaarde Variantie = ω 2 * 100 ( t obs − 1) 2
ω 2 = max(
27
Onderzoeksmethoden: statistiek 3
28
( t obs + N 1 + N 2 − 1) 2
,0 )
Onderzoeksmethoden: statistiek 3
Interpretatie verklaarde variantie
T-toets voor gepaarde metingen
Roken 30 rokers na een intensief trainingsprogramma
Vuistregel: een verklaarde variantie van meer dan 1% is een zwak effect meer dan 5% een matig effect meer dan 20% een sterk effect
29
Onderzoeksmethoden: statistiek 3
significant minder? Liever een hotelarrangement of een
bungalowarrangement? (zie v Wijk 7.2) Convergeert het force-direct graph algoritme bij parameters (sA,uA,rA) langzamer of sneller dan bij (sB,uB,rB)?
30
T-toets voor gepaarde metingen: voorbeelduitwerking
Onderzoeksmethoden: statistiek 3
T-toets voor gepaarde metingen: voorbeelduitwerking
Paren van observaties:
Toetsingsgrootheid:
t=
bijv. 41 testgrafen met 100 punten Run op elk van de testgrafen het force-direct graph
We stellen een significantieniveau van α = .01
algoritme bij parameters (sA,uA,rA) en met (sB,uB,rB) Voor elke graaf • X1 het aantal iteraties bij (sA,uA,rA) en • X2 het aantal iteraties bij (sB,uB,rB) Neem aan X1 en X2 `ongeveer’ normaal verdeeld Voor ieder paar waarnemingen bereken je de verschilscore D=X1-X2
Stel je vindt
leverde gemiddeld 23 méér iteraties op dan (sA,uA,rA) ) Stel je vindt een standaardafwijking van s D = 51 Nu
steekproef met hypothese
31
sD N
= 0 Onderzoeksmethoden: statistiek 3
Dobs = −23
((sB,uB,rB)
Verder werken met D als bij de t-toets met een
H0 : D
Dobs − D sD N
32
=
51 40
= 8.064
Onderzoeksmethoden: statistiek 3
T-toets voor gepaarde metingen: voorbeelduitwerking •
Voorspellende waarde van de onafhankelijke variabele: consistentie van het effect
Beslissingsregel: Verwerp H0 indien tobs ≤ -tcrit of tcrit ≤ tobs Accepteer H0 indien -tcrit < tobs < tcrit
bij gepaarde metingen: H0 verworpen dus verschil in bepaalde richting Mogen we nu ook zeggen dat tenminste 50% van de proefpersonen/test instanties een verschil in de richting van het effect zal laten zien consistentie van effect Aantal gepaarde metingen met het effect waarop je mag zeggen dat meer dan 50% van de proefpersonen/test instanties in de richting van het effect zal scoren
Criterium: Tweezijdige toetsing; α = .01; met tabel tcrit(df 40) = 2.704 Dobs − D − 23 − 0 = = −2.852 Waarde toetsingsgrootheid: t obs =
• •
sD
8.064
N Conclusie: verwerp H0 want tobs ≤ -tcrit: Er is een significant verschil tussen de twee parameter-instellingen We zien (sB,uB,rB) levert méér iteraties op dan (sA,uA,rA)
• •
33
Onderzoeksmethoden: statistiek 3
.01
Onderzoeksmethoden: statistiek 3
34
T-toets voor gepaarde metingen: de formules
Voorbeeld
•
We zien (sB,uB,rB) levert méér iteraties op dan (sA,uA,rA)
t =
N = 41 minimale aantal = 28.44 = 29
Onderzoeksmethoden: statistiek 3
Dobs − D sD
df = N −1
Onder aanname van H0 : D
Als tenminste 29 van de testgrafen meer iteraties nodig heeft bij (sB,uB,rB) dan bij (sA,uA,rA) dan mogen we concluderen dat in het algemeen dit bij tenminste de helft van de grafen het geval zal zijn.
35
Minimale aantal = 0.5( N + 1) + 1.163 N .
Bij α =.05 Minimale aantal = 0.5( N + 1) + 0.823 N
is:
= 0
D = X1 − X 2 sD =
Dobs t = sD
formule voor (1-α)% betrouwbaarheidsinterval
[ Dobs − t (df ) α 2 s D , Dobs + t (df ) α 2 s D ] 36
Onderzoeksmethoden: statistiek 3
sD N
Wat als steekproef-waarnemingen niet normaal verdeeld zijn?
Chi-kwadraat toets
Met een Chi2 (Χ2) toets ga je na hoe waarschijnlijk het is
T-toets is een parametrische toets. Gebaseerd op aanname dat steekproefwaarnemingen normaal verdeeld zijn.
dat verhoudingsmaten aan bepaalde verwachtingen of voorwaarden voldoen ‘goodness-of-fit’, multidimensionaal Geen aanname vooraf op bepaalde verdeling
1. Neem het gemiddelde van een aantal waarnemingen. Dit is
normaal verdeeld volgens Centrale Limietstelling. Bijv de gemiddelde looptijd van 20 restarts van Simulated
Annealing
2. Wilcoxon signed-rank test
http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test Dit is een niet parametrische test (geen aanname op de verdeling van de steekproefwaarnemingen).
37
Onderzoeksmethoden: statistiek 3
38
Onderzoeksmethoden: statistiek 3
Voorbeeld: steekproef N=30, K mogelijke uitkomstwaarden
Voorbeeld
H0: resultaten komen overeen met de verwachte waardering
Enquete resultaat Force-
directed graph-drawing: Het getekende plaatje is
1
2
3
4
5
Geobserveerde frequentie Oi
1
1
6
12
10
Verwachte frequentie Ei
3
3
6
9
9
1. Erg lelijk 2. Lelijk 3. OK 4. Mooi 5. Erg mooi
Verwachte waardering: 1. 10%
K
toetsingsgrootheid : Χ 2 = ∑
2. 10% 3. 20%
i =1
4. 30 %
K aantal mogelijke uitkomstwaarden
5. 30 % 39
(Oi − Ei ) 2 Ei
Onderzoeksmethoden: statistiek 3
40
Onderzoeksmethoden: statistiek 3
Voorwaarden voor een Χ2 toets
Χ2 volgt chi-kwadraat verdeling met df=K-1 vrijheidsgraden
De steekproefelementen zijn onafhankelijk van elkaar en
Χ2(df)
willekeurig getrokken
α
Iedere observatie kan in precies één cel van de tabel
worden geklassificeerd De verwachte celfrequenties zijn voldoende groot, d.w.z.
Significantie-niveau α
minder dan 20% van de cellen heeft Ei < 5
Voorbeeld : α = 0.05 www.statsoft.com
geen enkele cel heeft Ei < 1
Χ 2 = 3.7778 X α2 (df ) = X 02.05 (4) = 9.488
2 2 Accepteer H0 als Χ ≤ Χ α (df )
41
(Tabel D of in Excel CHINV(0.05,4)) H 0 accepteren
Onderzoeksmethoden: statistiek 3
42
Kruistabel voorbeeld voorkeur Spelcomputer Man
Vrouw
Kind
4
10
16
30
PlayStation 4
9
17
30
Wii
2
11
27
40
10
30
60
100
Xbox
Man
Vrouw
Kind
O11
O12
O13
O1.
PlayStation O21
O22
O23
O2.
Wii
O31
O32
O33
O3.
O.1
O.2
O.3
N
Xbox
43
Onderzoeksmethoden: statistiek 3
Onderzoeksmethoden: statistiek 3
Chi-kwadraat-toets onafhankelijkheid in kruistabel H0 : Elke groep (man, vrouw, kind) heeft dezelfde
verdeling van voorkeuren over de verschillende spelcomputers, dus voorkeur is onafhankelijk van de groep H1: bij minstens een van de groepen is de verdeling anders. R: aantal rijen en C: aantal kolommen
E ij =
(Oi. * O. j )
Χ2 = ∑ i, j
44
N (Oij − Eij ) 2 Eij
df = (R - 1)(C - 1)
Onderzoeksmethoden: statistiek 3