Aanpassingen takenboek! Kwantitatieve Data Analyse (KDA)
• Check studienet om eventuele verbeteringen te downloaden!
Onderzoekspracticum
• Huidige versie takenboek: 2009
Sessie 2 2011 Gjalt-Jorn Peters
[email protected]
Statistische toetsen • Twee variabelen • Dichotoom en interval: t-toets (sessie 2) • Ordinaal/nominaal en interval: anova (sessie 2) • Interval en interval: correlatie (sessie 3)
• Meerdere variabelen • Interval en interval: Regressie-analyse (sessie 3) • Nominaal/ordinaal en interval: Factorial anova (OP Psychologisch Experiment)
Deze persoon in een verdeling
Iedereen in een verdeling
30
30
25
25
20
20
15
15
10
10
5
5
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
De normaalverdeling
Z-scores X = 30
68% van de mensen
p?
X–X sd
z=
95% van de mensen
σ
σ
σ
σ
σ
σ
Gemiddelde 2.5% van de mensen
σ
σ
20
2.5% van de mensen
Gemiddelde in de populatie
Oefenen met Z-scores
De normaalverdeling
• We kennen een populatie Vlamingen • Gemiddeld optimisme = 23 • Standaard deviatie = 4
• We meten het optimisme van: • Ann 29 • Veerle 14 • Luc 30
29 – 23 = -6 14 – 23 = -9 31 – 23 = 7
-6 / 4 = -9 / 4 = 7/4=
• Wijkt er iemand significant af van de populatie?
-2.25
1.75
-1.5
-1.5 -2.25 1.75 Gemiddelde 2.5% van de mensen
2.5% van de mensen
Uit dezelfde populatie?
? σ
σ
σ
σ
Gemiddelde 5% van de mensen (significantieniveau, begrenst door zgn. kritische waarden)
2
De gemiddelden uit onze steekproeven
X σ
σ
σ
σ
30 25 20
X σ
σ
σ
σ
σ
σ
σ
15 10 5
1
X
σ
De gemiddelden uit onze steekproeven 30
25
25
20
20
15
15
10
10
5
5
2
3
4
5
6
7
8
9
10
3
4
5
6
7
8
9
10
De gemiddelden uit onze steekproeven
30
1
2
sd
se =
se 1
2
se 3
4
se 5
6
7
n-1
se 8
9
10
Het gemiddelde in de populatie
Het gemiddelde in de populatie
Oefenen met de steekproevenverdeling
Onze steekproef in de steekproevenverdeling
• We meten verschil in optimisme: • We meten optimisme op maandag; • We meten optimisme of vrijdag: maandag – vrijdag = verschilscore
• De nulhypothese (H0) is: geen verschil (0) sd 27 • We vinden: se = = =3 n-1 • Het verschil is 8 punten • De standaarddeviatie is 27 • Onze steekproef is 82 mensen
• Is dit verschil significant?
2.67
82-1
8 / 3 = 2.67
Het gemiddelde in de populatie
3
De steekproevenverdeling
De steekproevenverdeling
30
30
25
25
20
20
15
15
10
10
5
5
1
2
3
4
5
6
7
8
9
10
se 1
2
se 3
4
se 5
6
se
7
8
9
Het gemiddelde volgens H0
Het gemiddelde volgens H0
Type 1 en Type 2 fouten
Type 1 fouten
10
• Type 1 fout: Het onterecht verwerpen van de nulhypothese • Type 2 fout:
se
se
Het onterecht niet verwerpen (behouden) van de nulhypothese 2.5% van de mensen
se
se
Gemiddelde volgens H0
2.5% van de mensen
Kans op een Type 1 fout: 2.5% + 2.5% = 5%
Type 2 fouten
Type 2 fouten Kans dat de nulhypothese niet wordt verworpen
Power
se
se se
2.5% van de mensen
se se
sese
se
Gemiddelde volgens H0Gemiddelde 2.5% van de mensen
2.5% van de mensen
volgens H0
se
se
se
se
Gemiddelde 2.5% van de mensen
2.5% van de mensen
2.5% van de mensen Ware gemiddelde in de populatie
4
( ) X1 – X2 z=
X–X sd
t=
De t-toets
T-toets in SPSS: menu • Analyze Compare Means Samples t-test:
Independent
se
• Independent samples t-toets: • Twee onafhankelijke groepen
• Paired samples t-toets • Twee afhankelijke groepen
T-toets in SPSS: menu • Analyze Compare Means Samples t-test:
Independent
T-toets in SPSS: menu • “Syntax”:
• Lijst van commando’s voor SPSS • Je kunt commentaar toevoegen:
T-toets in SPSS: output
5
Wat met meer dan 2 groepen?
Wat nu met meer dan 1 factor?
• Bij drie groepen heb je 3 gemiddelden Beloning
Straf
• Kans op Type 1 fout: 5% per toets • Kans dat je geen Type 1 fout maakt, dus 95% per toets • Kans dat je bij 3 toetsen geen Type 1 fouten maakt is .95 * .95 * .95 = 0.857375 • Kans dat je dus minimaal 1 Type 1 fout maakt is 1 0.857375 = 0.142625 • Dus 1 op de 7 experimenten is sowieso significant • Bij vier groepen, 6 t-toetsen: .27 kans op Type 1 fout, dus 1 op de 4 experimenten is sowieso significant
Aanwezig Afwezig
• Drie t-toetsen doen? • Nee: Type 1 fouten . . .
Afwezig
Aanwezig
Conditie A
Conditie B
Conditie C
• Alle gemiddelden dus tegelijkertijd toetsen
Het idee van variantieanalyse
Het idee van variantieanalyse
30
30
25
25
20
20
15
15
10
10
5
5
A
B
C
A
B
C
• Bereken de spreiding binnen de groepen (error) • Vergelijk met spreiding tussen de groepen
Waar komt de spreiding vandaan?
De ruis
• Twee oorzaken van spreiding: Beloning
• ‘Ruis’, error: verschillen tussen mensen, meetfouten, toeval, etc • Verschillen tussen de groepen Straf
Aanwezig
Aanwezig Afwezig
Yij = Gemiddelde + Groepj + errorij
Afwezig
• Schattingen van de errorvariatie (SSwithin) • Delen door Df errorvariantie (MSwithin)
6
Het effect
Hoe bereken je SS en MS?
Beloning
Afwezig
Straf
8.5 9
Aanwezig
Aanwezig Afwezig
Straf
Beloning
Aanwezig
Aanwezig Afwezig
Afwezig
• Schatting van de effectvariatie (SSbetween) • Delen door Df effectvariantie (MSbetween)
Hoe bereken je SS en MS?
Hoe bereken je SS en MS? Hoeveel variatie door ruis? Varia(n)tie = afwijkingen van gemiddelde Gemiddelde van de kwadraten
5
8
9
X
X-X
(X-X)2
5
-3
9
9
1
1
10
2
4
0
14
Hoe bereken je SS en MS?
10
(Mean of squares, MS)
14 n-1
=7
Som van de kwadraten (Sum of squares, SS)
Hoe bereken je SS en MS?
Straf
Aanwezig Afwezig
Beloning Afwezig
Aanwezig
8
9
Aanwezig
8.5
11
10
X
X-X
(X-X)2
8.5
-.25
0.0625 MSbetween
9
9
.25
0.0625
8.75
8.75
0
0.125
0.125 = .125 SSbetween k-1
7
Wat doen we met die MSen?
F
• Nu hebben we die varianties: • MSwithin is een maat voor de ‘error’, ruis • MSbetween is die ruis plus een eventueel groepseffect: MSwithin + MSgroepseffect
F=
• Als er geen groepseffect is:
MStussen MSbinnen p
• MSwithin = MSbetween
• Als er wel een groepseffect is: • MSwithin < MSbetween
F=1
Oneway Anova: menu • Analyze Anova:
Compare means
Oneway
Oneway Anova: syntax • Syntax in SPSS:
• Met commentaar:
• Druk op ‘paste’, niet ok!
Oneway Anova: syntax
Oneway Anova: output
• • • •
Waar staat de errorvariantie? Waar staan de vrijheidsgraden? Hoeveel deelnemers waren er? Wat is de uitkomt?
8
Oneway Anova: gemiddelden
Oneway Anova: gemiddelden • De syntax verandert ook:
• Nogmaals: hoef je niet te kennen • Maar leer je alvast aan het te gebruiken • En commentaar toe te voegen!
Oneway Anova: gemiddelden
F=
Oneway Anova: gemiddelden
MSeffect MSerror • Wat betekent dit?
Varianties hetzelfde?
Varianties hetzelfde?
• Wat doe je in zo’n geval? • Andy Field, p. 380 Welch’s F (of Brown-Forsyth’s F)
9
Varianties niet hetzelfde
Varianties niet hetzelfde
Varianties niet hetzelfde
Varianties niet hetzelfde
Plotje van gemiddelden
Plotje van gemiddelden
10
Steekproef vergroten
De driehoeksverhouding p
p
X1 – X2 se sd se = n-1
F=
t=
p
p
p
MStussen MSbinnen
SS MS = Df
Effect sizes
n
effect
• Significantie alleen zegt bijna niets . . .
Cohen’s d
• Hoe sterk is een verband (associatie)? • Los van steekproefgrootte of p-waarde • Verschil tussen twee gemiddelden: • t-toets • Cohen’s d
• Verschil tussen meerdere gemiddelden: • F-toets (Anova) • Eta-squared (η2)
• Rapporteer altijd, t/F, p, èn d/η2
Cohen’s d
• Cohen’s d is gewoon: • Het verschil tussen de gemiddelden • Uitgedrukt in standaarddeviaties:
d=
X1 – X2 sd
• Dus, hoeveel standaarddeviaties liggen X1 en X2 uit elkaar? • Verhouding van verschil en spreiding
http://gjyp.nl/statistics 1.39 + 1.42 2
X1 – X2 3.39 – 3.25 = sd 1.40 ? .8
.5
trivial
medium
.2
l al sm
= -.10
la rg e
d=
1.3
very large
11
Eta squared • Eta squared
(η2)
Eta squared
is gewoon:
• Het percentage verklaarde variatie
SStussen SStotaal (= SSbinnen+SStussen)
SStussen = SStotaal
109 10245
trivial
medium
.01
= .01
.25
.09
l al sm
• Dus, tussen-groepen variatie gedeeld door totale variatie • Verhouding van “onafhankelijkevariabele-spreiding” en errorspreiding
η2 =
la rg e
η2 =
.49
very large
Samenvatting • • • • •
Twee groepen vergelijken: t-test Meerdere groepen: Anova (F) t of F opzoeken in verdeling Oppervlakte = p-waarde P-waarde < .05 ‘significant’ resultaat: • Verschillen de groepen alleen in de steekproef of ook in de populatie?
• Effect size berekenen (d of η2): • Is het verschil ook relevant?
12