t-toets met één steekproef Onderzoeksmethoden: Statistiek 3 t obs = s N Marjan van den Akker Tweezijdige t-toets met één steekproef

t-toets met één steekproef • vergelijking van één steekproefgemiddelde met een “norm’’ (een van te voren bepaald gemiddelde) • probleem: σ uit populatie is niet bekend en het steekproefaantal is klein (<120)

Onderzoeksmethoden: Statistiek 3

• meetwaarden onafhankelijk en identiek normaal verdeeld (met zelfde gemiddelde en variantie) • oplossing: t-verdelingen (vrijheidsgraden spelen een rol)

t obs =

Marjan van den Akker

X( N) − µ s/ N

• t-tabel: zie boek van Wijk blz. 271 1

2

Tweezijdige t-toets met één steekproef


H0: µ = 20 (aantal uren gamen per week) H1: µ ≠ 20

Beslissingsregel: Verwerp H0 indien tobs ≤ -tcrit of tcrit ≤ tobs Accepteer H0 indien -tcrit < tobs < tcrit

Neem aan: waarden in de steekproef zijn onafhankelijk,

identiek verdeeld en normaal verdeeld Voorbeeld steekproef met 10 waarnemingen 18, 25, 28, 21, 23, 18, 18, 26, 25, 21 Als H0 waar is geldt:

t obs =

X ( N) − 20 s2

N

=

Onderzoeksmethoden: statistiek 3

X ( N ) − 20 s N

heeft t-verdeling met df=9 (9 vrijheidsgraden)

3


4



Student’s t-verdeling α=0.05

t(N-1)α/2 uit tabel C

We willen significantie niveau α=0.05, ofwel de kans dat

95% = 1 - α

we H0 verwerpen terwijl hij waar is, is 5%. Criterium wordt: Kies tcrit zodat P(t ≥ tcrit ) = α = .025 en P(t ≤ -tcrit ) = α = .025 voor t-verdeling met 9 vrijheidsgraden, dus α =0.025 aan iedere kant met tabel C tcrit (df 9)0.025 = 2.262 Of met Excel TINV(prob=0.05,df=9) = 2.262 (Excel doet standaard tweezijdig) Onderzoeksmethoden: statistiek 3

5

2.5% = α/2

2.5% = α/2

tcrit = t(N-1)α/2

-t(N-1)α/2 6



Eenzijdige t-toets met één steekproef H0: µ = 20 (aantal uren gamen per week) H1: µ > 20 Voorbeeld steekproef met 10 waarnemingen

Bepaal toetsingsgrootheid: Het steekproefgemiddelde = 22.3 en s=3.65. µ = 20, en N=10 Bepaal de waarde van toetsinggrootheid.

t obs =

X( N) − µ s/ N

18, 25, 28, 21, 23, 18, 18, 26, 25, 21

Nog steeds, als H0 waar is geldt:

tobs = 2.3 / 1.155 = 1.991

t obs =

tcrit (df 9) = 2.262 dus

H0 Accepteren!!!!

7


X ( N ) − 20 s2

N

=

X ( N) − 20 s N

heeft t-verdeling met df=9 (9 vrijheidsgraden)

8


Eenzijdige t-toets met één steekproef

Student’s t-verdeling α=0.05

t(N-1)αuit tabel C

Nu beslissingsregel van de vorm: Verwerp H0

95% = 1 - α

indien tobs ≥ tcrit

Accepteer H0 indien tobs < tcrit

We willen α=0.05, ofwel de kans dat we H0 verwerpen

terwijl hij waar is, is 5%. Criterium wordt: Kies tcrit zodat P(t ≥ tcrit ) = α = .05 voor t-verdeling met 9 vrijheidsgraden Tabel C tcrit (df 9) = 1.833 Of met Excel TINV(prob=0.1,df=9) = 1.833


9

5% = α

tcrit = t(N-1)α 10


Eenzijdige t-toets met één steekproef

Samenvatting

Toetsingsgrootheid:

t obs =

X( N) − µ s/ N

tobs = 2.3 / 1.155 = 1.991

Nu tobs > tcrit = 1.812

H0

H1

H0 verwerpen

Tweezijdig

µ=µ0

µ≠µ0

t<-tcrit of t> tcrit

Eenzijdig (rechts)

µ=µ0

µ>µ0

t>tcrit

Eenzijdig (links)

µ=µ0

µ<µ0

t< -tcrit

H0 verwerpen!

11


12


X1,,…,XN onafhankelijk en normaal verdeeld

Welke µ0 wordt geaccepteerd: betrouwbaarheidsinterval

met gemiddelde µ, variantie σ2 : X1,,…,XN looptijd algortime pizza-koerier:

Goed Histogram heeft `ongeveer’ vorm normale verdeling (hoeft niet al te streng) Vergelijkebare of zelfde instantie Zelfde parameter instellingen

13

Fout Waarden gebaseerd op verschillend aantal klanten Waarden gebaseerd op verschillende parameter-instellingen


H0: µ = µ0 wordt geaccepteerd in tweezijdige t-toets met

significantie-niveau α (kans op type 1 fout) dan en slechts dan als µ0 ligt in het (1- α)* 100 % betrouwbaarheidsinterval

14

Tweezijdig betrouwbaarheidsinterval

Betrouwbaarheidsinterval: voorbeeld

 s2 s2    X ( N ) − t ( N − 1) α 2 , X ( N ) + t ( N − 1) α 2 N N  

Hoeveel uur per week

besteden informatica studenten aan gamen?

Niet (1-α)100% van de waarnemingen valt binnen het interval

X = 21 S2 (5) = 9 t (4) 0.025 = 2.776

(1-α)100 % betrouwbaarheidsinterval, bijv α= 0.05 µ valt binnen het interval met kans 1-α, t(N-1)α/2 uit statistische tabel t(N-1)α/2 → zα/2 (normale verdeling) voor grote N (N>120) Pag 90 vWijk mag allleen bij een grote steekproef. 15



Student

Aantal uren gamen p week

Marcel

18

Thomas

24

Wouter

24

Steven

21

Paktwis

18

95% betrouwbaarheidsinterval : [21 − 2.776

16

9 ,21 + 5

2.776

9 5

] = [17.28,24.72]


P-waarde ofwel significantie

Stappenplan toetsen

1. 2. 3. 4. 5.

De p-waarde of significatie van een gegeven steekproef uitkomst is de kans dat in de verdeling gegeven door de nulhypothese de waarde van de toetsingsgrootheid wordt behaald of overschreden Geeft aan hoe extreem de waarde van de toetsingsgrootheid is

Hypotheses formuleren Uitgangspunten en keuze toetstechniek (bijv eenzijdige ttoets) Significantieniveau α en beslissingsregel bepalen Toetsingsgrootheid uitrekenen en beslissing nemen Eventueel betrouwbaarheidsinterval bepalen

T : toetsingsgrootheid, t obs waarde toetsingsgrootheid uit steekproef : Tweezijdig : p - waarde = 2 * P(T ≥ t obs gegeven H 0 ) Eenzijdig : p - waarde = P(T ≥ t obs gegeven H 0 )

17


18

P-waarde ofwel significantie


P-waarde ofwel significantie: voorbeeld

Hoe kleiner de p-waarde hoe extremer de uitkomst

Tweezijdige t-toets aantal uren gamen per week UU

informatica studenten Hypothese H0: µ=20

P-waarde kleiner dan gegeven grens (bijv 5%) dan

Alternatieve hypothese H1: µ≠20

significante uitkomst ofwel significant verschil met H0 dus H0 wordt verworpen

Voorbeeld steekproef 18, 25, 28, 21, 23, 18, 18, 26, 25, 21

tobs = 2.3 / 1.155 = 1.991 Mbv Excel TDIST(1.991, df=9,tails=2)= 0.077 0.077 > 0.05 dus geen significante afwijking van H0

19


20


t-toets: 3 soorten onderzoeksvraagstellingen

Student’s t-verdeling

1. t-toets met een steekproef 2. t-toets voor twee onafhankelijke steekproeven

1 – p-waarde

p-waarde/2

p-waarde/2 tobs=1.991

-1.991 21

Een onderzoeker wil weten of er intelligentieverschillen bestaan tussen kinderen van het platteland en kinderen uit de grote steden. Hij neemt een willekeurige steekproef van 40 leerlingen van plattelandsscholen en een willekeurige steekproef van 100 even oude leerlingen van scholen uit de grote steden. Voor plattelandskinderen blijkt dit 111 te zijn en voor stadskinderen 106. Wijst dit op een meer-dan-toevallig verschil?


22

t-toets: 3 soorten onderzoeksvraagstellingen

t-toets met twee onafhankelijke steekproeven: voorbeelden • Bestaat er een (significant) verschil tussen bachelor studenten Informatica en masterstudenten COSC wat betreft leeftijd?

3. T-toets met gepaarde metingen (paired t-

test)

• Zijn vrouwen meer bezorgd over hun veiligheid dan mannen? (zie v Wijk 7.1)

30 zware rokers worden aan een

trainingsprogramma onderworpen om van het roken af te komen, Vóór de training rookten zij gemiddeld 36 sigaretten per dag; één maand na de training rookten dezelfde rokers gemiddeld 28 sigaretten per dag. Is dit verschil groot genoeg om te mogen zeggen dat het trainingsprogramma effect heeft?

23



• Is er een (significant) verschil tussen uitwonende en thuiswonende studenten Informatica wat betreft het geld dat zij te besteden hebben? • Is er verschil een significant verschil in looptijd van het forcedirected graph algoritme tussen grafen met 100 punten en 200 kanten die Bipartiet zijn en grafen met 100 punten en 200 kanten die niet bipartiet zijn. 24


t-toets met twee onafhankelijke steekproeven

t-toets met twee onafhankelijke steekproeven

Onder aanname van H0: µ1 =µ2 Toetsingsgrootheid:

We meten één afhankelijke interval of ratio variabele

t =

twee (onafhankelijke) groepen t-test oftewel twee

onafhankelijke steekproeven

(X − µ )− (X 1

1

2

− µ2

s X1 −X2

X11, X12, ..,X1N1

)= X −X 1

uit t - verdeling df = N1 + N 2 − 2

2

s X1 −X2

X21, X22, ..,X2N2

Aannames: Afhankelijke variabele (meetresultaten) normaal verdeeld Gelijke variantie (niet strict: klopt meestal wel met even grote steekproeven) H0: µ 1 = µ 2

s

X1−X2

=

2

2

sX s + X N1 N 2

met `pooled variance' s X = 2

ook wel µ1 - µ2 = 0

vrijheidsgraden: N1 + N2 - 2

en s 2X1 , s 2X 2 steekproef

In Excel: t-Test: Two-Sample Assuming Equal Variances

s 2X1 ( N1 − 1) + s 2X 2 ( N 2 − 1) N1 + N 2 − 2

varianties

Verder analoog aan t-toets met een steekproef 25


26

t-toets met twee onafhankelijke steekproeven (1-α)% betrouwbaarheidsinterval:

[( X 1 − X 2 ) − t (df )α 2 s X 1− X 2 , ( X 1 − X 2 ) + t (df )α 2 s X 1− X 2 ]


Voorspellende waarde van de onafhankelijke variable: verklaarde variantie bij onafhankelijke metingen: percentage verklaarde

variantie Hoeveel van de verschillen in de scores op de afhankelijke variabele wordt verklaard doordat ze uit een verschillende groep afkomstig zijn?

Percentage Verklaarde Variantie = ω 2 * 100 ( t obs − 1) 2

ω 2 = max(

27


28

( t obs + N 1 + N 2 − 1) 2

,0 )


Interpretatie verklaarde variantie

T-toets voor gepaarde metingen

Roken 30 rokers na een intensief trainingsprogramma

Vuistregel: een verklaarde variantie van meer dan 1% is een zwak effect meer dan 5% een matig effect meer dan 20% een sterk effect

29


significant minder? Liever een hotelarrangement of een

bungalowarrangement? (zie v Wijk 7.2) Convergeert het force-direct graph algoritme bij parameters (sA,uA,rA) langzamer of sneller dan bij (sB,uB,rB)?

30

T-toets voor gepaarde metingen: voorbeelduitwerking


T-toets voor gepaarde metingen: voorbeelduitwerking

Paren van observaties:

Toetsingsgrootheid:

t=

bijv. 41 testgrafen met 100 punten Run op elk van de testgrafen het force-direct graph

We stellen een significantieniveau van α = .01

algoritme bij parameters (sA,uA,rA) en met (sB,uB,rB) Voor elke graaf • X1 het aantal iteraties bij (sA,uA,rA) en • X2 het aantal iteraties bij (sB,uB,rB) Neem aan X1 en X2 `ongeveer’ normaal verdeeld Voor ieder paar waarnemingen bereken je de verschilscore D=X1-X2

Stel je vindt

leverde gemiddeld 23 méér iteraties op dan (sA,uA,rA) ) Stel je vindt een standaardafwijking van s D = 51 Nu

steekproef met hypothese

31

sD N

= 0 Onderzoeksmethoden: statistiek 3

Dobs = −23

((sB,uB,rB)

Verder werken met D als bij de t-toets met een

H0 : D

Dobs − D sD N

32

=

51 40

= 8.064


T-toets voor gepaarde metingen: voorbeelduitwerking •

Voorspellende waarde van de onafhankelijke variabele: consistentie van het effect

Beslissingsregel: Verwerp H0 indien tobs ≤ -tcrit of tcrit ≤ tobs Accepteer H0 indien -tcrit < tobs < tcrit

bij gepaarde metingen: H0 verworpen dus verschil in bepaalde richting Mogen we nu ook zeggen dat tenminste 50% van de proefpersonen/test instanties een verschil in de richting van het effect zal laten zien consistentie van effect Aantal gepaarde metingen met het effect waarop je mag zeggen dat meer dan 50% van de proefpersonen/test instanties in de richting van het effect zal scoren

Criterium: Tweezijdige toetsing; α = .01; met tabel tcrit(df 40) = 2.704 Dobs − D − 23 − 0 = = −2.852 Waarde toetsingsgrootheid: t obs =

• •

sD

8.064

N Conclusie: verwerp H0 want tobs ≤ -tcrit: Er is een significant verschil tussen de twee parameter-instellingen We zien (sB,uB,rB) levert méér iteraties op dan (sA,uA,rA)

• •

33


.01


34

T-toets voor gepaarde metingen: de formules

Voorbeeld

•

We zien (sB,uB,rB) levert méér iteraties op dan (sA,uA,rA)

t =

N = 41 minimale aantal = 28.44 = 29


Dobs − D sD

df = N −1

Onder aanname van H0 : D

Als tenminste 29 van de testgrafen meer iteraties nodig heeft bij (sB,uB,rB) dan bij (sA,uA,rA) dan mogen we concluderen dat in het algemeen dit bij tenminste de helft van de grafen het geval zal zijn.

35

  Minimale aantal = 0.5( N + 1) + 1.163 N .

Bij α =.05 Minimale aantal = 0.5( N + 1) + 0.823 N

is:

= 0

D = X1 − X 2 sD =

Dobs t = sD

formule voor (1-α)% betrouwbaarheidsinterval

[ Dobs − t (df ) α 2 s D , Dobs + t (df ) α 2 s D ] 36


sD N

Wat als steekproef-waarnemingen niet normaal verdeeld zijn?

Chi-kwadraat toets

Met een Chi2 (Χ2) toets ga je na hoe waarschijnlijk het is

T-toets is een parametrische toets. Gebaseerd op aanname dat steekproefwaarnemingen normaal verdeeld zijn.

dat verhoudingsmaten aan bepaalde verwachtingen of voorwaarden voldoen ‘goodness-of-fit’, multidimensionaal Geen aanname vooraf op bepaalde verdeling

1. Neem het gemiddelde van een aantal waarnemingen. Dit is

normaal verdeeld volgens Centrale Limietstelling. Bijv de gemiddelde looptijd van 20 restarts van Simulated

Annealing

2. Wilcoxon signed-rank test

http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test Dit is een niet parametrische test (geen aanname op de verdeling van de steekproefwaarnemingen).

37


38


Voorbeeld: steekproef N=30, K mogelijke uitkomstwaarden

Voorbeeld

H0: resultaten komen overeen met de verwachte waardering

Enquete resultaat Force-

directed graph-drawing: Het getekende plaatje is

1

2

3

4

5

Geobserveerde frequentie Oi

1

1

6

12

10

Verwachte frequentie Ei

3

3

6

9

9

1. Erg lelijk 2. Lelijk 3. OK 4. Mooi 5. Erg mooi

Verwachte waardering: 1. 10%

K

toetsingsgrootheid : Χ 2 = ∑

2. 10% 3. 20%

i =1

4. 30 %

K aantal mogelijke uitkomstwaarden

5. 30 % 39

(Oi − Ei ) 2 Ei


40


Voorwaarden voor een Χ2 toets

Χ2 volgt chi-kwadraat verdeling met df=K-1 vrijheidsgraden

De steekproefelementen zijn onafhankelijk van elkaar en

Χ2(df)

willekeurig getrokken

α

Iedere observatie kan in precies één cel van de tabel

worden geklassificeerd De verwachte celfrequenties zijn voldoende groot, d.w.z.

Significantie-niveau α

minder dan 20% van de cellen heeft Ei < 5

Voorbeeld : α = 0.05 www.statsoft.com

geen enkele cel heeft Ei < 1

Χ 2 = 3.7778 X α2 (df ) = X 02.05 (4) = 9.488

2 2 Accepteer H0 als Χ ≤ Χ α (df )

41

(Tabel D of in Excel CHINV(0.05,4)) H 0 accepteren


42

Kruistabel voorbeeld voorkeur Spelcomputer Man

Vrouw

Kind

4

10

16

30

PlayStation 4

9

17

30

Wii

2

11

27

40

10

30

60

100

Xbox

Man

Vrouw

Kind

O11

O12

O13

O1.

PlayStation O21

O22

O23

O2.

Wii

O31

O32

O33

O3.

O.1

O.2

O.3

N

Xbox

43



Chi-kwadraat-toets onafhankelijkheid in kruistabel H0 : Elke groep (man, vrouw, kind) heeft dezelfde

verdeling van voorkeuren over de verschillende spelcomputers, dus voorkeur is onafhankelijk van de groep H1: bij minstens een van de groepen is de verdeling anders. R: aantal rijen en C: aantal kolommen

E ij =

(Oi. * O. j )

Χ2 = ∑ i, j

44

N (Oij − Eij ) 2 Eij

df = (R - 1)(C - 1)


t-toets met één steekproef Onderzoeksmethoden: Statistiek 3 t obs = s N Marjan van den Akker Tweezijdige t-toets met één steekproef

Recommend Documents