HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)
1
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
DATA STRUKTUUR Afhankelijke variabele: Eén kontinue variabele
Onafhankelijke variabele(n): - één discrete variabele:
één gecontroleerde factor
- twee discrete variabelen: twee gecontroleerde factoren - n discrete variabelen:
n gecontroleerde factoren
- n continue variabelen:
REGRESSIE ANALYSE
- discrete en continue variabelen: COVARIANTIE ANALYSE = ANCOVA
2
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
Voorbeeld : Vergelijking van haemoglobine bij patienten die lijden aan drie ziekten
Diagnose
Ziekte A
Ziekte B
Ziekte C
Metingen
13 13 15 12
9 10 11 10 10
7668
Aantal metingen
4
5
4
Gemiddelde
13,25
10,00
6,75
Voor iedere groep zijn er verschillende waarnemingen, dit zijn de replicaties.
Vraag: Is het gemiddeld gehalte aan haemoglobine gelijk voor de drie ziekten ?
3
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
Men wenst na te gaan of de drie gemiddelden gelijk zijn. Dit komt overeen met de nulhypothese: H0: µ1 = µ2 = µ3
Hiervoor gebruikt men variantie analyse met één gecontroleerde factor (één discrete variabele), nl. de ziekte
4
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
Methodologie: De totale variabiliteit wordt gesplitst in twee delen: 1) de variabiliteit van de metingen voor eenzelfde ziekte (INTRA) 2) de variabiliteit tussen ziekten (INTER)
Het effect van de factor (ziekte) wordt getoetst door de twee bronnen van variabiliteit te vergelijken.
5
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
Een maat voor de totale variabiliteit wordt gegeven door:
~ S2 =
=
1 n ∑ ( x i − x) n − 1 i =1
2
1 KS(totaal) n −1
KS(totaal) = totale kwadratensom n
KS(totaal) = ∑ ( x i − x )
2
i =1
=
n
2 ∑ xi i =1
( ∑ xi ) 2 − n
6
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
In het voorbeeld: n
2 2 2 2 2 2 ∑ xi = 13 + 13 + 15 + 12 + 12 + ... = 1394
i =1 n
∑ xi = 13 + 13 + 15 + 12 + 12 + ...
i =1
KS(totaal) = 1394 -
= 130
130 × 130 = 1394 - 1300 = 94 13
7
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
KS(totaal) wordt gesplitst in twee delen
- deel 1: KS(factor) komt overeen met INTER variabiliteit
- deel 2: KS(residu) (of fout) komt overeen met INTRA variabiliteit
8
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
KS(factor) = deel te wijten aan de ziekte =
3
2 ∑ nj ( x j − x)
j =1
13
C12 C22 C32 = ( + + )− n1 n2 n3
( ∑ xi ) 2 i =1
n
waar: nj = aantal metingen voor ziekte j
x j = gemiddelde voor ziekte j Cj = som der metingen voor ziekte j
In het voorbeeld:
532
50 2
272
130 2 + + )− KS(ziekte) = ( 4 5 4 13 = 1384,5 - 1300 = 84,5
9
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
KS(residu) = deel te wijten aan de variabiliteit binnen elke ziekte 13
= ∑ ( xi − x j ) 2 i =1
=
13
∑
i =1
xi2
C12 C22 C32 -( + + ) n1 n2 n3
In het voorbeeld:
KS(residu) = 1394 - 1384,5 = 9,5
10
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
KS (totaal) = KS (factor) + KS (residu)
94
= 84,5
+ 9,5
11
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
VRIJHEIDSGRADEN
Voor iedere term wordt de variantie geschat door de kwadraatsom te delen door het aantal vrijheidsgraden Het aantal vrijheidsgraden (VG) geeft aan hoeveel termen van een som kunnen worden veranderd zonder het totaal te veranderen.
Men heeft voor de verschillende termen: KS(totaal) ➾ VG(totaal) = n - 1 KS(ziekte) ➾ VG(ziekte) = k - 1 KS(residu) ➾ VG(residu) = (n - 1) - (k - 1) = n - k
Het aantal vrijheidsgraden van het residu wordt ook gegeven door: (n1-1) + (n2-1) + (n3-1) + .... = n-k
12
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
VARIANTIE ANALYSE TABEL
Bron van variatie
KS
VG
GK
Ziekte Residu Totaal
In de laatste kolom komen de gemiddelde kwadraatsommen: GK = KS / VG
13
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
VARIANTIE ANALYSE TABEL
Bron van variatie
KS
VG
GK
Ziekte
84,5
2
42,25
Residu
9,5
10
0,95
Totaal
94,0
12
De nulhypothese wordt nagegaan door middel van een F-toets. Hiervoor moeten de volgende voorwaarden worden voldaan: • Normale verdeling van de residuën • Gelijke variantie in de verschillende groepen • Onafhankelijkheid van de waarnemingen
14
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
TOETS OP GELIJKHEID VAN GEMIDDELDEN
F = GK (factor) / GK (residu) = INTER / INTRA
In het voorbeeld:
F = 42,25 / 0,95 = 44,47
Men vergelijkt deze waarde met deze in een tabel voor de Fisher verdeling met 2 en 10 vrijheidsgraden. Men gebruikt een éénzijdige tabel (de F-verdeling is een positieve verdeling). De gevonden waarde op het 5% niveau is 4,10.
15
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
CONCLUSIE
Men verwerpt de nulhypothese omdat de berekende waarde groter is dan de waarde in de tabel, op het 5% niveau (4,10). De GK (ziekte) is veel groter dan de GK (residu): p < 0,05 (en zelfs p < 0,005)
Het besluit is dat het gemiddeld haemoglobine niveau verschillend is voor patienten met de drie aandoeningen.
16
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
OPSPOREN VAN VERSCHILLEN
Indien de globale F-toets een significant verschil tussen de groepen aantoont worden bijkomende toetsen gebruikt om na te gaan tussen welke groepen deze bestaan: de RANGE toetsen.
Veelgebruikte range toetsen zijn de SNK toets (STUDENT-NEUMANN-KEULS) en de SCHEFFE toets
17
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
VOORBEELD VAN COMPUTER PROGRAMMA
Met SPSS kan men variantieanalyse modellen gebruiken met de algemene instruktie ANOVA of met de instruktie ONEWAY (voor ANOVA met één gecontroleerde factor)
Deze laatste instruktie geeft voor het voorbeeld de volgende output:
18
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
WISKUNDIGE MODELLEN
Het doel is de verklaring van een waarneming. In een model met één gecontroleerde factor hangt de waarneming af van deze factor en van het residu
yij = µ + αj + εij waar µ = algemeen gemiddelde αj = afwijking door niveau j van de factor εij = afwijking te wijten aan de meting (residu)
19
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
VARIANTIE ANALYSE MET TWEE GECONTROLEERDE FACTOREN
Veronderstel dat twee discrete factoren een invloed hebben op de meting, bv. ziekte en geslacht. Een mogelijk wiskundig model is: yijh = µ + αj + βh + εijh waar µ = algemeen gemiddelde αj = afwijking voor ziekte j βh = afwijking voor geslacht met code h εijh = afwijking te wijten aan de meting (residu)
code voor geslacht: h = 1: man h = 2: vrouw
20
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
VARIANTIE ANALYSE MET TWEE GECONTROLEERDE FACTOREN EN INTERACTIE
Interactie tussen ziekte en geslacht betekent dat het verschil tussen de ziekten verschillend is bij mannen en vrouwen (voorbeeld: voor mannen een groot verschil en voor vrouwen geen verschil).
Om dit te onderzoeken kan volgend model worden gebruikt: yijh = µ + αj + βh + γjh + εijh waar µ = algemeen gemiddelde αj = afwijking voor ziekte j βh = afwijking voor geslacht h γjh = interactie term εijh = afwijking te wijten aan de meting (residu)
21
Theorie Statistiek – Les 14
VARIANTIE ANALYSE (ANOVA)
VARIANTIE ANALYSE VOOR HERHAALDE METINGEN
Wanneer verschillende metingen worden uitgevoerd voor elk object (of elke patient) wordt de analyse uitgevoerd met variantie analyse voor herhaalde metingen. Een bijzonder geval is de PRE-TEST POST-TEST ANALYSE Model met twee medicaties (A en B) en twee perioden (vóór en na de behandeling). Men onderzoekt drie effekten: 1) Interactie tussen behandeling en tijd: Is de evolutie in de tijd dezelfde voor de twee behandelingen?
2) Effect van de tijd: Is er een globale evolutie tijdens de behandeling?
3) Effect van de behandeling: Is er een globaal verschil tussen behandelingen?
22
Theorie Statistiek – Les 14