ANOVA
Egy faktor szerinti ANOVA Nevével ellentétben nem szórások, hanem átlagok összehasonlítására szolgál
Több független mintánk van, elemszámuk
p1, p2, p3 ,..., pr
y1, y2 , y3 ,..., yr ; s12 , s22 , s32 ,...,sr2
H 0 : µ1 = µ 2 = µ 3 = ⋅ ⋅ ⋅ = µ r
ANOVA
11
1. példa (Box-Hunter-Hunter: Statistics for Experimenters, J. Wiley, 1978, p. 165) Véralvadási idő (sec) négyféle diéta esetén veralv.sta
A 62 60 63 59
B 63 67 71 64 65 66
Diéta C 68 66 71 67 68 68
H0 : µ1 = µ2 = µ3 = µ4
D 56 62 60 61 63 64 63 59
ANOVA
22
ANOVA
72 70 68
CTIME
66 64 62 60 58 56 54 A
B
C
D
Median 25%-75% Non-Outlier Range Outliers Extremes
DIET
ANOVA
33
Ha nincs különbség a csoportok között, csak a véletlen ingadozás miatt térnek el egymástól az átlagok.
σˆ y2
s A2
kétféleképpen adható meg: • ismétlések közötti eltérés • átlagok közötti eltérés
és
s R2
is
σ y2
ANOVA
körül ingadozik
44
ANOVA
∑(y pi
Az i-edik csoporton belüli ingadozás varianciája
si2 =
j =1
− yi⋅
ij
)
2
pi − 1 pi
∑y
(a csoport-átlagtól való eltérések)
j =1
yi ⋅ =
ij
pi
Az egyesített csoportokon belüli szórásnégyzet (ha σ konstans):
∑∑(y − y ) = ∑ p −r i⋅
ij
σ$ y2 = sR2
i
2
j
i
∑ s ( p − 1) = ∑ p −r 2 i
i
i
i
i
i
ANOVA
55
r
s A2 =
F0 =
s s
2 A 2 R
s R2
∑ p (y i
i =1
− y ⋅⋅ )
2
i⋅
(between)
r −1
∑∑ (y = ∑p i
− yi⋅ )
2
ij
j
i
−r
(within)
i
ha a valóságban van különbség (H1) F0 =
f(F)
s A2 >F s R2
α F
Fα
ANOVA
66
ANOVA
ANOVA táblázat Az eltérés forrása
szabadsági szórás-négyzet fokszám
eltérés-négyzetösszeg
A hatása (csoportok közötti) Ismétlések (csoportokon belüli)
S R = ∑ ∑ ( yij − yi ⋅ )
Teljes
S 0 = ∑ ∑ ( y ij − y⋅⋅ )
S A = ∑ pi ( yi ⋅ − y⋅⋅ )
r-1
s 2A =
∑ pi − r
s R2 =
2
i
i
i
2
j
∑p
s 2A sR2
SA r −1 SR ∑ pi − r
i 2
F
i
i
−1
i
j
S0 ún. teljes négyzetösszeg. Az A faktor hatása jelentős (elutasítjuk a H0 hipotézist), ha s 2A / s R2 ≥ Fkrit ANOVA
77
Kiegyensúlyozott terv: p1=p2=...=pr=p Az eltérés forrása A hatása (csoportok közötti) Ismétlések (csoportokon belüli) Teljes
eltérés-négyzetösszeg
szabadsági fok
S A = p ∑ ( yi⋅ − y⋅⋅ )
2
r-1
i
S R = ∑ ∑ ( y ij − y i ⋅ ) i
r(p-1)
j
S 0 = ∑ ∑ ( y ij − y ⋅⋅ ) i
2
2
szórásnégyzet
F
SA r −1
s 2A sR2
s 2A =
s R2 =
S
R r ( p − 1)
rp-1
j
ANOVA
88
ANOVA
Summary fülön: Descriptive cell statistics Effect Total DIET DIET DIET DIET
Descriptive Statistics (Veralv) Level of N CTIME CTIME Factor Mean Std.Dev. 24 64.00000 3.844816 A 4 61.00000 1.825742 B 6 66.00000 2.828427 C 6 68.00000 1.673320 D 8 61.00000 2.618615
CTIME Std.Err 0.784820 0.912871 1.154701 0.683130 0.925820
i
pi
ij
H 0 : µ1 = µ 2 = µ 3 = µ 4
Summary fülön: Test all effects
Effect Intercept DIET Error
σˆ y = σˆ y
r
Univariate Tests of Significance for CTIME (Veralv) Sigma-restricted parameterization Effective hypothesis decomposition SS Degr. of MS F p Freedom 92521.41 1 92521.41 16521.68 0.000000 228.00 3 76.00 13.57 0.000047 112.00 20 5.60
∑p(y i =1
s 2A =
s R2
∑ s ( p − 1) = ∑ p −r i
i
i
i
·
az εij „hibák” várható értéke zérus,
·
2 varianciájuk σ e , konstans
·
99
yij = µi + ε ij
az εij „hibák” csoportokon belül és csoportok között is függetlenek egymástól,
·
az εij „hibák” normális eloszlásúak (nem az yij adatok!).
ANOVA
− y⋅⋅ )
r −1
ANOVA
Feltételezések:
i⋅
between 2 i
within
i
10 10
2
ANOVA
a faktor i-edik szintje (i-edik diéta) az i-edik csoporton belüli j-edik ismétlés
Modell
kísérleti (nemcsak mérési) hiba
yij = Yi + ε ij = µ i + ε ij
mért érték
igazi érték várható érték
ANOVA
yij = µi + ε ij
11 11
H 0 : µ1 = µ 2 = µ 3 = ⋅ ⋅ ⋅ = µ r átlag-modell
µi = µ + α i i=1,…,r
αi a faktor i-edik szintjének (i-edik diéta) hatása µ közös érték; r+1 paraméter r
∑ pα i
i
=0
sum to zero
i
αr = 0 yij = µ + α i + ε ij
set to zero
H 0 : α i = 0, i = 1,..., r hatás-modell ANOVA
12 12
ANOVA
Yˆi = µˆ + αˆ i
Becslések
φ = ∑∑ ( yij − µˆ − αˆ i )2 = min n
pi
i
j
∂φ = −2∑∑ ( yij − µˆ − αˆ i ) = 0 ∂ µˆ i j
∑∑ y
ij
i
= µˆ ∑ pi + ∑ piαˆ i
j
i
∑∑ y µˆ = ∑p i
j
i
ij
i
=0
∑py. = = y.. ∑p
i
i
i
i
főátlag
i
i ANOVA
13 13
∂φ = −2∑ ( yij − µˆ − αˆ i ) = 0 ∂ αˆ i j
∑y
ij
= µˆpi + piαˆ i
j
αˆ i = yi⋅ − y⋅⋅
hatás, csak r-1 független
Yˆi = µˆ i = yi⋅
az i-edik csoport átlaga
ANOVA
14 14
ANOVA
Konfidencia-intervallum az egyes csoportok várható értékére Yˆi = µˆ i = yi⋅
Pont-becslés:
t=
Intervallum-becslés: s y2i⋅ =
s R2 pi
yi ⋅ − µ i s yi⋅
szab. fokszáma:
∑p
i
−r
i
Az i-edik csoport várható értékének konfidencia-intervalluma: yi⋅ − tα 2 s R
pi < µ i ≤ yi⋅ + tα 2 s R
pi
ANOVA
Summary fülön: Coefficients
Effect Intercept DIET DIET DIET
Effect Intercept DIET DIET DIET DIET
15 15
sigma-restricted
Parameter Estimates (Veralv) Sigma-restricted parameterization Level of Column CTIME CTIME CTIME CTIME -95.00% +95.00% Effect Param. Std.Err t p Cnf.Lmt Cnf.Lmt 1 64.00000 0.497912 128.5367 0.000000 62.96137 65.03863 A 2 -3.00000 0.973610 -3.0813 0.005889 -5.03092 -0.96908 B 3 2.00000 0.845330 2.3659 0.028195 0.23667 3.76333 C 4 4.00000 0.845330 4.7319 0.000128 2.23667 5.76333
Parameter Estimates (Veralv) (*Zeroed predictors failed tolerance check) Over-parameterized model Level of Column Comment CTIME Effect (B/Z/P) Param. 1 61.00000 A 2 Biased 0.00000 B 3 Biased 5.00000 C 4 Biased 7.00000 D 5 Zeroed* 0.00000
CTIME CTIME CTIME -95.00% +95.00% Std.Err t p Cnf.Lmt Cnf.Lmt 0.836660 72.90895 0.000000 59.25476 62.74524 1.449138 0.00000 1.000000 -3.02285 3.02285 1.278019 3.91230 0.000864 2.33410 7.66590 1.278019 5.47723 0.000023 4.33410 9.66590
ANOVA
16 16
ANOVA
H0 : µ1 = µ2 = µ3 = µ4
elutasítva
Mindegyik különböző?
µ1 + µ4
µ2 = µ3
µ1 = µ4
2
=
µ2 + µ3 2
Összehasonlítások: tervezett, post hoc
ANOVA
H 0 : µ 2 = µ3
t0 =
17 17
y2⋅ − y3⋅ s y 2⋅ − y3⋅
1 1 Var ( y2⋅ − y3⋅ ) = σ e2 + p2 p3
1 1 s y22⋅ − y3⋅ = s 2 + p2 p3
s22 és s32 egyesítésével a szabadsági fok n2+n3-2=6+6-2=10 lenne, sR2
szabadsági foka
∑ p − r = 24 − 4 = 20 i
i
t0 =
y2⋅ − y3⋅ 1 1 sR + p2 p3
LSD-próba (Least Significant Difference)
ANOVA
18 18
ANOVA
H0 : µ2 = µ3
Általánosítás: (k-adik nullhipotézis)
∑c
=0
ik
H 0k : ∑ cik µi = 0
H0 : µ2 − µ3 = 0
i
cik kontraszt-együtthatók
i
Ck = ∑ cik yi⋅
kontraszt
i
C1 = y2⋅ − y3⋅
H10 : µ2 − µ3 = 0
c11=0, c21=1, c31=-1, c41=0
ANOVA
19 19
Var (Ck ) = σ e2 ∑
E (Ck ) = ∑ cik µ i
i
i
cik2 pi
H 0k : E (Ck ) = ∑ cik µ i = 0 i
t0 =
∑c
yi ⋅
ik
i
sR
∑c
2 ik
pi
i
ortogonálisak a kontrasztok, ha minden k≠l-re ekkor függetlenek az összehasonlítások ANOVA
∑c
c =0
ik il
i
20 20
ANOVA
H10 : µ2 − µ3 = 0
∑c
c =0
ik il
H02 : µ1 − µ4 = 0
µ1 = µ2 = µ3 = µ4
H30 : µ1 − µ2 − µ3 + µ4 = 0
µi µ1 µ2 µ3 µ4 Σ
i 1 2 3 4
H10
H 02
H 30
ci1 0 1 –1 0 0
ci2 1 0 0 –1 0
ci3 1 –1 –1 1 0
ci1 ci2 0 0 0 0 0
ci1 ci3 0 –1 1 0 0
ci2 ci3 1 0 0 –1 0
ANOVA
4 = 6 2
?
i
21 21
összehasonlítás (1-2, 1-3, 1-4, 2-3, 2-4, 3-4)
egy összehasonlításra az elsőfajú hiba valószínűsége α* (pl. 0.05) (individual error rate) hogy nem követünk el elsőfajú hibát: 1- α* hogy r független összehasonlítás egyikénél sem követünk el elsőfajú hibát:
(1 − α )
* r
hogy r független összehasonlítás valamelyikénél elkövetünk elsőfajú hibát: α = 1− 1−α *
(
(family error rate)
pl.
ANOVA
1 − (1 − 0.5) = 0.265 6
22 22
)
r
ANOVA
Nem független összehasonlítások esetén
α ≤ kα *
Bonferroni-egyenlőtlenség
pl. 6 nem független összehasonlításra
ANOVA
6 ⋅ 0.05 = 0.3
23 23
Post hoc összehasonlítások Post-hoc fülön: LSD
LSD test; variable CTIME (Veralv) Probabilities for Post Hoc Tests Error: Between MS = 5.6000, df = 20.000 DIET {1} {2} {3} {4} Cell No. 61.000 66.000 68.000 61.000 1 A 0.003803 0.000181 1.000000 2 B 0.003803 0.158776 0.000864 3 C 0.000181 0.158776 0.000023 4 D 1.000000 0.000864 0.000023
Post-hoc fülön: Bonferroni Bonferroni test; variable CTIME (Veralv) Probabilities for Post Hoc Tests Error: Between MS = 5.6000, df = 20.000 DIET {1} {2} {3} {4} Cell No. 61.000 66.000 68.000 61.000 1 A 0.022815 0.001083 1.000000 2 B 0.022815 0.952656 0.005182 3 C 0.001083 0.952656 0.000139 4 D 1.000000 0.005182 0.000139
ANOVA
0.003803·6=0.022815
24 24
ANOVA
Tervezett összehasonlítások Planned comps fülön: Specify contrasts µ1 − µ4 = 0 Between Contrast Coefficients (Veralv) Coefficients for each cell in the selected effect Cell No. DIET Cell N CNTRST1 Univariate Test of Significance for Planned Comparison (Veralv) 1 A 4 1 Dependent variable: CTIME 2 B 6 0 Sum of Degr. of Mean F p 3 C 6 0 Source Squares Freedom Square 4 D 8 -1 Effect 0.0000 1 0.000000 0.000000 1.000000 Error 112.0000 20 5.600000
µ −µ =0
Between Contrast Coefficients (Veralv) 2 3 Coefficients for each cell in the selected effect Cell No. DIET Cell N CNTRST1 1 A 4 0 2 B 6 1 Univariate Test of Significance for Planned Comparison (Veralv) 3 C 6 -1 Dependent variable: CTIME 4 D 8 0 Source Effect Error
Sum of Degr. of Mean F p Squares Freedom Square 12.0000 1 12.00000 2.142857 0.158776 112.0000 20 5.60000
ANOVA
Between Contrast Coefficients (Veralv) Coefficients for each cell in the selected effect Cell No. DIET Cell N CNTRST1 1 A 4 1 2 B 6 -1 3 C 6 -1 4 D 8 1
25 25
µ1 + µ4 2
=
µ 2 + µ3 2
µ1 − µ2 − µ3 + µ4 = 0
Univariate Test of Significance for Planned Comparison (Veralv) Dependent variable: CTIME Sum of Degr. of Mean F p Source Squares Freedom Square Effect 203.2941 1 203.2941 36.30252 0.000007 Error 112.0000 20 5.6000
ANOVA
26 26
ANOVA
Mekkora különbséget tudnánk kimutatni? Statistics>Power Analysis>Several Means, ANOVA 1-Way 1-Way ANOVA: Power Calculation 1-Way ANOVA (Fixed Effects) Power vs. RMSSE (Alpha = 0.05, Groups = 4, N = 6) 1.0 .9 .8 .7
Power
.6
∑α
.5
RMSSE =
.4 .3
(r − 1)σ e2
.2 .1 0.0 0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
Root Mean Square Standardized Effect (RMSSE)
ANOVA
27 27
yij = µ + α i + ε ij Pl.ha α1=-3, α2=3, α3= α4=0
RMSSE =
(− 3)2 + 32 + 0 2 + 02 (4 − 1) ⋅ 5.6
=
18 = 1.035 3 ⋅ 5.6
ANOVA
i
2 i
28 28
ANOVA
σ e2 = konst
Homoszkedaszticitás
?
More results>Assumptions fülön: Homogeneity of variances ... Bartlett-próba Tests of Homogeneity of Variances (Veralv) Effect: DIET Hartley Cochran Bartlett df p F-max C Chi-Sqr. CTIME 2.857143 0.381125 1.667956 3 0.644081
érzékeny a normális eloszlás feltételezésére
Levene's Test for Homogeneity of Variances (Veralv) Effect: DIET Degrees of freedom for all F's: 3, 20 MS MS F p Effect Error CTIME 1.444444 2.050000 0.704607 0.560414
Levene-próba
ANOVA
29 29
A feltételezések ellenőrzése a reziduumok vizsgálatával 3.0 2.5
Residuals 1 fülön
.99
2.0 .95
Expected Normal Value
1.5
Normality
1.0 .75
0.5
.55
0.0 -0.5
.35
-1.0
.15
-1.5
.05
-2.0
Pred & resids Predicted results (histogram)
.01
-2.5 -3.0 -7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
Residual
6 5 5
4 3
4
1 No. of obs.
Raw Residuals
2
0 -1 -2
3
2
-3 -4
1
-5 -6 -7 60
61
62
63
64
65
66
67
68
0
69
-8
Predicted Values
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
X <= Category Boundary
ANOVA
30 30
5
6