Project Statistiek Online Oefeningen Statistiek Formularium
Camille Vanderhoeft MOSI August 4, 2009
Contents I
Beschrijvende statistiek
3
1 1-dimensionale verdelingen 1.1 Individuele gegevens xi (i = 1, . . . , N or n) . . . . . . . . . . . 1.2 Gegroepeerde gegevens (xj , Fj ) (j = 1, . . . , k) . . . . . . . . . 1.3 In klassen gegroepeerde gegevens (Ij , Fj ) (j = 1, . . . , k) . . . .
4 4 6 7
2 2-dimensionale verdelingen 2.1 Individuele gegevens (xi , yi ) (i = 1, . . . , N or n) . . . . . . . . 2.2 Gegroepeerde gegevens ((xj , yj ), Fj ) (j = 1, . . . , k) . . . . . . 2.3 Kruistabel ((xi , yj ), Fij ) (i = 1, . . . , r; j = 1, . . . , k) . . . . . .
9 9 10 11
3 Enkelvoudige lineaire regressie 3.1 Regressiemodel en -rechte . . . . . . . . . . . . . 3.2 (Gemiddelde) kwadratensommen, vrijheidsgraden 3.3 Determinatieco¨effici¨enten en F -statistiek . . . . . 3.4 Regressieco¨effici¨enten . . . . . . . . . . . . . . . . 3.5 Voorspelling . . . . . . . . . . . . . . . . . . . . .
12 12 13 14 14 14
II
. . . . . . . en varianties . . . . . . . . . . . . . . . . . . . . .
Combinatoriek en kansrekening
15
4 Basisregels 16 4.1 Combinatoriek . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.2 Kansrekening . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 5 Kansverdelingen 5.1 Discrete verdelingen . . . . . . . . . 5.1.1 Uniforme verdeling . . . . . . 5.1.2 Bernoulli verdeling . . . . . . 5.1.3 Binomiale verdeling . . . . . 5.1.4 Poisson-verdeling . . . . . . . 5.1.5 Geometrische verdeling . . . 5.1.6 Hypergeometrische verdeling 5.2 Continue verdelingen . . . . . . . . . 1
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
17 17 17 17 17 17 18 18 18
5.3 5.4
III
5.2.1 Uniforme verdeling . . . . . . . . . . . . 5.2.2 Normale verdeling . . . . . . . . . . . . 5.2.3 t-verdeling van Student . . . . . . . . . 5.2.4 Chi-kwadraat verdeling . . . . . . . . . 5.2.5 F -verdeling van Fisher-Snedecor . . . . 5.2.6 Exponenti¨ele verdeling . . . . . . . . . . Meerdimensionale normale verdeling . . . . . . Steekproevenverdelingen . . . . . . . . . . . . . 5.4.1 Normaal verdeelde populatie(s) . . . . . 5.4.2 Centrale-limietstelling . . . . . . . . . . 5.4.3 Rekenkundig gemiddelde . . . . . . . . . 5.4.4 Proportie . . . . . . . . . . . . . . . . . 5.4.5 Variantie . . . . . . . . . . . . . . . . . 5.4.6 Correlatiec¨effici¨ent . . . . . . . . . . . . 5.4.7 Verschil van rekenkundige gemiddelden 5.4.8 Verschil van proporties . . . . . . . . . . 5.4.9 Ratio van varianties . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
Meervoudige of multivariate regressie
6 Meervoudige lineaire regressie 6.1 Regressiemodel en -oppervlak, residuen . . . . . . . 6.2 (Gemiddelde) kwadratensommen en vrijheidsgraden 6.3 Determinatieco¨effici¨enten en F -statistiek . . . . . . . 6.4 Regressieco¨effici¨enten . . . . . . . . . . . . . . . . . . 7 Veralgemeende lineaire 7.1 Algemeen . . . . . . 7.2 Logistische regressie 7.3 Probit regressie . . .
IV
. . . . . . . . . . . . . . . . .
18 18 18 18 19 19 19 19 19 19 19 19 19 19 19 20 20
21 . . . .
. . . .
. . . .
. . . .
. . . .
22 22 23 24 24
regressie - GLM 25 . . . . . . . . . . . . . . . . . . . . . . . 25 . . . . . . . . . . . . . . . . . . . . . . . 26 . . . . . . . . . . . . . . . . . . . . . . . 26
Variantie-analyse - ANOVA
8 E´ en-factor ANOVA
27 28
9 Twee-factor ANOVA 30 9.1 Met herhaling . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 9.2 Zonder herhaling . . . . . . . . . . . . . . . . . . . . . . . . . 32 10 ANOVA met herhaalde metingen
2
35
Part I
Beschrijvende statistiek
3
Chapter 1
1-dimensionale verdelingen 1.1
Individuele gegevens xi (i = 1, . . . , N or n)
gemiddelde
1
µ=
N 1 X xi N i=1
x ¯=
n 1X xi n i=1
meetkundig gemiddelde v uN uY N G = t xi of
v u n uY n t xi
i=1
i=1
harmonisch gemiddelde N H = PN
1 i=1 xi
n of Pn
1 i=1 xi
variantie N N 1 X σ2 = (xi − µ)2 = N i=1
1
PN
2 i=1 xi
−
2 N i=1 xi
P
N2
S2 =
n n 1X 1X (xi − x ¯)2 = x2 − x ¯2 n i=1 n i=1 i
s2 =
n 1 X n (xi − x ¯)2 = n − 1 i=1
Pn
=
N 1 X x2 − µ2 N i=1 i
− ( ni=1 xi )2 n(n − 1)
2 i=1 xi
P
Merk op dat inline formules enigszins anders worden getoond, bvb.: µ =
4
1 N
PN i=1
xi
momenten αr =
N 1 X xr N i=1 i
ar =
n 1X xr n i=1 i
µr =
N 1 X (xi − µ)r N i=1
mr =
n 1X (xi − x ¯)r n i=1
cumulatieve frequenties (emprirische verdelingsfuncties; trapfunctie) C(x) = #{i : xi ≤ x} c(x) =
#{i : xi ≤ x} #{i : xi ≤ x} of n N
mediaan x ˜ = x(m+1) =
x(m) +x(m+1) 2
als N of n = 2m + 1 als N of n = 2m
kwantielen • kwartielen K1 , K2 = x ˜, K3 • decielen D1 , . . . , D9 • percentielen P1 , . . . , P99 kwartielgemiddelde ¯ = • K
K1 +2K2 +K3 4
5
1.2
Gegroepeerde gegevens (xj , Fj ) (j = 1, . . . , k)
• er zijn k verschillende geobserveerde waarden xj • of: er zijn k klassen en xj is een representatieve waarde (bvb. klassemidden) voor de j-de klasse (zie volgende sectie) gemiddelde µ=
k 1 X xj Fj N j=1
k 1X x ¯= xj Fj n j=1
meetkundig gemiddelde v u k uY u N t (xj )Fj of G=
v u k uY u n t (xj )Fj
j=1
j=1
harmonisch gemiddelde N H = Pk
Fj j=1 xj
of Pk
n
Fj j=1 xj
variantie σ2 =
k 1 X
N
(xj − µ)2 Fj =
N
Pk
2 j=1 xj Fj −
2 k x F j=1 j j
P
N2
j=1
=
k k 1X 1X 2 (xj − x ¯ ) Fj = x2 Fj − x ¯2 S = n j=1 n i=j j 2
s2 =
k X
1 (xj − x ¯)2 Fj = n − 1 j=1
n
Pk
2 j=1 xj Fj −
k 1 X xr Fj N j=1 j
ar =
k 1X xr Fj n j=1 j
k j=1 xj Fj
n(n − 1)
momenten αr =
P
6
2
k 1 X x2 Fj − µ2 N i=j j
µr =
k 1 X (xj − µ)r Fj N j=1
mr =
k 1X (xj − x ¯)r Fj n j=1
cumulatieve frequenties (trapfunctie; niet voor groepering in klassen) X
C(x) =
Fj
xj ≤x
c(x) =
X
fj
xj ≤x
modus (niet voor groepering in klassen) modus = elke xj waarvoor Fj = max Fl l
mediaan (niet voor groepering in klassen) x ˜ = xj =
xj +xj+s 2
als c(xj−1 ) < 0.5 en c(xj ) > 0.5 als c(xj ) = . . . = c(xj+s−1 ) = 0.5 en c(xj+s ) > 0.5
p-kwantielen (niet voor groepering in klassen) Qp = xj =
1.3
xj +xj+s 2
als c(xj−1 ) < p en c(xj ) > p als c(xj ) = . . . = c(xj+s−1 ) = p en c(xj+s ) > p
In klassen gegroepeerde gegevens (Ij , Fj ) (j = 1, . . . , k)
• Ij = [aj , bj [ (meestal) of [aj , bj ] of ]aj , bj ] of ]aj , bj [ • aj en bj zijn exacte klassegrenzen; aj < bj • formules in vorige sectie zijn geldig (tenzij aldaar anders vermeld), met xj een representatieve waarde (bvb. klassemidden) voor de j-de klasse • verondersteld geordend: bj−1 = aj
7
cumulatieve frequenties (ogief) als x ≤ a1
C(x) = 0 = C(aj ) +
x−aj bj −aj Fj
als aj ≤ x ≤ bj (j = 1, . . . , k) als x ≥ bk
= n or N
als x ≤ a1
c(x) = 0 = c(aj ) +
x−aj bj −aj fj
als aj ≤ x ≤ bj (j = 1, . . . , k) als x ≥ bk
=1 mediaan
mediane klasse = Ij waarvoor c(aj ) ≤ 0.5 en c(bj ) > 0.5 x ˜ = aj + =
0.5−c(aj ) (bj fj
− aj )
aj +bj 2
als Ij de mediane klasse is als c(aj ) = c(bj ) = 0.5
p-kwantielen p-kwantiel klasse = Ij waarvoor c(aj ) ≤ p en c(bj ) > p Qp = aj + =
p−c(aj ) (bj fj
aj +bj 2
− aj )
als Ij de p-kwantiel klasse is als c(aj ) = c(bj ) = p
modus modale klasse = elke [aj , bj ) waarvoor Fj = max Fl l
modus = aj +
Fj − Fj−1 (bj − aj ) als [aj , bj ) de modale klasse is (Fj − Fj−1 ) + (Fj − Fj+1 )
8
Chapter 2
2-dimensionale verdelingen 2.1
Individuele gegevens (xi , yi ) (i = 1, . . . , N or n)
variantie P
N i=1 xi 2 N
P
N i=1 yi
PN
−
σxy
N N 1 X (xi − µx ) (yi − µy ) = = N i=1
Pn
sxy
n 1 X n = (xi − x ¯) (yi − y¯) = n − 1 i=1
− ( ni=1 xi ) ( n(n − 1)
i=1 xi yi
i=1 xi yi
Pn
P
i=1 yi )
correlatieco¨effici¨ent van Pearson (product-momentcorrelatie) ρxy =
N
σxy =r σx σy
N
PN
PN
2 i=1 xi
i=1 xi yi
−
−
N i=1 xi
2 N x i=1 i
P
r
N
P
N i=1 yi
PN
2 i=1 yi −
2 N y i=1 i
P
sxy n ni=1 xi yi − ( ni=1 xi ) ( ni=1 yi ) q P =q P P P sx sy n ni=1 x2i − ( ni=1 xi )2 n ni=1 yi2 − ( ni=1 yi )2 P
P
P
rxy =
P
Spearmans rho (rangcorrelatieco¨effici¨ent van Spearman; met x0i het rangnummer van xi en yi0 het rangnummer van yi ): • er zijn geen samenvallende observaties (ties): ρS = 1 −
6
PN
0 0 2 i=1 (xi − yi ) N3 − N
en rS = 1 −
6
Pn
0 0 2 i=1 (xi − yi ) n3 − n
• er zijn wel samenvallende observaties (ties): Tx + Ty − ni=1 (x0i − yi0 )2 p rS = met: 2 Tx Ty P
9
Tx =
n3 − n −
Pn
2 i=1 (txi
− 1)
en Ty =
12
n3 − n −
Pn
2 i=1 (tyi
− 1)
12
analoog voor ρS Kendalls tau (met C het aantal concordante en D het aantal discordante paren van observaties (xi , yi )): • er zijn geen samenvallende observaties (ties): τ=
C −D C −D of τˆ = N (N − 1)/2 n(n − 1)/2
• er zijn wel samenvallende observaties (ties): C −D τˆ = p met: Tx Ty Tx =
n2 − n −
Pn
i=1 (txi
− 1)
en Ty =
2
n2 − n −
Pn
− 1)
i=1 (tyi
2
analoog voor τ
2.2
Gegroepeerde gegevens ((xj , yj ), Fj ) (j = 1, . . . , k)
• er zijn k verschillende geobserveerde koppels (xj , yj )
σxy
sxy =
ρxy
k X
1 (xj − x ¯) (yj − y¯) Fj = n − 1 j=1 N
σxy = =r σx σy
N
j=1 xj yj Fj
Pk
2 j=1 xj Fj
n
rxy =
Pk
n
−
−
P
P
k j=1 yj Fj
j=1 xj yj Fj −
P
P
k j=1 yj Fj
Pk
k N 1 X (xj − µx ) (yj − µy ) Fj = = N j=1
j=1 xj yj Fj
Pk
k j=1 xj Fj
n(n − 1) −
P
k j=1 xj Fj
2 k x F j j j=1
P
Pk
k j=1 xj Fj N2
j=1 xj yj Fj −
P
r
N
P
k j=1 yj Fj
Pk
k j=1 xj Fj
2 j=1 yj Fj −
P
2 k y F j j j=1
P
k j=1 yj Fj
sxy =r P 2 r P 2 Pk sx sy k k 2 2 F − Pk n j=1 xj Fj − x F n y y F j=1 j j j=1 j j j=1 j j
10
2.3
Kruistabel ((xi , yj ), Fij ) (i = 1, . . . , r; j = 1, . . . , k)
• er zijn (maximaal) k × m verschillende geobserveerde koppels (xi , yj ) σxy =
1 N
Pk
N
Pk Pm
i=1
= 1 n−1
sxy =
n
=
Pm
j=1 (xi
xi yj Fij −
i=1
j=1
Pk
Pm
i=1
− µx ) (yj − µy ) Fij
j=1 (xi
Pk Pm
k i=1 N2
xi Fi+
P
m j=1
yj F+j
−x ¯) (yj − y¯) Fij
xy F − j=1 i j ij
i=1
P
P
k i=1
xi Fi+
P
m j=1
yj F+j
n(n−1)
N
Pk
i=1
Pm
j=1 xi yj Fij
P
k i=1 xj Fi+
−
P
m j=1 yj F+j
ρxy = r P 2 r P P 2 Pk k m m 2 2F x F y F y − N i=1 xi Fi+ − N i i+ j +j +j i=1 j=1 j=1 j n rxy = r n
Pk
i=1
Pk
Pm
2 i=1 xi Fi+
j=1 xi yj Fij −
−
P
k i=1 xi Fi+
P
k i=1 xj Fi+
P
m j=1 yj F+j
2 r P m
n
2 j=1 yj F+j
−
P
m j=1 yj F+j
marginale verdeling van • X: (xi , Fi+ ) (i = 1, . . . , r) met Fi+ = of (xi , fi+ ) (i = 1, . . . , r) met fi+ =
Pm
j=1 Fij
Fi+ F++
en F++ = n of N
alternatief: Fi· i.p.v. Fi+ , fi· i.p.v. fi+ , F·· i.p.v. F++ • Y : (yj , F+j ) (j = 1, . . . , k) met F+j = of (yj , f+j ) (j = 1, . . . , k) met f+j =
Pk
F+j F++
i=1 Fij
en F++ = n of N
alternatief: F·j i.p.v. F+j , f·j i.p.v. f+j , F·· i.p.v. F++ conditionele verdeling van • X gegeven Y = yj : (xi , fi|j ) (i = 1, . . . , r) met fi|j =
Fij F+j
alternatief: fxi |yj i.p.v. fi|j om eventuele verwarring te vermijden • Y gegeven X = xi : (yj , f(i)j ) (j = 1, . . . , k) met f(i)j =
Fij Fi+
alternatief: fyj |xi i.p.v. fj|i om eventuele verwarring te vermijden
11
2
Chapter 3
Enkelvoudige lineaire regressie 3.1
Regressiemodel en -rechte
het lineaire model (formulering met residuen) yi = β0 + β1 xi + i (i = 1, . . . , n) assumpties xi vast,
x niet constant
E[i ] = 0, V ar[i ] = σ 2 , Cov(i , j ) = 0 (i 6= j) i ≈ N (0, σ 2 ) het lineaire model (formulering zonder residuen) µi = E[yi ] = β0 + β1 xi de geschatte regressierechte (RR y|x) yˆ = b0 + b1 x b1 =
rxy sy sxy = s2x sx
b0 = y¯ − b1 x ¯ de geschatte residuen ei = yi − yˆi (i = 1, . . . , n)
12
3.2
(Gemiddelde) kwadratensommen, vrijheidsgraden en varianties
kwadratensommen (sums of squares, SS) en vrijheidsgraden (degrees of freedom, DF) • niet-verklaarde of residuele kwadratensom (error sum of squares) SSE =
n X
e2i =
n X
(yi − yˆi )2 ,
DFE = n − 2
i=1
i=1
• verklaarde of regressiekwadratensom (regression sum of squares) SSR =
n X
(ˆ yi − y¯)2 ,
DFR = 1
i=1
• totale kwadratensom (total sum of squares) SST =
n X
(yi − y¯)2 ,
DFT = n − 1
i=1
gemiddelde kwadratensommen (mean squares, MS) • gemiddelde kwadratische fout (mean square error ) MSE =
SSE =σ ˆ2 n−2
E[MSE] = σ 2 • gemiddelde regressiekwadratensom (regression mean squares) MSR =
SSR 1
E[MSR] = σ 2 + (n − 1)(σy2 − σ 2 ) • gemiddelde totale kwadratensom (total mean squares) MST =
SST = s2y n−1
E[MST] = σy2 13
varianties (beschrijvende statistiek; exploratief) • totale variantie Sy2 =
SST n−1 = MST n n
• residuele of niet-verklaarde variantie 2 2 Sy·x = Sy2 (1 − rxy )=
SSE n−2 = MSE n n
• verklaarde variantie 2 Syˆ2 = Sy2 rxy =
3.3
Determinatieco¨ effici¨ enten en F -statistiek R2 =
SSR SSE 2 =1− = rxy SST SST
2 Radj =1−
F =
3.4
MSR SSR = n n
MSE n−1 =1− (1 − R2 ) MST n−2
MSR R2 = ≈ F1,n−2 MSE (1 − R2 )/(n − 2)
Regressieco¨ effici¨ enten s
3.5
s
Pn
2 i=1 xi
E[b0 ] = β0 ,
sb0 = σ ˆ
E[b1 ] = β1 ,
sb1 = pPn
n
Pn
i=1 (xi −
x ¯)2
σ ˆ , ¯)2 i=1 (xi − x
=σ ˆ
1 x ¯2 , + Pn n ¯)2 i=1 (xi − x
b0 − β0 ≈ tn−2 sb0
b1 − β1 ≈ tn−2 sb1
Voorspelling
geschatte (gemiddelde) verwachte y voor x = x0 s
µ ˆ(x0 ) = ax0 + b,
sµˆ = σ ˆ
1 (x0 − x ¯)2 + Pn , n ¯)2 i=1 (xi − x
µ ˆ(x0 ) − µ(x0 ) ≈ tn−2 sµˆ
geschatte individuele y voor x = x0 s
yˆ(x0 ) = ax0 + b,
syˆ = σ ˆ 1+
(x0 − x ¯)2 1 + Pn , n ¯)2 i=1 (xi − x
14
yˆ(x0 ) − y(x0 ) ≈ tn−2 syˆ
Part II
Combinatoriek en kansrekening
15
Chapter 4
Basisregels 4.1
Combinatoriek n! = n(n − 1)(n − 2) · · · 1 n r
Cnr = n+1 r+1
!
=
!
=
n
(a + b) =
n X k=0
n! =
4.2
√
n! r!(n − r)! n r n r
!
n r+1
!
!
ak bn−k
1
2πe−n nn+ 2
Kansrekening P (A|B) =
P (A) =
P (A ∩ B) P (B)
k X
P (A|Bi )P (Bi )
i=1
P (A|Bj )P (Bj ) P (Bj |A) = Pk i=1 P (A|Bi )P (Bi )
16
Chapter 5
Kansverdelingen Notatie ≈ lezen we: ... is exact verdeeld als ... ∼ = lezen we: ... is benaderend verdeeld als ...
5.1
Discrete verdelingen
5.1.1
Uniforme verdeling
X ≈ U ({1, · · · , n}) ⇔ f (k) = E[X] =
5.1.2
n+1 , 2
V ar(X) =
1 n
n2 − 1 12
Bernoulli verdeling
X ≈ B(1, p) ⇔ f (k) = pk (1 − p)n−k E[X] = p,
5.1.3
V ar(X) = p(1 − p)
Binomiale verdeling
X ≈ B(n, p) ⇔ f (k) = E[X] = np,
5.1.4
n k
!
pk (1 − p)n−k
V ar(X) = np(1 − p)
Poisson-verdeling
X ≈ P (λ) ⇔ f (k) = E[X] = λ,
e−k λk k!
V ar(X) = λ 17
5.1.5
Geometrische verdeling
X ≈ Geom(p) ⇔ f (k) = (1 − p)k p E[X] =
5.1.6
1−p , p
Hypergeometrische verdeling n−k Csk CN −s n CN
X ≈ H(N, s, n) ⇔ f (k) = s E[X] = n , N
5.2
1−p p2
V ar(X) =
s V ar(X) = n N
s 1− N
N −n N −1
Z
x
Continue verdelingen
5.2.1
Uniforme verdeling
X ≈ U (a, b) ⇔ f (x) =
E[X] =
5.2.2
a+b , 2
1 b−a
V ar(X) =
(b − a)2 12
Normale verdeling
X ≈ N (0, 1) ⇔ F (x) =
Z
t2
x
−∞
X ≈ N (µ, σ 2 ) ⇔ F (x) =
Z
e− 2 √ dt = 2π
x
(t−µ)2 2σ 2
e− √
−∞
5.2.3
2πσ
dt = Φ
t-verdeling van Student
Γ( ν+1 x2 2 ) √ 1+ X ≈ tν ⇔ f (x) = ν νπ Γ( 2 ) ν E[X] = 0,
5.2.4
φ(t)dt = Φ(x) −∞
V ar(X) =
!−(ν+1)/2
ν ν−2
Chi-kwadraat verdeling
X ≈ χ2ν ⇔ f (x) = E[X] = ν,
1 2ν/2 Γ(ν/2)
x(ν/2)−1 e−x/2
V ar(X) = 2ν 18
x−µ σ
5.2.5
F -verdeling van Fisher-Snedecor
X ≈ Fν1 ,ν2 ⇔ f (x) = E[X] =
5.2.6
ν2 , ν2 − 2
ν1 /2
ν1 x ν1 x+ν2
1−
ν1 x ν1 x+ν2
ν2 /2
,
x B(ν1 /2, ν2 /2)
V ar(X) =
B(α, β) =
Γ(α) Γ(β) Γ(α + β)
2ν22 (ν1 + ν2 − 2) ν1 (ν2 − 4)(ν2 − 2)2
Exponenti¨ ele verdeling
X ≈ Exp(λ) ⇔ f (x) = λe−λx E[X] = λ−1 ,
5.3
V ar(X) = λ−2
Meerdimensionale normale verdeling X ≈ N (µ, Σ) ⇔ f (x1 , . . . , xn ) =
5.4
1 (2π)n/2 |Σ|1/2
1 exp − (x − µ)0 Σ−1 (x − µ) 2
Steekproevenverdelingen
5.4.1
Normaal verdeelde populatie(s)
σ2 x ¯ ≈ N µ, n
!
x ¯−µ √ ≈ tn−1 s/ n (n − 1)s2 ≈ χ2n−1 σ2
5.4.2
Centrale-limietstelling
5.4.3
Rekenkundig gemiddelde
5.4.4
Proportie
5.4.5
Variantie
5.4.6
Correlatiec¨ effici¨ ent
5.4.7
Verschil van rekenkundige gemiddelden
Gelijke varianties T =
x ¯1 − x ¯2 − (µ1 − µ2 ) sp
q
1 n1
+
1 n2
≈ tn1 +n2 −2 met s2p =
19
(n1 − 1)s21 + (n2 − 1)s22 n1 + n2 − 2
Verschillende varianties s21 s22 2 + n1 n2 2 2 s1 1 + n21−1 n1 −1 n1
T∗ =
x ¯1 − x ¯2 − (µ1 − µ2 ) ∼ r = tdf ∗ met df ∗ = s21 s22 n1 + n2
5.4.8
Verschil van proporties
5.4.9
Ratio van varianties
20
s22 2 n2
Part III
Meervoudige of multivariate regressie
21
Chapter 6
Meervoudige lineaire regressie 6.1
Regressiemodel en -oppervlak, residuen
het algemeen lineaire model (formulering met residuen) yi = β0 + β1 xi1 + · · · + βp xip + i =
p X
βp xij + i (i = 1, . . . , n)
j=0
y = Xβ + assumpties xij vast,
X0 X regulier
E[i ] = 0, V ar[i ] = σ 2 , Cov(i , j ) = 0 (i 6= j) E[] = 0, V ar() = σ 2 I ≈ N (0, σ 2 I) het algemeen lineaire model (formulering zonder residuen) µi = E[yi ] = β0 + β1 xi1 + · · · + βp xip =
p X j=0
µ = Xβ het geschatte regressie-oppervlak yˆi = b0 + b1 xi1 + · · · + bp xip =
p X j=0
22
bp xij
βp xij (i = 1, . . . , n)
−1
yˆ = X(X0 X)
(X0 y)
de geschatte residuen ei = yi − yˆi −1
e=y−y ˆ = (I − X(X0 X)
6.2
X0 )y
(Gemiddelde) kwadratensommen en vrijheidsgraden
kwadratensommen (sums of squares, SS) en vrijheidsgraden (degrees of freedom, DF) • niet-verklaarde of residuele kwadratensom (error sum of squares) SSE =
n X
e2i
=
i=1
n X
(yi − yˆi )2 = (y − y ˆ)0 (y − y ˆ),
DFE = n − p − 1
i=1
• verklaarde of regressiekwadratensom (regression sum of squares) SSR =
n X
(ˆ yi − y¯)2 = (ˆ y − 1¯ y )0 (ˆ y − 1¯ y ),
DFR = p
i=1
• totale kwadratensom (total sum of squares) SST =
n X
(yi − y¯)2 = (y − 1¯ y )0 (y − 1¯ y ),
DFT = n − 1
i=1
gemiddelde kwadratensommen (mean squares, MS) • gemiddelde kwadratische fout (mean square error ) MSE =
SSE =σ ˆ2 n−p−1
E[MSE] = σ 2 • gemiddelde regressiekwadratensom (regression mean squares) MSR =
SSR p
E[MSR] = σ 2 +
n−1 2 (σy − σ 2 ) p
• gemiddelde totale kwadratensom (total mean squares) MST =
SST = s2y n−1
E[MST] = σy2 23
6.3
Determinatieco¨ effici¨ enten en F -statistiek R2 =
SSR SSE =1− SST SST
2 Radj =1−
F =
6.4
MSE n−1 =1− (1 − R2 ) MST n−p−1
MSR R2 /p = ≈ Fp,n−p−1 MSE (1 − R2 )/(n − p − 1)
Regressieco¨ effici¨ enten −1
b = (X0 X)
(X0 y)
E[b] = β,
V ar(b) = σ 2 (X0 X)−1
sbj = σ ˆ (X0 X)−1 jj ,
bj − βj ≈ tn−p−1 sbj
24
Chapter 7
Veralgemeende lineaire regressie - GLM 7.1
Algemeen
het model µi = E[yi ] = E[yi |xi ],
µ = E[y] = E[y|X]
ηi = β0 + β1 xi1 + · · · + βp xip =
p X
βp xij ,
η = Xβ
j=0
g(µi ) = ηi ,
g(µ) = η
assumpties xij vast,
X0 X regulier
yi onderling onafhankelijk yi θi − b(θi ) + c(yi , φ) (error structure) f (yi ; θi , φ) = exp ai (φ)
ai (φ) = φ/wi eigenschappen µi = E[yi ] =
∂b(θi ) ∂θi
σi2 = V ar(yi ) = ai (φ)
∂ 2 b(θi ) ∂θi2
25
likelihood, deviances ... likelihood (functie): L(β1 , · · · , βpM , φ; y1 , · · · , yn ) =
n Y
f (yi ; β, φ) = LM
i=1
log-likelihood (functie) voor model M : lM = ln(LM ) of − 2lM = −2 ln(LM )
deviance voor modellen B en U : D(B, U ) = −2 ln
LB LU
model chi-square voor model M : D(N ull, M ) = −2 ln LM deviance voor model M : D(M, F ull) = −2 ln LF ull
7.2
Logistische regressie yi ≈ B(1, µi ) µi , ηi = logit(µi ) = log 1 − µi
7.3
µi =
eηi 1 + eηi
Probit regressie yi ≈ B(1, µi ) ηi = probit(µi ) = Φ−1 (µi ),
µi = Φ(ηi )
26
≈ χ2pU −pB
LN ull LM
≈ χ2n−pM
≈ χ2pM
Part IV
Variantie-analyse - ANOVA
27
Chapter 8
E´ en-factor ANOVA het algemeen lineaire model (formulering met residuen) yik = µi + ik (i = 1, . . . , r; k = 1 · · · , ni ) yik = µ + αi + ik (i = 1, . . . , r; k = 1 · · · , ni ) assumpties ik ≈ N (0, σ 2 ) E[ik jl ] = 0, (i, k) 6= (j, l) restricties r X
αi = 0
i=1
´ofwel: α1 = 0 ´ofwel: αr = 0 ´ofwel: ... notatie nT =
r X
ni
i=1
schattingen ni 1 X yik µ ˆi = y¯i = ni k=1
µ ˆ = y¯ =
ni r X r 1 X 1 X yik = ni y¯i nT i=1 k=1 nT i=1
28
eik = yik − y¯i n
2
n
i i 1 X 1 X (yik − y¯i )2 = e2 ni − 1 k=1 ni − 1 k=1 ik
s2i =
σ ˆ =
Pr
s2p
− 1)s2i nT − r
i=1 (ni
=
(gemiddelde) kwadratensommen, vrijheidsgraden en F -statistiek SST =
ni r X X
(yik − y¯)2 =
i=1 k=1
ni r X X
MST =
(¯ yi − y¯)2 =
DFB = r − 1, ni r X X
SST nT − 1 r X
MSB =
SSB r−1
(yik − y¯i )2 =
ni r X X
e2ik =
i=1 k=1
i=1 k=1
DFW = nT − r, F =
ni y¯i2 − nT y¯2
i=1
i=1 k=1
SSW =
2 yik − nT y¯2
i=1 k=1
DFT = nT − 1,
SSB =
ni r X X
MSW =
ni r X X i=1 k=1
2 yij −
r X i=1
SSW nT − r
MSB ≈ Fr−1,nT −r MSW
contrast ψ=
r X
ai µi ,
i=1
ψˆ = c =
r X
ai = 0
i=1 r X i=1
ai µ ˆi ,
v u r 2 uX ai SEc = sp t , i=1
29
ni
c−ψ ≈ tnT −r SEc
ni y¯i2
Chapter 9
Twee-factor ANOVA 9.1
Met herhaling
het algemeen lineaire model (formulering met residuen) yijk = µij + ijk (i = 1, . . . , r; j = 1, . . . , s; k = 1 · · · , nij ) yijk = µ + αi + βj + γij + ijk (i = 1, . . . , r; j = 1, . . . , s; k = 1 · · · , nij ) assumpties ijk ≈ N (0, σ 2 ) E[ijk i∗ j ∗ k∗ ] = 0, (i, j, k) 6= (i∗ , j ∗ , k ∗ ) nij = n (i = 1, . . . , r; j = 1, . . . , s) restricties r X i=1
αi = 0 en
s X
βj = 0 en
j=1
r X i=1
γij = 0 (j = 1, . . . , s) en
s X
γij = 0 (i = 1, . . . , r)
j=1
´ofwel: α1 = 0 en β1 = 0 en γ1j = 0 (j = 1, . . . , s) en γi1 = 0 (i = 1, . . . , r) ´ofwel: αr = 0 en βs = 0 en γrj = 0 (j = 1, . . . , s) en γis = 0 (i = 1, . . . , r) ´ofwel: een combinatie ... notatie µi0 = µ + αi (i = 1, . . . , r) µ0j = µ + βj (j = 1, . . . , s)
30
ni0 =
s X
nij = s · n (i = 1, . . . , r)
en
n0j =
j=1
nT =
r X
nij = r · n (j = 1, . . . , s)
i=1
r X s X
nij =
i=1 j=1
r X
ni0 =
i=1
s X
n0j = r · s · n
j=1
schattingen µ ˆij = y¯ij =
n 1X yijk (i = 1, . . . , r; j = 1, . . . , s) n k=1
µ ˆi0 = y¯i0 =
s X s n 1 X 1X y¯ij (i = 1, . . . , r) yijk = ni0 j=1 k=1 s j=1
µ ˆ0j = y¯0j =
r X n r 1X 1 X y¯ij (j = 1, . . . , s) yijk = n0j i=1 k=1 r i=1
µ ˆ = y¯ =
r X s X n r X s 1 X 1 X yijk = y¯ij nT i=1 j=1 k=1 r · s i=1 j=1
eijk = yijk − µ ˆij = yijk − y¯ij s2ij
n n 1 X 1 1 X (yijk − y¯ij )2 = e2 = = n − 1 k=1 n − 1 k=1 ijk n−1
Pr
σ ˆ 2 = s2p =
i=1
Ps
− 1)s2ij = nT − rs j=1 (n
Pr
i=1
n X
! 2 yijk
k=1
Ps
2 j=1 sij
rs
(gemiddelde) kwadratensommen, vrijheidsgraden en F -statistiek SST =
n s X r X X
(yijk − y¯)2 =
SSA =
MST =
r X s X n X
SST nT − 1
(¯ yi0 − y¯)2 = sn
i=1 j=1 k=1
DFA = r − 1,
SSB =
MSA =
r X s X n X i=1 j=1 k=1
2 yijk − nT y¯2
i=1 j=1 k=1
i=1 j=1 k=1
DFT = nT − 1,
r X s X n X
r X
2 y¯i0 − nT y¯2
i=1
SSA r−1
(¯ y0j − y¯)2 = rn
s X j=1
31
2 y¯0j − nT y¯2
−
2 n¯ yij
DFB = s − 1,
SSAB =
MSB =
r X s X n X
SSB s−1
(¯ yij − y¯i0 − y¯0j + y¯)2 = n
i=1 j=1 k=1
r X s X n X
MSAB =
(yijk − y¯ij )2 =
i=1 j=1 k=1
SSAB (r − 1)(s − 1)
r X s X n X
2 yijk −n
i=1 j=1 k=1
DFW = nT − rs = rs(n − 1), FA =
MSA ≈ Fr−1,rs(n−1) MSW
FB =
MSB ≈ Fs−1,rs(n−1) MSW
FAB =
(¯ yij − y¯i0 − y¯0j + y¯)2
i=1 j=1
DFAB = (r − 1)(s − 1),
SSW =
r X s X
MSW =
r X s X
2 y¯ij
i=1 j=1
SSW rs(n − 1)
MSAB ≈ F(r−1)(s−1),rs(n−1) MSW
contrast ψ=
r X s X
aij µij ,
i=1 j=1
ψˆ = c =
s r X X
r X s X
aij = 0
i=1 j=1
aij µ ˆij ,
v u X s u1 r X a2ij , SEc = sp t
n
i=1 j=1
9.2
i=1 j=1
Zonder herhaling
het algemeen lineaire model (formulering met residuen) yij = µij + ij (i = 1, . . . , r; j = 1, . . . , s) yij = µ + αi + βj + ij (i = 1, . . . , r; j = 1, . . . , s) assumpties ij ≈ N (0, σ 2 ) E[ij i∗ j ∗ ] = 0, (i, j) 6= (i∗ , j ∗ )
32
c−ψ ≈ tnT −rs SEc
restricties µij = µ + αi + βj (i = 1, . . . , r; j = 1, . . . , s) r X
s X
αi = 0 en
i=1
βj = 0
j=1
´ofwel: α1 = 0 en β1 = 0 ´ofwel: αr = 0 en βs = 0 ´ofwel: een combinatie ... notatie nT = r · s schattingen µ ˆ = y¯ =
s s r X r X 1 X 1 X yij = yij nT i=1 j=1 rs i=1 j=1
α ˆ i = y¯i0 − y¯ =
s 1X yij − y¯ (i = 1, . . . , r) s j=1
r 1X yij − y¯ (j = 1, . . . , s) βˆj = y¯0j − y¯ = r i=1
µ ˆij = µ ˆ+α ˆ i + βˆj = y¯i0 + y¯0j − y¯ (i = 1, . . . , r; j = 1, . . . , s) eij = yij − µ ˆij (gemiddelde) kwadratensommen, vrijheidsgraden en F -statistiek SST =
s r X X
(yij − y¯)2 =
DFT = nT − 1, r X s X
MST =
SST nT − 1
(¯ yi0 − y¯)2 = s
i=1 j=1
DFA = r − 1,
2 yij − rsy¯2
i=1 j=1
i=1 j=1
SSA =
r X s X
r X
2 y¯i0 − rsy¯2
i=1
MSA =
SSA r−1 33
SSB =
r X s X
(¯ y0j − y¯)2 = r
i=1 j=1
DFB = s − 1,
SSE =
r X s X
s X
2 y¯0j − rsy¯2
j=1
MSB =
SSB s−1
(yij − y¯i0 − y¯0j + y¯)2 =
r X s X
(yij − µ ˆij )2 =
i=1 j=1
i=1 j=1
DFE = (r − 1)(s − 1),
MSE =
FA =
MSA ≈ Fr−1,(r−1)(s−1) MSE
FB =
MSB ≈ Fs−1,(r−1)(s−1) MSE
r X s X
e2ij
i=1 j=1
SSE (r − 1)(s − 1)
contrast ψ=
s r X X
aij µij ,
i=1 j=1
ψˆ = c =
r X s X
s r X X
aij = 0
i=1 j=1
√ aij µ ˆij ,
SEc =
i=1 j=1
v uX s u r X MSEt a2ij , i=1 j=1
34
c−ψ ≈ t(r−1)(s−1) SEc
Chapter 10
ANOVA met herhaalde metingen
35