VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE FAKULTA INFORMATIKY A STATISTIKY Katedra statistiky a pravděpodobnosti
STATISTIKA VZORCE PRO 4ST201
verze 2.1 poslední aktualizace: 22.9.2008
KSTP 2008
Popisná statistika pi =
k
ni n
n
x=
i =1
i
i =1
=1
i = 1, 2, ..., k
P P < zP < n ⋅ +1 100 100
P + 0,5 = z p 100
n
∑x
∑p
i =1
n⋅
x% p
k
∑ ni = n
n p < zp < n p +1
np + 0,5 = z p k
i
x=
n
∑x
i
i =1 k
ni
k
x = ∑ xi pi
∑n
i =1
i
i =1
k
xH =
n n
1
∑x i =1
xG = n
xH =
i
n
∏ xi = n x1 ⋅x2 ⋅...⋅xn
∑n
i
i =1 k
xH =
ni
∑x i =1
i
xG =
n
k
∏x
ni i
i =1
i =1
=
1 k
pi
i =1
i
∑x
x1n1 ⋅ x2n2 ⋅ ... ⋅ xknk
n
R = xmax - xmin n
n
s = 2 x
∑ (x i =1
i
− x)
s =
i =1 2 s x2 = x 2 − x =
n
n
k
2 x
∑ xi2
2
∑ (x − x ) n i
i
k
∑n i =1
i
k
sx2 = ∑ (xi − x ) 2 pi k
s = s + s = 2
2 x
∑ si2 ni i =1 k
∑ ni i =1
k
k
i =1
i =1
2
2
2
i =1
2 i
k
i =1
k
+
∑ (xi − x )2 ni i =1
k
∑ ni i =1
k
x=
∑x i =1 k
i
ni
∑n i =1
i
k
sx2 = ∑ si2 pi + ∑ (xi − x ) 2 pi s x = s x2
k
2 i
s = x − x = ∑ x pi − (∑ xi pi ) 2 2 x
i =1
2 x
2
k x n ∑ i ∑ xi ni i =1 i =1 2 2 2 − k sx = x − x = k ni ∑ ∑ ni i =1 i =1 k
2
i =1
1 n − ∑ xi n i =1
x = ∑ xi pi i =1
Vx = 1
sx x © KSTP 22.9.2008
Pravděpodobnost Počet pravděpodobnosti m P (A) = n P(A ∪ B) = P(A) + P(B) P(A ∩ B) = P(A) P(B)
P(A) =
P(A ∩ B) P(B) P(A ∪ B) = P(A) + P(B) - P(A ∩ B) P(A ∩ B) = P(A) P(BA) = P(B) P(AB)
P( A B) =
s
s
P(A) = ∑ P(Bi ) P( A Bi )
∑ P( A ∩ B ) i
i =1
Náhodné veličiny P(x) = P(X = x) P( x1 < X ≤ x 2 ) =
i =1
F(x) = P(X ≤ x)= ∑ P(t )
∑ P( x) = F ( x
x1 < x ≤ x2
t≤x
2
) - F ( x1 )
x
F(x) = P(X ≤ x) =
∫ f (t )dt
∞
∫ f ( x)dx = 1
f (x) = F ′(x)
−∞
−∞
P(x1 < X ≤ x2) =
x2
∫ f ( x)dx = F(x2) - F(x1)
x1
xP
F(xP)=P
x P = F −1 ( P ) ∞
E (X ) = ∑ x P(x)
E (X ) =
x
∫x
f (x)dx
−∞
D(X ) = ∑ x P(x) − ∑ x P (x) x x
2
2
∞
∞ D( X ) = ∫ x f ( x)dx − ∫ xf ( x)dx −∞ − ∞
2
2
σ = σ ( X ) = D( X ) E ( X i ) = µ , D( X i ) = σ 2 nezávislé
X i i = 1,.., n,
E (∑ X i ) = nµ ,
E(
1 ∑ Xi ) = µ, n
D(∑ X i ) = nσ 2
D(
1 σ2 X = ) ∑ i n n
Pravděpodobnostní rozdělení Alternativní rozdělení A[π] x 1-x P(x) = π (1 - π) x = 0, 1, 0< π <1 E(X) = π D(X) = π(1 - π)
Binomické rozdělení
Bi[n;π]
n P ( x ) = π x (1 − π ) n − x x = 0, 1, 2, ..., n, n > 0, 0< π <1 x D(X) = nπ(1 - π) E(X) = nπ Poissonovo rozdělení P (x) = e − λ
λ
x
x!
Po[λ] x = 0, 1, ... , λ > 0,
E(X) = λ 2
D(X) = λ © KSTP 22.9.2008
pravděpodobnost
Hypergeometrické rozdělení Hy[N;M;n] M N − M x n−x P( x) = , x = max(0, M-N+n), ..., min(M, n), n > 0, N ≥ n, M ≤ N N n M M N −n M D(X ) = n 1 − E( X ) = n N N N −1 N
Exponenciální rozdělení E[A;δ] A ≥ 0, δ > 0 0 x≤ A E(X) = A + δ F (x) = (x − A ) 1 − e − δ x> A
D(X) = δ2
Normální rozdělení N[µ;σ2] -∞ < x < ∞, -∞ < µ < ∞, σ2 > 0 E(X) = µ D(X) = σ2 x−µ x−µ F ( x) = Φ (u ) = Φ ( ) xP = µ + σ u P u=
σ
σ
x − µ X − µ x2 − µ ≤ ≤ = P (u1 ≤ U ≤ u2 ) = Φ (u2 ) − Φ (u1 ) P(x1 ≤ X ≤ x2 ) = P 1 σ σ σ Normované normální rozdělení N[0;1] X −µ E(U) = 0 D(U) = 1 U=
σ
Φ (u ) = 1 − Φ (-u )
Φ (-u ) = 1 − Φ (u )
Logaritmicko-normální rozdělení lnX − µ U= ~ N[0;1]
σ
F ( x) = Φ (
ln x − µ
E(X)= e µ +σ
σ
)
2/2
LN[µ;σ2] x >0, -∞ < µ < ∞, σ2>0
xP = exp(µ + σ uP ) D(X)=
Rozdělení t (Studentovo)
2
(
2
)
e 2 µ +σ e σ − 1
µ = E(lnX) = ln(E(X))-σ2/2 Chí-kvadrát rozdělení χ2[ν]
uP = −u1− P
σ2 = D(lnX)= ln(
D( X ) + 1) (E (X )) 2
x>0
t[ν]
F - rozdělení (Fisherovo – Snedecorovo)
-∞ < x < ∞ F[ν1;ν2]
3
x > 0,
tP = - t1-P FP (ν 1 ,ν 2 ) =
1 F1− P (ν 2 ,ν 1 )
KSTP 2008 22.9.2008
Matematická statistika n
s'x =
∑ (x − x )
2
i
i =1
n −1
Odhady parametrů střední hodnota est µ = µˆ = x
est Nµ = N x
normální rozdělení a) σ2 známé σ σ < µ < x + u1−α / 2 P x − u1−α / 2 = 1−α n n σ σ < µ = 1−α P x − u1−α P µ < x + u1−α = 1−α n n b) σ2 neznámé s′ s′ t ~ t[n – 1] P x − t1−α / 2 x < µ < x + t1−α / 2 x = 1 − α n n s′ s′ P x − t1−α x < µ = 1 − α P µ < x + t1−α x = 1 − α n n obecné rozdělení, σ2 neznámé, velký výběr (n > 30) s′ s′ P x − u1−α / 2 x < E ( X ) < x + u1−α / 2 x = 1 − α n n s′ s′ P x − u1−α x < E ( X ) = 1 − α P E ( X ) < x + u1−α x = 1 − α n n rozptyl σ2 (normální rozdělení)
est σ2= σˆ 2 = s′x2
Parametr π alternativního rozdělení (odhad relativní četnosti základního souboru) est π = πˆ = p est Nπ = Np P p − u1−α / 2
P p − u1−α
p (1 − p ) < π < p + u1−α / 2 n
p (1 − p ) = 1−α n
P π < p + u1−α
p (1 − p ) < π = 1 − α n
4
p (1 − p ) = 1−α n
© KSTP 22.9.2008
matematická statistika Testování hypotéz Střední hodnota normálního rozdělení
H0 µ = µ0
H1 µ > µ0 µ < µ0 µ ≠ µ0
Testové kritérium σ2 známé x − µ0
U=
n
σ
U ~ N[0;1]
Kritický obor Wα={U ≥ u1-α} Wα={U ≤ -u1-α} Wα={|U| ≥ u1-α/2}
t ~ t[n – 1]
Wα={t ≥ t1-α} Wα={t ≤ -t1-α} Wα={|t| ≥ t1-α/2}
σ2 neznámé t=
x − µ0 s′x
n
Střední hodnota, obecné rozdělení, velký výběr
H0 E(X)= µ0
H1 Ε(X) > µ0 Ε(X) < µ0 Ε(X) ≠ µ0
Testové kritérium σ2 neznámé (n > 30)
x − µ0 s′x
U=
n
Kritický obor Wα={U ≥ u1-α} Wα={U ≤ -u1-α} Wα={|U| ≥ u1-α/2}
U ≈ N[0;1]
Rozptyl v normálním rozdělení H0 H1 Testové kritérium
σ2 = σ02
σ2 > σ02 σ2 < σ02 σ2 ≠ σ02
χ = 2
(n − 1)s′x 2
Kritický obor
Wα={χ2 ≥ χ21-α} Wα={χ2 ≤ χ2α} Wα={χ2 ≤ χ2α/2 ∪χ2 ≥ χ21-α/2}
χ ~ χ [n-1] 2
σ 02
2
Parametr π alternativního rozdělení (velké výběry)
H0 π = π0
H1 π > π0 π < π0 π ≠ π0
Testové kritérium p −π0 U= π 0 (1 − π 0 ) n
Kritický obor Wα={U ≥ u1-α} Wα={U ≤ -u1-α} Wα={|U| ≥ u1-α/2}
U ~ N[0;1]
Rovnost středních hodnot dvou rozdělení normální rozdělení (nezávislé náhodné výběry z normálního rozdělení)
H0 µ1 = µ2 µ1 - µ2 = 0
H1 µ1 > µ2 µ1 < µ2 µ1 ≠ µ2
Testové kritérium
Kritický obor Wα={U ≥ u1-α} Wα={U ≤ -u1-α} Wα={|U| ≥ u1-α/2}
a) σ1 , σ2 známé 2
U=
2
x1 − x 2
σ 12 n1
+
U ~ N[0;1]
σ 22 n2
σ12, σ22 neznámé, ale předpokládáme, že σ12 = σ22 x1 − x 2 t= (n1 − 1) s1′ 2 + (n 2 − 1) s 2′ 2 1 1 + n1 + n 2 − 2 n1 n 2
Wα={t ≥ t1-α} Wα={t ≤ -t1-α} Wα={|t| ≥ t1-α/2}
t ~ t[n1 + n2 – 2]
5
KSTP 2008 22.9.2008
matematická statistika σ12, σ22 neznámé, ale předpokládáme, že σ12 ≠ σ22 x1 − x 2 t ~ t[ν] t= s1′ 2 s 2′ 2 + n1 n2 ν=
s1′2 s2′2 + n1 n2
Wα={t ≥ t1-α} Wα={t ≤ -t1-α} Wα={|t| ≥ t1-α/2}
2
2
1 s1′2 1 s2′2 + n1 + 1 n1 n2 + 1 n2
2
−2
velké nezávislé výběry H0 µ1 = µ2 µ1 - µ2 = 0
H1 µ1 > µ2 µ1 < µ2 µ1 ≠ µ2
Testové kritérium σ1 , σ2 neznámé x1 − x 2 U= s1′ 2 s 2′ 2 + n1 n2 2
2
U ≈ N[0;1]
Kritický obor Wα={U ≥ u1-α} Wα={U ≤ -u1-α} Wα={|U| ≥ u1-α/2}
závislé výběry z normálního rozdělení (párový t-test) H0
H1
µ1 = µ2 µ1 - µ2 = 0
µ1 > µ2 µ1 < µ2 µ1 ≠ µ2
Testové kritérium d t ~ t[n–1] t= n s′d di = x1i – x2i, i=1,2,..,n
Kritický obor Wα={t ≥ t1-α} Wα={t ≤ -t1-α} Wα={|t| ≥ t1-α/2}
Rovnost rozptylů dvou normálních rozdělení
H0
σ1 = σ2 2
H1 2
σ1 > σ2 σ12 < σ22 σ12 ≠ σ22 2
2
Testové kritérium s′ 2 F= 1 2 F ~ F[n1 – 1; n2 – 1] s2′
Kritický obor Wα={F ≥ F1-α} Wα={F ≤ Fα} Wα={F ≤ Fα/2 ∪F ≥F1-α/2}
Chí-kvadrát test dobré shody
H0 a H1 H0: πi = π0,i i = 1, .., k H1: non H0
Testové kritérium k
G=∑ i =1
Kritický obor
( n i − nπ 0 , i )
nπ 0 , i
2
χ2 ≈ χ2[k-1]
Wα={χ2 ≥ χ21-α} nπ 0,i ≥ 5
6
KSTP 2008 22.9.2008
Analýza závislostí Kontingenční tabulka (r x s) r
s
ni . = ∑ nij
n. j = ∑ nij
j =1
H0 πij= πi. π.j 1≤i≤r 1≤j≤s
C=
nij' =
i =1
H1 non H0
ni . n . j n
nij' ≥ 5
Testové kritérium r
s
G= ∑ ∑
i =1 j =1
G n+G
G=n
(nij − n´ij ) 2
G ≈ χ2[(r - 1)(s - 1)]
n´ij
G , m = min (r,s) n(m − 1)
V =
Tabulka 2 x 2
Kritický obor Wα ={G ≥ χ21-α}
(n11n22 − n12 n21 ) 2 n1.n2.n.1n.2
Analýza rozptylu k
Sy = ∑ i =1
ni
∑ (yij − y)2 = Sy.m + Sy.ν j =1
P2 =
S y ,m
k
k
ni
S y.m = ∑ (yi − y ) 2 ni S y.ν = ∑∑ (yij − yi ) 2 i =1
i =1 j =1
P = P2
Sy
H0
H1 non H0
µ1 = µ2 = ..=µk
Testové kritérium
Kritický obor Wα={F ≥ F1-α}
S y .m F = k −1 S y .v
F ~ F[k – 1;n – k]
n−k
Regrese a korelace n
regresní přímka y = β0 + β1x + ε , Y=b0 + b1x
minimumb0 ,b1
∑ (y − b i =1
i
0
− b1 xi ) 2
n
sxy =
∑ (x − x) (y − y) i =1
b1 = byx =
i
i
n
= xy − x . y
n∑ yi xi − ∑ xi n∑
xi2
∑ yi = xy − x . y = sxy
− (∑ xi ) 2
x2 − x 2
s x2
yi ∑ xi2 − ∑ yi xi ∑ xi ∑ b0 = = y − byx x n∑ xi2 − (∑ xi ) 2
7
© KSTP 22.9.2008
analýza závislostí
Y = b0 + b1 x + b2 x 2
Jiné regresní funkce
Y = b0 + b1 x1 + b2 x2 + .. + bk xk
n
n
S y = ∑ (yi − y ) 2
ST = ∑ (Yi − y ) 2
i =1
s y2 =
i =1
Sy 1 n (yi − y ) 2 = ∑ n i =1 n n
n
i =1
i =1
sY2 =
S R = ∑ (yi − Yi ) 2 = ∑ ei2
1 n S (yi − Yi ) 2 = R ∑ n i =1 n
s(2y −Y ) =
s R2 =
SR n− p
s y2 = sY2 + s(2y −Y )
Sy = SR + ST sR =
1 n S (Yi − y ) 2 = T ∑ n i =1 n
SR = s R2 n− p
I yx2 = R 2 =
ST Sy
I yx = I yx2
2 2 I ADJ = RADJ = 1 − (1 − I yx2 )
n −1 n− p
Test hypotézy o regresních parametrech
H0 βi = 0
H1 βi ≠ 0
Test o modelu
H0
β0 = c β1 = 0
Testové kritérium bi s (bi )
t=
Kritický obor Wα={|t| ≥ t1-α/2}
t ~ t[n – p]
p=k+1
H1 non H0
Testové kritérium
Kritický obor Wα = {F ≥ F1-α}
ST p −1 F= SR n− p
...
βk = 0
F ~ F[p – 1; n – p]
korelační koeficient
ryx = rxy =
H0 ρyx = 0
n
n
n
i =1
i =1
i =1
n ∑ xi yi − ∑ xi ∑ yi n
n
i =1
i =1
n ∑ xi2 − ( ∑ xi ) 2
H1 ρyx ≠ 0
n
n
i =1
i =1
=
n ∑ yi2 − ( ∑ yi ) 2
xy − x y ( x 2 − x 2 )( y 2 − y 2 )
Testové kritérium t=
=
s xy sx s y
Kritický obor Wα={t ≥ t1-α/2}
ryx n − 2
t ~ t[n –2]
1 − ryx2
8
KSTP 2008 22.9.2008
Časové řady n
y=
∑ yt t =1
n
n −1 1 1 y1 + ∑ yt + yn 2 2 t =2 y= n −1
∆t = yt - yt-1 kt =
∆=
yt y t −1
y + y3 y + yn y1 + y 2 d1 + 2 d 2 + ... + n −1 d n −1 2 2 2 y= d1 + d 2 + ... + d n −1
y −y 1 n ∆t = n 1 ∑ n − 1 t =2 n −1 yn y1
k = n −1 k 2 k 3 ...k n = n −1
Klouzavé průměry p
∑
yt =
m = 2p + 1
yt =
m = 2p
i =− p
yt +i
m
=
yt − p + ... + yt −1 + yt + yt +1 + ... + yt + p
1 yt − p + 2 yt − p +1 + . + 2 yt −1 + 2 yt + 2 yt +1 + . + yt + p −1 + yt + p 2m
(
Dekompozice časové řady yt=Tt + St + Ct + εt yt=Tt St Ct εt Tt = β0 + β1t Tˆt = b0+b1t
Tt = β 0 t β1 MSE =
m
Tt = β0 + β1t + β2t2
lnTt= lnβ0 + β1 lnt
)
Tˆt = = b0 + b1t + b2t2
ln(Tˆt ) = lnb0 + b1 lnt
1 n ( y t −Tt ) 2 ∑ n t =1
Analýza sezónní složky 1. Metoda empirických indexů (délka sezónnosti r)
sezónní indext =
y t klouzavé průměry délky r (například r = 4)
průměrný sezónní indexi =
∑
t z i − té sezóny
sezonní index t
počet hodnot z i − té sezóny
standardizovaný sezónní index =
yt yt
i = 1, 2, ., r (např.r =4)
r r
∑ průměrný sezonní index j
. průměrný sezonní index i
j =1
2. Regresní metoda s umělými proměnnými (lineární trend, sezónnost délky 4) yt = Tt + St + εt = β0 + β1t + α1x1t + α2 x2t + α3 x3t + εt a +a +a Si + 4 j = ai − a i=1,2,3 S 4 + 4 j = −a Tˆt = (b0 + a) + b1t a= 1 2 3 4
9
© KSTP 22.9.2008
Indexní analýza I t /1 =
yt = I 2 /1 I 3/ 2 ... I t / t −1 y1
I t / t −1 =
yt I = t /1 yt −1 I t −1/1
Q = pq Ip =
p1 p0
∆ p = p1 − p0
I (Σq) =
∑ q = ∑ Iq.q ∑q ∑q
=
∑Q = ∑ p q ∑Q ∑ p q
=
1
0
0
I (ΣQ) =
Iq =
1 1
0
0 0
∑ Q1 p ∑ q1 = Ip= 1 = p0 ∑ Q0 ∑ q0
∆q = q1 − q0
∑q q ∑ Iq ∑ IQ.Q ∑Q
0
=
∑Q Q ∑ IQ
Q1 Q0
∆Q = Q1 − Q0
∆(ΣQ) = ∑ Q1 − ∑ Q0
1
1
0
∑ p1q1 ∑ q1 = ∑ p0 q0 ∑ q0
IQ =
∆(Σq ) = ∑ q1 − ∑ q 0
1 1
0
1
q1 q0
∑Q Q ∑p ∑Q Q ∑p
1 1
∆ p = p1 − p0 = ∑
1
p1q1
∑q
0
−
1
∑pq ∑q
0 0 0
0
0
Ip ( L ) =
∑ ∑
Ip ( F ) =
Iq ( L ) =
p1q0 p0 q0
=
∑ Ip. p q ∑ pq
0 0
0 0
=
∑ Ip.Q ∑Q
Ip ( P ) =
0
0
∑pq = ∑pq ∑p q ∑ pq Ip 1 1
1 1
0 1
1 1
=
∑Q Q ∑ Ip 1 1
Ip ( L ) . Ip ( P )
∑ ∑
p0 q1 p0 q0
Iq ( F ) = Ip ( L )
I (ΣQ) =
=
∑ Iq. p q ∑pq
0 0
0 0
=
∑ Iq.Q ∑Q
Iq ( P ) =
0
0
∑ ∑
p1q1 p1q0
=
∑pq pq ∑ Iq
1 1 1 1
=
∑Q Q ∑ Iq 1 1
Iq ( P )
∑Q = ∑ p q ∑Q ∑ p q 1
1 1
0
0 0
=
∑ IQ.Q ∑Q
0
0
=
∑Q Q ∑ IQ
∆(ΣQ) = ∑ p1 q1 − ∑ p 0 q 0
1
1
10
© KSTP 22.9.2008