Fakulta elektrotechniky a informatiky Statistika
STATISTIKA 1. ZÁKLADNÍ POJMY 1.1 Náhodný pokus a náhodný jev NÁHODNÝ POKUS – proces realizace souboru podmínek kde výsledek nemůžeme předem ovlivnit. NÁHODNÝ JEV - výsledek náhodného pokusu. JISTÝ JEV - jev, který za daných podmínek musí nastat. NEMOŽNÝ JEV - jev, který při realizaci téhož komplexu podmínek není možný. 1.2 Vztahy mezi náhodnými jevy Náhodné jevy značíme : A, B, C, …A1, B1, C1 … 1.2.1 A ⊂ B tzn.: nastane A ⇒ nastane B (A je částí B)
B A
1.2.2 A = B tzn.: ( A ⇒ B ∧ B ⇒ A) ; ( A ⊂ B ∧ B ⊂ A) (A a B si jsou rovny) 1.2.3 A ∩ B tzn.: nastane A a zároveň nastane i B (průnik jevů)
A=B
A
B
A
1.2.4 A ∪ B tzn.: nastane alespoň jeden z jevů A nebo B (sjednocení jevů)
A
1.2.5 A - B tzn.: nastane jev A a zároveň nenastane jev B (rozdíl jevů)
1.2.6
Jev Jistý – označujeme S
1.2.7
Jev Nemožný – označujeme
1.2.8 Doplněk jevu A - je opačný jevu A
1.2.9
Disjunktivní jevy (neslučitelné jevy) tzn.: A ∩ B = Zobecnění : ∀i, j : Ai ∩ A j =
B
B
A
A
B
Jevy A1, A2 jejichž sjednocení je jevem jistým – tzn.: A1 ∪ A2 ∪ A3... = S toto nazýváme ULPNOU SKUPINOU JEVU a v případě jejich
Vypracoval Hlimak
1
Fakulta elektrotechniky a informatiky Statistika
neuskutečnitelnosti toto nazýváme UPLNOU SKUPINOU NESLUCITELNYCH JEVU.
Elementární jevy a) Tvoří úplnou skupinu (úplný systém) neslučitelných jevů. Značíme E Tzn.: E1 ∪ E 2 ∪ E 3... = S ∧ ∀ij : Ei ∩ E j = b) V dané situaci nejsou rozkládány na jevy podrobnější. Všechny elementární jevy tvoří tzv. základní soubor S. A⊂ B∧B⊂ A⇔ A= B
A∪ A = A A ⊂ (A ∪ B) A∪ B = B∪ A A∩ B = B∩ A A∩ A = A Platí že: A ∩ S = A
A∪O = A A∪ A = S A∩ A = A= A A∩ B = A∪ B A∪ B = A∩ B 1.3 Pravděpodobnost náhodného jevu - pravděpodobnost náhodného jevu A je číslo P(A), které můžeme interpretovat jako míru možnosti nastoupení náhodného jevu. 1.3.1
Axiomatická definice - pravděpodobnost je funkce, která každému náhodnému jevu přiřazuje reálné číslo přičemž splňuje 3 axiomy. 1.Axiom P( A) ≥ 0 tzn.: nezáporné číslo 2.Axiom Pravděpodobnost sjednocení početné množiny neslučitelných jevů A1, A2, A3 …náleží S je rovna součtu pravděpodobnosti těchto jevů. P( A1 ∪ A2 ∪ A3) = P( A1) ⊕ P( A2) ⊕ P( A3) 3.Axiom Pravděpodobnost jistého jevu (S) je rovna 1. P(S)=1
A ⊂ B ⇒ P ( A) ≤ P(B ) A = B ⇒ P ( A) = P ( B )
()
Z toho vyplývá: P A = 1 − P ( A) P(O ) = 0
0 < P ( A) ≤ 1
1.3.2
Klasická definice
Vypracoval Hlimak
2
Fakulta elektrotechniky a informatiky Statistika
P ( A) =
MA N
M A … počet jevů příznivých jevu A N … počet všech možných jevů
1.3.2.1 Statistická definice -založena na pozorování a četnosti výskytu jevu A, a opakovaných nezávyslích pokusech. Hodnotu pravděpodobnosti jevu A v dostatečně velké sérii pokusů. M M…počet výskytů jevu A , N…počet nez. Pokusů P ( A) ≈ N
1.4 Geometrická definice -uzavřená oblast S P ( A) =
-reálný jev A, A ⊂ S
µ ( A) µ (S )
µ ( A)...míra. jevu. A µ (S )...míra.oblasti.S
1.5 Podmíněná pravděpodobnost
P( A B ) … pravděpodobnost jevu A vzhledem k jevu B (tzn.: jev B již nastal) P( A B ) Def.: P ( A B ) = proP (B ) > 0 P (B ) P ( A B ) * P (B ) P( A ∩ B ) Odborně: P (B A) = z.toho. plyneP(B A) = P(B ) P ( A) Bayesův vzorec: P( A ∩ B ) = P( A) * P(B A) = P(B ) * P( A B )
(
)
n Obecně: P I A = P ( A1 ) * P ( A2 A1 ) * P A3 A n −1 i =1 Příklad: Dvě mince Jev A –padne na obou RUB Jev B –padne na první RUB Všechny možné jevy: RR, RL, LR, LL 1 1 P ( A) = P( A ∩ B ) 4 1 4 P( A B ) = = = 1 2 1 P(B ) P (B ) = 2 2 Nezávislost jevů Dva jevy jsou nezávislé, jestliže pravděpodobnost jednoho z nich nezávisí na tom zda druhý nastal nebo nenastal. Matematická definice: Jev A je nezávislý na jevu B ⇔ P( A B ) = P( A) Nezávislost dvou jevů je vždy oboustranná. Pro nezávislé jevy platí: P( A ∩ B ) = P( A) * P(B )
1.6 Věta o sčítání pravděpodobností
P ( A ∪ B ) = P ( A ) + P (B ) − P ( A ∩ B ) Vypracoval Hlimak
3
Fakulta elektrotechniky a informatiky Statistika
Pro neslučitelné: P( A ∪ B ) = P( A) + P(B ) 1.7 Věta o úplné pravděpodobnosti n n H1, H2, H3…Hn tvoří úplný systém neslučitelných jevů P U H i = ∑ P (H i ) = 1 i =1 i =1 Jev A může nastat jen tehdy, nastane-li právě jeden z jevů Hi, pak platí: n
P ( A ) = ∑ P (H i ) * P ( A H i ) i =1
Jevy Hi za nichž může nastat jev A se někdy nazývají hypotézy jevu A.
1.8 Bayerova věta Nechť je dán jev A, který se muže uskutečnit právě za jednu z n podmínek o nichž učiníme hypotézy H1, H2, H3 … Hn. Byl proveden pokus jehož výsledek bylo P (H i ) * P A H i P (H ) * P ( A H i ) nastoupení jevu A pak: P (H i A) = = n i P ( A) ∑ (H )* P (A H )
(
)
j =1
j
j
n
Protože H1, H2, H3 … Hn vyčerpávají všechny předpoklady musí platit : ∑ P (H i A) = 1 i =1
Vypracoval Hlimak
4
Fakulta elektrotechniky a informatiky Statistika
Pravděpodobnost zpoždění rychlíku způsobeného technickou závadou je 0,2. Určete pravděpodobnost toho, že budou zpožděny alespoň tři vlaky z osmnácti sledovaných. a Řešení: - nezávislé Bernaliho schéma Pa (x ) = * P(x )x * P ( x ) a x a – počet testovaných x – počet zkoumaných
18 P18 (0) = * 0,2 0 * (1 − 0,2)18 0 18 P18 (1) = * 0,21 * (1 − 0,2)17 0
Nezpoždí se žádny: Zpozdí se jeden:
18 P18 (2) = * 0,2 2 * (1 − 0,2)16 0 P = 1 − P18 (0) − P18 (1) − P18 (2) = 0,728
Zpozdí se dva: Alespoň tři (doplněk součtu všech do 1):
Třikrát vystřelíme na cíl. Pravděpodobnost zásahu při každém výstřelu je 0,7. Určete: a) Rozdělení pravděpodobností počtu zásahů při třech nezávislých výstřelech b) Distribuční funkci a sestavte její graf Řešení:
a a) – nezávislé Bernaliho schéma Pa (x ) = * P(x )x * P ( x ) a x
3 P3 (0) = * 0,7 0 * (1 − 0,7) 3 = 0,027 0 3 P3 (1) = * 0,71 * (1 − 0,7) 2 = 0,189 1 3 P3 (2) = * 0,7 2 * (1 − 0,7)1 = 0,441 2
Netrefím žádny Trefím jeden Trefím dva
3 P3 (3) = * 0,7 3 * (1 − 0,7) 0 = 0,343 3
Trefím všechny tři Počet zásahů P(úspěšnosti)
0 0,027
1 0,189
2 0,441
3 0,343
b) Zde musíme vědět, že distribuční (komulativní) pravděpodobnost se sčítá, takže začneme od 0, další členy nabývají velikost plus předchozí člen. Rozdělení na ose je od − ∞ , postupně podle střel takže do 0, pak od 0 do 1, …, až od 3 do ∞ . 0 0,027 F (X ) = 0,216 0,657 1
x ∈ (−∞;0〉 x ∈ (0;1〉 x ∈ (1;2〉
graf:
x ∈ (2;3〉 x ∈ (3; ∞)
Vypracoval Hlimak
5
Fakulta elektrotechniky a informatiky Statistika
Náhodná veličina X má v intervalu (− ∞; ∞ ) hustotu pravděpodobnosti definovanou vztahem:
x ∉ 0;1) 0 f (x ) = 2 x ∈ 0;1) b x + 2 x + 1 Stanovte konstantu b a distribuční funkci náhodné veličiny X.
(
)
(
)
Řešení: Nejprve musíme stanovit hodnotu b, kterou zjistíme ze vzorečku b x 2 + 2 x + 1 , ale nesmíme zapomenout, že x ∈ 0;1) , takže to musíme vypočítat pomocí integrálu od 0 do 1. 1
∫ b( x
2
+ 2 x + 1) = 1
0
1
x3 2x 2 b + + x = 1 2 0 3 1 b( + 1 + 1) = 1 3 3 b= 7
Druhá část je zjistit distribuční funkci náhodné veličiny X. Známe vzoreček: X
F ( x) = ∫ (u 2 + 2u + 1)du , který zde využijeme. Nesmíme ale zapomenout rozložit integrál na −∞
X
integrály, to znamená že můžeme rozdělit hranice
∫
−∞
0
=
∫
−∞
X
O
0
−∞
+ ∫ . A ještě víme, že
∫
= 0. X
3 3 u 3 F ( x) = ∫ (u + 2u + 1)du = ∫ b(u + 2u + 1)du = ∫ (u 2 + 2u + 1)du = + u 2 + u = 7 7 3 0 −∞ 0 0 X
x
2
=
x
2
3 x3 * + x 2 + x 7 3
Poslední krok je zapsat distribuční funkci:
0 3 x3 F ( X ) = * ( + x 2 + x) 3 7 1
Vypracoval Hlimak
x ∈ (−∞;0〉 x ∈ (0;1〉 x ∈ (1; ∞〉
6
Fakulta elektrotechniky a informatiky Statistika
Rozdělení pravděpodobnosti náhodné veličiny X je dáno tabulkou. Najděte střední hodnotu a disperzi náhodné veličiny Y = 5 − 2 x . xi -1 0 1 2 3 0,1 0,3 0,2 0,25 0,15 p(xi)
Řešení: První část úkolu je nalezení střední hodnoty Ex. Na tu máme vzoreček E X = ∑ P ( x) . x
E X = ( x1 * p ( x1 )) + ( x 2 * p ( x 2 )) + ( x3 * p ( x3 )) + ( x 4 * p ( x 4 )) + ( x5 * p ( x5 )) = = (−1 * 0,1) + (0 * 0,3) + (1 * 0,2) + (2 * 0,25) + (3 * 0,15) = 1,05
Když už známe EX, tak můžeme vypočítat EY ze vzorečku Y = 5 − 2 x . Vypadá to takhle: Y = 5 − 2 x EY = E (5 − 2 x) = E (5) − E (2 x) = 5 − 2 E ( x) = 5 − 2 * (1,05) = 2,9 E(x) se pro nás zde rovná s EX, proto upravíme do fáze, kdy můžeme dosadit. Nesmíme zapomenout, že když máme E(5) (střední hodnotu 5tky) je 5. Naším druhým úkolem je vypočítat disperzi náhodné veličiny Y = 5 − 2 x . K tomu nám pomaže vzoreček D( x) = ∑ xi ....E ( x) 2 * P( xi neboli ROZPTYL.
(
)
x1
DX = ( x1 − E X ) 2 * P( x1 ) + ( x 2 − E X ) 2 * P( x 2 ) + ( x3 − E X ) 2 * P( x3 ) + ( x 4 − E X ) 2 * P( x 4 ) + + ( x5 − E X ) 2 * P( x5 ) = (−1 − 1,05) 2 * 0,1 + (0 − 1,05) 2 * 0,3 + (1 − 1,05) 2 * 0,2 + (2 − 1,05) 2 * 0,25 + + (3 − 1,05) 2 * 0,15 = 1,547 Poslední věc, kterou uděláme je, že z vlastního rozptylu D(kx) = k 2 * D( x ). Víme že D(x) (neboli DX) je 1,547 a máme vztah Y = 5 − 2 x , z kterého můžeme odstranit 5 a zbude nám Y = −2 x . Teď už stačí pouze dosadit: Y = 5 − 2 x = −2 x a dosadíme do D(kx) = k 2 * D( x ). -2 je pro nás k, D(x) je x: D (kx) = k 2 * D ( x ) = (−2) 2 . * 1,547 = 6,19
Vypracoval Hlimak
7
Fakulta elektrotechniky a informatiky Statistika
Náhodná veličina X má konstantní hodnotu pravděpodobností v intervalu (0, a), to znamená, že její hustota pravděpodobnosti má tvar 1 0〈 x 〈 a f (x ) = a x ≤ 0∨ x ≥ a 0 S použitím vlastností střední hodnoty a rozptylu určete: E (2 X + 3), E 3 X 2 − 2 X + 1 , D(2 X + 3), D X 2 + 1 .
(
)
(
)
∞
Řešení: Zde použijeme druhý důležitý vzoreček, který potřebujeme a to: EX =
∫ xf ( x)dx .
−∞
Nejprve si vypočítáme střední hodnotu: ∞
a
1 1 x2 a EX = ∫ xf ( x)dx = ∫ x dx = = a a 2 0 2 −∞ 0 Pro výpočet využijeme rozptyl Dx, který nám říká, že když (EX)2 odečteme od EX2 (neboli a 2 DX = E ( x 2 ) − (EX ) ), tak ho získáme. EX víme, že je . Takže nám stačí vypočítat E(x2). 2 a
∞
a
1 1 x3 a 2 E ( x ) = ∫ x f ( x)dx = ∫ x dx = = a a 3 0 3 −∞ 0 a
2
2
2
Dosadíme do vzorečku:
DX = E ( x ) − (EX ) 2
2
2
a2 a a2 a2 2 −1 2 a2 = − = − = a = 2 2 2 4 4 4
Vypracoval Hlimak
8
Fakulta elektrotechniky a informatiky Statistika
Dvourozměrná náhodná veličina -tedy náhodný vektor(X,Y) -zákon rozdělení pravděpodobnosti je dán ve formě sdružené distribuční funkce F(x,y) F(x,y)=P(X<x, Y
y
3. P(x1<=X<=x2,y1<=Y<=y2)=suma(dole x=x1,nahoře x2) suma(dole y=y1 nahoře y2) P(x,y)
marginální (okrajové) pravděpodobnosti - PX ( x) = ∑ P ( x, y ) – součet marginálních pravděpodobností y
- PY ( y ) = ∑ P ( x, y ) - Součet sdružených pravděpodobností hodnoty Y x
-sdružené P(x,y) a marginální pravděpodobnosti PX(x) a PY(y) zapisujeme do tabulky sdružených a marginálních pravděpodobností x/y y1 y2 y3 yS ∑ y
x1 x2 x3 xR
∑
P(x1,y1) P(x2,y1) P(x3,y1) P(xR,y1)
P(x1,y2) P(x2,y2) P(x3,y2) P(xR,y2)
P(x1,y3) P(x2,y3) P(x3,y3) P(xR,y3)
P(x1,yS) P(x2,yS) P(x3,yS) P(xR,yS)
PX(x1) PX(x2) PX(x3) PX(xS)
PY(y1)
PY(y2)
PY(y3)
PY(yS)
1
x
Vypracoval Hlimak
9
Fakulta elektrotechniky a informatiky Statistika
Sdružená distribuční funkce F ( x, y ) = ∑ ∑ P (t , u ) – pro diskrétní X,Y t< x u< y
∞
F ( x, y ) =
∞ ∫−∞−∫∞ f (t, u)dt du – pro spojité
Je dvojrozměrná sdružená hustota pravděpodobnosti náhodných veličin(X,Y), která splňuje: 1. f ( x, y ) ≥ 0 všechna x,y naleží R – jsou nezáporná ∞ ∞
2.
∫∫
− ∞− ∞
y2 x 2
f ( x, y )dxdy = 1 , P ( x1 ≤ X 〈 x 2 , y1 ≤ Y < y 2 ) = ∫ [ ∫ f ( x, y )dx]dy -platí pro otevřené y1 x1
i uzavřené intervaly. ∞
Marginální (okrajové) hustoty jsou f X ( x) =
∫
∞
f ( x, y )dy
−∞
fY ( y) =
∫ f ( x, y)dx
−∞
-ze známé distribuční (sdružené) funkce F(x,y) stanovíme hustotu pravděpodobnosti f ( x, y ) =
∂ 2 F ( x, y ) ∂x∂y
Př: Na výrobcích měříme délku s přesností +- 0,5 mm a šířku 0,2 mm. Označme náhodnou veličinu X chybu při měření délky a náhodnou veličinu Y chybu při měření šířky. Sdružená hustota pravděpodobností f(x,y) uvnitř mezích chyb je rovnoměrně rozložena tedy f(x,y) x náleží (-0,5;0,5); y náleží (-0,2;0,2), f(x,y) =0 jinde a) b) c) d)
určete k marginální hustoty pravděpodobnosti určete sdruženou parciální derivaci a marginální distribuční funkci pravděpodobnost, že délku změříme s maximální chybou +- 0,1 mm (délka) a zároveň šířku s maximální chybou +- 0,1 mm.
0, 5 a) ∫ ∫ kdx dy = 0,4k = 1 = k = 2,5 −0,5 −0 , 2 0, 2
∞
f X ( x) = b) fY ( y) =
0, 2
∫ f ( x, y )dy = ∫ 2,5dy = [2,5 y ]
0,2 − 0, 2
−∞
− 0, 2
∞
0 ,5
∫ f ( x, y)dx = ∫ 2,5dx = 2,5
−∞
− 0, 5
2 , 5 dt ∫ −0∫,5 dy = 2,5xy + 0,5 x + 1,25 y + 0,25 = ( x + 0,5) * (2,5 y + 0,5) −0 , 2 y
F ( x, y ) =
=1
x
0,2 ∫ f (t , y )dy dt = x + 0,5 ∫ −0 ,5 − 0, 2 x
c) FX ( x) = F ( x;0,2) =
0, 5 FY ( y ) = F (0,5; y ) = ∫ ∫ f ( x, u )dx du = 2,5 y + 2,5 − 0, 5 − 0, 2 y
Vypracoval Hlimak
10
Fakulta elektrotechniky a informatiky Statistika
d)
P(−0,1 < X < 0,1;−0,1 < Y < 0,1) = F (0,1;0,1) − F (0,1;−0,1) − F (−0,1;0,1) + F (−0,1;−0,1) = = 0,45 − 0,15 − 0,30 + 0,10 = 0,10
Nezávislost náhodných veličin -
-
u jevů P( A B ) = P( A) nezávislé
P( A ∩ B) P ( B ) =/ 0 P( B) obdobně dvě náhodné veličiny X a Y jsou nezávislé, jestliže zákon rozdělení jedné veličiny nezávisí na tom jaké hodnoty nabyla druhé veličina neboli jestliže podmíněný zákon rozdělení této veličiny se neliší od zákona nepodmíněného (marginálního) podmíněná distribuční funkce F(x|y) P (t , y ) ∑ t<x PY ( y ) =/ 0 a) diskrétní případ F ( x | y ) = Py ( y ) definice podmíněné pravděpodobnosti P ( A B ) =
x
∫ f (t , y )dt
−∞
f Y ( y ) =/ 0 f Y ( y) - y je předem dáno – tedy je to distribuční funkce jednorozměrná f ( x, y ) - f ( x | y) = f Y ( y ) =/ 0 f Y ( y) - Záměnou veličin vznikají podmíněné zákony rozdělení veličiny Y pro dané X=x b) ve spojitém případě F ( x | y ) =
-
Nezávislost veličin: jestliže náhodné veličiny X, Y mají sdruženou distribuční funkci F(x,y), pak náhodné veličiny X, Y jsou nezávislé právě tehdy a jen tehdy jestliže F ( x, y ) = FX ( x) * FY ( y )
-
Popíšeme-li sdružené rozdělení pravděpodobností P(x,y) pak jsou nezávislé právě tehdy P( x, y ) = PX ( x) * PY
-
Popisujeme-li sdružené rozdělení pravděpodobností sdruženou hustotou f(x,y) nezávislé f ( x, y ) = f X ( x) * f Y ( y )
-
Jsou-li náhodné veličiny X, Y nezávislé pak jejich podmíněná rozdělení jsou rovna marginálním rozdělení F ( x | y ) = FX ( x)
-
Například (pro všechna y) ∀y : P ( x | y ) = PX ( x) f ( x | y ) = f X ( x)
Vypracoval Hlimak
11
Fakulta elektrotechniky a informatiky Statistika
Charakteristiky náhodných veličin a) polohy (EX, medián, kvantit) EX – předchozí látky - 1. počáteční moment ∞
kvantil – F ( x p ) =
∫ f ( x)dx = p
P( X < x p ) = p
100*p% kvantil
−∞
Medián – střední hodnota – 50% kvantil = F(xp)=0,5 Modus – kde maximum f(x) b) Variability - DX(vlastnosti předchozí látka) - 2. centrální moment c) Šikmost – můžeme mít zešikmení doprava či doleva – 3. centrální moment 3 E [ X − EX ] - A3 ( x) = 3 DX d) Špičatost – 4. centrální moment 4 E [ X − EX ] - A4 = 4 DX
(
(
(
(
)
)
)
)
- směrodatná odchylka δ = 4 DX - (exces, kurtosis)
Charakteristiky dvourozměrné náhodné veličiny - jako v jednorozměrných (polohy, variability, šikmosti – a to pro každé marginální rozdělení) - dále máme charakteristiky podmíněné (Regresní funkce, Skedastická funkce) - charakteristika vzájemného vztahu – kovariace (míra těsnosti) - kovariace patří mezi součinová momenty a definujeme ji jako střední hodnotu součinu odchylek obou veličin od jejich středních hodnot ∞ ∞
-
cov( X , Y ) = E [( X − EX ) * (Y − EY )]
cov( X , Y ) = E ( XY ) − EX * EY
∫ ∫ ( x − EX ) * ( y − EY ) f ( x, y)dxdy
neboli cov( X , Y ) =
neboli cov( X , Y ) = ∫
− ∞− ∞ ∞ ∞
−∞
∫ x * y * Ff ( x, y )dxdy − EX * EY
−∞
Na kovarianci je založen Koeficient Korelace Koeficient Korelace cov( X , Y ) cov( X , Y ) cov( X , Y ) ⇔ ⇔ ρ ( X ,Y ) = - ρ ( X ,Y ) = ρ ( X ) ρ (Y ) var( X ) * var(Y ) DX * DY -koeficient korelace je bez rozměrnou charakteristikou měřící těsnost vztahu mezi dvěma veličinami a nabývá hodnot v intervalu 〈−1;1〉 ⇔ −1 ≤ ρ ( X , Y ) ≤ 1 - veličiny se nazývají nekorelované - ale pozor! Z toho, že náhodné veličiny jsou nekorelované, obecně neplyne, že jsou X , Y ⇒ ρ ( X , Y ) = 0; ρ je mírou lineární nezávislostí nezávislé.
Vypracoval Hlimak
12
Fakulta elektrotechniky a informatiky Statistika
Vlastnosti cov 1. 2. 3. 4. 5.
cov(a1 , Y ) = cov( X , a 2 ) = cov(a1 , a 2 ) = 0 cov(a1 + b1 X , a 2 + b2Y ) = b1b2 cov( X , Y ) cov( X , X ) = DX cov( X , Y ) = cov(Y , X ) cov( X , Y ) = E ( XY ) − EX * EY
m n 6. cov ∑ Xi, ∑ j =1 i =1
n m ji = ∑∑ cov( Xi, Yj) i =1 j =1
Příklad: 0 < x < 1, 0 < y < 1 f ( x, y ) = x + y =0 jinak cov=? ρ = ? 7 11 EX = EY = DX = DY = 12 144 1 1 EX = ∫ xf x ( x)dx; EY = ∫ yf y ( y )dy 0 0 1 1
1 1
0 0
0 0
DX = E ( X 2 ) − EX 2
E ( XY ) = ∫ ∫ x * yf ( x, y )dxDy = ∫ ∫ x * y ( x + y )dxdy = cov( X , Y ) = E ( XY ) − EX * EY = −
⇒ ρ ( X ,Y ) =
cov( X , Y )
DX * DY velmi slabě korelované)
=−
( )
DY = E Y 2 − EY 2
1 3
1 144
1 - velmi slabá nepřímá lineární závislost (obě veličiny jsou 11
Vypracoval Hlimak
13
Fakulta elektrotechniky a informatiky Statistika
Rozdělení pravděpodobností náhodných veličin a) Diskrétních náhodných veličin - diskrétní rozdělení nám vznikají - Alternativní rozdělení A(π ) - Alternativní rozdělení nastane s pravděp. π a nenastane pravdě. 1-π. A nastane → 1 A nastane → 0 0 1 Xi Π(xi) 1-π π
P ( X = 1) = π P ( X = 0) = 1 − π
- praxi pro zkoumání jevu, které se realizují pouze dvěmi variantami uspech dobrého tel. Signálu na 1. pokus. (výskyt výrobku při technické hodnotě, vadného neuspech Příklad: Úspěch spojení na 1. pokus π = 0,23 (pravděpodobnost) 1 = úspěch, 0 = neúspěch A(0,23), EX=0,23, DX=0,23*0,77=0,1771 Binomické rozdělení Bi(n;p) - opakované Benoulliho pokusy (nezávislost) - sledujeme rozdělení, že jev A nastane právě x-krát ∀x = 0,1,2,...n → binomické rozdělení n n− x p – pravděpodobnost úspěchu jevu A - p ( x) = p x (1 − p ) x EX = np -
-
DX = np (1 − p ) Binomické rozdělení vzniká vlastně složením u nezávislých veličin s alternativním rozdělením (tj. počet špatných výrobků zjištěných ve výběru n výrobku; účinnost přípravku na n subjektech; připojení k serveru nezávislých pokusech) Příklad: Snažíme se zalogovat na počítač deseti nezávislých pokusech. Pravděpodobnost úspěšného zalogování na první pokus 0,23. Určete pravděpodobnost, že se nám podaří zalogovat nejvýše dvakrát a nakresl pravděpodobnostní funkci rozdělení.
bi (10;0,23) 2 - pravděpodobnost, že se nalogujují 10 P ( x ≤ 2) = ∑ * 0,23 * 0,7710− x = 0,5863 0 x úspěšně 2x je 58,63%.
- čísla velmi blízko nule (od 7 do 10)
Vypracoval Hlimak
14
Fakulta elektrotechniky a informatiky Statistika
Poissonovo rozdělení – PO(λ) - jestliže u binomického rozdělení je n dostatečně velké a p je dostatečně malé λ = np n λx n− x → ( p ≤ 0,1; n〉 30) pak p x (1 − p ) ≈ x = 0,1,....n x! x EX = λ DX = λ λ – intenzita počtu (průměrný očekávaný počet výskytu sledovaného jevu v za jednotku času = např. příjezdy aut k benzínové stanici, příchody k obsluze, příchody zákazníků k pokladně) - př: bylo zjištěno při výrobě polyn. vlákna dojde na zpřádacích strojích za hodinu průměrně k ucpání čtyř trysek, které je nutno vyměnit a vyčistit. Tento počet je náhodná veličina X s poissonovým rozdělením pravděpodobností s parametrem λ=4[hod-1]. Určete pravděpodobnost, že bude třeba vyměnit za : a. Právě dvě trysky b. Nejvýše dvě trysky c. Nakreslete graf rozdělení pravděpodobností P( X = x) =
λx x!
e −λ =
4 x −4 e x!
2
4 −4 e = 0,1465 2! 4 0 − 4 41 − 4 4 2 − 4 e = e + e = 0,2381 b. p( x〈3) = F (3) = 0! 1! 2! a. p (2) =
c.
Vypracoval Hlimak
15
Fakulta elektrotechniky a informatiky Statistika
Spojitá rozdělení Normální rozdělení Hustota
1
f ( x) =
−
*e
( x − µ )2
−∞ < x < ∞
2δ 2
− ∞ < µ < ∞, δ 〉 0 δ 2π 2 EX = µ DX = δ N (µ , δ 2 ) Pozor!: Kubanová/Linda N ( µ ; δ ) ∞
∫ f (v)dv = ∫ δ
F ( x) =
−∞
Z=
x−µ
δ
1 2π
−
*e
(v − µ )2 2δ 2
* dv
→ N (0,1)
Koupit: Kritické hodnoty bla bla bla, Kubanová
Exponenciální rozděleni – Exp(α ) -z Possionova rozdělení jestliže sledujeme jev mezi dvěma časovými událostmi F ( x) = 1 − e −αx f ( x ) = α * e −α x 2 x ≥ 0 α 〉0 1 EX = DX = α α - často je α průměrný počet výskytu sledovaného jevu za časovou jednotku - obecně je to doba životnosti nebo doba čekání na nějakou událost
1
Rovnoměrné rozdělení - R(a; b) f ( x) =
1 (b − a )
x ∈ ( a, b)
a+b (b − a ) EX = DX = 2 12 - pravděpodobnost je rovnoměrně rozdělena na celém intervalu - například odečítání měření na lineární stupnici 2
Tebyševova nerovnost - pro jakoukoliv náhodnou veličinu X se střední hodnota EX a variabilitou DX a ∀ε 〉 0 je
δ2 P( X − EX 〈ε ) ≥ 1 − 2 ⇔ P( X − µ ≥ ε ) ≤ 2 ε ε 1 - pro jakékoliv k ≥ 1 nejméně 1 − 2 * 100 % leží v intervalu k (µ − k * δ ; µ + k * δ ) ⇒ 50% je v ± 1,414δ Nejméně 75% je v ± 2δ Nejméně 88,88% je v ± 3δ DX
Vypracoval Hlimak
16
Fakulta elektrotechniky a informatiky Statistika
Zákon velkých čísel -jestliže X 1 , X 2 ,..... X n je posloupnost podvojně nezávislých náhodných veličin mající střední hodnoty E ( X 1 ), E ( X 2 )....E ( X n ) a shora ohraničené rozptyly D( X 1 ) ≤ c, D( X 2 ) ≤ c....D( X n ) ≤ c kde c je nějaké konečné číslo, potom pro libovolné
1 n 1 n = 1 (tedy průměr výsledku dostatečně velkého počtu pokusů P X E ( X ) ε − 〈 ∑ ∑ i i lim n n n→∞ = 1 = 1 i i se bude libovolně málo lišit od průměru středních hodnot) - praktickým důsledkem je možnost odhadu teoretického průměru na základě průměru z dostatečně velkého počtu pokusů (dostatečného počtu pozorování)
Centrální limitní věty - hovoří o asymptotickém rozdělení - zabývá se normálním zákonem rozdělením jako zákonem limitním a) Věta Lindeberg-Lévyho – tvrdí, že součet (a tedy i průměr) vzájemně nezávislých náhodných veličin s konečnými středními hodnotami a rozptyly má pro dost velká n přibližně normální rozdělení - X i (i = 1,2,...n) mají totéž rozdělení se středními hodnotami µ a rozptylem 5 2 , platí tyto limitní vztahy pro X = X 1 + X 2 ... X n 2 X − nµ P u1 〈 〈u 2 → ∫ ϕ (u )du......(tj.φ (u 2 ) − φ (u 2 )) δ u u1 ϕ -hustota N(0,1) φ -distribuční funkce normovaného normálního rozdělení b) Věta Moivre-Laplacedua – vyjadřuje konfergenci binomického rozdělení normálnímu rozdělení. X − np - náhodná veličina X má Bi (n, p ) ⇒ lim P 〈 x = φ ( x) - distribuční np (1 − p ) n →∞ funkce N(0,1)
u
∞
-
∫ ϕ (u)du - hustota N(0,1)
−∞
Vypracoval Hlimak
17
Fakulta elektrotechniky a informatiky Statistika
Deskriptivní (popisná statistika) Příklady: Str. 29 Př.: 1,3,5 Spotřeba Fabie v litrech/100km (30 uzlů) 6,8 8,0 6,4 8,2 5,9 7,2 6,5 5,5 6,6 7,4 6,9 7,5 6,4 7,0 6,7 Min = 5,5 Max = 8,6 Max-Min=3,1 – výběrové variační rozpětí
6,8 6,6 5,6
7,7 7,2 7,2
5,6 8,6 8,1
8,3 7,2 6,7
7,8 7,3 6,5
Str.22 k = 1 + 3,22 log n =& 5,9 k =& int( 2 n ) =& 10 Zvolíme 7 tříd: 1. 2. 3. 4. 5. 6. 7.
<5,5;6,0) <6,0;6,5) <6,5;7,0) <7,0;7,5) <7,5;8,0) <8,0;8,5) <8,5;9,0)
Zj 5,75 6,25 6,75 7,25 7,75 8,25 8,75
kolikrát je zastoupena //// // ///////// /////// /// //// /
Mj 4 2 9 7 3 4 1
Mj n 0,1333 0,0667 0,3000 0,2333 0,1000 0,1333 0,0333 fj =
5,6 6 6,5 7 7,5 8 8,5 9 - polygon četností (relativních četností když na ose Y fi) – bodový graf - histogram četnosti (relátcích četností) – jsou ty obdelníkový graf 1 n 1 1. Aritmetický průměr: X = ∑ xi = (6,8 + 8,0 + ....) =& 7,010 ) - (výběrový n i =1 30 průměr)
Vypracoval Hlimak
18
Fakulta elektrotechniky a informatiky Statistika
Výběrové charakteristiky a) Polohy n
- výběrový průměr X = ∑ Xi / n (aritmetický průměr) i =1
- výběrový modus (kde největší třídní četnost výběru) - výběrový medián – prostřed v neklesající posloupnosti hodnot výběru (když sudý počet pak průměr z prostředních hodnot) b) Variability + 2 1 n - výběrový rozptyl S 2 = ∑ X i − X → S = S 2 - výběrová směrodatná odchylka n i =1 2 1 n - výběrový rozptyl S − 2 = X i − X (někde S |2 ) → S = S −2 - výběrová směrodatná ∑ n − 1 i =1 odchylka nevychýlená - výběrové variační rozpětí RVAR = X MAX − X MIN
(
)
(
)
- Náhodný výběr – n rozměrnou náhodnou veličinu (vektor) X = ( X 1 , X 2 ,.... X n ) . X 1 , X 2 ,... X n jsou vzájemně nezávislé a všechny mají stejné rozdělení (tj. totéž v distribuční funkci F ( x ) budeme nazývat náhodným výběrem v rozsahu n z tohoto rozdělení (to je z rozdělení mající distribuční funkci F ( x ) ). - na základě náhodného výběru se snažíme odhadnout rozdělení celého souboru, z kterého výběru vychází - odhadnu EX aritmetickým průměrem x výběru výběrovým rozptylem s 2 výběru - odhadnu DX - Bodový odhad – když odhaduji statistiky a parametry jedním číslem. - Odhad metodou momentu -pokud odhaduji pomocí momentů hovoříme - Odhad maximální věrohodnosti – pokud odhaduji pomocí funkce věrohodnosti - při bodovém odhadu nevíme nic o chybě toho odhadu, pokud vím (nebo si z výběru zjistím) o jaké jde rozdělení. Mohu tuto informaci využít ke stanovení chyby odhadu → (vzniká) intervalový odhad (tzv. intervaly spolehlivosti)
Vypracoval Hlimak
19
Fakulta elektrotechniky a informatiky Statistika
Intervaly spolehlivosti pro střední hodnotu normálního rozdělení a) znám δ celého normálního rozděleni (NR) – využití věty 1.5.2 str. 44, tj. že náhodná veličina! Z =
X −µ
má N(0,1) (když X je z N ( µ , δ ) nebo když n ≥ 30
δ/ n P ( Z ∈ (− zα ; zα )) = 1 − α P (− zα < Z < zα ) = 1 − α
X −µ < zα = 1 − α P − zα < δ/ n
( ) P (− X − z * δ / n < − µ < z * δ / n − X ) = 1 − α P (X + z * δ / n 〉 µ 〉 − z * δ / n + X ) = 1 − α P (µ ∈< X − z * δ / n ; X + z * δ / n ) = 1 − α P − zα * δ / n < X − µ < zα * δ / n = 1 − α α
α
α
α
α
α
-kde typický zα je (1- α )*100% kvantil N(0,1)oboustranný interval spolehlivost (1α )pro střední hodnotu mi – je takzvaná koeficient spolehlivosti (konfidence) - se volí 1- α = 0,95 X −µ b) neznámá sigma – věta 1.5.4 str.44, tj. že T = * n − 1 má Studentovo S rozdělení s n-1 stupni volnosti (když X z N ( µ , δ ) nebo n ≥ 30 )
(
)
- obdoba jako v a) → P µ ∈ 〈 X − tα S / n − 1; X + tα S / n − 1〉 = 1 − α
Interval spolehlivosti pro rozptyl normálního rozdělení - využijeme věty 1.5.3, tj. že χ =
n*S2
δ
2
má χ 2 rozdělený s n-1 stupni volnosti, když výběr
z NR (celého normálního rozdělení) → interval spolehlivosti pro rozptyl n*S2 n*S2 , kde χ 2 je (1 − α / 2) * 100%ní je kvantil χ 2 s n-1 stupně volnosti I 1−α = ;
χ2
χ1
Vypracoval Hlimak
20
Fakulta elektrotechniky a informatiky Statistika
Jednostranné intervaly spolehlivosti Ad a) pro µ , když znám δ I 1−α = X − z 2α δ / n ;+∞ - levostranný (1- α ) interval spolehlivosti I 1−α = − ∞ X + z 2α δ / n - pravostranný (1- α )x100%ní interval spolehlivosti pro střední hodnotu Příklady: Př. 2.2 Cena vína 40 58 52 45 60 53 55 57 39 42 Předp. NR pravdě. 99% interval spolehlivosti pro střední hodnotu NR ceny vín n=12, x = 50,4167 ; s=7,2968;
58
46
P(| T |〉 tα ,n ) = α ⇒ α = 0,01 ⇒ t 0,1,11 = 3,1058 I 0,99 = x −
s n −1
tαn −1 ; x +
s n −1
tαn −1 = 43,5837;57,32..
Vypracoval Hlimak
21
Fakulta elektrotechniky a informatiky Statistika
Pevnost – 10 testů (na 10-ti lanech) [t] 3,2 3,3 3,4 3,0 n = 10
3,1
3,3
3,6
3,3
3,4
3,2
x = 3,28 1) µ = 3,2 , δ = 0,2
α = 0,05 α = 0,01
Z=
X −µ
δ
má N(0,1)
n
H 0 : µ = 3,2t H 1 : µ =/ 3,2t α - hladina významnosti 3,28 − 3,2 * 10 = 1,26 Realizace: z = 0,2
Testování hypotéz -
statistická hypotéza je tvrzení o vlastnostech základního souboru, případně více základních souborů, o jehož pravdivosti se chceme přesvědčit, přičemž předem nevíme jestli je pravdivé nebo ne. Vztahuje se buď k tvaru nebo parametrům rozdělení pravděpodobností základního souboru a můžeme ji ověřit testováním. - Nulová hypotéza (H0) o Její platnost ověřujeme - Alternativní hypotéza(H1) o je to co bude platit, když neplatí H0 - říkáme, že testujeme H0 proti H1 - platnosti H0 rozhodujeme na základě zvolené funkce náhodného výběru ( X 1 , X 2.. ) , tato funkce se nazývá testovací kritériu Kritická oblast (KO) - je to podmnožina množiny hodnot testovacího kritéria jejichž pravděpodobnost alfa je za předpokladu platnosti hypotézy, tak malá, že náhodný jev „hodnota testovacího kritéria padne do kritické oblasti“ pokládáme za jev nemožný Oblast přípustných hodnot (OPH) - je množina hodnot testovaného kritéria, které nepatří do KO Kritická hranice (KH) - odděluje kritickou oblast od oblasti přípustných hodnot Hladina významnosti testu - α - pravděpodobnost kritické oblasti Postup pro všechny testy 1) vezmu jednu realizaci náhodného výběru ( x1 , x 2, ..x n ) 2) stanovím test 3) zvolím α (z pravidla 0,05) 4) na základě ( x1 , x 2, ..x n ) vypočítám realizaci náhodné vhodné veličiny (kritéria) 5) na základě, kam padne realizace testovací veličiny rozhodnu zda zamítnu A0 či ne (když padne do KO – zamítnu H0; když nepadne do KO – nezamítnu H0) POZOR! Nezamítnutí H0, že platí – může platil ale taky nemusí Vypracoval Hlimak
22
Fakulta elektrotechniky a informatiky Statistika
Chyba prvního druhu – zamítnu H0, když H0 platí (= α ) Chyba druhého druhu – příjmu H0, když H0 neplatí (β ) (1 − β ) - síla testu p – hodnota – udává nejnižší možnou hodnotu pro zamítnutí H0 pro danou realizaci náhodného výběru Dělení -parametrické testy (testy významnosti) – se týkají parametrů základního souboru -neparametrické testy (ostatní testy + testi shody) – dvoustranné, jednostranné testy jednostranné H 0 : µ ≥ 3,2 H 1 : µ < 3,2
3.2 – Testy významnosti 3.2.1 Jednovýběrový test významnosti pro střední hodnotu normálního rozdělení - též lze použít pro velké výběry x1 , x 2 ,...x n H 0 : EX = k H 1 : EX =/ k (H 0 : µ = k H 1 : µ =/ k ) a) známe parametr δ Testovací kriterium X −k Z= * n - má N(0,1)
δ
2 −α zα = O/ −1 2 b) neznáme δ X −k * n − 1 - studentovo rozdělení s n-1 stupni T= S volnosti α ⇒ Vypočítám s z výběru ⇒ s=0,16, α =0,05 ⇒ realizace T ⇒ x−k 3,28 − 3,2 t= * n −1 = * 10 − 1 = 1,5 s 0,16 − 2,2622 ≤ 1,5 ≤ 2,2622 ⇒ t ∈ OPH tedy realizace nepadla do KO ⇒ nezamítám H0, a není tedy důvod (na základě našeho výběru) zamítnout hypotézu, že EX=3,2 (tedy může být 3,2) (I 0,95 = 3,159;3,401 )
Vypracoval Hlimak
23
Fakulta elektrotechniky a informatiky Statistika
má pravdu (může mít pravdu), že δ = 0,2 ?
3.2.2 Jednovýběrový test významnosti pro rozptyl normál. rozdělení
( X 1 , X 2 ,... X n ) je z NR (µ , δ ) H 0 : DX = k 2 H 1 : DX =/ k 2 Testovací kritérium: dle věty 1.5.3 str. 44 nS 2 χ = 2 má χ - kvadrát rozdělení s n-1 stupni volnosti k
0 χ 1 6,4 χ = 0,05 ⇒
χ2 χ
χ 0,025;9 = 19,0228 = χ 2 χ 0,025;9 = 2,70039 = χ 1 10 * s 2 10 * 0,16 2 χ= = = 6,4 ⇒ 2,70059 ≤ 6,4 ≤ 19,0228 ⇒ nezamítáme H0 a tedy dodavatel 0,2 2 0,2 2 může mít pravdu.
Vypracoval Hlimak
24
Fakulta elektrotechniky a informatiky Statistika
Dvouvýběrový test pro rozptyl ( X 1 . X 2 ,.. X n ) z N ( µ1 , δ 1 ) (Y1 , Y2 ,..Yn ) z N ( µ 2 , δ 2 ) H 0 : DX = DY
H 1 : DX =/ DY
Testovací kriterium
F=
S1
2
S 22
- F-rozdělení s n1 − 1 u n2 − 1 stupni volnosti, hranice Fα , n1 − 1, n 2 − 1
V praxi: F =
2
2
2
2
max{S 1 , S 2 }2 min{S 1 , S 2 }
Příklad: X Y n1 = 8
101 100
100,5 100 H 0 : DX = DY
n2 = 8
100 99,8
100 99,9
99,7 100
100,2 100,3
100,3 100,7
99,6 100
H 1 : DX =/ DY
2
S 1 = 0,20268 2
S 2 = 0,08125 f =
2
2
2 1
2 2
max{S 1 , S 2 }2
=
0,20268 = 2,495 0,08125
min{S , S } Pro f tabulka na straně 18 α = 0,10 Hranice : F0,005;8−1;8−1 = 8,885
2,495 ≤ 8,85 ⇒ nepadlo do KO ⇒ H0 nezamítáme
Vypracoval Hlimak
25
Fakulta elektrotechniky a informatiky Statistika
Dvouvýběrový test pro rovnost středních hodnot H 0 : EX = EY a) známe δ 1 a δ 2
H 1 : EX =/ EY X −Y
Testovací kriterium: Z =
δ 12
- má N(0,1)
δ 22
+ n1 n 2 Hledáme obdobně jako Z u jednovýběrových b) neznáme δ 1 a δ 2 , ale předpokládáme, že δ 1 = δ 2 H 1 : EX =/ EY H 0 : EX = EY Testovací kriterium: T =
X −Y n S + n2 S 2 1 1
2 2
*
n1 * n 2 (n1 + n 2 − 2) - Studentovo rozdělení s n1 + n2
n1 + n2 − 2 stupně volnosti
0
tα ;n1 + n2 − 2
c) neznáme δ 1 a δ 2 předpokládáme, že δ 1 =/ δ 2 (zjistím F – testem na rozptyly) H 1 : EX =/ EY H 0 : EX = EY X −Y Testovací kriterium: T = 2 S1 S2 + 2 n1 − 1 n 2 − 1
S 21 S 22 tα ;n −1 + tα ;n −1 n1 − 1 1 n2 − 1 2 KH = S12 S2 + 2 n1 − 1 n2 − 1
Vypracoval Hlimak
26
Fakulta elektrotechniky a informatiky Statistika
Příklad: 600 750 700 730 550 Středa 726 Pátek 1002 1050 950 823 1250 1410 α = 0,05 Zde odlišné střední hodnoty? (předpoklad NR- normalita) H 1 : EX =/ EY H 0 : EX = EY
n1 = 8
715 825
923
995
2
x = 670,85 S12 = 5122,69 S 1 = 5854,5
n2 = 10 x = 991,2
S 22 = 40258,36
1) ? δ 1 = δ 2 H 0 : DX = DY
H 1 : DX =/ DY
f =
595 684
2
S 2 = 44732,62
{ } = 44732,62 = 7,641 5854,5 min{s ; s } 2 1
max S ; S 2 1
2 2
2 2
F0,025;10−1;8−1 = F0, 025;9, 7 = 4,823 7,641〉 4,823 ⇒ realizace padla do KO ⇒ H0 zamítáme a dále předpokládáme, že rozptyly jsou různé 6,7075 − 991,2 x− y = −4,4417 = ⇒t = 5122,69 40259,36 S12 S 22 + + 7 9 n1 − 1 n 2 − 1 t 0,025;n1 −1 = 2,3646
- n1 = 7
t 0, 025;n2 −1 = 2,2622
- n2 = 9
S 21 S2 tα ;n1 −1 + 2 tα ;n2 −1 5122,69 * 2,3646 + 40259,36 * 2,2622 n −1 n2 − 1 7 9 KH = 1 = = 2,2766 2 2 5122 , 69 40259 ,36 S1 S2 + + 7 9 n1 − 1 n2 − 1
− 4,44217 〉 2,2776 ⇒ realizace padla do KO ⇒ H0 zamítáme ⇒ střední hodnota průjezdu ve středu a v pátek jsou stejné
Vypracoval Hlimak
27
Fakulta elektrotechniky a informatiky Statistika
Párový T-test (test pro párové hodnoty závislých výběrů)
( X 1 ; Y1 )( X 2 ; Y2 ).....( X n ; Yn )
N (µ1 ; µ 2 ; δ 1 ;δ 2 ) Hypotéza EX − EY = k převádíme na hypotézu ED=k, kde ED je střední hodnota příslušných rozdílů H 0 : ED = k H 1 : ED =/ k Testovací kritérium: D−k 1 n * n − 1 , D = ∑ Di , S d = Sd n i =1 KH: studentovo, n-1 st. volnosti, n2-1 T=
Č Před Po Di
1 3,19 3,25 -0,06
2 2,94 2,95 -0,1
3 2,80 2,97 -0,017
4 3,00 3,13 -0,13
5 3,23 3,24 -0,01
1 n (Do − D )2 ∑ n i =1
6 3,29 3,24 0,05
7 2,95 3,07 -0,12
8 2,87 2,77 0,1
d = −0,04375 S d = 0,08745
1. ? Zda se úpravou změní tvrdost k=0 H 0 : ED = 0 H 1 : ED =/ 0 T=
D−k 0,04375 * n −1 = * 8 − 1 = − 1,3236 Sd 0,08745
t 0,01;7 = 3,495
− 1,3236 ≤ 3,4995 ⇒ H0 nezamítáme a tedy nelze tvrdit, že proces má vliv na tvrdost
χ 2 -testy 1. Test shody 2. Test nezávislosti (z kontingenční tabulky) Příklad: ? NR (µ = 7; δ = 0,8)
χ2 = ∑ i
N (0,1) Z = x − µ δ
(Oi − Ei )2 Ei
5,5 − 7 − 1,875 = 0,8
Oi – pozorované četnosti Ei – očekávané (teoretické) četnosti
0,1056 = O/ (−1,25) − O/ (−1,875)
1. < 5,5;6,0)
4
< −1,875;−1,25)
2. < 6,0;6,5)
2
< −1,25;−0,625)
0,1620
4 , 86
3. < 6,5;7,0)
9
< −0,625;0)
0,2324
4. < 7,0;7,5) 5. < 7,5;8.0)
< 0;0,625) < 0,625;1,25)
(9 − 6,975)2
7 3
0,2324 0,1620
6 , 972 6 , 972 4 , 86
(7 − 6,972)2
6. < 8,0;8,5)
4
< 1,25;1,875)
0,0749
6,972
7. < 8,5;9, é )
1
< 1,875;2,25)
0,0307
2 , 247 0 , 921
1,00000
-tento příklad není dokončen!!!
= 30
Vypracoval Hlimak
-Enp 3 , 168
χ 2 = (Oi − Ei ) 2
Epi 0,1056
(6 − 8,028) 2 = 0,5123 8,028 6,972
= 0,59 = 0,00
28
Fakulta elektrotechniky a informatiky Statistika
χ2 = ∑
(Oi − Ei )2 Ei
z volání -
Č 40% 30 40
Oi Ei
χ2 =
Z 20% 30 20
B 20% 20 20
(30 − 40)2 + (30 − 20)2 + (20 − 20)2 + (20 − 20 )2 40
20
20
20
=
M 20% 20 20
100 100 + = 2,5 + 5 = 7,5 40 20
α = 0,05 Stupně volnosti: r-k-1=3 (víme, že r =4, k=0)
χ 0,05;3 = 7,81473 - najdeme v tabulkách
7,5 < 7,8147 ⇒ H0 nezamítám, vedoucí může mít pravdu Test nezávislosti (z kontingenční tabulky) 2 ( Oi − Ei ) 2 χ =∑ Ei Příklad 3.4.7 Dokončené vzdělání Základní Střední Vysoké
56,36 39,45 38,18
80 56 40
Změna životní úrovně Zlepší Nezlepší Zhorší 48 82 70 42 63 35 34 31 35 124 176 140
63,63 44,54 31,81
χ 2 ´=
200 140 100 440
124 − 200 440 124 − 140 440 124 − 100 440
176 − 200 440 176 − 140 440 176 − 100 440
(40 − 56,36)2 + (82 − 80 )2 + (70 − 63,63)2 + (42 − 34,45)2 56,36
80
63,63
34,45
140 − 200 440 176 − 140 440 176 − 100 440
+ ... =& 8,556
Počet stupňů volnosti: ( z − 1) * (s − 1) = (3 − 1) * (3 − 1) = 4
χ 2 0, 05; 4 = 9,4877 8,556 < 9,4877 ⇒ H0 nezamítám
Vypracoval Hlimak
29
Fakulta elektrotechniky a informatiky Statistika
Neparametrické testy X 1 , X 2 ... X n , spojité, mají F dostav. Funkci ~ X -medián (mají stejný) ~ ~ H 0 : X = c H 1 : X =/ c Od všech hodnot odečteme c -> posunu medián do 0 => ?medián=0 Příklad 3.4.1 Oktanové číslo testováno 12 vzorků ?medián je 98 na α = 0,05 Xi 98,2 96,8 98 ~ ~ H 0 : X = 98 H 1 : X =/ 98 Xi -98 0,2 -1,2
0
96,3
-1,7
99,8
1,8
96,9
-1,1
95,2
-2,8
95,6
-2,4
96,1
-1,9
97,7 98,1 98,7
-0,3
0,1 0,7
Když 0 tak vypustím o 0 sdružíme počet o 1 Y=4 N=12-1=11 KO<=K1 nebo >=K2 Tabulky: hrani u k1:1;K2=10 K1<4
H0 nezamítá, medián může být jedna
Vypracoval Hlimak
30
Fakulta elektrotechniky a informatiky Statistika
Wilcoxonový testy Jednovýběrový Wilcoxonový test H 0 : F( x ) = 1 − F( − x ) (ne. Distr. Funkce je symetrická) H1: není symetrická (aplikace tež pásový -> jednovýběrový) 1 10,7 10,8 -0,1 3,5
Staré Nové Di
2 12,2 11,9 +0,3 8,5
3 11,8 11,4 +0,4 10
4 11,9 11,6 +0,3 8,5
5 11,5 11,6 -0,1 3,5
6 10,9 11,0 -0,1 3,5
7 11,3 11,2 +0,1 3,5
8 12,1 12,0 +0,1 3,5
9 12,0 12,1 -0,1 3,5
10 11,8 11,6 +0,2 7
1+ 2 + 3 + 4 + 5 + 6 = 3,5 Pořadí z absolutních hodnot 6 * 0,1 ⇒ průměr z pořadí 6 1,2,3,4,5,6=3,5 S + = ∑ y + = 8,5 + 10 + 8,5 + 3,5 + 3,5 + 7 = 41 x1 ≥ 0
S = ∑ y − = 3,5 + 3,5 + 3,5 + 3,5 = 14 −
{S
x2 ≤ 0
}
+
, S − = 14 14>8 =>nepadla do K0=>H0 nezamítáme => nemělo vliv
Dvouvýběrový Wilcoxonův test
( X 1 , X 2 ,. X n )
(Y , Y ,.. X ) 1
2
µ
H0: Distribuční funkce jsou stejné H1: Distribuční funkce jsou rozdílné Příklad: ceny benzínu testovány u stanic v Praze a Brně Praha 23,50 22,50 22,10 22,30 23,10 (12,5) (7,5) (4 =>3,5) (6) (10,5) Brno 22,00 21,70 22,10 22,50 22,60 (2) (1) (3 =>3,5) (7,5) (9)
23,50 (12,5) 22,20 (5)
23,10 (10,5)
23,60 (23,6)
?jsou ceny v Praze a Brně stejné (na hladině vyzn. 0,05) – čísla v závorka je pořadí, když jsou stejný, dá se půlka a (7,5 je průměr mezi 7 a 8) Počet údajů Praha m=8 Počet údajů Brno n=6 t1 = 12,5 + 7,5 + 3,5 + 6 + 10,5 + 12,5 + 10,5 + 14 = 77
t 2 = 1 + 2 + 3,5 + 5 + 7,5 + 9 = 28 m(n + 1) = 48 + 72 / 2 − 77 = 7 2 m(n + 1) u2 = m * n + = ....nevim 1
u1 = m * n +
Vypracoval Hlimak
31
Fakulta elektrotechniky a informatiky Statistika
Regresní analýza Regresní funkce - E (Y x ) - střední hodnota podmíněného hodnocení veličiny Y závisí na volbě podmínky (v hodnotě veličiny x) a je tedy její funkcí. Tato funkce se nazývá funkcí regresní veličiny Y vzhledem k X -
E (Y X ) =
∞
∫ yf ( y x )dy - jen funkce
x
−∞
-
-
Základem regresní analýzy je na základě náhodného výběru odhadnout regresní funkci nebo testovat hypotézy o regresní funkci nebo o parametru této funkce Parametry regresní funkce nazýváme regresní parametry nebo též regresní koeficienty Odhad parametrů mám pak umožní předpovědět veličinu Y pro nějakou danou hodnotu x Základním modelem regresní analýzy je model, kde proměnné x1, x2, ..xk jsou pevnými (nenáhodnými) proměnnými a náhodné veličiny Yi mají i rozptyl a jsou nezávislé Jednoduchým modelem lineární regrese budeme nazývat model Yi = α + β xi + ε i
-
ε i - jsou nezávislé náhodné veličiny pro, které platí střední hodnota všechna E (ε i ) = 0 , disperse D(ε i ) = δ 2 ε i - se nazívá náhodná položka (zahrnuje působení náhodných vlivů) Přímka : y = α + βx - se nazývá regresní přímka β - její směrnice Neznámé parametry α , β , δ 2
-
Budeme po řadě značit A, B, S 2 Bodové odhady α , β získáme metodou nejmenších čtverců
-
-součet čtverců reziduí (reziduální součet čtverců) ESS (efor sum of squares) n
(
- ? ∑ Yi − Yˆi
)
2
= min
i =1
n
(
ESS = ∑ Yi − Yˆi
(
i =1
) = ∑ (Yi − ( A + BXi )) = ∑ (Yi − A − BXi ) = ∑ (X i ) 2
2
= ∑ Y 2 i − 2 AYi − 2 BXiYi + A 2 + 2 ABXi + B 2 X 2 i
2
2
2
=
)
∂ESS = (− 2∑ Yi ) + 2nA + 2 B∑ Xi ∂A ∂ESS = (− 2∑ XiYi ) + 2 A∑ Xi + 2 B ∑ X 2 i ∂B
Vypracoval Hlimak
32
Fakulta elektrotechniky a informatiky Statistika
∂ESS ∂ESS = 0∧ = 0 - soustava normálních rovnic ∂A ∂B
Vypracoval Hlimak
33
Fakulta elektrotechniky a informatiky Statistika
Řešením normálních rovnic : n n n n ∑ XiYi − ∑ Xi ∑ Yi i =1 i =1 i =1 B= 2 n n 2 n ∑ X i − ∑ Xi i =1 i =1 1 n 1 n A = Y − BX A = ∑ Yi − B ∑ Xi ⇒ (Y , X ) ∈ na regresní přímce!! n i =1 n i =1 - dá se ukázat, že ESS je minimum (dle druhých parciálních derivací větších než nula) - A,B paremet. α , β - Nevychýlená (tj. E ( B ) = β a E ( A) = α ) Příklad: 4.2.1. str. 113 Vzorek Koncentrace v % 1 0 2 10 3 25 4 33 5 40 6 50 7 60 8 80 9 100
Index lomu 1,3329 1,3440 1,3612 1,3693 1,3761 1,3881 1,3970 1,4142 1,4291
1,44 1,42 1,4 1,38 1,36 1,34 1,32 1,3 2
3
4
5
6
7
y ( x) = α + β x n
n
n
n ∑ XiYi − ∑ Xi ∑ Yi i =1
i =1
i =1
= 0,000973 2 n∑ X 2 i − ∑ Xi i =1 i =1 1 b a = ∑ Yi − ∑ Xi = 1,3361 n n
1) b =
n
yˆ = 1,3361 + 0,000973 x
n
2 ) Pro koncentrace 76,2% y = 1,3361 + 0,000973 * 76,2 = 1,4102426 3) určete „vyrovnanou“ hodnotu indexu lomu pro koncentraci 60% 60% y = 1,3361 + 0,000973 * 60 = 1,39448 Jak charakterizovat variabilitu Y? b
Sy = ∑ (Yi − Y ) - charakterizuje celkový rozptyl –celkový součet čtverců odchylek 2
i =1
Nás nejvíce zajímá součet čtverců odchylek od regresní přímky jako charakteristika rozptylu kolem regresní přímky
Vypracoval Hlimak
34
8
9
Fakulta elektrotechniky a informatiky Statistika
Za předpokladu ε i mají navíc (k nezávislosti a stejnému rozptylu a E (ε i ) = 0 ) normální rozdělení je maximálně věrohodným odhadem parametru δ 2 statistika 1 n (Yi − A − Bxi )2 - tzv. reziduální rozptyl δˆ 2 = S 2 rez = ∑ n − 2 i =1 n
Kde
∑ (Yi − A − Bxi )
2
- je reziduální součet čtverců Se - vysvětluje část celkové variability,
y =1
která je způsobena náhodnými odchylkami n n 2 2 Se = ∑ Yi − Yˆi = ∑ (Yi − A − Bxi ) i =1 i =1 Zbytek – tzv. vysvětlitelný regresní součet čtverců odchylek St
(
)
St = ∑ n
(
Yˆi − Y
) = ∑ (A + Bxi − Y )
2
n
Sy = St + Se
i =1
(
Sy = ∑ Yˆi − Y i =1
2
) + ∑ (Yi − Yˆi ) 2
n
2
i =1
St Sy 2 (pozor 1 − I = koeficient determinace a udává jaká část není vysvětlena regresním modelem¨) Index determinace určuje jakou část variability lze vysvětlit daným modelem, nabývá hodnot <0,1> Např. I 2 = 0,9 znamená, že 90% variability lze vysvětlit regresním modelem a zbylých 10% je vlivem náhodného kolísání Podíl vysvětlené části rozptylu celkovému rozptylu vyjadřuje index determinace I 2 =
Vypracoval Hlimak
35
Fakulta elektrotechniky a informatiky Statistika
Test B HO : β = β 0
T=
β − β1 S mez
H 1 : β = β1
∑ (x; x )
2
- studentovo s n-2 stupni volnosti
α : H 0 = α = α 0 H 1 : α =/ α 0 H 0 : α + β x = y 0 H 1 : α + β x =/ y 0 Linearizace regresních funkcí - je to transformací -> převedu na lineární funkci → ln y = ln a + b * ln x - např. y = ax b zlogaritmováním y ′ = ln y.............xi′ = ln xi
y ′ = a ′ + bx ′ Korelační analýza -analýza těsnosti vazby mezi veličinami cov( X , Y ) - X,Y ρ X ,Y = DX DY Výběrový koeficient korelace - nechť je dán dvojrozměrný náhodný výběr ( ( X 1 , Y1 ), ( X 2 , Y2 ),..( X n , Yn ) -
R X ,Y =
cov( X , Y ) S X SY
-
SX =
-
SY =
1 Xi − X n 2 1 Yi − Y n
(
(
cov( X , Y ) =
(
)(
)
1 Xi − X Yi − Y - výběrová kovariance n
)
2
)
Vlastnosti R X ,Y : 1. R X ,Y ∈ − 1,1 2. R X ,Y = RY , X 3. Ra X + b, cY + d = R X ,Y
pro ac>0
4. Ra X + b, cY + d = R X ,Y
pro ac<0
ρ test
- ( X 1 , Y1 ), ( X 2 , Y2 ),..( X n , Yn ) ze zákl. souboru (X,Y) -které mají N (µ1 µ 2 ; δ 1δ 2 ) ! - H0: ρ = 0 Nekontrolované – není lineární závislost
H 1 : ρ =/ 0 kontrolované – je lineární závislost
Za předpokladu NR ∧ ρ = 0 R * n−2 má studentovo rozdělení s n-2 stupně volnosti T= 1− R2 Vypracoval Hlimak
36
Fakulta elektrotechniky a informatiky Statistika
Když nevím zda X,Y mají NR, nebo chci obecně jinou záv. Než lineární (monotonní funkce) aplikujeme Spearmanův test (vychází z pořadí hodnot xi, yi porovnání)
RS - spearmanův korelační koeficient 6 Ri – pořadí jednoho výběru, Qi – pořadí druhého výběru RS = 1 − n 2 2 n n − 1 ∑ (Ri − Qi )
(
)
i =1
H0: není korelace H1: je korelace RS=….. V tabulkách kritické hranice pro různá α Příklad 5.4.3 Xi (pořadí v NHL) Yi (příjem) (Ri − Qi )2
1 2 3,75 2,5 8 4
3 4 5 6 1,9 3,3 2,15 2,0 1 7 3 2
7 3,0 6
8 2,88 5
n=8 6 * (49 + 4 + 4 + 9 + 4 + 16 + 1 + 9 ) = −0,143 8(64 − 1) α = 0,05 R0, 05 = 0,905
RS = 1 −
− 0,143 < 0,6905 ⇒ nezamítáme H0 ⇒ není korelace mezi pořadím a příjmem
Vypracoval Hlimak
37
Fakulta elektrotechniky a informatiky Statistika
Příklad 5.4.1 α = 0,05 ?korelace mezi X,Y Za předpokladu, že X,Y mají NR (normální rozdělení) Xi 94 98 127 88 95 111 75 102 82 Yi 2,1 1,9 3,5 1,5 3,2 1,6 1,9 2,5 1,9 H0: ρ = 0 H 1 : ρ =/ 0 R * n−2 má studentovo rozdělení s n-2 stupně volnosti T= 1− R2 1 ∑ Xi − X Yi − Y XiYi n X Y − ∑ n r= =& 0,3425 r = 2 2 2 2 2 2 1 1 ∑ Xi − n X * ∑ Yi − nY Xi − X * Yi − Y ∑ ∑ n n
(
(
)(
)
)
(
)
1,031 < 2,306 ⇒ nezamítáme ⇒ veličiny jsou nekorelované (tj. není lineární závislost mezi X,Y) Druhy způsob: Xi 94 Yi 2,1 5 2 (Ri − Qi ) 1
98 1,9 7 9
127 3,5 10 0
88 1,5 4 9
95 3,2 6 16
111 1,6 9 25
75 1,9 8 36
102 2,5 2 0
82 4 2 4
85 9 3 36
6 * 133 =& 0,19394 10(100 − 1) = 0,6364 0,19394 < 0,6364 ⇒ H0 nezamítáme ⇒ není korelace
RS = 1 − R0, 05|10
Vypracoval Hlimak
38
Fakulta elektrotechniky a informatiky Statistika
Metody odhadu: momentů max. věrohodnosti jiné (např. Baysova metoda)
φ - skutečná hodnota parametru φˆ - jeho odhad 1. odhad je konzistentní - ∀ε 〉 0 lim P φˆ − φ < ε = 1 (tj. s rostoucím n výběru konverguje odhad ke skutečné n −& ∞
(
)
hodnotě podle pravděpodobnosti) 2. odhad je nevychýlený - E φˆ = φ 3. odhad je defektivní - D φˆ = min
()
()
Metoda max. věrohodnosti Funkce věrohodnosti n π p (xi ; φ ) L( x1 , x 2 ,..x n ; φ ) = i n=1 π f (xi ; φ ) i =1
n n
i =1
i =1
- x1 , x2 ,..xn - realizace, π - zkratka pro násobení ( π = 1 − 2 − 3 * ..n
Maximalizujeme L - tedy
N (µ , δ )
n
dL =0 dφ
1
f (x ) =
i =1
δ 2π n
L(x1 , x 2 ,..x n ; µ ; δ ) = π
i =1
−
*e
1
δ 2π
( x − µ )2 2δ 2
−
*e
x ∈ (− ∞, ∞ )
( x − µ )2 2δ 2
2 ( Xi − µ ) 1 ln e ln L( x1 , x 2 ,..x n ; µ ; δ ) = ∑ ln − ln δ − -ln e = 1 2δ 2 2π i =1 ? ? ∂L ∂L =0 =0 ∂µ ∂δ n
-vypočítají se tyhle dvě parciální derivace
Vypracoval Hlimak
39