Statistika v příkladech

Verlag Dashöfer

Statistika v příkladech Praktické aplikace řešené v MS Excel Ukázkové texty z připravované učebnice

Doc. Ing. Jan Kožíšek, CSc. Ing. Barbora Stieberová, Ph.D.

Praha 2011

Obsah

Obsah 1. Předmluva�� 3 2. Obsah�� 4 3. Budoucí struktura kapitol�� 4 4. Ukázky učebních textů s příklady�� 5

Ukázka 1: Dvourozměrná náhodná veličina�� 5

Ukázka 2: Základní pravděpodobnostní rozdělení (modely)�� 10

Ukázka 3: Rozdělení spojitých náhodných veličin�� 14

Ukázka 4: Příklad testování hypotéz při regresní a korelační analýze�� 19

5. Ukázka úloh�� 22 6.

Ukázka slovníčku důležitých pojmů�� 23

2

1. Předmluva

1. Předmluva Vážení čtenáři, dostává se vám do rukou ukázka z připravovaného vydání učebnice statistiky, která je určena studentům vysokých škol, především technických oborů, a také všem, kteří se setkávají se statistikou při řešení problémů v podnikové praxi – výrobním manažerům, technikům, kontrolorům nebo manažerům v oblasti řízení kvality. Kniha je rozdělena do 18 kapitol a zahrnuje jak základní statistické metody používané v celé řadě vědních disciplín a oblastí, tak také aplikace statistických metod pro technickou a výrobní praxi – statistiku v metrologii, statistickou analýzu a regulaci výrobního procesu, statistickou přejímku a také statistiku ve spolehlivosti. Začíná se metodami popisné statistiky, následuje navržení vhodných pravděpodobnostních modelů, aproximace a vyrovnání. Navazují metody matematické statistiky, a to statistický odhad a ověřování statistických hypotéz včetně neparametrických testů. Jednotlivé kapitoly obsahují teoretický výklad doplněný pro rychlé pochopení problematiky velkým množstvím detailně zpracovaných příkladů. Důraz je kladen na správné použití metod v praxi a na interpretaci získaných výsledků. Příklady jsou řešeny početně a také v MS Excel. Tento software byl vybrán pro jeho nejsnazší dostupnost všem čtenářům a jeho názornost při řešení příkladů. K publikaci je pro lepší pochopení přiloženo CD s řešením všech příkladů v MS Excel, což umožňuje také rozvíjet dovednost pracovat s tímto softwarem. Samozřejmostí je i soubor úloh pro samostatnou práci včetně výsledků. Každá kapitola je doplněna anglicko-českým slovníčkem základních pojmů, aby se čtenáři orientovali v zahraniční literatuře a byli vybaveni pro práci v mezinárodních společnostech. Za připomínky a podněty předem děkujeme. Autoři Praha, říjen 2011

3

2. Obsah

2. Obsah 1. Úvod 2. Popisná statistika 3. Regresní a korelační analýza 4. Základy pravděpodobnosti 5. Náhodné veličiny 6. Pravděpodobnostní modely 7. Limitní vlastnosti náhodných veličin 8. Aproximace a vyrovnání 9. Náhodný výběr a výběrová rozdělení 10. Statistický odhad 11. Ověřování statistických hypotéz 12. Vybrané neparametrické testy 13. Analýza rozptylu 14. Statistika v metrologii 15. Statistická analýza výrobního procesu 16. Statistická regulace procesů 17. Statistická přejímka 18. Statistika ve spolehlivosti 19. Statistické tabulky

3. Budoucí struktura kapitol 1. 2. 3. 4.

Výkladový učební text s řešenými příklady Úlohy Výsledky úloh Pojmy k zapamatování (odborný česko-anglický slovníček)

4

4. Uká zk y učebních tex tů s pří klady

4. Ukázky učebních textů s příklady Ukázka 1: Dvourozměrná náhodná veličina Podmíněná rozdělení V kapitole základy pravděpodobnosti jsme se zabývali podmíněnou pravděpodobností P ( A B ) náhodných jevů, tj. pravděpodobností náhodného jevu A podmíněného existencí (výskytem) náhodného jevu B. Nyní se budeme zabývat podmíněnými rozděleními náhodných veličin. Podmíněné pravděpodobnosti U dvourozměrné diskrétní náhodné veličiny zadané tabulkou máme dány pravděpodobnosti p xi ; y j uvnitř tabulky a okrajové (marginální) pravděpodobnosti p ( xi ) a p ( y j ). Pomocí těchto pravděpodobností můžeme definovat podmíněné pravděpodobnosti P ( xi y j ) a P ( yj x i ). Tyto podmíněné pravděpodobnosti jsou definovány obdobně jako podmíněné pravděpodobnosti náhodných jevů.

(

p ( xi , y j )

P ( xi y j ) =

p( yj )

p ( xi , y j )

a P ( y j xi ) =

)

.

p ( xi )

Podmíněné pravděpodobnosti dvourozměrné diskrétní náhodné veličiny (X, Y): t

t

= ∑ p( xi , y j )

= P( x / y ) p ( y ) ∑ i

=j 1 =j 1

j

j

s

s

p( xi ) , = ∑ p( xi , y j )

= P( y / x ) p ( x ) ∑ j

=i 1 =i 1

i

i

p( y j ) .

t

s

p ( xi y j ) ∑ s i =1 P ( x = / y ) = ∑ i j p( y j ) i =1

p( y j ) = 1 , p( y j )

∑ p( x , y )

t

/ xi ) ∑ P( y j=

j =1

j =1

i

j

= p( xi )

p( xi ) = 1. p( xi )

Podmíněné hustoty pravděpodobnosti dvourozměrné spojité náhodné veličiny (X, Y): f ( x / y) = ∞

f ( x /= y )dx

∫

−∞

f ( x, y ) , f2 ( y)

f(y / x) =

f ( x, y ) , f1 ( x) ∞

f ( x, y )dx = f2 ( y)

∫

f2 ( y) x)dy = 1 a f ( y / = f2 ( y)

−∞

f ( x, y )dy = f1 ( x)

f1 ( x) = 1. f1 ( x)

Podmíněné distribuční funkce diskrétní náhodné veličiny: = F1 ( x / y )

= P( x / y ∑

xi ≤ x

y j ) a F = 2 ( y / x)

= P( y / x ∑

xi ) ,

yj ≤y

kde P ( X y = y j ) je podmíněná pravděpodobnostní funkce (pravděpodobnost) náhodné veličiny X pro zvolenou hodnotu = y y= 1, 2, … , t ), a P ( y x = xi ) je podmíněná pravděpodobnostní funkce (pravděpodobnost) náhodné veličiny Y j ( j pro zvolenou hodnotu= x x= 1, 2, … , s ). i (i Podmíněné distribuční funkce spojité dvourozměrné náhodné veličiny (X, Y): x

= F ( x / y)

x

f (t / y )dt ∫=

−∞

∫ f (t , y)dt −∞ = ∞ ∫ f ( x, y )dx

−∞

5

x

∫

f (t , y )dt

−∞

f2 ( y)

,

Statistika v příkladech

x

= F ( y / x)

y

f ( z / x)dz ∫=

−∞

∫ f ( x, z )dz −∞ = ∞ ∫ f ( x, y)dy

x

∫

f ( x, z )dz

−∞

f1 ( x)

.

−∞

Z předcházejících vztahů plyne: F ( x y ) f 2 ( y ) dy =

x

∫

−∞

∞

∞

−∞

−∞

dt ∫ f ( x, y ) dx = F1 ( x ) a F ( x y ) f ( x ) dx =

∫

y

f ( x, y ) dy ∫ dz = F2 ( y ) . −∞

Stochasticky nezávislé náhodné veličiny Pro stochasticky nezávislé diskrétní náhodné veličiny X a Y platí obdobné vztahy jako u nezávislých náhodných jevů: P ( xi y j ) = p ( xi ) a P ( y j xi ) = p ( y j ) . Pro stochasticky nezávislé náhodné veličiny X a Y spojité platí pro libovolnou dvojici (x, y): f ( x y ) = f1 ( x ) a f ( x y ) = f 2 ( y ) . Po dosazení předcházejících vztahů do vzorce pro podmíněné pravděpodobnosti dostaneme: p ( xi , y j ) = p ( xi ) p ( y j ) , případně p ( x1 , x2 , ..., xs ) = p ( x1 ) p( x2 )... p( xs ) . Po dosazení do vzorců pro podmíněné hustoty pravděpodobnosti obdržíme hustotu pravděpodobnosti f ( x, y ) dvourozměrné spojité náhodné veličiny (X, Y) v případě stochastické nezávislosti náhodných veličin X a Y f ( x, y ) = f1 ( x ) f 2 ( y ) . Z výsledných vztahů vidíme, že v případě stochastické nezávislosti náhodných veličin X a Y můžeme soudit na pravděpodobnostní chování dvourozměrné náhodné veličiny (X, Y) z pravděpodobnostního (stochastického) chování jednotlivých náhodných veličin X a Y. Výsledné vztahy můžeme rozšířit na konečný počet mezi sebou (v souhrnu) nezávislých náhodných veličin f ( x1 , x2 , … , xs ) = f1 ( x1 ) f 2 ( x2 )… f s ( xs ) . Stochastickou (pravděpodobnostní) nezávislost dvou náhodných veličin můžeme definovat také pomocí distribučních funkcích náhodných veličin X a Y F1 ( x y ) = F1 ( x ) F2 ( y x ) = F2 ( y ) , F ( x, y ) = F1 ( x ) F2 ( y ) . Také tyto vztahy můžeme rozšířit na vícerozměrnou náhodnou veličinu při konečném počtu mezi sebou (v souhrnu) nezávislých náhodných veličin x1 , x2 , … , xs . F ( x1 , x2 , … , xs ) = F1 ( x1 ) F2 ( x2 )… Fs ( xs ) .

6


Příklad 1.1 Tabulka obsahující rozdělení četností názorů na novou reklamu: (n = 354 respondentů)

Úkol: 1. Stanovte pravděpodobnostní rozdělení. 2. Znázorněte zákon rozdělení graficky. 3. Určete podmíněné pravděpodobnosti P ( xi y j ) a P ( y j xi ).

Pravděpodobnostní rozdělení

Grafické znázornění

Podmíněné pravděpodobnosti

P(názor/ženy)

P ( xi y j ) =

P ( x1 y1 ) =

p ( x1 , y1 ) 0, 2655 = = 0, 531 p ( y1 ) 0, 5

P ( x2 y1 ) =

p ( x2 , y1 ) 0,1469 = = 0, 294 p ( y1 ) 0, 5

p ( xi , y j ) p( yj )

Pro 53,1 % žen je reklama výborná. Pro 29,4 % žen je reklama dobrá. 17,5 % žen se reklama nelíbí.

7


Podmíněné pravděpodobnosti

P(pohlaví/výborná)

P ( y j xi ) =

P ( y1 x1 ) =

p ( xi , y j ) p( yj )

p ( x1 , y1 ) 0, 2655 = = 0, 610 p ( x1 ) 0, 4350

p ( x1 , y1 ) 0,16949 P ( y2 x1 ) = = = 0, 3896 0, 4350 p ( x1 ) Reklama je výborná pro: 61 % žen 39 % mužů

Podmíněné střední hodnoty a podmíněné rozptyly Paralelou podmíněných (dílčích) průměrů y j a xi v regresní a korelační analýze popisné (empirické) statistiky jsou u náhodných veličin podmíněné střední hodnoty E(Y/X) a E(X/Y), paralelou rozptylů podmíněných průměrů s y2 a sx2 jsou podmíněné rozptyly D(Y/X) a D(X/Y). Podmíněné střední hodnoty E(Y/X) a E(X/Y) a podmíněné rozptyly D(Y/X) a D(X/Y) slouží k posouzení stochastické korelační závislosti (korelačního vztahu) mezi náhodnými veličinami Y a X. Podmíněné střední hodnoty diskrétních náhodných veličin Y a X: t

(

)

s

E (Y X = x )i = ∑ y j P ( y j xi ) a E X Y = y j = ∑ xi P ( xi y j ) . j =1

i =1

Podmíněné střední hodnoty spojitých náhodných veličin Y a X: E (Y X ) =

∞

∫

yf ( y x ) dy a E (Y X ) =

−∞

∞

∫ xf ( x y ) dx .

−∞

Abychom získali představu o měnlivosti náhodné veličiny Y pro zvolené hodnoty X (tj. pro X = xi ) a o měnlivosti náhodné veličiny X pro zvolené hodnoty (pevné hodnoty) Y = y j , určíme podmíněné rozptyly. Podmíněné rozptyly D(Y/X) diskrétní náhodné veličiny Y a D(X/Y) diskrétní náhodné veličiny X: t

s

D (Y X ) =∑  y j − E (Y X =xi ) P ( y j xi ) D ( X Y ) =∑  x j − E ( X Y =y j )  P ( xi y j ) .   2

j =1

2

i =1

Podmíněné rozptyly spojitých náhodných veličin Y a X: D (Y = X)

∞

∫

−∞

2

Y)  y − E (Y X )  f ( y x ) dy D ( X =

8

∞

2

∫  x − E ( X Y ) f ( x y ) dx .

−∞


Příklad 1.2 Vrátíme se k předchozímu příkladu. Vypočítáme si podmíněné střední hodnoty a podmíněné rozptyly pro názor na reklamu. (Abychom mohli stanovit očekávané hodnocení, je třeba převést slovní hodnocení na numerické vyjádření: Výborná – 3, Dobrá – 2, Nic moc – 1.)

Podmíněné střední hodnoty náhodné veličiny X (názor) pro hodnoty Y = ženy, muži 3

Æ E ( X Y = zeny ) = ∑ xi P ( xi y1 ) = 3 ⋅ 0, 5310 + 2 ⋅ 0, 2938 + 1⋅ 0,17514 = 2, 3555 i =1

Od žen se očekává průměrné bodové ohodnocení reklamám 2,355. 3

Æ ) = ∑ xi P ( xi y2 ) = 3 ⋅ 0, 339 + 2 ⋅ 0, 4237 + 1 ⋅ 0, 2373 = 2,102 E ( X Y = muzi i =1

Od mužů se očekává průměrná známka reklamám 2,102. Podmíněné rozptyly hodnoty náhodné veličiny X (názor) pro hodnoty Y = ženy, muži s

s

D ( X Y = y j ) =∑  xi − E ( X Y =y j ) P ( xi y j ) = ∑ xi2 P ( xi y j ) −  E ( X Y = y j ) i =1 i =1

(

)

D X Y = ženy=

2

( 3 − 2, 355 )

2

2

⋅ 0, 5310 + ( 2 − 2, 355 ) ⋅ 0, 2938 + (1 − 2, 355 ) ⋅ 0,17514 = 0, 5795 2

2

Rozptyly u hodnocení mužů a žen jsou obdobné.

9


Ukázka 2: Základní pravděpodobnostní rozdělení (modely) Rozdělení diskrétních náhodných veličin Binomické rozdělení Budeme uvažovat n nezávislých pokusů, při každém z nich může nastat zdar s pravděpodobností p nebo nenastat s pravděpodobností 1− π . Uvažujeme-li určité uspořádání výsledků n nezávislých pokusů, potom bude pravděpodobnost, že zdar nastane v x pokusech a nenastane v ( n − x ) pokusech, rovna součinu pravděpodobností ve všech jednotlivých nezán− x vislých pokusech. Tento součin je roven π x (1− π ) a je vyjádřením tzv. Bernoulliho schématu. Takovýmito uspořádáními n nezávislých pokusů, při nichž x krát zdar nastane a ( n − x ) krát nenastane, jsou všechny možné kombinace x té třídy z n prvků, tj. jejich počet je . Hledaná pravděpodobnost, že v n nezávislých pokusech zdar nastane x krát a nenastane n − x krát je rovna ( ) n n− x P ( X = x ) =   π x (1 − π ) .  x Rozdělení pravděpodobností dané tímto vztahem nazýváme binomické a charakterizuje tzv. výběr s vracením. E ( X ) = nπ D (= X ) nπ (1 − π ) , σ= (X )

nπ (1 − π ) .

Příklad 2.1 Zmetkovitost výrobní linky je 2,5 %. Jaká je pravděpodobnost, že při výběru 15 součástí bude 1 zmetek? Můžou nastat např. tyto kombinace: NNNNNNNNNNNNNNZ NNNNNNNNNNNNNZN NNNNNNNNNNNNZNN NNNNNNNNNNNZNNN

pravděpodobnost této kombinace 0, 0251 (1 − 0, 025 ) 10 −1 pravděpodobnost této kombinace 0, 0251 (1 − 0, 025 ) 10 −1 pravděpodobnost této kombinace 0, 0251 (1 − 0, 025 ) 10 −1 1 pravděpodobnost této kombinace 0, 025 (1 − 0, 025 ) 10 −1

15  Celkem je kombinací  1   

 15  15 −1 Takže hledaná pravděpodobnost P (1) =   0, 0251 (1 − 0, 025 ) 1   Celé rozdělení si můžeme stanovit v MS Excel

BINOM.DIST(počet úspěšných pokusů; počet pokusů; pravděpodobnost úspěchu; PRAVDA, pokud chceme distribuční funkci, NEPRAVDA, pokud chceme pravděpodobnostní funkci)

10


Hypergeometrické rozdělení Při statistické přejímce nebo destruktivních zkouškách nevracíme zpět výrobek do dávky nebo ho zničíme a jedná se tedy o tzv. výběr bez vracení. Pravděpodobnost výskytu x ve výběru n není stálá, a proto znak, který takto vzniká, má jiné pravděpodobnostní chování než binomický znak. Vybereme-li místo n výrobků za sebou bez vracení zpět n výrobků najednou a ptáme se na pravděpodobnost, že ve výběru n výrobků je právě x výrobků s vlastností a, přičemž v celkové dávce N výrobků je (M/N)100 % s vlastností a, jde o hypergeometrické rozdělení.  M  N − M     x n− x  P ( X = x) =    N   n

N – počet výrobků celkem M – počet výrobků s vlastností a celkem (tedy např. zmetků) (N-M) – počet výrobků bez vlastnosti a v základním souboru (tedy např. počet dobrých výrobků v celém základním souboru) n – výběr x ≤ n je počet výrobků s vlastností a ve výběru (tedy např. počet zmetků ve výběru n) (n-x) – počet výrobků bez vlastnosti a ve výběru (tedy např. počet dobrých výrobků ve výběru) x ≤ min (n, M)

Pro N → ∞ přechází rozdělení hypergeometrické v binomické rozdělení a mizí rozdíl mezi výběrem bez vracení a výběrem s vracením. Můžeme odvodit střední hodnotu a rozptyl přímo z definice E ( X )= n ⋅

M M , D ( X ) = n⋅ N N

 M 1 − N 

  N −n ⋅  ; σ ( X ) = D ( X ) .   N −1 

N −n Výraz N −1 je tzv. konečnostní násobitel, který má význam v teorii náhodných výběrů. Je patrné, že jej lze zanedbat pro n N < 0, 05, ( 0,1), M N < 0,10 a N → ∞. Pro n −1 je také výběr bez vracení a výběr s vracením totožný, jde o výběr pouze jednoho výrobku (tj. alternativní rozdělení).

11


Příklad 2.2 Z dodávky 500 výrobků je kontrolováno 5 výrobků. Zmetkovitost činí 6 %. Jaká je pravděpodobnost, že v 5 vybraných výrobcích bude 0, 1, 2, 3, 4, 5 zmetků? Řešení  M  N − M     x n− x  P ( X = x) =    N   n  30   470     0 5  470 ⋅ 469 ⋅ … ⋅ 466 P ( X = 0) =    = = 0, 732 500 ⋅ 499 ⋅ … ⋅ 496  500     5  Pravděpodobnost, že v 5 vybraných výrobcích není žádný zmetek, je 73,2 %. V MS Excel použijeme následující funkce pro získání hodnot pravděpodobnostní funkce a hodnot distribuční funkce

HYPGEOM.DIST(počet zmetků ve výběru; velikost výběru; počet zmetků v základním souboru; počet hodnot v základním souboru; PRAVDA, pokud chceme distribuční funkci, NEPRAVDA, pokud chceme pravděpodobnostní funkci) =HYPGEOM.DIST(A6;5;30;500;NEPRAVDA) =HYPGEOM.DIST(A6;5;30;500;PRAVDA)

Poissonovo rozdělení Poissonovo rozdělení je levostranně nesymetrické, a proto nachází uplatnění u tzv. řídkých jevů (počet vad, počet zameškaných dnů) jak v technologii, tak v konstrukci nebo v oblasti ekonomických jevů. Používá se pro modelování počtu událostí za jednotku času (kolik automobilů přijede na čerpací stanici za hodinu, kolik zákazníků přijde do obchodu za jeden den, kolik zákazníků se dovolá na zákaznickou linku za hodinu). Pravděpodobnost, že za jednotku času nastane x událostí: P ( X = x ) = e− λ

λx ′ µ= λ , D ( X= , E ( X ) = µ= λ , σ ( X ) = λ . ) µ= 1 2 x! 12


Poissonovo rozdělení aproximuje binomické rozdělení pro lim n π = λ pro π → 0, n → ∞. Poissonovo rozdělení je jednoparametrické. Tabulky distribuční i pravděpodobnostní funkce Poissonova rozdělení jsou uvedeny ve statistických tabulkách. Tyto hodnoty lze najít také pomocí MS Excel. Příklad: 2.3 Průměrný počet nemocných pracovníků na dílně je 5 za měsíc. Určete pravděpodobnost, že za týden onemocní 3 pracovníci. P ( X = x) = e

(5 4 ) λx = 0, 093 P ( X = 3) = e − 5 4 x! 3! 3

−λ

V MS Excel využijeme následující funkci

Kde střední představuje λ

=POISSON.DIST(A7;5/4;NEPRAVDA) =POISSON.DIST(A7;5/4;PRAVDA)

Určete pravděpodobnost, že za týden onemocní víc než 3 pracovníci. P ( X > 3) = 1 − F ( 3 ) = 1 − 0, 961731 = 0, 038269

13


Ukázka 3: Rozdělení spojitých náhodných veličin Rozdělení rovnoměrné Náhodná veličina X má rovnoměrné rozdělení, jestliže má hustotu pravděpodobnosti: 1 pro x ∈ ( a, b ) b−a

f ( x) =

0 pro ostatní x

a

b

Distribuční funkce x

1 1 x−a x dt = [t ]a = b−a b−a b−a a

F ( x) = ∫

pro x ∈ ( a, b )

F ( x) = 0

Pro x < a

F ( x) = 1

Pro x > b

E(X ) =

(b − a ) b−a a+b , α 3 = 0, D ( X ) = , α 4 = 1, 8, σ ( X ) = . 12 2 2 3 2

Toto rozdělení se používá pro charakterizování náhodných veličin spojitých se stejnou pravděpodobností výskytu v určitém intervalu stejné délky (např. rozměry, tolerance).

14


Příklad 3.1 Na prohlídce výstavy je promítán doprovodný film o životě autora vystavovaných děl. Jeho projekce začíná každých 20 minut. Určete pravděpodobnost, že pokud náhodně přijdete do promítacího sálu, a) nebudete čekat víc než 5 minut, b) budete čekat mezi 5 a 10 minutami, c) střední hodnotu a směrodatnou odchylku. 5−0 = 0, 25 20 − 0 10 − 0 5 − 0 P ( 5 < X < 10 ) = F (10 ) − F ( 5 ) = − = 0, 25 20 − 0 20 − 0 0 + 20 E(X ) = = 10 minut 2 b − a 20 − 0 σ (X ) = = = 5, 77 minut 2 3 2 3 P ( X < 5) = F ( 5 ) =

Rozdělení exponenciální Náhodná veličina se řídí exponenciálním rozdělením, jestliže její hustota pravděpodobnosti je: 0 pro x ≤ 0 f ( x) = λ e − λ x pro x > 0

K exponenciálnímu rozdělení můžeme dojít limitním přechodem od geometrického rozdělení. To vidíme i srovnáním charakteristik : E(X ) =

1 1 a D ( X ) = 2 , F ( x ) = 1 − e − λ x . λ λ

Exponenciální rozdělení slouží jako vhodný model pro výpočet pravděpodobnosti životnosti zařízení v teorii spolehlivosti. Je také velmi často používaným rozdělením v teorii front, tj. v teorii hromadné obsluhy, kde modeluje dobu mezi po sobě následujícími událostmi.

15


Příklad 3.2 Průměrná životnost strojní součástky je 30 000 hodin. Určete: 1. pravděpodobnost, že součástka nevydrží více než 2000 hodin 2. pravděpodobnost, že součástka vydrží více než 35 000 hodin 3. dobu, do kdy se porouchá 95 % součástek EXPON.DIST(A12;1/30000;NEPRAVDA) EXPON.DIST(A12;1/30000;PRAVDA)

λ = 1 30000 P( X = < 2000 )

2000

−λ x = ∫ λ e dx F ( 2000 ) = 0, 064 0

35000

P ( X > 35000 ) = 1 − ∫ λ e− λ x dx = 1 − F ( 35000 ) = 0, 311 0

x0,95 = −30000 ln (1 − 0, 95) = 89871, 97 hodiny

16


Weibullovo rozdělení Používá se například v teorii spolehlivosti pro modelování doby života:

hustota pravděpodobnosti: α f ( x ) = λ ⋅ α ⋅ xα −1 ⋅ e − λ x , x > 0, λ > 1, α > 0 distribuční funkce: α F ( x ) = 1 − e−λ x

α =1

přechází Weibullovo rozdělení v exponenciální rozdělení – úbytek je konstatní

α >1

úbytek se s časem zmenšuje (na začátku se porouchává více součástek)

α <1

úbytek se s časem zvyšuje (na konci se porouchává více součástek)

λ – souvisí se střední hodnotou Hustota rozdělení pravděpodobnosti Weibullova rozdělení f x

Distribuční funkce Weibullova rozdělení F ( x )

17


Příklad 3.3 Weibullovo rozdělení s parametry α = 1, 5 a λ = 250 hodin modeluje životnost elektronické součástky. Nalezněte pravděpodobnost, že elektronická součástka vydrží funkční více než 900 hodin. Řešíme v MS Excel a hledáme hodnotu distribuční funkce pro 900:

Výsledkem je F ( 900 ) = 0, 725, takže hledaná pravděpodobnost je P ( X > 900) = 1 − F (900) = 0, 275.

18


Ukázka 4: Příklad testování hypotéz při regresní a korelační analýze Příklad 4.1 Posuďte vzájemnou závislost mezi hodnotami benzo(a)pyrenu (ng/m3) naměřeného stacionárně v určité oblasti v průběhu měsíce února s hodnotami naměřených personálních expozic benzo(a)pyrenu (z odběrů krve). Naměřené údaje

Grafické zobrazení lineární regrese a korelace

V MS Excel pro získání dat pro testování použijeme Data – Analýza dat – Regrese (viz kapitola o regresní a korelační analýze) a obdržíme následující výstup. Korelační koeficient Koeficient determinace Æ

∑ ( yi − y )

2

Æ 2 ∑ ( yi − yi )

Hodnota p F testu

∑( y

i

− y)

2

Testové kritérium F S ( p − 1) F= T SR ( n − p )

Regresní koeficienty

sb

T=

byx − β yx sb

Hodnota p t-testu

19

Intervaly spolehlivosti pro střední hodnotu P ( byx − t1−α 2 ⋅ sb ≤ β yx ≤ byx + t1−α 2 ⋅ sb ) = 1 − α


Testování regresního koeficientu a) t-test H 0 : b= β= 0 yx yx H1 : byx ≠ β yx ≠ 0 P ( tα / 2 ≤ T ≤ t1−α / 2 ) = 1 − α byx − β yx   P  tα 2 ≤ ≤ t1−α 2  = 1 − α sb   0, 5056 − 0   P  tα 2 ≤ ≤ t1−α 2  = 1 − α 0,1348   P ( −1, 9983 ≤ 3, 7514 ≤ 1, 9983) = 0, 95 Testové kritérium neleží v intervalu, což podporuje zamítnutí hypotézy o nulové hodnotě regresního koeficientu. = t1−α 2 t0= 1, 9983 (Určíme z Excelu jako =T.INV(0,975;63)) , 975 (63) Převod na p hodnotu Převod na p hodnotu spočívá v určení procenta, které je vymezeno testovým kritériem. Tedy pro hodnotu T =

byx − β yx sb

= 3, 7514 nalezneme odpovídající procento. Tuto hodnotu určíme z Excelu (jedná se

o dvoustranný test) jako = T.DIST.2T(3,7514;63) = 0,000385, tedy 0,0385 %. Tato hodnota je menší než 5 %, tzn., že hodnota podporuje zamítnutí hypotézy o nulové hodnotě regresního koeficientu. Tzn., že mezi jevy je závislost. b) Celkový F-test H 0 : b= β= 0 yx yx H1 : byx ≠ β yx ≠ 0 Testové kritérium F F=

ST SR

( p − 1) 3,594 ( 2 − 1) = = 14, 05655 ( n − p ) 16,092 ( 65 − 2 )

Kritická hodnota Fisher-Snedecorova rozdělení je F1−α ( p − 1; n − p ) = F0,95 (1; 63) = 3, 99, (určeno v Excelu jako =F.INV(0,95;1;63)). Významnost F Pro hodnotu F =

ST SR

( p − 1) = 14, 07312 (n − p)

nalezneme odpovídající procento. Tuto hodnotu určíme z Excelu jako

1– (=F.DIST(14,0732;1;63;1)) = 0,000385, tedy 0,0385 %. Což odpovídá t-testu.

20


Testování korelačního koeficientu H 0 : ρ = ρ0 H1 : ρ ≠ ρ 0 T=

T=

ryx 1 − ryx2 

0, 427 1 − 0, 427 2 

[ n − 2]

[65 − 2] = 3, 748

P ( tα 2 ≤ T ≤ t1−α 2 ) P ( −1, 9983 ≤ 3, 748 ≤ 1, 9983) Testové kritérium neleží v intervalu, tzn., že máme podpořeno zamítnutí hypotézy nula o nulovosti korelačního koeficientu. Hodnota korelačního koeficientu 0,427 není příliš vysoká - jedná se o střední závislost. Intervaly spolehlivosti pro parametr β yx P ( byx − t1−α 2 ⋅ sb ≤ β yx ≤ byx + t1−α 2 ⋅ sb ) = 1 − α P ( 0, 5056 − 1, 9983 ⋅ 0,13478 ≤ byx ≤ 0, 5056 + 1, 9983 ⋅ 0,13478 ) = 0, 95 P ( 0, 23627 ≤ β yx ≤ 0, 77493) = 0, 95

21


Ukázka úloh 1. Úloha Vypočtěte procento zmetků, jestliže rozměry součástí mají normální rozdělení s parametry: µ = 6, 656 mm, σ 0 = 0, 0280 mm. Toleranční meze jsou 6, 500++00 ,,100 020. 2. Úloha Do servisu přijde průměrně 6 požadavků za hodinu. Určete pravděpodobnost, že do servisu přijde 10 požadavků za hodinu. Určete pravděpodobnost, že počet požadavků za hodinu nebude větší než 5 požadavků. 3. Úloha Pravděpodobnost výskytu jevu v každém z pokusů je stejná a je rovna 0,2. Pokusy jsou na sobě nezávislé a provádějí se tak dlouho, dokud jev nenastane. Jaká je pravděpodobnost, že se bude muset provádět 5. pokus? 4. Úloha Jaká je pravděpodobnost, že v n = 20 pokusech se výrobek 1. jakostní třídy a možnosti výskytu 0,60 objeví 15krát, výrobek 2. jakostní třídy s možností výskytu 0,25 objeví 3krát, výrobek 3. jakostní třídy s možností výskytu 0,10 objeví 1krát a zmetek 1krát? 5. Úloha K montáži výrobku jsou potřebné 3 součástky. V dodávce první součástky se objevuje 10 % zmetků, druhé 5 % zmetků, třetí 1 % zmetků. Najděte pravděpodobnost, že při montáží výrobku se neobjeví žádný, 1, 2, 3 zmetky. 6. Úloha V dodávce 200 hotových výrobků bývá 5 % zmetků. Provedeme výběr 5 výrobků. Určete pravděpodobnost, že mezi 5 vybranými výrobky nebude žádný zmetek. 7. Úloha Určete pravděpodobnosti P ( X ≤ 18, 6 ) a P ( X ≤ 20,1) a P (18, 6 ≤ X ≤ 20,1) u normální náhodné veličiny s parametry µ = 19, 8 a σ = 0, 5. 8. Úloha Určete pravděpodobnosti P ( /U / ≤ 1), P ( /U / ≤ 2 ), P ( /U / ≤ 3) u normované normální náhodné veličiny. 9. Úloha Určete pravděpodobnost výhry v I., II., III., IV. pořadí ve Sportce.

22

6. Uká zka slovníčku důležit ých pojmů

Ukázka slovníčku důležitých pojmů Statistický odhad

Estimation theory

Parametr základního souboru

Population parameter

Výběrová charakteristika

Sample statistic

Velikost výběrového souboru

Sample size

Bodový odhad

Point estimation (point estimator)

Konzistentní odhad

Consistent estimator

Nevychýlený odhad

Unbiased estimator

Suficience

Sufficiency

Vydatný odhad

Efficient estimator

Rao-Cramérova nerovnost

Cramér–Rao bound (CRB) or Cramér–Rao lower bound (CRLB)

Metoda momentů

Method of moments

Metoda největší (maximální) věrohodnosti

Maximum-likelihood estimation (MLE)

Věrohodnostní funkce

Likelihood function

Intervalový odhad

Interval Estimation

Interval spolehlivosti (dvoustranný, jednostranný)

Confidence interval CI (two-tailed, one-tailed) (two-sided, one-sided)

Hladina významnosti

Confidence level

Směrodatná odchylka výběrová

Standard error

Chyba odhadu u1−α 2

σ n

Margin of error

23

Statistika v příkladech

Recommend Documents