Pravděpodobnost a statistika: řešené příklady Tomáš Kroupa
2014
1. Kombinatorika. Náhodně vybereme 7-místné číslo. Jaká je pravděpodobnost, že se v zápise čísla žádná cifra neopakuje? Pečlivě formulujte úlohu v Kolmogorovově modelu pravděpodobnosti. Řešení: Elementární jevy tvoří množinu Ω = {1 000 000, . . . , 9 999 999}. Množina možných jevů A je množina všech podmnožin A ⊆ Ω. Protože se jedná o náhodný výběr a všechna čísla z Ω mají stejnou šanci vybrání, pravděpodobnost spočteme jako P (A) =
|A| |A| = , |Ω| 9 · 106
A ⊆ Ω.
Stačí tedy určit velikost množiny B všech 7-místných čísel s různými ciframi. První cifru lze vybrat právě 9 způsoby (0 to být nemůže), zbylých 6 cifer pak můžeme vybrat právě 9! 9·8·7·6·5·4= 3! způsoby. Dostáváme tak P (B) =
9 · 9! 9! . 3! = = 6.048 · 10−2 = 0.06. 9 · 106 6 · 106
2. Podmíněná pravděpodobnost. V kapse máme dvě mince: symetrickou (rub i líc padá stejně často) a falešnou (na obou stranách rub). Náhodně vytáhneme jednu z nich a nkrát hodíme mincí, přičemž padne vždy rub. Jaká je pravděpodobnost, že vybraná mince je falešná? Řešení: Označme S jev “byla vybrána symetrická mince” a F jev “byla vybrána symetrická mince”, An značí “rub padnul n-krát v řadě”. Hledáme podmíněnou pravděpodobnost P (F |An ), kterou spočítáme pomocí Bayesova vzorce: P (F |An ) =
P (An |F )P (F ) . P (An |S)P (S) + P (An |F )P (F )
Apriorní pravděpodobnosti výběru mincí jsou zřejmě shodné: 1 P (S) = P (F ) = . 2
Strana 1 z 10
Pravděpodobnost a statistika: řešené příklady
Dále P (An |F ) = 1
a
2014
P (An |S) = 2−n .
Z toho plyne P (F |An ) =
1 2
·
1 2 2−n
1 2
+
=
2n . 2n + 1
Přirozeně, lim P (F |An ) = 1.
n→∞
3. Náhodná veličina X má rozdělení popsané hustotou pravděpodobnosti { 2 2xe−x x ≥ 0, fX (x) = 0 x < 0. Stanovte její distribuční funkci, medián, modus a pravděpodobnost P [−2 < X ≤ 3]. Řešení: Zřejmě FX (x) = 0 pro x < 0. Pokud je x ≥ 0, platí ∫ FX (x) =
x
−t2
2te
∫
−x2
dt = −
0
∫
0
y
e dy = −x2
0
[ ]0 2 ey dy = ey −x2 = 1 − e−x ,
kde integrál řešíme substitucí y = −t2 . Medián určíme řešením rovnice FX (x) = 12 , tedy hledáme x ≥ 0 splňující 1 2 = 1 − e−x . 2 (1) √ Snadno nalezneme medián qX 2 = ln 2. Modus je bodem maxima fX : derivace je f ′ (x) = 2e−x − 4x2 e−x = 2e−x (1 − 2x2 ), 2
a proto je hodnota modu xˆ =
√1 . 2
2
2
Nakonec,
P [−2 < X ≤ 3] = P [X ≤ 3] = FX (3) = 1 − e−9 .
4. Pravděpodobnost vypěstování zdravé rostliny ze semena je 0.4. Zasadíme 12 semen a předpokládáme, že jejich růst je nezávislý. Náhodnou veličinou X je počet vypěstovaných zdravých rostlin. Určete: (a) střední hodnotu a rozptyl, Strana 2 z 10
Pravděpodobnost a statistika: řešené příklady
2014
(b) nejpravděpodobnější počet zdravých rostlin a pravděpodobnost takového počtu, (c) kolik je nutno zasadit semen, aby pravděpodobnost vypěstování zdravé rostliny nebyla menší než 0.99.
Řešení: Veličina X má zřejmě binomické rozdělení s parametry n = 12 a p = 0.4: ( ) 12 pX (x) = 0.4x · 0.612−x , x ∈ {0, 1, . . . , 12}. x Proto lze využít k řešení (a) známých vzorců: EX = np = 4.8
a DX = np(1 − p) = 2.88.
V úloze (b) hledáme modus, neboli xˆ ∈ {0, 1, . . . , 12} takové, že platí pX (ˆ x) ≥ pX (x), pro každé x ∈ {0, 1, . . . , 12}. Snadno se přesvědčíme, že xˆ ∈ / {0, 12}. Nutnou podmínkou je tak splnění nerovností pX (ˆ x) ≥ pX (ˆ x − 1) a
pX (ˆ x) ≥ pX (ˆ x + 1).
(1)
Vzorec odvodíme pro obecné n a p. Vztahy (1) vyjádříme po dosazení vzorce pro pX a vydělení jednou stranou takto: xˆ 1−p · ≤1 n − xˆ + 1 p
a
n − xˆ p · ≤ 1. xˆ + 1 1 − p
Řešením nerovnic určíme modus jako celé číslo xˆ z intervalu ⟨np + p − 1, np + p⟩. V našem případě je xˆ ∈ ⟨4.2, 5.2⟩ a proto xˆ = 5. Zřejmě ( ) 12 pX (5) = 0.45 · 0.67 = 0.227. 5 V poslední úloze (c) hledáme parametr n binomického rozdělení s parametrem p = 0.4 tak, aby platilo 1 − pX (0) ≥ 0.99. | {z } 0.6n
Stačí tedy vyřešit nerovnici 0.01 ≥ 0.6n . Jejím řešením je libovolné n ≥ 9.01, a proto stanovíme nutný počet rostlin jako n = 10. 5. Počet chyb ve dvou programových modulech je náhodný vektor (X, Y ), jehož sdružené rozdělení pXY je popsáno touto tabulkou:
Strana 3 z 10
Pravděpodobnost a statistika: řešené příklady pXY (x, y) x=0 x=1
y=0 0.20 0.20
y=1 0.20 0.10
2014 y=2 0.05 0.10
y=3 0.05 0.10
Určete: (a) (b) (c) (d) (e)
marginální rozdělení obou náhodných veličin X a Y , pravděpodobnost, že první modul neobsahuje žádnou chybu, zda jsou veličiny X a Y nezávislé, rozdělení veličiny Z = X + Y , korelační koeficient ρ(X, Y ).
Řešení: Úlohu (a) vyřešíme snadno, neboť pX (x) = Dostaneme tak tabulku pXY (x, y) x=0 x=1 pY (y)
y=0 0.20 0.20 0.40
y=1 0.20 0.10 0.30
∑3 y=0
y=2 0.05 0.10 0.15
pXY (x, y) a analogicky pro pY . y=3 0.05 0.10 0.15
pX (x) 0.50 0.50
Řešením (b) je pX (0) = 0.50. V části (c) stačí ověřit, zda platí rovnost pXY (x, y) = pX (x)pY (y) pro všechna možná x a y. Ovšem to není pravda, neboť např. 0.20 = pXY (0, 1) ̸= pX (0)pY (1) = 0.15, a proto nejsou X a Y nezávislé. V (d) hledáme rozdělení popsané pravděpodobnostní funkcí ∑ pZ (z) = pXY (x, y), z = 0, . . . , 4. x,y z=x+y
Zřejmě pZ (0) = pXY (0, 0) = 0.20 a pZ (1) = pXY (1, 0) + pXY (0, 1) = 0.40. Podobně dostaneme pZ (2) = pZ (3) = 0.15 a pZ (4) = 0.10. K výpočtu (e) použijeme vztah ρ(X, Y ) = Platí E(XY ) =
∑
cov(X, Y ) E(XY ) − EX · EY = . σX σY σX σY
xy · pXY (x, y) = (1 + 2 + 3) · 0.10 = 0.6
x,y
a EX = 0.5, EY = 1.05. Tedy cov(X, Y ) = 0.075, což nám znovu potvrzuje, že veličiny nejsou nezávislé. Dále √ √ . σX = E(X 2 ) − (EX)2 = 0.5 − 0.52 = 0.5 a σY = 1.071.
Strana 4 z 10
Pravděpodobnost a statistika: řešené příklady
Dostaneme ρ(X, Y ) =
2014
0.075 . = 0.14. 0.5 · 1.071
6. Systém se skládá ze 3 nezávisle fungujících komponent. Každá z nich má životnost Xi popsanou exponenciálním rozdělením se střední hodnotou τi = 1i , kde i = 1, 2, 3. Celý systém je funkční, jen pokud fungují alespoň 2 komponenty. Určete funkci spolehlivosti RX := 1 − FX , kde X je životnost systému a FX je distribuční funkce životnosti. Řešení: Díky předpokladu platí FXi (x) = 1 − e−ix , pro x ≥ 0 a i = 1, 2, 3. Hledáme RX (x) = 1 − FX (x) = P [X > x]. Označme si jevy popisující funkčnost jednotlivých komponent: Ai = [Xi > x]. Hledanou funkci RX (x) pak spočítáme takto (využijeme princip inkluze a exkluze spolu s předpokladem nezávislosti jevů A1 , A2 a A3 ): P ((A1 ∩ A2 ) ∪ (A1 ∩ A3 ) ∪ (A2 ∩ A3 )) = P ((A1 ∩ A2 )) + P ((A1 ∩ A3 )) + P ((A2 ∩ A3 )) − 3P (A1 ∩ A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 ) + P (A1 )P (A3 ) + P (A2 )P (A3 ) − 2P (A1 )P (A2 )P (A3 ). Jelikož P (Ai ) = P [Xi > x] = 1 − FXi (x) = e−ix , po roznásobení dostaneme RX (x) = e−3x + e−4x + e−5x − 2e−6x .
7. Kniha má 500 stran. Pravděpodobnost tiskové chyby na 1 stránce je p = 2·10−3 . Výskyty chyb na jednotlivých stránkách považujeme za nezávislé, celkový počet chyb v knize označme jako X. Za těchto předpokladů určete přesně rozdělení veličiny X a pravdpěpodobnost P [X < 2]. Stejnou pravděpodobnost aproximujte pomocí Poissonova a normálního rozdělení.
Řešení: Veličina X má binomické rozdělení s parametry n = 500 a p = 2 · 10−3 . Proto platí . P [X < 2] = P [X = 0] + P [X = 1] = 0.998500 + 500 · 2 · 10−3 · 0.998499 = 0.735959. Jelikož n je velké a p je relativně malé, lze rozdělení X aproximovat Poissonovým rozdělením s parametrem λ = np = 1. Proto můžeme psát . P [X < 2] ≈ 2e−1 = 0.735759.
Strana 5 z 10
Pravděpodobnost a statistika: řešené příklady
Konečně, využijeme Moivre-Laplaceovu limitní větu, podle níž má veličina přibližně rozdělení N (0, 1). Proto [ ] X −1 1 . P [X < 2] ≈ P √ <√ = Φ(1) = 0.8413. 0.998 0.998
2014
√X−1 0.998
8. Při detekci neautorizovaného přístupu k počítači se měří doba mezi stisknutím kláves při zadávání hesla. Byly naměřeny tyto doby v sekundách: 0.46 0.38 0.31 0.24 0.20 0.31 0.34 0.42 0.09 0.18 0.46 0.21 Stanovte 90% interval spolehlivost pro střední dobu stisku kláves a uveďte použité předpoklady.
Řešení: Předpoklad: data pocházejí z normálního rozdělení N (µ, σ 2 ). Hledáme tedy intervalový odhad střední hodnoty µ při neznámém rozptylu σ 2 . Ten vypadá takto: ⟩ ⟨ S S α α X n − √ qt(n−1) (1 − 2 ), X n + √ qt(n−1) (1 − 2 ) , n n přičemž rozsah výběru je n = 12, spolehlivost 1−α = 0.9. Z dat dopočteme výběrový průměr a výběrovou směrodatnou odchylku: X n = 0.3,
S = 0.1183.
Hodnota kvantilu Studentova rozdělení je qt(11) (0.95) = 1.796. Získáme tak interval 0.3 ± 0.0613 = ⟨0.2387, 0.3613⟩.
9. Na základě náhodného výběru X1 , . . . , Xn odhadněte parametr ϑ > 0 rovnoměrného rozdělení na intervalu ⟨−ϑ, ϑ⟩ pomocí metody momentů. Řešení: Pokud má veličina X rovnoměrné rozdělení na intervalu ⟨−ϑ, ϑ⟩, potom EX = 12 (ϑ − ϑ) = 0
Strana 6 z 10
Pravděpodobnost a statistika: řešené příklady
2014
a proto nelze využít k odhadu 1. obecný moment. Zkusíme tedy spočítat 2. obecný moment: ( ) ∫ ϑ 2 1 ϑ3 ϑ3 ϑ2 x 2 E(X ) = dx = + = . 2ϑ 3 3 3 −ϑ 2ϑ ∑ X2 Ten položíme roven 2. výběrovému momentu ni=1 ni a dostaneme tak rovnici ϑ2 ∑ Xi2 = , 3 n i=1 n
jejímž řešením je odhad
v u n u3 ∑ ϑˆ = t X 2. n i=1 i
10. Na základě náhodného výběru X1 , . . . , Xn odhadněte parametr ϑ > 0 rovnoměrného rozdělení na intervalu ⟨0, ϑ⟩ pomocí metody maximální věrohodnosti a metody momentů. Řešení: Každá veličina Xi má rovnoměrné rozdělení s hustotou { ϑ−1 x ∈ ⟨0, ϑ⟩ , fXi (x) = 0 jinak. Pokud uvažujeme hodnoty setříděné podle velikosti tak, že X(1) ≤ · · · ≤ X(n) , potom dostaneme věrohodnostní funkci { ϑ−n 0 < X(1) ≤ · · · ≤ X(n) ≤ ϑ, L(ϑ) = 0 jinak. Protože je L(ϑ) funkcí klesající v proměnné ϑ, maxima se nabývá pro pozorování s nejvyšší hodnotou: ϑˆM L = X(n) . Proveďme odhad metodou momentů. Platí EX = ϑ/2 a výběrový moment je X n = ∑n i=1 Xi . Proto řešením rovnice n ϑ = Xn 2 dostáváme odhad ϑˆ = 2X n .
Strana 7 z 10
Pravděpodobnost a statistika: řešené příklady
2014
11. 30 uživatelů testovalo notebooky na výdrž baterie při připojeném/odpojeném externím disku: 18 uživatelů bez připojeného disku pracovalo na baterii v průměru 5.3 h při směrodatné odchylce 1.4 h, zbylých 12 uživatelů mělo připojený disk a baterie jejich notebooku vydržela v průměru 4.8 h při směrodatné odchylce 1.6 h. Použijte vhodný test na hladině α = 0.05 k rozhodnutí, zda připojení disku snižuje výkon baterie a uveďte použité předpoklady.
Řešení: Použijeme dvouvýběrový test pro porovnání středních hodnot dvou normálních rozdělení. Předpoklady: náhodné výběry X1 , . . . , X18 a Y1 , . . . , Y12 pocházejí z normálních rozdělení se stejným (neznámým) rozptylem a veličiny X1 , . . . , X18 , Y1 , . . . , Y12 jsou navíc nezávislé. Testujeme nulovou hypotézu µX = µY na hladině významnosti α = 0.05. Použijeme testovou statistiku T =
X−Y √ , S 1/m + 1/n
kde m = 18, n = 12, X = 5.3, Y = 4.8 a √ 2 2 (m − 1)SX + (n − 1)SY S= . m+n−2 Po dosazení dostaneme realizaci testové statistiky t=
5.3 − 4.8 . √ = 0.9054. 1 1 1.4818 /18 + /12
Tuto hodnotu porovnáme s kvantilem Studentova rozdělení . qt(m+n−2) (0.975) = qt(28) (0.975) = 2.05. Nelze zamítnout hypotézu, že výkony baterií jsou stejné při zapojeném i bez zapojeného externího disku. Lze tedy tvrdit, že připojením disku se průměrná výdrž baterie nesníží. 12. Klasifikujte stavy Markovova řetězce s pravděpodobnostmi přechodu 0 1 0 P= q 0 p 0 1 0 a určete stacionární rozdělení.
Strana 8 z 10
Pravděpodobnost a statistika: řešené příklady
2014
Řešení: Zřejmě q = 1 − p pro nějaké p ∈ ⟨0, 1⟩. Lze rozlišit 3 případy. Je-li p = 0, potom jsou stavy 1 a 2 trvalé, stav 3 je přechodný. Pokud je p ∈ (0, 1), potom jsou všechny stavy trvalé a řetězec je tudíž nerozložitelný. V případě p = 1 jsou stavy 2 a 3 trvalé a stav 1 je přechodný. Ve všech případech jsou trvalé stavy periodické s periodou 2. Stacionární rozdělení p = (p1 , p2 , p3 ) určíme řešením soustavy pP = p s dodatečnou podmínkou p1 + p2 + p3 = 1 a p1 , p2 , p3 ≥ 0. Snadno tak zjistíme, že pro libovolné p ∈ ⟨0, 1⟩ existuje pouze jedno stacionární rozdělení ) ( 1−p 1 p . p= , , 2 2 2 Pro žádné p ∈ ⟨0, 1⟩ však není p rozdělením limitním díky periodicitě stavů: lim pij (n) ̸= pj ,
n→∞
i, j = 1, 2, 3.
13. (Bernoulliho-Laplaceův model difúze.) Uvažujme 3 bílé a 3 černé koule, které jsou náhodně rozmístěny do dvou nádob, přičemž každá nádoba obsahuje právě 3 koule. Stav systému je určen počtem bílých koulí Xn v první nádobě. V každém kroku n náhodně vybereme kouli v první nádobě i v druhé nádobě a vzájemně je prohodíme. Najděte matici přechodu takto zadaného markovského řetězce, klasifikujte jeho stavy a spočtěte stacionární rozdělení.
Řešení: Stavy jsou z množiny {0, 1, 2, 3, 4}. Protože jsou oba výběry nezávislé, dostáváme { 1 p0i = 0
i = 1, i ̸= 1,
1/9 4/9 p1i = 4/9 0
i = 0, i = 1, i = 2, i = 3.
Ostatní podmíněné pravděpodobnosti dopočteme podobně a dostaneme tak matici přechodu 0 1 0 0 1/9 4/9 4/9 0 P= 0 4/9 4/9 1/9 . 0 0 1 0 Tento řetězec má všechny stavy trvalé a ergodické, je tedy nerozložitelný aperiodický.
Strana 9 z 10
Pravděpodobnost a statistika: řešené příklady
2014
Proto existuje právě jedno stacionární rozdělení p ∈ R4 a platí p p lim Pn = p . n→∞ p Rozdělení p získáme řešením soustavy rovnic pP = p. To je p = (0.05, 0.45, 0.45, 0.05).
14. Určete rychlost entropie markovského řetězce z příkladu 13 a stanovte maximální počet bitů, který uspoříme ve srovnání s bezpaměťovým zdrojem majícím stejnou množinu stavů.
Řešení: Rychlost entropie stanovíme jako H((Xn )n∈N ) = H(X2 |X1 ) =
3 ∑
pi · H(X2 |X1 = i) = 2 · 0.45 · H( 91 , 49 , 94 ).
i=0
Jelikož H( 19 , 49 , 49 ) = 91 log 9 + 89 (log 9 − log 4) = log 9 − 16 , 9 . 9 dostaneme H((Xn )n∈N ) = 10 log 9 − 85 = 1.25. Bezpaměťový zdroj nad stejnou množinou stavů může mít maximální rychlost entropie log 4 = 2 bity. Úspora tak činí až 0.75 na 1 znak generovaný markovským zdrojem.
Strana 10 z 10