Statistika (4ST201) 1
Popsisná statistika (1. a 2. cvičení)
1.1
Úvodní příklad
Vytvoříme datový soubor, který obsahuje věk, výšku a pohlaví studentů tohoto semináře. V Excelu určete: 1. Vytvořte histogram četností pro věk a výšku. 2. Spočtěte průměr, rozptyl, směrodatnou odchylku, kvantily (medián, dolní a horní kvartil, 95% kvantil) a modus pro věk a výšku. 3. Proveďte rozklad rozptylu výšky podle proměnné pohlaví.
1.2
Domácnosti
Data najdete v souboru vypocty.xlsx. 1. List domacnosti. Zadání: U 31 domácností se sleduje 6 znaků: u (měsíční výdaje za potraviny), v (počet členů), w (průměrný věk vydělávajících členů), x (měsíční příjem), y (počet dětí), z (typ domácnosti podle hlavního zdroje příjmu). (a) Tabulky rozdělení četností pro jednotlivé znaky. (b) Histogramy četností. (c) Průměr, rozptyl, směrodatnou odchylku, kvantily, modus. (d) Proveďte rozklad rozptylu měsíčních výdajů za potraviny (proměnná u), kdy třídícím znakem je typ domácnosti podle hlavního příjmu, tj. podle proměnné z. 2. List vek. Spočítejte: aritmetický průměr, směrodatnou odchylka, medián, kvantily. 3. List zahranicni dluh. Spočítejte: tempa růstu, geometrický průměr.
1.3
Jak spočítat kvantil ze souboru hodnot
Na n jednotkách jsme naměřili soubor hodnot x1 , x2 , . . . , xn . Uspořádaný soubor hodnot, t.j. neklesající posloupnost zapíšeme x(1) ≤ x(2) ≤ . . . ≤ x(n) . Výběrový p-tý kvantil (0 < p < 1) definujeme vztahem x([np]+1) xp = 1 2 (x(np) + x(np+1) )
np 6= [np] np = [np]
(1)
Výraz [np] znamená celou část čísla np, např. [5, 44] = 5, nebo [π] = 3. Postupů jak určit kvantil je více, např. se může interpolovat mezi dvěma hodnotami. Proto se vám může stát, že různé softwary vám vrátí různé výsledky. Nicméně rozdíly ve výsledku, obzvlášť pro velký počet pozorování, jsou zanedbatelné. 1
Příklad, viz soubor vypocty.xls, list vek Máme dvanáct údajů o věku žadatelů o hypotéku. Určete medián, dolní kvartil (25% kvantil) a 97, 5% kvantil. i 1 2 3 4 5 6 7 8 9 10 11 12
věk žadatelů 42 25 25 25 24 25 28 39 32 31 28 23
věk žadatelů (uspořádaný) 23 24 25 25 25 25 28 28 31 32 39 42
• Medián: 12 × 0, 5 = 6, [6] = 6, tedy x e0,5 = 12 (25 + 28) = 26, 5 • Dolní kvartil: 12 × 0, 25 = 3, [3] = 3, tedy x0,25 = 21 (25 + 25) = 25 • 97, 5% kvantil: 12 × 0, 975 = 11, 7, [11, 7] = 11, tedy x0,975 = 42
1.4
Práce se vzorečky
P 1. Upravte vzorec rozptylu s2x = n1 ni=1 (xi − x)2 do tzv. výpočetního tvaru s2x = x2 − x2 , 1 Pn kde x značí aritmetický průměr, tj. x = n i=1 xi . P 2. Mějme n pozorování x1 , x2 . . . , xn a jejich rozptyl s2x = s2 (x1 , x2 , . . . , xn ) = n1 ni=1 (xi −x)2 Ukažte, že: (a) přičteme-li ke každému pozorování x1 , x2 , . . . , xn stejnou konstantu, rozptyl se nezmění, (b) vynásobíme-li každé pozorování x1 , x2 , . . . , xn stejnou konstantou, rozptyl vzroste druhou mocninou dané konstanty. 3. Celkový rozptyl proměnné x můžeme rozložit podle třídícího znaku, který nabývá k obměn, na vnitroskupinový a meziskupinový rozptyl. Vnitroskuponový rozptyl, s2 , je vážený průměr rozptylů uvnitř skupin a meziskupinový rozptyl, s2x , je vážený rozptyl skupinových průměrů od celkového průměru. Vzorečky používají následující notaci: s2x = s2 + s2x Pk Pk 2 s2i ni i=1 (xi − x) ni = Pi=1 + P k k i=1 ni i=1 ni Pk 1 Pni Pk 2 (xi − x)2 ni i=1 ni j=1 (xij − xi ) ni = + i=1Pk Pk i=1 ni i=1 ni
(2)
Vyjděte z definice rozptylu a proveďte rozklad rozptylu, tj. upravte celkový rozptyl do
2
tvaru (2): k
s2x
n
i 1 XX = (xij − x)2 n
i=1 j=1 k
n
i 1 XX = (xij − xi + xi − x)2 n
i=1 j=1
= ···
1.5
Další příklady
příklad 1.5.1 geometrický průměr Inflace v pěti po sobě jdoucích letech postupně byla 20%, 50%, 30%, 20% a 5%. Určete průměrnou inflaci během těchto pěti let. příklad 1.5.2 harmonický versus aritmetický průměr Auto urazí vzdálenost 20 km. Prvních 10 km jede rychlostí 60 km/hod. a zbývajících 10 km jede rychlostí 40 km/hod. Určete průměrnou rychlost auta. příklad 1.5.3 harmonický versus aritmetický průměr Auto jede 24 minut. Prvních 12 minut jede rychlostí 60 km/hod. a zbývajících 12 minut jede rychlostí 40 km/hod. Určete průměrnou rychlost auta. příklad 1.5.4 vážený harmonický průměr Auto jede z města A do města B rychlostí 40 km/hod., z města B do města C rychlostí 50 km/hod., a z města C do města D rychlostí 60 km/hod. Vypočítejte průměrnou rychlost celé trasy, jestliže vzdálenost mezi A a B je 5 km, mezi B a C 3 km a mezi C a D je 5 km. příklad 1.5.5 V soukromé firmě je zaměstnáno 60 % mužů. Průměrná měsíční mzda žen je 25 000 Kč. Určete průměrnou měsíční mzdu mužů, je-li průměrná měsíční mzda v celé firmě 22 000 Kč. příklad 1.5.6 Určete hodnoty tří proměnných, víte-li, že jejich aritmetický průměr je roven 33, jejich geometrický průměr je roven 30 a jejich medián je roven 25. příklad 1.5.7 Ve firmě pracuje 20 osob s průměrným platem 7 200 Kč. zaměstnanec s platem 8 900 Kč odchází, nově přijatý pracovník dostává nástupní plat 6 500 Kč. Jak se změní průměrný plat pracovníků ve firmě? příklad 1.5.8 vliv konstanty na průměr a rozptyl Z denních měření teplot v měsíci srpnu byla spočten jejich průměr √ ◦a směrodatná odchylka. ◦ Průměrná teplota je rovna 40 C a směrodatná odchylka teplot je 10 C. Převeďte průměrnou teplotu a směrodatnou odchylku teplot do stupňů Fahrenheita. Vztah mezi Celsiovou a Fahrenheitovou stupnicí je dán rovnicí F = 1.8C + 32, kde C jsou stupně Celsia a F jsou stupně Fahrenheita. příklad 1.5.9 Tabulka uvádí cenu, hmotnost a „odolnost vůči otřesůmÿ (ESP) přehrávačů CD–MP3. Pro všechny tři sledované proměnné určete jejich aritmetický průměr, rozptyl, výběrový rozptyl, 3
směrodatnou odchylku, výběrovou směrodatnou odchylku, variační koeficient, medián, 25% a 75% kvantil. typ přístroje Philips EXP 2301 Philips EXP 2460 Philips EXP 2461 Philips EXP 3373 Philips EXP 3460 Philips EXP 3463 Philips EXP 3483
1.5.1
cena (Kč) 1325 1260 1331 2897 1533 1849 2025
hmotnost (g) 195 186 186 175 180 180 180
ESP (sek.) 100 100 100 200 200 200 200
Řešení
příklad příklad příklad příklad příklad příklad příklad příklad příklad
1.5.1 1.5.2 1.5.3 1.5.4 1.5.5 1.5.6 1.5.7 1.5.8 1.5.9
24% 48 km/hod. 50 km/hod. 48, 447 km/hod. 20 000 Kč. x1 = 20 x2 = 25 x3 = 54. Klesne na 7 080 Kč. F = 104◦ F σF = 5, 69◦ F
aritmetický průměr rozptyl výběrový rozptyl směrodatná odchylka výběrová směrodatná odchylka variační koeficient medián 25% kvantil 75% kvantil
cena 1745,71 292040,20 340713,57 540,41 583,71 0,31 1533 1325 2025
hmotnost 183,14 36,12 42,14 6,01 6,49 0,03 180 180 186
4
ESP 157,14 2448,98 2857,14 49,49 53,45 0,31 200 100 200
2
Náhodné jevy, Pravděpodobnost (3. a 4. cvičení)
2.1
Kombinatorika (není součástí přednášky, předpokládá se znalost)
• Permutacemi n prvků rozumíme jejich různá uspořádání. P (n) = n! • Permutace s opakováním je uspořádaná n-tice, přičemž mezi vybranýmiP prvky je k skupin, které mají postupně n1 , n2 , . . . , nk stejných prvků. Musí platit, že n = ki=1 ni . 0 n! Pn1 ,...,nk (n) = n1 !...n k! • Variace k prvků z n je uspořádaná k-tice, v níž se žádný prvek neopakuje. n! Vk (n) = n(n − 1) . . . (n − k + 1) = (n−k)! • Variace s opakováním je uspořádaná k-tice z n prvků, v níž se prvky mohou opakovat. 0 Vk (n) = nk • Kombinacek prvků z n je neuspořádaná k-tice, v níž se žádný prvek neopakuje. n! Ck (n) = nk = Vkk!(n) = (n−k)!k! • Kombinace s opakováním je neuspořádaná k-tice z n prvků, které se v ní mohou opakovat. 0 Ck (n) = n+k−1 k příklad 2.1.1 Výbor má 10 členů – 6 mužů a 4 ženy. a) Kolik je způsobů, jak zvolit předsedu, místopředsedu, jednatele a hospodáře? b) Co když předseda a místopředseda mají být opačného pohlaví? příklad 2.1.2 Kolika způsoby může nastoupit m chlapců a n dívek do zástupu tak, aby a) nejdříve stály dívky a pak chlapci, b) mezi žádnými dvěma chlapci nestála dívka? příklad 2.1.3 Na večírku je n lidí. Přitukne-li si skleničkou každý s každým, kolik ťuknutí by mohlo být slyšet? příklad 2.1.4 Musí mít aspoň dva obyvatelé městečka o 1500 obyvatelích stejné iniciály (jméno a příjmení začínají jedním ze 32 písmen)?
2.2
Pravděpodobnost – klasická definice, vlastnosti
Klasická definice pravděpodobnosti Nechť Ω 6= ∅ je konečná množina stejně pravděpodobných výsledků pokusu. Potom pravděpodobností jevu A ∈ Ω nazýváme číslo P (A) =
|A| počet případů příznivých jevu A = . |Ω| počet všech případů
Vlastnosti pravděpodobnosti P (∅) = 0,
P (Ω) = 1,
P (A) = 1 − P (A), 5
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Nezávislost jevů Jevy A1 , A2 , · · · , An jsou nezávislé, jestliže ∀{i1 ,i2 ,...,ik }⊂{1,2,...,n} P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · · · P (Aik ). příklad 2.2.1 Jev A nastane, je-li dané číslo dělitelné 2, jev B, je-li dělitelné 3. Popište jev C = A ∩ B a dále jevy A ∩ C, A ∪ C, a A ∪ B. příklad 2.2.2 Jaká je pravděpodobnost, že slovem náhodně sestaveným z písmen A, A, A, E, I, K, M, M, T, T bude MATEMATIKA? příklad 2.2.3 Ve třídě 20 chlapců a 12 dívek jsou losem určeni 2 mluvčí. Jaká je pravděpodobnost, že obě pohlaví budou zastoupena? příklad 2.2.4 P (A) = 0, 3, P (B) = 0, 5, P (A ∩ B) = 0, 2. Jsou jevy A a B nezávislé? Jsou neslučitelné? příklad 2.2.5 V účtech je chyba. Jaká je pravděpodobnost, že aspoň jeden z nezávislých kontrolorů, nacházejících chybu s pravděpodobností 0, 90 a 0, 95, ji najde? příklad 2.2.6 Hazíme obyčejnou hrací kostkou tak dlouho, dokud nepadne číslo 6. Jaká je pravděpodobnost, že budeme muset hodit 1. jedenkrát, 2. právě třikrát, 3. nejméně čtyřikrát, 4. nejvíce šestkrát? příklad 2.2.7 Postupně vyndaváme koule z urny se 3 bílými, 5 černými a 4 červenými koulemi. Jaká je pravděpodobnost, že červenou vytáhneme dříve než bílou?
2.3
Podmíněná pravděpodobnost, Celková pravděpodobnost, Bayesův vzorec
Podmíněná pravděpodobnost Podmíněná pravděpodobnost jevu A podmíněná jevem B: P (A|B) =
P (A ∩ B) , P (B)
6
je-li P (B) > 0.
Úplná pravděpodobnost Pro úplný disjunktní systém B1 , B2 , . . . , BN , kde P (Bi ) > 0 ∀i a P (∪N i=1 Bi ) = 1 platí P (A) =
N X
P (A|Bi )P (Bi ).
i=1
Bayesův vzorec Pro úplný disjunktní systém B1 , B2 , . . . , BN , kde P (Bi ) > 0 ∀i a P (∪N i=1 Bi ) = 1 platí P (A|Bk )P (Bk ) . P (Bk |A) = PN i=1 P (A|Bi )P (Bi ) příklad 2.3.1 podmíněná pravděpodobnost Dvakrát hodíme kostkou. Jaká je pravděpodobnost, že součet přesáhne 10, víme-li, že na dvou kostkách padla aspoň jedna šestka? příklad 2.3.2 podmíněná pravděpodobnost V každé ze tří krabic je šest černých a sedm bílých koulí. Z první krabice se vybere koule a přemístí se do druhé krabice, která se promíchá. Z této druhé krabice se pak náhodně vybere jedna koule a vloží se do třetí krabice, která se též promíchá. Jaká je pravděpodobnost, že náhodně vybraná koule ze třetí krabice bude bílá? příklad 2.3.3 úplná pravděpodobnost V první urně je 6 bílých a 2 černé koule, ve druhé jsou 4 bílé a 2 černé koule. Náhodně zvolíme urnu a vytáhneme jednu kouli. Jaká je pravděpodobnost, že bude bílá? příklad 2.3.4 úplná pravděpodobnost Jste v televizní soutěži a máte možnost vyhrát auto. Auto je schováno v jedné ze tří zavřených garáží. Pro výhru stačí označit garáž, kde je auto schováno. Označíte garáž v které si myslíte, že je auto. Následně Vám moderátor soutěže otevře jednu z garáží a to takovou, kterou jste neoznačili a která je prázdná. Poté Vám moderátor nabídne změnit Vaše rozhodnutí – můžete buďto zůstat u Vámi označené garáže, nebo označit druhou neotevřenou garáž. Změní se Vaše šance na výhru, změníte-li rozhodnutí a označíte druhou garáž? příklad 2.3.5 Bayesův vzorec V první zásuvce jsou 2 zlaté mince, ve druhé 1 zlatá a 1 stříbrná, ve třetí 2 stříbrné. Zvolíme náhodně zásuvku a vytáhneme minci. Jaká je pravděpodobnost, že v zásuvce zbude zlatá mince, jestliže jsme vytáhli stříbrnou? příklad 2.3.6 Bayesův vzorec Pravděpodobnost, že test na HIV je pozitivní, jestliže pacient je skutečně pozitivní je rovna 0,9 (senzitivita testu). Pravděpodobnost, že test je negativní a pacient je též skutečně negativní, je 0,95 (specificita testu). Ví se, že 2% z celkové populace je HIV pozitivní (incidence nemoci). Jaká je pravděpodobnost, že pacient je HIV pozitivní, byl-li test negativní?
7
Výsledky: pravděpodobnost 2.1
Kombinatorika
příklad příklad příklad příklad
2.2
variace, a) 5040, b) 2688 permutace, a) m!n!, b) m!(n + 1)! kombinace, n(n−1) 2 variace s opakováním, Ano (1024)
Výsledky: pravděpodobnost
příklad příklad příklad příklad příklad příklad
2.3
2.1.1 2.1.2 2.1.3 2.1.4
2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.2.7
1 151200
0, 484 a) jsou závislé, b) nejsou neslučitelné 0, 995 1. 16 ; 2. ( 56 )2 16 = 0, 1157; 3. ( 56 )3 = 0, 5787; 4. 1 − ( 65 )6 = 0, 6651 4 7 = 0, 571
Výsledky: podmíněná a celková pravděpodobnost, Bayesův vzorec
3 = 0, 2727 příklad 2.3.1 11 příklad 2.3.2 w . . .počet bílých koulí v každé krabici b . . .počet černých koulí v každé krabici
Wn . . .vytáhneme bílou kouli z n-té krabice Bn . . .vytáhneme černou kouli z n-té krabice P (Wn ) = P (Wn |Wn−1 )P (Wn−1 ) + P (Wn |Bn−1 )P (Bn−1 ) w+1 P (Wn |Wn−1 ) = w+b+1 w P (Wn |Bn−1 ) = w+b+1 w P (W1 ) = w+b b P (B1 ) = w+b
příklad 2.3.3 17 24 = 0, 7083 příklad 2.3.4 A: změníme rozhodnutí a vyhrajeme auto A: nezměníme rozhodnutí a vyhrajeme auto B: označíme garáž, kde je auto B: označíme garáž, kde není auto (B a B tvoří úplný systém disjunktních jevů.) P (B) = 13 , P (B) = 32 P (A|B) = 0, P (A|B) = 1 P (A|B) = 1, P (A|B) = 0 8
P (A) = P (A|B)P (B) + P (A|B)P (B) = 0 31 + 1 23 = P (A) = P (A|B)P (B) + P (A|B)P (B) = 1 31 + 0 23 =
2 3 1 3
příklad 2.3.5 13 příklad 2.3.6 tp: test pozitivní tn: test negativní pp: pacient pozitivní pn: pacient negativní P (tn|pp) = 0, 1 P (tp|pp) = 0, 9 P (tn|pn) = 0, 95 P (tp|pn) = 0, 05 P (pp) = 0, 02 P (pp|tn) = 0, 2144%
9
3
Náhodná veličina
3.1
Distribuční funkce, hustota, očekávaná hodnota, rozptyl
příklad 3.1.1 Mějme funkci F (x) = c −
9 x2
pro x > 3 a
F (x) = 0
jinde.
1. Pro jakou konstantu c je tato funkce distribuční funkce nějaké náhodné veličiny X? 2. Jaká je pravděpodobnost P (4 < X < 8)? 3. Jak vypadá hustota pravděpodobnosti této náhodné veličiny? 4. Určete očekávanou hodnotu této náhodné veličiny. (Očekávanou nebo také střední hodnotu náhodné veličiny X značíme E[X].) 5. Určete rozptyl této náhodné veličiny. (Rozptyl náhodné veličiny X značíme Var[X], nebo 2 .) D[X], nebo také σ 2 (X), či σX příklad 3.1.2 Pro jakou hodnotu c je x 3 P (x) = c pro x = 1, 2, 3, . . . 4 = 0 jinak, pravděpodobnostní funkcí náhodné veličiny X? příklad 3.1.3 Na základě údajů o prodeji v posledních 4 týdnech bylo spočítáno, že počet zákazníků (náhodná veličina X), kteří během jedné hodiny zakoupí novou polévku, má rozdělení pravděpodobnosti dané tabulkou x P (X = x)
0 0,15
1 0,16
2 0,20
3 0,18
4 0,15
5 0,10
Vypočítejte 1. P (X ≤ 4), 2. P (2 ≤ X < 6), 3. P (X > 2), 4. střední hodnotu náhodné veličiny X, 5. směrodatnou odchylku náhodné veličiny X.
10
6 0,06
3.2
Alternativní, Binomické, Hypergeometrické a Poissonovo rozdělení
příklad 3.2.1 Pětkrát hodíme mincí. Pomocí distribuční funkce některého rozdělení vyjádřete pravděpodobnost, že aspoň dvakrát padl líc. Náhodná veličina X nechť udává, kolikrát padl líc. Určete její střední hodnotu E[X] a rozptyl Var[X]. příklad 3.2.2 Závod vyrábí v průměru 99,8% kvalitních výrobků. Jaká je pravděpodobnost, že mezi 500 vybranými budou více než 3 zmetky? příklad 3.2.3 Korektura pěti set stránek obsahuje 500 tiskových chyb. Určete pravděpodobnost toho, že na náhodně vybrané stránce budou aspoň tři chyby. příklad 3.2.4 Informační centrum navštíví v průměru 20 osob za hodinu. Jaká je pravděpodobnost, že během 15 minut nepřijde do kanceláře nikdo? příklad 3.2.5 Výrobky jsou dodávány v sériích po 100 kusech. Výstupní kontrola prohlíží z každé série 5 náhodně vybraných výrobků a přejímá ji, jestliže mezi vybranými výrobky není žádný zmetek. Čemu je rovna pravděpodobnost, že série nebude přijata, jestliže obsahuje 4% zmetků? příklad 3.2.6 V nádobě je 10 černých, 6 bílých a 4 modré koule. Náhodně s vracením vybereme 6 koulí. Jaká je pravděpodobnost, že ve výběru budou právě 1. 2 bílé, 3 černé a 1 modrá koule, 2. 2 bílé, 2 černé a 2 modré koule, 3. všechny koule černé? příklad 3.2.7 Náhodná veličina X udává kolik šestek padne při dvaceti hodech kostkou. V Excelu modelujte následující: 1. Pravděpodobnostní funkci X. Vytvořte graf pravděpodobnostní funkce. 2. Distribuční funkci X. Vytvořte graf distribuční funkce. 3. Spočtěte očekávanou hodnotu X podle definičního vzorečku E[X] =
P
i xi P (X
= xi ).
4. Spočtěte rozptyl X podle definičního vzorečku Var[X] = E[(X − E[X])2 ]. 5. Aproximujte pravděpodobnostní funkci X pomocí Poissonova rozdělení a v grafu porovnejte pravděpodobnostní funkce. 6. Nechť X nyní udává počet líců při dvaceti hodech mincí. Přepočtěte body výše.
11
3.3
Normální rozdělení
příklad 3.3.1 Délka výrobku v mm má N (68, 3; 0, 04). Jaká je pravděpodobnost, že délka náhodně odebraného výrobku bude mezi 68 a 69mm? příklad 3.3.2 Životnost svíčky (v km) má normální rozdělení s průměrem 10 000 a směrodatnou odchylkou 3000. Jaká je pravděpodobnost, že na vzdálenosti 4300 km nebude třeba měnit žádnou ze 4 svíček? příklad 3.3.3 Modelujte hustotu, f (x), a distribuční funkci, F (x), normálně rozdělené náhodné veličiny X v Excelu: 1. Vytvořte sloupeček hodnot x od −3.5 do 3.5 s krokem d = 0, 01. 2. Dohledejte vzorec hustoty normálního rozdělení a spočtěte f (x) pro vytvořená x. R P 3. Určete distribuční funkci F (x), přičemž integrál aproximujte: f (x)dx = i f (xi )d 4. Porovnejte získanou distribuční funkci normovaného normálního rozdělení se statistickými tabulkami. 5. Spočtěte E[X].
3.4
Centrální limitní věta
příklad 3.4.1 Zatížení letadla s 64 místy nemá překročit 6 000 kg. Jaká je pravděpodobnost, že při plném obsazení bude tato hodnota překročena, má-li hmotnost cestujícího střední hodnotu 90 kg a směrodatnou odchylku 10 kg? příklad 3.4.2 Jaká je pravděpodobnost, že při 100 hodech kostkou padne šestka nejvýše dvacetkrát? příklad 3.4.3 V určité oblasti je 3% nemocných malárií. Jaká je pravděpodobnost, že při kontrole 5 000 lidí najdeme 2,5% až 3,5% nemocných malárií?
Výsledky: náhodná veličina 3.1
Výsledky: distribuční funkce, hustota, očekávaná hodnota, rozptyl
příklad 3.1.1
1. c = 1
12
2. P (4 < X < 8) = 3.
18 x3
27 64
pro x > 3, 0 pro x < 3
4. E[X] = 6 5. Var[X] = ∞
13
příklad 3.1.2
c=
1 3
příklad 3.1.3
1. 0,84 2. 0,63 3. 0,49 4. E[X] = 2, 56 p 5. Var[X] = 1, 7568153
3.2
Výsledky: Alternativní, Binomické, Hypergeometrické a Poissonovo rozdělení
příklad 3.2.1 Binomické, P (X ≥ 2) = 13 16 ; E[X] = 2, 5; Var[X] = 1, 25 příklad 3.2.2 výpočet najdete v listu nahvel 1. Pomocí binomického rozdělení: 0, 018865 2. Aproximace Poissonovým rozdělením: 0, 018988 příklad 3.2.3 Poissonovo, λ = 1, P (X ≥ 3) = 0, 0803 příklad 3.2.4 Poissonovo, λ = 5, P (0) = 0, 006738 příklad 3.2.5 Hypergeometrické, 0, 1881 příklad 3.2.6 Multinomické rozdělení Situace je obdobná jako u binomického rozdělení, tedy uvažujeme posloupnost n = 6 nezávislých náhodných pokusů. Ale místo dvou možných výsledků pokusu budeme však připouštět tři možné výsledky (bílá, černá nebo modrá koule). Např. jako πm označíme pravděpodobnost výběru modré koule v jednom pokusu, Xm označíme počet pokusů v kterých jsme vybrali modrou kouli. Pravděpodobnostní funkci lze odvodit podobnou úvahou jako pro binomické rozdělení (binomické rozdělení je speciální případ multinomického). 1. P (Xb = 2, Xc = 3, Xm = 1) =
6! 2!3!1!
6 2 20
10 3 20
4 1 20
= 0, 135
2. P (Xb = 2, Xc = 2, Xm = 2) =
6! 2!2!2!
6 2 20
10 2 20
4 2 20
= 0, 081
3. P (Xb = 0, Xc = 6, Xm = 0) =
6! 0!6!0!
6 0 20
10 6 20
4 0 20
= 0, 015625
3.3
Výsledky: Normální
příklad 3.3.1 příklad 3.3.2
P (68 < X < 69) = 0, 9331 P = 0, 89
14
3.4
Výsledky: Centrální limitní věta
příklad 3.4.1 příklad 3.4.2 příklad 3.4.3
0, 00135 0, 81 0, 962
15
4
Matematická statistika
4.1
Populační průměr
příklad 4.1.1 Bodový a intervalový odhad populačního průměru V roce 1961 byla u 15 náhodně vybraných chlapců z populace všech desetiletých chlapců zjištěna výška: 130, 140, 136, 141, 139, 133, 149, 151, 139, 136, 138, 142, 127, 139, 147 cm. 1. Na základě náhodného výběru odhadněte průměrnou (očekávanou) výšku populace desetiletých chlapců. 2. Na základě náhodného výběru odhadněte směrodatnou odchylku výšky populace desetiletých chlapců. 3. Určete směrodatnou chybu odhadu (standard error). 4. Sestavte oboustranný 95% interval spolehlivosti pro průměrnou výšku. 5. Sestavte levostranný 95% interval spolehlivosti pro průměrnou výšku. příklad 4.1.2 Test hypotézy o populačním průměru V roce 1951 byl proveden výběr celé populace desetiletých chlapců a naměřena průměrná výška 136,1 cm a směrodatná odchylka výšky 6,4 cm. 1. Na 5% hladině významnosti testujte, zda se změnila průměrná výška nové generace (desetiletí chlapci v roce 1961) za předpokladu, že rozptyl výšky se nezměnil (známý rozptyl, použijete σ 2 = 6, 42 ). 2. Na 5% hladině významnosti testujte, zda se změnila průměrná výška nové generace za předpokladu, že rozptyl výšky ze změnil (neznámý rozptyl, musíte odhadnout z náhodného výběru). 3. Na 5% hladině významnosti testujte, zda je nová generace vyšší. příklad 4.1.3 Normální rozdělení (opakování náhodné veličiny) Víte, že výška desetiletých chlapců je normálně rozdělená náhodná veličina se střední hodnotu 140 cm a směrodatnou odchylkou 6 cm. 1. Určete kolem střední hodnoty symetrický interval, v kterém se bude s 95% pravděpodobností nacházet výška desetiletého chlapce. příklad 4.1.4
Test parametru π alternativního rozdělení
1. Agentura Q, která se zabývá výzkumem veřejného mínění, měla za úkol zjistit u obyvatel České republiky míru podpory našeho vstupu do Evropské unie. Agentura provedla šetření u náhodně vybraného vzorku 100 osob, z nichž 42 se vyslovilo pro. (a) Posuďte na 5% hladině významnosti platnost tvrzení, že pro vstup do Unie je právě polovina občanů ČR. 16
(b) Posuďte na 5% hladině významnosti platnost tvrzení, že pro vstup do Unie je méně než polovina občanů ČR. 2. Zadavatel výzkumu si objednal nové šetření o 10 krát větším rozsahu, tj. agentura Q provedla šetření u náhodnně vybraného vzorku 1000 osob. Výsledek však v relativním vyjádření dopadl stejně – pro vstup do Evropské unie se vyslovilo 420 osob. (a) Posuďte na 5% hladině významnosti platnost tvrzení, že pro vstup do Unie je právě polovina občanů ČR. (b) Posuďte na 5% hladině významnosti platnost tvrzení, že pro vstup do Unie je méně než polovina občanů ČR.
4.2
Možné situace při statistickém testování hypotéz
rozhodnutí zamítnutí H0 nezamítnutí H0
skutečnost H0 platí H0 neplatí chyba prvního druhu OK α = P (t ∈ W |H0 platí) OK chyba druhého druhu β = P (t ∈ V |H0 neplatí)
Chyba I. druhu Chybné zamítnutí platné H0 , P (t ∈ W |H0 platí) = α. Chyba II. druhu Nezamítnutí neplatné H0 , P (t ∈ V |H0 neplatí) = β. Síla testu Správné zamítnutí neplatné H0 , P (t ∈ W |H0 neplatí) = 1 − β. P-value Dosažená hladina testu, tj. nejmenší hladina významnosti α, při které bychom ještě hypotézu zamítli. Je-li P-value < α, potom zamítáme H0 . Je-li P-value > α, potom H0 nezamítáme. Jinými slovy, P-hodnota testu hypotézy je pravděpodobnost, že můžeme získat data, která jsou aspoň stejně nebo více nekonzistentní s nulovou hypotézou než data, která jsme obdrželi.
17
5 5.1
Test dobré shody, Kontingence, Analýza rozptylu χ2 test dobré shody
příklad 5.1.1 Při 600 hodech hrací kostkou byly zjištěny následující četnosti jednotlivých stran: 85, 99, 91, 108, 119, 98. Lze na 5% hladině považovat tuto kostku za symetrickou?
5.2
Kontingence
příklad 5.2.1 Tabulka níže uvádí výsledky šetření pro prodejce alkoholických nápojů. Výrobce by rád věděl, zda jsou typy preferovaného nápoje závislé na pohlaví (zvolte vlastní hladinu významnosti a určete p-value).
Muži Ženy Celkem
Pivo 13 10 23
Víno 10 11 21
Destiláty 5 10 15
Koktejly 7 4 11
Abstinenti 3 3 6
Celkem 38 38 76
příklad 5.2.2 Máme dvě proměnné: pohlaví (žena nebo muž) a vyhraněnost ruky (pravák nebo levák). Dále máme náhodný výběr 100 jedinců s následujícími výsledky: 43 mužů jsou praváci, 9 můžu jsou leváci. 44 žen jsou pravačky, 4 jsou levačky. Testujte zda pohlaví má vliv na vyhraněnost ruky (zvolte vlastní hladinu významnosti a určete p-value). příklad 5.2.3 V parlamentu se projednává zajímavý zákon a nás zajímá, zda spolu souvísí souhlas s projednávaným zákonem a postoj voličů k vládní koalici. Proto u namátkou vybraných voličů byly zjištěny následující údaje:
koalice ano koalice ne
5.3
zákon ano 9 4
zákon ne 5 7
Analýza rozptylu
příklad 5.3.1 Vraťte se k příkladu 1.1, v sekci 1 popisná statistika. Testujte, zda měsíční výdaje na potraviny závisí na typu domácnosti. Data najdete v souboru vypocty.xls, list domacnosti. Zvolte vlastní hladinu významnosti a určete P-value. příklad 5.3.2a V souboru vypocty.xls, list vyska jsme zaznamenali údaje o výšce a pohlaví studentů tohoto kurzu. Rozhodněte, zda můžeme tvrdit, že pohlaví ovlivňuje očekávanou (průměrnou) výšku. Zvolte vlastní hladinu významnosti a určete P-value.
18
příklad 5.3.2b Dvouvýběrový t-test o rovnosti středních hodnot Pomocí párového t-testu posuďte (na stejném datovém souboru jako v předešlém příkladu), zda očekávaná výška závisí na pohlaví. Určete p-value. příklad 5.3.3 Soubor vypocty.xls, list ANOVA obsahuje 16 údajů o spotřebě benzinu (l/100km) a přislušném typu benzinu. Rozhodněte, zda typ benzinu ovlivňuje jeho spotřebu (zvolte vlastní hladinu významnosti a určete P-value).
19
6
Regrese, Časové řady
6.1
Regrese a Korelace
Data najdete v souboru vypocty.xls, list regrese. příklad 6.1.1 Lineární regrese Máme údaje o stáří a ceně 10 ojetých aut Škoda. 1. Zkonstruujte a odhadněte regresní model závislosti ceny auta na jeho stáří. 2. Vytvořte řadu reziduí. Spočtěte reziduální, teoretický a celkový součet čtverců. 3. Posuďte kvalitu modelu pomocí F -testu, t-testů a koeficientu determinace. 4. Odhadněte očekávanou cenu auta, které je staré 10 let. příklad 6.1.2 Vícenásobná lineární regrese Máme údaje o stáří, počtu najetých km a ceně 20 ojetých aut Škoda. Zkonstruujte regresní model závislosti ceny auta na jeho stáří a počtu najetých km, posuďte jeho kvalitu a použijte jej k odhadu ceny auta starého 6 let, které má najeto 60 tisíc km. příklad 6.1.3 Lineární regrese Máme údaje o délce pracovní neschopnosti (ve dnech) a věku 10 zaměstnanců. Vyberte vhodný regresní model závislosti délky pracovní neschopnosti na věku. Uvažujte regresní funkci η = β0 + β1 /x (hyperbola) a η = β0 + β1 ln x (logaritmická regresní funkce). Dále odhadňete a testujte parametry kvadratické regresní funkce (parabola) η = β0 + β1 x + β2 x2 . příklad 6.1.4 Korelační koeficient Na 10 vybraných místech v okolí zdroje znečištění byla měřena hmotnostní koncentrace popílku pomocí dvou různých metod. Naměřené hodnoty jsou v mg/m3 . 1. Ukažte, že výsledky měření různými metodami jsou korelované (určete a testujte korelační koeficient). 2. Dopočtěte korelační koeficient na základě regresní přímky.
6.2
Časové Řady
příklad 6.2.1 Trendové křivky V tabulce jsou uvedeny hodnoty roční časové řady počtu narozených v Jihomoravském kraji za období 13 let:
20
rok 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
t 1 2 3 4 5 6 7 8 9 10 11 12 13
počet narozených 14 238 14 306 13 474 13 556 11 701 10 310 9 789 9 673 9 716 9 547 9 567 9 626 10 067
Vyrovnejte časovou řadu jednak přímkou a jednak parabolou a posuďte pomocí indexu determinace vhodnosti těchto trendových funkcí. Sestrojte odhad počtu narozených pro další rok. příklad 6.2.2 Nelineární trendová křivka Firma zabývající se provozováním internetového portálu zaznamenala za posledních 8 let prudký rozvoj, který dokumentuje tabulka dosaženého zisku před zdaněním (v tis. Kč): rok zisk
2000 958
2001 1002
2002 1281
2003 1569
2004 1899
2005 2222
2006 2855
2007 3544
Vyrovnejte hodnotu zisku vhodnou trendovou funkcí a sestrojte předpověď pro rok 2008 a 2009. (Nápověda: Jako vhodná trendová funkce je doporučena exponenciála Tt = β0 β1t .) příklad 6.2.4 Klouzavé průměry V tabulce jsou hodnoty časové řady kurzu akcií ABC, a.s. (v Kč za 1 akcii) během 12 po sobě jdoucích pracovních dnů: den kurz
1 472
2 469
3 464
4 471
5 474
6 471
7 475
8 491
9 505
10 502
11 504
12 510
1. Vyrovnejte tuto řadu jednoduchými klouzavými průměry délky 3, 5 a 7. 2. Vyrovnejte tuto řadu 5-člennými klouzavými průměry 2.řádu. Nápověda: 5-členný klouzavý 1 průměr 2.řádu má váhy 35 (−3, 12, 17, 12, −3). příklad 6.2.5 Model CAPM V listu akcie jsou časové řady měsíčních pozorování ceny akcie ČEZ a indexu Pražské burzy PX50. V sekci ?? jsme si definovali výnosy, označte rtCEZ logaritmický výnos ČEZu v čase t, a rtPX logaritmický výnos PX50 v čase t. Určete následující: • Pro logaritmický výnos akcie ČEZ: 1. Vytvořte graf logaritmického výnosu.
21
2. Odhadněte očekávaný výnos: T 1X b E[rt ] = ri = r. T i=1
3. Odhadněte směrodatnou odchylku výnosu (volatilitu): v u q T u X d t] = t 1 σ br = Var[r (ri − r)2 . T −1 i=1
4. Vytvořte 95% interval spolehlivosti pro očekávaný výnos. 5. Testujte hypotézu, zda je očekávaný výnos roven nule. • Capital Asset Pricing Model (CAPM) říká za předpokladu nulové bezrizikové úrokové míry následující: E[ri ] = βi E[rm ], i
m
,r ] i kde ri je výnos akcie i, rm je výnos market portfolia a βi = Cov[r Var[rm ] (kovariance mezi r a rm dělená rozptylem rm ). Model zapíšeme jako regresní model
rti = αi + βi rtm + εt ,
t = 1, . . . , T,
kde ε je náhodný šok nekorelovaný s rm (představuje nesystematické, idiosynkratické nebo také diverzifikovatelné riziko). Porovnáním obou rovnic je zřejmé, že CAPM implikuje αi = 0 (testujeme standardním t-testem). αi je také označováno jako Jensenovo α, viz http://en.wikipedia.org/wiki/Jensen’s alpha. 1. Graf logaritmického výnosu ČEZu doplňte o logaritmický výnos PX50. 2. Odhadněte model CAPM pro ČEZ, kdy jako market portfolio použijete index PX50. 3. Testujte, zda α je statisticky významný parametr. 4. Odhadněte korelaci mezi log výnosy ČEZu a PX50.
22
7
Indexy
příklad 7.0.1 Řetězové a bazické indexy V tabulce jsou je uvedena spotřeba masa v ČR (v kg na obyvatele). Charakterizujte vývoj spotřeby masa v tomto období pomocí bazických indexů (1989 = 100) a řetězových indexů. rok spotřeba
1989 97,4
1999 83,0
2000 79,4
2001 77,8
2002 79,8
2003 80,6
2004 80,5
2005 81,4
příklad 7.0.2 Řetězové a bazické indexy V tabulce je zachycen vývoj sklizní máku v letech 1993 — 2006. Za některé roky známe přímo hodnoty, někde známe řetězové a jinde bazické indexy se základem v roce 1993. Dopočítejte chybějící údaje. i 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
xi . . 25053 . . . 28509 . 21294 . . . . 31591
Ii/i−1 239 . . 99 . 139 48 . 79 116 . 147 .
Ii/B . . . 140 . . . . 309 . . . 529 .
příklad 7.0.3 Souhrnné indexy Ceny a prodané množství pěti druhů zboží v březnu (základní období) a červnu (běžné období) roku 2006 jsou uvedeny v následující tabulce. zboží A B C D E
cena p0 p1 8 10 4 6 5 8 7 7 9 8
množství q0 q1 30 20 50 40 50 30 30 20 10 20
1. Určete pomocí souhrnných cenových indexů, jak se změnily ceny v červnu oproti březnu. 2. Určete pomocí souhrnných objemových indexům jak se změnilo množství prodaného zboží v červnu oproti březnu.
23