Doporučené příklady k procvičení k 2. Průběžnému testu
-
Statistika v příkladech – Marek a kol. (2013)
-
kapitola 2.3, 9 – řešené příklady 2.52-2.53, 2.58a,b kapitola 3.1 o řešené příklady: 3.1, 3.2, 3.4 o neřešené příklady: 1, 3, 4a,b(jen E(X)) kapitola 3.2 o řešené příklady: 3.7, 3.8, 3.10, 3.14, 3.15 o neřešené příklady: 5a,b, 8(bez p-hodnoty), 11 kapitola 3.2
-
-
o neřešené příklady: 12 -
-
-
kapitola 4 o řešené příklady: 4.1, 4.3 o neřešené příklady: 1 - 3 kapitola 5 o řešené příklady: 5.1 (bez Bartlettova testu) o neřešené příklady: 1 - 3 kapitola 6 o 6.1. Jednoduchá regrese řešené příklady: 6.1 (bez IS pro parametry a střední hodnotu) neřešení příklady: 1, 2 (pouze přímka) o 6.2 Regresní parabola řešené příklady: 6.6 neřešené příklady: 1 o 6.3 Vícenásobná regrese řešené příklady: 6.7 neřešené příklady: 1 o 6.4. Korelační analýza řešené příklady: 6.8, 6.9 neřešené příklady: 1, 3
1. Jaká je pravděpodobnost, že náhodně vybraný muž bude mít výšku v rozmezí 170 až 185 cm? Předpokládejme přitom, že výška mužů má normální rozdělení s parametry: μ = 180; σ2=49. 2. IQ studentů jedné vysoké školy má normální rozdělení se střední hodnotou 125 a rozptylem 100. Určete pravděpodobnost, že náhodně vybraný student bude mít a) IQ vyšší než 155, b) IQ menší než 100, c) IQ přesně 125,00, d) IQ v intervalu 120 až 130. 3. Hmotnost boxerů v nejvyšší váhové kategorii (open weight) má normální rozdělení se směrodatnou odchylkou 10 kg a střední hodnotou 115 kg. Jestliže vážím 109 kg, určete, pravděpodobnost, že můj soupeř bude a) těžší než já, b) lehčí než já, c) nejvýše o pět kilogramů těžší než já, d) o více než 10 kg těžší než já. e) Kolik kg musím přibrat, abych si byl na 90% jistý, že budu mít soupeře s nižší hmotností. 4. Jaká je pravděpodobnost, že náhodně vybraná žena bude mít výšku v rozmezí 160 a 175 cm? Předpokládejme přitom, že výška žen má normální rozdělení s parametry μ = 170 a σ2 = 36. 5. Náhodná veličina X má normální rozdělení s parametry μ = 10 a σ2 = 25. Určete následující pravděpodobnosti a kvantily: a) P(X < 5) b) P(8<X<12) c) P(X >18) d) P(X = 5) e) X0,975 f) X0,05 6. Bylo zjištěno, že pevnost v tahu určitého druhu výrobku má normální rozdělení se střední hodnotou 200 jednotek a směrodatnou odchylkou 40 jednotek. Každý výrobek je před expedicí testován a ty výrobky, jejichž pevnost v tahu je větší než 220 jednotek, jsou označovány za velmi kvalitní. Jaká je pravděpodobnost vyrobení velmi kvalitního výrobku?
7. Rychlost řidičů na měřeném úseku na okraji Prahy směrem na Brno má normální rozdělení se střední hodnotou 52 km/h a směrodatnou odchylkou 10 km/h. Policejní radar je nastaven na zaznamenávání řidičů překračujících rychlost o 7 km/h. a) Určete kolik procent řidičů dostane krásnou obálku s modrým pruhem, jestliže je v daném místě povolená rychlost 50 km/h. b) Určete kolik řidičů za týden překročí maximální povolenou rychlost o více než 30 km/h, jestliže každý den projede kolem radaru (ve směru měření) 5 500 automobilů. 8. Odchylka rozměru výrobku od požadované hodnoty má normální rozdělení se střední hodnotou 0 mm a se směrodatnou odchylkou 5mm. Jaká musí být šířka intervalu normy (symetrického kolem požadované hodnoty) pro velikost výrobku, aby rozměr výrobku nepřekročil interval s pravděpodobností 0,95? 9. Byla změřena výška 6 žen s následujícími výsledky 163 cm, 175 cm, 177 cm, 165 cm, 171 cm, 174 cm a) Nalezněte bodový odhad průměrné výšky žen v celé republice. b) Sestrojte 95% oboustranný interval spolehlivosti pro odhad průměrné výšky žen v celé republice. c) Výšku kolika žen bychom museli změřit, abychom přiíustnou chybu intervalového odhadu průměrné výšky žen v celé republice snížili pod 1 cm. Předpokládejte, že výška jedné náhodně vybrané ženy má normální rozdělení s neznámou střední hodnotou (tu právě odhadujeme) a s rozptylem 49.
10. Z velké zásilky balení brambůrků Bohemia Chips bylo vybráno 5 balení a byla zjištěna jejich hmotnost. Výsledky jsou: 163 g, 159 g, 161 g, 157 g, 158 g a) nalezněte bodový odhad pro průměrnou hmotnost jednoho balení v celé zásilce b) sestrojte 99% oboustranný interval spolehlivosti pro průměrnou hmotnost jednoho balení v celé zásilce c) odhadněte, kolik váží celá zásilka, pokud víte, že obsahuje 90 balení. Předpokládejme, že rozdělení hmotnosti balení v zásilce je normální, se známým rozptylem 25.
11. Z velké zásilky balení s kukuřičnými vločkami jsme vybrali celkem 5 balení a zjistili jsme jejich hmotnost. Zde jsou výsledky: 460 gramů, 520 gramů, 490 gramů, 560 gramů, 510 gramů. a) Nalezněte bodový odhad pro průměrnou hmotnost jednoho balení v celé zásilce. b) Sestrojte 99% oboustranný interval spolehlivosti pro průměrnou hmotnost jednoho balení v celé zásilce. c) Odhadněte, kolik váží celá zásilka pokud víte, že obsahuje celkem 2400 balení. Předpokládejme přitom, že rozdělení hmotností balení v zásilce je normální. 12. Dne 25. a 26. ledna 2013 se v České republice konalo druhé kolo prezidentské volby. V závěrečném duelu se utkal Karel Schwarzenberg se pozdějším vítězem volby Milošem Zemanem. Představme si hypotetickou situaci. 200 náhodně vybraných voličů, po té co vhodilo svůj hlas do urny, bylo dotázáno, koho volilo. 110 z nich odpovědělo, že Miloše Zemana. Předpokládejme, že odpovědi jsou pravdivé, že vybraný vzorek dotázaných voličů je reprezentativním vzorkem voličů ČR a že k dispozici nejsou žádné jiné dodatečné průzkumy nebo indicie nasvědčující vítězství M. Zemana případně K. Schwarzenberga v daném místě. a.) Bodově odhadněte podíl voličů Miloše Zemana v daném kraji. b.) Nalezněte 95% oboustranný interval spolehlivosti pro podíl voličů Miloše Zemana v daném kraji. c.) Určete pravděpodobnost, že v daném kraji vyhraje volby Miloš Zeman. d.) Určete pravděpodobnost, že Karel Schwarzenberg získá více než 50% hlasů.
13. Mediálně známý ředitel velkého podniku tvrdí, že průměrná mzda v jeho zaměstnanců je 25000 korun. Chceme ověřit toto ředitelovo tvrzení, neboť ho podezíráme, že průměrnou mzdu nadhodnocuje. Zjistili jsme tedy mzdy 49 náhodně vybraných zaměstnanců podniku, a napočetli průměr těchto 49 mezd: 23500 korun, a výběrovou směrodatnou odchylku těchto 49 mezd: 5500 korun. a. Na 5 % hladině významnosti ověřte, zda je možné na základě těchto údajů zamítnout hypotézu o průměrně mzdě 25000 korun v celém podniku (tj. řečeno neformálně: „vyvrátit tvrzení ředitele“.) b. Na 1% hladině významnosti ověřte, zda je možné na základě těchto údajů zamítnout hypotézu o průměrně mzdě 25000 korun v celém podniku (tj. řečeno neformálně: „vyvrátit tvrzení ředitele“.) c. Sestavte 95% interval spolehlivosti pro průměrnou mzdu ze zjištěných dat.
14. Bylo vybráno 73 polí stejné kvality. Na 38 z nich se zkoušel nový způsob hnojení, zbývajících 35 bylo ošetřeno běžným způsobem. Průměrné výnosy pšenice při novém způsobu hnojení (tzn. průměrné výnosy napočtené z 38 polí pohnojených novým hnojivem) byly 5,3875 tun na hektar a výběrový rozptyl (výnosů napočtený z 38 polí pohnojených novým hnojivem) byl 0,2698. Průměrné výnosy pšenice při běžném způsobu hnojení (tzn. průměrné výnosy napočtené z 35 polí pohnojených běžným hnojivem) byly 4,7 tun na hektar a výběrový rozptyl (výnosů napočtený z 35 polí pohnojených běžným hnojivem) byl 0,24. Je třeba zjistit, zda nový způsob hnojení má vliv na výnosy pšenice.
15. Při sledování životnosti nových baterií VTEC 3000 bylo ze souboru 50000 baterií vybráno 30 a u nich byl vypočten průměr 195 dnů. Směrodatná odchylka v základním souboru je známá a její hodnota je 20. Předpokládáme, že životnost baterií se řídí normálním rozdělením. a. sestrojte 95% oboustranný interval spolehlivosti (IS) b. Vypočtěte, jak se změní IS, pokud zvýšíme rozsah výběru na 100 baterií c. Jak se změní IS, pokud nebudeme požadovat spolehlivost 95 %, ale 99 %? d. Kolik baterií bychom museli vybrat, aby se přípustná chyba změnila na hodnotu 10. Při zachování spolehlivosti 99%.
16. Prodejna potravin odebírá uzenářské výrobky od dvou dodavatelů a za důležitou považuje dobu, která uplyne od předání objednávky dodavatelům do okamžiku dodání objednaného zboží. První dodavatel byl testován ve 14 případech, průměrná doba čekání na objednané zboží byla 58 hodin při rozptylu 8,5. U druhého dodavatele uzenin bylo provedeno 11 pozorování, s průměrnou dobou 56 hodin s rozptylem 5. Na hladině významnosti 5 % ověřte hypotézu, zda mezi oběma dodavateli existuje takový rozdíl v rychlosti dodávek uzenin, který by byl pro vedení prodejny potravin podstatný.
17. Předpokládá se, že v České republice má: 41 % obyvatel krevní skupinu A 14 % obyvatel krevní skupinu B 7 % obyvatel krevní skupinu AB 38 % obyvatel krevní skupinu 0 V jistém týdnu darovalo krev celkem 215 dárců, kteří měli následující krevní skupiny: 82 mělo krevní skupinu A 38 mělo krevní skupinu B 26 mělo krevní skupinu AB 69 mělo krevní skupinu 0
a) Na 1% hladině významnosti rozhodněte, zda tyto zjištěné údaje jsou v souladu s předpokladem o poměrném zastoupení krevních skupin v České republice. b) Na 5% hladině významnosti rozhodněte, zda tyto zjištěné údaje jsou v souladu s předpokladem o poměrném zastoupení krevních skupin v České republice.
18. U 6 800 osob byla zjišťována barva očí a vlasů. Výsledky jsou zaneseny v tabulce. Rozhodněte, zda barva očí a barva vlasů jsou závislé znaky.
19. Z provedeného průzkumu máme informace o pohlaví a preferenci bydliště. Na základě těchto údajů rozhodněte, zda závisí preference trvalého bydlení na pohlaví.
20. Je třeba rozhodnout, zda varianty testu (označíme je jako A, B, C) jsou stejně náročné. Každou variantu si napsali 4 náhodně vybraní studenti. Jejich výsledky jsou zaneseny v tabulce. Rozhodněte, zda se průměrný počet bodů získaný za různé varianty testu významně liší. (Řešte ručně a v Excelu)
21. V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tisících dolarů):
a) b) c) d) e)
modelujte závislost nákladů na údržbu na ceně regresní přímkou zhodnoťte kvalitu modelu pomocí koeficientu determinace interpretujte věcně hodnotu regresního koeficientu b1 odhadněte střední hodnotu nákladů u domů za 80. tisíc dolarů ověřte pomocí testu, zda se jedná o významnou závislost
22. V následující tabulce jsou uvedeny roky výroby a cena automobilu Mercedes Benz SClass 350 w221. a) Najděte regresní přímku, která nejlépe vystihuje hledanou závislost. b) Určete koeficient determinace a c) korelační koeficient. d) Kolik procent variability vysvětluje zvolená regresní přímka? e) Proveďte bodový odhad ceny automobilu vyrobeného v roce 2011. f) Určete hodnotu residua v roce 2008 (vyrovnaná hodnota – empirická hodnota). Rok výroby X Cena (tis) Y
2006 564
2007 658
2008 762
2009 855
2010 970
2012 1 280
2013 1 400
23. U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti. Údaje jsou uvedeny v následující tabulce: (příklad se pokuste řešit za pomoci excelu i ručně)
a) b) c) d) e)
vyrovnejte data regresní parabolou charakterizujte těsnost závislosti ověřte význam kvadratického členu v modelu proveďte bodový odhad spotřeby při rychlosti 80 km/h interpretujte hodnotu regresního koeficientu
24. V následující tabulce jsou data získaná ze stránek nejmenovaného autobazaru v České republice. Data se týkají automobilu Škoda Fabia ve srovnatelné kvalitě a se stejným rokem výroby. Cena (tis Kč) Počet najetých kilometrů (tis) a) b) c) d) e) f) g)
135 5
115 15
110 32
101 45
95 82
85 100
Vyberte vhodnou regresní funkci, vyrovnejte data zvolenou regresní funkcí, charakterizujte těsnost závislosti kolik procent variability vysvětluje zvolená regresní přímka proveďte bodový odhad ceny fabie, která má najeto 58 tis km proveďte celkový F-test parametrů proveďte t-testy jednotlivých parametrů
75 125
69 155
65 168
25. Tabulka obsahuje údaje o stáří, počtu najetých km a ceně 20 ojetých aut značky Octavia Combi.
a) zkonstruujte regresní model závislosti ceny auta na jeho stáří a počtu najetých km b) posuďte jeho kvalitu c) a použijte jej k odhadu ceny auta starého 6 let, které má najeto 60 tis.km