Poslední aktualizace: 13. prosince 2011 DOMÁCÍ ÚLOHY Pokyny k vypracování: Ke každé úloze nezapomeňte napsat alespoň krátký závěr, ve kterém shrnete, co jste zjistili. Úlohy není zapotřebí psát v TeXu či jiném editoru. Stačí, když budou čitelné. ;) Odevzdání úlohy emailem je možné pouze ve formátu pdf. Úlohy posílané emailem potvrzuji. Pokud Vám toto potvrzení nepřijde, tak to znamená, že Váš email s úlohou nedorazil. Soubory posílané emailem, prosím, pojmenujte svým jménem a číslem úlohy, např. omelka-7.pdf, omelka-7.R. V případě, že použijete netriviálním způsobem R-ko, tak se očekává, že zašlete také kód a všechny další soubory potřebné pro výpočet. Váš kód by měl fungovat bez jakýchkoliv úprav z mé strany. Pozor zejména na cesty k případným souborům, které si pomocí kódu natahujete do R-ka. DÚ č. 1 (5b) – 4. 10. 2011 do 18. 10. 2011 Ze 60 náhodně vybraných studentů bakalářského oboru obecná matematika se 6 považuje za abstinenty. Na hladině 5% otestujte proti oboustranné alternativě hypotézu, že mezi studenty tohoto oboru je 20% abstinentů. Použijte Waldův test, Raoův skórový test, test poměrem věrohodnosti a „přesnýÿ testu (použijte konzervativní i mid-p-value přístup). U každého testu také spočtěte jeho p-hodnotu. Výsledky testů porovnejte. DÚ č. 2 (5b) – 11. 10. 2011 do 25. 10. 2011 Nechť R a K jsou dva jevy a Rc a K c jejich doplňky. Dokažte, že P(K|R) P(K c |Rc ) P(R|K) P(Rc |K c ) = . P(K c |R) P(K|Rc ) P(Rc |K) P(R|K c ) DÚ č. 3 (5b) – 11. 10. 2011 do 25. 10. 2011 V devadesátých letech zorganizoval Harvard Medical Research následující studii, které se zúčastnilo 22 071 lékařů. Ti byli náhodně rozděleni na dvě skupiny. Zatímco lékaři v první skupině jednou za dva dny brali tabletku aspirinu, lékaři ve druhé skupině brali placebo. Ani jeden z lékařů nevěděl, zda ve skutečnosti bere aspirin nebo placebo. Během pětileté studie 5 z 11 034 lékařů v první skupině zemřelo na srdeční infarkt. Ve druhé skupině zemřelo na srdeční infarkt 18 z 11 037 lékařů. Můžeme prohlásit, že existuje souvislost mezi preventivním braním aspirinu a výskytem smrtelného infarktu? Můžeme tuto souvislost nějak blíže charakterizovat? Můžeme v této studii odhadnout relativní riziko? 1
2
DOMÁCÍ ÚLOHY
DÚ č. 4 (6b) – 18. 10. 2011 do 1. 11. 2011 Tabulka 1 zachycuje počet živě narozených dětí v ČR v roce 2008 dle měsíců. Můžeme na základě daných dat prohlásit, že děti se rodí rovnoměrně během roku? Výsledek testu se pokuste okomentovat. Měsíc
1
2
3
4
5
6
7
8
9
10
11
12
Počet 9905 9235 9597 9985 10446 10440 11063 10540 10312 9561 9068 9418 Tabulka 1. Počet živě narozených v ČR v roce 2008 dle měsíců.
DÚ č. 5 (6b) – 18. 10. 2011 do 1. 11. 2011 Pomocí dat z Tabulky 1 testujte hypotézu, že • v první polovině roku (tj. v měsících leden až červen) se narodí více (či méně) dětí než v druhé polovině roku (tj. v měsících červenec až prosinec), • v prvním čtvrtletí (tj. v měsících leden až březen) se narodí více (či méně) dětí než v druhém čtvrtlení (tj. v měsících duben až červen).
DÚ č. 6 (6b) – 25. 10. 2011 do 9. 11. 2011 Nechť X1 má binomické rozdělení Bi(n1 , p1 ) a X2 má Bi(n2 , p2 ), přičemž X1 a X2 jsou nezávislé. • Najděte asymptotické rozdělení odhadu pro d = log
pˆ1 (1−ˆ p2 ) (1−ˆ p1 )ˆ p2
X1 n1
a pˆ2 =
p1 (1−p2 ) (1−p1 )p2
a tento
, kde pˆ1 =
X2 n2 .
• Pomocí předchozího výsledku sestavte 95%-ní interval spolehlivosti pro interval použijte na data z DÚ č. 3.
DÚ č. 7 (4b) – 1. 11. 2011 do 15. 11. 2011 Politická strana s názvem „Mírný pokrok v mezích zákonaÿ se rozhodla zhodnotit svou novou kampaň. Z 1 000 náhodně vybraných respondentů jich 371 odpovědělo, že ke straně mělo důvěru před kampaní a důvěra trvá i po kampani; 133 respondentů mělo důvěru před kampaní, ale po kampani ji už nemá; 98 respondentů nemělo důvěru před kampani, ale získalo ji po kampani; a konečně 398 respondentů nemělo důvěru ani před kampaní, ani po kampani. Jak byste zhodnotili kampaň? V závěrečné odpovědi je třeba použít takový jazyk, aby i politické špičky, které zpravidla nemají statistické vzdělání, rozuměli.
DOMÁCÍ ÚLOHY
3
DÚ č. 8 (6b) – 1. 11. 2011 do 15. 11. 2011 Tabulka 2 zachycuje počet předchozích těhotenství a kvalitu prenatální péče pro vybranou skupinu matek ve Washingtonu, DC, v letech 1980 až 1985. Zhodnoťte daná data. Kvalita prenatální péče Počet předch. porodů
Inadequate
Intermediate
Adequate
0
83
178
349
1
58
110
345
2
35
62
200
3
22
35
94
4 23 36 89 Tabulka 2. Prenatální péče vs. počet předchozích porodů.
DÚ č. 9 (9b) – 11. 11. 2011 do 25. 11. 2011 Tabulka 3 zachycuje rozsudky za vraždy v letech 1976 a 1987 na Floridě. Rozsudky jsou členěny dle rasy obžalovaného, rasy oběti a dle toho, zda byl či nebyl vynesen rozsudek smrti.
obžalovaný rozsudek smrti
oběť
počet
white
Yes
white
53
black
Yes
white
11
white
No
white
414
black
No
white
37
white
Yes
black
0
black
Yes
black
4
white
No
black
16
black
139
black
No Tabulka 3
(1) Najděte vhodný model pro daná data. (2) Interpretujte podmíněné poměry šancí a marginální poměry šancí pro napozorovaná data. Případné rozdíly vysvětlete. (3) Porovnejte napozorované poměry šancí (podmíněné i marginální) s odpovídajícími poměry šancí, které předpovídá model vybraný v (1).
4
DOMÁCÍ ÚLOHY
DÚ č. 10 (5b) – 8. 11. 2011 do 22. 11. 2011 Předpokládejme, že v tabulce 2 × 2 × 2 platí model párové závislosti (XY, XZ, YZ) a všechny podmíněné poměry šancí pro XY, XZ a YZ jsou větší než 1. Ukažte, že potom marginální poměr šancí XY je větší než podmíněný poměr šancí XY. DÚ č. 11 (3b) – 15. 11. 2011 do 29. 11. 2011 V datech o zaměstnání synů a otců (viz 7. cvičení) otestujte, že marginální rozdělení zaměstnaní synů ve Velké Británii a Dánsku je stejné. Obdobně testujte marginální rozdělení otců. DÚ č. 12 (13b) – 15. 11. 2011 do 29. 11. 2011 Stillbirth (porození mrtvého dítěte) se rozumí smrt plodu staršího než 20 týdnů. Dítě, které se narodí po 20 týdnu, ale do 37 týdnů se označuje jako předčasně narozené. Soubor stillbirth.csv obsahuje data o porodech v australském státě Queensland v letech 1987–1992. Kromě toho, zda se dítě narodilo mrtvé či živé, se dále sledoval pohlaví dítěte, rasa matky (bílá nebo domorodé obyvatelstvo) a gestační věk dítěte. Do souboru nejsou zahrnuty „přenošenéÿ děti, tj. děti s gestačním věkem přesahujícím 41 týdnů. Odpovězte na následující otázky: • Souvisí porození mrtvého/živého dítěte s rasou? • Souvisí porození mrtvého/živého dítěte s pohlavím dítěte? • Souvisí rasa matky s tím, zda se dítě narodilo předčasně? • Souvisí pohlaví dítěte s tím, zda se dítě narodilo předčasně? Pokud nějakou souvislost objevíte, tak ji popište. Porovnejte marginální a podmíněné poměry šancí. DÚ č. 13 (9b) – 22. 11. 2011 do 6. 12. 2011 Soubor jobsatisf.csv obsahuje data zachycuje výšku (ročního) platu, pohlaví a spokojenost zaměstnance. Najděte vhodný model pro vztah mezi spokojeností a výší platu (při zohlednění informace o pohlaví). Tento vztah popište. DÚ č. 14 (10b) – 29. 11. 2011 do 13. 12. 2011 V roce 1992 byl uskutečněn průzkum na Wright State University School of Medicine a United Health Services in Dayton v Ohio. 2276 studentů v posledním ročníku odpovídalo, zda zkusili alkohol, cigarety a marihuanu. Výsledky průzkumu jsou v souboru dayton.csv. Pomocí vhodných logitových modelů odpovězte na následující otázky: • Liší se vztah k požívání alkoholu u studentů a studentek? • Liší se vztah k požívání alkoholu u příslušníků různých ras? • Liší se vztah ke kouření u studentů a studentek?
DOMÁCÍ ÚLOHY
5
• Liší se vztah ke kouření u příslušníků různých ras? Pokud se výše uvedené vztahy liší, tak tento rozdíl popište a kvantifikujte. DÚ č. 15 (6b) – 6. 12. 2011 do 20. 12. 2011 Nechť náhodná veličina Y nabývá pouze hodnot {0, 1} a X je spojitá náhodná veličina (případně vektor). Najděte model pro logit P (Y = 1|X = x) pro následující situace: (1) X za podmínky Y = j má N (µj , σ 2 ), kde j = 1, 2; (2) X za podmínky Y = j má N (µj , σj2 ), kde j = 1, 2; (3) X za podmínky Y = j má mnohorozměrné normální rozdělení N (µj , Σ), kde j = 1, 2. DÚ č. 16 (12b) – 13. 12. 2011 do 3. 1. 2012 Soubor therapy.csv obsahuje data z klinického studie o rakovině plic. Pacienti byli náhodně rozděleni do dvou skupin, kterým se dostalo sekvenční (sequential) a střídavé (alternating) chemoterapie. Výsledek chemoterapie se dělil do čtyř skupin: progressive disease, no change, partial remission, complete remission. • Pomocí vhodného logitového modelu vyšetřete, zda se druhy chemoterapie liší svou úspěšností. Popište a interpretujte zajímavé parametry. • Pomocí vhodného logaritmicko-lineárního modelu vyšetřete, zda se druhy chemoterapie liší svou úspěšností. Popište a interpretujte zajímavé parametry. • Otázku úspěšnosti chemoterapie se pokuste ověřit také pomocí modelu základní logitové kategorie „baseline-category logit modelÿ. • Porovnejte výše uvedené modely z hlediska složitosti, „fituÿ a interpretace.