Pravděpodobnost a statistika Příklady a otázky
Petr Hebák a Hana Skalská
GAUDEAMUS 2011
Autoři: prof. Ing. Petr Hebák, CSc. Autoři: prof. RNDr. Hana Skalská, CSc.
Recenzenti: doc. RNDr. Tatiana Gavalcová, CSc. Recenzenti: doc. Ing. Jiří Trešl, CSc.
ISBN 978-80-7435-140-2
OBSAH
PŘEDMLUVA ..................................................................................................... 5 KAPITOLA 1: ŘEŠENÉ PŘÍKLADY ................................................................... 7 1.1 Charakteristiky statistického souboru ........................................ 7 1.2 Počet pravděpodobnosti .......................................................... 41 1.3 Úsudky na základě náhodného výběru ................................. 115 KAPITOLA 2: POSOUZENÍ SPRÁVNOSTI VÝROKŮ .................................... 149 2.1 Charakteristiky statistického souboru .................................... 149 2.2 Náhodné jevy a jejich pravděpodobnosti ............................... 156 2.3 Diskrétní náhodné veličiny a jejich rozdělení ......................... 159 2.4 Spojité náhodné veličiny a jejich rozdělení ............................ 161 2.5 Bodové a intervalové odhady ................................................ 164 2.6 Testování statistických hypotéz ............................................. 167 2.7 Ostatní ................................................................................... 169 KAPITOLA 3: POUŽITÉ SYMBOLY A VZORCE ............................................ 173 DOPORUČENÁ LITERATURA ...................................................................... 192
Inspiration exists, but it has to find you working Pablo Picaso
Předmluva Vnímáme pravděpodobnostní a statistické myšlení jako přirozenou součást potřebných znalostí každého vzdělaného člověka. Pro absolventa vysoké školy, zaměřené na oblast společenských či technických věd, se však tato schopnost považuje (nebo aspoň měla by považovat) za naprosto samozřejmou součást (studiem či jinak) získaných celkových vědomostí. Z tohoto důvodu považujeme za hlavní cíl předkládané pomůcky co nejvíce usnadnit studentům (i ostatním zájemcům o tuto problematiku) vstupní krok do tohoto způsobu uvažování. Ze zkušeností víme, že získat pravděpodobnostní způsob myšlení jen čtením doporučené knihy nebo/i poslechem přednášek, téměř nejde. Především je nutné samostatně vyřešit dostatečný počet příkladů a konkrétních úloh. Student si při počítání příkladů postupně uvědomuje pestrost různých formulací relativně podobných zadání. Začíná pomalu vnímat existenci různých zákonitostí náhody skrytých do různých modelů a mnohých pravidel, vzorců či jiných nástrojů pravděpodobnostního počtu. Naprosto stejně má student možnost při řešení příkladů a úloh z oblasti statistického zobecňování z výběru na soubor pochopit užitečnost a způsoby využití náhodných výběrů pro tento typ úsudků. Snad se nepochybuje o tom, že statistická indukce je pro výzkum téměř všech vědních oborů velice potřebná. Navíc s využitím výběrů se každý setkává v různých šetřeních a průzkumech, někteří i v náročnějších statistických metodách, ale přesto dobře porozumět této problematice už tak snadné není. Hlavním úkolem nabídnutých skript je poskytnout studentům předmětu Pravděpodobnost a statistika dostatek jednoduchých, relativně úzce obsahově zaměřených řešených příkladů a vysvětlených správných odpovědí na různě formulované otázky (typu ANO − NE). Každý (tedy i začátečník s minimálními matematickými znalostmi), by měl zvládnout závěrečný test, ale zároveň učinit ten zmíněný první krok k získání představy o potřebě exaktního myšlení a kvantitativního způsobu uvažování. Obsahově jsou skripta rozdělena na část věnovanou popisné statistice, konkrétně popisným charakteristikám statistických souborů a jejich matematickým vlastnostem. Postupně se čtenář na příkladech seznamuje se sta-
-5-
tistickou terminologií a používanou symbolikou. Mezi obtížnější příklady patří výpočet charakteristik poměrných čísel a různé formy rozkladu rozptylu na vnitroskupinovou a meziskupinovou variabilitu. Pro agregaci i použití statistických metod je to velice potřebné, a proto takto zaměřených příkladů je více než jiných. Převládající druhou částí problematiky je pravděpodobnostní počet. Od náhodných jevů a jejich pravděpodobnosti, přes rozdělení diskrétních a spojitých náhodných veličin, až k nejpoužívanějším pravděpodobnostním modelům běžných úloh a situací. Třetí část je věnována dvěma základním typům statistických úsudků, kterými jsou odhady neznámých charakteristik souborů a testy hypotéz o těchto charakteristikách na základě na základě prostého náhodného výběru. Formálně první kapitolou jsou řešené příklady z uvedených tří oblastí pravděpodobnosti a statistiky, ve druhé jsou otázky s podrobným vysvětlením správných odpovědí a přílohou skript jsou všechny symboly a vzorce, používané v předmětu Pravděpodobnost a statistika. Jejich zařazení jsme sice zvažovali, ale považujeme je celkově za užitečné a prospěšné. Při vytváření podobného textu se lze jen velice těžko zcela vyhnout chybám, takže budeme vděčni za jakékoli připomínky. Děkujeme recenzentům a paní Ing. Olze Hebákové za laskavé přečtení a posouzení původního textu, který jsme upravili podle jejich připomínek. Listopad 2009 Petr Hebák a Hana Skalská
Dodatek ke 2. vydání Druhé opravené vydání vychází s dvouletým odstupem. Děkujeme čtenářům skript za upozornění na některé chyby, které se snažíme tímto vydáním napravit. U několika příkladů jsme upravili formulace řešení. Zvláštní poděkování patří dvěma studentkám oboru finanční management na FIM UHK Markétě Černé a Lucii Melšové, za kontrolu správnosti výsledků úloh prvého vydání a za přehledné dokumentování nalezených chyb nebo nepřesností. Srpen 2011
Autoři
-6-
1 Řešené příklady 1.1 Charakteristiky statistického souboru Příklad 1 Rozdělení ročních příjmů všech 1 000 pracovníků velké firmy (ve 100 tis. Kč) je dáno následující tabulkou rozdělení četností. Příjem ve 100 tis. Kč Počet pracovníků
2
3
4
5
6
500
300
150
40
10
Pomocí (vždy jen jedné) vhodné charakteristiky úrovně, variability, šikmosti a špičatosti popište uvedené rozdělení. Výsledky stručně komentujte. Řešení Máme k dispozici údaje o ročních příjmech všech zaměstnanců firmy (základního souboru). Pomocné výpočty ukazuje tabulka. Xk
Nk
X k Nk
X k Nk
( X k − X )2 Nk
2
500
1 000
2 000
288,800
-219,488 0
166,811
3
300
900
2 700
17,280
4,147 2
0,995
4
150
600
2 400
230,640
285,993 6
354,632
5
40
200
1 000
200,704
449,577 0
1 007,052
6
10
60
360
104,976
340,122 2
1 101,996
Součet 1 000
2 760
8 460
842,400
860,352 0
2 631,487
2
( X k − X )3 Nk
( X k − X )4 N k
Charakteristiky úrovně (polohy znaku): Aritmetický průměr
X=
1 K 2760 Xk Nk = = 2,76 (276 tis. Kč), ∑ N i =1 1000
modus Xˆ = 2, 0 (200 tis. Kč).
-7-
Stránky 8 -127 jsou odstraněny
Příklad 106 V náhodném výběru 400 domácností je 30 % domácností bezdětných, 40 % domácností s jedním dítětem a 30 % se dvěma dětmi. a) Stanovte průměr, medián, modus a směrodatnou odchylku počtu dětí ve výběru. b) V jakém intervalu můžeme odhadovat s pravděpodobností 0,95 podíl bezdětných domácností v populaci?
Řešení 0 ⋅ 120 + 1 ⋅ 160 + 2 ⋅ 120 = 1. Modus xˆ = 1 je nej400 častěji se vyskytující počet dětí v domácnosti výběru. Medián xɶ = 1 je prostřední hodnota v řadě uspořádaných hodnot výběru (v tomto případě aritmetický průměr dvou prostředních jednotek). Polovina domácností má méně než jedno nebo právě jedno dítě, polovina má jedno nebo více dětí. Výběrový rozptyl
a) Výběrový průměr x =
12 ⋅120 + 02 ⋅ 160 + 12 ⋅ 120 s (x) = ≐ 0,601 504 399 2
a výběrová směrodatná odchylka s ( x ) = 240 / 399 ≐ 0,776 dětí. b) Podíl bezdětných domácností ve výběru je 0,3. Přípustná chyba odhadu 0,3 (1 − 0,3) = 0,045, tedy 4,5%. podílu ∆0,05 ( p ) = 1,96 ⋅ 400 Podíl bezdětných domácností v populaci můžeme s pravděpodobností 0,95 očekávat v intervalu 0,3 ± 0,045, tedy v intervalu od 25,5 % do 34,5 %.
Příklad 107 Z 20 náhodně vybraných domácností jedné obce je šest domácností dvoučlenných, sedm domácností tříčlenných, čtyři domácnosti jsou čtyřčlenné a tři domácnosti jsou pětičlenné. a) Stanovte výběrový průměr počtu členů domácnosti, výběrovou směrodatnou odchylku počtu členů domácnosti a medián počtu členů domácnosti ve výběru.
- 128 -
Stránky 129 -148 jsou odstraněny
2 Posouzení správnosti výroků 2.1 Charakteristiky statistického souboru
1
Zvýšíme-li každému mzdu o 500 Kč, rozptyl mezd se nezmění.
A
Když Yi = a + Xi pro každé i = 1, 2, …, N, kde a je libovolné číslo (konstanta) a N je rozsah souboru (počet pozorování v populaci), pak pro aritmetický průměr platí, že Y = a + X a pro rozptyl platí, že Var (Y) = Var (X). Totéž platí ve výběru rozsahu n, že průměr se změní, ale variabilita hodnot (měřená rozptylem) proměnné X se nezmění, když ke každé výběrové hodnotě xi se přičte libovolné (kladné či záporné) číslo. Jde o základní vlastnosti aritmetického průměru a rozptylu, které lze snadno dokázat. 2
Pokles mzdy všech zaměstnanců o 10 % sníží rozptyl mezd o 19 %.
A
Když Yi = bXi pro každé i = 1, 2, …, N, kde b je nenulová konstanta a N je rozsah souboru (počet pozorování v populaci), pak pro aritmetický průměr platí, že Y = bX a pro rozptyl platí, že Var Y) = b2Var(X). Zde b = 0,9, takže rozptyl Var(Y) = 0,92Var(X) = 0,81Var(X). Násobíme-li všechny hodnoty x nenulovou konstantou, změní se sice stejným způsobem průměr i směrodatná odchylka hodnot y, ale rozptyl se změní o násobek druhé mocniny této konstanty. 3
Násobíme-li všechny četnosti stejným nenulovým číslem, průměr se nezmění.
A
Když Nk, Y = cNk, X, k = 1, 2, …, K, kde K je počet různých hodnot či variant proměnných X i Y, lze dokázat, že základní momentové i z nich odvozené charakteristiky se nezmění. Zde Xk = Yk takže K
Y=
∑Y N k =1 K
∑N k =1
4
k
K
k,Y
k,Y
=
∑ X cN k =1 K
k
∑ cN k =1
k,X
= X.
k,X
Modus a medián počtu nevydělávajících členů rodiny v ČR může být stejné číslo.
A
Nejčetnější hodnota (modus) může být stejné číslo jako prostřední hodnota souboru uspořádaného podle velikosti hodnot (medián). 5
Zvýšení všech hodnot X o 10 nezmění rozptyl X v tomto souboru. Viz výrok 1.
- 149 -
A
Stránky 150 - 166 jsou odstraněny
2.6 Testování statistických hypotéz
131 Hladina významnosti je pravděpodobnost správného zamítnutí H0 ve prospěch H1.
N
Hladina významnosti je pravděpodobnost chybného zamítnutí testované hypotézy H0 a značí se α. 132 Součet síly testu a pravděpodobnosti chybného přijetí testované hypotézy je jedna.
A
Síla testu je pravděpodobnost správného přijetí alternativní hypotézy a značí se 1 − β, kde β je pravděpodobnost chybného přijetí testované hypotézy. 133 Hladina významnosti je pravděpodobnost správného přijetí alternativní hypotézy.
N
Viz výrok 131 a 132. Právě toto je síla testu. 134 Hladina významnosti je pravděpodobnost chybného přijetí testované hypotézy.
N
Viz předchozí tři výroky. Toto je pravděpodobnost β. 135 Testy hypotézy o populačních charakteristikách a intervaly spolehlivosti pro tyto charakteristiky mají mnoho společného.
A
Je to pravda, ale zvláště při jednostranných testech a dvoustranných intervalech spolehlivosti (nebo naopak) je na místě velká opatrnost. Snadno totiž může dojít k chybné interpretaci výsledků. Je proto lepší nevycházet při testování hypotéz z intervalů spolehlivosti a raději dodržovat doporučený testovací postup. 136 Při testování hypotéz můžeme vždy volit hladinu významnosti.
A
Každopádně by však hladina významnosti neměla být větší než 0,1 (raději 0,05 nebo dokonce 0,01 či nižší). Oblíbené P-hodnoty, které uvádějí statistické pakety, jsou sice pro výzkumníka výpočetní i interpretační výhoda, ale snadno může dojít k tendenci připustit i vyšší hladinu významnosti, jen aby byla testovaná hypotéza zamítnuta. Je každopádně nutné volit hladinu významnosti předem podle závažnosti zamítnutí testované hypotézy, a nikoli až podle velikosti P-hodnoty. 137 Kritický obor je interval, ve kterém se s pravděpodobností 1 − α nachází odhadovaná charakteristika populace. Výrok je nepravdivý. Kritický obor je interval hodnot testového kritéria, při kterých na zvolené hladině významnosti zamítáme testovanou hypotézu. Jinak řečeno, je-li vypočítaná hodnota testového kritéria z kritického oboru, zamítneme testovanou hypotézu na zvolené hladině významnosti.
- 167 -
N
Stránky 168 - 172 jsou odstraněny
3 Použité symboly a vzorce
Symbolika X
Proměnná (ve statistice), náhodná veličina (v počtu pravděpodobnosti).
Xi , i = 1, 2, ⋯, N
Hodnota i-tého pozorování proměnné X v populaci, kde N je rozsah (počet hodnot) v populaci.
xi , i = 1, 2,⋯, n
Hodnota i-tého pozorování proměnné X ve výběru, kde n je rozsah (počet hodnot) ve výběru.
x
Hodnota náhodné veličiny X. Počet hodnot (absolutní četnost) k-té varianty (nebo skupiny hodnot) proměnné X v populaci, kde K je počet variant (nebo skupin hodnot) populace rozsahu N.
Nk , k = 1, 2, ..., K, N =
K
∑ Nk
k =1
Podíl (relativní četnost) počtu hod-not k-té varianty (nebo k-té skupiny hodnot) proměnné X v populaci rozsahu N.
N Pk = k N
Počet hodnot (absolutní četnost) k-té varianty (k-té skupiny hodnot) proměnné X ve výběru, kde K je počet variant (skupin hodnot) výběru rozsahu n.
n k , k = 1, 2, ..., K, n =
K
∑ nk
k =1
pk =
Podíl (relativní četnost) počtu hodnot k-té varianty (nebo k-té skupiny hodnot) proměnné X ve výběru rozsahu n.
nk n
- 173 -
Stránky 174 - 190 jsou odstraněny
Kritický obor velikosti alfa Oblast hodnot testového kritéria, při kterých se zamítá H0 na hladině významnosti α.
Kritický obor velikosti alfa Wα
Průměr a relativní četnost Oboustranná alternativa
{
Test H0 : X = a proti H1 : X ≠ a
Wα = u : u > u1−α 2
}
Test H 0 : P = a proti H1 : P ≠ a Levostranná alternativa Wα = {u : u < u α }
Test H0 : X ≥ a proti H1 : X < a Test H 0 : P ≥ a proti H1 : P < a Pravostranná alternativa
Wα = {u : u > u1−α }
Test H 0 : X ≤ a proti H1 : X > a Test H 0 : P ≤ a proti H1 : P > a
Rozptyl normálního rozdělení v : v < vα 2( n − 1) Wα = nebo v: v > v1−α 2( n − 1)
Oboustranná alternativa Test H 0 : σ 2 = a proti H1 : σ2 ≠ a Levostranná alternativa
{
}
{
}
Wα = v: v < vα( n − 1)
Test H 0 : σ 2 ≥ a proti H1 : σ 2 < a Pravostranná alternativa
Wα = v: v > v1−α( n − 1)
Test H 0 : σ 2 ≤ a proti H1 : σ 2 > a
- 191 -
4 Doporučená literatura 1. Hebák P., Kahounová J.: Počet pravděpodobnosti v příkladech. Informatorium, Praha, 2010 2. Hindls R., Hronová S., Seger J., Fischer J.: Statistika pro ekonomy. Professional Publishing, Praha, 2007 3. Skalská H.: Statistické metody. Elekronický kurz. https:\\www.oliva.uhk.cz, Univerzita Hradec Králové, 2006
- 192 -
Název: Pravděpodobnost a statistika Název: Příklady a otázky Autoři: prof. Ing. Petr Hebák, CSc., prof. RNDr. Hana Skalská, CSc. Sazba: Ing. Miloslav Prokeš Rok a místo vydání: 2011, Hradec Králové Vydání: druhé Náklad: 250 Vydalo nakladatelství GAUDEAMUS, Univerzita Hradec Králové jako svou 1081. publikaci. ISBN 978-80-7435-140-2
- 193 -