Pracovní list č. 3:
Pracujeme s kategorizovanými daty Cíl cvičení: Tento pracovní list je určen pro cvičení ke 3. a 4. přednášce předmětu Kvantitativní metody B (2.1 Třídění statistických dat a 2.2 Číselné charakteristiky statistických dat). Procvičování se orientuje na zobrazení statistických dat, stejně jako na výpočty číselných charakteristik. Během tohoto cvičení budete počítat s kalkulačkou i s programem MS Excel. Cílem cvičení je především číst a vytvářet statistiky vzniklé je dno stupňovým tříděním, pracovat s tabulkami rozdělení četností, včetně rozdělení intervalového a počítat číselně charakteristiky statistického souboru (znaku).
Předpoklady ke zvládnutí: Na tomto cvičení využijete stejně tak kalkulačku jako předem připravené soubory v Excelu. Opět si nezapomeňte ještě před začátkem cvičení stáhnout příslušný soubor a uložit na pracovní disk. Poté si nainstalujte Analytické nástroje.
1.1 Pracujeme s tabulkami četností Řešené příklady:
1
1. Neúplná tabulka četností popisuje rozdělení počtu dětí pracovníků jedné počítačové firmy. a) Doplňte tabulku o chybějící údaje. b) Určete, kolik procent rodin zaměstnanců firmy má mezi 2 a 3 dětmi. Spočítejte průměrný počet dětí c) Vyjádřete variabilitu pomocí směrodatné odchylky a variačního koeficientu. d) Porovnejte průměrný počet dětí, medián a modus. O čem to vypovídá? DĚTI
četnosti abs.
0 1 2 3 4 CELKEM
rel. 25%
kumul. četnosti abs. rel.
8 7 2 24
ad a) Tabulku doplníme o chybějící údaje: DĚTI
četnosti
kumul. četnosti abs. rel. 6 25,0% 14 58,3% 21 87,5% 23 95,8% 24 100,0%
abs. rel. 0 6 25,0% 1 8 33,3% 2 7 29,2% 3 2 8,3% 4 1 4,2% X X 100.0% CELKEM 24 ad b) Z tabulky lze přímo vyčíst, že počet dětí mezi 2 a 3 má 29,2% + 8,3% = 37,5% pracovníků firmy. ad c) Průměrný počet dětí vypočteme jako vážený aritmetický průměr:
6 ⋅ 0 + 8 ⋅1 + 7 ⋅ 2 + 2 ⋅ 3 + 1 ⋅ 4 = 1,33 24
x=
Obdobně vypočteme i rozptyl a směrodatnou odchylku:
(6 ⋅ 02 + 8 ⋅ 12 + 7 ⋅ 2 2 + 2 ⋅ 32 + 1 ⋅ 42 ) − 24 ⋅ 1,332 70 − 42,4536 = = 1,198 23 23 sx = 1,198 = 1,09 sx2 =
Nyní můžeme spočítat variační koeficient:
Vx =
sx 1,09 = = 0,82 = 82% x 1,33
Vysoká hodnota variačního koeficientu značí značnou rozptýlenost počtu dětí. Střední hodnota (průměr) tedy není výstižným ukazatelem polohy znaku na číselné ose. ad d) průměr = 1,33 medián = modus = 1 medián leží mezi 12. a 13. prvkem, modus je nejčetnější obměna lze očekávat rozdělení mírně sešikmené doprava ->převažují rodiny s malým počtem dětí
Řešte na cvičení: 2. Neúplná tabulka četností popisuje rozdělení známek ze statistiky u studentů 2. ročníku ekonomické fakulty.
2
ZNÁMKA
abs. 38 76 142 54
1 2 3 4 CELKEM a) b) c)
kumul. četnosti abs. rel.
četnosti rel.
Doplňte tabulku o chybějící údaje. Spočítejte průměrnou známku ze statistiky a vyjádřete variabilitu tohoto znaku pomocí směrodatné odchylky a variačního koeficientu. Porovnejte průměrnou známku, medián a modus. O čem to vypovídá?
3. Neúplná tabulka četností popisuje rozdělení platů 200 pracovníků jednoho zemědělského podniku. PLAT
četnosti abs.
rel. 5% 26% 21% 15% 13% 11% 6% 3%
5000 - 9999 10000 - 14999 15000 - 19999 20000 - 24999 25000 - 29999 30000 - 34999 35000 - 39999 40 000 - 44999 CELKEM a) b) c) d)
kumul. četnosti abs. rel.
Doplňte tabulku o chybějící údaje. Určete, kolik procent zaměstnanců podniku má plat mezi 20 a 30 tisíci. Spočítejte průměrný plat a vyjádřete variabilitu pomocí směrodatné odchylky a variačního koeficientu. Porovnejte průměrný plat zaměstnance, medián a modus. O čem to vypovídá?
Procvičte si doma: 4. Byla vypracována studie vývoje tělesné váhy mužů a žen ve věku 21 až 24 let. Ze studie byly uveřejněny následující výsledky: věk 21 22 23 24
muži
ženy
ni
xi
si
ni
xi
si
lil 183 105 88
72,1 73,2 73,8 74,0
7,6 8,6 8,6 8,8
313 212 93 66
60,0 60,0 60,4 60,8
8,1 7,8 7,2 7,8
Potvrďte či vyvraťte domněnku, že váha žen má menší relativní variabilitu než váha mužů. K výpočtu absolutní variability využijte analýzu rozptylu.
3
Nápověda a výsledky: 2. a) Doplněná tabulka četnosti: ZNÁMKA
1 2 3 4 CELKEM
četnosti abs. 38 76 142 54 310
rel. 12,3% 24,5% 45,8% 17,4% 100,0%
kumul. četnosti abs. rel. 38 12,3% 114 36,8% 256 82,6% 310 100,0% X
X
b) Průměrná známka ze statistiky je 2,68 se směrodatnou odchylkou 0,90; variační koeficient je 33,6%. c) Průměrná známka je 2,68, medián a modus je roven známce 3. Vztah mezi středními hodnotami nasvědčuje, že rozdělení je sešikmené doleva, tj. v souboru převažují studenti s horšími známkami. 3. a) Doplněná tabulka četnosti: PLAT
5000 - 9999 10000 - 14999 15000 - 19999 20000 - 24999 25000 - 29999 30000 - 34999 35000 - 39999 40 000 - 44999 CELKEM
četnosti abs. 10 52 42 30 26 22 12 6 200
rel. 5% 26% 21% 15% 13% 11% 6% 3% 100%
kumul. četnosti abs. rel. 10 5% 62 31% 104 52% 134 67% 160 80% 182 91% 194 97% 200 100% X
X
b) Mezi 20 a 30 tisíci má plat 28% pracovníků. c) Průměrný plat je 21 350 Kč, směrodatná odchylka 8996 Kč, variační koeficient je 42,1%. Jde o odhady, v případě variability podhodnocené. d) Odhad modu je 14 000 Kč, odhad mediánu je 19 600 Kč. Oba ukazatele jsou nižší než aritmetický průměr, což nasvědčuje rozdělení sešikmenému doprava. V souboru tedy převažují pracovníci s nižšími platy. Variační koeficient pro znak váha mužů je 11,4%, pro znak váha žen 13,1%. Váha žen má tedy o něco málo vyšší relativní variabilitu než váha mužů. Původní předpoklad se nepotvrdil.
1.2 Analyzujte tabulky četností v Excelu Procvičte si doma: 5. V tabulce na listu PLATY jsou údaje o měsíčních platech zaměstnanců jedné firmy. a) Sestrojte histogram rozdělení a posuďte základní vlastnosti rozdělení. b) Určete průměrný plat, směrodatnou odchylku, medián a modus. K výpočtům statistik použijte odhady a interpolační vzorce. Porovnejte se skutečností: průměr = 23485, směr. odchylka = 9495, medián =21650, modus = 22000. 6. V tabulce na listu ZÁVODY jsou údaje o koncernu, který se dělí na podniky a závody. a) Spočítejte pro všechny řádky tabulky počty a průměrné platy žen. b) Určete pro všechny ukazatele souhrny za jednotlivé podniky a za celý koncern. c) Vezměte jako výchozí tabulku podniků a znovu spočítejte souhrnné ukazatele za celý koncern. Porovnejte! 4
1.3 Od číselných charakteristik k box plotu (opět v Excelu) V tabulce na listu STUDENTI najdete databázi se známkami studentů z matematiky a statistiky. a) Spočítejte průměrnou známku z matematiky a statistiky a odhadněte, která zkouška je na první pohled těžší. b) Spočítejte a porovnejte variabilitu obou známek. O čem to vypovídá? c) Sestrojte pro oba předměty box plot a popište, co vidíte. d) Rozdělte tabulku podle typu střední školy a spočítejte střední hodnotu a variabilitu obou známek pro jednotlivé typy škol. Poté z těchto vypočtených údajů spočítejte souhrnné údaje a porovnejte s výsledky ad a) a b).
5