Grada Publishing, a. s., U Průhonu 22, 170 00 Praha 7 tel.: +420 234 264 401, fax: +420 234 264 400 e-mail:
[email protected], www.grada.cz
Jiří Neubauer, Marek Sedlačík, Oldřich Kříž
ZÁKLADY STATISTIKY
Publikace Základy statistiky přináší elementární poznatky z teorie statistiky a objasňuje podstatu statistického zpracování dat. Podává výklad statistiky jednoduchým způsobem, který akcentuje základy statistické práce a usuzování, přitom však přiměřeně respektuje exaktní pozadí této disciplíny. Dělá to prostřednictvím vhodně strukturovaného obsahu a vyjadřuje se jednoduchým a srozumitelným jazykem. Pozornost nevěnuje jenom třem pilířům statistiky – pravděpodobnosti, teoretickým modelům a empirickým modelům – ale především jejich vzájemnému propojení, na jehož pozadí objasňuje podstatu statistického myšlení. Kniha je určena především studentům ekonomicky a technicky zaměřených fakult vysokých škol, užitečná však bude všem dalším zájemcům o statistiku. Každá kapitola je v úvodu prakticky motivována, obsahuje stručný teoretický úvod a typické vzorové řešené příklady a příklady k procvičení. V publikaci je statistika prezentována také jako disciplína předurčená k užití počítačů a je zde proto přímo podporována elektronickou aplikací STAT1, která pracuje v excelovském prostředí a umožňuje každému čtenáři interaktivně vnímat popsané statistické metody.
říž K h ic ř ld O , lačík d e S k e r a M , ubauer
Jiří Ne
Základy
statistiky Aplikace v technických a ekonomických oborech
• • • • • •
měření a zjišťování teoretické modely empirické modely základy induktivní statistiky počítačové zpracování dat praktické užití statistiky
Základy
statistiky Aplikace v technických a ekonomických oborech
Jiří Neubauer Marek Sedlačík Oldřich Kříž
Upozornění pro čtenáře a uživatele této knihy Všechna práva vyhrazena. Žádná část této tištěné či elektronické knihy nesmí být reprodukována a šířena v papírové, elektronické či jiné podobě bez předchozího písemného souhlasu nakladatele. Neoprávněné užití této knihy bude trestně stíháno.
Jiří Neubauer, Marek Sedlačík, Oldřich Kříž
Základy statistiky
Aplikace v technických a ekonomických oborech Tiráž tištěné publikace: Vydala Grada Publishing, a.s. U Průhonu 22, Praha 7
[email protected], www.grada.cz tel.: +420 234 264 401, fax: +420 234 264 400 jako svou 4901. publikaci Odpovědný redaktor Petr Somogyi Počet stran 240 První vydání, Praha 2012 Vytiskly Tiskárny Havlíčkův Brod, a.s. © Grada Publishing, a.s., 2012 Cover Design © Grada Publishing, a.s., 2012 Názvy produktů, firem apod. použité v knize mohou být ochrannými známkami nebo registrovanými ochrannými známkami příslušných vlastníků. ISBN 978-80-247-4273-1 Tiráž ELEKTRONICKÉ publikace: ISBN 978-80-247-7063-5 (ve formátu PDF) ISBN 978-80-247-7266-0 (ve formátu EPUB)
Obsah
1
´ vod do statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . U 1.1 Historicky´ prˇehled . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Vy´znam a pojetı´ modernı´ statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Statisticka´ jednotka a statisticky´ soubor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Statisticky´ znak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11 11 17 21 24
2
Popisna´ statistika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Vyjadrˇovacı´ prostrˇedky statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Za´kladnı´ zpracova´nı´ cˇ´ıselny´ch dat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Charakteristiky polohy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Charakteristiky variability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Charakteristiky koncentrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Kompletnı´ zpracova´nı´ dat pomocı´ aplikace STAT1 . . . . . . . . . . . . . . . . . . . . . . .
29 29 32 39 45 51 54
3
Pravdeˇpodobnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Za´klady kombinatoriky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Na´hodny´ pokus a na´hodny´ jev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Pravdeˇpodobnost na´hodne´ho jevu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Klasicka´ definice pravdeˇpodobnosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Geometricka´ definice pravdeˇpodobnosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Podmı´neˇna´ pravdeˇpodobnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 Pravidlo o na´sobenı´ pravdeˇpodobnostı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 Pravidlo o scˇ´ıta´nı´ pravdeˇpodobnostı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ´ plna´ pravdeˇpodobnost a Bayesu˚v vzorec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9 U
59 59 63 67 68 72 75 76 79 83
4
Na´hodna´ velicˇina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Na´hodna´ velicˇina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Distribucˇnı´ funkce na´hodne´ velicˇiny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Diskre´tnı´ na´hodna´ velicˇina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Spojite´ na´hodne´ velicˇiny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87 87 88 89 93
5
6
4.5 4.6 4.7
Charakteristiky polohy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Charakteristiky variability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Charakteristiky koncentrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5
Modely rozdeˇlenı´ pravdeˇpodobnostı´ pro diskre´tnı´ na´hodne´ velicˇiny . . . . . . . . . . 107 5.1 Poissonovo rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.2 Alternativnı´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.3 Binomicke´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.4 Hypergeometricke´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6
Modely rozdeˇlenı´ pravdeˇpodobnostı´ pro spojite´ na´hodne´ velicˇiny . . . . . . . . . . . . 117 6.1 Rovnomeˇrne´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 6.2 Exponencia´lnı´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.3 Norma´lnı´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 6.4 Normovane´ norma´lnı´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.5 Logaritmicko-norma´lnı´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.6 Rozdeˇlenı´ neˇktery´ch funkcı´ na´hodny´ch velicˇin . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7
Teoreticke´ za´klady statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.1 Za´kon velky´ch cˇ´ısel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.2 Soucˇet neza´visly´ch na´hodny´ch velicˇin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 7.3 Centra´lnı´ limitnı´ veˇty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 7.4 Veˇty o norma´lnı´m rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
8
Vy´beˇrova´ sˇetrˇenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 8.1 Druhy vy´beˇrove´ho sˇetrˇenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 8.2 Na´hodny´ vy´beˇr a vy´beˇrove´ charakteristiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 8.3 Vy´beˇrova´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 8.4 Populace, vy´beˇr a statisticke´ usuzova´nı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
9
Odhady charakteristik za´kladnı´ho souboru . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 9.1 Bodove´ odhady parametru˚ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 9.2 Intervalove´ odhady parametru˚ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 9.3 Intervalove´ odhady parametru˚ norma´lnı´ho rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . 168 9.4 Intervalovy´ odhad strˇednı´ hodnoty pro vy´beˇry velke´ho rozsahu . . . . . . . . . . . . 180 9.5 Intervalovy´ odhad parametru alternativnı´ho rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . 186
10
Testova´nı´ statisticky´ch hypote´z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 10.1 Pojem hypote´zy a podstata testova´nı´ hypote´z . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 10.2 Jednovy´beˇrove´ testy hypote´z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 10.3 Dvouvy´beˇrove´ testy hypote´z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 10.4 Testy hypote´z o rozdeˇlenı´ za´kladnı´ho souboru . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
Pouzˇite´ zdroje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 Rejstrˇ´ık . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
O autorech
Mgr. Jirˇ´ı Neubauer, Ph.D. (∗ 1975) Vystudoval Prˇ´ırodoveˇdeckou fakultu Masarykovy univerzity v Brneˇ. Dizertacˇnı´ pra´ci v doktorske´m studijnı´m oboru aplikovana´ matematika obha´jil v roce 2006 na Prˇ´ırodoveˇdecke´ fakulteˇ Ostravske´ univerzity v Ostraveˇ. Od roku 2008 absolvoval odborne´ sta´zˇe postupneˇ na Institute of Statistics, Graz University of Technology, Graz, Rakousko, na Department of Statistics, Faculty of Science, University of Malta, Malta a na University of Maribor, Maribor, Slovinsko. V soucˇasne´ dobeˇ pracuje na Univerziteˇ obrany jako vedoucı´ skupiny Katedry ekonometrie. Veˇnuje se problematice analy´zy cˇasovy´ch rˇad se zameˇrˇenı´m na vı´cerozmeˇrne´ modely a detekci zmeˇn v na´hodny´ch procesech. V pedagogicke´ oblasti se veˇnuje vy´uce za´kladnı´ch statisticky´ch metod. Podı´lı´ se na rˇesˇenı´ vy´zkumny´ch projektu˚ v ra´mci sve´ specializace. Publikuje v doma´cı´ch i zahranicˇnı´ch cˇasopisech. RNDr. Marek Sedlacˇı´k, Ph.D. (∗ 1975) Vystudoval Prˇ´ırodoveˇdeckou fakultu Masarykovy univerzity v Brneˇ. Dizertacˇnı´ pra´ci ve studijnı´m oboru Obecne´ ota´zky matematiky obha´jil roce 2006 na Prˇ´ırodoveˇdecke´ fakulteˇ Masarykovy univerzity v Brneˇ, rovneˇzˇ rigoro´znı´ pra´ci v oboru Statistika a analy´za dat obha´jil na MU v Brneˇ. Od roku 2008 absolvoval odborne´ sta´zˇe postupneˇ na Institute of Statistics, Graz University of Technology, Graz, Rakousko, na Department of Statistics, Faculty of Science, University of Malta, Malta a na National University of Public Service, Budapest, Mad’arsko. V soucˇasne´ dobeˇ pracuje na Univerziteˇ obrany jako poveˇrˇeny´ vedoucı´ Katedry ekonometrie. Veˇnuje se problematice mnohorozmeˇrny´ch statisticky´ch metod se zameˇrˇenı´m na klasifikacˇnı´ techniky. Garantuje a vede vy´uku v ra´mci akreditovane´ho studia. Podı´lı´ se na rˇesˇenı´ veˇdecky´ch projektu˚ v ra´mci sve´ specializace. Publikuje v doma´cı´ch i zahranicˇnı´ch cˇasopisech. RNDr. Oldrˇich Krˇ´ızˇ (∗ 1945) Vystudoval Prˇ´ırodoveˇdeckou fakultu Palacke´ho univerzity v Olomouci. V roce 1993 absolvoval specializovane´ studium statistiky na Fakulteˇ informatiky a statistiky Vysoke´ sˇkoly ekonomicke´ v Praze a v roce 1997 absolvoval licencˇnı´ studium Pocˇ´ıtacˇove´ zpracova´nı´ dat prˇi kontrole a rˇ´ızenı´ jakosti na Fakulteˇ chemicko-technologicke´ Pardubicke´ univerzity. Od roku 2004 pu˚sobil na katedrˇe ekonometrie Fakulty ekonomiky a managementu Univerzity obrany v Brneˇ. Ve vy´zkumne´ oblasti rˇesˇil u´koly v souvislosti s distancˇnı´m vzdeˇla´va´nı´m statistiky a podı´lel se na rˇesˇenı´ projektu˚ v oblasti senzoricke´ analy´zy potravin. Publikoval v doma´cı´ch i zahranicˇnı´ch cˇasopisech. Je autorem a spoluautorem rˇady didakticky´ch titulu˚. V soucˇasne´ dobeˇ spolupracuje s katedrou externeˇ.
7
´ vodnı´ slovo recenzenta U
Kniha Za´klady statistiky, ktera´ se cˇtena´rˇi dosta´va´ do rukou, prˇedstavuje modernı´ pojetı´ za´kladnı´ho kurzu statistiky zalozˇene´ na du˚sledne´m propojenı´ popisne´ statistiky, teorie pravdeˇ´ vodnı´ kapitola podobnosti a u´vodu do matematicke´ statistiky. Ucˇebnice obsahuje 10 kapitol. U elegantneˇ shrnuje historii statistiky s na´vaznostı´ na vysveˇtlenı´ hromadny´ch jevu˚ a souvisejı´cı´ch pojmu˚. Dalsˇ´ı kapitola je veˇnova´na popisne´ statistice a kapitoly 3–6 pravdeˇpodobnostnı´mu apara´tu, ktery´ je pak du˚sledneˇ vyzˇ´ıva´n v kapitola´ch 7–10, kde se autorˇi veˇnujı´ za´kladu˚m matematicke´ statistiky, zejme´na bodovy´m odhadu˚m, intervalovy´m odhadu˚m a testova´nı´ statisticky´ch hypote´z. Jednotlive´ kapitoly jsou vzˇdy v u´vodu du˚sledneˇ prakticky motivova´ny tak, aby cˇtena´rˇ me´neˇ zbeˇhly´ v matematicke´ teorii mohl bez proble´mu˚ sledovat na´sledujı´cı´ forma´lneˇjsˇ´ı matematicky´ vy´klad. Pro usnadneˇnı´ pochopenı´ jednotlivy´ch teoreticky´ch partiı´ je vy´klad prolozˇen rˇadou ilustrativnı´ch rˇesˇeny´ch prˇ´ıkladu˚ a doplneˇn rˇadou prˇ´ıkladu˚ k procvicˇenı´. Velky´m prˇ´ınosem prˇedlozˇene´ publikace je, zˇe cˇtena´rˇi a uzˇivateli statisticky´ch metod se za´rovenˇ s ucˇebnicı´ dosta´va´ do rukou vy´pocˇetnı´ statisticka´ aplikace STAT1. Ta byla autory ucˇebnice vytvorˇena v Excelu a umozˇnˇuje bezprostrˇednı´ vy´pocˇet statisticky´ch charakteristik, bodovy´ch a intervalovy´ch odhadu˚, prova´deˇnı´ statisticky´ch testu˚ pro na´hodne´ vy´beˇry z norma´lnı´ho a asymptoticky norma´lnı´ho rozdeˇlenı´ a da´le pak umozˇnˇuje prova´deˇnı´ testu˚ dobre´ shody. Tedy vesˇkera´ statisticka´ teorie, ktera´ je v ucˇebnici popsa´na, je doplneˇna mozˇnostı´ prova´deˇt vlastnı´ statisticke´ analy´zy vcˇetneˇ graficky´ch vy´stupu˚ v excelovske´m prostrˇedı´. To je dostupne´ prakticky na kazˇde´m pocˇ´ıtacˇi. Tedy k procvicˇenı´ za´kladnı´ch statisticky´ch analy´z si cˇtena´rˇ nemusı´ porˇizovat obvykle velmi na´kladny´ statisticky´ software. Jsem prˇesveˇdcˇen, zˇe knihu Za´klady statistiky zameˇrˇenou na aplikace v ekonomicky´ch i technicky´ch oborech budou vyuzˇ´ıvat nejen studenti nematematicky´ch oboru˚, kterˇ´ı si chteˇjı´ osvojit principy statisticke´ho uvazˇova´nı´, ale take´ uzˇivatele´ za´kladnı´ch statisticky´ch metod pra´veˇ kvu˚li snadne´mu zı´ska´nı´ prˇ´ıstupu k odpovı´dajı´cı´mu softwarove´mu vybavenı´.
Doc. RNDr. Jaroslav Micha´lek, CSc. ´ stav matematiky, Fakulta strojnı´ho inzˇeny´rstvı´, Vysoke´ ucˇenı´ technicke´ v Brneˇ U
8
Prˇedmluva
Autorˇi knihy, kterou pra´veˇ drzˇ´ıte v ruce, se vy´uce statistiky na vysoke´ sˇkole veˇnujı´ jizˇ rˇadu let. Ve snaze prˇedat svoje zkusˇenosti studentu˚m, ale i dalsˇ´ım uzˇivatelu˚m statistiky, vytvorˇili prˇedlozˇeny´ text. Hlavnı´m cı´lem prˇi jeho prˇ´ıpraveˇ byla snaha podat vy´klad statistiky jednoduchy´m zpu˚sobem, ktery´ by akcentoval za´klady statisticke´ pra´ce a usuzova´nı´, prˇitom vsˇak prˇimeˇrˇeneˇ respektoval exaktnı´ pozadı´ te´to veˇdnı´ disciplı´ny. Proto je kniha vhodna´ prˇedevsˇ´ım pro studium za´kladu˚ statistiky zejme´na na fakulta´ch s ekonomicky´m nebo technicky´m zameˇrˇenı´m. Statistika je veˇdnı´ disciplı´na, ktera´ je vybudovana´ na trˇech pilı´rˇ´ıch: teorii pravdeˇpodobnosti, teorii na´hodne´ velicˇiny a popisne´ statistice. Abychom dobrˇe porozumeˇli smyslu statistiky a jejı´mu mozˇne´mu uplatneˇnı´, musı´me pochopit podstatu pravdeˇpodobnosti, nebot’ vsˇechny za´veˇry, ke ktery´m statistika svy´mi metodami a prostrˇedky dojde, neplatı´ s exaktnı´ matematickou prˇesnostı´, ale majı´ vzˇdy platnost pouze s jistou pravdeˇpodobnostı´ – hovorˇ´ı se o spolehlivosti. Slovo „pouze“ neprˇedurcˇuje statistice vy´znam mensˇ´ı nezˇ matematice, ale jiny´ nezˇ matematice. Statistika je totizˇ disciplı´na velmi prakticka´ a zaby´va´ se vsˇemi takovy´mi rea´lny´mi situacemi, ve ktery´ch se potrˇebujeme oprˇ´ıt o nezna´me´ informace. Ty jsou zjednodusˇeneˇ rˇecˇeno zatı´m skryte´ v tzv. teoreticky´ch modelech, popisujı´cı´ch tzv. na´hodne´ velicˇiny. Odkry´va´nı´ nezna´my´ch informacı´ v nejru˚zneˇjsˇ´ıch rea´lny´ch situacı´ch na´m umozˇnı´ popisna´ statistika, ktera´ pracuje s nameˇrˇeny´mi nebo zjisˇteˇny´mi daty a informace o nich shrne do tzv. empiricke´ho modelu. Na prvnı´ pohled je zrˇejme´, zˇe vyjmenovane´ pilı´rˇe tu „pravou“ statistiku jesˇteˇ netvorˇ´ı. Vztah mezi teoreticky´m a empiricky´m modelem prˇ´ımo souvisı´ s filozofiı´ statistiky. Takova´ statistika ma´ totizˇ induktivnı´ charakter a zaby´va´ se tı´m, jak odhadnout ty vlastnosti teoreticke´ho modelu, ktere´ na´s zajı´majı´ a prˇitom je nezna´me, pomocı´ modelu empiricke´ho. Vy´klad cele´ problematiky v te´to ucˇebnici je proto zalozˇen na vybudova´nı´ za´kladnı´ch pojmu˚ a vztahu˚, srozumitelne´m popisu za´kladnı´ch metod a je protka´n rˇadou rˇesˇeny´ch prˇ´ıkladu˚. Teoreticke´ za´klady se opı´rajı´ zejme´na o vlastnosti norma´lnı´ho rozdeˇlenı´ a o centra´lnı´ limitnı´ veˇtu. Potrˇeba zpracova´vat pozorova´nı´ cˇi meˇrˇenı´, shrnout data a postihnout, co rˇ´ıkajı´, zanedbat nepodstatne´ detaily a odhalit spolecˇne´ vlastnosti je prˇ´ıtomna´ v mnoha veˇdnı´ch oborech. Proto nacha´zı´ metody matematicke´ statistiky prakticke´ uplatneˇnı´ v sˇiroke´ trˇ´ıdeˇ oblastı´, prˇi rˇesˇenı´ neprˇeberne´ho mnozˇstvı´ prakticky´ch proble´mu˚. Neusta´le se proto i v textu zdu˚raznˇuje nejdu˚lezˇiteˇjsˇ´ı atribut statistiky, a tı´m je prakticka´ a rea´lna´ podoba rˇesˇeny´ch proble´mu˚.
9
10
Prˇedmluva
Soucˇa´stı´ dnesˇnı´ho modernı´ho sveˇta je uzˇitı´ vy´pocˇetnı´ techniky ve vsˇech sfe´ra´ch zˇivota. Statistika je, pra´veˇ s ohledem na pra´ci s datovy´mi mnozˇinami, prˇ´ımo prˇedurcˇena k vyuzˇitı´ pocˇ´ıtacˇu˚. Na tuto skutecˇnost reaguje i prˇ´ıstup pedagogu˚ k vy´uce statistiky na mnoha fakulta´ch. Vy´klad a rˇesˇenı´ prakticky´ch u´loh je v te´to ucˇebnici prˇ´ımo podporova´n elektronickou aplikacı´ STAT1, ktera´ pracuje v excelovske´m prostrˇedı´ a umozˇnˇuje kazˇde´mu studentovi interaktivneˇ vnı´mat popsane´ statisticke´ metody. U vybrany´ch prˇ´ıkladu˚ je pouzˇitı´ te´to aplikace podrobneˇ popsane´. Aplikaci je mozˇne´ pouzˇ´ıt i na analy´zy vlastnı´ch dat. Aplikaci STAT1 spolu se statisticky´mi tabulkami najdete na adrese http://k101.unob.cz/stat1/. ´ stavu mateRa´di bychom podeˇkovali kolegovi doc. RNDr. Jaroslavu Micha´lkovi, CSc. z U matiky FSI VUT Brno, ktery´ se ujal u´lohy lektora, knihu pozorneˇ prˇecˇetl a doporucˇil neˇkolik u´prav.
V Brneˇ 29. 6. 2012
Autorˇi
Kapitola 1
´ vod do statistiky U
Prvnı´ kapitolu te´to knihy veˇnujeme u´vodnı´mu sezna´menı´ se statistikou. Prˇedstavı´me si statistiku jako veˇdnı´ disciplı´nu, ktera´ se vyvinula z pu˚vodnı´ch staroveˇky´ch scˇ´ıta´nı´ obyvatel a majetku azˇ k soucˇasnosti. Dozvı´me se, co si vlastneˇ ma´me prˇedstavit pod pojmem statistika a jakou roli hraje statistika v modernı´ spolecˇnosti. Zacˇneme si budovat odborny´ slovnı´k a zavedeme si za´kladnı´ pojmy, abychom se v odborne´m prostrˇedı´ domluvili a take´ rozumeˇli tomu, co se kde ve „statisticke´m jazyku“ pı´sˇe cˇi mluvı´.
1.1 Historicky´ prˇehled Slovo statistika pocha´zı´ z italske´ho stato, pu˚vodneˇ s vy´znamem stav, od konce strˇedoveˇku take´ sta´tnı´ u´zemı´, resp. sta´t. Jako prvnı´ jej patrneˇ pouzˇil Girolamo Ghilini (1589–1669) v pra´ci Ristretto della civile, politica, statistica e militare scienza (Shrnutı´ civilnı´, politicke´, statisticke´ a vojenske´ veˇdy), ve ktere´ shroma´zˇdil ru˚zne´ znalosti te´ doby o sta´tu, o jeho obyvatelı´ch, zˇivoteˇ, pra´vu, obchodu i vy´robeˇ, na´bozˇenstvı´ i arma´deˇ. Prˇedevsˇ´ım v tomto smyslu se potom slovo stato rozsˇ´ırˇilo i do jiny´ch jazyku˚, naprˇ. ve tvaru state, Staat, e´tat, estato. Podneˇty pro vznik statistiky Prvnı´ historicke´ zmı´nky o cˇinnostech, ktere´ z dnesˇnı´ho pohledu prˇipomı´najı´ statistiku, pocha´zejı´ uzˇ ze staroveˇku. Za´znamy o scˇ´ıta´nı´ obyvatel a majetku mu˚zˇeme najı´t uzˇ v pı´semnostech stary´ch Babylonˇanu˚ z obdobı´ prˇed rokem 3800 prˇ. n. l. Historicky nejstarsˇ´ım smeˇrem ovlivnˇujı´cı´m take´ vznik statistiky byla existence prvnı´ch meˇstsky´ch sta´tu˚ v 3. a 2. tisı´ciletı´ prˇ. n. l. ve ˇ ecko nebo R ˇ ´ım. staroveˇky´ch civilizacı´ch, jaky´mi byly Egypt, Cˇ´ına, Mezopota´mie, Palestina, R Se vznikem meˇstsky´ch sta´tu˚ vznika´ take´ potrˇeba jejich spra´vy, se kterou jsou spojene´ nemale´ na´klady, proto se zvysˇuje vy´beˇr danı´. K urcˇenı´ jejich vy´sˇe je ale nezbytne´ mı´t cˇ´ıselne´ u´daje o u´zemı´, obyvatelstvu, zemeˇdeˇlstvı´, obchodu, rˇemeslech apod. Tyto informace se zı´ska´vajı´ zejme´na na za´kladeˇ soupisu obyvatelstva a dalsˇ´ıch sˇetrˇenı´, ktera´ majı´ z dnesˇnı´ho pohledu charakter statisticky´ch sˇetrˇenı´. Jednu z prvnı´ch zmı´nek o statisticke´m sˇetrˇenı´ nalezneme take´ v Bibli, kde je ve Stare´m za´koneˇ ve 4. knize Mojzˇ´ısˇoveˇ informace o scˇ´ıta´nı´ provedene´m Mojzˇ´ısˇem po odchodu izraelske´ho na´roda z Egypta a obsahuje konkre´tnı´ pocˇty bojovnı´ku˚, oddı´lu˚ a velitelu˚. Pozdeˇji take´ narˇ´ıdil scˇ´ıta´nı´ lidu motivovane´ vojensky kra´l David.
11
12
1.1 Historicky´ prˇehled
ˇ ´ımeˇ v 5. stoletı´ prˇ. n. l. Scˇ´ıta´nı´ meˇli na starosti Velke´ scˇ´ıta´nı´ lidu zavedli take´ ve staroveˇke´m R vysocı´ u´rˇednı´ci, nazy´vanı´ cenzorˇi. Scˇ´ıta´nı´ (cenzy) se konala kazˇdy´ch peˇt let a zjisˇt’ovaly se nejen pocˇty obyvatel a jejich majetek, ale take´ naprˇ. pocˇet otroku˚. Podobne´ pru˚zkumy se postupneˇ rozsˇirˇovaly i na dalsˇ´ı evropske´ zemeˇ azˇ do obdobı´ strˇedoveˇku. Od 16. stoletı´ byly zrˇizova´ny cı´rkevnı´ matriky, ktere´ se na dlouhou dobu staly za´kladnı´m zdrojem informacı´ o obyvatelstvu. Trˇi korˇeny statistiky Vlastnı´ termı´n statistika se zacˇal pouzˇ´ıvat azˇ v 18. stoletı´ v Neˇmecku pro oznacˇenı´ nauky o sta´tu. Tato veˇdecka´ disciplı´na se zacˇala rozvı´jet v 16. stoletı´ na univerzita´ch v Ita´lii a pozdeˇji take´ pra´veˇ v Neˇmecku, proto se jı´ rˇ´ıka´ univerzitnı´ statistika. Tehdejsˇ´ı statisticke´ studie obsahovaly prˇedevsˇ´ım u´daje o evropsky´ch sta´tech – geograficke´, politicke´, ekonomicke´ a dalsˇ´ı. Na rozdı´l od dnesˇnı´ statistiky neobsahovaly mnoho cˇ´ısel, veˇtsˇina zaznamenany´ch u´daju˚ meˇla charakter slovnı´. Jedno z prvnı´ch sta´toveˇdny´ch deˇl O vla´deˇ a spra´veˇ v ru˚zny´ch kra´lovstvı´ch a republika´ch vysˇlo v roce 1562 v Bena´tka´ch a napsal je Francesco Sansovina. Prˇesneˇ o sto let pozdeˇji uverˇejnil Ludwig von Seckendorff svou sta´toveˇdnou knihu Neˇmecky´ knı´zˇecı´ sta´t. Na jejich pra´ce navazuje nejvy´znamneˇjsˇ´ı teoretik statistiky v neˇmecke´ jazykove´ oblasti Gottfried Achenwall (1719–1772). Byl profesorem statistiky na univerziteˇ v Go¨ttingenu a autorem popula´rnı´ ucˇebnice statistiky, ktera´ byla prˇedepsa´na pro prˇedna´sˇky statistiky i na Karloveˇ univerziteˇ v Praze. V Anglii mezitı´m vznikl zcela jiny´ okruh statistiky, a to takzvana´ politicka´ aritmetika, ktera´ vycha´zela z u´daju˚ o narozenı´ch a u´mrtı´ch, a na tomto za´kladeˇ se pokousˇela pozorovat a srovna´vat informace o obyvatelstvu za delsˇ´ı cˇasove´ u´seky. Tyto pru˚zkumy vycha´zely z u´daju˚ tehdejsˇ´ıch cı´rkevnı´ch matrik a na jejich za´kladeˇ se snazˇily odvodit neˇktere´ obecneˇ platne´ za´konitosti (naprˇ. zˇe se rodı´ obecneˇ vı´ce chlapcu˚ nezˇ deˇvcˇat). Jejı´ nejvy´znamneˇjsˇ´ı prˇedstavitele´ jsou William Petty (1623–1687) a John Graunt (1620– 1674). Petty je povazˇova´n za prˇedchu˚dce modernı´ statistiky i klasicke´ politicke´ ekonomie. Jeho nejvy´znamneˇjsˇ´ı dı´lo Peˇt esejı´ o politicke´ aritmetice bylo vyda´no posmrtneˇ (1960). Graunt byl obchodnı´k a zaby´val se prˇedevsˇ´ım demografiı´. Napsal prvnı´ ucelenou demografickou studii s poneˇkud pochmurny´m na´zvem Prˇirozena´ a politicka´ pozorova´nı´ zalozˇena´ na seznamech zemrˇely´ch (1662). V 18. stoletı´ se toto zameˇrˇenı´ statistiky zacˇalo prosazovat i v Neˇmecku a obeˇ statisticke´ sˇkoly se zacˇaly vza´jemneˇ ovlivnˇovat a postupneˇ sblizˇovat. Statistika zacˇala ve veˇtsˇ´ı mı´rˇe pouzˇ´ıvat cˇ´ısla a prˇestala se zaby´vat pouze popisem sta´tnı´ch pozoruhodnostı´. Postupneˇ zacˇala pronikat i do jiny´ch veˇdecky´ch disciplı´n, aby se nakonec prosadila jako samostatna´ veˇda. Neza´visle na statistice se od 17. stoletı´ zacˇala rozvı´jet jesˇteˇ jina´ teoreticka´ disciplı´na, ktera´ vznikla jako soucˇa´st matematiky – teorie pravdeˇpodobnosti. Zatı´mco statistika zkouma´ hromadne´ jevy, teorie pravdeˇpodobnosti se naopak zaby´va´ jevy individua´lnı´mi, jedinecˇny´mi. Pravdeˇpodobnost je cha´pa´na jako cˇ´ıselne´ ohodnocenı´ sˇance – nadeˇje, zˇe sledovany´ konkre´tnı´ jev nastane. Ve skutecˇnosti vsˇak statistika a teorie pravdeˇpodobnosti prˇedstavujı´ dva pohledy na stejny´ proble´m. Kazˇdy´ hromadny´ jev je totizˇ tvorˇen jednotlivy´mi jevy individua´lnı´mi, a naopak opakova´nı´m individua´lnı´ho jevu zı´ska´me jev hromadny´. V soucˇasne´ dobeˇ nelze
1.1 Historicky´ prˇehled
13
teorii pravdeˇpodobnosti a statistiku od sebe oddeˇlit – teorie pravdeˇpodobnosti je povazˇova´na za teoreticky´ za´klad statistiky. Rozvoj teorie pravdeˇpodobnosti byl zpocˇa´tku inspirova´n hlavneˇ hazardnı´mi hrami. Za jejı´ pocˇa´tek se povazˇuje slavna´ vy´meˇna dopisu˚ mezi matematiky Blaisem Pascalem (1623– 1662) a Pierrem de Fermatem (1601–1665) zaha´jena´ roku 1654. Sˇlo jim tehdy o ota´zku, jak spravedliveˇ rozdeˇlit bank mezi hra´cˇe, jestlizˇe se´rie hazardnı´ch her musela by´t prˇedcˇasneˇ prˇerusˇena. Tehdy rozvı´jene´ teorii pravdeˇpodobnosti dnes rˇ´ıka´me klasicka´ pravdeˇpodobnost. Mezi dalsˇ´ı osobnosti, ktere´ se veˇnovali teorii pravdeˇpodobnosti, patrˇ´ı sˇvy´carsˇtı´ matematici (bratrˇi) Jacob Bernoulli (1656–1705) a Johann Bernoulli (1667–1748), francouzsˇtı´ matematici Abraham de Moivre (1667–1754), Pierre Simon de Laplace (1749–1827) a take´ Sime´on Denis Poisson (1781–1840), se ktery´m se setka´me v 5. kapitole – viz Poissonovo rozdeˇlenı´ pravdeˇpodobnosti, ktere´ je vhodne´ pro popis jevu˚ s nı´zkou pravdeˇpodobnostı´ jevu prˇi znacˇne´m rozsahu vy´beˇrove´ho souboru. Vy´znamny´ prˇ´ıspeˇvek k teorii chyb prˇedlozˇil take´ vynikajı´cı´ neˇmecky´ matematik Carl Friedrich Gauss (1777–1855), ktery´ prˇispeˇl k formulova´nı´ tzv. norma´lnı´ho rozdeˇlenı´ pravdeˇpodobnosti – viz 6. kapitola. Statistika jako nova´ veˇda Postupny´m sply´va´nı´m nauky o sta´tu, politicke´ aritmetiky a teorie pravdeˇpodobnosti vznikla v 18. a 19. stoletı´ statistika jako samostatna´ veˇdnı´ disciplı´na, ktera´ popisovala hromadne´ jevy v noveˇ vznikajı´cı´ch veˇda´ch – prˇ´ırodnı´ch, technicky´ch i ekonomicky´ch. Statistika tohoto obdobı´ se zaby´vala prˇedevsˇ´ım popisem zkoumany´ch hromadny´ch jevu˚, proto se take´ nazy´va´ popisna´ – deskriptivnı´ statistika. Metodou statisticky´ch pru˚zkumu˚ byla vycˇerpa´vajı´cı´ sˇetrˇenı´ prova´deˇna´ podle za´sady: cˇ´ım vı´ce u´daju˚ zı´ska´me, tı´m prˇesneˇjsˇ´ı budou za´veˇry. Toto pravidlo ve statistice prˇevla´dalo azˇ do konce 19. stoletı´. Vy´znamnou osobnostı´ nove´ statistiky byl belgicky´ matematik Adolphe Jacques Que´telet (1796–1874), ktery´ je zakladatelem prvnı´ho na´rodnı´ho statisticke´ho u´rˇadu (1841) v Evropeˇ. Mimo jine´ se veˇnoval rozsa´hle´mu sbeˇru dat o lidske´ populaci a prezentoval svu˚j pojem „pru˚meˇrne´ho cˇloveˇka“ jako centra´lnı´ hodnoty, kolem ktere´ se meˇrˇene´ teˇlesne´ mı´ry shlukujı´ podle Gaussovy krˇivky – viz 6. kapitola. V te´ souvislosti zavedl take´ pojem index teˇlesne´ hmotnosti pouzˇ´ıvany´ dodnes pro stanovenı´ mı´ry obezity a zna´my´ pod zkratkou BMI (body mass index). Naznacˇil tak budoucı´ smeˇrˇova´nı´ statistiky k norma´lnı´mu rozdeˇlenı´, strˇednı´ hodnoteˇ a rozptylu. Pomohl rovneˇzˇ zave´st statisticke´ techniky do kriminalistiky, pomocı´ statisticke´ analy´zy porozumeˇl Que´telet vztahu mezi zlocˇinem a ostatnı´mi sociologicky´mi faktory. Na prˇelomu 19. a 20. stoletı´ vsˇak docha´zı´ ve vy´voji statistiky k za´sadnı´ zmeˇneˇ. Zacˇala e´ra matematicke´ – induktivnı´ statistiky, ktera´ na za´kladeˇ teorie pravdeˇpodobnosti umozˇnˇuje zı´skat kvalifikovane´ za´veˇry – odhady o sledovane´m jevu i z male´ho dostupne´ho vzorku u´daju˚. Nove´ statisticke´ postupy otevrˇely mozˇnosti pro nejru˚zneˇjsˇ´ı typy pru˚zkumu˚, ve ktery´ch se z vlastnostı´ cˇa´sti usuzuje na chova´nı´ celku. Na ba´zi induktivnı´ statistiky vznikly take´ extrapolacˇnı´ – prognosticke´ metody, ktere´ na za´kladeˇ znalosti dat z minulosti umozˇnı´ vytvorˇit kvalifikovany´ odhad chova´nı´ v budoucnosti. Teˇzˇisˇteˇ rozvoje induktivnı´ statistiky se do znacˇne´ mı´ry prˇesunulo do anglo-americke´ oblasti a je spojeno prˇedevsˇ´ım se jme´nem anglicke´ho statistika sira Ronalda Aylmera Fishera (1890–1962), ktery´ sta´l u vzniku mnoha dnes obvykly´ch metod statisticke´ analy´zy. Je pova-
14
1.1 Historicky´ prˇehled
zˇova´n za zakladatele teorie pla´nova´nı´ experimentu˚ v biologicke´m a zemeˇdeˇlske´m vy´zkumu. Vy´znamny´ch vy´sledku˚ dosa´hl i dalsˇ´ı anglicky´ statistik William Sealy Gosset (1876–1937), ktery´ pracoval jako chemik v irske´m pivovaru Guinness a tam vymyslel postup, ktery´ umozˇnil prova´deˇt z maly´ch vy´beˇru˚ pouzˇitelne´ za´veˇry, prˇinejmensˇ´ım vsˇak poznat, jak posuzovat vypovı´dacı´ hodnotu takovy´ch vy´beˇru˚. Gosset se pod sva´ pru˚kopnicka´ dı´la podepisoval pseudonymem „Student“, protozˇe jeho firma mu publikova´nı´ vy´sledku˚ pod vlastnı´m jme´nem zaka´zala. Dalsˇ´ı vy´znamnı´ prˇedstavitele´ anglicke´ statisticke´ sˇkoly byli Francis Galton (1822–1911) a Charles Pearson (1857–1936), kterˇ´ı polozˇili za´klady zkouma´nı´ za´vislostı´ mezi hromadny´mi jevy. K rozvoji matematicke´ statistiky prˇispeˇli take´ rusˇtı´ matematici: Pafnutij Lvovicˇ Cˇebysˇev (1821–1894), Andrej Andrejevicˇ Markov (1856–1922) a Andrej Nikolajevicˇ Kolmogorov (1903–1987), ktery´ je povazˇova´n za zakladatele modernı´ teorie pravdeˇpodobnosti. U na´s dosa´hli pozoruhodny´ch vy´sledku˚ dveˇ osobnosti. Prvnı´m byl profesor Jaroslav Janko (1893–1965). Svou celozˇivotnı´ cˇinnostı´ velmi vy´znamneˇ prˇispeˇl k rozvoji matematickostatisticky´ch metod, k jejich nanejvy´sˇ uzˇitecˇne´mu uplatneˇnı´ ve vy´zkumu a praxi, a zapsal se tak do historie matematicke´ statistiky u na´s. Zna´ma´ jsou jeho dı´la Jak vytva´rˇ´ı statistika obrazy sveˇta a zˇivota, Za´klady statisticke´ indukce a Statisticke´ tabulky. Druhy´m je profesor Jaroslav Ha´jek (1926–1974), ktere´ho lze povazˇovat za nejvy´znamneˇjsˇ´ıho cˇeske´ho statistika v historii cˇeske´ matematiky. Jeho odborne´ aktivity byly zameˇrˇene´ na neparametricke´ statisticke´ metody. Soucˇasna´ statistika Statistika dnes prˇedstavuje veˇdnı´ disciplı´nu se sˇiroky´m prakticky´m uplatneˇnı´m. Pouzˇ´ıva´ se zejme´na jako du˚lezˇity´ na´stroj zı´ska´va´nı´ informacı´ ve verˇejny´ch sfe´ra´ch nasˇeho zˇivota, ale i jako du˚lezˇity´ na´stroj rˇesˇenı´ nejru˚zneˇjsˇ´ıch odborny´ch proble´mu˚, zejme´na technicky´ch, prˇ´ırodoveˇdny´ch, ekonomicky´ch, vojensky´ch, socia´lnı´ch. Je tomu tak proto, zˇe modernı´ statistika vyuzˇ´ıva´ vsˇech postupu˚ a metod, ktere´ beˇhem sve´ho dlouhe´ho vy´voje vytvorˇila nebo si osvojila. Pouzˇ´ıva´ jak prvky klasicke´ popisne´ statistiky, zalozˇene´ na analy´ze hromadny´ch dat, tak i prvky modernı´ matematicke´ statistiky, postavene´ na teorii pravdeˇpodobnosti. Proto statistiku vnı´ma´me nejen jako na´stroj pozna´nı´ (velky´ neprˇehledny´ soubor dat doka´zˇe nahradit neˇkolika vy´stizˇny´mi charakteristikami), ale take´ jako na´stroj rozhodova´nı´ v neurcˇitosti (na za´kladeˇ vlastnosti vzorku usuzuje na vlastnosti cele´ho souboru, poprˇ. z informacı´ o minulosti prˇedvı´da´ vy´voj v budoucnosti). Velky´ vy´znam pro rozvoj a vyuzˇitı´ statisticky´ch metod meˇl na´stup vy´pocˇetnı´ch technologiı´, zejme´na osobnı´ch pocˇ´ıtacˇu˚. Pocˇ´ıtacˇ vı´teˇzı´ nad cˇloveˇkem prˇedevsˇ´ım v teˇch u´konech, ktere´ jsou pro cˇloveˇka tradicˇneˇ nejzdlouhaveˇjsˇ´ı – trˇ´ıdeˇnı´, vyhleda´va´nı´ a vy´pocˇty s velky´m mnozˇstvı´m dat. Pocˇ´ıtacˇu˚m jsou vlastnı´ take´ mozˇnosti tabulkove´ho zpracova´nı´ a graficke´ho vyjadrˇova´nı´. Mezi nejzna´meˇjsˇ´ı profesiona´lnı´ statisticke´ programy se sˇiroky´m portfoliem metod a technik patrˇ´ı Statistica, SPSS, SAS, Statgraphics, Minitab a dalsˇ´ı, z cˇesky´ch produktu˚ QCExpert. Pro potrˇebu vy´uky statistiky vyuzˇ´ıva´ rˇada sˇkol i tabulkovy´ kalkula´tor MS Excel, ktery´ patrˇ´ı k za´kladnı´ vy´baveˇ osobnı´ho pocˇ´ıtacˇe. Nasˇe ucˇebnice bude podporovana´ jednoduchou aplikacı´ STAT1, vytvorˇenou pra´veˇ v excelovske´m prostrˇedı´. Statistika byla zpocˇa´tku vyuzˇ´ıva´na spı´sˇe ve veˇda´ch prˇ´ırodnı´ch (fyzika, chemie) a technicky´ch, v poslednı´ch letech vsˇak zaznamena´va´ u´speˇch take´ v disciplı´na´ch humanitnı´ho charakteru, naprˇ´ıklad v psychologii, sociologii, pedagogice, ale take´ v ekonomii, ktera´ pu˚-
1.1 Historicky´ prˇehled
15
vodneˇ vznikla jako veˇda socia´lnı´, beˇhem cˇasu se svy´mi metodami prˇiblı´zˇila spı´sˇe veˇda´m prˇ´ırodnı´m. K vy´razneˇjsˇ´ımu rozvoji statisticky´ch metod dosˇlo na prˇelomu 19. a 20. stoletı´, a to zejme´na dı´ky novy´m objevu˚m ve statistice (zejme´na na´stupu metod matematicke´ statistiky). To vedlo k dalsˇ´ımu prˇiblizˇova´nı´ statistiky rea´lne´mu zˇivotu a prudke´mu rozvoji aplikacı´ statistiky v nejru˚zneˇjsˇ´ıch oborech lidske´ cˇinnosti. Vznikaly tak postupneˇ specia´lnı´ statisticke´ metody, ktere´ tvorˇily za´klad specia´lnı´ch veˇdnı´ch disciplı´n. Pod na´zvem biostatistika, resp. biometrika se naprˇ. rozumı´ aplikace statistiky na biologicke´ proble´my, zatı´mco pro analy´zu chemicky´ch dat se spı´sˇe uzˇ´ıva´ termı´n chemometrie. Hlavnı´m cı´lem aplikacı´ statisticky´ch metod v biomedicı´nske´m vy´zkumu je zajistit spra´vnost a odbornost statisticke´ho vyhodnocova´nı´ dat a interpretace zı´skany´ch vy´sledku˚. Pouzˇ´ıva´nı´ pocˇ´ıtacˇu˚ k teˇmto u´cˇelu˚m je v dnesˇnı´ dobeˇ samozrˇejme´. Aplikacı´ statisticky´ch metod na ekonomicka´ a socia´lneˇ-ekonomicka´ data vznikla samostatna´ statisticka´ disciplı´na, ekonomicka´ statistika. Prˇedmeˇtem ekonomicke´ statistiky je analy´za stavu a vy´voje jevu˚ v hospoda´rˇske´ oblasti jako vy´chodiska k hospoda´rˇske´mu rozhodova´nı´ cˇi stanovenı´ hospoda´rˇske´ politiky. Na vyuzˇitı´ statisticky´ch metod je zalozˇeny´ pru˚zkum trhu, pla´nova´nı´ vy´roby, prognostika, kontrola kvality vy´roby, persona´lnı´ politika, vy´rocˇnı´ zpra´vy (urcˇene´ akciona´rˇu˚m). Jesˇteˇ k vysˇsˇ´ı kvaliteˇ ekonomicke´ analy´zy vede disciplı´na oznacˇovana´ jako ekonometrie. Ta prˇedstavuje synte´zu ekonomicke´ teorie, informatiky, matematiky a statistiky. Tato synte´za nenı´ vsˇak mechanicky´m spojenı´m ekonomicke´ analy´zy s apara´tem matematiky a statistiky, resp. elektronicky´mi prostrˇedky, ale jde o propojenı´ vza´jemneˇ se podminˇujı´cı´ch veˇdnı´ch disciplı´n. ˇ esky´ch zemı´ch Statistika v C Statistika je s historiı´ nasˇeho u´zemı´ spjata jizˇ od nepameˇti. Du˚vody jsou zcela prakticke´ a zrˇejme´. Kazˇdy´ vla´dce chteˇl mı´t prˇehled, jaky´ ma´ majetek, kolik ma´ k dispozici muzˇu˚ do vojska cˇi od kolika poddany´ch mu˚zˇe vyma´hat daneˇ. Ale du˚vody pro statisticke´ zjisˇt’ova´nı´ byly mnohdy i zcela jine´ho, huma´nneˇjsˇ´ıho ra´zu. Naprˇ´ıklad za vla´dy cı´sarˇe Rudolfa II. v roce 1583 vypukla v cˇesky´ch zemı´ch epidemie moru. V jejı´m du˚sledku bylo zaha´jeno sˇetrˇenı´ o „zdravı´ populace“, ktere´ meˇlo zmapovat vznik a rozvoj zhoubny´ch epidemiı´ a umozˇnit prˇijı´ma´nı´ vcˇasny´ch protiopatrˇenı´. Jako vy´znamny´ meznı´k lze oznacˇit datum 13. rˇ´ıjna 1753, kdy byl vyda´n patent cı´sarˇovny Marie Terezie o kazˇdorocˇnı´m scˇ´ıta´nı´ lidu. Zdokonalenı´ evidence obyvatel souviselo s rozsa´hlou reformnı´ cˇinnostı´ Marie Terezie (1717–1780), nebot’ k provedenı´ cˇetny´ch reforem bylo nutne´ zı´skat objektivnı´ informace o obyvatelstvu. Za vla´dy Marie Terezie dosˇlo take´ k reformeˇ evidence narozeny´ch a zemrˇely´ch. V te´to souvislosti byla zavedena i prvnı´ jednoducha´ statisticka´ klasifikace prˇ´ıcˇin u´mrtı´. ˇ ada Jak uzˇ vı´me, prvnı´ statisticky´ u´rˇad v Evropeˇ byl zalozˇen v roce 1841 v Belgii. R evropsky´ch zemı´ Que´teletu˚v u´rˇad na´sledovala. V roce 1897 byl zrˇ´ızen Zemsky´ statisticky´ u´rˇad Kra´lovstvı´ cˇeske´ho, ktery´ se stal prvnı´m skutecˇneˇ statisticky´m u´rˇadem na u´zemı´ dnesˇnı´ Cˇeske´ republiky. Poprve´ byla soustrˇedeˇna na jednom mı´steˇ vsˇechna statisticka´ pracovisˇteˇ, ktera´ azˇ do te´ doby pu˚sobila v ra´mci ru˚zny´ch ministerstev a dalsˇ´ıch institucı´. Brzy po vzniku samostatne´ho Cˇeskoslovenska, uzˇ v roce 1919, byl zalozˇen Sta´tnı´ u´rˇad ´ S) jako novy´ orga´n poveˇrˇeny´ celosta´tnı´mi statisticky´mi sˇetrˇenı´mi, mezi neˇzˇ statisticky´ (SU ´ rˇad se v obdobı´ mezi sveˇtovy´mi va´lkami patrˇilo jako jedno z nejdu˚lezˇiteˇjsˇ´ıch i scˇ´ıta´nı´ lidu. U
:
16
1.1 Historicky´ prˇehled
rozvı´jel, zdokonaloval a rozsˇirˇoval svoji cˇinnost. K tomu prˇispeˇlo i u´zke´ sepeˇtı´ se statistickou teoriı´. Ve 20. a 30. letech 20. stoletı´ byla te´meˇrˇ polovina kapacity statisticke´ho u´rˇadu veˇnova´na veˇdecke´ a teoreticke´ cˇinnosti. V obdobı´ 2. sveˇtove´ va´lky se cˇinnost statistiky v Cˇecha´ch a na Moraveˇ omezila a odpovı´dala va´lecˇny´m podmı´nka´m i postavenı´ nasˇeho u´zemı´. Perzekuova´na byla rˇada pracovnı´ku˚ ´ S, neˇkterˇ´ı z nich byli popraveni (naprˇ. prˇedseda u´rˇadu Dr. Jan Auerhan byl 6. 6. 1942 zaSU tcˇen gestapem a 9. 6. 1942 zastrˇelen), jinı´ zemrˇeli v nacisticky´ch veˇznicı´ch a koncentracˇnı´ch ta´borech. Bezprostrˇedneˇ po skoncˇenı´ 2. sveˇtove´ va´lky byla cˇinnost Sta´tnı´ho u´rˇadu statisticke´ho obnovena, s cı´lem vra´tit jej na prˇedva´lecˇnou u´rovenˇ. Po roce 1948 se cˇeskoslovenska´ statistika (zejme´na v ekonomicke´ oblasti) zameˇrˇovala zejme´na na u´koly na´rodohospoda´rˇske´ evidence a kontrolu plneˇnı´ pla´nu. Po pa´du komunisticke´ho rezˇimu v roce 1989 se obnovily prˇedpoklady pro budova´nı´ objektivnı´, nestranne´ a nestranicke´ sta´tnı´ statisticke´ sluzˇby. K 1. 1. 1993, se vznikem CˇR, prˇevzal ´ ) vsˇechny kompetence na´rodnı´ho statisticke´ho u´rˇadu. Jeho u´koly Cˇesky´ statisticky´ u´rˇad (CˇSU a postavenı´, stejneˇ jako za´sady a u´koly fungova´nı´ sta´tnı´ statisticke´ sluzˇby v CˇR, upravil za´kon cˇ. 89/1995 Sb., o sta´tnı´ statisticke´ sluzˇbeˇ, ktery´ byl jesˇteˇ novelizova´n k 1. 1. 2001. Jeho hlavnı´m u´kolem je shromazˇd’ovat a zverˇejnˇovat statisticke´ informace o socia´lnı´m a ekonomicke´m rozvoji Cˇeske´ republiky a obstara´vat statisticke´ informace pro potrˇeby dalsˇ´ıch orga´nu˚ sta´tnı´ ´ v Praze existujı´ krajske´ respra´vy a u´zemnı´ samospra´vy. Vedle centra´lnı´ho pracovisˇteˇ CˇSU ˇ ´ byl cˇechokanad’an Edvard prezentace ve vsˇech 14 krajsky´ch meˇstech. Prvnı´m prˇedsedou CSU Outrata (*1936). Mimo oficia´lnı´ soustavu sta´tnı´ statistiky stojı´ rˇada specializovany´ch komercˇnı´ch agentur, ktere´ se prˇedevsˇ´ım zaby´vajı´ statisticky´mi pru˚zkumy (naprˇ. marketingovy´mi) pro podnikatelske´ subjekty, ale jsou take´ poveˇrˇova´ny u´koly pro sta´tnı´ statistiku. V soucˇasnosti existujı´ orga´ny statisticke´ sluzˇby prakticky ve vsˇech zemı´ch Evropy. Jejich konkre´tnı´ podoba a struktura se vsˇak mu˚zˇe sta´t od sta´tu lisˇit, i kdyzˇ v poslednı´ dobeˇ docha´zı´ ke koordinaci sta´tnı´ch statistik v ra´mci vsˇech cˇlensky´ch i prˇidruzˇeny´ch zemı´ EU. Centra´lnı´m statisticky´m orga´nem Evropske´ unie je EUROSTAT, ktery´ ma´ sı´dlo v Lucemburku, jeho soucˇasny´m genera´lnı´m rˇeditelem je Walter Radermacher (*1952). Shromazˇd’uje statisticke´ informace o cˇlensky´ch zemı´ch Evropske´ unie, ale take´ o dalsˇ´ıch evropsky´ch zemı´ch. Sˇest strˇedoevropsky´ch zemı´ (CˇR, Mad’arsko, Polsko, Rumunsko, Slovinsko a Slovensko) spolupracuje na vy´meˇneˇ statisticky´ch informacı´ take´ prostrˇednictvı´m spolecˇne´ nadna´rodnı´ instituce CESTAT.
Prˇ´ıklady k procvicˇenı´ ´ (www.czso.cz), jaky´ 1. Zjisteˇte na stra´nka´ch CˇSU je v CˇR aktua´lnı´ pocˇet obyvatel. 2. Jaka´ instituce zabezpecˇuje v CˇR scˇ´ıta´nı´ lidu? 3. Kdy byl zalozˇeny´ Zemsky´ statisticky´ u´rˇad Kra´lovstvı´ cˇeske´ho? 4. Je mozˇne´ souhlasit s na´sledujı´cı´mi vy´roky? a) Zacˇa´tky statistiky spadajı´ do 18. stoletı´. b) Za prvopocˇa´tky statistiky lze povazˇovat za´znamy o scˇ´ıta´nı´ lidu a majetku ve staroveˇku. c) Pravdeˇpodobnost dnes prˇedstavuje neoddeˇlitelnou soucˇa´st statistiky.
d) Oznacˇenı´ deskriptivnı´ a induktivnı´ statistika prˇedstavuje z prakticke´ho pohledu tote´zˇ. e) Stav a vy´voj v ekonomicke´ oblasti sleduje disciplı´na oznacˇovana´ jako ekonometrie. f) Vrcholny´ statisticky´ u´rˇad EU je Eurostat. 5. Vyjmenujte neˇktere´ historicke´ korˇeny statistiky. Rˇesˇenı´. 2. Cˇesky´ statisticky´ u´rˇad; 3. 1897; 4. a) ne; b) ano; c) ano; d) ne; e) ne; f) ano; 5. neˇmecka´ sta´toveˇda, anglicka´ politicka´ aritmetika a teorie pravdeˇpodobnosti.
1.2 Vy´znam a pojetı´ modernı´ statistiky
17
1.2 Vy´znam a pojetı´ modernı´ statistiky V soucˇasne´ dobeˇ se pojem statistika pouzˇ´ıva´ v ru˚zny´ch vy´znamech, v ru˚zny´ch souvislostech a take´ s ohledem na ru˚zne´ prakticke´ situace. V prakticke´m zˇivoteˇ se mu˚zˇeme setkat se cˇtyrˇmi ru˚zny´mi vy´znamy, ktere´ spolu souvisı´. Statistikou se rozumı´: a) veˇdnı´ disciplı´na, ktera´ se zaby´va´ sbeˇrem, zpracova´nı´m a vyhodnocova´nı´m statisticky´ch u´daju˚, b) cˇ´ıselne´ i necˇ´ıselne´ u´daje nebo souhrn u´daju˚ o hromadny´ch jevech, c) prakticka´ cˇinnost, ktera´ vede k zı´ska´nı´ informacı´ – u´daju˚ o zkoumany´ch jevech, d) instituce, ktera´ prova´dı´ praktickou statistickou cˇinnost nebo tuto cˇinnost rˇ´ıdı´. Abychom si udeˇlali korektnı´ obra´zek o tom, co budeme pod pojmem statistika rozumeˇt a v jaky´ch souvislostech cˇi situacı´ch budeme tento pojem pouzˇ´ıvat, podı´vejme se na na´sledujı´cı´ odstavce. Hromadna´ pozorova´nı´ a hromadne´ jevy Prˇi studiu statistiky budeme vycha´zet, jak uzˇ bylo zmı´neˇno, z teorie pravdeˇpodobnosti, kterou si blı´zˇe popı´sˇeme ve 3. kapitole. Za´kladnı´m pojmem pravdeˇpodobnosti jsou tzv. na´hodne´ pokusy, tj. takove´ pokusy, jejichzˇ vy´sledky nelze prˇedem stanovit. Pro vy´sledky jednotlivy´ch na´hodny´ch pokusu˚ zavedeme oznacˇenı´ na´hodne´ jevy. Pro statisticke´ pozorova´nı´ – neˇkdy se take´ hovorˇ´ı o statisticke´m sˇetrˇenı´ – jsou typicke´ hromadne´ jevy. Prˇ´ıvlastkem hromadny´ zdu˚raznˇujeme, zˇe se statistika zaby´va´ pouze takovy´mi na´hodny´mi jevy, ktere´ se v prostoru a cˇase mohou mnohokra´t opakovat nebo se vyskytujı´ ve velke´m pocˇtu prˇ´ıpadu˚. To tedy znamena´, zˇe jevy jedinecˇne´ (neopakovatelne´) statistika do sve´ho zkouma´nı´ nezahrnuje. Hromadne´ jevy jsou tedy vy´sledky hromadny´ch pozorova´nı´, ktera´ se uskutecˇnˇujı´ v podstateˇ dveˇma zpu˚soby: a) jako vy´sledky opakovany´ch pokusu˚ – tj. za sta´ly´ch podmı´nek opakujeme na´hodny´ pokus a po kazˇde´m pokusu zaznamena´me jeho vy´sledek; naprˇ. 35× opakovaneˇ meˇrˇ´ıme koncentraci urcˇite´ la´tky v roztoku, 60× opakovaneˇ meˇrˇ´ıme hodnotu elektricke´ho proudu v obvodu, 14× opakovaneˇ meˇrˇ´ıme vzda´lenost dvou bodu˚ v tere´nu apod., b) jako vy´sledky pozorovane´ na velke´m pocˇtu jednotek – tj. na vsˇech (mnoha) jednotka´ch, ktere´ ma´me k dispozici, provedeme meˇrˇenı´ nebo zjisˇteˇnı´ hodnoty a vsˇechny takto zı´skane´ hodnoty si poznamena´me; naprˇ. zmeˇrˇ´ıme dobu reakce na jisty´ podneˇt u 15 rˇidicˇu˚, zmeˇrˇ´ıme vy´kon 23 atletu˚ ve skoku do da´lky z mı´sta, zjistı´me meˇsı´cˇnı´ prˇ´ıjem u 80 zameˇstnancu˚, zjistı´me na´zor 150 vysokosˇkola´ku˚ na bulva´rnı´ denı´k apod. Pokud jde o vyjadrˇova´nı´ vy´sledku˚ pokusu˚, hovorˇ´ıme cˇasto o obmeˇna´ch (varianta´ch). Pro statistiku je obvykle´ dvojı´ vyjadrˇova´nı´ obmeˇn – cˇ´ıselne´ a slovnı´. Naprˇ. prˇi va´zˇenı´ rohlı´ku vyja´drˇ´ıme vy´sledek, tj. hmotnost rohlı´ku, ve tvaru 47,8 g (vyja´drˇenı´ cˇ´ıselne´: 47,8), prˇi zjisˇt’ova´nı´ vy´sledku zkousˇky z ekonomie vyja´drˇ´ıme vy´sledek ve tvaru „C“ (vyja´drˇenı´ slovnı´: dobrˇe). Zpu˚sobu˚m vyjadrˇova´nı´ vy´sledku˚ na´hodny´ch pokusu˚ se ale budeme jesˇteˇ da´le veˇnovat podrobneˇji (viz podkapitola 1.4). Prˇi popisu vy´sledku˚ hromadny´ch pozorova´nı´ stojı´ za povsˇimnutı´ dveˇ jejich formy – meˇrˇenı´ a zjisˇt’ova´nı´. Prˇi meˇrˇenı´ zpravidla zı´ska´va´me vy´sledky v cˇ´ıselne´ podobeˇ jako hodnoty z meˇrˇicı´ho prˇ´ıstroje. Hodnoty jsou vyja´drˇene´ v urcˇity´ch jednotka´ch – fyzika´lnı´ch, chemicky´ch cˇi jiny´ch. V souladu s matematicky´mi a odborny´mi pravidly je lze take´ vza´jemneˇ prˇeva´deˇt. Naprˇ. prˇi meˇrˇenı´ rychlosti auta dostaneme 83,7 km/hod., prˇi meˇrˇenı´ vy´sˇky postavy novoro-
18
1.2 Vy´znam a pojetı´ modernı´ statistiky
zence dostaneme 49 cm, prˇi meˇrˇenı´ tvrdosti vody dostaneme 1,8 mmol/l, prˇi meˇrˇenı´ velikosti proudu dostaneme 12,5 mA, prˇi meˇrˇenı´ obsahu tuku v mle´ku dostaneme 1,48 g/l, atd. Vlastnı´ zpracova´nı´ cely´ch mnozˇin takovy´chto cˇ´ıselny´ch informacı´ – dat – uzˇ prova´dı´me bez jednotek (viz kapitola 2 – Popisna´ statistika). Prˇi zjisˇt’ova´nı´ zı´ska´va´me vy´sledky v cˇ´ıselne´ nebo slovnı´ podobeˇ jako hodnoty zı´skane´ z prˇedem definovane´ mnozˇiny obmeˇn. Neˇkdy take´ hovorˇ´ıme o popisu sledovany´ch objektu˚. Naprˇ. prˇi pru˚zkumu v obchodu zjistı´me pocˇet za´kaznı´ku˚ u jedne´ pokladny: 6, prˇi proveˇrˇova´nı´ sˇkolnı´ch vy´sledku˚ zjistı´me pocˇet bodu˚ z pı´semne´ho testu u jednoho studenta: 28, prˇi pru˚zkumu kvality pracı´ho pra´sˇku zjistı´me na´zor jedne´ za´kaznice: velmi dobry´, prˇi prˇedvolebnı´m pru˚zkumu zjistı´me preferenci jednoho volicˇe: strana B, atd. Zdroje statisticky´ch dat Prˇi rˇesˇenı´ konkre´tnı´ho proble´mu rea´lne´ho sveˇta se setka´me cˇasto s potrˇebou prove´st statisticke´ sˇetrˇenı´, jehozˇ vy´sledkem jsou statisticka´ data. Podle typu konkre´tnı´ho proble´mu bude zdrojem takovy´ch dat experiment, dotazova´nı´, vy´kaznictvı´, pozorova´nı´ cˇi tzv. sekunda´rnı´ data. Experimentem budeme rozumeˇt cı´leneˇ prova´deˇnou cˇinnost zpravidla za u´cˇelem oveˇrˇenı´ vlivu urcˇite´ho faktoru na zkoumany´ ukazatel. Naprˇ. budeme experimentem oveˇrˇovat vliv nove´ technologie vy´roby na jistou vlastnost vy´robku, vliv pouzˇite´ho hnojiva na objem rostlinne´ produkce, mu˚zˇeme testovat vy´robek na nove´ podmı´nky uzˇitı´, v ra´mci experimentu mu˚zˇeme sledovat chova´nı´ zkoumany´ch osob v ru˚zny´ch modelovy´ch situacı´ch apod. Dotazova´nı´ je jednoduchy´ zpu˚sob zı´ska´va´nı´ statisticky´ch dat, ktery´ se prova´dı´ pı´semneˇ (dotaznı´ky, internetove´ dotaznı´ky) nebo u´stneˇ (osobneˇ, telefonicky, ve skupina´ch). Takto je mozˇne´ zı´skat informace hromadne´ho charakteru od tzv. respondentu˚, tj. osob na´hodneˇ urcˇeny´ch k dotazova´nı´. Naprˇ. vedenı´ strˇednı´ sˇkoly mu˚zˇe prostrˇednictvı´m dotaznı´ku zı´skat informace o na´zorech na vy´uku toho cˇi onoho prˇedmeˇtu, vedenı´ podniku mu˚zˇe zı´skat informace o jazykovy´ch schopnostech svy´ch pracovnı´ku˚ apod. V neˇktery´ch prˇ´ıpadech by´va´ u´cˇelne´ dotazova´nı´ organizovat anonymneˇ. Na principu dotazova´nı´ jsou zalozˇene´ take´ tzv. ankety, ktere´ vsˇak nelze povazˇovat za reprezentativnı´ sˇetrˇenı´. Vyplneˇnı´ anketnı´ho dotaznı´ku je totizˇ naprosto dobrovolne´, proto zı´skany´ obraz o rˇesˇene´m proble´mu mu˚zˇe by´t pouze orientacˇnı´. Naprˇ. vydavatel cˇasopisu˚ se takto bude zajı´mat o za´jem cˇtena´rˇu˚ o jednotlive´ rubriky, vy´robce na´poju˚ si takto mu˚zˇe zjistit na´zory na kvalitu jeho limona´d apod. Vy´kaznictvı´ je mozˇne´ vnı´mat jako specifickou formu dotazova´nı´. Vy´kazy slouzˇ´ı ke sledo´ na va´nı´ ekonomicke´ cˇinnosti ru˚zny´ch subjektu˚. Jejich odevzda´va´nı´ a vyhodnocova´nı´ rˇ´ıdı´ CˇSU za´kladeˇ za´kona cˇ. 89/1995 Sb., podle ktere´ho majı´ ekonomicke´ subjekty tzv. zpravodajskou povinnost. Na te´to formeˇ statisticke´ho sˇetrˇenı´ se podı´lı´ take´ jednotliva´ ministerstva a jejich odborne´ orga´ny. Prˇi pozorova´nı´ se obvykle sleduje chova´nı´ lidsky´ch subjektu˚ v ru˚zny´ch situacı´ch prostrˇednictvı´m smyslu˚ – sledova´nı´, ochutna´va´nı´, posloucha´nı´, cˇicha´nı´ apod. Vy´sledek pozorova´nı´ je zpravidla subjektivnı´ a za´visı´ na osobeˇ pozorovatele a na okamzˇiku, kdy je pozorova´nı´ prova´deˇno. Naprˇ. se formou pozorova´nı´ prova´dı´ tzv. senzoricke´ analy´zy, kdy se prostrˇednictvı´m ochutna´vek hodnotı´ na´poje a potraviny. Podobneˇ lze takto hodnotit vu˚ni sledovane´ho parfe´mu. Vsˇechny vy´sˇe uvedene´ formy statisticke´ho sˇetrˇenı´ vyuzˇ´ıvaly tzv. prima´rnı´ data. V neˇktery´ch prˇ´ıpadech je mozˇne´ vyuzˇ´ıt i sekunda´rnı´ data, tj. data, ktera´ byla zı´ska´na za jiny´m
1.2 Vy´znam a pojetı´ modernı´ statistiky
19
u´cˇelem v minulosti (naprˇ´ıklad v ra´mci jine´ho pru˚zkumu). Sekunda´rnı´ data lze zı´skat z ru˚zny´ch tisˇteˇny´ch i elektronicky´ch materia´lu˚ (statisticke´ rocˇenky, firemnı´ materia´ly, novinove´ zdroje, pocˇ´ıtacˇove´ databa´ze, datove´ nosicˇe, apod.). Vztah pravdeˇpodobnosti a matematicke´ statistiky Jesˇteˇ jednou se vrat’me k pravdeˇpodobnosti. I kdyzˇ pocˇa´tky pravdeˇpodobnosti jsou spojene´ s rˇesˇenı´m cˇasto zajı´mavy´ch proble´mu˚ z oblasti hazardnı´ch her, v soucˇasne´ dobeˇ nejcˇasteˇjsˇ´ı aplikace pocˇtu pravdeˇpodobnosti smeˇrˇujı´ do oblasti statistiky. Okolo na´s existuje mnoho veˇcı´, jevu˚, uda´lostı´, ktere´ nelze prˇedvı´dat – jsou du˚sledkem na´hody. Ota´zkami na´hody a na´hodny´ch deˇju˚ se zaby´vajı´ dveˇ matematicke´ disciplı´ny: teorie pravdeˇpodobnosti a matematicka´ statistika. Teorie pravdeˇpodobnosti je matematicka´ disciplı´na, jejı´mzˇ vy´chodiskem je zkouma´nı´ na´hodny´ch pokusu˚. Prˇi na´hodne´m pokusu nenı´ vy´sledek jednoznacˇneˇ urcˇen jeho pocˇa´tecˇnı´mi podmı´nkami. Na´hodnost urcˇite´ho pokusu je teoreticky spojena s nedostatecˇnou znalostı´ teˇchto pocˇa´tecˇnı´ch podmı´nek. Na´hoda vsˇak neznamena´ subjektivnı´ neveˇdomost, nastoupenı´ kazˇde´ho na´hodne´ho jevu lze prostrˇednictvı´m matematicke´ho apara´tu1 cˇ´ıselneˇ „ocenit“, tedy prˇirˇadit mu pravdeˇpodobnost. Teorie pravdeˇpodobnosti je tedy tou cˇa´stı´ matematiky, ktera´ prˇina´sˇ´ı do zˇivota matematicky´ apara´t pro pocˇ´ıta´nı´ s na´hodny´mi uda´lostmi. Je tak teoreticky´m za´kladem pro dalsˇ´ı disciplı´ny, ktere´ s na´hodou pracujı´, jako je teorie na´hodny´ch velicˇin a matematicka´ statistika. Proto jsou uzˇitecˇne´ take´ modely ru˚zny´ch rozdeˇlenı´ pravdeˇpodobnostı´ (naprˇ. binomicky´, norma´lnı´, exponencia´lnı´ atd. – viz kapitoly 5 a 6). Matematicka´ statistika je naproti tomu veˇda, ktera´ zahrnuje studium dat vykazujı´cı´ch na´hodna´ kolı´sa´nı´, at’ uzˇ jde o data zı´skana´ pecˇliveˇ prˇipraveny´m pokusem provedeny´m pod sta´lou kontrolou experimenta´lnı´ch podmı´nek v laboratorˇi, cˇi o data pocha´zejı´cı´ prˇ´ımo z tere´nu. Statistika se tedy zaby´va´ zı´ska´va´nı´m informacı´ z empiricky´ch dat, jejı´m principem je ucˇinit na za´kladeˇ vzorku za´veˇr o celku. Prˇedpokla´da´, zˇe data obsahujı´ neprˇesnosti a nejistoty, ktere´ jsou zpu˚sobeny na´hodny´mi vlivy. Matematickou statistiku tvorˇ´ı soubor metod pro zpracova´nı´ hromadny´ch dat, v nichzˇ se za´veˇry vyvozujı´ na za´kladeˇ teorie pravdeˇpodobnosti. Pra´veˇ teˇmto u´kolu˚m statistiky (a take´ v teˇchto souvislostech) se budeme veˇnovat v dalsˇ´ıch cˇa´stech te´to ucˇebnice – viz kapitoly 7, 8, 9 a 10. Soucˇa´sti matematicke´ statistiky Jak jsme uzˇ naznacˇili, v ra´mci hromadny´ch pozorova´nı´ prova´dı´me meˇrˇenı´ nebo zjisˇt’ova´nı´ sledovane´ velicˇiny u velke´ho pocˇtu jisty´ch objektu˚. Vy´sledkem pozorova´nı´ jsou potom hromadna´ empiricka´ data, ktera´ v sobeˇ zahrnujı´ (spı´sˇe skry´vajı´) rˇadu informacı´ o sledovane´ velicˇineˇ. Tyto informace vsˇak „na prvnı´ pohled“ nejsou zrˇejme´, data totizˇ prˇedstavujı´ neusporˇa´danou, azˇ chaotickou „horu“ u´daju˚ a nelze z nich prakticky zˇa´dne´ informace vycˇ´ıst. Proto je trˇeba data nejprve zpracovat a informace v nich obsazˇene´ zı´skat. Zpracova´nı´m empiricky´ch dat se zaby´va´ popisna´ statistika (viz da´le kapitola 2). Vyuzˇ´ıva´ k tomu ru˚zne´ tabulky a grafy, ktere´ poma´hajı´ objevit vy´znamne´ vlastnosti sledovane´ velicˇiny. Hovorˇ´ıme cˇasto o tabulkove´m cˇi graficke´m vyja´drˇenı´ rozdeˇlenı´ cˇetnostı´. Neˇktere´ tabulky poskytujı´ zdrojova´ data 1
Axiomaticka´ teorie pravdeˇpodobnosti publikovana´ v roce 1933 A. N. Kolmogorovem je zalozˇena´ na teorii mı´ry, alternativnı´ bayesovska´ teorie publikovana´ v roce 1955 E. T. Jaynesem je zalozˇena´ na klasicke´ logice pro prˇ´ıpad vy´roku˚, jejichzˇ pravdivostnı´ hodnota nenı´ jen 0 nebo 1, ale lezˇ´ı mezi teˇmito hodnotami.
20
1.2 Vy´znam a pojetı´ modernı´ statistiky
pro tvorbu grafu˚. Dalsˇ´ım prostrˇedkem popisu hromadny´ch empiricky´ch dat jsou tzv. cˇ´ıselne´ charakteristiky, ktere´ vyjadrˇujı´ urcˇite´ vlastnosti sledovane´ velicˇiny jediny´m cˇ´ıslem. K urcˇenı´ takovy´ch cˇ´ısel pouzˇijeme jen elementa´rnı´ matematicke´ operace. Cı´lem popisne´ statistiky je tedy zprˇehledneˇnı´ informacı´ obsazˇeny´ch v datove´m souboru. Dalsˇ´ı soucˇa´stı´ matematicke´ statistiky jakozˇto veˇdnı´ho oboru je tzv. matematicka´ statistika v uzˇsˇ´ım slova smyslu, ktera´ se systematicky zaby´va´ (zejme´na pomocı´ teorie pravdeˇpodobnosti) matematicky´mi metodami vhodny´mi pro analy´zu statisticky´ch dat. Obecneˇ ma´ deduktivnı´ povahu, prˇedmeˇtem nasˇeho za´jmu je vzˇdy urcˇity´ celek, tzv. za´kladnı´ soubor (viz podkapitola 1.3), ale cesta, kterou se k neˇmu dostaneme, ma´ naopak vy´hradneˇ induktivnı´2 charakter. Du˚lezˇity´mi soucˇa´stmi matematicke´ statistiky jsou: a) Teorie odhadu – zaby´va´ se urcˇova´nı´m odhadu˚ nezna´my´ch parametru˚ za´kladnı´ho souboru pomocı´ hromadny´ch empiricky´ch dat zı´skany´ch na´hodny´m vy´beˇrem (viz podkapitola 8.1) a studuje ru˚zne´ prˇ´ıstupy k zı´ska´nı´ bodovy´ch a intervalovy´ch odhadu˚ (viz podkapitoly 9.1 a 9.2). b) Testova´nı´ statisticky´ch hypote´z – zaby´va´ se statisticky´mi procedurami pro oveˇrˇova´nı´ hypote´z o za´kladnı´m souboru a o srovna´va´nı´ vı´ce souboru˚ z ru˚zny´ch hledisek pomocı´ hromadny´ch dat zı´skany´ch na´hodny´m vy´beˇrem (viz kapitola 10 – Testova´nı´ statisticky´ch hypote´z). c) Statisticka´ predikce – zaby´va´ se statisticky kvalifikovany´mi odhady budoucı´ho vy´voje sledovane´ velicˇiny na za´kladeˇ jejı´ soucˇasne´ dynamiky. Na za´veˇr vy´kladu o vy´znamu a pojetı´ modernı´ statistiky jesˇteˇ prˇipojme jednu za´sadnı´ mysˇlenku. V minulosti se statistika cˇasto ztotozˇnˇovala s pouhy´m zjisˇt’ova´nı´m, sumarizacı´ a publikova´nı´m zjisˇteˇny´ch u´daju˚. V soucˇasne´ dobeˇ lze prˇedpokla´dat, zˇe modernı´ statistika ma´ vsˇechny atributy veˇdnı´ disciplı´ny schopne´ v podstatneˇ veˇtsˇ´ım meˇrˇ´ıtku respektovat potrˇeby kvalifikovany´ch rozhodovacı´ch procesu˚. Proto nezapomenˇme: statistiku nelze ztotozˇnˇovat s pouhy´m elementa´rnı´m zpracova´nı´m u´daju˚! Statistiku musı´me spojovat s ohledem na jejı´ vy´razneˇ prakticky´ charakter s sˇirokou sˇka´lou metod a technik, ktere´ umozˇnˇujı´ kvalifikovane´ rozhodova´nı´ na ba´zi kvantitativnı´ch informacı´ o prakticke´m proble´mu.
Prˇ´ıklady k procvicˇenı´ 1. Rozhodneˇte, zda je mozˇne´ definovane´ jevy povazˇovat za jevy hromadne´: a) hruby´ meˇsı´cˇnı´ prˇ´ıjem ucˇitelu˚ na strˇednı´ch sˇkola´ch v CˇR, b) pocˇet deˇtı´ v cˇesky´ch rodina´ch, c) pocˇet nezameˇstnany´ch v Jihomoravske´m kraji v za´rˇ´ı 2011, d) dennı´ trzˇba v prodejneˇ, e) pocˇet dosazˇeny´ch go´lu˚ konkre´tnı´m hra´cˇem za za´pas v hokejove´ lize 2011/2012, f) rychlost prˇipojenı´ k internetu u vlastnı´ho pocˇ´ıtacˇe. 2
2. Posud’te, jaky´m zpu˚sobem je mozˇne´ u popsane´ho veˇcne´ho proble´mu zı´skat statisticka´ data: a) vliv pouzˇite´ho krmiva na zˇive´ prˇ´ıru˚stky sledovany´ch prasat, b) dennı´ spotrˇeba vody v doma´cnosti, c) meˇsı´cˇnı´ trzˇba v soukrome´m obchodu, d) na´zor na u´rovenˇ za´kladnı´ch sluzˇeb mobilnı´ho opera´tora, e) hodnocenı´ sveˇtle´ho vy´cˇepnı´ho piva z cˇesky´ch pivovaru˚, f) vliv druhu benzı´nu na vy´kon motoru,
Prˇi induktivnı´m zpu˚sobu mysˇlenı´ nale´za´me prˇi zkouma´nı´ jednodusˇsˇ´ıch konkre´tnı´ch prˇ´ıpadu˚ pomocı´ abstrakce jejich spolecˇnou obecnou za´konitost – v induktivnı´ statistice to probı´ha´ tak, zˇe z vlastnostı´ vy´beˇrove´ho souboru budeme usuzovat na vlastnosti za´kladnı´ho souboru.
21
1.3 Statisticka´ jednotka a statisticky´ soubor
g) porovna´nı´ cenove´ hladiny v neˇkolika supermarketech. 3. Je anketa reprezentativnı´ statisticke´ sˇetrˇenı´? 4. Vyjmenujte neˇktere´ hromadne´ jevy: a) z oblasti vasˇ´ı profesnı´ cˇinnosti, b) z oblasti vasˇ´ı za´jmove´ cˇinnosti, c) z oblasti verˇejne´ho za´jmu (zdroje: noviny, rozhlas, televize, internet).
Rˇesˇenı´. 1. a) ano; b) ano; c) ne; d) ano; e) ne; f) ano; 2. a) experiment; b) pozorova´nı´; c) vy´kaznictvı´; d) dotazova´nı´; e) pozorova´nı´; f) experiment; g) pozorova´nı´; 3. nenı´.
1.3 Statisticka´ jednotka a statisticky´ soubor V podkapitole 1.2 jsme uvedli, zˇe u´kolem statistiky je prova´deˇt hromadna´ pozorova´nı´ a sledovat hromadne´ na´hodne´ jevy. Protozˇe statistika je veˇda velmi prakticka´, budeme hromadna´ pozorova´nı´ prova´deˇt na rea´lny´ch objektech nebo subjektech, ktere´ jsou z urcˇite´ho konkre´tnı´ho du˚vodu prˇedmeˇtem nasˇeho za´jmu. Pozornost proto budeme veˇnovat nejprve statisticky´m jednotka´m a jejich jednoznacˇne´mu vymezenı´, potom si vysveˇtlı´me pojmy za´kladnı´ soubor a vy´beˇrovy´ soubor. Definice 1.3.1 Jednotlive´ objekty nebo subjekty, ktere´ jsou prˇi statisticke´m zkouma´nı´ sledovane´, se nazy´vajı´ statisticke´ jednotky. Kazˇda´ statisticka´ jednotka musı´ by´t jednoznacˇneˇ vymezena, aby nemohlo dojı´t k dvojı´mu nebo jinak zkreslene´mu vy´kladu zjisˇteˇny´ch u´daju˚. Statisticke´ jednotky se vymezujı´ z hlediska: • veˇcne´ho, • prostorove´ho, • cˇasove´ho. Prˇ´ıklad 1.3.2 Statisticky´mi jednotkami mohou by´t: – osoby, le´pe rˇecˇeno jiste´ kategorie osob – novorozenci, zˇa´ci, volicˇi, zameˇstnanci podniku, du˚chodci, pacienti. . . , – veˇci a prˇedmeˇty – vy´robky, stroje, budovy. . . , – organizace – podniky, u´rˇady, sˇkoly, obce. . . , – zvı´rˇata – psi, ryby, sloni. . . , – rostliny nebo plody – psˇenice, ru˚zˇe, brˇ´ızy, jablka. . . , – uda´losti, jevy – sportovnı´ vy´kony, poruchy, meteorologicke´ jevy. . . . Prˇ´ıklad 1.3.3 Proved’te veˇcne´, prostorove´ a cˇasove´ vymezenı´ teˇchto statisticky´ch jednotek: a) vsˇechna osobnı´ auta projı´zˇdeˇjı´cı´ v u´tery´ mezi 14. a 16. hodinou 110. km da´lnice D1 smeˇrem na Brno; b) vsˇechna deˇvcˇata ze 6. trˇ´ıd znojemsky´ch za´kladnı´ch sˇkol v cˇervnu roku 2012; c) vsˇichni kaprˇi v jihocˇeske´m rybnı´ku Bezdrev v listopadu 2010; d) vsˇechny 50gramove´ rohlı´ky z ty´dennı´ produkce pekarˇe Jecˇmı´nka v ty´dnu od 12. do 17. 3. 2012; uvazˇujme da´le, zˇe vy´roba teˇchto rohlı´ku˚ bude za nezmeˇneˇny´ch podmı´nek (stejna´ mouka, stejna´ voda, stejna´ teplota pecı´, stejna´ smeˇna. . . ) pokracˇovat i v dalsˇ´ım obdobı´; e) vsˇechny hypoteticke´ vy´sledky vy´konove´ho testu u jednoho volejbalisty – vy´skok s dohmatem odrazem snozˇmo z rozbeˇhu – v obdobı´ letnı´ tre´ninkove´ prˇ´ıpravy 2011.
22
1.3 Statisticka´ jednotka a statisticky´ soubor
Rˇesˇenı´. Vymezenı´ statisticky´ch jednotek v jednotlivy´ch prˇ´ıpadech: a) veˇcne´: osobnı´ vozy, prostorove´: 110. km da´lnice D1 smeˇr Brno, cˇasove´: konkre´tnı´ u´tery´ v dane´m 2hodinove´m intervalu, b) veˇcne´: zˇa´kyneˇ 6. trˇ´ıd, prostorove´: ZSˇ ve Znojmeˇ, cˇasove´: cˇerven 2012, c) veˇcne´: kaprˇi, prostorove´: rybnı´k Bezdrev, cˇasove´: listopad 2010, d) veˇcne´: 50gramove´ rohlı´ky, prostorove´: pekarˇstvı´ Jecˇmı´nek, cˇasove´: obdobı´ ty´dne od 12. do 17. 3. 2012, resp. obdobı´ od 19. 3. 2012 da´le, e) veˇcne´: vy´skok s dohmatem odrazem snozˇmo z rozbeˇhu, prostorove´: tre´ninkova´ hala, cˇasove´: le´to 2011. Definice 1.3.4 Mnozˇina statisticky´ch jednotek stejne´ho typu a shodne´ho vymezenı´ tvorˇ´ı statisticky´ soubor. V ra´mci statisticke´ho sˇetrˇenı´ budeme rozlisˇovat dva typy souboru˚: • za´kladnı´ soubor (populace) – mnozˇina vsˇech shodneˇ vymezeny´ch statisticky´ch jednotek, • vy´beˇrovy´ soubor (vy´beˇr, vzorek) – podmnozˇina za´kladnı´ho souboru, tedy vybrana´ cˇa´st populace. O za´kladnı´m souboru se take´ hovorˇ´ı jako o statisticke´m souboru, ktery´ je prˇedmeˇtem nasˇeho za´jmu a o jehozˇ vlastnostech se majı´ cˇinit za´veˇry. Mu˚zˇe by´t bud’ rea´lny´, pokud vsˇechny jeho statisticke´ jednotky rea´lneˇ existujı´, nebo hypoteticky´, ktery´ je sice obecneˇ definova´n, ale prˇi statisticke´m zkouma´nı´ rea´lneˇ jeho statisticke´ jednotky neexistujı´ nebo jich existuje pouze cˇa´st – viz prˇ´ıklad 1.3.5. Z charakteru za´kladnı´ho souboru bezprostrˇedneˇ vyply´va´, zˇe mu˚zˇe mı´t konecˇny´ rozsah nebo mu˚zˇe by´t nekonecˇny´. Prˇi prˇ´ıpraveˇ statisticke´ho sˇetrˇenı´ je jednı´m z nejdu˚lezˇiteˇjsˇ´ıch pozˇadavku˚ na kvalitnı´ analy´zu homogenita za´kladnı´ho souboru. Ta je z valne´ cˇa´sti zabezpecˇena´ pomocı´ shodne´ho vymezenı´ vsˇech jednotek v za´kladnı´m souboru. Je trˇeba mı´t na pameˇti, zˇe chyby ve vymezenı´ za´kladnı´ho souboru se potom prˇena´sˇ´ı na vy´beˇrovy´ soubor, se ktery´m se da´le pracuje. To vsˇak vede k nespolehlivy´m azˇ chybny´m za´veˇru˚m – viz prˇ´ıklad 1.3.6. Pocˇet jednotek za´kladnı´ho souboru je vesmeˇs velky´. Prˇipomenˇme si, zˇe v zacˇa´tcı´ch statistiky bylo cı´lem vycˇerpa´vajı´cı´ sˇetrˇenı´, neboli cely´ za´kladnı´ soubor. Azˇ teprve matematicka´ statistika prˇinesla mozˇnost prova´deˇt pouze vy´beˇrova´ sˇetrˇenı´ a namı´sto cele´ populace pracovat se vzorkem. To, zˇe se da´va´ dnes prˇednost vy´beˇrove´mu sˇetrˇenı´ prˇed vycˇerpa´vajı´cı´m sˇetrˇenı´m, ma´ hned neˇkolik du˚vodu˚: • du˚vody ekonomicke´ – vy´beˇrove´ sˇetrˇenı´ sˇetrˇ´ı cˇas i penı´ze; zejme´na u rozsa´hly´ch souboru˚ by meˇrˇenı´ nebo zjisˇt’ova´nı´ na vsˇech statisticky´ch jednotka´ch nebylo cˇasoveˇ mozˇne´ nebo by bylo velmi drahe´ (naprˇ. va´zˇenı´ 85 000 kusu˚ rohlı´ku˚), • du˚vody technicke´ – prˇi prova´deˇne´m meˇrˇenı´ se statisticka´ jednotka mu˚zˇe znehodnotit (naprˇ. prˇi degustaci masove´ konzervy se musı´ konzerva otevrˇ´ıt, cˇ´ımzˇ se znehodnotı´), • du˚vody prakticke´ – v situacı´ch, kdy je za´kladnı´ soubor zcela nebo z cˇa´sti hypoteticky´, je potom meˇrˇenı´ prakticky nemozˇne´ (naprˇ. sportovnı´ vy´kony nenı´ mozˇne´ nekonecˇneˇ mnohokra´t opakovat). S metodami porˇizova´nı´ vy´beˇrovy´ch souboru˚ se sezna´mı´me pozdeˇji (viz podkapitola 8.1). Prˇ´ıklad 1.3.5 V prˇ´ıkladu 1.3.3 jsme provedli veˇcne´, prostorove´ a cˇasove´ vymezenı´ popsany´ch statisticky´ch jednotek. Definujte ve stejny´ch situacı´ch za´kladnı´ a vy´beˇrovy´ soubor.
1.3 Statisticka´ jednotka a statisticky´ soubor
23
Rˇesˇenı´. a) Za´kladnı´ soubor: hypoteticky´ – mnozˇina vsˇech osobnı´ch vozu˚, ktere´ dany´m mı´stem v dane´ dobeˇ projı´zˇdı´ (jejich pocˇet vsˇak konkre´tneˇ stanovit prˇed meˇrˇenı´m nelze, teoreticky budeme za´kladnı´ soubor povazˇovat za nekonecˇny´), vy´beˇrovy´ soubor: naprˇ. 80 na´hodneˇ vybrany´ch vozu˚; b) za´kladnı´ soubor: rea´lny´ – mnozˇina vsˇech zˇa´kynˇ 6. trˇ´ıd na vsˇech ZSˇ ve Znojmeˇ v cˇervnu 2012 (jejich pocˇet je 345, za´kladnı´ soubor ma´ tedy rozsah konecˇny´), vy´beˇrovy´ soubor: naprˇ. 25 na´hodneˇ vybrany´ch zˇa´kynˇ; c) za´kladnı´ soubor: rea´lny´ – mnozˇina vsˇech kapru˚ v rybnı´ku Bezdrev v listopadu 2010 (jejich pocˇet rea´lneˇ stanovit nelze, z prakticky´ch du˚vodu˚ lze vsˇak prˇedpokla´dat, zˇe pocˇet je konecˇny´!), vy´beˇrovy´ soubor: naprˇ. 50 na´hodneˇ vybrany´ch kapru˚; d) za´kladnı´ soubor: rea´lny´ i hypoteticky´ – mnozˇina vsˇech rohlı´ku˚ vyrobeny´ch v pekarˇstvı´ Jecˇmı´nek v ty´dnu od 12. do 17. 3. 2012 (85 000 kusu˚) a mnozˇina dalsˇ´ıch rohlı´ku˚, jejichzˇ vy´roba bude da´le pokracˇovat (za´kladnı´ soubor je tedy nekonecˇny´), vy´beˇrovy´ soubor: naprˇ. 120 na´hodneˇ vybrany´ch kusu˚; e) za´kladnı´ soubor: hypoteticky´ – fiktivnı´ mnozˇina vsˇech mozˇny´ch vy´skoku˚ s dohmatem odrazem snozˇmo z rozbeˇhu (jejich pocˇet je mozˇne´ si pouze teoreticky prˇedstavit, rea´lneˇ neexistuje), vy´beˇrovy´ soubor: naprˇ. 10 provedeny´ch vy´skoku˚ s dohmatem beˇhem jednoho tre´ninku. Prˇ´ıklad 1.3.6 Rozhodneˇte, zda konstruovane´ za´kladnı´ soubory jsou s ohledem na sledovanou velicˇinu homogennı´ a rozhodnutı´ zdu˚vodneˇte: a) vsˇechna osobnı´ auta projı´zˇdeˇjı´cı´ 110. km da´lnice D1 v u´tery´ odpoledne ve smeˇru na Brno i na Prahu – sledovat budeme rychlost, b) vsˇichni zˇa´ci 6. trˇ´ıd znojemsky´ch za´kladnı´ch sˇkol v cˇervnu roku 2012 – sledovat budeme vy´sledky testu z fyziky a vy´kony v beˇhu na 60 m, c) vsˇichni kaprˇi v jihocˇeske´m rybnı´ku Bezdrev v listopadu 2010 a 2011 – sledovat budeme hmotnost kapra, d) vsˇechny 50gramove´ rohlı´ky z produkce pekarˇe Jecˇmı´nka v obdobı´ od 12. do 31. 3. 2012 – sledovat budeme hmotnost rohlı´ku. ˇ Resˇenı´. a) Provoz na da´lnici v obou smeˇrech je obecneˇ odlisˇny´ – za tohoto prˇedpokladu je prostorove´ vymezenı´ chybne´, za´kladnı´ soubor je tedy nehomogennı´, b) prˇi sledova´nı´ veˇdomostı´ zˇa´ku˚ ZSˇ se u chlapcu˚ a deˇvcˇat obecneˇ neocˇeka´vajı´ ru˚zne´ vy´sledky – za tohoto prˇedpokladu je veˇcne´ vymezenı´ spra´vne´, za´kladnı´ soubor je homogennı´; prˇi sledova´nı´ sportovnı´ch vy´konu˚ u chlapcu˚ a deˇvcˇat (obecneˇ u muzˇu˚ a zˇen) existujı´ biochemicke´, anatomicke´, fyziologicke´ a jine´ odlisˇnosti zdu˚vodnˇujı´cı´ ru˚zne´ sportovnı´ vy´kony – za tohoto prˇedpokladu je veˇcne´ vymezenı´ chybne´, za´kladnı´ soubor je nehomogennı´, c) podmı´nky chovu ryb ve dvou ru˚zny´ch letech obecneˇ shodne´ by´t nemohou – za tohoto prˇedpokladu je cˇasove´ vymezenı´ chybne´, za´kladnı´ soubor je nehomogennı´; rea´lne´ a smysluplne´ je vsˇak definovat dva ru˚zne´ homogennı´ za´kladnı´ soubory, v kazˇde´m roce jeden, s cı´lem porovna´nı´ hmotnosti kapru˚ v obou letech, d) uvazˇujme, zˇe vy´roba probı´ha´ v cele´m obdobı´ za zcela shodny´ch podmı´nek – za tohoto prˇedpokladu je cˇasove´ vymezenı´ spra´vne´, za´kladnı´ soubor je homogennı´.
24
1.4 Statisticky´ znak
Prˇ´ıklady k procvicˇenı´ 1. Proved’te veˇcne´, prostorove´ a cˇasove´ vymezenı´ na´sledujı´cı´ch statisticky´ch jednotek se sledovanou vlastnostı´ a posud’te, zda je za´kladnı´ soubor homogennı´: a) rychlost aut jedoucı´ch denneˇ po 15. hodineˇ v Brneˇ, ulice Provaznı´kova; b) vy´sˇka smrku˚ v oblasti Brˇeznı´k NP Sˇumava v roce 2010; c) napeˇtı´ v elektricke´ sı´ti v doma´cnostech na sı´dlisˇti Jizˇnı´ Svahy ve Zlı´neˇ v za´rˇ´ı 2011; d) vy´kon v beˇhu na 12 minut absolventu˚ Strˇednı´ policejnı´ sˇkoly v Praze v roce 2012. 2. Pro statisticke´ zjisˇt’ova´nı´ prova´deˇne´ prostrˇednictvı´m formula´rˇe urcˇete, s jaky´mi statisticky´mi jednotkami toto zjisˇt’ova´nı´ pracuje a vymezte je veˇcneˇ, prostoroveˇ a cˇasoveˇ: a) v prˇ´ıpadeˇ danˇove´ho prˇizna´nı´, b) v prˇ´ıpadeˇ povinne´ho rucˇenı´ motorove´ho vozidla. 3. Rˇesˇte na´sledujı´cı´ u´koly: a) Posud’te, zda je z pohledu statistiky prˇedmeˇtem nasˇeho za´jmu za´kladnı´ soubor nebo vy´beˇrovy´ soubor.
b) Jak musı´ by´t vymezene´ statisticke´ jednotky v za´kladnı´m souboru? Rˇesˇenı´. 1. a) Vsˇechna auta jedoucı´ dany´m mı´stem, Provaznı´kova ulice Brno, kazˇdy´ den po 15. hodineˇ, nehomogennı´ (protozˇe hustota provozu se obecneˇ kazˇdy´ den lisˇ´ı); b) vsˇechny smrky v dane´ oblasti, Brˇeznı´k, 2010, homogennı´; c) vsˇechna hypoteticka´ meˇrˇenı´ v elektricke´ sı´ti, doma´cnosti v domech na sı´dlisˇti, za´rˇ´ı 2011, homogennı´ (ale za prˇedpokladu shodne´ technologie meˇrˇenı´); d) vsˇechny hypoteticke´ vy´sledky beˇhu na 12 minut absolventu˚ SPSˇ Praha, 2012, homogennı´. ´ Olo2. a) Pla´tce daneˇ, vypocˇ´ıtana´ cˇa´stka daneˇ, FU mouc, duben 2012; b) majitel motorove´ho vozidla, vy´sˇe pojistky, CˇSOB pojisˇt’ovna, 2012. 3. a) Za´kladnı´ soubor; b) veˇcneˇ, prostoroveˇ a cˇasoveˇ shodneˇ.
1.4 Statisticky´ znak Uzˇ bylo rˇecˇeno, zˇe statistiku budeme vyuzˇ´ıvat prˇi rˇesˇenı´ konkre´tnı´ch a prakticky´ch proble´mu˚ z rea´lne´ho zˇivota. Z formulace proble´mu na´m musı´ by´t jasne´, jake´ vy´robky, osoby, zvı´rˇata, rostliny, uda´losti, organizace jsou prˇedmeˇtem nasˇeho za´jmu, ale take´ o jake´ jejich vlastnosti se budeme zajı´mat. V dalsˇ´ı cˇa´sti se tedy zameˇrˇ´ıme pra´veˇ na tyto vlastnosti, tzv. statisticke´ znaky, a to jak z pohledu jejich vyja´drˇenı´, tzv. hodnot a obmeˇn, tak take´ z pohledu statisticky´ch operacı´ s nimi. Definice 1.4.1 Vlastnosti, ktere´ u statisticky´ch jednotek budeme v ra´mci statisticke´ho sˇetrˇenı´ sledovat, nazy´va´me statisticke´ znaky neboli statisticke´ promeˇnne´. Ru˚zne´ hodnoty, ktery´ch mu˚zˇe statisticky´ znak naby´vat, nazy´va´me obmeˇny neboli varianty. Podle zpu˚sobu vyja´drˇenı´ hodnot deˇlı´me statisticke´ znaky na: • cˇ´ıselne´ – meˇrˇitelne´, • slovnı´ – kategoria´lnı´. Podle typu vztahu˚ mezi hodnotami a obmeˇnami budeme rozlisˇovat statisticke´ znaky: • metricke´ – meˇrˇitelne´, • ordina´lnı´ – porˇadove´, • nomina´lnı´ – jmenovite´. V ra´mci statisticke´ho sˇetrˇenı´ (meˇrˇenı´, pozorova´nı´) vyja´drˇ´ıme mı´ru sledovane´ vlastnosti u kazˇde´ jednotky statisticke´ho souboru prostrˇednictvı´m tzv. hodnoty statisticke´ho znaku.
1.4 Statisticky´ znak
25
Aktua´lnı´ – nameˇrˇene´ hodnoty promeˇnne´ jsou data. Pocˇet nameˇrˇeny´ch hodnot odpovı´da´ rozsahu vy´beˇrove´ho souboru. Hodnotu znaku ve smyslu vyja´drˇenı´ ru˚zne´ho stupneˇ dane´ vlastnosti oznacˇ´ıme jako obmeˇnu – variantu statisticke´ho znaku. Pocˇet obmeˇn je zpravidla mensˇ´ı, nejvy´sˇe roven rozsahu souboru. Naprˇ. k ota´zce zavedenı´ sˇkolne´ho na VSˇ se vyja´drˇilo 73 studentu˚ 1. rocˇnı´ku˚ ze 2 fakult jedne´ VSˇ: souhlası´m – 25 studentu˚, nesouhlası´m – 34 studentu˚ a je mi to jedno – 14 studentu˚; vy´sledky pru˚zkumu jsou vyja´drˇene´ 3 obmeˇnami (souhlası´m, nesouhlası´m, je mi to jedno), celkovy´ pocˇet nameˇrˇeny´ch (zjisˇteˇny´ch) hodnot je 73. Statisticke´ znaky lze klasifikovat podle neˇkolika hledisek. Prˇedevsˇ´ım se nabı´zı´ hledisko vyja´drˇenı´ hodnot znaku cˇ´ıselneˇ nebo slovneˇ. Lze-li hodnoty znaku vyja´drˇit cˇ´ıselneˇ, rozumı´ se tedy numericky, jde o znak cˇ´ıselny´ (naprˇ. pocˇet zˇa´ku˚ ve trˇ´ıdeˇ, spotrˇeba vody v doma´cnosti za rok). Pokud se hodnoty znaku vyjadrˇujı´ slovneˇ, hovorˇ´ıme o znaku slovnı´m (naprˇ. barva ocˇ´ı cˇloveˇka, druh vlastnictvı´ bytu). Slovnı´ promeˇnne´ se cˇasto oznacˇujı´ jako kategoria´lnı´. Takove´ cˇleneˇnı´ statisticky´ch znaku˚ nenı´ samou´cˇelne´, protozˇe pro cˇ´ıselne´ a slovnı´ znaky budou konkre´tnı´ statisticke´ postupy a metody vesmeˇs rozdı´lne´. Prˇi zpracova´nı´ dat hraje roli take´ to, zda data prˇedstavujı´ hodnoty znaku nespojite´ho (diskre´tnı´ho) nebo spojite´ho. Nespojite´ znaky naby´vajı´ pouze konkre´tnı´ cˇ´ıselne´ nebo slovnı´ hodnoty (naprˇ. pocˇet dvojchyb tenisty v za´pase, pocˇet vadny´ch vy´robku˚ v se´rii, sta´tnı´ prˇ´ıslusˇnost studenta VSˇ). Spojite´ statisticke´ znaky mohou naby´vat libovolny´ch hodnot v ra´mci urcˇite´ho intervalu (naprˇ. doba cˇeka´nı´ na obsluhu v restauraci, obsah tuku v mle´ku, sladkost limona´dy). Vı´ce se o vztahu mezi spojity´mi a nespojity´mi znaky dozvı´me pozdeˇji. Na tuto za´kladnı´ klasifikaci statisticky´ch znaku˚ (promeˇnny´ch) u´zce navazuje trˇ´ıdeˇnı´ podle typu vztahu˚ mezi hodnotami a obmeˇnami znaku˚. Podle tohoto krite´ria deˇlı´me promeˇnne´ na metricke´, ordina´lnı´ a nomina´lnı´. Metricke´ neboli meˇrˇitelne´ promeˇnne´ jsou takove´ promeˇnne´, ktere´ naby´vajı´ vy´hradneˇ cˇ´ıselny´ch hodnot a vyjadrˇujı´ tedy velikost meˇrˇene´ vlastnosti. Jejich dalsˇ´ı deˇlenı´ se prova´dı´ podle oboru jejich hodnot. Pokud jsou tyto hodnoty vyja´drˇene´ pouze kladny´mi cˇ´ısly (naprˇ. rychlost auta na da´lnici, vy´kon ve skoku do vy´sˇky), promeˇnnou oznacˇ´ıme jako kardina´lnı´. V cˇeske´ literaturˇe se take´ pouzˇ´ıva´ pojem pomeˇrova´ promeˇnna´. Jejı´ kazˇde´ dveˇ hodnoty lze porovna´vat jak rozdı´lem, tak i podı´lem. Je tedy mozˇne´ stanovit, o kolik jednotek je jedna hodnota veˇtsˇ´ı (event. mensˇ´ı) nezˇ druha´, a take´ kolikra´t je jedna hodnota veˇtsˇ´ı (event. mensˇ´ı) nezˇ druha´. Druhou skupinu metricky´ch promeˇnny´ch tvorˇ´ı takove´ promeˇnne´, ktere´ naby´vajı´ kladne´ i nekladne´ cˇ´ıselne´ hodnoty (naprˇ. teplota vzduchu ve ◦ C, pocˇet deˇtı´ v rodineˇ). Tyto promeˇnne´ jsou nekardina´lnı´, zpravidla se oznacˇujı´ jako intervalove´. U teˇchto promeˇnny´ch lze kazˇde´ dveˇ hodnoty porovna´vat jen rozdı´lem, lze tedy stanovit, o kolik jednotek je jedna hodnota veˇtsˇ´ı (event. mensˇ´ı) nezˇ druha´. Porovna´nı´ podı´lem nenı´ mozˇne´ zpravidla proto, zˇe mnozˇina obmeˇn obsahuje nulu. Ve statistice vsˇak rozdı´l mezi pomeˇrovou a intervalovou promeˇnnou nehraje velkou roli. Je totizˇ zrˇejme´, zˇe kazˇdou nekardina´lnı´ metrickou promeˇnnou lze vhodnou (a jednoduchou) transformacı´ prˇeve´st na promeˇnnou kardina´lnı´. To se prakticky odra´zˇ´ı v tom, zˇe pro obeˇ kategorie metricky´ch promeˇnny´ch se vesmeˇs pouzˇ´ıvajı´ shodne´ metody statisticky´ch analy´z. Rozdı´l mezi nimi se ty´ka´ azˇ prakticke´ interpretace zı´skany´ch vy´sledku˚. Prˇi zpracova´nı´ metricky´ch dat povazˇujeme veˇtsˇinou odpovı´dajı´cı´ promeˇnne´ za spojite´, jako kdyby mohly naby´vat ktere´koliv hodnoty z cˇ´ıselne´ho intervalu, i kdyzˇ prˇi prakticke´m meˇrˇenı´ tomu tak nenı´. Dokonce i u velicˇin, ktere´ principia´lneˇ spojite´ jsou, jako rozmeˇr nebo cˇas, musı´me prˇi prakticke´m meˇrˇenı´ volit konecˇnou jednotku rozlisˇenı´, takzˇe i tyto promeˇnne´
26
1.4 Statisticky´ znak
se chovajı´ navenek jako diskre´tnı´ (nespojite´). Prˇesto prˇi statisticke´m zpracova´nı´ budeme veˇtsˇinou uzˇ´ıvat pro metricke´ promeˇnne´ postupy matematicky odvozene´ pro velicˇiny spojite´. Prˇ´ıklad 1.4.2 Pomeˇrove´ znaky jsou naprˇ. cena benzinu Natural 95, vy´sˇka dospeˇle´ho muzˇe, obvod kmene javoru, de´lka kapra, hmotnost jablka dane´ odru˚dy, pocˇet zameˇstnancu˚ podniku, pocˇet cˇlenu˚ doma´cnosti atd. (Vsˇimneˇte si, zˇe u vsˇech uvedeny´ch znaku˚ prˇedstavuje obor hodnot mnozˇinu pouze kladny´ch cˇ´ısel!) Prˇ´ıklad 1.4.3 Intervalove´ znaky jsou naprˇ. pocˇet chyb v dikta´tu, chyba prˇi zaokrouhlenı´ ceny na´kupu (na cele´ Kcˇ), pocˇet prodany´ch televizoru˚ za den, vy´sˇe kapesne´ho zˇa´ka 4. trˇ´ıdy ZSˇ, rok narozenı´ apod. (U vsˇech uvedeny´ch znaku˚ obsahuje mnozˇina hodnot znaku nulu!) Ordina´lnı´ neboli porˇadove´ promeˇnne´ jsou slovnı´ (kategoria´lnı´) promeˇnne´, u jejichzˇ obmeˇn ma´ smysl jejich usporˇa´da´nı´, lze je tedy jednoznacˇneˇ serˇadit od varianty vyjadrˇujı´cı´ nejnizˇsˇ´ı u´rovenˇ sledovane´ vlastnosti azˇ do varianty s u´rovnı´ nejvysˇsˇ´ı, nebo naopak (naprˇ. dosazˇene´ vzdeˇla´nı´: za´kladnı´, strˇednı´, vysoke´). Toho se cˇasto vyuzˇ´ıva´ k tomu, zˇe slovneˇ vyja´drˇeny´m obmeˇna´m ordina´lnı´ promeˇnne´ se podle jejich porˇadı´ prˇirˇazujı´ porˇadova´ nebo jina´ cˇ´ısla (stupneˇ, body, procenta apod.), ktera´ vyjadrˇujı´ porˇadı´ slovnı´ch variant (naprˇ. sˇkolnı´ klasifikace: vy´borneˇ – 1, chvalitebneˇ – 2, dobrˇe – 3, dostatecˇneˇ – 4 a nedostatecˇneˇ – 5). Rozdı´l dvou hodnot ordina´lnı´ promeˇnne´ potom vyjadrˇuje rozdı´l v jejich porˇadı´! Proto je du˚lezˇite´ pracovat s porˇadovy´mi cˇ´ısly jako s urcˇitou formou kvantifikace teˇchto obmeˇn a zohlednˇovat skutecˇnost, zˇe nelze nikdy stejnou hodnotu u dvou ru˚zny´ch statisticky´ch jednotek povazˇovat za zcela totozˇnou (naprˇ. dva studenti byli u zkousˇky hodnoceni stupneˇm dobrˇe – z toho vsˇak nelze usoudit, zˇe oba studenti majı´ zcela shodne´ veˇdomosti). To je za´sadnı´ rozdı´l mezi porˇadovy´m a metricky´m znakem, ktery´ vyvola´va´ potrˇebu poneˇkud odlisˇny´ch metod zpracova´nı´. Prˇ´ıklad 1.4.4 Ordina´lnı´ znaky s mozˇny´m oborem hodnot: – rychlost chemicke´ reakce (+, ++, +++), – odpoveˇd’ na konkre´tnı´ ota´zku v sociologicke´m pru˚zkumu (naprosto souhlası´m, spı´sˇe souhlası´m, ma´m neutra´lnı´ postoj, spı´sˇe nesouhlası´m, naprosto nesouhlası´m), – kategorie vojensky´ch hodnostı´ v ACˇR (muzˇstvo, poddu˚stojnı´ci, rotmistrˇi, praporcˇ´ıci, nizˇsˇ´ı du˚stojnı´ci, vysˇsˇ´ı du˚stojnı´ci, genera´love´), – porˇadı´ v souteˇzˇi vy´cviku psı´ch plemen (1. porˇadı´, 2. porˇadı´, pracovnı´, nehodnoceny´), – kategorie kurˇa´ku˚ (pocˇet vykourˇeny´ch cigaret za den: do 5, do 10, do 20, nad 20). Nomina´lnı´ neboli jmenovite´ promeˇnne´ jsou slovnı´ (kategoria´lnı´) promeˇnne´, ktere´ nelze vza´jemneˇ porovna´vat, tedy u jejichzˇ obmeˇn nelze stanovit zˇa´dne´ porˇadı´. Lze pouze stanovit shodu nebo neshodu v hodnoteˇ znaku u kazˇdy´ch dvou statisticky´ch jednotek (naprˇ. druhy masa: veprˇove´, hoveˇzı´, telecı´, kurˇecı´, jine´). Neˇkdy se hodnoty nomina´lnı´ho znaku mohou vyja´drˇit take´ cˇ´ısly, nemajı´ vsˇak zˇa´dny´ kvantitativnı´ vy´znam (naprˇ. cˇ´ısla tramvajı´: 1, 6, 7 a 12). Data odpovı´dajı´cı´ hodnota´m nomina´lnı´ho znaku vzˇdy vyzˇadujı´ zpracova´nı´ specificky´mi metodami. Prˇ´ıklad 1.4.5 Nomina´lnı´ znaky s mozˇny´m oborem hodnot: – dominance ruky (prava´k, leva´k), – barva vy´robku (cˇerveny´, modry´, jiny´),
27
1.4 Statisticky´ znak
statisticke´ znaky
cˇ´ıselne´ metricke´
intervalove´
slovnı´ kategoria´lnı´
pomeˇrove´ kardina´lnı´
porˇadove´ ordina´lnı´
jmenovite´ nomina´lnı´
alternativnı´
mnozˇne´
Obr. 1.1 Klasifikace statisticky´ch znaku˚
– rodinny´ stav muzˇe (svobodny´, zˇenaty´, rozvedeny´, vdovec), – cizı´ sta´tnı´ obcˇanstvı´ (Slovensko, Polsko, Rakousko, Neˇmecko, jine´), – kategorie prˇ´ıvlastkovy´ch vı´n (kabinetnı´, pozdnı´ sbeˇr, vy´beˇr z hroznu˚, vy´beˇr z bobulı´, vy´beˇr z cibe´b, ledove´ a sla´move´). Trˇetı´m krite´riem trˇ´ıdeˇnı´ promeˇnny´ch je hledisko pocˇtu obmeˇn. Smysluplne´ je to prakticky jen pro slovnı´ promeˇnnou: pokud naby´va´ pouze dvou obmeˇn, mluvı´me o alternativnı´m znaku (naprˇ. pohlavı´: muzˇ, zˇena; odpoveˇd’na ota´zku v referendu: ano, ne), je-li pocˇet obmeˇn veˇtsˇ´ı nezˇ dveˇ, jedna´ se o znak mnozˇny´ (naprˇ. fakulty UO v Brneˇ: FEM, FVT a FVZ; dosazˇene´ vzdeˇla´nı´: ZSˇ, SSˇ, VSˇ-Bc, VSˇ-Mgr, VSˇ-Ph.D.). Z cˇisteˇ prakticky´ch du˚vodu˚, bez matematicke´ho pozadı´, se alternativnı´ promeˇnna´ neˇkdy vyjadrˇuje jako numericka´ promeˇnna´ s obmeˇnami 0 a 1. Jedna jejı´ obmeˇna se oznacˇ´ı cˇ´ıslicı´ 1 (zpravidla ta, ktera´ na´s v dane´ souvislosti vı´ce zajı´ma´) a druha´ potom cˇ´ıslicı´ 0. Hovorˇ´ı se o nulajednicˇkove´ promeˇnne´. Pro tyto promeˇnne´ je vyvinuta´ rˇada metod, ktere´ vyuzˇ´ıvajı´ pra´veˇ jiste´ho zjednodusˇenı´ prostrˇednictvı´m dvojice obmeˇn. Proto se take´ mnozˇne´ promeˇnne´ neˇkdy prˇeva´deˇjı´ na alternativnı´ promeˇnne´, a to tak, zˇe se vı´ce obmeˇn spojı´ do jedne´ varianty, ktera´ na´s s ohledem na u´cˇel zkoumane´ho proble´mu vı´ce zajı´ma´, a zby´vajı´cı´ obmeˇny se spojı´ do druhe´ obmeˇny (naprˇ. dosazˇene´ vzdeˇla´nı´: nizˇsˇ´ı = ZSˇ + SSˇ a vysˇsˇ´ı = Bc + Mgr + Ph.D.). Na alternativnı´ promeˇnnou lze, pokud je to s ohledem na zkoumany´ proble´m uzˇitecˇne´, prˇeve´st i jakoukoli metrickou promeˇnnou. Prˇi takove´ „transformaci“ meˇrˇitelne´ promeˇnne´ na promeˇnnou slovnı´ musı´me vsˇak pocˇ´ıtat s urcˇitou ztra´tou informace obsazˇene´ v pu˚vodnı´ch datech (naprˇ. hruby´ meˇsı´cˇnı´ prˇ´ıjem le´karˇu˚: vsˇechny hodnoty prˇevedeme do dvou kategoriı´, prˇ´ıjem pod a nad cˇa´stkou 35 tis. Kcˇ). Klasifikaci statisticky´ch znaku˚ je mozˇne´ zjednodusˇeneˇ vyja´drˇit sche´matem – viz obra´zek 1.1. Statisticky´ znak naby´va´ vzˇdy slovnı´ch nebo cˇ´ıselny´ch hodnot a je zjisˇt’ova´n u kazˇde´ statisticke´ jednotky statisticke´ho souboru. Jestlizˇe ve statisticke´m souboru pracujeme jen s jednı´m znakem (s jednou promeˇnnou), rˇ´ıka´me, zˇe se jedna´ o jednorozmeˇrny´ soubor. Zkouma´me-li soucˇasneˇ dva nebo vı´ce znaku˚, jde o dvourozmeˇrny´, resp. obecneˇ vı´cerozmeˇrny´ soubor (naprˇ.
28
1.4 Statisticky´ znak
prˇi sledova´nı´ vy´voje 10lety´ch deˇtı´ se zjisˇt’uje vy´sˇka a hmotnost postavy, prˇi vy´robeˇ dutinovy´ch cihel se sleduje na´sledujı´cı´ch peˇt vy´robnı´ch parametru˚: typ, skutecˇna´ de´lka, objemova´ hmotnost, vy´skyt „kveˇtu˚“ a pevnost v tlaku za sucha).
Prˇ´ıklady k procvicˇenı´ 1. Urcˇete typ na´sledujı´cı´ch cˇ´ıselny´ch znaku˚: a) tepova´ frekvence plavce po za´vodeˇ, b) pocˇet pra´ce neschopny´ch v podniku za meˇsı´c, c) pru˚tok vody v dane´m mı´steˇ rˇeky a v dane´m cˇase, d) vzda´lenost poslednı´ho golfove´ho drivu od jamky, e) zisk podniku za ty´den, 2. Urcˇete typ na´sledujı´cı´ch slovnı´ch znaku˚ a uved’te k nim mozˇny´ obor hodnot: a) intenzita bolesti, b) na´rodnost uva´deˇna´ v zˇa´dosti o pra´ci, c) stupenˇ povodnˇove´ho ohrozˇenı´, d) plavecka´ dovednost, e) velikost odeˇvu, f) dominance ruky. 3. Urcˇete typ na´sledujı´cı´ch statisticky´ch znaku˚: a) provozovany´ sport studentu˚ na VSˇ, b) celkovy´ pocˇet vyhrany´ch gemu˚ v tenisove´m za´pase, c) senzoricke´ hodnocenı´ sala´mu Vysocˇina, d) tvrdost vody (mmol/l > 0), e) registracˇnı´ znacˇka auta, f) obvod hrudnı´ku dospeˇle´ho muzˇe, g) pocˇet obdrzˇeny´ch go´lu˚ v za´pase lednı´ho hokeje.
4. Rozhodneˇte, ktera´ tvrzenı´ jsou pravdiva´: a) Statisticky´ znak, jehozˇ obmeˇny nelze usporˇa´dat, se nazy´va´ nomina´lnı´ znak. b) Metricke´ znaky rozlisˇujeme pomeˇrove´ a intervalove´. c) Alternativnı´ znak naby´va´ jednu nebo dveˇ obmeˇny. 5. Definujte konkre´tnı´ statisticke´ znaky z oblasti vasˇ´ı profesnı´, resp. za´jmove´ cˇinnosti a stanovte jejich typ a odpovı´dajı´cı´ obor hodnot: a) slovnı´ znaky, b) cˇ´ıselne´ znaky. Rˇesˇenı´. 1. a) kardina´lnı´; b) intervalovy´; c) kardina´lnı´; d) kardina´lnı´; e) intervalovy´; 2. a) ordina´lnı´ (mı´rna´, vy´razneˇjsˇ´ı, silna´, velmi silna´ zvladatelna´, velmi silna´ nezvladatelna´); b) nomina´lnı´ (cˇeska´, slovenska´, polska´, neˇmecka´, mad’arska´, jina´); c) ordina´lnı´ (1. stupenˇ – bdeˇlost, 2. stupenˇ – pohotovost, 3. stupenˇ – ohrozˇenı´); d) nomina´lnı´ (plavec, neplavec); e) ordina´lnı´ (S, M, L, XL, XXL, XXXL); f) nomina´lnı´ (prava´k, leva´k). 3. a) nomina´lnı´; b) intervalovy´; c) ordina´lnı´; d) kardina´lnı´; e) nomina´lnı´; f) kardina´lnı´; g) intervalovy´. 4. a) pravda; b) pravda; c) nepravda.
Kapitola 2
Popisna´ statistika
Prakticka´ statistika zacˇ´ına´ v okamzˇiku, kdy si ujasnı´me, jaky´ proble´m chceme rˇesˇit, jaky´ za´kladnı´ soubor je prˇedmeˇtem nasˇeho za´jmu, jake´ velicˇineˇ budeme veˇnovat pozornost, jak provedeme na´hodny´ vy´beˇr a co udeˇla´me s vy´sledny´m meˇrˇenı´m nebo zjisˇt’ova´nı´m. V te´to kapitole se budeme pra´veˇ veˇnovat ota´zce, jak nameˇrˇena´ nebo zjisˇteˇna´ data zpracovat a jak z nich vyteˇzˇit informace, ktere´ na´s zajı´majı´. Vy´chodiskem je sledovany´ statisticky´ znak. Pokud ma´me k dispozici vy´sledky provedene´ho meˇrˇenı´ nebo zjisˇt’ova´nı´ v cˇ´ıselne´ cˇi slovnı´ podobeˇ, budeme hovorˇit o statisticky´ch datech. V pu˚vodnı´ neusporˇa´dane´ podobeˇ z nich ale zˇa´dne´ informace o sledovane´ velicˇineˇ nenı´ mozˇne´ prakticky zı´skat. Data musı´me vhodny´m zpu˚sobem setrˇ´ıdit, u cˇ´ıselny´ch dat zpravidla usporˇa´dat podle velikosti, nejza´kladneˇjsˇ´ı informace shrnout do vhodne´ tabulky a prˇ´ıpadneˇ graficky zna´zornit. Kromeˇ toho veˇnujeme pozornost tzv. cˇ´ıselny´m charakteristika´m, pomocı´ nichzˇ je mozˇne´ rˇadu vlastnostı´ datovy´ch souboru˚ popisovat. Na prˇ´ıkladech si uka´zˇeme, jak tyto charakteristiky pocˇ´ıtat (rucˇneˇ cˇi pomocı´ pocˇ´ıtacˇe) a jak je vhodneˇ interpretovat. Pu˚jde tedy o to, zı´skat z dat co mozˇna´ nejvı´ce uzˇitecˇny´ch informacı´ o sledovane´m statisticke´m znaku.
2.1 Vyjadrˇovacı´ prostrˇedky statistiky Jak uzˇ bylo uvedeno, pokud ma´me data statisticky zpracovat, musı´me si nejprve uveˇdomit, o jaky´ typ dat se jedna´, a podle toho vybrat vhodne´ vyjadrˇovacı´ prostrˇedky. Data lze obvykle setrˇ´ıdit, prˇ´ıpadneˇ (pokud je to mozˇne´) usporˇa´dat podle velikosti. Prˇi statisticky´ch zkouma´nı´ch se da´le zameˇrˇujeme na charakterizova´nı´ a popis sledovane´ho statisticke´ho znaku prostrˇednictvı´m tzv. cˇetnostı´. Absolutnı´ cˇetnostı´ budeme rozumeˇt informaci o tom, kolikra´t byla kazˇda´ jedna obmeˇna obsazˇena v souboru, resp. kolik hodnot se nacha´zı´ v jiste´m prˇedem definovane´m intervalu hodnot. Relativnı´ cˇetnost potom urcˇuje podı´l konkre´tnı´ obmeˇny, resp. podı´l hodnot z jednoho intervalu na celkove´m pocˇtu nameˇrˇeny´ch nebo zjisˇteˇny´ch hodnot. V mnoha situacı´ch budou uzˇitecˇne´ take´ informace o kumulativnı´ch cˇetnostech, ty prˇedstavujı´ „pru˚beˇzˇne´“ soucˇty absolutnı´ch cˇetnostı´, podobneˇ relativnı´ kumulativnı´ cˇetnosti prˇedstavujı´ procentovy´ podı´l kumulativnı´ch cˇetnostı´ z celku. Informace o teˇchto cˇetnostech pote´ zpracova´va´me do ru˚zny´ch tabulek a vyjadrˇujeme pomocı´ ru˚zny´ch grafu˚. K dispozici jsou ru˚zne´ typy tabulek a cela´ sˇka´la grafu˚. Kazˇdy´ se vsˇak hodı´ ke zna´zorneˇnı´ jine´ho typu dat. Vhodne´ graficke´ zobrazenı´ dat je pro statisticke´ zpracova´nı´
29
30
2.1 Vyjadrˇovacı´ prostrˇedky statistiky
velice du˚lezˇite´, poda´va´ rychlou a na´zornou informaci o rozdeˇlenı´ dat, o prˇ´ıtomnosti odlehly´ch pozorova´nı´ a o cele´ rˇadeˇ dalsˇ´ıch vlastnostı´ dat.V na´sledujı´cı´ch prˇ´ıkladech si uka´zˇeme, jak lze tabulkoveˇ i graficky vyja´drˇit nejdu˚lezˇiteˇjsˇ´ı informace o kategoria´lnı´ promeˇnne´. Prˇ´ıklad 2.1.1 Redakce studentske´ho cˇasopisu se rozhodla udeˇlat pru˚zkum ty´kajı´cı´ se pla´novany´ch zmeˇn v rˇa´du pro ubytova´nı´ na kolejı´ch. Na´hodneˇ bylo osloveno 280 studentu˚. Kazˇdy´ student vyja´drˇil svu˚j na´zor pomocı´ trˇ´ı nabı´zeny´ch odpoveˇdı´: souhlası´m, nesouhlası´m, nevı´m. Byly zı´ska´ny tyto vy´sledky: 152 souhlası´, 51 nesouhlası´, 77 nevı´. Urcˇete absolutnı´ a relativnı´ cˇetnosti jednotlivy´ch odpoveˇdı´ a vyja´drˇete je jako rozdeˇlenı´ cˇetnostı´ tabulkou a pomocı´ kola´cˇove´ho grafu. Rˇesˇenı´. Jedna´ se o kategoria´lnı´ data, na´zor studentu˚ lze povazˇovat za nomina´lnı´ mnozˇny´ znak. Cˇetnosti odpovı´dajı´cı´ jeho trˇem obmeˇna´m lze usporˇa´dat do tabulky. Absolutnı´ cˇetnosti ni vyjadrˇujı´, kolik studentu˚ odpoveˇdeˇlo na polozˇenou ota´zku jednou z nabı´dnuty´ch variant (souhlası´m – nesouhlası´m – nevı´m). Relativnı´ cˇetnosti pi urcˇujı´ podı´l dane´ho typu odpoveˇdi k celkove´mu pocˇtu odpoveˇdı´. Naprˇ´ıklad pro odpoveˇd’ „souhlası´m“ zı´ska´me relativnı´ cˇetnost . jako podı´l 152/280 = 0,543, tedy z celkove´ho pocˇtu odpoveˇdı´ 54,3 % studentu˚ souhlası´ s pla´novany´mi zmeˇnami. Odpoveˇdi
Absolutnı´ cˇetnost ni Relativnı´ cˇetnost pi 152 . Souhlası´m 152 280 = 0,543 51 . Nesouhlası´m 51 280 = 0,182 Nevı´m
77
Celkem
280
77 280
= 0,275 1
Tab. 2.1 Vy´sledky pru˚zkumu
Obr. 2.1 Kola´cˇovy´ graf
Prˇ´ıklad 2.1.2 Studenti poslednı´ho rocˇnı´ku byli pozˇa´da´ni, aby vybrali jednu ze svy´ch kazˇdodennı´ch cˇinnostı´, kterou by ra´di omezili. Byly zı´ska´ny tyto odpoveˇdi: 58 studentu˚ by omezilo sledova´nı´ televize, 21 cˇtenı´ dennı´ho tisku, 14 telefonova´nı´, 7 rˇ´ızenı´ auta, 3 nakupova´nı´ a 12 studentu˚ uvedlo jinou cˇinnost. Urcˇete absolutnı´ a relativnı´ cˇetnosti jednotlivy´ch odpoveˇdı´ a vyja´drˇete je jako rozdeˇlenı´ cˇetnostı´ tabulkou a pomocı´ sloupcove´ho grafu.
31
2.1 Vyjadrˇovacı´ prostrˇedky statistiky
Rˇesˇenı´. Absolutnı´ a relativnı´ cˇetnosti odpovı´dajı´cı´ 6 obmeˇna´m dane´ho nomina´lnı´ho znaku lze usporˇa´dat do tabulky – viz tabulka 2.2. Cˇinnost Absolutnı´ cˇetnost Relativnı´ cˇetnost Sledova´nı´ televize 58 50,44 % ˇ Ctenı´ dennı´ho tisku 21 18,26 % Telefonova´nı´ 14 12,17 % Rˇ´ızenı´ auta 7 6,09 % Nakupova´nı´ 3 2,61 % Jine´ 12 10,43 % Tab. 2.2 Tabulkove´ vyja´drˇenı´ rozdeˇlenı´ cˇetnostı´
Toto rozdeˇlenı´ cˇetnostı´ da´le vyja´drˇ´ıme pomocı´ sloupcove´ho grafu. Sloupce v grafu zna´zornˇujı´ absolutnı´ cˇetnosti jednotlivy´ch cˇinnostı´ – viz obr. 2.2; obdobny´ graf dostaneme prˇi vyuzˇitı´ relativnı´ch cˇetnostı´.
Obr. 2.2 Sloupcovy´ graf
Pozna´mka 2.1.3 Vytvorˇenı´ sloupcove´ho grafu se v programu MS Excel provede tak, zˇe se oznacˇ´ı datove´ pole jako oblast (1. sloupec musı´ obsahovat obmeˇny, 2. sloupec cˇetnosti) a potom se pouzˇije posloupnost prˇ´ıkazu˚ Vlozˇenı´ – Grafy – Sloupcovy´ – Dvojrozmeˇrny´ sloupcovy´. Kola´cˇovy´ graf se vytvorˇ´ı zcela analogicky. Na´sledneˇ je mozˇne´ prove´st potrˇebne´ u´pravy grafu – vlozˇit na´zev grafu, pojmenovat osy, upravit sˇ´ırˇku a barvu sloupcu˚ apod.
Prˇ´ıklady k procvicˇenı´ 1. Podle u´daju˚ Cˇeske´ho statisticke´ho u´rˇadu bylo v roce 2006 v Cˇeske´ republice vyprodukova´no celkem 29 435 tisı´c tun odpadu. Tabulka uva´dı´ procentua´lnı´ zastoupenı´ jednotlivy´ch druhu˚ odpadu.
Druh odpadu
Procenta
Odpad ze zemeˇdeˇlstvı´ a lesnictvı´ 4,43 % Odpad z dolova´nı´ a teˇzˇby 1,56 % Odpad z u´pravy a rozvodu vody 22,34 % Pru˚myslovy´ odpad 1,40 % pokracˇova´nı´ na dalsˇ´ı stra´nce
32
2.2 Za´kladnı´ zpracova´nı´ cˇı´selny´ch dat
0 B A 0
pokracˇova´nı´ Druh odpadu
Procenta
Stavebnı´ a demolicˇnı´ odpad Odpad z energetiky Odpad z cˇisˇteˇnı´ meˇsta Komuna´lnı´ odpad Jiny´ odpad
29,50 % 6,95 % 4,65 % 13,52 % ?%
Urcˇete, kolik procent prˇipada´ na jiny´ odpad. Druhy odpadu˚ usporˇa´dejte podle jejich podı´lu na celkove´m objemu odpadu. Na za´kladeˇ u´daju˚ v tabulce sestrojte kola´cˇovy´ a sloupcovy´ graf. 2. Na´sledujı´cı´ tabulka zachycuje, jaky´m zpu˚sobem se pracovnı´ci jedne´ firmy dopravujı´ do pra´ce. Zpu˚sob dopravy
Abs. cˇetnost
Autem sa´m Autem spolecˇneˇ s neˇky´m jiny´m Autobusem Vlakem Jinak
24 15 10 5 4
Vypocˇteˇte relativnı´ cˇetnosti jednotlivy´ch zpu˚sobu˚ dopravy a zkonstruujte kola´cˇovy´ graf. 3. Na transfu´znı´ stanici prˇisˇlo beˇhem dne celkem 40 dobrovolny´ch da´rcu˚ krve s teˇmito krevnı´mi skupinami:
0 0 A 0
A B AB A
B 0 A A
A 0 B A
0 A A 0
A 0 A A
A 0 0 0
A A 0 0
0 A A AB
Sestrojte tabulku rozdeˇlenı´ cˇetnostı´ jednotlivy´ch krevnı´ch skupin, urcˇete relativnı´ cˇetnosti a zna´zorneˇte je pomocı´ kola´cˇove´ho grafu. 4. Na fakulteˇ byl provedeny´ pru˚zkum za´jmu o jisty´ konkre´tnı´ prˇedmeˇt s tı´mto vy´sledkem: Za´jem o prˇedmeˇt Velice meˇ zajı´ma´ Spı´sˇe meˇ zajı´ma´ Ma´m k neˇmu neutra´lnı´ postoj Spı´sˇe meˇ nezajı´ma´ Vu˚bec meˇ nezajı´ma´
Abs. cˇetnost 17 20 14 10 5
Vypocˇteˇte relativnı´ cˇetnosti jednotlivy´ch stupnˇu˚ za´jmu a zkonstruujte sloupcovy´ graf.
Rˇesˇenı´. 1. 15,65; 2. 0,41; 0,26; 0,17; 0,09; 0,07; 3. 0: 16(0,40); A: 18(0,45); B: 4(0,10); AB: 2(0,05); 4. 0,26; 0,30; 0,21; 0,15; 0,08.
2.2 Za´kladnı´ zpracova´nı´ cˇı´selny´ch dat Vedle kategoria´lnı´ch dat budeme velmi cˇasto pracovat s daty cˇ´ıselny´mi. V te´to podkapitole si uka´zˇeme, jak tato cˇ´ıselna´ data nejefektivneˇji zpracova´vat. Rozhodovat se prˇitom budeme podle toho, zda sledovany´ statisticky´ znak je spojity´ nebo nespojity´ a jak velky´ je zpracova´vany´ statisticky´ soubor. S ohledem na tyto skutecˇnosti budeme data zpracova´vat jako neroztrˇ´ıdeˇna´ data, nebo provedeme bodove´ rozdeˇlenı´ cˇetnostı´, resp. intervalove´ rozdeˇlenı´ cˇetnostı´. Rozsah souboru (pocˇet dat v souboru) budeme oznacˇovat n. Nameˇrˇene´ nebo zjisˇteˇne´ hodnoty sledovane´ho statisticke´ho znaku budeme obecneˇ znacˇit x. Neroztrˇ´ıdeˇna´ data Ma´me-li zpracovat datovy´ soubor, jehozˇ rozsah je maly´ (zpravidla n < 30), mu˚zˇeme data usporˇa´dat podle velikosti a pote´ zobrazit pomocı´ diagramu rozpty´lenı´ (viz obr. 2.3). Tento diagram zı´ska´me tak, zˇe na vodorovnou osu budeme postupneˇ vyna´sˇet hodnoty znaku x. Prˇ´ıklad 2.2.1 Na 15 vzorcı´ch mle´ka byl nameˇrˇen obsah tuku s teˇmito vy´sledky (v g/l): 14,85 14,68 15,27 14,77 14,83 14,95 15,08 15,02 15,07 14,98 15,15 15,49 14,83 14,95 14,78 Sestavte diagram rozpty´lenı´.
33
2.2 Za´kladnı´ zpracova´nı´ cˇı´selny´ch dat
Rˇesˇenı´. Z grafu je mozˇne´ vycˇ´ıst, zˇe nameˇrˇene´ hodnoty lezˇ´ı prˇiblizˇneˇ v intervalu od 14,7 do 15,5. I kdyzˇ je pocˇet meˇrˇenı´ 15, pocˇet bodu˚ na ose je 13 – to je du˚sledek 2 dvojic totozˇny´ch hodnot. Z rozlozˇenı´ bodu˚ na ose je zrˇejma´ zvy´sˇena´ „hustota“ v leve´ polovineˇ cele´ho grafu.
Obr. 2.3 Diagram rozpty´lenı´ obsahu tuku v mle´ce
Bodove´ rozdeˇlenı´ cˇetnostı´ V prˇ´ıpadeˇ, zˇe datovy´ soubor x1 , x2 . . . , xn (xi , i = 1, . . . , n), ktery´ ma´me zpracovat, ma´ veˇtsˇ´ı rozsah (zpravidla n > 30), data majı´ charakter nespojite´ho statisticke´ho znaku a pocˇet variant (obmeˇn) tohoto znaku obvykle neprˇekracˇuje hodnotu 15, urcˇ´ıme cˇetnosti n j jednotlivy´ch variant x j ( j = 1, . . . , k) a vy´sledky shrneme do tabulky, prˇ´ıpadneˇ vyja´drˇ´ıme graficky. Definice 2.2.2 Meˇjme usporˇa´dany´ datovy´ soubor o rozsahu n prvku˚. • Absolutnı´ cˇetnost n j prˇedstavuje pocˇet vy´skytu˚ varianty x j v souboru. Pro absolutnı´ cˇetnosti platı´ ∑kj=1 n j = n, kde k je pocˇet variant. • Relativnı´ cˇetnost p j je da´na vztahem pj =
nj n
a prˇedstavuje podı´l vy´skytu˚ varianty x j v souboru. Pro relativnı´ cˇetnosti platı´ ∑kj=1 p j = 1. • Absolutnı´ kumulativnı´ cˇetnost N j je da´na vztahem N j = n1 + · · · + n j a uda´va´ soucˇet cˇetnostı´ vsˇech pozorova´nı´, ktera´ neprˇekracˇujı´ hodnotu x j . • Relativnı´ kumulativnı´ cˇetnost Fj je urcˇena vztahem Fj =
Nj = p1 + · · · + p j n
a uda´va´ podı´l cˇetnostı´ vsˇech pozorova´nı´, ktera´ neprˇekracˇujı´ hodnotu x j .
Prˇ´ıklad 2.2.3 V ra´mci antropometricke´ho pru˚zkumu bylo podle metodiky le´karˇske´ komory provedeno meˇrˇenı´ teˇlesne´ vy´sˇky u 15meˇsı´cˇnı´ch deˇtı´. U 50 vybrany´ch chlapcu˚ byly nameˇrˇeny tyto hodnoty (v cm):
34
2.2 Za´kladnı´ zpracova´nı´ cˇı´selny´ch dat
83 82 83 83 81
85 82 82 80 85
81 80 83 82 83
82 82 82 85 79
84 80 82 81 81
82 82 82 83 81
79 83 81 81 81
84 84 80 81 84
80 82 82 83 81
81 79 82 82 82
Sestavte tabulku rozdeˇlenı´ cˇetnostı´ a graficky jej zna´zorneˇte. Rˇesˇenı´. Nejprve k obmeˇna´m 79, 80, ..., 85 stanovı´me absolutnı´ cˇetnosti a da´le urcˇ´ıme relativnı´, kumulativnı´ a relativnı´ kumulativnı´ cˇetnosti, a vsˇe usporˇa´da´me do tabulky – viz tabulka 2.3. Z te´to tabulky potom mu˚zˇeme sestrojit grafy: polygon rozdeˇlenı´ cˇetnostı´ , ktery´ zachycuje rozdeˇlenı´ cˇetnostı´, a soucˇtovou krˇivku zobrazujı´cı´ kumulativnı´ cˇetnosti. Hodnota Absolutnı´ Relativnı´ Abs. kum. Rel. kum. znaku x j cˇetnost n j cˇetnost p j cˇetnost N j cˇetnost Fj 79 3 0,06 3 0,06 80 5 0,10 8 0,16 81 11 0,22 19 0,38 82 16 0,32 35 0,70 83 8 0,16 43 0,86 84 4 0,08 47 0,94 85 3 0,06 50 1,00 50 1,00 — — ∑ Tab. 2.3 Tabulka bodove´ho rozdeˇlenı´ cˇetnostı´ vy´sˇky 15meˇsı´cˇnı´ch chlapcu˚
Obr. 2.4 Polygon cˇetnostı´ a soucˇtova´ krˇivka vy´sˇky 15meˇsı´cˇnı´ch deˇtı´
Z tabulky a z polygonu cˇetnostı´ je mozˇne´ vycˇ´ıst neˇktere´ zajı´mave´ vlastnosti sledovane´ho znaku vy´sˇka 15meˇsı´cˇnı´ch chlapcu˚. Tak naprˇ. nameˇrˇene´ vy´sˇky se pohybujı´ od 79 do 85 cm. Nejcˇasteˇjsˇ´ı vy´sˇka u dany´ch 50 chlapcu˚ – 82 cm – je nameˇrˇena celkem 16kra´t. Take´ je zcela zrˇetelne´, zˇe rozdeˇlenı´ cˇetnostı´ je prˇiblizˇneˇ symetricke´.
2.2 Za´kladnı´ zpracova´nı´ cˇı´selny´ch dat
35
Kromeˇ grafu˚ na obr. 2.4 je mozˇne´ sestrojit naprˇ. krabicovy´ graf , ktery´ zobrazuje nejmensˇ´ı a nejveˇtsˇ´ı hodnotu znaku, da´le media´n (prˇ´ıpadneˇ aritmeticky´ pru˚meˇr), hornı´ a dolnı´ kvartil. S teˇmito charakteristikami se podrobneˇji sezna´mı´me v dalsˇ´ıch podkapitola´ch.
Obr. 2.5 Krabicovy´ graf a empiricka´ distribucˇnı´ funkce vy´sˇky 15meˇsı´cˇnı´ch deˇtı´
Rozdeˇlenı´ cˇetnostı´ je take´ mozˇne´ zna´zornit pomocı´ empiricke´ distribucˇnı´ funkce, kterou mu˚zˇeme definovat vztahem N(xi ≤ x) Fn (x) = , n kde vy´raz v cˇitateli znacˇ´ı pocˇet prvku˚ vy´beˇru, jejichzˇ hodnota je mensˇ´ı nebo rovna x. Tato funkce uda´va´ pro hodnotu x sledovane´ho znaku soucˇet cˇetnostı´ vsˇech pozorova´nı´, ktera´ majı´ hodnotu xi mensˇ´ı nebo rovnu x, deˇleny´ celkovy´m rozsahem souboru n. Je to neklesajı´cı´ funkce s hodnotami mezi 0 a 1. Vsˇimneˇte si souvislosti mezi touto funkcı´ a relativnı´ kumulativnı´ cˇetnostı´ a soucˇtovou krˇivkou. Intervalove´ rozdeˇlenı´ cˇetnostı´ Pokud datovy´ soubor, ktery´ ma´me zpracovat, ma´ veˇtsˇ´ı rozsah (zpravidla n > 30) a data reprezentujı´ spojity´ znak nebo diskre´tnı´ znak s velky´m pocˇtem variant (obmeˇn), je vhodne´ nejprve data usporˇa´dat podle velikosti a zjistit nejmensˇ´ı a nejveˇtsˇ´ı hodnotu xmin a xmax sledovane´ho znaku. Odtud lze urcˇit variacˇnı´ rozpeˇtı´ R = xmax − xmin uda´vajı´cı´ sˇ´ırˇku intervalu, ve ktere´m se data nacha´zejı´. S ohledem na rozsah datove´ho souboru a na hodnoty xmin a xmax sestrojı´me na sebe navazujı´cı´ intervaly, zahrnujı´cı´ vsˇechny hodnoty zkoumane´ho znaku, a pote´ urcˇ´ıme, kolik hodnot lezˇ´ı v na´mi zkonstruovany´ch intervalech (intervaly budou zleva otevrˇene´ a zprava uzavrˇene´). Pro urcˇenı´ optima´lnı´ho pocˇtu (k) intervalu˚ existuje neˇkolik pravidel, naprˇ.: • Sturgesovo pravidlo k ≈ 1√+ 3,32 log n, • Yuleovo pravidlo √ k ≈ 2,5 4 n, • jina´ pravidla k ≈ n, prˇ´ıp. k ≈ 5 log n. Odtud zvolı´me podle uva´zˇenı´ vhodne´ k a orientacˇneˇ stanovı´me sˇ´ırˇku intervalu˚ ze vztahu h = Rk . Da´le stanovı´me pocˇa´tek prvnı´ho intervalu (ozn. a) a sˇ´ırˇku intervalu˚ zvolı´me tak, aby nejmensˇ´ı a nejveˇtsˇ´ı hodnota padly do prvnı´ho a poslednı´ho intervalu. Doporucˇuje se,
36
2.2 Za´kladnı´ zpracova´nı´ cˇı´selny´ch dat
aby strˇedy intervalu˚ byly hodnoty se stejnou prˇesnostı´ (rˇa´d nejmensˇ´ıch jednotek) jako nameˇrˇena´ data. Jak pocˇet intervalu˚, tak i sˇ´ırˇka intervalu˚ nejsou da´ny jednoznacˇneˇ, vzˇdy za´lezˇ´ı na osobeˇ, ktera´ data zpracova´va´, ma´ tedy subjektivnı´ charakter. Snahou by vsˇak meˇla by´t takova´ konstrukce intervalu˚, aby odpovı´dajı´cı´ rozdeˇlenı´ cˇetnostı´ doka´zalo vypovı´dat alesponˇ o za´kladnı´ch vlastnostech sledovane´ho znaku. Prˇ´ıklad 2.2.4 Prˇi kontrole dodrzˇova´nı´ hygienicky´ch norem v kuchyni se prova´deˇl odbeˇr vzduchu a pomocı´ filtru Pallflex se meˇrˇilo mnozˇstvı´ prachovy´ch cˇa´stic. Ze 60 vzorku˚ vzduchu jsme dostali na´sledujı´cı´ vy´sledky (v µg/m3 ): 1,23 1,51 1,41 1,14 1,47
1,10 1,53 1,22 1,34 1,24
1,54 1,31 1,27 1,16 1,45
1,34 1,23 1,37 1,51 1,29
1,06 1,31 1,14 1,58 1,17
1,09 1,27 1,22 1,33 1,63
1,41 1,17 1,43 1,31 1,39
1,48 1,27 1,40 1,04 1,02
1,52 1,34 1,41 1,58 1,38
1,37 1,27 1,51 1,12 1,39
1,37 1,09 1,51 1,19 1,43
1,63 1,01 1,47 1,17 1,28
Sestavte tabulku intervalove´ho rozdeˇlenı´ cˇetnostı´ a graficky jej zna´zorneˇte. Rˇesˇenı´. Mnozˇstvı´ prachovy´ch cˇa´stic je spojity´ statisticky´ znak, pro sestavenı´ tabulky rozdeˇlenı´ cˇetnostı´ musı´me urcˇit pocˇet intervalu˚ a jejich sˇ´ırˇku. Celkovy´ rozsah souboru je n = 60, nejmensˇ´ı hodnota xmin = 1,01, nejveˇtsˇ´ı hodnota je xmax = 1,63. Variacˇnı´ rozpeˇtı´ je rovno R = xmax − xmin = 0,62. Urcˇ´ıme si optima´lnı´ pocˇet intervalu˚ podle zmı´neˇny´ch pravidel: . • Sturgesovo pravidlo k ≈ 1√+ 3,32 log n = 7, . 4 • Yuleovo √ .pravidlo k ≈ 2,5. n = 7, • k ≈ n = 8, k ≈ 5 log n = 9. Na za´kladeˇ uvedeny´ch pravidel zvolı´me naprˇ. pocˇet intervalu˚ k = 7, sˇ´ırˇku intervalu h = 0,1 a pocˇa´tek prvnı´ho intervalu a = 1. Te´to konstrukci intervalu˚ odpovı´da´ rozdeˇlenı´ cˇetnostı´ uvedene´ v tabulce 2.4 a na obra´zku 2.6. Interval (1,00; 1,10i (1,10; 1,20i (1,20; 1,30i (1,30; 1,40i (1,40; 1,50i (1,50; 1,60i (1,60; 1,70i ∑
Strˇed Absolutnı´ Relativnı´ Abs. kum. Rel. kum. intervalu x∗j cˇetnost n j cˇetnost p j cˇetnost N j cˇetnost Fj 1,05 7 0,177 7 0,117 1,15 8 0,133 15 0,250 1,25 11 0,183 26 0,433 1,35 14 0,233 40 0,667 1,45 9 0,150 49 0,817 1,55 9 0,150 58 0,967 1,65 2 0,033 60 1,000 — 60 1 — —
Tab. 2.4 Tabulka intervalove´ho rozdeˇlenı´ cˇetnostı´ – mnozˇstvı´ prachovy´ch cˇa´stic
Z tabulky rozdeˇlenı´ cˇetnostı´ i z grafu˚ je mozˇne´ vycˇ´ıst alesponˇ za´kladnı´ vlastnosti sledovane´ho znaku mnozˇstvı´ prachovy´ch cˇa´stic v µg/m3 (koncentrace prachu). Zejme´na je zrˇejme´, zˇe nameˇrˇene´ mnozˇstvı´ prachu se pohybuje mezi hodnotami 1,1 a 1,7. Nejveˇtsˇ´ı cˇa´st vy´sledku˚ lezˇ´ı v intervalu 1,3–1,4. Rozdeˇlenı´ cˇetnostı´ je pomeˇrneˇ symetricke´, v histogramu je mozˇne´
2.2 Za´kladnı´ zpracova´nı´ cˇı´selny´ch dat
37
Obr. 2.6 Histogram a soucˇtovy´ histogram koncentrace prachu
videˇt, zˇe rozdeˇlenı´ nenı´ vy´razneˇ sˇpicˇate´ – je spı´sˇe plosˇsˇ´ı. Smysluplne´ je take´ „srovna´nı´ “ s norma´lnı´m rozdeˇlenı´m, tj. srovna´nı´ histogramu s Gaussovou krˇivkou (viz da´le podkapitola 6.3). To bude slouzˇit k posouzenı´, zda je zı´skana´ data mozˇne´ povazˇovat za realizaci na´hodne´ho vy´beˇru z norma´lnı´ho rozdeˇlenı´. Tomu vsˇemu se vsˇak budeme jesˇteˇ veˇnovat pozdeˇji. Pozna´mka 2.2.5 Pro konstrukci tabulky bodove´ho rozdeˇlenı´ cˇetnostı´, resp. intervalove´ho rozdeˇlenı´ cˇetnostı´ a konstrukci odpovı´dajı´cı´ch grafu˚ popsany´ch v te´to podkapitole pouzˇijeme excelovskou aplikaci STAT1, jejı´zˇ uzˇitı´ je popsa´no v podkapitole 2.6. Tabulku rozdeˇlenı´ cˇetnostı´ (pro bodove´ i intervalove´ rozdeˇlenı´) lze take´ v Excelu zkonstruovat pomocı´ funkce CˇETNOSTI, samotny´ histogram lze vytvorˇit pomocı´ analyticke´ho na´stroje „Histogram“.
Obr. 2.7 Krabicovy´ graf a empiricka´ distribucˇnı´ funkce koncentrace prachu
38
2.2 Za´kladnı´ zpracova´nı´ cˇı´selny´ch dat
Prˇ´ıklady k procvicˇenı´ 1. Prˇi vy´robnı´ kontrole bylo provedeno meˇrˇenı´ de´lky 15 kusu˚ pu˚lmetrovy´ch lat’ovek (v cm): 49,8 50,2 50,3 49,5 50,0 49,3 50,0 50,9 50,4 50,0 49,7 50,6 50,2 49,9 50,1 Usporˇa´dejte data podle velikosti a stanovte hodnoty x(5) x(10) a x(11) (najdeˇte pa´tou, desa´tou ’ a jedena´ctou hodnotu v usporˇa´dane´m datove´m souboru). Sestrojte diagram rozpty´lenı´. Co vypovı´da´ tento diagram o koncentraci a soumeˇrnosti dat? 2. Bylo provedeno 50 chemicky´ch analy´z na oveˇrˇenı´ koncentrace urcˇite´ chemicke´ la´tky prˇi pra´ci s jednı´m typem roztoku s teˇmito vy´sledky (v %): 41 42 43 39 41
42 43 42 44 40
41 41 42 43 44
44 41 40 42 39
41 43 41 40 42
41 41 42 42 44
39 42 42 42 42
43 45 43 40 41
45 42 42 42 45
41 40 43 42 43
Sestavte tabulku rozdeˇlenı´ cˇetnostı´ a stanovte absolutnı´, relativnı´, kumulovane´ a relativnı´ kumulovane´ cˇetnosti. Sestrojte polygon cˇetnostı´ a soucˇtovou krˇivku. Jake´ vlastnosti nasˇeho znaku koncentrace la´tky lze z rozdeˇlenı´ vycˇ´ıst? 3. Test z matematiky obsahuje 10 ota´zek. U kazˇde´ ota´zky je nabı´dnuto 5 odpoveˇdı´, prˇicˇemzˇ jen jedna je spra´vna´. U 60 studentu˚ byly zaznamena´ny na´sledujı´cı´ vy´sledky (pocˇet spra´vny´ch odpoveˇdı´): 5 5 5 8 2
3 10 8 4 6
6 6 9 6 4
7 6 3 6 7
4 8 3 3 7
8 6 7 7 9
8 6 5 4 7
6 4 7 9 5
7 7 8 4 7
6 3 7 7 4
6 7 9 6 6
7 9 7 4 6
Sestavte tabulku rozdeˇlenı´ cˇetnostı´ a stanovte absolutnı´, relativnı´, kumulovane´ a relativnı´ kumulovane´ cˇetnosti. Sestrojte polygon cˇetnostı´, soucˇtovou krˇivku a empirickou distribucˇnı´ funkci. Jake´ vlastnosti nasˇeho znaku pocˇet spra´vny´ch odpoveˇdı´ lze z rozdeˇlenı´ vycˇ´ıst? 4. Ma´me k dispozici u´daje o vy´znamny´ch zemeˇtrˇesenı´ch v Kalifornii (uvedeno ve stupnı´ch Richterovy stupnice):
6,8 6,6 6,2 6,1 8,3
6,6 6,2 6,1 5,3 8,0
7,5 5,3 6,0 6,6 6,8
6,2 5,9 6,1 5,8 6,3
6,5 6,0 5,5 7,7 8,3
7,1 5,3 6,4 5,9 7,0
6,1 5,9 5,9 7,1 7,0
5,8 6,2 5,7 6,3 7,0
5,5 6,4 5,9 7,0 6,5
6,9 7,0 5,9 6,3
Sestrojte intervalove´ rozdeˇlenı´ cˇetnostı´, urcˇete absolutnı´, relativnı´, kumulovane´ a relativnı´ kumulovane´ cˇetnosti. Rozdeˇlenı´ cˇetnostı´ zobrazte pomocı´ histogramu a soucˇtove´ho histogramu. Sestrojte empirickou distribucˇnı´ funkci. Co lze z vasˇeho rozdeˇlenı´ cˇetnostı´ usoudit o sledovane´m znaku sı´la zemeˇtrˇesenı´? 5. Na jiste´m u´seku da´lnice byla meˇrˇena rychlost projı´zˇdeˇjı´cı´ch osobnı´ch aut (v km/h): 147 138 120 155 139 157 152
125 116 134 130 122 142 157
127 122 131 145 122 117 133
134 142 126 133 128 134 158
126 115 142 121 136 126 143
143 132 104 137 159 150 111
134 125 120 116 139 129 136
129 128 141 146 167 115 120
151 129 114 140 158 146 164
143 163 130 118 132 153 118
Sestrojte intervalove´ rozdeˇlenı´ cˇetnostı´, urcˇete absolutnı´, relativnı´, kumulovane´ a relativnı´ kumulovane´ cˇetnosti. Rozdeˇlenı´ cˇetnostı´ zobrazte pomocı´ histogramu a soucˇtove´ho histogramu. Sestrojte empirickou distribucˇnı´ funkci. Ma´ na´sˇ sledovany´ znak rychlost auta symetricke´ rozdeˇlenı´? Jake´ vlastnosti tohoto znaku lze jesˇteˇ z rozdeˇlenı´ cˇetnostı´ vycˇ´ıst? 6. Pro data z prˇ´ıkladu 2.2.4 (mnozˇstvı´ prachovy´ch cˇa´stic) proved’te jine´ intervalove´ rozdeˇlenı´ cˇetnostı´, naprˇ. pro volbu k = 8, prˇ´ıpadneˇ i k = 9. Porovnejte vasˇe rˇesˇenı´ s uvedeny´m rˇesˇenı´m prˇ´ıkladu a posud’te, jaky´ to ma´ vliv na sledovane´ vlastnosti znaku. Rˇesˇenı´. K rˇesˇenı´ prˇ´ıkladu˚ pouzˇijte aplikaci STAT1. 1. 49,9; 50,2; 50,2; 2. 39: 3; 40: 5; 41: 11; 42: 16; 43: 8; 44: 4; 45: 3; 3. 2: 1; 3: 5; 4: 8; 5: 5; 6: 14; 7: 15; 8: 6; 9: 5; 10: 1; 4. naprˇ. pro k = 7, h = 0,5, a = 5,1: (5,1; 5,6i: 5; (5,6; 6, 1i: 15; (6,1; 6,6i: 14; (6,6; 7,1i: 10; (7,1; 7,6i: 1; (7,6; 8,1i: 2; (8,1; 8,6i: 2; 5. naprˇ. pro k = 7, h = 10, a = 100: (100, 110i: 1; (110, 120i: 12; (120, 130i: 17; (130, 140i: 16; (140, 150i: 12; (150, 160i: 9; (160, 170i: 3.
39
2.3 Charakteristiky polohy
2.3 Charakteristiky polohy Jak je uvedeno v prˇedchozı´m vy´kladu, tabulky a grafy poskytujı´ uzˇitecˇne´ informace o sledovane´m statisticke´m znaku, ktery´ je prˇedmeˇtem nasˇeho za´jmu. Nositelem teˇchto informacı´ je statisticky´ soubor – datova´ mnozˇina. Zejme´na prakticke´ du˚vody na´s vsˇak vedou k tomu, vyjadrˇovat prostrˇednictvı´m tohoto souboru dalsˇ´ı informace v koncentrovane´ formeˇ, tj. v podobeˇ urcˇity´ch charakteristik. Cı´lem je jednoduchy´m zpu˚sobem popsat dalsˇ´ı ru˚zne´ vlastnosti sledovane´ho znaku. U cˇ´ıselny´ch znaku˚, ktery´m nynı´ veˇnujeme pozornost, budeme uzˇ´ıvat tzv. popisne´ charakteristiky, vesmeˇs cˇ´ıselne´. ´ rovenˇ jevu vyja´drˇene´ho cˇ´ıselny´m znakem se popisuje pomocı´ tzv. charakteristik polohy U (u´rovneˇ). Promeˇnlivost cˇ´ıselne´ho znaku, tj. kolı´sa´nı´ hodnot znaku (zpravidla okolo jiste´ konstanty), se popisuje pomocı´ charakteristik variability – viz podkapitola 2.4. Du˚lezˇitou vlastnostı´ cˇ´ıselne´ho znaku je take´ koncentrace hodnot znaku, tj. urcˇita´ „hustota“ hodnot znaku v ra´mci jednotlivy´ch cˇa´stı´ datove´ osy. Tato vlastnost se popisuje pomocı´ tzv. charakteristik koncentrace – viz podkapitola 2.5. Charakteristiky polohy (u´rovneˇ) meˇrˇ´ı obecnou velikost hodnot znaku v souboru a deˇlı´ se na pru˚meˇry (pocˇ´ıtane´ ze vsˇech dat) a ostatnı´ mı´ry polohy (pocˇ´ıtane´ z vybrany´ch hodnot). Pru˚meˇry Definice 2.3.1 Aritmeticky´ pru˚meˇr x hodnot x1 , x2 , . . . , xn je definova´n vztahem n
∑ xi x=
i=1
n
,
(2.1)
n je celkovy´ pocˇet pozorova´nı´. Aritmeticky´ pru˚meˇr se uzˇije tehdy, pokud ma´ logicky´ smysl soucˇet nameˇrˇeny´ch hodnot ∑ni=1 xi , tzv. u´hrn, naprˇ. celkova´ hmotnost va´zˇeny´ch rohlı´ku˚, celkova´ spotrˇeba studene´ vody ve vybrany´ch doma´cnostech, celkova´ vy´sˇe vyplaceny´ch mzdovy´ch prostrˇedku˚ apod. Jsou-li hodnoty statisticke´ho znaku usporˇa´da´ny do tabulky bodove´ho rozdeˇlenı´ cˇetnostı´, urcˇ´ıme aritmeticky´ pru˚meˇr pomocı´ vztahu k
∑ nj ·xj x=
j=1
n
,
(2.2)
kde n1 , n2 , . . . , nk jsou cˇetnosti jednotlivy´ch variant znaku x1 , x2 , . . . , xk , k je pocˇet teˇchto variant. Tyto cˇetnosti uda´vajı´ va´hu jednotlivy´ch variant znaku x j , proto mluvı´me o va´zˇene´m aritmeticke´m pru˚meˇru. Jsou-li hodnoty statisticke´ho znaku popsane´ prostrˇednictvı´m intervalove´ho rozdeˇlenı´ cˇetnostı´, nahradı´me jednotlive´ obmeˇny znaku x j ve vzorci (2.2) strˇedy x∗j jednotlivy´ch intervalu˚ a va´zˇeny´ aritmeticky´ pru˚meˇr urcˇ´ıme potom pomocı´ vztahu
40
2.3 Charakteristiky polohy k
∑ n j · x∗j
x=
i=1
n
,
(2.3)
kde n1 , n2 , . . . , nk jsou jednotlive´ intervalove´ cˇetnosti, k je pocˇet teˇchto intervalu˚. Protozˇe va´zˇeny´ aritmeticky´ pru˚meˇr (2.3) nebude v tomto prˇ´ıpadeˇ odpovı´dat skutecˇne´mu pru˚meˇru pocˇ´ıtane´mu podle vzorce (2.1), pouzˇijeme jej pouze v krajnı´m prˇ´ıpadeˇ, kdy vy´pocˇet ze vsˇech hodnot nebude mozˇny´ (naprˇ. data nebudou k dispozici). Aritmeticky´ pru˚meˇr ma´ tyto za´kladnı´ vlastnosti: • soucˇet jednotlivy´ch odchylek hodnot znaku xi od aritmeticke´ho pru˚meˇru je nulovy´, n
∑ (xi − x) = 0,
i=1
• jsou-li jednotlive´ hodnoty znaku xi konstantnı´ (vsˇechny shodne´), potom je jejich aritmeticky´ pru˚meˇr roven te´to konstanteˇ, 1 n ∑ c = c, n i=1 • prˇicˇteme-li k jednotlivy´m hodnota´m znaku xi konstantu c, zvy´sˇ´ı se o tuto konstantu i aritmeticky´ pru˚meˇr, 1 n ∑ (xi + c) = c + x, n i=1 • na´sobı´me-li jednotlive´ hodnoty znaku xi konstantou c, je touto konstantou na´soben i aritmeticky´ pru˚meˇr, 1 n ∑ c · xi = c · x. n i=1 Aritmeticky´ pru˚meˇr vsˇak nenı´ jediny´m druhem pru˚meˇru, existujı´ i jine´, jezˇ se pouzˇ´ıvajı´ ve specia´lnı´ch prˇ´ıpadech. Definice 2.3.2 Harmonicky´ pru˚meˇr xH kladny´ch hodnot x1 , x2 , . . . , xn je definova´n vztahem n xH = n , ∑ x1i i=1
kde n je celkovy´ pocˇet pozorova´nı´. Harmonicky´ pru˚meˇr ma´ specificke´ uplatneˇnı´ v situacı´ch, kdy ma´ logicky´ vy´znam soucˇet prˇevra´ceny´ch hodnot znaku. Bude tomu tak tehdy, kdy pru˚meˇrovana´ velicˇina ma´ charakter cˇa´sti z celku, tedy pru˚meˇrovat ma´me tzv. pomeˇrna´ cˇ´ısla. Naprˇ. pru˚meˇrnou hustotu h obyvatelstva na km2 v kraji, zna´me-li pocˇet obyvatel p a hustotu h v okresech, urcˇ´ıme ze vztahu h = ∑∑ pr , kde rozloha r = hp , nebo pru˚meˇrnou rychlost v auta v km/hod., zna´me-li dra´hu s a jı´ odpovı´dajı´cı´ rychlost v, urcˇ´ıme ze vztahu v =
∑s , ∑t
kde cˇas t = vs .