Grada Publishing, a. s., U Průhonu 22, 170 00 Praha 7 tel.: +420 234 264 401, fax: +420 234 264 400 e-mail:
[email protected], www.grada.cz
Jiří Neubauer, Marek Sedlačík, Oldřich Kříž
ZÁKLADY STATISTIKY
Publikace Základy statistiky přináší elementární poznatky z teorie statistiky a objasňuje podstatu statistického zpracování dat. Podává výklad statistiky jednoduchým způsobem, který akcentuje základy statistické práce a usuzování, přitom však přiměřeně respektuje exaktní pozadí této disciplíny. Dělá to prostřednictvím vhodně strukturovaného obsahu a vyjadřuje se jednoduchým a srozumitelným jazykem. Pozornost nevěnuje jenom třem pilířům statistiky – pravděpodobnosti, teoretickým modelům a empirickým modelům – ale především jejich vzájemnému propojení, na jehož pozadí objasňuje podstatu statistického myšlení. Kniha je určena především studentům ekonomicky a technicky zaměřených fakult vysokých škol, užitečná však bude všem dalším zájemcům o statistiku. Každá kapitola je v úvodu prakticky motivována, obsahuje stručný teoretický úvod a typické vzorové řešené příklady a příklady k procvičení. V publikaci je statistika prezentována také jako disciplína předurčená k užití počítačů a je zde proto přímo podporována elektronickou aplikací STAT1, která pracuje v excelovském prostředí a umožňuje každému čtenáři interaktivně vnímat popsané statistické metody.
říž K h ic ř ld O , lačík d e S k e r a M , ubauer
Jiří Ne
Základy
statistiky Aplikace v technických a ekonomických oborech
• • • • • •
měření a zjišťování teoretické modely empirické modely základy induktivní statistiky počítačové zpracování dat praktické užití statistiky
Základy
statistiky Aplikace v technických a ekonomických oborech
Jiří Neubauer Marek Sedlačík Oldřich Kříž
Upozornění pro čtenáře a uživatele této knihy Všechna práva vyhrazena. Žádná část této tištěné či elektronické knihy nesmí být reprodukována a šířena v papírové, elektronické či jiné podobě bez předchozího písemného souhlasu nakladatele. Neoprávněné užití této knihy bude trestně stíháno.
Jiří Neubauer, Marek Sedlačík, Oldřich Kříž
Základy statistiky
Aplikace v technických a ekonomických oborech Tiráž tištěné publikace: Vydala Grada Publishing, a.s. U Průhonu 22, Praha 7
[email protected], www.grada.cz tel.: +420 234 264 401, fax: +420 234 264 400 jako svou 4901. publikaci Odpovědný redaktor Petr Somogyi Počet stran 240 První vydání, Praha 2012 Vytiskly Tiskárny Havlíčkův Brod, a.s. © Grada Publishing, a.s., 2012 Cover Design © Grada Publishing, a.s., 2012 Názvy produktů, firem apod. použité v knize mohou být ochrannými známkami nebo registrovanými ochrannými známkami příslušných vlastníků. ISBN 978-80-247-4273-1 Tiráž ELEKTRONICKÉ publikace: ISBN 978-80-247-7063-5 (ve formátu PDF) ISBN 978-80-247-7266-0 (ve formátu EPUB)
Obsah
1
´ vod do statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . U 1.1 Historicky´ prˇehled . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Vy´znam a pojetı´ modernı´ statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Statisticka´ jednotka a statisticky´ soubor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Statisticky´ znak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11 11 17 21 24
2
Popisna´ statistika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Vyjadrˇovacı´ prostrˇedky statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Za´kladnı´ zpracova´nı´ cˇ´ıselny´ch dat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Charakteristiky polohy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Charakteristiky variability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Charakteristiky koncentrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Kompletnı´ zpracova´nı´ dat pomocı´ aplikace STAT1 . . . . . . . . . . . . . . . . . . . . . . .
29 29 32 39 45 51 54
3
Pravdeˇpodobnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Za´klady kombinatoriky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Na´hodny´ pokus a na´hodny´ jev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Pravdeˇpodobnost na´hodne´ho jevu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Klasicka´ definice pravdeˇpodobnosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Geometricka´ definice pravdeˇpodobnosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Podmı´neˇna´ pravdeˇpodobnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 Pravidlo o na´sobenı´ pravdeˇpodobnostı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 Pravidlo o scˇ´ıta´nı´ pravdeˇpodobnostı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ´ plna´ pravdeˇpodobnost a Bayesu˚v vzorec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9 U
59 59 63 67 68 72 75 76 79 83
4
Na´hodna´ velicˇina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Na´hodna´ velicˇina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Distribucˇnı´ funkce na´hodne´ velicˇiny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Diskre´tnı´ na´hodna´ velicˇina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Spojite´ na´hodne´ velicˇiny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87 87 88 89 93
5
6
4.5 4.6 4.7
Charakteristiky polohy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Charakteristiky variability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Charakteristiky koncentrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5
Modely rozdeˇlenı´ pravdeˇpodobnostı´ pro diskre´tnı´ na´hodne´ velicˇiny . . . . . . . . . . 107 5.1 Poissonovo rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.2 Alternativnı´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.3 Binomicke´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.4 Hypergeometricke´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6
Modely rozdeˇlenı´ pravdeˇpodobnostı´ pro spojite´ na´hodne´ velicˇiny . . . . . . . . . . . . 117 6.1 Rovnomeˇrne´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 6.2 Exponencia´lnı´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.3 Norma´lnı´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 6.4 Normovane´ norma´lnı´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.5 Logaritmicko-norma´lnı´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.6 Rozdeˇlenı´ neˇktery´ch funkcı´ na´hodny´ch velicˇin . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7
Teoreticke´ za´klady statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.1 Za´kon velky´ch cˇ´ısel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.2 Soucˇet neza´visly´ch na´hodny´ch velicˇin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 7.3 Centra´lnı´ limitnı´ veˇty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 7.4 Veˇty o norma´lnı´m rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
8
Vy´beˇrova´ sˇetrˇenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 8.1 Druhy vy´beˇrove´ho sˇetrˇenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 8.2 Na´hodny´ vy´beˇr a vy´beˇrove´ charakteristiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 8.3 Vy´beˇrova´ rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 8.4 Populace, vy´beˇr a statisticke´ usuzova´nı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
9
Odhady charakteristik za´kladnı´ho souboru . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 9.1 Bodove´ odhady parametru˚ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 9.2 Intervalove´ odhady parametru˚ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 9.3 Intervalove´ odhady parametru˚ norma´lnı´ho rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . . 168 9.4 Intervalovy´ odhad strˇednı´ hodnoty pro vy´beˇry velke´ho rozsahu . . . . . . . . . . . . 180 9.5 Intervalovy´ odhad parametru alternativnı´ho rozdeˇlenı´ . . . . . . . . . . . . . . . . . . . . 186
10
Testova´nı´ statisticky´ch hypote´z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 10.1 Pojem hypote´zy a podstata testova´nı´ hypote´z . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 10.2 Jednovy´beˇrove´ testy hypote´z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 10.3 Dvouvy´beˇrove´ testy hypote´z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 10.4 Testy hypote´z o rozdeˇlenı´ za´kladnı´ho souboru . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
Pouzˇite´ zdroje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 Rejstrˇ´ık . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
O autorech
Mgr. Jirˇ´ı Neubauer, Ph.D. (∗ 1975) Vystudoval Prˇ´ırodoveˇdeckou fakultu Masarykovy univerzity v Brneˇ. Dizertacˇnı´ pra´ci v doktorske´m studijnı´m oboru aplikovana´ matematika obha´jil v roce 2006 na Prˇ´ırodoveˇdecke´ fakulteˇ Ostravske´ univerzity v Ostraveˇ. Od roku 2008 absolvoval odborne´ sta´zˇe postupneˇ na Institute of Statistics, Graz University of Technology, Graz, Rakousko, na Department of Statistics, Faculty of Science, University of Malta, Malta a na University of Maribor, Maribor, Slovinsko. V soucˇasne´ dobeˇ pracuje na Univerziteˇ obrany jako vedoucı´ skupiny Katedry ekonometrie. Veˇnuje se problematice analy´zy cˇasovy´ch rˇad se zameˇrˇenı´m na vı´cerozmeˇrne´ modely a detekci zmeˇn v na´hodny´ch procesech. V pedagogicke´ oblasti se veˇnuje vy´uce za´kladnı´ch statisticky´ch metod. Podı´lı´ se na rˇesˇenı´ vy´zkumny´ch projektu˚ v ra´mci sve´ specializace. Publikuje v doma´cı´ch i zahranicˇnı´ch cˇasopisech. RNDr. Marek Sedlacˇı´k, Ph.D. (∗ 1975) Vystudoval Prˇ´ırodoveˇdeckou fakultu Masarykovy univerzity v Brneˇ. Dizertacˇnı´ pra´ci ve studijnı´m oboru Obecne´ ota´zky matematiky obha´jil roce 2006 na Prˇ´ırodoveˇdecke´ fakulteˇ Masarykovy univerzity v Brneˇ, rovneˇzˇ rigoro´znı´ pra´ci v oboru Statistika a analy´za dat obha´jil na MU v Brneˇ. Od roku 2008 absolvoval odborne´ sta´zˇe postupneˇ na Institute of Statistics, Graz University of Technology, Graz, Rakousko, na Department of Statistics, Faculty of Science, University of Malta, Malta a na National University of Public Service, Budapest, Mad’arsko. V soucˇasne´ dobeˇ pracuje na Univerziteˇ obrany jako poveˇrˇeny´ vedoucı´ Katedry ekonometrie. Veˇnuje se problematice mnohorozmeˇrny´ch statisticky´ch metod se zameˇrˇenı´m na klasifikacˇnı´ techniky. Garantuje a vede vy´uku v ra´mci akreditovane´ho studia. Podı´lı´ se na rˇesˇenı´ veˇdecky´ch projektu˚ v ra´mci sve´ specializace. Publikuje v doma´cı´ch i zahranicˇnı´ch cˇasopisech. RNDr. Oldrˇich Krˇ´ızˇ (∗ 1945) Vystudoval Prˇ´ırodoveˇdeckou fakultu Palacke´ho univerzity v Olomouci. V roce 1993 absolvoval specializovane´ studium statistiky na Fakulteˇ informatiky a statistiky Vysoke´ sˇkoly ekonomicke´ v Praze a v roce 1997 absolvoval licencˇnı´ studium Pocˇ´ıtacˇove´ zpracova´nı´ dat prˇi kontrole a rˇ´ızenı´ jakosti na Fakulteˇ chemicko-technologicke´ Pardubicke´ univerzity. Od roku 2004 pu˚sobil na katedrˇe ekonometrie Fakulty ekonomiky a managementu Univerzity obrany v Brneˇ. Ve vy´zkumne´ oblasti rˇesˇil u´koly v souvislosti s distancˇnı´m vzdeˇla´va´nı´m statistiky a podı´lel se na rˇesˇenı´ projektu˚ v oblasti senzoricke´ analy´zy potravin. Publikoval v doma´cı´ch i zahranicˇnı´ch cˇasopisech. Je autorem a spoluautorem rˇady didakticky´ch titulu˚. V soucˇasne´ dobeˇ spolupracuje s katedrou externeˇ.
7
´ vodnı´ slovo recenzenta U
Kniha Za´klady statistiky, ktera´ se cˇtena´rˇi dosta´va´ do rukou, prˇedstavuje modernı´ pojetı´ za´kladnı´ho kurzu statistiky zalozˇene´ na du˚sledne´m propojenı´ popisne´ statistiky, teorie pravdeˇ´ vodnı´ kapitola podobnosti a u´vodu do matematicke´ statistiky. Ucˇebnice obsahuje 10 kapitol. U elegantneˇ shrnuje historii statistiky s na´vaznostı´ na vysveˇtlenı´ hromadny´ch jevu˚ a souvisejı´cı´ch pojmu˚. Dalsˇ´ı kapitola je veˇnova´na popisne´ statistice a kapitoly 3–6 pravdeˇpodobnostnı´mu apara´tu, ktery´ je pak du˚sledneˇ vyzˇ´ıva´n v kapitola´ch 7–10, kde se autorˇi veˇnujı´ za´kladu˚m matematicke´ statistiky, zejme´na bodovy´m odhadu˚m, intervalovy´m odhadu˚m a testova´nı´ statisticky´ch hypote´z. Jednotlive´ kapitoly jsou vzˇdy v u´vodu du˚sledneˇ prakticky motivova´ny tak, aby cˇtena´rˇ me´neˇ zbeˇhly´ v matematicke´ teorii mohl bez proble´mu˚ sledovat na´sledujı´cı´ forma´lneˇjsˇ´ı matematicky´ vy´klad. Pro usnadneˇnı´ pochopenı´ jednotlivy´ch teoreticky´ch partiı´ je vy´klad prolozˇen rˇadou ilustrativnı´ch rˇesˇeny´ch prˇ´ıkladu˚ a doplneˇn rˇadou prˇ´ıkladu˚ k procvicˇenı´. Velky´m prˇ´ınosem prˇedlozˇene´ publikace je, zˇe cˇtena´rˇi a uzˇivateli statisticky´ch metod se za´rovenˇ s ucˇebnicı´ dosta´va´ do rukou vy´pocˇetnı´ statisticka´ aplikace STAT1. Ta byla autory ucˇebnice vytvorˇena v Excelu a umozˇnˇuje bezprostrˇednı´ vy´pocˇet statisticky´ch charakteristik, bodovy´ch a intervalovy´ch odhadu˚, prova´deˇnı´ statisticky´ch testu˚ pro na´hodne´ vy´beˇry z norma´lnı´ho a asymptoticky norma´lnı´ho rozdeˇlenı´ a da´le pak umozˇnˇuje prova´deˇnı´ testu˚ dobre´ shody. Tedy vesˇkera´ statisticka´ teorie, ktera´ je v ucˇebnici popsa´na, je doplneˇna mozˇnostı´ prova´deˇt vlastnı´ statisticke´ analy´zy vcˇetneˇ graficky´ch vy´stupu˚ v excelovske´m prostrˇedı´. To je dostupne´ prakticky na kazˇde´m pocˇ´ıtacˇi. Tedy k procvicˇenı´ za´kladnı´ch statisticky´ch analy´z si cˇtena´rˇ nemusı´ porˇizovat obvykle velmi na´kladny´ statisticky´ software. Jsem prˇesveˇdcˇen, zˇe knihu Za´klady statistiky zameˇrˇenou na aplikace v ekonomicky´ch i technicky´ch oborech budou vyuzˇ´ıvat nejen studenti nematematicky´ch oboru˚, kterˇ´ı si chteˇjı´ osvojit principy statisticke´ho uvazˇova´nı´, ale take´ uzˇivatele´ za´kladnı´ch statisticky´ch metod pra´veˇ kvu˚li snadne´mu zı´ska´nı´ prˇ´ıstupu k odpovı´dajı´cı´mu softwarove´mu vybavenı´.
Doc. RNDr. Jaroslav Micha´lek, CSc. ´ stav matematiky, Fakulta strojnı´ho inzˇeny´rstvı´, Vysoke´ ucˇenı´ technicke´ v Brneˇ U
8
Prˇedmluva
Autorˇi knihy, kterou pra´veˇ drzˇ´ıte v ruce, se vy´uce statistiky na vysoke´ sˇkole veˇnujı´ jizˇ rˇadu let. Ve snaze prˇedat svoje zkusˇenosti studentu˚m, ale i dalsˇ´ım uzˇivatelu˚m statistiky, vytvorˇili prˇedlozˇeny´ text. Hlavnı´m cı´lem prˇi jeho prˇ´ıpraveˇ byla snaha podat vy´klad statistiky jednoduchy´m zpu˚sobem, ktery´ by akcentoval za´klady statisticke´ pra´ce a usuzova´nı´, prˇitom vsˇak prˇimeˇrˇeneˇ respektoval exaktnı´ pozadı´ te´to veˇdnı´ disciplı´ny. Proto je kniha vhodna´ prˇedevsˇ´ım pro studium za´kladu˚ statistiky zejme´na na fakulta´ch s ekonomicky´m nebo technicky´m zameˇrˇenı´m. Statistika je veˇdnı´ disciplı´na, ktera´ je vybudovana´ na trˇech pilı´rˇ´ıch: teorii pravdeˇpodobnosti, teorii na´hodne´ velicˇiny a popisne´ statistice. Abychom dobrˇe porozumeˇli smyslu statistiky a jejı´mu mozˇne´mu uplatneˇnı´, musı´me pochopit podstatu pravdeˇpodobnosti, nebot’ vsˇechny za´veˇry, ke ktery´m statistika svy´mi metodami a prostrˇedky dojde, neplatı´ s exaktnı´ matematickou prˇesnostı´, ale majı´ vzˇdy platnost pouze s jistou pravdeˇpodobnostı´ – hovorˇ´ı se o spolehlivosti. Slovo „pouze“ neprˇedurcˇuje statistice vy´znam mensˇ´ı nezˇ matematice, ale jiny´ nezˇ matematice. Statistika je totizˇ disciplı´na velmi prakticka´ a zaby´va´ se vsˇemi takovy´mi rea´lny´mi situacemi, ve ktery´ch se potrˇebujeme oprˇ´ıt o nezna´me´ informace. Ty jsou zjednodusˇeneˇ rˇecˇeno zatı´m skryte´ v tzv. teoreticky´ch modelech, popisujı´cı´ch tzv. na´hodne´ velicˇiny. Odkry´va´nı´ nezna´my´ch informacı´ v nejru˚zneˇjsˇ´ıch rea´lny´ch situacı´ch na´m umozˇnı´ popisna´ statistika, ktera´ pracuje s nameˇrˇeny´mi nebo zjisˇteˇny´mi daty a informace o nich shrne do tzv. empiricke´ho modelu. Na prvnı´ pohled je zrˇejme´, zˇe vyjmenovane´ pilı´rˇe tu „pravou“ statistiku jesˇteˇ netvorˇ´ı. Vztah mezi teoreticky´m a empiricky´m modelem prˇ´ımo souvisı´ s filozofiı´ statistiky. Takova´ statistika ma´ totizˇ induktivnı´ charakter a zaby´va´ se tı´m, jak odhadnout ty vlastnosti teoreticke´ho modelu, ktere´ na´s zajı´majı´ a prˇitom je nezna´me, pomocı´ modelu empiricke´ho. Vy´klad cele´ problematiky v te´to ucˇebnici je proto zalozˇen na vybudova´nı´ za´kladnı´ch pojmu˚ a vztahu˚, srozumitelne´m popisu za´kladnı´ch metod a je protka´n rˇadou rˇesˇeny´ch prˇ´ıkladu˚. Teoreticke´ za´klady se opı´rajı´ zejme´na o vlastnosti norma´lnı´ho rozdeˇlenı´ a o centra´lnı´ limitnı´ veˇtu. Potrˇeba zpracova´vat pozorova´nı´ cˇi meˇrˇenı´, shrnout data a postihnout, co rˇ´ıkajı´, zanedbat nepodstatne´ detaily a odhalit spolecˇne´ vlastnosti je prˇ´ıtomna´ v mnoha veˇdnı´ch oborech. Proto nacha´zı´ metody matematicke´ statistiky prakticke´ uplatneˇnı´ v sˇiroke´ trˇ´ıdeˇ oblastı´, prˇi rˇesˇenı´ neprˇeberne´ho mnozˇstvı´ prakticky´ch proble´mu˚. Neusta´le se proto i v textu zdu˚raznˇuje nejdu˚lezˇiteˇjsˇ´ı atribut statistiky, a tı´m je prakticka´ a rea´lna´ podoba rˇesˇeny´ch proble´mu˚.
9
10
Prˇedmluva
Soucˇa´stı´ dnesˇnı´ho modernı´ho sveˇta je uzˇitı´ vy´pocˇetnı´ techniky ve vsˇech sfe´ra´ch zˇivota. Statistika je, pra´veˇ s ohledem na pra´ci s datovy´mi mnozˇinami, prˇ´ımo prˇedurcˇena k vyuzˇitı´ pocˇ´ıtacˇu˚. Na tuto skutecˇnost reaguje i prˇ´ıstup pedagogu˚ k vy´uce statistiky na mnoha fakulta´ch. Vy´klad a rˇesˇenı´ prakticky´ch u´loh je v te´to ucˇebnici prˇ´ımo podporova´n elektronickou aplikacı´ STAT1, ktera´ pracuje v excelovske´m prostrˇedı´ a umozˇnˇuje kazˇde´mu studentovi interaktivneˇ vnı´mat popsane´ statisticke´ metody. U vybrany´ch prˇ´ıkladu˚ je pouzˇitı´ te´to aplikace podrobneˇ popsane´. Aplikaci je mozˇne´ pouzˇ´ıt i na analy´zy vlastnı´ch dat. Aplikaci STAT1 spolu se statisticky´mi tabulkami najdete na adrese http://k101.unob.cz/stat1/. ´ stavu mateRa´di bychom podeˇkovali kolegovi doc. RNDr. Jaroslavu Micha´lkovi, CSc. z U matiky FSI VUT Brno, ktery´ se ujal u´lohy lektora, knihu pozorneˇ prˇecˇetl a doporucˇil neˇkolik u´prav.
V Brneˇ 29. 6. 2012
Autorˇi
Kapitola 1
´ vod do statistiky U
Prvnı´ kapitolu te´to knihy veˇnujeme u´vodnı´mu sezna´menı´ se statistikou. Prˇedstavı´me si statistiku jako veˇdnı´ disciplı´nu, ktera´ se vyvinula z pu˚vodnı´ch staroveˇky´ch scˇ´ıta´nı´ obyvatel a majetku azˇ k soucˇasnosti. Dozvı´me se, co si vlastneˇ ma´me prˇedstavit pod pojmem statistika a jakou roli hraje statistika v modernı´ spolecˇnosti. Zacˇneme si budovat odborny´ slovnı´k a zavedeme si za´kladnı´ pojmy, abychom se v odborne´m prostrˇedı´ domluvili a take´ rozumeˇli tomu, co se kde ve „statisticke´m jazyku“ pı´sˇe cˇi mluvı´.
1.1 Historicky´ prˇehled Slovo statistika pocha´zı´ z italske´ho stato, pu˚vodneˇ s vy´znamem stav, od konce strˇedoveˇku take´ sta´tnı´ u´zemı´, resp. sta´t. Jako prvnı´ jej patrneˇ pouzˇil Girolamo Ghilini (1589–1669) v pra´ci Ristretto della civile, politica, statistica e militare scienza (Shrnutı´ civilnı´, politicke´, statisticke´ a vojenske´ veˇdy), ve ktere´ shroma´zˇdil ru˚zne´ znalosti te´ doby o sta´tu, o jeho obyvatelı´ch, zˇivoteˇ, pra´vu, obchodu i vy´robeˇ, na´bozˇenstvı´ i arma´deˇ. Prˇedevsˇ´ım v tomto smyslu se potom slovo stato rozsˇ´ırˇilo i do jiny´ch jazyku˚, naprˇ. ve tvaru state, Staat, e´tat, estato. Podneˇty pro vznik statistiky Prvnı´ historicke´ zmı´nky o cˇinnostech, ktere´ z dnesˇnı´ho pohledu prˇipomı´najı´ statistiku, pocha´zejı´ uzˇ ze staroveˇku. Za´znamy o scˇ´ıta´nı´ obyvatel a majetku mu˚zˇeme najı´t uzˇ v pı´semnostech stary´ch Babylonˇanu˚ z obdobı´ prˇed rokem 3800 prˇ. n. l. Historicky nejstarsˇ´ım smeˇrem ovlivnˇujı´cı´m take´ vznik statistiky byla existence prvnı´ch meˇstsky´ch sta´tu˚ v 3. a 2. tisı´ciletı´ prˇ. n. l. ve ˇ ecko nebo R ˇ ´ım. staroveˇky´ch civilizacı´ch, jaky´mi byly Egypt, Cˇ´ına, Mezopota´mie, Palestina, R Se vznikem meˇstsky´ch sta´tu˚ vznika´ take´ potrˇeba jejich spra´vy, se kterou jsou spojene´ nemale´ na´klady, proto se zvysˇuje vy´beˇr danı´. K urcˇenı´ jejich vy´sˇe je ale nezbytne´ mı´t cˇ´ıselne´ u´daje o u´zemı´, obyvatelstvu, zemeˇdeˇlstvı´, obchodu, rˇemeslech apod. Tyto informace se zı´ska´vajı´ zejme´na na za´kladeˇ soupisu obyvatelstva a dalsˇ´ıch sˇetrˇenı´, ktera´ majı´ z dnesˇnı´ho pohledu charakter statisticky´ch sˇetrˇenı´. Jednu z prvnı´ch zmı´nek o statisticke´m sˇetrˇenı´ nalezneme take´ v Bibli, kde je ve Stare´m za´koneˇ ve 4. knize Mojzˇ´ısˇoveˇ informace o scˇ´ıta´nı´ provedene´m Mojzˇ´ısˇem po odchodu izraelske´ho na´roda z Egypta a obsahuje konkre´tnı´ pocˇty bojovnı´ku˚, oddı´lu˚ a velitelu˚. Pozdeˇji take´ narˇ´ıdil scˇ´ıta´nı´ lidu motivovane´ vojensky kra´l David.
11
12
1.1 Historicky´ prˇehled
ˇ ´ımeˇ v 5. stoletı´ prˇ. n. l. Scˇ´ıta´nı´ meˇli na starosti Velke´ scˇ´ıta´nı´ lidu zavedli take´ ve staroveˇke´m R vysocı´ u´rˇednı´ci, nazy´vanı´ cenzorˇi. Scˇ´ıta´nı´ (cenzy) se konala kazˇdy´ch peˇt let a zjisˇt’ovaly se nejen pocˇty obyvatel a jejich majetek, ale take´ naprˇ. pocˇet otroku˚. Podobne´ pru˚zkumy se postupneˇ rozsˇirˇovaly i na dalsˇ´ı evropske´ zemeˇ azˇ do obdobı´ strˇedoveˇku. Od 16. stoletı´ byly zrˇizova´ny cı´rkevnı´ matriky, ktere´ se na dlouhou dobu staly za´kladnı´m zdrojem informacı´ o obyvatelstvu. Trˇi korˇeny statistiky Vlastnı´ termı´n statistika se zacˇal pouzˇ´ıvat azˇ v 18. stoletı´ v Neˇmecku pro oznacˇenı´ nauky o sta´tu. Tato veˇdecka´ disciplı´na se zacˇala rozvı´jet v 16. stoletı´ na univerzita´ch v Ita´lii a pozdeˇji take´ pra´veˇ v Neˇmecku, proto se jı´ rˇ´ıka´ univerzitnı´ statistika. Tehdejsˇ´ı statisticke´ studie obsahovaly prˇedevsˇ´ım u´daje o evropsky´ch sta´tech – geograficke´, politicke´, ekonomicke´ a dalsˇ´ı. Na rozdı´l od dnesˇnı´ statistiky neobsahovaly mnoho cˇ´ısel, veˇtsˇina zaznamenany´ch u´daju˚ meˇla charakter slovnı´. Jedno z prvnı´ch sta´toveˇdny´ch deˇl O vla´deˇ a spra´veˇ v ru˚zny´ch kra´lovstvı´ch a republika´ch vysˇlo v roce 1562 v Bena´tka´ch a napsal je Francesco Sansovina. Prˇesneˇ o sto let pozdeˇji uverˇejnil Ludwig von Seckendorff svou sta´toveˇdnou knihu Neˇmecky´ knı´zˇecı´ sta´t. Na jejich pra´ce navazuje nejvy´znamneˇjsˇ´ı teoretik statistiky v neˇmecke´ jazykove´ oblasti Gottfried Achenwall (1719–1772). Byl profesorem statistiky na univerziteˇ v Go¨ttingenu a autorem popula´rnı´ ucˇebnice statistiky, ktera´ byla prˇedepsa´na pro prˇedna´sˇky statistiky i na Karloveˇ univerziteˇ v Praze. V Anglii mezitı´m vznikl zcela jiny´ okruh statistiky, a to takzvana´ politicka´ aritmetika, ktera´ vycha´zela z u´daju˚ o narozenı´ch a u´mrtı´ch, a na tomto za´kladeˇ se pokousˇela pozorovat a srovna´vat informace o obyvatelstvu za delsˇ´ı cˇasove´ u´seky. Tyto pru˚zkumy vycha´zely z u´daju˚ tehdejsˇ´ıch cı´rkevnı´ch matrik a na jejich za´kladeˇ se snazˇily odvodit neˇktere´ obecneˇ platne´ za´konitosti (naprˇ. zˇe se rodı´ obecneˇ vı´ce chlapcu˚ nezˇ deˇvcˇat). Jejı´ nejvy´znamneˇjsˇ´ı prˇedstavitele´ jsou William Petty (1623–1687) a John Graunt (1620– 1674). Petty je povazˇova´n za prˇedchu˚dce modernı´ statistiky i klasicke´ politicke´ ekonomie. Jeho nejvy´znamneˇjsˇ´ı dı´lo Peˇt esejı´ o politicke´ aritmetice bylo vyda´no posmrtneˇ (1960). Graunt byl obchodnı´k a zaby´val se prˇedevsˇ´ım demografiı´. Napsal prvnı´ ucelenou demografickou studii s poneˇkud pochmurny´m na´zvem Prˇirozena´ a politicka´ pozorova´nı´ zalozˇena´ na seznamech zemrˇely´ch (1662). V 18. stoletı´ se toto zameˇrˇenı´ statistiky zacˇalo prosazovat i v Neˇmecku a obeˇ statisticke´ sˇkoly se zacˇaly vza´jemneˇ ovlivnˇovat a postupneˇ sblizˇovat. Statistika zacˇala ve veˇtsˇ´ı mı´rˇe pouzˇ´ıvat cˇ´ısla a prˇestala se zaby´vat pouze popisem sta´tnı´ch pozoruhodnostı´. Postupneˇ zacˇala pronikat i do jiny´ch veˇdecky´ch disciplı´n, aby se nakonec prosadila jako samostatna´ veˇda. Neza´visle na statistice se od 17. stoletı´ zacˇala rozvı´jet jesˇteˇ jina´ teoreticka´ disciplı´na, ktera´ vznikla jako soucˇa´st matematiky – teorie pravdeˇpodobnosti. Zatı´mco statistika zkouma´ hromadne´ jevy, teorie pravdeˇpodobnosti se naopak zaby´va´ jevy individua´lnı´mi, jedinecˇny´mi. Pravdeˇpodobnost je cha´pa´na jako cˇ´ıselne´ ohodnocenı´ sˇance – nadeˇje, zˇe sledovany´ konkre´tnı´ jev nastane. Ve skutecˇnosti vsˇak statistika a teorie pravdeˇpodobnosti prˇedstavujı´ dva pohledy na stejny´ proble´m. Kazˇdy´ hromadny´ jev je totizˇ tvorˇen jednotlivy´mi jevy individua´lnı´mi, a naopak opakova´nı´m individua´lnı´ho jevu zı´ska´me jev hromadny´. V soucˇasne´ dobeˇ nelze
1.1 Historicky´ prˇehled
13
teorii pravdeˇpodobnosti a statistiku od sebe oddeˇlit – teorie pravdeˇpodobnosti je povazˇova´na za teoreticky´ za´klad statistiky. Rozvoj teorie pravdeˇpodobnosti byl zpocˇa´tku inspirova´n hlavneˇ hazardnı´mi hrami. Za jejı´ pocˇa´tek se povazˇuje slavna´ vy´meˇna dopisu˚ mezi matematiky Blaisem Pascalem (1623– 1662) a Pierrem de Fermatem (1601–1665) zaha´jena´ roku 1654. Sˇlo jim tehdy o ota´zku, jak spravedliveˇ rozdeˇlit bank mezi hra´cˇe, jestlizˇe se´rie hazardnı´ch her musela by´t prˇedcˇasneˇ prˇerusˇena. Tehdy rozvı´jene´ teorii pravdeˇpodobnosti dnes rˇ´ıka´me klasicka´ pravdeˇpodobnost. Mezi dalsˇ´ı osobnosti, ktere´ se veˇnovali teorii pravdeˇpodobnosti, patrˇ´ı sˇvy´carsˇtı´ matematici (bratrˇi) Jacob Bernoulli (1656–1705) a Johann Bernoulli (1667–1748), francouzsˇtı´ matematici Abraham de Moivre (1667–1754), Pierre Simon de Laplace (1749–1827) a take´ Sime´on Denis Poisson (1781–1840), se ktery´m se setka´me v 5. kapitole – viz Poissonovo rozdeˇlenı´ pravdeˇpodobnosti, ktere´ je vhodne´ pro popis jevu˚ s nı´zkou pravdeˇpodobnostı´ jevu prˇi znacˇne´m rozsahu vy´beˇrove´ho souboru. Vy´znamny´ prˇ´ıspeˇvek k teorii chyb prˇedlozˇil take´ vynikajı´cı´ neˇmecky´ matematik Carl Friedrich Gauss (1777–1855), ktery´ prˇispeˇl k formulova´nı´ tzv. norma´lnı´ho rozdeˇlenı´ pravdeˇpodobnosti – viz 6. kapitola. Statistika jako nova´ veˇda Postupny´m sply´va´nı´m nauky o sta´tu, politicke´ aritmetiky a teorie pravdeˇpodobnosti vznikla v 18. a 19. stoletı´ statistika jako samostatna´ veˇdnı´ disciplı´na, ktera´ popisovala hromadne´ jevy v noveˇ vznikajı´cı´ch veˇda´ch – prˇ´ırodnı´ch, technicky´ch i ekonomicky´ch. Statistika tohoto obdobı´ se zaby´vala prˇedevsˇ´ım popisem zkoumany´ch hromadny´ch jevu˚, proto se take´ nazy´va´ popisna´ – deskriptivnı´ statistika. Metodou statisticky´ch pru˚zkumu˚ byla vycˇerpa´vajı´cı´ sˇetrˇenı´ prova´deˇna´ podle za´sady: cˇ´ım vı´ce u´daju˚ zı´ska´me, tı´m prˇesneˇjsˇ´ı budou za´veˇry. Toto pravidlo ve statistice prˇevla´dalo azˇ do konce 19. stoletı´. Vy´znamnou osobnostı´ nove´ statistiky byl belgicky´ matematik Adolphe Jacques Que´telet (1796–1874), ktery´ je zakladatelem prvnı´ho na´rodnı´ho statisticke´ho u´rˇadu (1841) v Evropeˇ. Mimo jine´ se veˇnoval rozsa´hle´mu sbeˇru dat o lidske´ populaci a prezentoval svu˚j pojem „pru˚meˇrne´ho cˇloveˇka“ jako centra´lnı´ hodnoty, kolem ktere´ se meˇrˇene´ teˇlesne´ mı´ry shlukujı´ podle Gaussovy krˇivky – viz 6. kapitola. V te´ souvislosti zavedl take´ pojem index teˇlesne´ hmotnosti pouzˇ´ıvany´ dodnes pro stanovenı´ mı´ry obezity a zna´my´ pod zkratkou BMI (body mass index). Naznacˇil tak budoucı´ smeˇrˇova´nı´ statistiky k norma´lnı´mu rozdeˇlenı´, strˇednı´ hodnoteˇ a rozptylu. Pomohl rovneˇzˇ zave´st statisticke´ techniky do kriminalistiky, pomocı´ statisticke´ analy´zy porozumeˇl Que´telet vztahu mezi zlocˇinem a ostatnı´mi sociologicky´mi faktory. Na prˇelomu 19. a 20. stoletı´ vsˇak docha´zı´ ve vy´voji statistiky k za´sadnı´ zmeˇneˇ. Zacˇala e´ra matematicke´ – induktivnı´ statistiky, ktera´ na za´kladeˇ teorie pravdeˇpodobnosti umozˇnˇuje zı´skat kvalifikovane´ za´veˇry – odhady o sledovane´m jevu i z male´ho dostupne´ho vzorku u´daju˚. Nove´ statisticke´ postupy otevrˇely mozˇnosti pro nejru˚zneˇjsˇ´ı typy pru˚zkumu˚, ve ktery´ch se z vlastnostı´ cˇa´sti usuzuje na chova´nı´ celku. Na ba´zi induktivnı´ statistiky vznikly take´ extrapolacˇnı´ – prognosticke´ metody, ktere´ na za´kladeˇ znalosti dat z minulosti umozˇnı´ vytvorˇit kvalifikovany´ odhad chova´nı´ v budoucnosti. Teˇzˇisˇteˇ rozvoje induktivnı´ statistiky se do znacˇne´ mı´ry prˇesunulo do anglo-americke´ oblasti a je spojeno prˇedevsˇ´ım se jme´nem anglicke´ho statistika sira Ronalda Aylmera Fishera (1890–1962), ktery´ sta´l u vzniku mnoha dnes obvykly´ch metod statisticke´ analy´zy. Je pova-
14
1.1 Historicky´ prˇehled
zˇova´n za zakladatele teorie pla´nova´nı´ experimentu˚ v biologicke´m a zemeˇdeˇlske´m vy´zkumu. Vy´znamny´ch vy´sledku˚ dosa´hl i dalsˇ´ı anglicky´ statistik William Sealy Gosset (1876–1937), ktery´ pracoval jako chemik v irske´m pivovaru Guinness a tam vymyslel postup, ktery´ umozˇnil prova´deˇt z maly´ch vy´beˇru˚ pouzˇitelne´ za´veˇry, prˇinejmensˇ´ım vsˇak poznat, jak posuzovat vypovı´dacı´ hodnotu takovy´ch vy´beˇru˚. Gosset se pod sva´ pru˚kopnicka´ dı´la podepisoval pseudonymem „Student“, protozˇe jeho firma mu publikova´nı´ vy´sledku˚ pod vlastnı´m jme´nem zaka´zala. Dalsˇ´ı vy´znamnı´ prˇedstavitele´ anglicke´ statisticke´ sˇkoly byli Francis Galton (1822–1911) a Charles Pearson (1857–1936), kterˇ´ı polozˇili za´klady zkouma´nı´ za´vislostı´ mezi hromadny´mi jevy. K rozvoji matematicke´ statistiky prˇispeˇli take´ rusˇtı´ matematici: Pafnutij Lvovicˇ Cˇebysˇev (1821–1894), Andrej Andrejevicˇ Markov (1856–1922) a Andrej Nikolajevicˇ Kolmogorov (1903–1987), ktery´ je povazˇova´n za zakladatele modernı´ teorie pravdeˇpodobnosti. U na´s dosa´hli pozoruhodny´ch vy´sledku˚ dveˇ osobnosti. Prvnı´m byl profesor Jaroslav Janko (1893–1965). Svou celozˇivotnı´ cˇinnostı´ velmi vy´znamneˇ prˇispeˇl k rozvoji matematickostatisticky´ch metod, k jejich nanejvy´sˇ uzˇitecˇne´mu uplatneˇnı´ ve vy´zkumu a praxi, a zapsal se tak do historie matematicke´ statistiky u na´s. Zna´ma´ jsou jeho dı´la Jak vytva´rˇ´ı statistika obrazy sveˇta a zˇivota, Za´klady statisticke´ indukce a Statisticke´ tabulky. Druhy´m je profesor Jaroslav Ha´jek (1926–1974), ktere´ho lze povazˇovat za nejvy´znamneˇjsˇ´ıho cˇeske´ho statistika v historii cˇeske´ matematiky. Jeho odborne´ aktivity byly zameˇrˇene´ na neparametricke´ statisticke´ metody. Soucˇasna´ statistika Statistika dnes prˇedstavuje veˇdnı´ disciplı´nu se sˇiroky´m prakticky´m uplatneˇnı´m. Pouzˇ´ıva´ se zejme´na jako du˚lezˇity´ na´stroj zı´ska´va´nı´ informacı´ ve verˇejny´ch sfe´ra´ch nasˇeho zˇivota, ale i jako du˚lezˇity´ na´stroj rˇesˇenı´ nejru˚zneˇjsˇ´ıch odborny´ch proble´mu˚, zejme´na technicky´ch, prˇ´ırodoveˇdny´ch, ekonomicky´ch, vojensky´ch, socia´lnı´ch. Je tomu tak proto, zˇe modernı´ statistika vyuzˇ´ıva´ vsˇech postupu˚ a metod, ktere´ beˇhem sve´ho dlouhe´ho vy´voje vytvorˇila nebo si osvojila. Pouzˇ´ıva´ jak prvky klasicke´ popisne´ statistiky, zalozˇene´ na analy´ze hromadny´ch dat, tak i prvky modernı´ matematicke´ statistiky, postavene´ na teorii pravdeˇpodobnosti. Proto statistiku vnı´ma´me nejen jako na´stroj pozna´nı´ (velky´ neprˇehledny´ soubor dat doka´zˇe nahradit neˇkolika vy´stizˇny´mi charakteristikami), ale take´ jako na´stroj rozhodova´nı´ v neurcˇitosti (na za´kladeˇ vlastnosti vzorku usuzuje na vlastnosti cele´ho souboru, poprˇ. z informacı´ o minulosti prˇedvı´da´ vy´voj v budoucnosti). Velky´ vy´znam pro rozvoj a vyuzˇitı´ statisticky´ch metod meˇl na´stup vy´pocˇetnı´ch technologiı´, zejme´na osobnı´ch pocˇ´ıtacˇu˚. Pocˇ´ıtacˇ vı´teˇzı´ nad cˇloveˇkem prˇedevsˇ´ım v teˇch u´konech, ktere´ jsou pro cˇloveˇka tradicˇneˇ nejzdlouhaveˇjsˇ´ı – trˇ´ıdeˇnı´, vyhleda´va´nı´ a vy´pocˇty s velky´m mnozˇstvı´m dat. Pocˇ´ıtacˇu˚m jsou vlastnı´ take´ mozˇnosti tabulkove´ho zpracova´nı´ a graficke´ho vyjadrˇova´nı´. Mezi nejzna´meˇjsˇ´ı profesiona´lnı´ statisticke´ programy se sˇiroky´m portfoliem metod a technik patrˇ´ı Statistica, SPSS, SAS, Statgraphics, Minitab a dalsˇ´ı, z cˇesky´ch produktu˚ QCExpert. Pro potrˇebu vy´uky statistiky vyuzˇ´ıva´ rˇada sˇkol i tabulkovy´ kalkula´tor MS Excel, ktery´ patrˇ´ı k za´kladnı´ vy´baveˇ osobnı´ho pocˇ´ıtacˇe. Nasˇe ucˇebnice bude podporovana´ jednoduchou aplikacı´ STAT1, vytvorˇenou pra´veˇ v excelovske´m prostrˇedı´. Statistika byla zpocˇa´tku vyuzˇ´ıva´na spı´sˇe ve veˇda´ch prˇ´ırodnı´ch (fyzika, chemie) a technicky´ch, v poslednı´ch letech vsˇak zaznamena´va´ u´speˇch take´ v disciplı´na´ch humanitnı´ho charakteru, naprˇ´ıklad v psychologii, sociologii, pedagogice, ale take´ v ekonomii, ktera´ pu˚-
1.1 Historicky´ prˇehled
15
vodneˇ vznikla jako veˇda socia´lnı´, beˇhem cˇasu se svy´mi metodami prˇiblı´zˇila spı´sˇe veˇda´m prˇ´ırodnı´m. K vy´razneˇjsˇ´ımu rozvoji statisticky´ch metod dosˇlo na prˇelomu 19. a 20. stoletı´, a to zejme´na dı´ky novy´m objevu˚m ve statistice (zejme´na na´stupu metod matematicke´ statistiky). To vedlo k dalsˇ´ımu prˇiblizˇova´nı´ statistiky rea´lne´mu zˇivotu a prudke´mu rozvoji aplikacı´ statistiky v nejru˚zneˇjsˇ´ıch oborech lidske´ cˇinnosti. Vznikaly tak postupneˇ specia´lnı´ statisticke´ metody, ktere´ tvorˇily za´klad specia´lnı´ch veˇdnı´ch disciplı´n. Pod na´zvem biostatistika, resp. biometrika se naprˇ. rozumı´ aplikace statistiky na biologicke´ proble´my, zatı´mco pro analy´zu chemicky´ch dat se spı´sˇe uzˇ´ıva´ termı´n chemometrie. Hlavnı´m cı´lem aplikacı´ statisticky´ch metod v biomedicı´nske´m vy´zkumu je zajistit spra´vnost a odbornost statisticke´ho vyhodnocova´nı´ dat a interpretace zı´skany´ch vy´sledku˚. Pouzˇ´ıva´nı´ pocˇ´ıtacˇu˚ k teˇmto u´cˇelu˚m je v dnesˇnı´ dobeˇ samozrˇejme´. Aplikacı´ statisticky´ch metod na ekonomicka´ a socia´lneˇ-ekonomicka´ data vznikla samostatna´ statisticka´ disciplı´na, ekonomicka´ statistika. Prˇedmeˇtem ekonomicke´ statistiky je analy´za stavu a vy´voje jevu˚ v hospoda´rˇske´ oblasti jako vy´chodiska k hospoda´rˇske´mu rozhodova´nı´ cˇi stanovenı´ hospoda´rˇske´ politiky. Na vyuzˇitı´ statisticky´ch metod je zalozˇeny´ pru˚zkum trhu, pla´nova´nı´ vy´roby, prognostika, kontrola kvality vy´roby, persona´lnı´ politika, vy´rocˇnı´ zpra´vy (urcˇene´ akciona´rˇu˚m). Jesˇteˇ k vysˇsˇ´ı kvaliteˇ ekonomicke´ analy´zy vede disciplı´na oznacˇovana´ jako ekonometrie. Ta prˇedstavuje synte´zu ekonomicke´ teorie, informatiky, matematiky a statistiky. Tato synte´za nenı´ vsˇak mechanicky´m spojenı´m ekonomicke´ analy´zy s apara´tem matematiky a statistiky, resp. elektronicky´mi prostrˇedky, ale jde o propojenı´ vza´jemneˇ se podminˇujı´cı´ch veˇdnı´ch disciplı´n. ˇ esky´ch zemı´ch Statistika v C Statistika je s historiı´ nasˇeho u´zemı´ spjata jizˇ od nepameˇti. Du˚vody jsou zcela prakticke´ a zrˇejme´. Kazˇdy´ vla´dce chteˇl mı´t prˇehled, jaky´ ma´ majetek, kolik ma´ k dispozici muzˇu˚ do vojska cˇi od kolika poddany´ch mu˚zˇe vyma´hat daneˇ. Ale du˚vody pro statisticke´ zjisˇt’ova´nı´ byly mnohdy i zcela jine´ho, huma´nneˇjsˇ´ıho ra´zu. Naprˇ´ıklad za vla´dy cı´sarˇe Rudolfa II. v roce 1583 vypukla v cˇesky´ch zemı´ch epidemie moru. V jejı´m du˚sledku bylo zaha´jeno sˇetrˇenı´ o „zdravı´ populace“, ktere´ meˇlo zmapovat vznik a rozvoj zhoubny´ch epidemiı´ a umozˇnit prˇijı´ma´nı´ vcˇasny´ch protiopatrˇenı´. Jako vy´znamny´ meznı´k lze oznacˇit datum 13. rˇ´ıjna 1753, kdy byl vyda´n patent cı´sarˇovny Marie Terezie o kazˇdorocˇnı´m scˇ´ıta´nı´ lidu. Zdokonalenı´ evidence obyvatel souviselo s rozsa´hlou reformnı´ cˇinnostı´ Marie Terezie (1717–1780), nebot’ k provedenı´ cˇetny´ch reforem bylo nutne´ zı´skat objektivnı´ informace o obyvatelstvu. Za vla´dy Marie Terezie dosˇlo take´ k reformeˇ evidence narozeny´ch a zemrˇely´ch. V te´to souvislosti byla zavedena i prvnı´ jednoducha´ statisticka´ klasifikace prˇ´ıcˇin u´mrtı´. ˇ ada Jak uzˇ vı´me, prvnı´ statisticky´ u´rˇad v Evropeˇ byl zalozˇen v roce 1841 v Belgii. R evropsky´ch zemı´ Que´teletu˚v u´rˇad na´sledovala. V roce 1897 byl zrˇ´ızen Zemsky´ statisticky´ u´rˇad Kra´lovstvı´ cˇeske´ho, ktery´ se stal prvnı´m skutecˇneˇ statisticky´m u´rˇadem na u´zemı´ dnesˇnı´ Cˇeske´ republiky. Poprve´ byla soustrˇedeˇna na jednom mı´steˇ vsˇechna statisticka´ pracovisˇteˇ, ktera´ azˇ do te´ doby pu˚sobila v ra´mci ru˚zny´ch ministerstev a dalsˇ´ıch institucı´. Brzy po vzniku samostatne´ho Cˇeskoslovenska, uzˇ v roce 1919, byl zalozˇen Sta´tnı´ u´rˇad ´ S) jako novy´ orga´n poveˇrˇeny´ celosta´tnı´mi statisticky´mi sˇetrˇenı´mi, mezi neˇzˇ statisticky´ (SU ´ rˇad se v obdobı´ mezi sveˇtovy´mi va´lkami patrˇilo jako jedno z nejdu˚lezˇiteˇjsˇ´ıch i scˇ´ıta´nı´ lidu. U
16
1.1 Historicky´ prˇehled
rozvı´jel, zdokonaloval a rozsˇirˇoval svoji cˇinnost. K tomu prˇispeˇlo i u´zke´ sepeˇtı´ se statistickou teoriı´. Ve 20. a 30. letech 20. stoletı´ byla te´meˇrˇ polovina kapacity statisticke´ho u´rˇadu veˇnova´na veˇdecke´ a teoreticke´ cˇinnosti. V obdobı´ 2. sveˇtove´ va´lky se cˇinnost statistiky v Cˇecha´ch a na Moraveˇ omezila a odpovı´dala va´lecˇny´m podmı´nka´m i postavenı´ nasˇeho u´zemı´. Perzekuova´na byla rˇada pracovnı´ku˚ ´ S, neˇkterˇ´ı z nich byli popraveni (naprˇ. prˇedseda u´rˇadu Dr. Jan Auerhan byl 6. 6. 1942 zaSU tcˇen gestapem a 9. 6. 1942 zastrˇelen), jinı´ zemrˇeli v nacisticky´ch veˇznicı´ch a koncentracˇnı´ch ta´borech. Bezprostrˇedneˇ po skoncˇenı´ 2. sveˇtove´ va´lky byla cˇinnost Sta´tnı´ho u´rˇadu statisticke´ho obnovena, s cı´lem vra´tit jej na prˇedva´lecˇnou u´rovenˇ. Po roce 1948 se cˇeskoslovenska´ statistika (zejme´na v ekonomicke´ oblasti) zameˇrˇovala zejme´na na u´koly na´rodohospoda´rˇske´ evidence a kontrolu plneˇnı´ pla´nu. Po pa´du komunisticke´ho rezˇimu v roce 1989 se obnovily prˇedpoklady pro budova´nı´ objektivnı´, nestranne´ a nestranicke´ sta´tnı´ statisticke´ sluzˇby. K 1. 1. 1993, se vznikem CˇR, prˇevzal ´ ) vsˇechny kompetence na´rodnı´ho statisticke´ho u´rˇadu. Jeho u´koly Cˇesky´ statisticky´ u´rˇad (CˇSU a postavenı´, stejneˇ jako za´sady a u´koly fungova´nı´ sta´tnı´ statisticke´ sluzˇby v CˇR, upravil za´kon cˇ. 89/1995 Sb., o sta´tnı´ statisticke´ sluzˇbeˇ, ktery´ byl jesˇteˇ novelizova´n k 1. 1. 2001. Jeho hlavnı´m u´kolem je shromazˇd’ovat a zverˇejnˇovat statisticke´ informace o socia´lnı´m a ekonomicke´m rozvoji Cˇeske´ republiky a obstara´vat statisticke´ informace pro potrˇeby dalsˇ´ıch orga´nu˚ sta´tnı´ ´ v Praze existujı´ krajske´ respra´vy a u´zemnı´ samospra´vy. Vedle centra´lnı´ho pracovisˇteˇ CˇSU ˇ ´ byl cˇechokanad’an Edvard prezentace ve vsˇech 14 krajsky´ch meˇstech. Prvnı´m prˇedsedou CSU Outrata (*1936). Mimo oficia´lnı´ soustavu sta´tnı´ statistiky stojı´ rˇada specializovany´ch komercˇnı´ch agentur, ktere´ se prˇedevsˇ´ım zaby´vajı´ statisticky´mi pru˚zkumy (naprˇ. marketingovy´mi) pro podnikatelske´ subjekty, ale jsou take´ poveˇrˇova´ny u´koly pro sta´tnı´ statistiku. V soucˇasnosti existujı´ orga´ny statisticke´ sluzˇby prakticky ve vsˇech zemı´ch Evropy. Jejich konkre´tnı´ podoba a struktura se vsˇak mu˚zˇe sta´t od sta´tu lisˇit, i kdyzˇ v poslednı´ dobeˇ docha´zı´ ke koordinaci sta´tnı´ch statistik v ra´mci vsˇech cˇlensky´ch i prˇidruzˇeny´ch zemı´ EU. Centra´lnı´m statisticky´m orga´nem Evropske´ unie je EUROSTAT, ktery´ ma´ sı´dlo v Lucemburku, jeho soucˇasny´m genera´lnı´m rˇeditelem je Walter Radermacher (*1952). Shromazˇd’uje statisticke´ informace o cˇlensky´ch zemı´ch Evropske´ unie, ale take´ o dalsˇ´ıch evropsky´ch zemı´ch. Sˇest strˇedoevropsky´ch zemı´ (CˇR, Mad’arsko, Polsko, Rumunsko, Slovinsko a Slovensko) spolupracuje na vy´meˇneˇ statisticky´ch informacı´ take´ prostrˇednictvı´m spolecˇne´ nadna´rodnı´ instituce CESTAT.
Prˇ´ıklady k procvicˇenı´ ´ (www.czso.cz), jaky´ 1. Zjisteˇte na stra´nka´ch CˇSU je v CˇR aktua´lnı´ pocˇet obyvatel. 2. Jaka´ instituce zabezpecˇuje v CˇR scˇ´ıta´nı´ lidu? 3. Kdy byl zalozˇeny´ Zemsky´ statisticky´ u´rˇad Kra´lovstvı´ cˇeske´ho? 4. Je mozˇne´ souhlasit s na´sledujı´cı´mi vy´roky? a) Zacˇa´tky statistiky spadajı´ do 18. stoletı´. b) Za prvopocˇa´tky statistiky lze povazˇovat za´znamy o scˇ´ıta´nı´ lidu a majetku ve staroveˇku. c) Pravdeˇpodobnost dnes prˇedstavuje neoddeˇlitelnou soucˇa´st statistiky.
d) Oznacˇenı´ deskriptivnı´ a induktivnı´ statistika prˇedstavuje z prakticke´ho pohledu tote´zˇ. e) Stav a vy´voj v ekonomicke´ oblasti sleduje disciplı´na oznacˇovana´ jako ekonometrie. f) Vrcholny´ statisticky´ u´rˇad EU je Eurostat. 5. Vyjmenujte neˇktere´ historicke´ korˇeny statistiky. Rˇesˇenı´. 2. Cˇesky´ statisticky´ u´rˇad; 3. 1897; 4. a) ne; b) ano; c) ano; d) ne; e) ne; f) ano; 5. neˇmecka´ sta´toveˇda, anglicka´ politicka´ aritmetika a teorie pravdeˇpodobnosti.
1.2 Vy´znam a pojetı´ modernı´ statistiky
17
1.2 Vy´znam a pojetı´ modernı´ statistiky V soucˇasne´ dobeˇ se pojem statistika pouzˇ´ıva´ v ru˚zny´ch vy´znamech, v ru˚zny´ch souvislostech a take´ s ohledem na ru˚zne´ prakticke´ situace. V prakticke´m zˇivoteˇ se mu˚zˇeme setkat se cˇtyrˇmi ru˚zny´mi vy´znamy, ktere´ spolu souvisı´. Statistikou se rozumı´: a) veˇdnı´ disciplı´na, ktera´ se zaby´va´ sbeˇrem, zpracova´nı´m a vyhodnocova´nı´m statisticky´ch u´daju˚, b) cˇ´ıselne´ i necˇ´ıselne´ u´daje nebo souhrn u´daju˚ o hromadny´ch jevech, c) prakticka´ cˇinnost, ktera´ vede k zı´ska´nı´ informacı´ – u´daju˚ o zkoumany´ch jevech, d) instituce, ktera´ prova´dı´ praktickou statistickou cˇinnost nebo tuto cˇinnost rˇ´ıdı´. Abychom si udeˇlali korektnı´ obra´zek o tom, co budeme pod pojmem statistika rozumeˇt a v jaky´ch souvislostech cˇi situacı´ch budeme tento pojem pouzˇ´ıvat, podı´vejme se na na´sledujı´cı´ odstavce. Hromadna´ pozorova´nı´ a hromadne´ jevy Prˇi studiu statistiky budeme vycha´zet, jak uzˇ bylo zmı´neˇno, z teorie pravdeˇpodobnosti, kterou si blı´zˇe popı´sˇeme ve 3. kapitole. Za´kladnı´m pojmem pravdeˇpodobnosti jsou tzv. na´hodne´ pokusy, tj. takove´ pokusy, jejichzˇ vy´sledky nelze prˇedem stanovit. Pro vy´sledky jednotlivy´ch na´hodny´ch pokusu˚ zavedeme oznacˇenı´ na´hodne´ jevy. Pro statisticke´ pozorova´nı´ – neˇkdy se take´ hovorˇ´ı o statisticke´m sˇetrˇenı´ – jsou typicke´ hromadne´ jevy. Prˇ´ıvlastkem hromadny´ zdu˚raznˇujeme, zˇe se statistika zaby´va´ pouze takovy´mi na´hodny´mi jevy, ktere´ se v prostoru a cˇase mohou mnohokra´t opakovat nebo se vyskytujı´ ve velke´m pocˇtu prˇ´ıpadu˚. To tedy znamena´, zˇe jevy jedinecˇne´ (neopakovatelne´) statistika do sve´ho zkouma´nı´ nezahrnuje. Hromadne´ jevy jsou tedy vy´sledky hromadny´ch pozorova´nı´, ktera´ se uskutecˇnˇujı´ v podstateˇ dveˇma zpu˚soby: a) jako vy´sledky opakovany´ch pokusu˚ – tj. za sta´ly´ch podmı´nek opakujeme na´hodny´ pokus a po kazˇde´m pokusu zaznamena´me jeho vy´sledek; naprˇ. 35× opakovaneˇ meˇrˇ´ıme koncentraci urcˇite´ la´tky v roztoku, 60× opakovaneˇ meˇrˇ´ıme hodnotu elektricke´ho proudu v obvodu, 14× opakovaneˇ meˇrˇ´ıme vzda´lenost dvou bodu˚ v tere´nu apod., b) jako vy´sledky pozorovane´ na velke´m pocˇtu jednotek – tj. na vsˇech (mnoha) jednotka´ch, ktere´ ma´me k dispozici, provedeme meˇrˇenı´ nebo zjisˇteˇnı´ hodnoty a vsˇechny takto zı´skane´ hodnoty si poznamena´me; naprˇ. zmeˇrˇ´ıme dobu reakce na jisty´ podneˇt u 15 rˇidicˇu˚, zmeˇrˇ´ıme vy´kon 23 atletu˚ ve skoku do da´lky z mı´sta, zjistı´me meˇsı´cˇnı´ prˇ´ıjem u 80 zameˇstnancu˚, zjistı´me na´zor 150 vysokosˇkola´ku˚ na bulva´rnı´ denı´k apod. Pokud jde o vyjadrˇova´nı´ vy´sledku˚ pokusu˚, hovorˇ´ıme cˇasto o obmeˇna´ch (varianta´ch). Pro statistiku je obvykle´ dvojı´ vyjadrˇova´nı´ obmeˇn – cˇ´ıselne´ a slovnı´. Naprˇ. prˇi va´zˇenı´ rohlı´ku vyja´drˇ´ıme vy´sledek, tj. hmotnost rohlı´ku, ve tvaru 47,8 g (vyja´drˇenı´ cˇ´ıselne´: 47,8), prˇi zjisˇt’ova´nı´ vy´sledku zkousˇky z ekonomie vyja´drˇ´ıme vy´sledek ve tvaru „C“ (vyja´drˇenı´ slovnı´: dobrˇe). Zpu˚sobu˚m vyjadrˇova´nı´ vy´sledku˚ na´hodny´ch pokusu˚ se ale budeme jesˇteˇ da´le veˇnovat podrobneˇji (viz podkapitola 1.4). Prˇi popisu vy´sledku˚ hromadny´ch pozorova´nı´ stojı´ za povsˇimnutı´ dveˇ jejich formy – meˇrˇenı´ a zjisˇt’ova´nı´. Prˇi meˇrˇenı´ zpravidla zı´ska´va´me vy´sledky v cˇ´ıselne´ podobeˇ jako hodnoty z meˇrˇicı´ho prˇ´ıstroje. Hodnoty jsou vyja´drˇene´ v urcˇity´ch jednotka´ch – fyzika´lnı´ch, chemicky´ch cˇi jiny´ch. V souladu s matematicky´mi a odborny´mi pravidly je lze take´ vza´jemneˇ prˇeva´deˇt. Naprˇ. prˇi meˇrˇenı´ rychlosti auta dostaneme 83,7 km/hod., prˇi meˇrˇenı´ vy´sˇky postavy novoro-
18
1.2 Vy´znam a pojetı´ modernı´ statistiky
zence dostaneme 49 cm, prˇi meˇrˇenı´ tvrdosti vody dostaneme 1,8 mmol/l, prˇi meˇrˇenı´ velikosti proudu dostaneme 12,5 mA, prˇi meˇrˇenı´ obsahu tuku v mle´ku dostaneme 1,48 g/l, atd. Vlastnı´ zpracova´nı´ cely´ch mnozˇin takovy´chto cˇ´ıselny´ch informacı´ – dat – uzˇ prova´dı´me bez jednotek (viz kapitola 2 – Popisna´ statistika). Prˇi zjisˇt’ova´nı´ zı´ska´va´me vy´sledky v cˇ´ıselne´ nebo slovnı´ podobeˇ jako hodnoty zı´skane´ z prˇedem definovane´ mnozˇiny obmeˇn. Neˇkdy take´ hovorˇ´ıme o popisu sledovany´ch objektu˚. Naprˇ. prˇi pru˚zkumu v obchodu zjistı´me pocˇet za´kaznı´ku˚ u jedne´ pokladny: 6, prˇi proveˇrˇova´nı´ sˇkolnı´ch vy´sledku˚ zjistı´me pocˇet bodu˚ z pı´semne´ho testu u jednoho studenta: 28, prˇi pru˚zkumu kvality pracı´ho pra´sˇku zjistı´me na´zor jedne´ za´kaznice: velmi dobry´, prˇi prˇedvolebnı´m pru˚zkumu zjistı´me preferenci jednoho volicˇe: strana B, atd. Zdroje statisticky´ch dat Prˇi rˇesˇenı´ konkre´tnı´ho proble´mu rea´lne´ho sveˇta se setka´me cˇasto s potrˇebou prove´st statisticke´ sˇetrˇenı´, jehozˇ vy´sledkem jsou statisticka´ data. Podle typu konkre´tnı´ho proble´mu bude zdrojem takovy´ch dat experiment, dotazova´nı´, vy´kaznictvı´, pozorova´nı´ cˇi tzv. sekunda´rnı´ data. Experimentem budeme rozumeˇt cı´leneˇ prova´deˇnou cˇinnost zpravidla za u´cˇelem oveˇrˇenı´ vlivu urcˇite´ho faktoru na zkoumany´ ukazatel. Naprˇ. budeme experimentem oveˇrˇovat vliv nove´ technologie vy´roby na jistou vlastnost vy´robku, vliv pouzˇite´ho hnojiva na objem rostlinne´ produkce, mu˚zˇeme testovat vy´robek na nove´ podmı´nky uzˇitı´, v ra´mci experimentu mu˚zˇeme sledovat chova´nı´ zkoumany´ch osob v ru˚zny´ch modelovy´ch situacı´ch apod. Dotazova´nı´ je jednoduchy´ zpu˚sob zı´ska´va´nı´ statisticky´ch dat, ktery´ se prova´dı´ pı´semneˇ (dotaznı´ky, internetove´ dotaznı´ky) nebo u´stneˇ (osobneˇ, telefonicky, ve skupina´ch). Takto je mozˇne´ zı´skat informace hromadne´ho charakteru od tzv. respondentu˚, tj. osob na´hodneˇ urcˇeny´ch k dotazova´nı´. Naprˇ. vedenı´ strˇednı´ sˇkoly mu˚zˇe prostrˇednictvı´m dotaznı´ku zı´skat informace o na´zorech na vy´uku toho cˇi onoho prˇedmeˇtu, vedenı´ podniku mu˚zˇe zı´skat informace o jazykovy´ch schopnostech svy´ch pracovnı´ku˚ apod. V neˇktery´ch prˇ´ıpadech by´va´ u´cˇelne´ dotazova´nı´ organizovat anonymneˇ. Na principu dotazova´nı´ jsou zalozˇene´ take´ tzv. ankety, ktere´ vsˇak nelze povazˇovat za reprezentativnı´ sˇetrˇenı´. Vyplneˇnı´ anketnı´ho dotaznı´ku je totizˇ naprosto dobrovolne´, proto zı´skany´ obraz o rˇesˇene´m proble´mu mu˚zˇe by´t pouze orientacˇnı´. Naprˇ. vydavatel cˇasopisu˚ se takto bude zajı´mat o za´jem cˇtena´rˇu˚ o jednotlive´ rubriky, vy´robce na´poju˚ si takto mu˚zˇe zjistit na´zory na kvalitu jeho limona´d apod. Vy´kaznictvı´ je mozˇne´ vnı´mat jako specifickou formu dotazova´nı´. Vy´kazy slouzˇ´ı ke sledo´ na va´nı´ ekonomicke´ cˇinnosti ru˚zny´ch subjektu˚. Jejich odevzda´va´nı´ a vyhodnocova´nı´ rˇ´ıdı´ CˇSU za´kladeˇ za´kona cˇ. 89/1995 Sb., podle ktere´ho majı´ ekonomicke´ subjekty tzv. zpravodajskou povinnost. Na te´to formeˇ statisticke´ho sˇetrˇenı´ se podı´lı´ take´ jednotliva´ ministerstva a jejich odborne´ orga´ny. Prˇi pozorova´nı´ se obvykle sleduje chova´nı´ lidsky´ch subjektu˚ v ru˚zny´ch situacı´ch prostrˇednictvı´m smyslu˚ – sledova´nı´, ochutna´va´nı´, posloucha´nı´, cˇicha´nı´ apod. Vy´sledek pozorova´nı´ je zpravidla subjektivnı´ a za´visı´ na osobeˇ pozorovatele a na okamzˇiku, kdy je pozorova´nı´ prova´deˇno. Naprˇ. se formou pozorova´nı´ prova´dı´ tzv. senzoricke´ analy´zy, kdy se prostrˇednictvı´m ochutna´vek hodnotı´ na´poje a potraviny. Podobneˇ lze takto hodnotit vu˚ni sledovane´ho parfe´mu. Vsˇechny vy´sˇe uvedene´ formy statisticke´ho sˇetrˇenı´ vyuzˇ´ıvaly tzv. prima´rnı´ data. V neˇktery´ch prˇ´ıpadech je mozˇne´ vyuzˇ´ıt i sekunda´rnı´ data, tj. data, ktera´ byla zı´ska´na za jiny´m
1.2 Vy´znam a pojetı´ modernı´ statistiky
19
u´cˇelem v minulosti (naprˇ´ıklad v ra´mci jine´ho pru˚zkumu). Sekunda´rnı´ data lze zı´skat z ru˚zny´ch tisˇteˇny´ch i elektronicky´ch materia´lu˚ (statisticke´ rocˇenky, firemnı´ materia´ly, novinove´ zdroje, pocˇ´ıtacˇove´ databa´ze, datove´ nosicˇe, apod.). Vztah pravdeˇpodobnosti a matematicke´ statistiky Jesˇteˇ jednou se vrat’me k pravdeˇpodobnosti. I kdyzˇ pocˇa´tky pravdeˇpodobnosti jsou spojene´ s rˇesˇenı´m cˇasto zajı´mavy´ch proble´mu˚ z oblasti hazardnı´ch her, v soucˇasne´ dobeˇ nejcˇasteˇjsˇ´ı aplikace pocˇtu pravdeˇpodobnosti smeˇrˇujı´ do oblasti statistiky. Okolo na´s existuje mnoho veˇcı´, jevu˚, uda´lostı´, ktere´ nelze prˇedvı´dat – jsou du˚sledkem na´hody. Ota´zkami na´hody a na´hodny´ch deˇju˚ se zaby´vajı´ dveˇ matematicke´ disciplı´ny: teorie pravdeˇpodobnosti a matematicka´ statistika. Teorie pravdeˇpodobnosti je matematicka´ disciplı´na, jejı´mzˇ vy´chodiskem je zkouma´nı´ na´hodny´ch pokusu˚. Prˇi na´hodne´m pokusu nenı´ vy´sledek jednoznacˇneˇ urcˇen jeho pocˇa´tecˇnı´mi podmı´nkami. Na´hodnost urcˇite´ho pokusu je teoreticky spojena s nedostatecˇnou znalostı´ teˇchto pocˇa´tecˇnı´ch podmı´nek. Na´hoda vsˇak neznamena´ subjektivnı´ neveˇdomost, nastoupenı´ kazˇde´ho na´hodne´ho jevu lze prostrˇednictvı´m matematicke´ho apara´tu1 cˇ´ıselneˇ „ocenit“, tedy prˇirˇadit mu pravdeˇpodobnost. Teorie pravdeˇpodobnosti je tedy tou cˇa´stı´ matematiky, ktera´ prˇina´sˇ´ı do zˇivota matematicky´ apara´t pro pocˇ´ıta´nı´ s na´hodny´mi uda´lostmi. Je tak teoreticky´m za´kladem pro dalsˇ´ı disciplı´ny, ktere´ s na´hodou pracujı´, jako je teorie na´hodny´ch velicˇin a matematicka´ statistika. Proto jsou uzˇitecˇne´ take´ modely ru˚zny´ch rozdeˇlenı´ pravdeˇpodobnostı´ (naprˇ. binomicky´, norma´lnı´, exponencia´lnı´ atd. – viz kapitoly 5 a 6). Matematicka´ statistika je naproti tomu veˇda, ktera´ zahrnuje studium dat vykazujı´cı´ch na´hodna´ kolı´sa´nı´, at’ uzˇ jde o data zı´skana´ pecˇliveˇ prˇipraveny´m pokusem provedeny´m pod sta´lou kontrolou experimenta´lnı´ch podmı´nek v laboratorˇi, cˇi o data pocha´zejı´cı´ prˇ´ımo z tere´nu. Statistika se tedy zaby´va´ zı´ska´va´nı´m informacı´ z empiricky´ch dat, jejı´m principem je ucˇinit na za´kladeˇ vzorku za´veˇr o celku. Prˇedpokla´da´, zˇe data obsahujı´ neprˇesnosti a nejistoty, ktere´ jsou zpu˚sobeny na´hodny´mi vlivy. Matematickou statistiku tvorˇ´ı soubor metod pro zpracova´nı´ hromadny´ch dat, v nichzˇ se za´veˇry vyvozujı´ na za´kladeˇ teorie pravdeˇpodobnosti. Pra´veˇ teˇmto u´kolu˚m statistiky (a take´ v teˇchto souvislostech) se budeme veˇnovat v dalsˇ´ıch cˇa´stech te´to ucˇebnice – viz kapitoly 7, 8, 9 a 10. Soucˇa´sti matematicke´ statistiky Jak jsme uzˇ naznacˇili, v ra´mci hromadny´ch pozorova´nı´ prova´dı´me meˇrˇenı´ nebo zjisˇt’ova´nı´ sledovane´ velicˇiny u velke´ho pocˇtu jisty´ch objektu˚. Vy´sledkem pozorova´nı´ jsou potom hromadna´ empiricka´ data, ktera´ v sobeˇ zahrnujı´ (spı´sˇe skry´vajı´) rˇadu informacı´ o sledovane´ velicˇineˇ. Tyto informace vsˇak „na prvnı´ pohled“ nejsou zrˇejme´, data totizˇ prˇedstavujı´ neusporˇa´danou, azˇ chaotickou „horu“ u´daju˚ a nelze z nich prakticky zˇa´dne´ informace vycˇ´ıst. Proto je trˇeba data nejprve zpracovat a informace v nich obsazˇene´ zı´skat. Zpracova´nı´m empiricky´ch dat se zaby´va´ popisna´ statistika (viz da´le kapitola 2). Vyuzˇ´ıva´ k tomu ru˚zne´ tabulky a grafy, ktere´ poma´hajı´ objevit vy´znamne´ vlastnosti sledovane´ velicˇiny. Hovorˇ´ıme cˇasto o tabulkove´m cˇi graficke´m vyja´drˇenı´ rozdeˇlenı´ cˇetnostı´. Neˇktere´ tabulky poskytujı´ zdrojova´ data 1
Axiomaticka´ teorie pravdeˇpodobnosti publikovana´ v roce 1933 A. N. Kolmogorovem je zalozˇena´ na teorii mı´ry, alternativnı´ bayesovska´ teorie publikovana´ v roce 1955 E. T. Jaynesem je zalozˇena´ na klasicke´ logice pro prˇ´ıpad vy´roku˚, jejichzˇ pravdivostnı´ hodnota nenı´ jen 0 nebo 1, ale lezˇ´ı mezi teˇmito hodnotami.
-
20
1.2 Vy´znam a pojetı´ modernı´ statistiky
pro tvorbu grafu˚. Dalsˇ´ım prostrˇedkem popisu hromadny´ch empiricky´ch dat jsou tzv. cˇ´ıselne´ charakteristiky, ktere´ vyjadrˇujı´ urcˇite´ vlastnosti sledovane´ velicˇiny jediny´m cˇ´ıslem. K urcˇenı´ takovy´ch cˇ´ısel pouzˇijeme jen elementa´rnı´ matematicke´ operace. Cı´lem popisne´ statistiky je tedy zprˇehledneˇnı´ informacı´ obsazˇeny´ch v datove´m souboru. Dalsˇ´ı soucˇa´stı´ matematicke´ statistiky jakozˇto veˇdnı´ho oboru je tzv. matematicka´ statistika v uzˇsˇ´ım slova smyslu, ktera´ se systematicky zaby´va´ (zejme´na pomocı´ teorie pravdeˇpodobnosti) matematicky´mi metodami vhodny´mi pro analy´zu statisticky´ch dat. Obecneˇ ma´ deduktivnı´ povahu, prˇedmeˇtem nasˇeho za´jmu je vzˇdy urcˇity´ celek, tzv. za´kladnı´ soubor (viz podkapitola 1.3), ale cesta, kterou se k neˇmu dostaneme, ma´ naopak vy´hradneˇ induktivnı´2 charakter. Du˚lezˇity´mi soucˇa´stmi matematicke´ statistiky jsou: a) Teorie odhadu – zaby´va´ se urcˇova´nı´m odhadu˚ nezna´my´ch parametru˚ za´kladnı´ho souboru pomocı´ hromadny´ch empiricky´ch dat zı´skany´ch na´hodny´m vy´beˇrem (viz podkapitola 8.1) a studuje ru˚zne´ prˇ´ıstupy k zı´ska´nı´ bodovy´ch a intervalovy´ch odhadu˚ (viz podkapitoly 9.1 a 9.2). b) Testova´nı´ statisticky´ch hypote´z – zaby´va´ se statisticky´mi procedurami pro oveˇrˇova´nı´ hypote´z o za´kladnı´m souboru a o srovna´va´nı´ vı´ce souboru˚ z ru˚zny´ch hledisek pomocı´ hromadny´ch dat zı´skany´ch na´hodny´m vy´beˇrem (viz kapitola 10 – Testova´nı´ statisticky´ch hypote´z). c) Statisticka´ predikce – zaby´va´ se statisticky kvalifikovany´mi odhady budoucı´ho vy´voje sledovane´ velicˇiny na za´kladeˇ jejı´ soucˇasne´ dynamiky. Na za´veˇr vy´kladu o vy´znamu a pojetı´ modernı´ statistiky jesˇteˇ prˇipojme jednu za´sadnı´ mysˇlenku. V minulosti se statistika cˇasto ztotozˇnˇovala s pouhy´m zjisˇt’ova´nı´m, sumarizacı´ a publikova´nı´m zjisˇteˇny´ch u´daju˚. V soucˇasne´ dobeˇ lze prˇedpokla´dat, zˇe modernı´ statistika ma´ vsˇechny atributy veˇdnı´ disciplı´ny schopne´ v podstatneˇ veˇtsˇ´ım meˇrˇ´ıtku respektovat potrˇeby kvalifikovany´ch rozhodovacı´ch procesu˚. Proto nezapomenˇme: statistiku nelze ztotozˇnˇovat s pouhy´m elementa´rnı´m zpracova´nı´m u´daju˚! Statistiku musı´me spojovat s ohledem na jejı´ vy´razneˇ prakticky´ charakter s sˇirokou sˇka´lou metod a technik, ktere´ umozˇnˇujı´ kvalifikovane´ rozhodova´nı´ na ba´zi kvantitativnı´ch informacı´ o prakticke´m proble´mu.
Prˇ´ıklady k procvicˇenı´ 1. Rozhodneˇte, zda je mozˇne´ definovane´ jevy povazˇovat za jevy hromadne´: a) hruby´ meˇsı´cˇnı´ prˇ´ıjem ucˇitelu˚ na strˇednı´ch sˇkola´ch v CˇR, b) pocˇet deˇtı´ v cˇesky´ch rodina´ch, c) pocˇet nezameˇstnany´ch v Jihomoravske´m kraji v za´rˇ´ı 2011, d) dennı´ trzˇba v prodejneˇ, e) pocˇet dosazˇeny´ch go´lu˚ konkre´tnı´m hra´cˇem za za´pas v hokejove´ lize 2011/2012, f) rychlost prˇipojenı´ k internetu u vlastnı´ho pocˇ´ıtacˇe. 2
2. Posud’te, jaky´m zpu˚sobem je mozˇne´ u popsane´ho veˇcne´ho proble´mu zı´skat statisticka´ data: a) vliv pouzˇite´ho krmiva na zˇive´ prˇ´ıru˚stky sledovany´ch prasat, b) dennı´ spotrˇeba vody v doma´cnosti, c) meˇsı´cˇnı´ trzˇba v soukrome´m obchodu, d) na´zor na u´rovenˇ za´kladnı´ch sluzˇeb mobilnı´ho opera´tora, e) hodnocenı´ sveˇtle´ho vy´cˇepnı´ho piva z cˇesky´ch pivovaru˚, f) vliv druhu benzı´nu na vy´kon motoru,
Prˇi induktivnı´m zpu˚sobu mysˇlenı´ nale´za´me prˇi zkouma´nı´ jednodusˇsˇ´ıch konkre´tnı´ch prˇ´ıpadu˚ pomocı´ abstrakce jejich spolecˇnou obecnou za´konitost – v induktivnı´ statistice to probı´ha´ tak, zˇe z vlastnostı´ vy´beˇrove´ho souboru budeme usuzovat na vlastnosti za´kladnı´ho souboru.
21
1.3 Statisticka´ jednotka a statisticky´ soubor
g) porovna´nı´ cenove´ hladiny v neˇkolika supermarketech. 3. Je anketa reprezentativnı´ statisticke´ sˇetrˇenı´? 4. Vyjmenujte neˇktere´ hromadne´ jevy: a) z oblasti vasˇ´ı profesnı´ cˇinnosti, b) z oblasti vasˇ´ı za´jmove´ cˇinnosti, c) z oblasti verˇejne´ho za´jmu (zdroje: noviny, rozhlas, televize, internet).
Rˇesˇenı´. 1. a) ano; b) ano; c) ne; d) ano; e) ne; f) ano; 2. a) experiment; b) pozorova´nı´; c) vy´kaznictvı´; d) dotazova´nı´; e) pozorova´nı´; f) experiment; g) pozorova´nı´; 3. nenı´.
1.3 Statisticka´ jednotka a statisticky´ soubor V podkapitole 1.2 jsme uvedli, zˇe u´kolem statistiky je prova´deˇt hromadna´ pozorova´nı´ a sledovat hromadne´ na´hodne´ jevy. Protozˇe statistika je veˇda velmi prakticka´, budeme hromadna´ pozorova´nı´ prova´deˇt na rea´lny´ch objektech nebo subjektech, ktere´ jsou z urcˇite´ho konkre´tnı´ho du˚vodu prˇedmeˇtem nasˇeho za´jmu. Pozornost proto budeme veˇnovat nejprve statisticky´m jednotka´m a jejich jednoznacˇne´mu vymezenı´, potom si vysveˇtlı´me pojmy za´kladnı´ soubor a vy´beˇrovy´ soubor. Definice 1.3.1 Jednotlive´ objekty nebo subjekty, ktere´ jsou prˇi statisticke´m zkouma´nı´ sledovane´, se nazy´vajı´ statisticke´ jednotky. Kazˇda´ statisticka´ jednotka musı´ by´t jednoznacˇneˇ vymezena, aby nemohlo dojı´t k dvojı´mu nebo jinak zkreslene´mu vy´kladu zjisˇteˇny´ch u´daju˚. Statisticke´ jednotky se vymezujı´ z hlediska: • veˇcne´ho, • prostorove´ho, • cˇasove´ho. Prˇ´ıklad 1.3.2 Statisticky´mi jednotkami mohou by´t: – osoby, le´pe rˇecˇeno jiste´ kategorie osob – novorozenci, zˇa´ci, volicˇi, zameˇstnanci podniku, du˚chodci, pacienti. . . , – veˇci a prˇedmeˇty – vy´robky, stroje, budovy. . . , – organizace – podniky, u´rˇady, sˇkoly, obce. . . , – zvı´rˇata – psi, ryby, sloni. . . , – rostliny nebo plody – psˇenice, ru˚zˇe, brˇ´ızy, jablka. . . , – uda´losti, jevy – sportovnı´ vy´kony, poruchy, meteorologicke´ jevy. . . . Prˇ´ıklad 1.3.3 Proved’te veˇcne´, prostorove´ a cˇasove´ vymezenı´ teˇchto statisticky´ch jednotek: a) vsˇechna osobnı´ auta projı´zˇdeˇjı´cı´ v u´tery´ mezi 14. a 16. hodinou 110. km da´lnice D1 smeˇrem na Brno; b) vsˇechna deˇvcˇata ze 6. trˇ´ıd znojemsky´ch za´kladnı´ch sˇkol v cˇervnu roku 2012; c) vsˇichni kaprˇi v jihocˇeske´m rybnı´ku Bezdrev v listopadu 2010; d) vsˇechny 50gramove´ rohlı´ky z ty´dennı´ produkce pekarˇe Jecˇmı´nka v ty´dnu od 12. do 17. 3. 2012; uvazˇujme da´le, zˇe vy´roba teˇchto rohlı´ku˚ bude za nezmeˇneˇny´ch podmı´nek (stejna´ mouka, stejna´ voda, stejna´ teplota pecı´, stejna´ smeˇna. . . ) pokracˇovat i v dalsˇ´ım obdobı´; e) vsˇechny hypoteticke´ vy´sledky vy´konove´ho testu u jednoho volejbalisty – vy´skok s dohmatem odrazem snozˇmo z rozbeˇhu – v obdobı´ letnı´ tre´ninkove´ prˇ´ıpravy 2011.