Statistické metody a demografie
Statistika_2012.indd 1
30.4.2013 13:50:58
Tomáš Löster Hana Řezanková Jitka Langhamrová
Statistické metody a demografie
Vysoká škola ekonomie a managementu Praha 2012
Statistika_2012.indd 3
30.4.2013 13:50:58
O autorech Tomáš Löster je absolventem Vysoké školy ekonomické v Praze. V roce 2011 ukončil dok torské studium v oboru statistika a získal titul Ph.D. Na katedře statistiky a pravděpodob nosti Fakulty informatiky a statistiky VŠE působí jako asistent a odborný asistent od roku 2005. V roce 2006 působil jako odborný asistent na ČZU. Od roku 2010 je externí spolu pracovník ČNB jako lektor finanční gramotnosti. Je členem České statistické společnosti, kde působí v jejím výboru jako hospodář. Je zakladatelem a členem výboru Spolku mladých statistiků. Mezi oblasti zájmu doktora Löstera patří zejména výpočetní prostředí a víceroz měrné statistické metody. Je řešitelem a spoluřešitelem různých grantů, autorem či spolu autorem řady článků, recenzí, odborných posudků a skript. Hana Řezanková je absolventkou Vysoké školy ekonomické v Praze, kde získala též titul kan didáta ekonomických věd a kde byla v roce 1994 jmenována docentkou pro obor statistika. V roce 2008 byla jmenována profesorkou pro obor statistika. Od roku 1990 působí na kated ře statistiky a pravděpodobnosti Fakulty informatiky a statistiky VŠE. V letech 1998 až 2001 zastávala na této fakultě funkci proděkanky pro pedagogiku, v současné době je zástupkyní vedoucího katedry. Je členkou Vědecké rady Fakulty elektrotechniky a informatiky VŠB – TU Ostrava. Od roku 1990 působí ve výboru České statistické společnosti, deset let byla členkou redakční rady časopisu Statistika. Oblastmi zájmu prof. Řezankové jsou zejména výpočetní statistika, analýza kategoriálních dat a shluková analýza. Je členkou mezinárodní společnosti pro výpočetní statistiku IASC, podílela se na řešení několika výzkumných projektů, je autor kou či spoluautorkou několika knih, skript, řady článků a jiných odborných publikací. Jitka Langhamrová vystudovala Vysokou školu ekonomickou v Praze. V roce 1993 získala vědeckou hodnost CSc. v oboru ekonomická statistika a aplikace matematiky v ekonomii. V roce 2009 byla jmenována docentkou. V současné době je vedoucí katedry demografie na Fakultě informatiky a statistiky VŠE, je členkou Vědecké rady Fakulty informatiky a statis tiky VŠE. Pracuje v redakční radě časopisu Demografie, je členkou hlavního výboru České demografické společnosti. Je garantkou základních demografických kurzů a garantkou oboru sociálně-ekonomická demografie. Je řešitelkou a spoluřešitelkou několika grantů a studií, au torkou či spoluautorkou několika učebnic a skript a řady článků, studií, recenzí a odborných posudků.
Statistika_2012.indd 4
30.4.2013 13:50:58
Předmluva
Vážení čtenáři, kniha s názvem Statistické metody a demografie, jejíž druhé aktualizované vydání právě držíte v ruce, je prací tří autorů. První část, zaměřující se na statistické metody, společně vypracovali Ing. Tomáš Löster, Ph.D., a prof. Ing. Hana Řezanková, CSc., demografickou část připravila doc. Ing. Jitka Langhamrová, CSc. Cílem předkládané publikace je seznámit čtenáře se základními statistickými postupy a demogra fickými pojmy používanými v praxi. Nejen každý vysokoškolsky vzdělaný manažer by měl zvládnout popis datových souborů pomocí souhrnných charakteristik, tabulek četností i pomocí grafů. Čtenář po chopí základní pravidla z oblasti teorie pravděpodobnosti, které může využít například ke studiu rozho dování se za rizika a nejistoty, teorie pojištění atd. V návaznosti na teorii pravděpodobnosti a základní pojmenovaná pravděpodobnostní rozdělení je další část textu věnovaná statistické indukci. Po nastu dování této části bude čtenář schopen na základě provedeného průzkumu usuzovat o celém základním souboru (populaci), a to jednak pomocí statistických odhadů a jednak pomocí testování statistických hypotéz. Další část textu je věnována zkoumání závislostí mezi různými typy proměnných. V této čás ti si ukážeme, jakým způsobem je možné zkoumat případnou závislost mezi různými ekonomickými veličinami, jak ji popsat a jak ji změřit. Nedílnou součástí analýzy správného manažera je i analýza vý voje ukazatele v čase, která následuje v kapitole o časových řadách. Uvedeme si dílčí složky časových řad, jejich analýzu, ale také předpovědí v časových řadách. Poslední částí statistických metod je indexní analýza. Naznačíme si, jakým způsobem můžeme srovnávat sledované ukazatele jednak časově, jednak prostorově v závislosti na tom, jsou-li ukazatele stejnorodé či nestejnorodé. V rámci hlubších analýz si uvedeme také kvantifikaci dílčích důsledků působících na celkovou změnu ukazatele. V části věnované demografii popíšeme základní pojmy související s obyvatelstvem a jeho pohybem, věkem, pohlavím atd. Ukážeme si, jakým způsobem bývají jednotlivé charakteristiky značeny a jak se počítají. Kromě toho probereme vývoj jednotlivých sledovaných ukazatelů v čase. Na konci textu naznačíme konstrukci úmrt nostních tabulek. V rámci jednotlivých kapitol je každá oblast nejprve vysvětlena teoreticky. Následují řešené příklady, ve kterých si čtenář může prostudovat postupy a úvahy samotného řešení. Na závěr ka pitol jsou poskytnuty neřešené příklady s uvedením správných výsledků, aby si čtenář měl možnost jed nak procvičit danou problematiku a také ověřit si správnost výsledku, ke kterému dospěl. Věříme, že po prostudování následujícího materiálu si každý čtenář uvědomí a pochopí, že práce s daty, což statistické metody představují, je nedílná součást každé další vědní disciplíny a tím pádem nedílná součást každo denního života. Závěrem bych rád poděkoval všem recenzentům, Ing. Silvii Megyesiové, Ph.D., Ing. Martinu Liptákovi a Ing. Martině Popenkové za cenné rady a připomínky. V Praze, leden 2012 Za autorský kolektiv Tomáš Löster
Statistika_2012.indd 5
30.4.2013 13:50:58
Statistické metody a demografie Tomáš Löster Hana Řezanková Jitka Langhamrová Copyright © Vysoká škola ekonomie a managementu 2012. Vydání druhé aktualizované. Všechna práva vyhrazena. ISBN 978-80-86730-86-8 Vysoká škola ekonomie a managementu www.vsem.cz
Žádná část této publikace nesmí být publikována ani šířena žádným způsobem a v žádné podobě bez výslovného svolení vydavatele.
Statistika_2012.indd 6
30.4.2013 13:50:58
Obsah
Obsah
1. Úvod a základní pojmy
15
1.1 Základní statistické pojmy
17
1.2 Statistické šetření a jeho vyhodnocení
19
1.3 Statistické vzorce a výrazy
20
2. Popisná statistika
27
2.1 Tabulky četností
28
2.2 Souhrnné charakteristiky
30
2.2.1 Charakteristiky polohy
30
2.2.2 Charakteristiky variability
34
2.2.3 Charakteristiky šikmosti
38
2.2.4 Charakteristiky špičatosti
40
2.3 Grafy
40
2.4 Popisná statistika v Excelu
44
3. Teorie pravděpodobnosti
63
3.1 Náhoda, náhodný pokus, náhodný jev
64
3.2 Definice pravděpodobnosti
67
4. Náhodná veličina
Statistika_2012.indd 7
77
4.1 Zákon rozdělení náhodné veličiny
79
4.2 Charakteristiky náhodné veličiny
83
4.3 Nejčastěji používaná rozdělení nespojitých veličin
85
4.4 Nejčastěji používaná rozdělení spojitých veličin
89
4.5 Náhodná veličina v Excelu
94
4.5.1 Pravděpodobnostní a distribuční funkce
94
4.5.2 Kvantily
95
30.4.2013 13:50:59
Edice učebních textů
5. Teorie odhadu
107
5.1 Bodový odhad
108
5.2 Intervalový odhad
109
5.3 Odhady relativní četnosti
110
5.4 Odhady střední hodnoty
111
5.5 Odhady měr variability
112
6. Testování hypotéz
121
6.1 Test o střední hodnotě (jednovýběrový t test)
123
6.2 Test o rozptylu
124
6.3 Test o podílu (binomický test)
125
6.4 Některé další testy
126
7. Analýza závislostí
137
7.1 Kontingenční tabulka a chí-kvadrát test o nezávislosti
139
7.2 Analýza rozptylu
142
7.3 Regresní analýza
144
7.4 Korelační analýza
148
7.5 Analýza závislostí v softwarových produktech
149
7.6.1 Kontingenční tabulka a chí-kvadrát test o nezávislosti
149
7.5.2 Analýza rozptylu
150
7.5.3 Regresní analýza
151
8. Časové řady
Statistika_2012.indd 8
Statistické metody a demografie
167
8.1 Popisné charakteristiky časových řad
169
8.2 Trendová analýza
171
8.2.1 Regresní přístup k modelování trendu
172
8.2.2 Adaptivní přístupy k modelování trendu
173
8.3 Sezonní složka
174
8.4 Náhodná složka
175
8.5 Předpovědi v časových řadách
175
30.4.2013 13:50:59
Obsah
9. Indexní analýza
187
9.1 Bazické a řetězové indexy
188
9.2 Individuální indexy jednoduché
189
9.3 Individuální indexy složené
190
9.4 Souhrnné indexy
192
9.4.1 Cenové indexy
192
9.4.2 Objemové indexy
193
9.4.3 Hodnotové indexy
194
10. Demografie
205
10.1 Základní demografické pojmy
206
10.2 Základní demografické symboly
211
10.4 Vybrané demografické ukazatele a jejich vývoj
217
10.4 Úmrtnostní tabulky
228
Glosář
246
Literatura 255 Přílohy 256
Statistika_2012.indd 9
30.4.2013 13:50:59
Edice učebních textů
Statistické metody a demografie
Jak používat tuto učebnici
Tuto knihu můžete jednoduše přečíst od začátku do konce, ale mnohem užitečnější vám bude s perem a papírem. Nejefektivnější formou učení je aktivní učení, a proto jsme naplnili text příklady, abyste se přesvědčili, jak učivo zvládáte. Každá kapitola také obsahuje cíle, souhrn kapitoly a rychlý kviz. Následující body vám objasní, jak s knihou pracovat co nejefektivněji:
Statistika_2012.indd 10
a)
Vyberte si kapitolu, kterou budete studovat, přečtěte si úvod a cíle na začátku kapi toly.
b)
Potom si přečtěte souhrn kapitoly na jejím konci (před rychlým kvizem a úkoly). Neočekávejte, že tento krátký závěr znamená v této fázi příliš mnoho, ale zkuste, zda můžete spojit některý z probraných bodů s některým z cílů.
c)
Poté si přečtěte samotnou kapitolu. Vyřešte jednotlivé příklady tak, jak jdou za se bou. Největší prospěch z příkladů získáte, pokud si své odpovědi napíšete předem a poté je zkontrolujete se správným řešením.
d)
Při čtení používejte poznámkový sloupec a přidávejte vlastní komentáře, odkazy na další materiál atd. Pokuste se formulovat své vlastní názory. V ekonomii je mnoho věcí otázkou výkladu a často je zde prostor pro alternativní názory. Čím hlubší dia log s knihou povedete, tím více ze svého studia získáte.
e)
Až dočtete kapitolu, znovu si přečtěte souhrn kapitoly. Poté se vraťte k cílům na za čátku kapitoly a položte si otázku, zda jste jich dosáhli.
f)
Nakonec upevněte své znalosti tím, že písemně vyřešíte úkoly v závěru kapitoly. Své odpovědi si můžete zkontrolovat tak, že se podíváte zpět do textu. Návrat k textu a hledání významných detailů dále zlepší pochopení předmětu.
g)
Nakonec si zkontrolujte svá řešení v přehledu správných odpovědí, který naleznete na konci kapitoly.
30.4.2013 13:50:59
Jak používat tuto učebnici
Značky a symboly v učebním textu
Struktura distančních učebních textů je rozdílná již na první pohled, a to např. v zařazování grafických symbolů – značek. Specifické grafické značky umístěné na okraji stránky upozorňují na definice, cvičení, příklady s postupem řešení, klíčová slova a shrnutí kapitol. Značky by měly studenta intuitivně vést tak, aby se již po krátkém seznámení s distanční učebnicí dokázal v textu rychle a snadno orien tovat.
Definice Upozorňuje na definici nebo poučku pro dané téma.
Kvíz Označuje rychlý kvíz na konci kapitoly.
Klíčová slova Upozorňuje na důležité výrazy či odborné termíny nezbytné pro orientaci v daném tématu.
Shrnutí kapitoly Shrnutí kapitoly se zařazuje na konec dané kapitoly. Přehledně, ve strukturovaných bodech shrnuje to nejpodstatnější z předchozího textu.
Statistika_2012.indd 11
30.4.2013 13:50:59
kapitola
Úvod a základní pojmy
Statistika_2012.indd 13
1
30.4.2013 13:50:59
Kapitola 1
Úvod a základní pojmy
1. kapitola
Úvod a základní pojmy Znám tři druhy lži. Malou lež, velkou lež a statistiku. G. B. SHAW V dávných dobách neměli žádnou statistiku, a tak bylo velmi snadné lhát. Proto se setkáváme v tehdejší primitivní literatuře s takovým přeháněním – obry, zázraky a kouzly! Oni to dělali pomocí lží. My to děláme s pomocí statistiky, ale výsledek je stejný. S. Leacock
Cíle kapitoly V této kapitole se seznámíme: ••
s předmětem zkoumání statistiky,
••
se základními statistickými pojmy,
••
se způsoby zjišťování dat a statistickým šetřením,
••
s různými druhy statistických proměnných,
••
s matematickými operátory, které se využívají ve statistice.
Úvod Před počátkem výkladu jednotlivých témat statistiky, ať už se jedná o popisnou statistiku, teorii pravděpodobnosti či matematickou statistiku, je třeba vymezit, co pojem statistika představuje, čím se zabývá, jaké má části a kdy tento pojem vznikl. Statistika může být růz nými lidmi chápána odlišně. Vývoj samotného pojmu statistika lze rozdělit do čtyř hlavních etap. V první, nejstarší etapě, lze statistiku chápat jako popis státu, v jehož rámci bylo zachycován zeměpisný, hospodář ský a politický stav státu. Jedno z prvních děl zabývající se tímto popisem se datuje k roku 1562, vzniklo v Benátkách a autorem byl F. Sansovina. Pozůstatky statistiky v tomto chápání je možné najít v mnoha ročenkách různých států i v dnešní době, kdy se uvádí geografické údaje, jako jsou například rozloha státu, nadmořská výška atd. Druhá důležitá etapa vývoje statistiky se váže k Anglii a jedná se o tzv. politickou aritmetiku. Ta se pokoušela sledovat vývoj obyvatelstva za delší časové úseky na základě informací o naro zeních a úmrtích lidí. Je spojována se jmény Graunt a Petty, kteří publikovali svá díla ve dru hé polovině 17. století. Statistická činnost ještě během 19. a počátkem 20. století je charak 15
Statistika_2012.indd 15
30.4.2013 13:50:59
Kapitola 1
Edice učebních textů
Statistické metody a demografie
teristická vyčerpávajícími šetřeními a přesným zobrazením obyvatelstva pomocí důsledného sčítání lidu. Třetí etapa ve vývoji statistiky přichází ve třicátých letech 20. století, kdy vzniká a rozvíjí se tzv. moderní statistika, analytická statistika a induktivní statistika. Jak se z textu dozvíme, charakteristické pro induktivní statistiku je, že za určitých předpokladů postačí výběrový sou bor a není nutné prošetřit celou populaci. Základ v této etapě vývoje je spojován se jmény Bortkiewicz, Čebyšev, Čuprov, Ljapunov a Markov. Koncem 20. století dochází k velmi rychlému rozvoji statistiky, který je mimo jiné dán masiv ním rozvojem výpočetní techniky a programového vybavení. Práci s daty, zejména s rozsáhlý mi datovými soubory, si dnes téměř žádný uživatel statistiky nedovede představit bez počítače. Posun ve vývoj statistiky způsobený rozvojem výpočetní techniky znamená významný krok a dá se říci, že může být označen jako čtvrtá etapa ve vývoji, která stále probíhá. Jsou navrho vány metody a postupy, které by bez počítačů nemohly být vůbec realizovány. Důležitou roli hrají grafické výstupy, které charakterizují datové soubory, jejich strukturu a pomáhají nalézt skryté vztahy. Text je koncipován tak, aby jeho čtenář byl schopen vypočítat vše nejen ručně, ale zejména aby byl schopen orientovat se v některých softwarových produktech a chápal jednotlivé sou vislosti a interpretace vypočtených hodnot. Čtenář bude mít možnost seznámit se s jednotli vými analýzami jednak v systému MS Excel, který je součástí téměř každého programového vybavení na počítačích, a některé standardizované výstupy si ukážeme v systému STATGRA PHICS Plus. Předmětem statistiky jsou většinou hromadné jevy. Ty jsou protikladem k jevům jedineč ným, které jsou neopakovatelné, individuální. Pro hromadný jev je charakteristické, že se buď: •
vyskytuje ve větším počtu (výsledky opakovaných měření v přírodních vědách), nebo
•
se týká většího počtu prvků (získané hodnoty ukazatele u různých podniků), nebo
•
se jedná o jev, který se v čase opakuje (získané hodnoty ukazatele u jednoho podniku v různých obdobích).
Pojem statistika je reprezentován třemi následujícími významy: 1.
statistické údaje o hromadných jevech,
2.
praktická činnost, která vede k získávání statistických údajů a jejich zpracování,
3.
věda o stavu, vztazích a vývoji hromadných jevů, jejíž součástí jsou: a) popisná statistika, b) statistická indukce, která se používá při statistické analýze, c) statistická analýza využívající statistickou indukci.
V tomto textu je statistika chápána ve smyslu třetího bodu, tj. jako vědní disciplína.
16
Statistika_2012.indd 16
30.4.2013 13:50:59
Úvod a základní pojmy
Kapitola 1
1.1
Základní statistické pojmy Před začátkem výkladu jednotlivých částí statistické teorie je třeba vymezit a ujasnit si základ ní statistické pojmy, se kterými se statistický uživatel setkává. Mezi nejdůležitější pojmy patří statistická jednotka, statistický znak, statistický soubor a jeho rozsah. DEfINICE
Statistická jednotka Statistická jednotka je prvek souboru, u něhož jsou sledovány různé vlastnosti. Statistickými jednotkami mohou být například osoby, firmy, města, automobily, zvířata.
DEfINICE
Statistický znak Statistický znak zachycuje určitou vlastnost statistické jednotky. Pokud je statistickou jednotkou například člověk, jeho vlastností může být určitá výška, hmotnost, barva očí, nejvyšší dokončené vzdělání, pohlaví atd.
V dalším textu budeme v souladu s počítačovou terminologií používat také výraz proměnná. Statistický znak (proměnná) nabývá pro jednotlivé statistické jednotky určitých hodnot, které se obvykle liší (někteří lidé se liší výškou, barvou očí atd.). DEfINICE
Statistický soubor Statistický soubor je soubor vytvořený ze statistických jednotek, u nichž se sledují stejné statistické znaky.
Rozlišujeme dva typy statistických souborů, a to: ••
základní soubor (populace), což je soubor všech statistických jednotek, u nichž se statistikové zajímají o hodnoty statistických proměnných,
••
výběrový soubor, který obsahuje pouze část jednotek základního souboru. DEfINICE
Rozsah souboru Rozsah souboru představuje počet statistických jednotek (prvků) ve statistickém souboru. Bývá označován písmenem n.
17
Statistika_2012.indd 17
30.4.2013 13:50:59
Kapitola 1
Edice učebních textů
Statistické metody a demografie
Klasifikace proměnných Statistické proměnné bývají pro účely zpracování a analýzy hodnot různým způsobem klasi fikovány. Podívejme se nyní na různé typy proměnných z hlediska vztahů mezi hodnotami, kterých mohou nabývat. Tuto klasifikaci zachycuje obrázek 1.1. Obrázek 1.1
Klasifikace proměnných podle vztahu mezi hodnotami Statistické proměnné
kvantitativní
spojité
kvalitativní
nespojité
nominální
ordinální
Kvantitativní (číselná, numerická) proměnná nabývá číselných hodnot, s nimiž má smysl provádět aritmetické operace (sčítat apod.). Příkladem této proměnné může být výška, hmot nost, počet získaných kreditů či měsíční příjem studenta. Nespojitá (diskrétní) proměnná je kvantitativní proměnná, která nabývá celočíselných hod not (např. počet dětí v rodině, počet mobilních telefonů v domácnosti). V dalším textu bu deme tímto termínem označovat proměnnou, která nabývá pouze malého počtu odlišných celočíselných hodnot (variant hodnot). Spojitá proměnná je kvantitativní proměnná, která může nabýt libovolné hodnoty z určitého intervalu (např. výška, hmotnost, příjem). V dalším textu budeme tímto termínem označovat obecně proměnnou, která nabývá velkého počtu variant hodnot. Kvalitativní (kategoriální) proměnná nabývá hodnot, s nimiž se většinou neprovádějí arit metické operace. Mohou být vyjadřovány slovně, ale při zaznamenávání dat do počítače se místo slov používají písmenné nebo číselné kódy. Příkladem může být obor studia, rodinný stav, pohlaví, hodnocení znalostí. Nominální (názvová) proměnná je kvalitativní proměnná nabývající hodnot, s nimiž nelze provádět aritmetické operace. Tyto hodnoty ani nelze uspořádat z hlediska stupně sledované vlastnosti. O dvou hodnotách nominální proměnné lze pouze říci, že tyto hodnoty jsou buď stejné, nebo rozdílné. Příkladem může být obor studia, rodinný stav, pohlaví, barva očí. Ordinální (pořadová) proměnná je kvalitativní proměnná, která nabývá hodnot, o nichž lze říci nejen to, že jedna hodnota je jiná než druhá, ale také to, že jedna hodnota je větší než druhá, a lze je tedy seřadit od nejnižší po nejvyšší úroveň. Nelze však říci, o kolik nebo koli krát je určitá hodnota vyšší než jiná. Příkladem může být stupeň obliby (malá, střední, velká), úroveň dosaženého vzdělání (základní, středoškolské atd.) či hodnocení ve škole, které může nabývat buď číselných hodnot (1 až 4, resp. 5), slovních vyjádření (výborně, velmi dobře atd.), nebo písmen (A až F). Kategoriální proměnná je obecně taková proměnná, jejíž obor hodnot je tvořen kategorie mi. V dalším textu budeme tímto termínem označovat proměnnou, která nabývá pouze malé ho počtu variant hodnot, obvykle kvalitativních (v širším významu lze pod tento pojem zahr nout i kvantitativní diskrétní proměnnou). Dichotomická (alternativní) proměnná je speciální případ kategoriální proměnné, která na bývá pouze dvou různých hodnot, například kuřák – nekuřák, prospěl – neprospěl. 18
Statistika_2012.indd 18
30.4.2013 13:50:59
Úvod a základní pojmy
Kapitola 1
1.2
Statistické šetření a jeho vyhodnocení Statistické šetření znamená získávání hodnot proměnných u statistických jednotek, které tvoří statistický soubor. Statistické šetření a jeho vyhodnocení má několik fází, které na sebe logic ky navazují a jejich správná aplikace je nedílnou součástí získání přesných údajů o jednotli vých jednotkách. Pokud některá z těchto fází není dobře provedena, má to vliv na další fáze a samozřejmě také na celkový výsledek. Průběh statistického šetření a jeho vyhodnocení mů žeme rozdělit do pěti etap. 1.
Příprava statistického šetření – v rámci této etapy je nutné ujasnit si základní otáz ky, které se týkají vymezení statistického souboru, statistických jednotek, statistic kých znaků a způsobu zjišťování. Je také nutné stanovit tzv. rozhodný okamžik (da tum, resp. období, ke kterému se provádí statistické šetření). Správná aplikace této etapy je nedílnou a velmi důležitou součástí celého statistického šetření. Pokud je tato etapa podceněna a nejsou předem řádně zodpovězeny základní otázky, celé šet ření ztrácí na přesnosti a nemusí posloužit k účelu, kvůli kterému se koná. Na konci této etapy musí být tedy zcela zřejmé, co, kdy, kde a jak bude zjišťováno. Znamená to tedy, že je také nezbytně nutné rozhodnout, jakou formou bude zjišťování prová děno, tj. zdali bude uskutečněno přímé zjišťování, či bude použit výkaz (předem navržený a schválený formulář, který je v pravidelných lhůtách vyplňován zpravo dajskou jednotkou). Může být také využit rozhovor (přímý nebo telefonický) nebo dotazník. Při jednotlivých formách zjišťování je třeba vzít v úvahu, že osobní kon takt s dobře vyškoleným tazatelem přináší většinou přesnější údaje, nicméně tato forma zjišťování je samozřejmě nákladnější. U zjišťování dotazníkovou formou (na příklad dotazník zaslaný poštou nebo výzva zaslaná emailem k vyplnění dotazníku na internetu) je nutné vzít v úvahu, že návratnost takto zaslaných dotazníků v praxi většinou nepřevyšuje 30 %.
2.
Provedení statistického šetření – jedná se o fázi samotné realizace zjišťování údajů od statistických jednotek podle předem připravených metod a postupů.
3.
Zpracování a analýza údajů – předpokládá znalost jednotlivých postupů a metod včetně jejich výhod a nevýhod. Existují různé formy zpracování údajů a je vhodné zvolit tu metodu, která bude z hlediska své podstaty nejsrozumitelnější a bude mít největší vypovídací hodnotu. Například je možné vypočítat různé souhrnné charak teristiky popisující určitou proměnnou, sestavit tabulku četností či nakreslit graf.
4.
Vyhodnocení a možné návrhy na opatření.
5.
Publikování výsledků.
Podle rozsahu statistických jednotek zahrnutých do šetření je možné rozlišit dva způsoby šetření. Vyčerpávající šetření – do šetření jsou zahrnuty (a tedy i prozkoumány) pokud mož no všechny statistické jednotky základního souboru. Toto šetření podává přesné informace o dané skutečnosti. Náklady na takové šetření bývají vysoké, a proto se provádí jen zřídka. Ty pickým příkladem tohoto způsobu šetření je například sčítání lidu, domů a bytů, které Český statistický úřad (ČSÚ) uskutečňuje v desetiletých intervalech. Výběrové šetření – provádí se pouze u statistických jednotek zahrnutých do výběrového sou boru. Výhodou tohoto šetření jsou ve srovnání s vyčerpávajícími šetřeními zejména nižší ná klady na jeho provedení, menší časová náročnost a snadnější a rychlejší kontrola správnosti získaných výsledků. Mezi zápory patří například tzv. zatížení výběrovou chybou. Ta vzniká tím, že zjišťujeme hodnoty proměnných jen u jednotek výběrového souboru a na základě zís kaných hodnot provádíme úsudek na celý základní soubor. Velikost výběrové chyby lze snížit zvýšením rozsahu výběrového souboru. 19
Statistika_2012.indd 19
30.4.2013 13:50:59
Kapitola 1
Edice učebních textů
Statistické metody a demografie
1.3
Statistické vzorce a výrazy Předtím než začneme s výkladem samotných statistických metod a postupů, je třeba, aby chom si zopakovali základní matematické operátory a práci s nimi. Soustředíme se pouze na symboly, které budou zastupovat sumaci a součin různých hodnot a budou se dále v rámci to hoto textu vyskytovat. Prozatím se bude jednat pouze o nepojmenované vzorce, ale v průběhu čtení tohoto textu většina ze vzorců dostane své pojmenování a bude vysvětleno jejich použití. Základní myšlenkou, kterou je třeba při práci se vzorci dodržovat, je, že se jednotlivé hodnoty nejprve násobí a pak sčítají. Je zřejmé, že dělit znamená násobit převrácenou hodnotou a ode čítat znamená sčítat s opačným znaménkem. Symbol, který se používá pro sumaci hodnot, se značí S a symbol pro násobení se značí P. Oba symboly mají jednak dolní a jednak horní mez k vyznačení počátku a konce sčítání, resp. násobení. Rozepsání výrazů, které obsahují symbol pro sumaci a násobení, stejně tak jako využití těchto symbolů ke zkrácení rozepsaných hodnot, si ukážeme v řešených příkladech.
20
Statistika_2012.indd 20
30.4.2013 13:50:59
Úvod a základní pojmy
Kapitola 1
Shrnutí ••
Předmětem statistiky jsou většinou hromadné jevy.
••
Statistický soubor představuje soubor statistických jednotek. Rozlišujeme základní soubor (všechny jednotky) a výběrový soubor (část jednotek základního souboru).
••
Statistická jednotka je prvek statistického souboru, má určité vlastnosti.
••
Statistický znak (proměnná) zastupuje vlastnost statistické jednotky.
••
Statistická proměnná může být kvalitativní (nominální nebo ordinální), nebo kvan titativní (spojitá nebo diskrétní) podle počtu různých variant hodnot a vztahů mezi nimi.
••
Statistické šetření je proces získávání údajů. Rozlišujeme vyčerpávající a výběrové še tření podle toho, zda prošetřujeme všechny jednotky základního souboru, nebo pou ze vybrané. Při rozhodování o vyčerpávajícím nebo výběrovém šetření je třeba vzít v úvahu, že vyčerpávající šetření je náročné jednak finančně, jednak časově.
••
Typickým příkladem vyčerpávajícího šetření je sčítání lidu, domu a bytů, které pro vádí ČSÚ v desetiletých intervalech.
••
Při práci s matematickými výrazy je třeba násobit a pak teprve sčítat. Matematický operátor pro sčítání je S a pro násobení P.
Klíčová slova Hromadný jev Statistika Statistický soubor Statistická jednotka Statistický znak Statistická proměnná Statistické šetření
21
Statistika_2012.indd 21
30.4.2013 13:50:59
Kapitola 1
Edice učebních textů
Statistické metody a demografie
Řešené příklady PříKLAD 1 Nechť c je nenulová konstanta a xi jsou jednotlivé hodnoty proměnné X. Index i nabývá hod not i = 1, 2, ..., n v případě, že uvažujeme n hodnot. Rozepište jednotlivé výrazy: a)
b)
,
f)
,
g)
k)
,
l)
,
,
c)
,
d)
,
e)
h)
,
i)
,
j)
,
n)
m)
,
,
,
.
Řešení:
a)
.
b)
.
Vzhledem k tomu, že násobíme každou hodnotu stejnou nenulovou konstantou c, je možné tuto konstantu vytknout před sumu. c)
.
Tento výraz představuje součet logaritmů jednotlivých hodnot. d)
.
Nejprve je nutné jednotlivé hodnoty umocnit na m a pak takto umocněné hodnoty sečíst. e)
.
Jak bylo uvedeno v b), konstantu lze vytknout, a sečtemeli nkrát 1, získáme n. f)
.
Nejprve vytvoříme převrácené hodnoty a pak je sečteme.
22
Statistika_2012.indd 22
30.4.2013 13:50:59
Kapitola 1
Úvod a základní pojmy
.
g)
V tomto případě se v čitateli jedná o součet součinů jednotlivých hodnot, a tedy musíme jednotlivé hodnoty nejprve vynásobit a pak sečíst. h)
.
Stejně jako v čitateli g), tak i zde se jedná o součet součinů jednotlivých hodnot. .
i)
j)
.
k)
.
Výraz P představuje symbol násobení, a tedy se jedná o součin všech hodnot. l)
.
V tomto případě je nutné nejprve jednotlivé hodnoty xi umocnit výrazem ni a pak teprve takto umocněné hodnoty mezi sebou vynásobit.
m)
.
V případě tohoto složitějšího výrazu je nejprve nutné vypočítat rozdíly hodnot, které dále umocníme na druhou, poté vynásobíme ni , a teprve nyní je možné provést jejich součet, který vydělíme sumou ni. n)
.
23
Statistika_2012.indd 23
30.4.2013 13:51:00