Masarykova univerzita Přírodovědecká fakulta
BAKALÁŘSKÁ PRÁCE
David Fiedor
Statistika na střední škole
Vedoucí práce: RNDr. Marie Budíková, Dr. Studijní program: Matematika Studijní obor: Matematika se zaměřením na vzdělávání 2010
Tímto bych chtěl poděkovat především RNDr. Marii Budíkové, Dr. za připomínky, cenné rady a čas, který mi při psaní této práce věnovala. Dále děkuji všem učitelům, kteří byli ochotni vyplnit dotazník a předali mi tak praktické informace o výuce statistiky na středních školách.
Prohlašuji, že jsem svoji bakalářskou práci napsal samostatně a výhradně s použitím citovaných pramenů.
V Brně dne 21.4.2010
David Fiedor
Název práce: Statistika na střední škole Autor: David Fiedor Ústav matematiky a statistiky Přírodovědecké fakulty MU Vedoucí bakalářské práce: RNDr. Marie Budíková, Dr. Abstrakt: Účelem této bakalářské práce bylo nejprve zjistit způsob a rozsah výuky statistiky na střední škole a následně na základě tohoto výzkumu vytvořit učební text. Tento učební text je rozšířen o řešené příklady ihned po vyložení teorie a na konci většiny kapitol je doplněn příklady neřešenými, určenými k procvičení. Celá bakalářská práce se věnuje pouze statistice popisné. Poslední kapitolu tvoří zadání a vypracování samostatného úkolu, který by měl posloužit vyučujícím matematiky jako vzor, jak lze zadávat samostatnou práci studentům. Také by měl pomoci studentům při vypracování statistických úkolů v programu Microsoft Excel. Tento text může být využit také jako zdroj příkladů zadávaných studentům. Klíčová slova: statistický soubor, průměr, variabilita
Title: Statistics on secondary school Author: David Fiedor Department of Mathematics and Statistics, Faculty of Science, MU Supervisor: RNDr. Marie Budíková, Dr. Abstract: The main purpose of the bachelor thesis was to find out a range of statistics education at grammar schools. The aim was to produce teaching materials on the bases of this research. This work deals with the explanation of theory and exemplary simple statistical operations. Half of the chapters contain excercises for practice at the end of these chapters. In the bachelor thesis only descriptive statistics is involved. The last chapter includes a solved statistical project. Thanks to this project students should be able to process a statistical file in Microsoft Excel. The project could imagine a demonstration for math teachers how to organise the lesson. The bachelor thesis can be used as a source of excercises for students. Keywords: data set, mean, variability
OBSAH
Obsah Úvod 1. Cíl práce . . . . . . . . . . . 2. Kontaktování středních škol . 3. Rámcový vzdělávací program 4. Členění učebního textu . . .
. . . .
7 7 7 8 8
1 Základní statistické pojmy 1.1 Co je statistika a čím se zabývá? . . . . . . . . . . . . . . . . . . 1.2 Statistický soubor a statistické jednotky . . . . . . . . . . . . . . 1.3 Statistické znaky . . . . . . . . . . . . . . . . . . . . . . . . . . .
9 9 9 10
2 Rozdělení četností 2.1 Absolutní a relativní četnosti . . . . . . . . . 2.2 Skupinové rozdělení četností . . . . . . . . . . 2.3 Formy grafického znázornění rozdělení četností Úlohy na procvičení . . . . . . . . . . . . . . . . .
. . . .
12 12 14 16 20
. . . . . . . . . . . . . .
21 21 23 23 26 27 27 28 29 30 30 31 32 33 34
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
3 Charakteristiky znaku 3.1 Typy statistických znaků podle stupně kvantifikace 3.2 Charakteristiky polohy . . . . . . . . . . . . . . . . 3.2.1 Aritmetický průměr . . . . . . . . . . . . . . 3.2.2 Harmonický průměr . . . . . . . . . . . . . 3.2.3 Geometrický průměr . . . . . . . . . . . . . 3.2.4 Modus . . . . . . . . . . . . . . . . . . . . . 3.2.5 Medián . . . . . . . . . . . . . . . . . . . . 3.2.6 Kvantily . . . . . . . . . . . . . . . . . . . . 3.3 Charakteristiky variability . . . . . . . . . . . . . . 3.3.1 Rozptyl . . . . . . . . . . . . . . . . . . . . 3.3.2 Směrodatná odchylka . . . . . . . . . . . . . 3.3.3 Variační koeficient . . . . . . . . . . . . . . 3.3.4 Mezikvartilová odchylka . . . . . . . . . . . Úlohy na procvičení . . . . . . . . . . . . . . . . . . . .
5
. . . .
. . . .
. . . . . . . . . . . . . .
. . . .
. . . .
. . . . . . . . . . . . . .
. . . .
. . . .
. . . . . . . . . . . . . .
. . . .
. . . .
. . . . . . . . . . . . . .
. . . .
. . . .
. . . . . . . . . . . . . .
. . . .
. . . .
. . . . . . . . . . . . . .
. . . .
. . . .
. . . . . . . . . . . . . .
OBSAH
4 Statistická závislost více znaků 4.1 Koeficient korelace . . . . . . . . . . . . . . . . . . . . . . . . . . Úlohy na procvičení . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36 36 38
5 Samostatný úkol 5.1 Zadání samostatného úkolu . . . . . . . . . . . . . . . . . . . . . 5.2 Vzorové vypracování samostatného úkolu . . . . . . . . . . . . . .
39 40 41
Závěr
47
Seznam použité literatury
48
6
ÚVOD
Úvod 1. Cíl práce Cílem této bakalářské práce bylo vytvoření učebního textu statistiky, která se v rámci předmětu matematika probírá na středních školách gymnaziálního typu. Existuje mnoho typů středních škol, není samozřejmě možno vytvořit učební text univerzální pro všechny tyto typy. Proto jsem se ve své práci zaměřil na gymnázia. Pokud to bylo možné, snažil jsem se volit příklady tematicky zeměpisně zaměřené s použitím dat Českého statistického úřadu (www.czso.cz).
2. Kontaktování středních škol V prvotní fázi bylo nutné kontaktovat vyučující na gymnáziích a požádat je o vyplnění dotazníku. Jistěže ne všichni odpověděli, avšak těm, kteří tak učinili, patří mé srdečné díky. Dotazník obsahoval otázky týkající se probíraného učiva, hodinové dotace statistiky a používané učebnice. Poslední otázka směřovala k softwaru, používanému při výuce. Výsledky byly ve všech případech hodně podobné. Hodinová dotace dosahovala průměrně šest hodin, což je opravdu málo. Všichni kontaktovaní vyučující se shodli na používání učebnice [4], s kterou byli všichni spokojeni. Poslední otázka směřovala na software používaný při výuce. Bohužel více než polovina kontaktovaných škol žádný software nevyužívá. Proto jsem se rozhodl zpracovat tento učební text tak, aby k řešení příkladu nebylo potřeba využívat jakýkoliv statistický software. Jelikož je takřka nutností statistické soubory zpracovávat použitím softwaru, rozhodl jsem se navrhnout vyučujícím formu samostatného úkolu, jež mohou řešit s použitím softwaru Excel jak ve škole, tak i doma. Tento samostatný úkol je vytvořen i s vzorovým řešením, které obsahuje návod, jak jednotlivé úkoly v programu Excel konstruovat.
7
ÚVOD
3. Rámcový vzdělávací program Podle Rámcového vzdělávacího programu (RVP) by měl student v rámci práce s daty prokázat následující dovednosti: 1. Diskutuje a kriticky zhodnotí statistické informace a daná statistická sdělení. 2. Volí a užívá vhodné statistické metody k analýze a zpracování dat (využívá výpočetní techniku). 3. Reprezentuje graficky soubory dat, čte a interpretuje tabulky, diagramy a grafy, rozlišuje rozdíly v zobrazení obdobných souborů vzhledem k jejich odlišným charakteristikám. Probíraným učivem by měly být tyto okruhy: analýza a zpracování dat v různých reprezentacích, statistický soubor a jeho chrakteristiky (vážený aritmetický průměr, medián, modus, percentil, kvartil, směrodatná odchylka, mezikvartilová odchylka). Převzato z dokumentu [8].
4. Členění učebního textu Podle RVP a učebnice [4] používané na gymnáziích jsem vytvořil vlastní osnovu učebního textu, přičemž každou z kapitol nyní stručně charakterizuji. První kapitola věnována základním statistickým pojmům obsahuje především jejich vysvětlení, uvedení do problematiky a je zakončená schématem (obr.1), které se snaží názorně vystihnout základní statistické pojmy. Druhá kapitola s názvem Rozdělení četností obsahuje četnosti - absolutní i relativní, formy jejich reprezentace formou tabulek a grafů, skupinové rozdělení četností. Důraz byl kladen na pochopení těchto pojmů, za jakých okolností je lze používat. Na konci této kapitoly je poslední strana věnována neřešeným příkladům. Výsledky všech neřešených příkladů naleznete v příloze. V pořadí třetí kapitola (Charakteristiky znaku) tohoto textu je kapitolou stěžejní, protože tvoří jádro učiva, které je vyučováno na středních školách. Strukturu této kapitoly tvoří především dvě podkapitoly - Charakteristiky polohy a Charakteristiky variability, kterým předchází podkapitola Typy znaků. Po vysvětlení pojmu přichází řešený příklad, případně řešené příklady. Také tato kapitola je zakončená příklady na procvičení. Předposlední kapitola se věnuje charakteristikám více znaků, především koeficientu korelace. Vysvětlení teorie je doplněno řešeným příkladem a kapitola je uzavřená několika příklady na procvičení. Tento učební text je na závěr doplněn samostatným úkolem a také jeho komentovaným řešením. K tomuto úkolu je zapotřebí využít software, s ohledem na dostupnost softwaru byl zvolen MS Excel. 8
KAPITOLA 1. ZÁKLADNÍ STATISTICKÉ POJMY
Kapitola 1 Základní statistické pojmy Snahou této první kapitoly bude seznámit čtenáře se základními pojmy, se kterými statistika pracuje. V dalších kapitolách budeme tyto pojmy používat, a proto je potřeba jim dostatečně porozumět.
1.1
Co je statistika a čím se zabývá?
Statistika se jako vědní obor vyvíjela již od počátku 16. století, kdy vycházela první statistická díla zabývající se především popisem státu. Dnes již hovoříme o moderní statistice, která se od původního popisu významně liší. Pokusme se nyní objasnit, co to statistika vlastně je. Statistika je vědní obor, který se zabývá hromadnými jevy. Co to tedy jsou ony hromadné jevy? Jestliže přijdu k lékaři s nějakým druhem nemoci, středem zájmu budu pouze já a moje nemoc. Zatímco pro potřeby statistiky se moje nemoc zobecní a statistiku bude zajímat jen to, že jsem jedinec, který je nemocný. Proto může vzniknout nějaká statistika, která bude udávat například počet všech nemocných v kraji za určité období. Hromadné jevy jsou tedy přírodní, společenské či jiné jevy sledované ne jednotlivě, ale ve velkém počtu případů. V tomto textu se budeme orientovat na ryzí základy, tzv. popisnou statistiku, která se snaží informace obsažené ve velkém počtu dat zhustit do přehlednější podoby, přičemž využívá pouze základních matematických nástrojů.
1.2
Statistický soubor a statistické jednotky
Množinu všech objektů statistického pozorování shromážděných na základě toho, zda mají jisté společné vlastnosti, nazýváme statistickým souborem (též datovým souborem). Pod tímto termínem si můžeme představit například třídu studentů. Prvky této množiny se nazývají statistické jednotky. Za statistický soubor můžeme považovat například třídu studentů na gymnáziu, kde každý jednotlivec představuje statistickou jednotku. Počet všech objektů statistického sou9
KAPITOLA 1. ZÁKLADNÍ STATISTICKÉ POJMY
boru – tj. v tomto případě počet studentů, se nazývá rozsah souboru a značí se symbolem n. Statistický soubor, který podle sledovaných kritérií obsahuje všechny statistické jednotky možné v dané situaci, se nazývá základní statistický soubor. Ne vždy se však statistika zaměřuje právě na všechny možné statistické jednotky, jelikož je to mnohdy vyčerpávající a příliš zdlouhavá či nákladná metoda. Proto statistika často vybírá pouze některé jednotky, které do svého šetření zahrne. Takovému souboru statistických jednotek říkáme výběrový soubor. Při náhodném výběru těchto jednotek ze základního souboru tak můžeme využít teorie pravděpodobnosti a dostáváme tak dostatečně spolehlivé a přesné poznatky o celém základním souboru. Základním souborem bychom mohli rozumět například množinu všech studentů prvního ročníku gymnázií v České republice, kteří se účastní matematické olympiády. Z nich bychom náhodně vybrali podmnožinu dvaceti studentů, které bychom zkoumali podle toho, zda byli úspěšní řešitelé, nebo nikoliv. Tímto náhodným výběrem jsme získali podmnožinu, která se nazývá výběrový soubor. V tomto textu se omezíme většinou na soubor výběrový, takže statistickým souborem budeme rozumět výběrový statistický soubor, pokud nebude řečeno jinak.
1.3
Statistické znaky
Statistický znak x je společná vlastnost prvků statistického souboru, jejíž proměnlivost je předmětem statistického zkoumání. Jednotlivé údaje statistického znaku se nazývají hodnoty znaku x a značí se x1 , x2 , . . . , xn . Statistickým znakem může být například pohlaví, věk, výška, známka z matematiky a mnoho dalších vlastností prvků, které tvoří statistický soubor. Hodnoty znaků tak lze vyjádřit jak čísly, tak i nějakým jiným způsobem, zpravidla slovním popisem. Právě podle tohoto kritéria dělíme statistické znaky do dvou skupin – znaky kvantitativní a znaky kvalitativní. První skupinu, tj. kvantitativní znaky, tvoří znaky jako tělesná výška či hmotnost. Druhou skupinu, kterou tvoří kvalitativní znaky, reprezentuje například pohlaví, rodinný stav nebo náboženství.
10
KAPITOLA 1. ZÁKLADNÍ STATISTICKÉ POJMY
Obrázek 1.1: Schéma základních statistických pojmů
11
KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ
Kapitola 2 Rozdělení četností V pořadí druhá kapitola tohoto textu nás zavede do problematiky relativně snadného, avšak důležitého pojmu - četností. Vycházel jsem z teoretického základu učebnic [1], [4] a [10], přičemž byla přejata také matematická symbolika vyskytující se v těchto středoškolských textech, aby nedocházelo k zbytečnému zmatení studenta.
2.1
Absolutní a relativní četnosti
Předpokládejme, že rozsah statistického souboru je roven n, a nás zajímá určitý statistický znak. Ten může samozřejmě nabývat různých hodnot u všech statistických jednotek tohoto souboru, avšak v praxi se s tímto případem setkáváme zřídka. Některé hodnoty statistického znaku jsou proto u některých jednotek totožné a to nám umožní definovat další pojem – četnost. (Absolutní) četností hodnoty xj znaku x rozumíme počet nj statistických jednotek jistého statistického souboru, které mají stejnou hodnotu xj znaku x. Součet všech četností je rozsah statistického souboru. Jestliže například v praxi zkoumáme v rámci třídy 4.A známku z matematiky, omezí nás to na nejvýše pět různých hodnot statistického znaku (známky 1, 2, 3, 4, 5). Četností (absolutní) znaku x1 tudíž rozumíme počet všech studentů třídy 4.A, kteří mají na vysvědčení z matematiky jedničku. Kromě absolutní četnosti existuje také četnost relativní. Relativní četnost hodnoty xj je rovna podílu absolutní četnosti hodnoty xj a rozsahu n celého statistického souboru. Přitom relativní četnost budeme označovat symbolem vj : vj =
nj . n
Součet relativních četností všech různých hodnot statistického znaku je roven jedné. Relativní četnosti vyjadřujeme v praxi velice často v procentech (při vynásobení relativní četnosti stem) a součet je následně 100 %. Relativní četnosti nám naznačují, kolik procent celého statistického souboru má právě takovou hodnotu 12
KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ
statistického znaku a někdy jsou vhodnějším ukazatelem než četnosti absolutní. V případě, že známe absolutní četnost, která je rovna číslu dvacet, ale neznáme rozsah souboru, tak nemůžeme říci, jestli je to hodně nebo málo. Naopak jestli víme, že relativní četnost hodnot xj je rovna 0,9, řekne nám toto číslo, že devadesát procent hodnot znaků statistického souboru je rovno právě hodnotě xj . Pro přehledné znázornění absolutních a relativních četností hodnot znaků statistického souboru se využívají tabulky. Takovým tabulkám se říká tabulky rozdělení četností a relativních četností. Obecně tato tabulka může při zavedeném označení vypadat následovně: Tabulka 2.1: Rozdělení absolutních a relativních četností xj
nj
vj
x1
n1
x2
n2
n1 n n2 n
···
···
···
xk
nk
nk n
Příklad U domácností byl zjišťován počet obytných místností s možnými výsledky: 1, 2, 3, 4, 5+ (znamená 5 a více místností). Při tomto zjišťování bylo náhodně vybráno 25 respondentů s následujícími výsledky: 1, 3, 2, 5+, 2, 2, 3, 5+, 4, 2, 1, 3, 3, 3, 5+, 2, 3, 3, 4, 4, 2, 3, 4, 2, 3. Vytvořte tabulku rozdělení četností a relativních četností. Pokuste se o stručnou interpretaci získaných výsledků, která bude obsahovat nejčetnější a nejméně četnou hodnotu sledovaného znaku. Řešení Symbolem x označme sledovaný znak (počet obytných místností), který může nabývat hodnot xj (j = 1, 2, 3, 4, 5+). Absolutní četnosti si označme nj , relativní četnosti vj .
13
KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ
Tabulka 2.2: Absolutní a relativní četnosti počtu obytných místností xj 1 2 3 4 5+ součet
nj 2 7 9 4 3 25
vj 0,08 0,28 0,36 0,16 0,12 1,00
Nejvíce osob žije v domácnostech o třech obytných místnostech (36 %), zatímco nejméně v domácnostech s jednou obytnou místností (pouze 8 %).
2.2
Skupinové rozdělení četností
Jestliže máme k dispozici statistický soubor o velkém rozsahu, který má navíc obrovské množství různých hodnot zkoumaného znaku x, je potřeba tento soubor zjednodušit, aby byl přehlednější pro vyvozování nějakých závěrů. Proto lze hodnoty zkoumaného znaku, které jsou sobě navzájem blízké, sdružovat do určitých skupin (tříd ) tvořených zpravidla intervaly. Pro tyto skupiny existuje několik zásad, které se snažíme dodržovat, pokud je to možné. Jednou z těchto zásad je konstantní šířka jednotlivých intervalů. Často bývá obtížné určit vhodný počet intervalů, do kterých statistické jednotky podle hodnot znaku rozdělíme. K vyřešení takového problému slouží několik vzorců, z nichž nejznámější a nejčastěji používaný se nazývá Sturgesův vzorec. Jeho tvar je následující: . k = 1 + 3, 3 log n, kde k je vhodný počet stejně velkých intervalů a n je rozsah statistického souboru. Následující tabulka uvádí počty třídicích intervalů pro dané rozsahy statistických souborů, určených pomocí Sturgesova pravidla.
14
KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ
Tabulka 2.3: Počet třídicích intervalů v závislosti na rozsahu souboru určených Sturgesovým pravidlem počet znaku 1 2 3-5 6-11 12-23 24-46 47-93 94-187 188-376 377-756 ···
počet třídicích intervalů 1 2 3 4 5 6 7 8 9 10 ···
Po rozdělení všech hodnot souboru do intervalů můžeme určit četnost výskytu hodnot znaku v jednotlivých intervalech. Určením těchto četností pro všechny intervaly získáme skupinové (intervalové) rozdělení četností, pro jejichž zápis se obvykle využívá tabulka. Příklad tabulky skupinového rozložení četností je uveden v následujícím příkladu. Příklad U obcí Moravskoslezského kraje s počtem obyvatel větším než tisíc a menších než deset tisíc byl zjištěn počet narozených dětí za rok 2008. Výsledky jsou následující: 28, 28, 23, 51, 21, 25, 9, 6, 30, 18, 16, 15, 65, 14, 9, 40, 16, 23, 12, 21, 10, 10, 40, 38, 10, 21, 31, 48, 19, 17, 16, 16, 11, 11, 27, 19, 20, 46. Pomocí Sturgesova pravidla určete počet třídicích intervalů, vytvořte tabulku skupinového rozdělení četností a relativních četností. Závěrem se pokuste získané výsledky interpretovat. Řešení Nejdříve zjistíme počet všech hodnot zkoumaného znaku, abychom pomocí Sturgesova pravidla určili počet třídicích intervalů. Uspořádejme si všechny hodnoty do řady od nejmenších po největší: 6, 9, 9, 10, 10, 10, 11, 11, 12, 14, 15, 16, 16, 16, 17, 18, 19, 19, 20, 21, 21, 21, 23, 23, 25, 27, 28, 28, 30, 31, 38, 40, 40, 46, 48, 51, 65. Rozsah souboru je 37, odkud jsme dosazením do vzorce Sturgesova pravidla dostali, že počet třídicích intervalů je roven šesti. Nejmenší, resp. největší hodnota 15
KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ
statistického znaku tohoto souboru je rovna 6, resp. 65. Délka jednoho intervalu se proto bude rovnat deseti. Sestrojme nyní tabulku skupinového rozdělení četností a relativních četností. Tabulka 2.4: Skupinové rozdělení absolutních a relativních četností řešené úlohy intervaly znaku x
četnosti nj
relativní četnosti vj
6-15
11
16-25
14
26-35
5
36-45
3
46-55
3
56-65
1 37
11 37 14 37 5 37 3 37 3 37 1 37
součet
1
Ačkoliv nebyla udána přesná velikost zkoumaných obcí, výsledná tabulka nám o těchto údajích může mnohé napovědět. Při předpokladu, že ve městech s vyšším počtem obyvatel by se mělo rodit více dětí, si již snadno uvědomíme fakt, že většina zkoumaných obcí jsou obce s menším počtem obyvatel, jelikož nejčastější hodnoty se vyskytují ve dvou nejnižších intervalech. Obcí kolem dvou tisíc obyvatel je zde pravděpodobně více než obcí s počtem obyvatel blížícím se deseti tisícům.
2.3
Formy grafického znázornění rozdělení četností
Forem grafického znázornění rozdělení četností (i skupinových rozdělení četností) hodnot xj znaku x existuje mnoho. Lze znázorňovat jak četnosti absolutní, tak i relativní. Ke grafickému znázornění většinou používáme tabulky rozdělení četností. Ukázky jednotlivých grafů jsem převzal z učebních materiálů předmětu Základní statistické metody a následně je upravil. V této podkapitole si rozdělíme grafická vyjádření podle toho, zda mají znázorňovat kvantitativní nebo kvalitativní znaky statistických jednotek. V případě kvantitativního znaku se pro grafické znázornění četností používá především polygon četností nebo histogram. Polygonem (jinak zvaným spojnicovým grafem) rozumíme propojení všech bodů v pravoúhlé soustavě, kde osa x vyjadřuje hodnotu znaků a osa y znázorňuje odpovídající četnost. Stejně pojmenované osy má i histogram četností neboli sloupkový diagram. Tento typ grafu, který se používá převážně pro skupinové rozdělení četností, je tvořený pravidelnými rovnoběžníky, jejichž základny mají délku zvolených intervalů a jejichž 16
KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ
výšky mají velikost příslušných třídních četností. Nyní si uvedeme příklady jednotlivých typů grafů. U 30 domácností byl zjišťován počet členů, výsledky zjišťování vidíme v následující tabulce 2.5. Použitím těchto dat již snadno vytvoříme polygon četností, který je znázorněn na následujícím obrázku 2.1. Tabulka 2.5: Počty členů u 30 domácností zjištěné při statistickém šetření počet členů domácnosti
1
2
3
4
5
6
počet domácností
2
6
4
10
5
3
Obrázek 2.1: Polygon četností
17
KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ
U 110 zákazníků jisté pojišťovny bylo prováděno statistické šetření zájmu o nový typ pojištění. Mimojiné zde zákazníci vyplňovali i údaj věk. Zde máme k dispozici výsledky tohoto šetření, na jejichž základě sestrojíme histogram četností. Tabulka 2.6: Zjištěné výsledky znaku věk u vybraných 110 zákazníků pojišťovny uspořádané do tříd intervaly znaku x
četnosti nj
h23, 29i
18
(29, 35i
20
(35, 41i
26
(41, 47i
26
(47, 53i
11
(53, 59i součet
9 110
Obrázek 2.2: Histogram četností
18
KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ
Rozdělení četností hodnot kvalitativního znaku se graficky znázorňuje pomocí kruhového diagramu, kde různým hodnotám xj statistického znaku odpovídají kruhové výseče, jejichž obsahy jsou přímo úměrné relativním četnostem vj v procentech. Hlavním úkolem předchozího výzkumu, z něhož jsme si propůjčili informace o věku zákazníků (zaznamenané v obrázku 2.2), bylo prozkoumat úroveň zájmu o nabídku nového typu pojištění. Zákazníci měli vyznačit svůj postoj, přičemž mohli volit z pěti možností. Tabulka 2.7 nám shrnuje získané výsledky, které posloužily také k tvorbě kruhového diagramu na obrázku 2.3. Tabulka 2.7: Úroveň zájmu o nový typ pojištění u vybraných 110 zákazníků pojišťovny úroveň zájmu x
četnosti nj
relativní četnosti vj v %
jednoznačný nezájem
24
21,8
lehký nezájem
34
30,9
neutrální postoj
23
20,9
lehký zájem
21
19,1
jednoznačný zájem součet
8 110
7,3 100 %
Obrázek 2.3: Kruhový diagram
19
KAPITOLA 2. ROZDĚLENÍ ČETNOSTÍ
Úlohy na procvičení 2.1 Při statistickém šetření byly zjišťovány počty chráněných krajinných oblastí (CHKO) v jednotlivých krajích České republiky: Praha (1), Středočeský (5), Jihočeský (3), Plzeňský (4), Karlovarský (1), Ústecký (4), Liberecký (5), Královéhradecký (3), Pardubický (3), Vysočina (2), Jihomoravský (3), Olomoucký (2), Zlínský (2), Moravskoslezský (3). (a) Sestavte tabulku rozdělení četností a výsledky patřičně interpretujte. (b) Vykreslete polygon četností počtu CHKO. (c) Rozhodněte, zda je vhodné hodnoty rozdělit do intervalů, a své rozhodnutí zdůvodněte. 2.2 Údaje z tabulky rozložení četností příkladu 2.1 znázorněte kruhovým diagramem. K sestrojení využijte relativní četnosti počtu chráněných území. 2.3 Při témže statistickém šetření jako v minulých příkladech byl zkoumán i údaj celkové plochy území CHKO v jednotlivých krajích, přičemž byly zjištěny následující výsledky (v km2 ): Praha (5), Středočeský (877), Jihočeský (1 645), Plzeňský (848), Karlovarský (621), Ústecký (1 329), Liberecký (849), Královéhradecký (688), Pardubický (392), Vysočina (609), Jihomoravský (355), Olomoucký (558), Zlínský (1 172), Moravskoslezský (918). Abychom získali relevantní výsledky našeho zkoumání, vyjádříme plochu chráněných oblastí s ohledem na celkovou plochu krajů, tzn. vyjádříme procentuální zastoupení plochy CHKO na celkovou plochu kraje. Proto si zde uvedeme celkové plochy jednotlivých krajů (v km2 ): Praha (496), Středočeský (11 015), Jihočeský (10 057), Plzeňský (7 561), Karlovarský (3 314), Ústecký (5 335), Liberecký (3 163), Královéhradecký (4 759), Pardubický (4 519), Vysočina (6 795), Jihomoravský (7 195), Olomoucký (5 267), Zlínský (3 964), Moravskoslezský (5 426). U všech následujících úkolů tohoto příkladu již počítejte pouze získané procentuální hodnoty pro jednotlivé kraje. (a) Pomocí Sturgesova pravidla se pokuste určit počet intervalů hodnot a následně sestavte tabulku rozdělení skupinových četností, kterou také interpretujte. (b) Nakreslete histogram četností.
20
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
Kapitola 3 Charakteristiky znaku Charakteristiky statistického znaku tvoří jádro středoškolské popisné statistiky a také se jí ve výuce na gymnáziích věnuje nejvíce času. Proto také v tomto textu bude problematice této kapitoly věnována zvláštní pozornost. Teoretický základ k této kapitole jsem čerpal především z učebnic [1], [10] a [6].
3.1
Typy statistických znaků podle stupně kvantifikace
Abychom se mohli zabývat charakteristikami statistických znaků, je potřeba provést ještě nějaké rozdělení znaků do skupin. Toto rozdělení provedeme pomocí stupně kvantifikace. Již dříve jsme se zmínili o tom, že statistické znaky dělíme na kvantitativní a kvalitativní. Řekli jsme si také, že znaky kvalitativní vyjadřujeme často slovně, naopak znaky kvantitativní pomocí čísel. Pro statistické analýzy převádíme slovní popis kvalitativních znaků do řeči čísel. Nyní můžeme provést podrobnější dělení statistických znaků kvalitativních i kvantitativních. Mezi kvalitativní znaky řadíme nominální a ordinální znaky, mezi kvantitativními znaky naopak rozlišujeme intervalové a poměrové znaky. Nominální znaky nám dovolují konstatovat pouze to, zda se nějaká hodnota statistického znaku rovná nějaké další hodnotě znaku jiné statistické jednotky, či nikoliv. Hodnotami mohou být buď slovní pojmenování nebo číselné kódy. Mezi nominální statistické znaky můžeme zařadit pohlaví, náboženství, čísla tramvají jezdících v Brně, apod. U tramvají můžeme pouze říci, zda se jedná o stejné číslo, nebo o různé číslo a tudíž různé tramvaje. Ordinální znaky jsou na škále znaků o stupínek výše než znaky nominální. Proto umožňují kromě posouzení rovnosti dvou hodnot znaku statistických jednotek také posouzení, zda je některá hodnota znaku větší nebo menší než hodnota znaku jiné statistické jednotky. To znamená, že hodnoty statistického znaku lze uspořádat do pořadí. U tohoto typu znaku nemá smysl se ptát, o kolik je daná 21
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
hodnota znaku větší; smysl má pouze zeptat se, zda je větší nebo menší, případně zda se hodnoty rovnají. Ordinálními znaky mohou být čísla, text nebo i datum. Mezi typické ordinální znaky patří úroveň spokojenosti s výkonem – hodnocení studentů učitelem. Nelze porovnávat rozdíl mezi znalostmi jedničkáře a dvojkaře s rozdílem znalostí čtyřkaře a pětkaře. Intervalové znaky jsou znovu o stupínek výše a lze s nimi provádět všechny operace, které jsme prováděli u znaků nominálních a ordinálních. Tyto znaky již patří do skupiny znaků kvantitativních. Intervalové znaky nám navíc umožňují interpretovat rozdíly mezi jednotlivými intervaly. To znamená, že rozdíl mezi hodnotami jedna a tři je stejný jako rozdíl mezi hodnotami pět a sedm. Intervalové znaky nám dovolují vypočítat, o kolik je jedna hodnota statistického znaku větší než druhá. Tohoto využíváme, jestliže se pokoušíme obsahově interpretovat naměřené hodnoty teploty vzduchu ve ◦ C či plat zaměstnanců podniku. Poměrové znaky jsou z těchto kategorií nejvýše, takže všechno, co platilo u znaků předchozích typů, platí i zde. Navíc u tohoto typu znaků platí, že stejný poměr mezi jednou dvojicí hodnot a druhou dvojicí hodnot znaku znamená i stejný podíl v rozpětí dané vlastnosti. Jinak řečeno má smysl uvažovat fakt, že hodnota je několikrát větší než jiná hodnota. Zajímají-li nás u statistických jednotek hodnoty znaku hmotnost jedinců, je na místě uvažovat, že Lenka (55 kg) má poloviční hmotnost než Milan (110 kg). Zvláštní postavení mezi statistickými znaky mají znaky alternativní, které mohou patřit ke kterékoliv z výše uvedených skupin znaků. Alternativními znaky rozumíme znaky, které mohou nabývat pouze dvou hodnot a žádná další hodnota statistického znaku není možná. Do této kategorie bychom zařadili znaky, které vyjadřují přítomnost či absenci určitého jevu (přítomnost = 1, absence = 0) nebo například znak rozlišující pohlaví zkoumaných jedinců.
22
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
3.2
Charakteristiky polohy
Charakteristikami polohy (zvané také úrovně či střední hodnoty) hodnot znaku rozumíme čísla, která nám podávají určitou informaci o ”střední hodnotě” sledovaného znaku. Patří mezi ně zejména aritmetický, geometrický a harmonický průměr, modus, medián a kvantily. Každé z nich budeme věnovat patřičnou pozornost. Charakteristiky polohy se musíme naučit také vhodně volit. Kdybychom měli k dispozici statistický soubor a měli bychom ho jedním číslem charakterizovat, musíme obezřetně zvolit správnou charakteristiku, aby nedošlo k nesprávné představě o daném statistickém souboru.
3.2.1
Aritmetický průměr
V běžném životě je pravděpodobně nejobvyklejším statistickým pojmem aritmetický průměr. Pomocí něho se vypočítávají průměrné denní teploty, průměrné roční množství srážek spadnutých na daném území apod. Patřičným způsobem si nejprve definujme a vysvětleme, co tento pojem znamená. Aritmetický průměr x¯ hodnot x1 , x2 , . . . , xn znaku x je definován jako podíl součtu hodnot znaku a jejich počtu (rozsahu souboru) n, tj. je určen vzorcem: n
x¯ =
x1 + x2 + · · · + xn 1X xi . = n n i=1
Aby nedocházelo k nesprávné charakteristice statistického souboru užitím aritmetického průměru, ukážeme si ještě některé jeho vlastnosti, které nám pomohou lépe pochopit význam a užití této charakteristiky znaku. Jednou ze zásad použití aritmetického průměru je jeho typičnost. Jestliže platí, že průměr je typický, znamená to, že většina hodnot je blízká jeho hodnotě, a navíc by také mělo platit, že by se měl blížit nejčetnější hodnotě. Zde je na místě také uvést skutečnost, že aritmetický průměr má smysl pouze tehdy, jestliže má smysl součet hodnot znaku statistického souboru. To nás přivádí k první podkapitole této kapitoly, kde jsme si rozdělili znaky podle stupně kvantifikace. Můžeme proto konstatovat, že aritmetický průměr je charakteristika vhodná pouze pro intervalové a poměrové znaky. Další vlastnosti již nebudou o správném užití, avšak budou charakterizovat chování aritmetického průměru: a) Součet všech rozdílů xi − x jednotlivých hodnot znaku xi a jejich aritmetického průměru x se rovná nule: n X (xi − x¯) = 0. i=1
23
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
b) Přičteme-li ke všem hodnotám znaku konstantu, aritmetický průměr se také zvětší právě o danou konstantu. c) Vynásobíme-li všechny hodnoty znaku konstantou k, aritmetický průměr se k-krát zvětší. d) Průměr součtu dvou proměnných se rovná součtu obou průměrů. e) Aritmetický průměr si lze geometricky představit jako těžiště. Poznámka. Jestliže v dalším textu nebude uvedeno, o jaký typ průměru se jedná, budeme vždy uvažovat průměr aritmetický, neboť je v běžném životě nejvíce používaným. Příklad Na základě statistických hlášení o narození a úmrtí a souborů stěhování zpracovává Český statistický úřad v návaznosti na výsledky posledního sčítání lidu každoroční bilanci počtu obyvatel České republiky za všechny obce. My máme nyní k dispozici počet obyvatel v jednotlivých krajích (pro zlepšení práce s daty byly počty obyvatel zaokrouhleny a jsou uváděny v tisících): Hlavní město Praha 1 233, Středočeský 1 230, Jihočeský 636, Plzeňský 569, Karlovarský 308, Ústecký 835, Liberecký 437, Královéhradecký 554, Pardubický 515, Vysočina 515, Jihomoravský 1147, Olomoucký 642, Zlínský 591, Moravskoslezský 1 250. Vypočtěte aritmetický průměr počtu obyvatel žijících v jednom kraji České republiky. Řešení Všechno máme připraveno k tomu, abychom pouze dosadili do vzorce pro výpočet aritmetického průměru. Nesmíme zapomenout na fakt, že budeme dosazovat do vzorce čísla uváděna v tisících, proto taktéž výsledný aritmetický průměr počtu obyvatel bude v tisících.
x¯ =
1 233 + 1 230 + 636 + 569 + 308 + 835 + 437 + 554 + 515 + 515 + 1 147+ 14
+ 642 + 591 + 1 250 = 747, 29 = ˙ 747 14 Nyní můžeme konstatovat, že v každém kraji České republiky žije průměrně 747 tisíc obyvatel. Pro úplnost ještě doplňme skutečnost, že existuje i tzv. vážený aritmetický průměr. Při tomto druhu aritmetického průměru dáváme každé hodnotě znaku nějakou váhu – důležitost. Tuto důležitost může představovat absolutní četnost 24
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
dané hodnoty znaku. Každá hodnota znaku je tak doprovázena koeficientem, který vyjadřuje její důležitost – vyšší koeficient znamená důležitější hodnotu. Vzorce vyjadřující váhu jiných průměrů (harmonický a geometrický) již nebudeme dále zmiňovat, neboť jejich tvar získáme obdobně jako u průměru aritmetického, jehož vzorec si nyní uvedeme: k
1X n 1 x1 + n 2 x2 + · · · + n k xk = ni xi , x¯ = n n i=1 přičemž n1 , n2 , . . . , nk značí váhy příslušných hodnot statistických znaků x1 , x2 , . . . , xk a platí: n1 + n2 + · · · + nk = n. V praxi se vážený aritmetický průměr používá například v meteorologii při výpočtu průměrné denní teploty vzduchu. Průměrnou denní teplotu vzduchu určíme z průměru teplot naměřených v 7, 14 a 21 hodin1 , přičemž teplota naměřená ve 21 hodin má váhu rovnou číslu 2, ostatní mají váhu 1. Tento výpočet si názorně předvedeme v následujícím příkladu. Příklad Vypočtěte průměrnou denní teplotu vzduchu, jestliže znáte teploty: t7 = 5 ◦ C, t14 = 15 ◦ C, t21 = 8 ◦ C. Řešení 5 + 15 + 2 · 8 t7 + t14 + 2 · t21 = =9 t¯ = 4 4 Průměrná denní teplota je 9 ◦ C.
Příklad V kapitole 2.1 jsme si uvedli příklad, který popisoval počet obytných místností u domácností s možnými výsledky 1, 2, 3, 4, 5+ (označující 5 a více místností). V tomto příkladu využijeme tabulky rozdělení četností, kterou jsme v řešení tohoto příkladu zkonstruovali, přičemž pro potřeby tohoto příkladu si vyjádření 5+ nahradíme hodnotou 5. Ačkoliv se tímto dopustíme určité chyby, pro tento příklad budeme tuto nesprávnost akceptovat. Na základě tabulky rozdělení četností určete průměrný počet obytných místností v domácnosti – výsledek zaokrouhlete na celá čísla. Řešení x¯ =
2·1+7·2+9·3+4·4+3·5 = 2, 96 = ˙ 3 25
1
Teplota naměřená ve 21 hodin nemá vyšší váhu proto, že by se meteorologům nechtělo přes noc vstávat, aby měřili teplotu, nýbrž proto, že denní průměr teploty vzduchu se nejvíce přibližuje teplotě naměřené ve 21 hodin.
25
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
Tabulka 3.1: Absolutní a relativní četnosti počtu obytných místností xj 1 2 3 4 5 součet
nj 2 7 9 4 3 25
vj 0,08 0,28 0,36 0,16 0,12 1,00
Průměrnou hodnotou se nám stala po zaokrouhlení hodnota 3 udávající, že průměrný počet obytných místností v domácnostech je roven třem. Když zpětně pohlédneme na tabulku 3.1, zjistíme, že tři obytné místnosti byla také hodnota s největší četností a již předem jsme mohli odhadovat, že se také stane přibližně průměrnou hodnotou.
3.2.2
Harmonický průměr
Harmonickým průměrem xH hodnot znaku x1 , x2 , . . . , xn rozumíme podíl rozsahu souboru a součtu převrácených hodnot znaku, tj. platí: x¯H =
n 1 1 1 + + ··· + x1 x2 xn
=n:
n X 1 . x i i=1
K výpočtu lze opět použít vzorec vycházející z tabulky rozdělení četností. Známe-li tabulku rozdělení četností, platí, že: x¯H =
n 1 1 1 n1 + n2 + · · · + nk x1 x2 xk
=n:
k X ni i=1
xi
,
kde hodnota znaku x1 má četnost n1 , hodnota x2 četnost n2 , . . . , hodnota xk četnost nk . V praxi se harmonický průměr příliš nepoužívá, najde využití pouze tehdy, když má smysl součet převrácených hodnot sledovaného znaku. Pro harmonický průměr používáme znaky typu intervalové a poměrové. Využití bude patrné v následujícím příkladu. Příklad Auto jede rychlostí 100 km/h z bodu A do bodu B a nazpátek z bodu B do A rychlostí 160 km/h. Jaká je ”korektní” průměrná rychlost, za jakou řidič auta 26
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
urazil celou vzdálenost? Řešení x¯H =
2
= 123, 08 1 1 + 100 160 Aritmetický průměr je zde nevhodný, protože kdyby jel konstantní rychlostí 130 km/h, přijel by domů mnohem dříve, než když jel tam rychlostí 100 km/h a zpátky rychlostí 160 km/h. Proto je jedinou korektní charakteristikou harmonický průměr. Výsledná průměrná rychlost je tedy asi 123 km/h.
3.2.3
Geometrický průměr
Posledním typem průměru, který si v tomto textu uvedeme, je průměr geometrický, u něhož je zapotřebí, aby všechny hodnoty byly kladné. Geometrickým průměrem xG hodnot zkoumaného znaku x1 , x2 , . . . , xn rozumíme n − tou odmocninu ze součinu hodnot x1 , x2 , . . . , xn , proto: x¯G =
√ n x1 x2 . . . xn .
V praxi je stejně jako harmonický průměr využíván málo, přičemž pro potřeby statistiky slouží zpravidla pouze k určení průměrného tempa růstu za jedno období. U geometrického průměru používáme znaky typu intervalové a poměrové. Vše bude snad jasnější při pohledu na následující příklad. Příklad Farmář má pole pro pěstování svých plodin obdélníkového tvaru z rozměry 9 m a 4 m. Nyní však farmář z nějakého důvodu potřebuje, aby mělo pole čtvercový tvar. Jaké jsou rozměry tohoto čtverce, jestliže má plocha zůstat stejná? Řešení Tento výpočet lze mimo jiné provést také výpočtem geometrického průměru: √ √ 2 x¯G = 9 · 4 = 36 = 6 Ke stejnému výsledku bychom také dospěli úvahou přes plochu pole, avšak přesto bychom (ač nevědomky) počítali geometrický průměr. Výsledné čtvercové pole bude mít rozměr 6 m.
3.2.4
Modus
Modus je charakteristikou znaku, kterou jsme již dříve nevědomky používali. U některých příkladů jsme si uváděli, že výsledný aritmetický průměr je tak27
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
též hodnotou, která se v daném souboru vyskytuje nejčastěji. Proto jsme tuto charakteristiku používali, aniž bychom o tom vlastně byli uvědoměni. Proto vše uvedeme na pravou míru a podíváme se, jak se modus definuje. Modus znaku x je jeho hodnota, která má největší četnost. Modus značíme symbolem M od(x). Jak je již zřejmé z definice, modus může být použit pro znaky jakéhokoliv typu - tj. nominální, ordinální, intervalové a poměrové. Nyní si uvedeme ještě krátký příklad na určení této charakteristiky. Příklad U domácností byl zjišťován počet obytných místností s možnými výsledky: 1, 2, 3, 4, 5+ (znamená 5 a více místností). Při tomto zjišťování bylo náhodně vybráno 25 respondentů s následujícími výsledky: 1, 3, 2, 5+, 2, 2, 3, 5+, 4, 2, 1, 3, 3, 3, 5+, 2, 3, 3, 4, 4, 2, 3, 4, 2, 3. Určete modus počtu obytných místností. Řešení Stejně jako u tabulky rozdělení četností určíme četnost každé hodnoty. Nejčetnější hodnotu tohoto statistického souboru jsme již určili v kapitole 2.1, takže teď ji pouze pojmenujeme. M od(x) = 3, neboť hodnota 3 je v tomto výběru obsažena 9 krát.
3.2.5
Medián
Mediánem znaku x rozumíme prostřední hodnotu znaku, jsou-li hodnoty x1 , x2 , . . . , xn uspořádány podle velikosti (x1 ≤ x2 ≤ · · · ≤ xn ). Medián značíme M ed(x). Toto ovšem není zcela korektní definice, která by vyjadřovala všechny možné případy. Jsou-li hodnoty x1 , x2 , . . . , xn uspořádány podle velikosti (x1 ≤ x2 ≤ · · · ≤ xn ), pak mediánem znaku x rozumíme hodnotu znaku x, pro kterou platí: ( je-li n liché, x n+1 M ed(x) = 1 2 (x n2 + x n2 +1 ) je-li n sudé. 2 Medián je střední hodnota používaná obdobně jako aritmetický průměr, avšak v jiných situacích. Medián je užíván zejména tehdy, když jsou ve statistickém souboru zastoupeny prvky s hodnotami znaku mimořádně odlišnými (příliš malými
28
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
či velkými) oproti jiným hodnotám znaku. Právě v těchto situacích se dává přednost mediánu před průměrem. Medián je charakteristika, u které stačí, abychom data uspořádali podle velikosti, tzn. že medián lze použít již pro znaky ordinální, dále samozřejmě také pro znaky intervalové a poměrové. Příklad Velikosti hran pěti krychlí jsou 6, 8, 9, 10 a 11 (v cm). Stanovte hodnotu mediánu: a) pro jejich povrch, b) pro objem těchto krychlí. Řešení a) Nejprve si vypočteme povrchy (v cm2 ) jednotlivých krychlí, postupně pro dané rozměry hrany se rovnají: 216, 384, 486, 600, 726. Nyní lze snadno určit medián, tj.: M ed(x) = x n+1 = x 6 = x3 = 486, protože n je liché. 2
2
b) Nejprve si vypočteme objemy (v cm3 ) jednotlivých krychlí, postupně pro dané rozměry hrany se rovnají: 216, 512, 729, 1000, 1331. Nyní lze snadno určit medián, tj.: M ed(x) = x n+1 = x 6 = x3 = 729, protože n je liché. 2
3.2.6
2
Kvantily
Další charakteristikou znaku x, která se používá pro ordinální znaky (tzn. je použitelná i pro intervalové a poměrové znaky), jsou kvantily. Tuto charakteristiku používáme především, když hodnoty znaku mohou dosahovat velkého počtu variant. Kvantilem rozumíme hodnotu statistického znaku xϑ , která rozděluje uspořádaná data na dva úseky – dolní a horní, přičemž dolní úsek obsahuje alespoň podíl ϑ všech dat a horní úsek alespoň podíl 1 − ϑ všech dat: ≥1−ϑ
z }| { x1 ≤ x2 ≤ . . . ≤ xc ≤ xϑ ≤ xc+1 ≤ . . . ≤ xn | {z } ≥ϑ
V praxi se často používají kvantily pro speciálně zvolená theta (ϑ), která mají také speciální pojmenování: 29
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
x0,25 - dolní kvartil x0,50 = M ed(x) - medián x0,75 - horní kvartil x0,01 , x0,02 , . . . , x0,98 , x0,99 - percentily Protože nám předchozí definice neumožňuje vždy korektně určit jednotlivé kvantily, pro výpočet používáme následujícího vzorce, který nám je umožňuje počítat na základě hodnoty součinu nϑ, která je přibližně rovna počtu dat v dolním úseku (hodnoty znaku x jsou uspořádané): xc +xc+1 je-li součin nϑ celé číslo, 2 xϑ = je-li součin nϑ necelé číslo, zaokrouhlujeme nahoru na nejx c . bližší celé číslo c Ná závěr pouze doplníme, že kvantily, stejně jako jejich speciální případ medián, mohou být použity pro znaky typu ordinální, intervalové a poměrové. Příklad Velikosti hran pěti krychlí jsou 6, 8, 9, 10 a 11 (v cm). Stanovte hodnotu dolního a horního kvartilu pro jejich povrch. Řešení Vypočteme hodnoty povrchu krychlí, které se postupně rovnají: 216, 384, 486, 600, 726. Nyní přejdeme k určování samotných kvartilů: Jelikož je součin nϑ = 5 · 0, 25 necelé číslo, budeme zaokrouhlovat toto číslo nahoru na hodnotu x2 , proto: x0,25 = 384. Obdobně určíme i horní kvartil. Součin nϑ = 5 · 0, 75 je opět necelé číslo, zaokrouhlíme nahoru a horním kvartilem bude hodnota x4 : x0,75 = 600.
3.3
Charakteristiky variability
Charakteristikami variability (= proměnlivosti ) znaku číselně vyjadřujeme, jak se hodnoty znaku prvků souboru liší od zvolené charakteristiky polohy, resp. jak se liší od sebe navzájem. Mezi tyto charakteristiky řadíme především rozptyl, směrodatnou odchylku, variační koeficient a mezikvartilovou odchylku, přičemž s každou jmenovanou charakteristikou variability se následně blíže seznámíme.
3.3.1
Rozptyl
Rozptyl měří velikost proměnlivosti, avšak v jednotkách čtverců odchylek. Použit může být pro data typu intervalová a poměrová.
30
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
Rozptylem s2 hodnot znaku x rozumíme aritmetický průměr druhých mocnin odchylek hodnot znaku od aritmetického průměru, tj.: n
1X s = (xi − x¯)2 . n i=1 2
Poznámka. Výpočet rozptylu ze skupinového rozložení četností: k
s2 =
1X ni (xi − x¯)2 , n i=1
kde xi je střed i-tého intervalu pro i = 1, . . . , k a k je počet intervalů. Příklad V prodejně hospodářských potřeb obdrželi zásilku 20 košťat, přičemž košťata měla mít předepsanou délku 100 cm. Přeměřením se ovšem zjistilo, že skutečné délky jsou následující: 97, 102, 105, 98, 99, 100, 102, 103, 96, 97, 101, 100, 103, 100, 99, 101, 104, 95, 100, 102. Určete rozptyl délky košťat. Řešení Nejdříve stanovíme průměr: = 2004 = 100, 2 x¯ = 97+102+···+100+102 20 20 Nyní jižP dosazením do vzorce vypočteme rozptyl: 1 1 2 ¯)2 = 20 s = 20 20 · [(97 − 100, 2)2 + · · · + (102 − 100, 2)2 ] = i=1 (xi − x 1 1 · 127, 2 = 6, 36 = 20 · (10, 24 + · · · + 3, 24) = 20 Výsledný rozptyl je roven číslu 6,36.
3.3.2
Směrodatná odchylka
Směrodatná odchylka sx je definována jako druhá odmocnina z rozptylu, tj.: v u n u1 X sx = t (xi − x¯)2 . n i=1 Poznámka. Podobně jako u rozptylu i zde je obdobný výpočet směrodatné odchylky ze skupinového rozložení četností. Vzorec má tedy podobu: v u k u1 X sx = t ni (xi − x¯)2 . n i=1 31
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
Tato charakteristika je absolutní mírou variability (proměnlivosti) daného statistického souboru. Na rozdíl od rozptylu je směrodatná odchylka vyjádřena v jednotkách původních dat, což je nepochybně výhodou. Stejně jako rozptyl může být tato charakteristika použita pro data intervalová a poměrová. Vlastnosti směrodatné odchylky a rozptylu, které plynou již ze vzorců pro výpočet obou charakteristik: a) Přidáním konstanty k jednotlivým znakům souboru se ani jedna z těchto charakteristik nezmění. b) Vynásobením jednotlivých znaků konstantou se jejich směrodatná odchylka i rozptyl změní, a to tak, že směrodatná odchylka je násobkem původní hodnoty a rozptyl je vynásoben druhou mocninou této konstanty. Příklad Továrna na sušení mléka zásobuje trh, přičemž za rok plnila dodávky v jednotlivých měsících takto (měsíce jsou řazeny postupně leden, . . . , prosinec a dodávky jsou v kg): 456, 456, 455, 454, 442, 432, 429, 466, 427, 487, 492, 483. Určete směrodatnou odchylku od průměrné měsíční dodávky. Řešení Určíme průměr a následně již vypočítáme směrodatnou odchylku. = 456, 6 x¯ = 456+456+···+492+483 12 q q 1 1 2 2 sx = 12 · [(456 − 456, 6) + · · · + (483 − 456, 6) ] = 12 · 5428, 92 = 21, 27 Směrodatná odchylka měsíčních dodávek sušeného mléka od měsíčního průměru je rovna 21, 27 kg.
3.3.3
Variační koeficient
Variační koeficient je nejpoužívanější relativní mírou variability souboru. V praxi slouží k porovnání variability více souborů, které nemají stejný průměr. Variační koeficient je vhodnou charakteristikou pouze tehdy, nabývá-li znak x jen nezáporných hodnot. Použit může být pro data poměrová. Variační koeficient vx je definován jako podíl směrodatné odchylky a aritmetického průměru sledovaného znaku x, přičemž je často udáván v procentech: vx =
sx · 100 % x¯
32
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
Příklad Vypočtěte variační koeficient z hodnot hmotností 11 dětí, jejichž hmotnosti jsou zde vypsány v kg: 68, 65, 59, 59, 57, 52, 49, 48, 48, 48, 43. Řešení Nejprve si určíme průměr a směrodatnou odchylku, poté dosadíme do vzorce pro výpočet variačního koeficientu. = 54, 18 x¯ = 68+65+···+48+43 q 11 q 1 1 2 2 sx = 11 · [(68 − 54, 18) + · · · + (43 − 54, 18) ] = 11 · 633, 61 = 7, 59 vx =
sx x ¯
· 100 % =
7,59 54,18
· 100 % = 14 %
Variační koeficient uváděný v procentech činí 14 %.
3.3.4
Mezikvartilová odchylka
Již dříve u charakteristik polohy jsme si definovali kvantily, resp. jejich speciální případy dolní a horní kvartil. Jak již název charakteristiky vypovídá (mezikvartilová odchylka), budeme hovořit o odchylce těchto dvou kvartilů. Narozdíl od kvantilů je zapotřebí, aby měl smysl i rozdíl dat, proto jsou použitelná pro znaky typu intervalová a poměrová. Mezikvartilovou odchylkou znaku x rozumíme hodnotu q, pro kterou platí: q=
x0,75 – x0,25 . 2
Příklad Vypočtěte mezikvartilovou odchylku z hodnot hmotností 11 dětí, jejichž hmotnosti jsou zde vypsány v kg: 68, 65, 59, 59, 57, 52, 49, 48, 48, 48, 43. Řešení Seřadíme si hodnoty vzestupně a určíme si kvartily - horní i dolní. Následně můžeme určit i mezikvartilovou odchylku. 43, 48, 48, 48, 49, 52, 57, 59, 59, 65, 68 x0,25 = 48, neboť součin n · ϑ není celé číslo, zaokrouhlujeme nahoru na x3 x0,75 = 59, neboť součin n · ϑ není celé číslo, zaokrouhlujeme nahoru na x9 59 – 48 x0,75 – x0,25 q= =q= = 5, 5 2 2 Mezikvartilová odchylka hodnot hmotnosti dětí je rovna 5,5 kg.
33
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
Úlohy na procvičení 3.1 Na meteorologické stanici Brno-Tuřany (241 m n.m.) byly za rok 2008 naměřeny a stanoveny průměrné měsíční teploty vzduchu (◦ C). Bez ohledu na počet dní v jednotlivých měsících stanovte z těchto teplot: (a) průměrnou roční teplotu vzduchu (◦ C), (b) medián, dolní a horní kvartily a mezikvartilovou odchylku, (c) modus. Tabulka 3.2: Průměrné měsíční teploty vzduchu (◦ C) na stanici Brno-Tuřany v roce 2008 Měsíc Teploty
1. 1,7
2. 3,1
3. 4,6
4. 10,1
5. 15,5
6. 19,9
7. 20,3
8. 19,9
9. 14,4
10. 9,9
11. 6,5
12. 2,1
Získané hodnoty se pokuste vhodným způsobem interpretovat. 3.2 V tabulce jsou uvedeny hodnoty emisí (kg/obyv.) v okresech Jihomoravského kraje. Vypočítejte následující charakteristiky pro všechny typy emisí a pokuste se o jejich stručnou interpretaci: průměr, rozptyl, směrodatná odchylka, variační koeficient. V rámci hodin zeměpisu se pokuste zdůvodnit extrémní hodnoty v některých okresech (např. 17, 0 kg/obyv. SO2 v Hodoníně). Tabulka 3.3: Množství emisí (kg/obyv.) v okresech Jihomoravského kraje za rok 2008. Jihomoravský kraj Blansko Brno-město Brno-venkov Břeclav Hodonín Vyškov Znojmo
Měrné emise (kg/obyv.) emise tuhé SO2 N Ox CO 0,3 1,6 1,4 0,5 0,2 0,4 1,2 0,5 0,6 0,4 4,2 8,9 0,1 0,0 2,3 0,9 0,8 17,0 4,0 0,6 0,4 0,3 0,4 0,4 0,2 2,0 2,5 2,5
34
KAPITOLA 3. CHARAKTERISTIKY ZNAKU
3.3 V letech 2001-2008 bylo na nejdeštivějším místě České republiky, Lysé hoře, naměřeno množství srážek za jednotlivé roky (v mm/rok). Vypočítejte průměr, medián, rozptyl, směrodatnou odchylku a variační koeficient. Získané hodnoty se pokuste interpretovat. Tabulka 3.4: Roční úhrn srážek (mm/rok) na Lysé hoře mezi roky 2001-2008 Roky 2001 2002 2003 2004 2005 2006 2007 2008 Srážky 1907,7 1469,6 1019,3 1291,2 1581,3 1392,0 1413,7 1268,5
35
KAPITOLA 4. STATISTICKÁ ZÁVISLOST VÍCE ZNAKŮ
Kapitola 4 Statistická závislost více znaků V předchozím textu jsme se zabývali pouze popisem jednoho statistického znaku. Nyní bude předmětem našeho zájmu více statistických znaků, které již nebudeme studovat samostatně, ale budeme se snažit vystopovat podobnosti a závislosti jednoho statistického znaku na druhém – v tomto textu se omezíme pouze na dvojici znaků (x, y). Teoretický základ této kapitoly vychází především z učebních textů [4] a [10].
4.1
Koeficient korelace
Často užívanou charakteristikou závislosti dvojice znaků je koeficient korelace. Na vysoké škole se i v mnoha nematematických oborech setkáte při studiu statistiky také s regresní analýzou, která taktéž popisuje závislosti mezi dvojicí znaků. Protože regresní analýza přesahuje učivo střední školy, v tomto textu se jí nebudeme věnovat. Jediným prostředkem pro zjišťování závislostí mezi dvojicí znaků bude koeficient korelace, který si nyní definujeme. Nechť x1 , x2 , . . . , xn jsou hodnoty znaku x a y1 , y2 , . . . , yn hodnoty znaku y. Koeficient korelace rxy znaků x, y definujeme takto: rxy = kde
k , sx · sy
n 1 X k= · (xi − x¯) · (yi − y¯), n i=1
sx , sy jsou směrodatné odchylky znaků x, y a x¯, y¯ značí aritmetické průměry znaků x, y.
36
KAPITOLA 4. STATISTICKÁ ZÁVISLOST VÍCE ZNAKŮ
Poznámka. Tvar vzorce vhodnější pro výpočet: Pn 1 ¯y¯ i=1 xi yi − x n rxy = . sx · sy Aby definice byla korektní, musíme vyloučit některé případy, jež mohou nastat, jelikož se ve jmenovateli objevují směrodatné odchylky znaků x, y, které nesmí být nulové. Snadno si uvědomíme, že směrodatné odchylky dosahují nuly právě tehdy, když je jeden ze znaků x, y konstantní, tzn. definice je korektní tehdy, když existují aspoň dvě různé hodnoty znaků x, y. Tato charakteristika je použitelná pro data typu intervalová a poměrová. Koeficient korelace nám určuje míru závislosti dvojice znaků x, y, přičemž dosahuje hodnot z intervalu h–1, 1i. Platí, že čím blíže je |r| k 1, tím považujeme závislost mezi dvojicí znaků x, y za větší - v případě r > 0 s rostoucími hodnotami znaku x vesměs rostou i hodnoty znaku y (přímá lineární závislost), v případě r < 0 s rostoucími hodnotami znaku x vesměs klesají hodnoty znaku y (nepřímá lineární závislost). V případě r = 1 hovoříme o úplné přímé lineární závislosti, v případě r = −1 o úplné nepřímé lineární závislosti. Koeficient korelace je bezrozměrné číslo. Příkladem znaků, které spolu velmi dobře přímo korelují (dosahují hodnot blízkých 1) by mohla být například statistika výše platů u zaměstnanců určitého podniku a úroveň dosaženého vzdělání. Naopak příkladem záporné korelace množství srážek na daném území a výskyt určitého druhu suchomilné rostliny. Lépe snad pojem korelace pochopíme na následujícím řešeném příkladě. Příklad V tabulce jsou uvedeny hektarové výnosy na deseti pokusných polích v závislosti na množství použitých hnojiv. Vypočítejte koeficient korelace. Tabulka 4.1: Hodnoty statistických znaků u Číslo pozemku 1 2 3 4 5 Množství hnojiva (t/ha) 3 8 5 4 6 Výnos (t/ha) 12 18 15 15 16
deseti pozemků. 6 7 8 9 9 5 7 9 20 14 17 19
10 4 14
Řešení Určíme si oba průměry odchylky sx , sy : √ x¯, y¯ a také obě směrodatné √ x¯ = 6, y¯ = 16, sx = 4, 2 = 2, 05, sy = 5, 6 = 2, 37 P10 1 1 ¯y¯ · (3 · 12 + · · · + 4 · 14) − 6 · 16 i=1 xi yi − x 10 rxy = = 10 = 0, 97 sx · sy 2, 05 · 2, 37 Zjistili jsme, že mezi těmito znaky je skoro úplná přímá lineární závislost, tzn. s rostoucím množstvím hnojiva na 1 hektar roste také výnos z 1 hektaru. Zároveň si musíme uvědomit, že se v praxi od určitého množství hnojiva stane, že tento výsledek již platit nebude - příliš mnoho hnojiva bude na škodu a výnos se nezvýší. 37
KAPITOLA 4. STATISTICKÁ ZÁVISLOST VÍCE ZNAKŮ
Úlohy na procvičení 4.1 Určete koeficient korelace pro hodnoty průměrných měsíčních teplot vzduchu (◦ C) za rok 2008 mezi dvěmi meteorologickými stanicemi; Brno-Tuřany (241 m n.m.) a Kuchařovice (334 m n.m.). Následující tabulka udává hodnoty těchto teplot pro obě zmíněné stanice. Tabulka 4.2: Průměrné měsíční teploty vzduchu (◦ C) na stanici A (Brno-Tuřany) a B (Kuchařovice) v roce 2008 Měsíc A B
1. 1,7 1,5
2. 3,1 3,2
3. 4,6 4,8
4. 10,1 10,0
5. 15,5 15,5
6. 19,9 19,4
7. 20,3 20,0
8. 19,9 20,0
9. 14,4 13,7
10. 9,9 9,2
11. 6,5 5,5
12. 2,1 1,5
4.2 Určete míru závislosti (použitím koeficientu korelace) mezi průměrnou měsíční teplotou vzduchu za rok 2007 a trváním slunečního svitu (h) na stanici Velké Pavlovice (196 m n.m.). Tabulka 4.3: Průměrné měsíční teploty vzduchu: T (◦ C) a trvání slunečního svitu: S (h) na stanici Velké Pavlovice v roce 2007 Měsíc T (◦ C) S (h)
1. 4,2 61,5
Měsíc T (◦ C) S (h)
7. 21,0 279,8
2. 4,4 75,0
8. 20,6 259,4
3. 7,1 163,0
9. 13,3 177,2
38
4. 12,6 313,8
10. 8,7 120,9
5. 16,9 248,2
11. 3,0 67,2
6. 20,5 254,2
12. -0,1 29,7
KAPITOLA 5. SAMOSTATNÝ ÚKOL
Kapitola 5 Samostatný úkol Poslední kapitola tohoto textu je věnována samostatnému úkolu. Tento úkol slouží k pochopení práce s rozsáhlejším datovým souborem při využívání výpočetní techniky. Předpokládá se zde znalost základních operací v programu Excel, který - i když není nejvhodnějším nástrojem pro práci s daty - je nejrozšířenějším a nejdostupnějším programem. Ve druhé části této kapitoly bude zadání samostatného úkolu vyřešeno a doplněno komentářem s návodem práce v Excelu. Již v tomto úvodu do samostatného úkolu si uvedeme základní údaje k tomuto úkolu. Představíme si situaci a také se podíváme, jakých hodnot jednotlivé znaky dosahují a ve vysvětlivkách si uvědomíme, co znamenají jednotlivé položky tabulky statistického souboru. Pak již budeme mít vše připraveno k tomu, abychom dokázali provést základní statistické postupy, které vyžaduje tento samostatný úkol složený z šesti dílčích podúkolů. Úvod do situace samostatného úkolu Vedení pojišťovny (zaměřené na pojištění automobilů) požádalo manažera oddělení marketingového výzkumu o provedení průzkumu, který by ukázal názory zákazníků na uvažovaný nový systém pojištění aut. Náhodně bylo vybráno 110 současných zákazníků pojišťovny, kteří formou dotazníku poskytli žádané údaje, jejichž výsledky máme zobrazeny pomocí čísel v tabulce 5.1, kterou nalezneme v příloze. Vysvětlivky: POSTOJ . . . postoj k novému typu pojištění: jednoznačný nezájem = 1, lehký nezájem = 2, neutrální postoj = 3, lehký zájem = 4, jednoznačný zájem = 5 RODINNÝ STAV . . . svobodný = 1, rozvedený, ovdovělý = 2, ženatý = 3 VĚK . . . věk v dokončených letech STÁŘÍ AUT . . . stáří auta v letech CESTY . . . počet cest nad 300 km v předešlém roce
39
KAPITOLA 5. SAMOSTATNÝ ÚKOL
5.1
Zadání samostatného úkolu
Statistický soubor zaznamenaný v tabulce překopírujte do programu MS Excel, kde s tímto souborem budete pracovat.
Úloha 1 Utvořte tabulky rozdělení četností a relativních četností statistických znaků POSTOJ a RODINNÝ STAV. Pokuste se určit typy těchto dvou znaků (nominální, ordinální, intervalové a poměrové), jestliže víte, že oba tyto znaky lze zařadit mezi znaky kvalitativní. Graficky znázorněte rozdělení četností hodnot proměnné RODINNÝ STAV – použijte kruhový diagram. Na závěr tohoto úkolu se pokuste získané výsledky vhodným způsobem interpretovat, pohledem na tabulku rozdělení četností určete u obou znaků modus. Úloha 2 Vypočítejte (případně určete z tabulky rozdělení četností) medián hodnot znaku POSTOJ. Stručně vysvětlete svými slovy (bez použití přesné definice), co tato charakteristika znamená. Úloha 3 Pro proměnnou CESTY stanovte pomocí Sturgesova pravidla optimální počet třídicích intervalů. V tomto případě však není vhodné vzít počet intervalů určených pomocí Sturgesova pravidla. Proto zvolte 7 stejně širokých intervalů (vyhneme se tak nutnosti volit intervaly různé délky) a utvořte histogram četností. Naopak pro znak STÁŘÍ AUT nakreslete polygon četností. Závěrem se znovu pokuste získané výsledky okomentovat. (Nápověda: Pro nakreslení grafů obou znaků si nejprve sestavte tabulky rozdělení četností, resp. skupinových četností a následně již vykreslete graf.) Úloha 4 U každé z proměnných VĚK, STÁŘÍ AUT a CESTY určete průměr, medián, dolní a horní kvartily a mezikvartilovou odchylku. Získané výsledky vhodným způsobem okomentujte. Úloha 5 Zamyslete se, u kterých proměnných lze korektně provést výpočet charakteristik variability (rozptyl, směrodatná odchylka a variační koeficient). Následně všechny jmenované charakteristiky u těchto znaků vypočtěte. V závěrečném komentáři této úlohy se zamyslete především nad rozdíly mezi směrodatnou odchylkou a variačním koeficientem. Úloha 6 Pokuste se určit míru závislosti použitím koeficientu korelace u znaků STÁŘÍ AUT a CESTY. Vypočtený koeficient interpretujte. 40
KAPITOLA 5. SAMOSTATNÝ ÚKOL
5.2
Vzorové vypracování samostatného úkolu
Před samotným začátkem řešení úkolů je potřeba si nakopírovat datový soubor do programu MS Excel. Pro ukázku, jak by měl výsledek vypadat zde uvedu část této tabulky. V dalším textu budeme u návodu řešení používat označení buněk, které je zavedeno v této ukázce. Před začátkem dále doporučuji vytvoření listů pro každou proměnnou (viz ukázka na obrázku 5.1).
Obrázek 5.1: Ukázka vložení datového souboru do programu Excel
Úloha 1 - Řešení
Obrázek 5.2: Tabulka rozdělení četností znaku POSTOJ
Obrázek 5.3: Tabulka rozdělení četností znaku RODINNÝ STAV 41
KAPITOLA 5. SAMOSTATNÝ ÚKOL
Proměnná POSTOJ nabývá hodnot 1, . . . , 5, přičemž tyto hodnoty vyjadřují postoj k novému pojištění. Jsou uspořádány od jednoznačného nezájmu až po jednoznačný zájem. Právě proto, že tyto hodnoty můžeme uspořádat, řadíme tento znak mezi znaky ordinální. Naopak je tomu u proměnné RODINNÝ STAV. Zde již nemůžeme najít uspořádání. Někteří lidé jsou svobodní i ve vyšším věku, jiní se žení či vdávají brzo. Protože zde neexistuje jakékoliv uspořádání, řadíme tento znak na stupeň nejnižší, tedy nominální znak.
Obrázek 5.4: Kruhový diagram znaku RODINNÝ STAV U proměnné POSTOJ je nejčetnější hodnotou lehký nezájem (v tabulce pod číslem 2) s absolutní četností 34. U proměnné RODINNÝ STAV je modus roven hodnotě 1, svobodný, s četností 48. Jak je z tabulky četností znaku POSTOJ patrné, převažuje u dotázaných lidí spíše nezájem o nový typ pojištění. Tento fakt dokazuje také skutečnost, že nejčetnější odpověď byla lehký nezájem. U tabulky rozdělení četností znaku RODINNÝ STAV je situace velmi vyrovnaná mezi svobodnými a ženatými. Rozvedení či ovdovělí jsou naopak v menšině. Nápověda provedení v programu MS Excel: Po vytvoření záhlaví (tj. sloupce A a řádku 1) již můžeme přistoupit k výpočtu jednotlivých polí tabulky četností. Výpočet absolutních četností lze provést přes funkci COUNTIF (Vložení-Funkce-COUNTIF). Do ní zadáme příslušné hodnoty zkoumané proměnné a ukončíme tuto funkci zadáním hodnoty, jejíž četnost chceme spočítat. Nelze po zadání vzorce do jedné buňky pouze natáhnout vzorec buňky na ostatní, avšak je zapotřebí vložit funkci do každé buňky zvlášť. V praxi vypadá vzorec pro výpočet četnosti hodnoty 1 proměnné postoj následovně: =COUNTIF(’Datový soubor’ !B2:B111;1) Předtím, než stanovíme relativní četnosti, musíme si určit součet. Ten ovšem známe, neboť je roven rozsahu souboru, tj. 110. Vypočítat jej lze také pomocí funkce SUMA (=SUMA(B2:B6)). Stanovení relativních četností provedeme napsáním vzorce do příslušných buněk, přičemž vyjdeme z definice. Aby program Excel pracoval správně, je zapotřebí po napsání vzorce stiknout klávesu F4, která 42
KAPITOLA 5. SAMOSTATNÝ ÚKOL
nám vzorec =B2/B7 změní na vzorec =B2/$B$7. Toto je již praktická ukázka provedení výpočtu relativní četnosti hodnoty 1, přičemž buňka B7 zde představuje rozsah souboru. Vykreslení grafu provedeme následovně: Vložení-Výsečový graf-Vybrat data-Přidat (zde vložíme buňky, z kterých se má vytvořit graf - v našem případě B2-B4) - OK. Pokud chceme, můžeme graf upravovat do podoby, která je pro nás nejpřijatelnější.
Úloha 2 - Řešení Medián je roven hodnotě 2. Jestliže máme uspořádány hodnoty znaku podle velikosti, tak medián je hodnota uprostřed, která dělí statistický soubor na dvě poloviny. Jeho určení závisí na paritě (sudý nebo lichý) rozsahu souboru. Nápověda provedení v programu MS Excel: Výpočet jsme provedli zadáním funkce MEDIAN a určením buněk s hodnotami proměnné POSTOJ. Konkrétně tento vzorec vypadá následovně: = MEDIAN(’Datový soubor’ !B2:B111)
Úloha 3 - Řešení Počet intervalů stanovených Sturgesovým pravidlem je roven osmi. Již v zadání bylo zmíněno, že v tomto případě tento počet intervalů není nejvhodnější, proto použijeme sedm intervalů a sestrojíme tabulku rozdělení četností a z ní histogram.
Obrázek 5.5: Rozdělení četností a histogram znaku CESTY Druhou částí tohoto úkolu je vytvoření polygonu četností z proměnné STÁŘÍ AUT. Znovu vytvoříme tabulku rozdělení četností a pomocí ní vykreslíme polygon četností. 43
KAPITOLA 5. SAMOSTATNÝ ÚKOL
Obrázek 5.6: Rozdělení četností a polygon četností znaku STÁŘÍ AUT Z histogramu je patrné, že dotázaní zákazníci pojišťovny absolvují spíše menší počet cest delších než 300 km. Dokonce pouze čtyři lidé odpověděli, že absolvují 18 a více cest dané délky. Z polygonu četností plyne, že nejvíce z dotázaných zákazníků vlastní auto tři roky staré. Z grafu lze také vypozorovat klesající tendenci od aut starých 3 roky k autům starým 12 let. Nápověda provedení v programu MS Excel: Počet intervalů určených Sturgesovým pravidlem jsme stanovili pomocí vepsání vzorce pro Sturgesovo pravidlo přímo do buňky a to v následujícím tvaru: = ZAOKROU HLIT (1 + 3, 3 ∗ LOG(110); 0), kde 0 znamená počet desetinných míst po zaokrouhlení. Zaokrohlujeme na celé číslo, proto 0. Tabulku rozdělení četností proměnné STÁŘÍ AUT získáme obdobně jako v úkolu 1. Podíváme se proto na sestavení tabulky rozdělení skupinových četností. Výpočet jednotlivých buněk této tabulky je mírně náročnější, než tomu bylo u tabulky rozdělení četností. Pro první interval vypadá funkce zadaná do buňky následovně: =COUNTIF(’Datový soubor’ !F2:F111;”>= 0”)-COUNTIF(’Datový soubor’ !F2:F111;”> 5”). Tuto funkci jsme vytvořili pomocí rozdílu dvou funkcí COUNTIF, přičemž první vyjadřuje všechny hodnoty větší než nula a od ní odečtená funkce představuje hodnoty větší než pět. Obdobným postupem získáme zbylé skupinové četnosti. Vykreslení obou grafů lze provést takto: Kurzor umístíme do jakékoliv volné buňky blízko tabulky a klikneme na ikonu Vložení, poté na ikonu Sloupcový graf (resp. Spojnicový graf). Poté klikneme na ikonu Vybrat data-Vybrat zdroj-Přidat. Do Hodnoty řad označíme sloupec s patřičnými četnostmi a potvrdíme - OK. V případě skupinových četností navíc klikneme na tlačítko upravit, označíme sloupec s jednotlivými intervaly a potvrdíme - OK.
44
KAPITOLA 5. SAMOSTATNÝ ÚKOL
Úloha 4 - Řešení
Obrázek 5.7: Charakteristiky znaků VĚK, STÁŘÍ AUT a CESTY U proměnné VĚK se jen nepatrně liší aritmetický průměr od mediánu. Povšimnout si můžeme také skutečnosti, že dolní a horní kvartil se od průměru liší o hodnotu mezikvartilové odchylky. U proměnné STÁŘÍ AUT, jejíž hodnoty se pohybují mezi 1, . . . , 12, se nám potvrdila již předem zmíněná skutečnost, že její četnost jejích hodnot je vysoká pro malé hodnoty. Toto nám potvrzuje i průměr, medián a další vypočítané charakteristiky této proměnné. Poslední zkoumanou proměnnou je proměnná CESTY. Horní kvartil je opět významnou charakteristikou, neboť vyjadřuje fakt, že tři čtvrtiny hodnot tohoto znaku je menší nebo rovna 9. Nápověda provedení v programu MS Excel: Tato nápověda bude spočívat v ukázce všech počítaných charakteristik. Velkými písmeny jsou ve vzorcích vyznačeny názvy funkcí. aritmetický průměr: =PRŮMĚR(’Datový soubor’ !D2:D111) medián: =MEDIAN(’Datový soubor’ !D2:D111) horní kvartil: =QUARTIL(’Datový soubor’ !D2:D111;3) dolní kvartil: =QUARTIL(’Datový soubor’ !D2:D111;1) mezikvartilová odchylka: =(B4-B5)/2, kde B4 označuje buňku s horním kvartilem a B5 buňku z dolním kvartilem. Protože definování funkce pro výpočet kvartilů v Excelu je odlišně od definice naší, je zapotřebí po výpočtu pomocí funkce QUARTIL výsledky zaokrouhlit na celá čísla. Úloha 5 - Řešení Jak již víme z teoretického základu tohoto textu, pro výpočet těchto charakteristik je nutné, aby byly znaky alespoň intervalového typu. Již v úkolu 1 jsme určili, že znaky POSTOJ, resp. RODINNÝ STAV jsou ordinálního, resp. nominálního typu. U všech zbývajících charakteristik lze nejenom hodnoty uspořádat podle velikosti, ale dokonce zde mají smysl i operace rozdílu a podílu, jelikož lze říci, že jedno auto je dvakrát starší než jiné. Proto se všechny tyto proměnné (VĚK, STÁŘÍ AUT a CESTY) řadí mezi znaky poměrové.
45
KAPITOLA 5. SAMOSTATNÝ ÚKOL
Obrázek 5.8: Charakteristiky variability znaků VĚK, STÁŘÍ AUT a CESTY Rozdíl mezi směrodatnou odchylkou a variačním koeficientem spočívá především v tom, že směrodatná odchylka je absolutní mírou variability, naopak variační koeficient vyjadřuje relativní míru variability. Obě tyto proměnné spolu úzce souvisí, vždyť variační koeficient se vypočítává právě přes směrodatnou odchylku. Nápověda provedení v programu MS Excel: Pomocí programu Excel vypočítáváme tyto charakteristiky pomocí vzorců zapsaných do jednotlivých buněk: rozptyl: =VAR(’Datový soubor’ !D2:D111) směrodatná odchylka: =SMODCH(’Datový soubor’ !D2:D111) variační koeficient: =(B13/B2)*100, kde B13 je směrodatná odchylka a B2 je buňka s vypočítaným průměrem. Úloha 6 - Řešení Koeficient korelace mezi danými znaky se rovná −0, 06665. Po výpočtu jsme zjistili, že neexistuje téměř žádná závislost mezi těmito dvěma znaky. Možná někteří z nás čekali, že by se mohla objevit poměrně silná nepřímá lineární závislost mezi těmito znaky. Mohli jsme předpokládat, že čím starší auto, tím menší počet delších cest ujede. Avšak tato domněnka neplatí pravděpodobně proto, že rozdíly mezi stářím aut nejsou tak markantní. Navíc jak jsme zjistili v předchozích úkolech, v proměnné STÁŘÍ AUT se vyskytuje velice malý počet starších aut, a také v proměnné CESTY dosahují hodnoty tohoto znaku malých hodnot. Nápověda provedení v programu MS Excel: Výpočet koeficientu korelace byl proveden použitím funkce CORREL, která je předem nadefinovaná. Konkrétní příkaz zapsaný do buňky má tuto podobu: =CORREL(’Datový soubor’ !F2:F111;’Datový soubor’ !E2:E111).
46
ZÁVĚR
Závěr Závěrem bych zhodnotil, co se mi při psaní této bakalářské práce podařilo a od jakých záměrů jsem musel upustit. Při zjišťování informací o výuce mě asi nejvíce zklamala hodinová dotace a od ní se odvíjející používání výpočetní techniky při výuce. Na výuku statistiky podle slov mnoha vyučujících prostě nezbývá čas. A to je nepochybně škoda, neboť mnoho studentů gymnázií pokračuje ve studiu na vysoké škole, kde statistika patří i v nematematických oborech mezi povinné předměty. Využití softwaru tudíž není příliš rozšířené, ačkoliv by podle RVP mělo být ve výuce obsaženo. Proto jsem přišel s návrhem vypracovat názorný příklad samostatné práce, kterou by mohli vyučující žákům zadat na zpracování. Na webových stránkách Českého statistického úřadu se dokonce nachází zvláštní sekce dat pro studenty. Vyučující tak snadno mohou získávat datové soubory pro zpracování zadání takových samostatných úkolů. Doufám, že tento text bude přínosem hlavně pro učitele a jejich studenty, kteří snad na základě tohoto učebního textu snadněji proniknou alespoň do problematiky popisné statistiky. Pokud tento text bude splňovat účel, ke kterému byl vytvořen, bude to jen dobře. Za úvahu by stála i možnost rozšíření tohoto textu pro studenty nematematických oborů vysokých škol.
47
SEZNAM POUŽITÉ LITERATURY
Seznam použité literatury [1] BUDÍKOVÁ, Marie; MIKOLÁŠ, Štěpán; OSECKÝ, Pavel. Popisná statistika. Brno: Masarykova univerzita v Brně, 2001. [2] BUDÍKOVÁ, Marie. Základní statistické metody, cvičení č.2: Průzmumová analýza jednorozměrných dat [cit. 20. dubna 2010]. Dokument dostupný na URL: https://is.muni.cz/auth/el/1431/jaro2010/M6130/um/ 7380815/7471769/Tema_2.doc?fakulta=1431;obdobi=4664;studium= 259594;kod=M6130. [3] BUDÍKOVÁ, Marie. Základní statistické metody, přednáška č.1: Průzkumová analýza jednorozměrných dat, diagnostické grafy [cit. 20. dubna 2010]. Dokument dostupný na URL: https://is.muni.cz/auth/el/1431/ jaro2010/M6130/um/7457761/prednaska1.doc?fakulta=1431;obdobi= 4664;studium=259594;kod=M6130. [4] CALDA, Emil; DUPAČ, Václav. Matematika pro gymnázia - Kombinatorika, pravděpodobnost a statistika. Praha: Premetheus, s.r.o., 2001. [5] ČERMÁK, Pavel; ČERVINKOVÁ, Petra. Odmaturuj z matematiky 1. Brno: Didaktis spol. s.r.o., 2004. [6] DOBROVOLNÝ, Petr. Statistické metody a zpracování dat: II. Popisné statistické metody [cit. 20. dubna 2010]. Dokument dostupný na URL: https://is.muni.cz/auth/el/1431/podzim2008/Z0069/um/6254187/ Statistika_2_popisna_statistika.pdf?fakulta=1431;obdobi=4443; studium=259594;kod=Z0069. [7] HINDLS, Richard; HRONOVÁ, Stanislava; SEGER, Jan. Statistika pro ekoc Kamil Mařík - Professional Publishing, 2003. nomy. Praha: Edition [8] Kolektiv autorů. Rámcový vzdělávací program pro gymnázia [cit. 20. dubna 2010]. Dokument dostupný na URL: http://www.msmt.cz/uploads/ soubory/PDF/RVPG_2007_06_final.pdf. [9] KRÄMER, Walter. Statistika do vesty. Praha: Baronet, 2005.
48
SEZNAM POUŽITÉ LITERATURY
[10] POLÁK, Josef. Přehled středoškolské matematiky. Praha: Prometheus, s.r.o., 2005. [11] POLÁK, Josef. Středoškolská matematika v úlohách II. Praha: Prometheus, s.r.o., 1999. [12] VEJSADA, František; TALAFOUS, František. Sbírka úloh z matematiky pro gymnasia. Praha: Státní pedagogické nakladatelství, 1969. [13] STŘÍTESKÁ, Hana. Výuka statistiky na ekonomicky zaměřených středních školách. Brno: Masarykova univerzita - Rigorózní práce, 2006. [14] SWOBODA, Helmut. Moderní statistika: Knaurs Buch der Modern Statistik (Orig.). Praha: Svoboda, 1977.
49
Přílohy Příloha č.1 Tabulka 5.1: Pojištění - statistický soubor k samostatnému úkolu xj POSTOJ RODINNÝ STAV VĚK STÁŘÍ AUT CESTY 1 2 1 45 4 7 2 3 2 34 3 8 3 1 2 58 8 4 4 4 2 46 7 7 5 2 2 47 9 9 6 1 2 35 7 8 7 3 2 34 10 14 8 5 3 32 8 13 9 1 3 48 7 14 10 2 3 49 4 12 11 3 3 57 5 9 12 2 3 24 5 8 13 2 3 35 6 7 14 4 3 34 4 5 15 1 3 39 3 8 16 2 3 48 2 2 17 5 3 28 5 3 18 1 3 34 8 5 19 2 3 46 7 5 20 3 3 59 9 4 21 3 3 46 10 6 22 2 3 23 7 5 23 2 3 27 7 3 24 2 2 35 3 5 25 1 1 34 2 4 26 3 1 31 1 12 27 2 1 39 1 41 28 2 1 38 1 28 29 1 1 37 1 4 30 5 1 45 2 5
xj 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70
POSTOJ 5 3 4 2 4 5 3 4 3 4 5 2 2 4 3 1 2 4 3 3 4 1 2 2 1 1 5 4 3 2 1 1 1 2 2 3 3 4 1 2
RODINNÝ STAV 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 2 1 3 1 3 1 3 1 3 1 3 1 1 1 3 3 3 2 2 1 1 1 1
VĚK 46 47 49 54 37 58 37 59 29 31 46 45 48 46 43 42 46 34 27 36 46 38 31 30 37 39 48 57 46 42 43 38 37 37 36 32 46 49 48 47
STÁŘÍ AUT 2 2 3 3 4 3 5 3 8 3 2 7 3 2 3 2 3 4 5 6 2 3 2 4 3 5 3 4 6 2 1 1 1 12 2 2 2 3 5 6
CESTY 6 5 9 8 10 11 12 2 8 4 6 5 3 3 8 2 6 4 5 3 2 4 6 5 4 9 9 7 7 8 6 6 6 6 6 5 3 3 2 3
xj 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110
POSTOJ 3 1 4 2 1 2 3 4 4 4 5 2 3 4 2 1 2 1 4 3 2 1 4 3 1 2 2 1 3 4 1 2 3 4 2 4 3 2 1 2
RODINNÝ STAV 1 1 1 3 3 3 3 3 3 3 2 2 3 1 3 1 3 3 3 1 3 1 3 1 3 1 3 1 3 2 2 2 3 2 1 3 1 3 1 3
VĚK 47 37 27 38 27 29 46 37 37 39 38 28 27 39 46 48 49 47 35 38 37 26 27 39 37 46 45 48 23 54 32 35 38 55 28 35 24 28 29 35
STÁŘÍ AUT 6 6 4 2 5 3 1 3 4 2 5 6 2 8 9 4 7 5 3 2 3 3 3 2 1 3 3 3 3 3 3 3 4 5 8 6 5 3 5 4
CESTY 14 11 12 10 12 7 6 4 8 8 6 6 6 5 5 5 3 2 4 6 5 4 17 13 12 7 9 8 2 3 2 0 1 5 3 14 18 16 12 5
Příloha č.2 Řešení příkladů 2.1 a) Tabulka 5.2: Rozdělení četností xj četnost 1 2 2 3 3 5 4 2 5 2 b)
Obrázek 5.9: Polygon četností c) NE. Datový soubor obsahuje příliš málo různých variant hodnot zkoumaného znaku. 2.2
Obrázek 5.10: Kruhový diagram
2.3 Tabulka 5.3: Tabulka skupinových četností Intervaly (v %) četnost h1, 6i 2 (6, 12i 5 (12, 18i 3 (18, 24i 1 (24, 30i 3
Obrázek 5.11: Histogram četností 3.1 a) x¯ = 10, 7 b) M ed(x) = 10, x0,25 = 3, 85, x0,75 = 17, 7, q = 6, 925 c) M od(x) = 19, 9 3.2 Tabulka 5.4: Základní charakteristiky variability datového souboru x¯ s2 sx vx (%) emise tuhé 0,37 0,05 0,23 62,16 SO2 3,10 32,67 5,72 184,52 NOx 2,29 1,74 1,32 57,64 CO 2,04 8,30 2,88 141,18 3.3 x¯ = 1417, 91, M ed (x) = 2805, 7, s2 = 58402, 5, sx = 241, 7, vx = 17, 0% 4.1 rxy = 0, 98 4.2 rxy = 0, 13