ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Příklad 1 Firma má pro své zaměstnance stanoveny tyto základní mzdy v Kč: 18600, 17650, 19200, 20400, 20800, 18600, 20400, 24200, 20400, 19200, 24200, 20400, 17650, 25800, 17650. Určete charakteristiky tohoto souboru. ……………………………………………………………………………………………………………………………………………………………
Řešení 1 Tuto úlohu budeme řešit třikrát a pokaždé výrazně jinak. Poprvé to bude tak, že řešení zvládneme celé téměř ručně jen s minimálním použitím MS Excel na grafy a zpracování tabulky s několika součiny. V rámci druhého řešení využijeme v co nejvyšší míře vestavěné statistické funkce MS Excel. A nakonec při třetím řešení necháme udělat skoro všechnu práci doplněk MS Excel Analýza dat. Tento doplněk lze do MS Excel doinstalovat. Vzhledem k tomu, že při praktických úlohách jsou soubory dat opravdu veliké, není pro jejich zpracování ruční metodou prostor a čas, navíc při použití ruční metody hrozí veliké riziko výpočtové chyby. Tomu se vyhneme jen použitím vhodných nástrojů na zpracování velkých objemů dat. V té jednodušší poloze může být takovým nástrojem MS Excel (a také jim v rámci zpracování většiny běžných statistických šetření je). V náročnějších případech se používají ještě vhodnější softwarové systémy, například skvělý program Statistica firmy StatSoft. Řešení 1a – téměř úplně ruční práce Označíme si jednotlivé prvky zadaného souboru. = 18600, = 17650, = 19200, = 20400, = 20800, = 18600, = 20400, = 24200, = 20400, = 19200, = 24200, = 20400, = 17650, = 25800, = 17650 Současně si tento soubor setřídíme od nejmenšího do největšího prvku. ( ) = 17650, ( ) = 17650, ( ) = 17650, ( ) = 18600, ( ) = 18600, ( ) = 19200, ( ) = 20400, ( ) = 19200, ( ) = 20400, ( ) = 20400, ( ) = 20400, ( ) = 20800, ( ) = 24200, ( ) = 24200, ( ) = 25800, Z tohoto setříděného souboru snadno sestavíme tabulku prostého rozdělení četností. Plat v Kč Počet výskytů 17650 3 18600 2 19200 2 20400 4 20800 1 24200 2 25800 1 V tomto případě je jednotlivých různých výší základní mzdy právě sedm. To je dostatečně málo na to, aby se neztratila přehlednost. Nemá tedy smysl uvažovat nějaké třídní rozdělení četností. Vidíme, že máme zadány základní mzdy 15 zaměstnanců, můžeme tedy tuto tabulku snadno rozšířit o sloupec vyjadřující relativní rozdělení četností jednotlivých výší základní mzdy.
∀ ∃
1
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1 Plat v Kč Počet výskytů Relativní zastoupení 17650 3 3⁄15 = 0,200 000 18600 2 2⁄15 = 0,133333 19200 2 2⁄15 = 0,133333 20400 4 4⁄15 = 0,266667 20800 1 1⁄15 = 0,066667 24200 2 2⁄15 = 0,133333 25800 1 1⁄15 = 0,066667
Prostou četnost jednotlivých základních mezd vyjádříme sloupcovým grafem. Relativní četnost jednotlivých základních mezd vyjádříme nejvhodněji výsečovým (koláčovým) grafem. K vytvoření obou grafů využijeme MS Excel. Poznámka – I tvorbu grafů v MS Excel je tu a tam dobré trénovat. Napoprvé se nemusí očekávaný graf podařit.
Nyní již můžeme ze zadaného souboru zjišťovat jednotlivé statistické charakteristiky. ∀ ∃
2
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Extrémní hodnoty získáme snadno ze setříděného souboru. min # = ( ) = 17650, max #$ ..
#$ ..
#
=
(
)
= 25800
Pro zjištění charakteristik polohy se nejprve rozhodneme pro správný průměr, který je třeba uvažovat. V tomto případě jde jednoznačně o průměr aritmetický. Ten můžeme počítat přímo ze zadaného souboru takto: +
1 ̅= * ) #$
#
=
1 (18600 + 17650 + 19200 + 20400 + 20800 + 18600 + 20400 + 24200 15 + 20400 + 19200 + 24200 + 20400 + 17650 + 25800 + 17650) =
1 ∙ 305150 15
= 20343,33 Druhou možností je počítat aritmetický průměr z tabulky prostého rozdělení četností. Protože jde o prosté rozdělení, musí vyjít to samé. ∑+#$ # /# ̅= + ∑#$ /# 17650 ∙ 3 + 18600 ∙ 2 + 19200 ∙ 2 + 20400 ∙ 4 + 20800 ∙ 1 + 24200 ∙ 2 + 25800 ∙ 1 = 3+2+2+4+1+2+1 52950 + 37200 + 38400 + 81600 + 20800 + 48400 + 25800 305150 = = = 20343,33 15 15 Z kvantilů budeme vzhledem k malému rozsahu souboru uvažovat jen medián a první a třetí kvartil. Snadno je nalezneme v setříděném souboru. Vzhledem k tomu, že počet prvků souboru je šikovný (lichý pro medián a příznivý i pro kvartily), dostáváme přímo: 0 = 0 , = ( ) = 20400 1 = 0 , = ( ) = 18600 1 = 0 , = ( ) = 20800 Modus zjistíme nejsnadněji z tabulky prostého rozdělení četností. Stačí najít nejvyšší hodnotu počtu výskytů a k ní vybrat odpovídající hodnotu základního platu. Dostaneme 2 = 20400 Protože nyní již máme k dispozici minimum, první kvartil, medián, třetí kvatil a maximum, můžeme sestavit boxplot. Využijeme MS Excel. Protože MS Excel neobsahuje tento typ grafu, počítejme s tím, že cesta ke grafu nebude právě přímá. Nejprve si připravíme tabulku s tímto rozložením dat. Je důležité dát v poslední verzi MS Excel (2013) do prvního pole datového řádku nějaký datum. Dřívější verze snesly i jakýkoli identifikátor řádku. Pokud připravíme více řádků, můžeme najednou připravit více boxplot grafů. Je ale důležité, aby data byla s podobnými měřítky. Kdyby tomu tak nebylo, nic rozumného bychom na grafu neviděli.
Boxplot 1.1.2001
med 20400
Q1 18600
max 25800
min 17650
Q3 20800
V MS Excel si tuto tabulku vyznačíme a volíme Vložení – Grafy – Burzovní - Typ objem-otevřenímaximum-minimum-závěr. Volbu potvrdíme a dostaneme polotovar našeho kýženého grafu.
∀ ∃
3
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Název grafu 25000
30000
20000
25000 20000
15000
15000 10000
10000
5000
5000
0
0 ZM med
Q1
max
min
Q3
Nyní je třeba tento polotovar upravit tak, aby vyjadřoval co nejlépe to, co chceme. Nejprve si všimneme, že graf obsahuje dvě svislá měřítka. To levé je pro sloupec med (pro zvolený typ grafu jde o objem), pravé slouží pro ostatní data. Naše data mají ale stejné měřítko, proto levé měřítko měřítko upravíme tak, aby bylo stejné s pravým. Vybereme ho kliknutím levým tlačítkem myši a pravým tlačítkem myši vyvoláme lokální menu. Zde vybereme Formát osy. V něm nastavíme maximum na stejnou hodnotu, jaká je v pravém měřítku. Okno formátu můžeme uzavřít. Graf nyní vypadá takto.
Je zřejmé, že hodnotu med nám zakrývá výplň obdélníku. Klikneme tedy levým tlačítkem myši do tohoto obdélníku a pravým tlačítkem myši volíme lokální menu. Vybereme Formát sloupců vzrůstu. Zde nastavíme Výplň – Bez výplně. Okno formátu uzavřeme. Graf nyní vypadá takto.
∀ ∃
4
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Horní hrana modrého obdélníku vyjadřuje nyní hodnotu med. Jen ta velká modrá plocha poněkud vadí. Klikneme do ní levým tlačítkem myši a pravým volíme lokální menu. Volíme Formát datové řady. Zde nastavíme Výplň – Bez výplně a Ohraničení – Plná čára a vybereme nějakou méně výraznou barvu (proti černé), například modrou. Graf nyní vypadá takto.
Název grafu 30000
30000
25000
25000
20000
20000
15000
15000
10000
10000
5000
5000
0
0 ZM med
Q1
max
min
Q3
Náš graf už vypadá docela dobře. Změníme jen název grafu na takový, který potřebujeme (klikneme a přepíšeme) a zbavíme se legendy, protože je uvedena v pořadí, ve kterém je v datech, což ale není přirozené pořadí dat pro boxplot. Takto je legenda spíše matoucí. Spolehneme se tedy raději na to, že jednotlivé prvky boxplot mají standardní význam. Nakonec nahradíme námi zavedený nesmyslný datum za něco, co smysl má – identifikátor tohoto šetření. To jde udělat překvapivě tak, že ho změníme přímo v naší tabulce. Boxplot ZM ∀ ∃
med 20400
Q1 18600
max 25800
min 17650
Q3 20800 5
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Náš graf vypadá nyní již celkem uspokojivě.
Nyní už je z grafu zcela jasné, o co jde, ale stále může v celkovém dojmu rušit obdélník vytvořený pro medián. Nás zajímá jen jeho horní strana. MS Excel nám sice nedává možnost odstranit z grafu pro nás nadbytečné strany obdélníka, ale dává nám možnost udělat obrysovou čáru v přechodovém tvaru, tedy jako měnící barvu. Když si s tím trochu pohrajeme, podaří se nám nastavit přechod tak, že je patrná prakticky jen horní strana obdélníka. Nakonec nastavíme sílu všech čar tak, aby byly stejné a současně byly dostatečně kontrastní vůči pozadí. Graf pak vypadá takto.
Jsme-li s grafem spokojeni a víme-li, že podobných grafů budeme tvořit více, je vhodný si tento uspokojivý tvar uložit jako šablonu. Další boxplot z ní vytvoříme pouhou změnou levého měřítka. ∀ ∃
6
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Nyní se budeme věnovat výpočtu charakteristik variability. Rozptyl budeme počítat podle vzorce +
1 3 = *( ) #$
#
− ̅)
Pro výpočet si připravíme tabulku se všemi zadanými hodnotami. S výhodou využijeme MS Excel, ruční výpočet by byl poněkud pracnější. i ZaklMzda Průměr Odchylka Odchylka2 1 18600 20343,33 -1743,33 3039211,11 2 17650 20343,33 -2693,33 7254044,44 3 19200 20343,33 -1143,33 1307211,11 4 20400 20343,33 56,67 3211,11 5 20800 20343,33 456,67 208544,44 6 18600 20343,33 -1743,33 3039211,11 7 20400 20343,33 56,67 3211,11 8 24200 20343,33 3856,67 14873877,78 9 20400 20343,33 56,67 3211,11 10 19200 20343,33 -1143,33 1307211,11 11 24200 20343,33 3856,67 14873877,78 12 20400 20343,33 56,67 3211,11 13 17650 20343,33 -2693,33 7254044,44 14 25800 20343,33 5456,67 29775211,11 15 17650 20343,33 -2693,33 7254044,44 Sum 305150 0,00 90199333,33 V součtovém řádku máme kontrolu v tom, že součet odchylek je nulový. Pro výpočet rozptylu je ale důležitý součet čtverců odchylek v posledním sloupci. Stačí spočítat jeho aritmetický průměr a dostaneme rozptyl. 1 3 = ∙ 90199333,33 ≅ 6013288,89 15 Poznámka – Výpočet proběhl v plné přesnosti poskytované MS Excel, hodnoty jsou prezentovány se zaokrouhlením na dvě desetinná místa. Nyní již snadno dostáváme další charakteristiky variability. Směrodatná odchylka se vypočte odmocněním rozptylu. 3 = 63 = 2452,20 Variační koeficient se vypočte vydělením směrodatné odchylky průměrem. 3 2452,20 7= = = 0,12 ̅ 20343,33 Rozpětí získáme ze setříděného souboru nebo později určených extrémů. − ( ) = 25800 − 17650 = 8150 8= Mezikvartilové rozpětí získáme z již dříve vypočtených kvartilů. 89 = 1 − 1 = 0 , − 0 , = 20800 − 18600 = 2200 Trochu více práce nám dá výpočet střední odchylky od průměru. Ale pomůžeme si úpravou naší poslední tabulky, do které doplníme sloupec s absolutní hodnotou odchylky a do posledního řádku součet těchto odchylek. Střední odchylku od průměru vypočteme jako průměr těchto absolutních hodnot. ∀ ∃
7
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
i ZaklMzda 1 18600 2 17650 3 19200 4 20400 5 20800 6 18600 7 20400 8 24200 9 20400 10 19200 11 24200 12 20400 13 17650 14 25800 15 17650 Sum 305150
Průměr 20343,33 20343,33 20343,33 20343,33 20343,33 20343,33 20343,33 20343,33 20343,33 20343,33 20343,33 20343,33 20343,33 20343,33 20343,33
Odchylka -1743,33 -2693,33 -1143,33 56,67 456,67 -1743,33 56,67 3856,67 56,67 -1143,33 3856,67 56,67 -2693,33 5456,67 -2693,33 0,00
Odchylka2 3039211,11 7254044,44 1307211,11 3211,11 208544,44 3039211,11 3211,11 14873877,78 3211,11 1307211,11 14873877,78 3211,11 7254044,44 29775211,11 7254044,44 90199333,33
AbsOdchylka 1743,33 2693,33 1143,33 56,67 456,67 1743,33 56,67 3856,67 56,67 1143,33 3856,67 56,67 2693,33 5456,67 2693,33 27706,67
Střední odchylku od průměru vypočteme jako průměr těchto absolutních hodnot. +
:̅
1 = *| ) #$
#
− ̅| =
1 ∙ 27706,67 = 1847,11 15
Teoreticky bychom mohli počítat i střední odchylku od jiného centrálního bodu, například od mediánu nebo od modusu. Technika výpočtu by byla analogická. Zbývá vypočítat charakteristiky tvaru – šikmost a špičatost. K tomu potřebujeme nejprve vypočítat třetí a čtvrtý centrální moment. Opět si pomůžeme rozšířením naší tabulky. i ZaklMzda
Průměr
Odchylka
Odchylka2
Odchylka3
Odchylka4
1
18600
20343,33
-1743,33
3039211,11
-5298358037,04
9236804177901,21
2
17650
20343,33
-2693,33
7254044,44
-19537559703,70
52621160801975,20
3
19200
20343,33
-1143,33
1307211,11
-1494578037,04
1708800889012,34
4
20400
20343,33
56,67
3211,11
181962,96
10311234,57
5
20800
20343,33
456,67
208544,44
95235296,30
43490785308,64
6
18600
20343,33
-1743,33
3039211,11
-5298358037,04
9236804177901,21
7
20400
20343,33
56,67
3211,11
181962,96
10311234,57
8
24200
20343,33
3856,67
14873877,78
57363588629,63
221232240148272,00
9
20400
20343,33
56,67
3211,11
181962,96
10311234,57
10
19200
20343,33
-1143,33
1307211,11
-1494578037,04
1708800889012,34
11
24200
20343,33
3856,67
14873877,78
57363588629,63
221232240148272,00
12
20400
20343,33
56,67
3211,11
181962,96
10311234,57
13
17650
20343,33
-2693,33
7254044,44
-19537559703,70
52621160801975,20
14
25800
20343,33
5456,67
29775211,11 162473401962,96
886563196711235,00
15
17650
20343,33
-2693,33
Sum
305150
∀ ∃
0,00
7254044,44
-19537559703,70
52621160801975,20
90199333,33 205097991111,11
1508825901577780,00
8
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Třetí centrální moment je průměrem třetích mocnin odchylek a čtvrtý centrální moment je průměrem čtvrtých mocnin odchylek. Odtud tedy dostáváme. +
1 < = *( ) < =
+
1 *( ) #$
#$ #
#
− ̅) =
− ̅) =
1 ∙ 205097991111,11 = 13673199407,41 15
1 ∙ 1508825901577780,00 = 100588393438519,00 15
Nyní již snadno dosazením do vzorce vypočteme šikmost < 13673199407,41 13673199407,41 = = = 0,93 = = 3 2452,20 14745791977,68 Daný soubor je tedy mírně záporně zešikmen. Podobně snadno dostaneme špičatost < 100588393438519,00 100588393438519,00 = = −3= −3= − 3 = 2,78 − 3 = −0,22 3 2452,20 36159643261234,00 Daný soubor je tedy mírně zploštělý. Při výpočtu šikmosti a špičatosti jsme už počítali s docela velkými čísly. Důvodem je počítání s vyššími mocninami čísel vzdálenějších od hodnoty 1. Z toho plyne poučení, že je vždy vhodné volit měřítko tak, aby odchylky měly průměrnou velikost relativně blízkou jedné. V tomto případu by bylo vhodné pracovat se základní mzdou nikoli v Kč, ale v tisících Kč. …………………………………………………………………………………………………………………………………………………………… Řešení 1b – využití MS Excel Jednotlivé prvky zadaného souboru vložíme do MS Excel do nějaké oblasti. Tvar této oblasti může být v zásadě libovolný (sloupec, řádek, obdélník) pro většinu toho, co budeme dělat dále. Ale pro vytvoření tabulky a grafu četnosti je vhodné mít data uložená jako sloupec. V tomto případě je budeme mít na listu Soubor.
Data 18600 17650 19200 20400 20800 18600 20400 24200 20400 19200 24200 20400 17650 25800 17650 Celou oblast vybereme a stiskneme na ní pravé tlačítko myši. Z lokálního menu zvolíme Definovat název. Zda nastavíme název oblasti na Data a volbu názvu potvrdíme stiskem tlačítka OK. Tím je ∀ ∃
9
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
oblast pojmenována a my se na ni budeme odkazovat tímto jednoduchým názvem. To je jistě příjemné. Nebude nutné vypisovat hranice zvolené oblasti v každém vzorci.
Nyní vytvoříme tabulku a graf četnosti výskytů jednotlivých hodnot. Celou oblast dat vybereme a volíme Vložení – Kontingenční graf. Přitom dostaneme jak kontingenční tabulku, tak ontingenční graf současně.
Stiskneme tlačítko OK. Objeví se prostor pro zadání polí kontingenční tabulky a grafu.
∀ ∃
10
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Zatrhneme pole Data a jeho kopii přetáhneme do prostoru Osy a do prostoru Hodnoty. V prostoru hodnoty volíme Počet z Data. Dostaneme
Tabulku i graf prostých četností máme dokončenu. V případu potřeby můžeme udělat nějaké kosmetické úpravy. Pokud bychom potřebovali tabulku a graf relativních četností, uděláme je stejně jako v řešení 1a. Nyní přejdeme na List PopStat, na kterém budeme počítat jednotlivé charakteristiky našeho souboru. Přitom budeme využívat jednotlivé statistické funkce MS Excel. Postupně nastavíme potřebné texty a vzorce dle následujícího obrázku. Sloupce Značka a Vzorec jsou samozřejmě zbytečné. Slouží jen ∀ ∃
11
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
k tomu, abychom si propojili teoretickou pasáž s praktickým výpočtem a ukázali si, jaké vzorce nám zajišťují výpočet potřebných hodnot. Z obrázku je patrno, že se v MS Excelu dají najít věci, které nejsou přímo podporovány existencí vhodné funkce. A současně je dobré si uvědomit, že celá řada dalších statistických funkcí vestavěných do MS Excel není pro řešení naší úlohy potřeba.
Nakonec si připravíme data pro boxplot. Přejdeme na příslušný list a nachystáme vhodný záznam. V řádku pro data použijeme buď odkazy na příslušné buňky listu PopStat, nebo přímo stejné vzorce jako v těchto buňkách. První přístup je takový programátorštější – využijeme ihned to, co Excel již jednou vypočetl. Druhý přístup je asi bezpečnější – neriskujeme zadání chybného odkazu. Do sloupce Boxplot zadáme zatím nějaké vhodné datum. Dostaneme
∀ ∃
12
ŘEŠENÉ PŘÍKLADY Z MV2
Boxplot ZM
ČÁST 1
med 20400
Q1 18600
max 25800
min 17650
Q3 20800
A nyní již snadno s využitím dříve uložené šablony grafu boxplot (viz řešení 1a) a změně formálně zadaného datumu na něco smysluplného odstaneme potřebný graf.
Porovnáním dat zadaného souboru s vytvořeným boxplot ihned vidíme užitečnost boxplot pro rychlý náhled o hodnotách dat v souboru. Ještě patrnější to je, použijeme-li k tomuto porovnání setříděná data. Konkrétně v tomto případě má čtvrtina zaměstnanců s nejnižšími základními mzdami tuto mzdu v poměrně úzkém rozmezí (úsek pod obdélníky). Další čtvrtina zaměstnanců má základní mzdu v širším rozmezí (dolní obdélník). Třetí čtvrtina zaměstnanců má mzdu ve velmi úzkém rozmezí (horní obdélník). Nakonec nejlépe mzdově hodnocená čtvrtina zaměstnanců má mzdu ve velmi širokém rozmezí (úsek nad obdélníky) Z boxplot je patrné i to, že polovina zaměstnanců se středními platy (tedy ti, kteří nejsou ani v nejméně ani v nejvíce hodnocené skupině) má základní mzdu v poměrně úzkém rozmezí (jde o mezikvartilový rozptyl). Přitom rozptyl celého souboru je poměrně velký. ……………………………………………………………………………………………………………………………………………………………
∀ ∃
13
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Řešení 1c – využití doplňku Analýza dat MS Excel V tomto případě předpokládáme, že máme nainstalovaný doplněk MS Excel Analýza dat (k dispozici zdarma). Nachystáme si data ve stejné podobě, jako v řešení 1b. Označíme celý prostor dat. Na záložce Data volíme Analýza dat a ze seznamu analytických nástrojů vybereme Popisná statistika.
Stiskneme tlačítko OK. Objeví se okno Popisná statistika. Zadáme Vstupní oblast Data a zatrhneme Celkový přehled.
Stiskneme tlačítko OK a na nové listu se nám objeví všechny potřebné základní charakteristiky našeho souboru dat.
∀ ∃
14
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Sloupec1 Stř. hodnota Chyba stř. hodnoty Medián Modus Směr. odchylka Rozptyl výběru Špičatost Šikmost #ODKAZ! Minimum Maximum Součet Počet
20343,33333 655,3782381 20400 20400 2538,269001 6442809,524 0,225128776 1,033637697 8150 17650 25800 305150 15
Tajemný řádek s indikovaným chybným odkazem je rozpětí. Pokud bychom tuto tabulku chtěli dále používat, můžeme tu podivnost přímo přepsat.
Sloupec1 Stř. hodnota Chyba stř. hodnoty Medián Modus Směr. odchylka Rozptyl výběru Špičatost Šikmost Rozpětí Minimum Maximum Součet Počet
20343,33333 655,3782381 20400 20400 2538,269001 6442809,524 0,225128776 1,033637697 8150 17650 25800 305150 15
Pozor – Rozptyl je v tomto doplňku počítán tak, že se součet čtverců odchylek dělí počtem prvků sníženým o jeden. Dává tedy jiný výsledek. Proto je jiný výsledek i u hodnot od rozptylu odvozených. Dále vidíme, že tu nejsou k dispozici kvartily. Pro vykreslení boxplot grafu si je budeme muset vypočítat způsobem, který jsme prezentovali v řešení 1b. Nic není dokonalé. Nicméně prahneme-li po kvantilech a setříděném souboru, stačí v doplňku Analýza dat využít funkci Pořadová statistika a percentily. Případné další zpracování daného souboru jsme si již ukázali v předchozích řešeních. ……………………………………………………………………………………………………………………………………………………………
∀ ∃
15
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Příklad 2 Jednotlivá katastrální území města Liberec mají následující plošnou velikost (ha): Katastr Výměra Liberec – střed 621,5 Dolní Hanychov 113,0 Doubí 341,7 Františkov 106,9 Hluboká 226,9 Horní Hanychov 743,4 Horní Růžodol 119,4 Horní Suchá 572,7 Janův Důl 34,8 Karlinky 100,8 Kateřinky 506,1 Krásná Studánka 587,4 Kunraticeš 186,6
Katastr Výměra Machnín 1133,7 Nové Pavlovice 51,4 Ostašov 160,6 Pilínkov 207,8 Radčice 321,6 Rochlice 391,1 Rudolfov 48,8 Ruprechtice 623,7 Růžodol I. 336,2 Staré Pavlovice 172,9 Starý Harcov 1169,8 Vesec 441,9 Vratislavice 1291,0
a) Určete charakteristiky tohoto souboru. b) Rozdělte tyto hodnoty do 7 tříd, rozpětí tříd zaokrouhlete na celé desítky hektarů a určete charakteristiky tohoto souboru tříd. c) Rozdělte tyto hodnoty do 7 tříd, rozpětí tříd zaokrouhlete na celé stovky hektarů a určete charakteristiky tohoto souboru tříd. d) Porovnejte výsledky získané v předchozích třech podúlohách. ……………………………………………………………………………………………………………………………………………………………
Řešení 2a V tomto řešení budeme postupovat stejným způsobem jako v řešení 1b, tedy s využitím vestavěných funkcí MS Excel. Excelový sešit z příkladu 1 jsme si uložili pod jiným názvem. Oblast Data na listu Soubor jsme si rozšířili vložením řádků dovnitř oblasti tak, aby právě pojala celý soubor dat tohoto příkladu. Tím jsme si ušetřili opakované zadávání nebo kopírování všech vzorců. Na listu PopStat dostaneme ihned charakteristiky našeho souboru na základě námi zavedených vzorců.
∀ ∃
16
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Z výukových důvodů jsme ponechali na tomto listu zavedené značky charakteristik a textově prezentované vzorce. Zbytečný řádek s neexistující funkcí pro kvadratický průměr jsme odstranili. Je důležité si povšimnout, že v řádku Modus je výsledek #NENÍ K DISPOZICI. To je proto, že každá hodnota v našem souboru je unikátní, neboli žádná nemá největší počet výskytů. Na listu Boxplot se nám naplnila tabulka pro graf boxplot a ten se sám aktualizoval. Po úpravě levého měřítka na stejnou hodnotu, jako má měřítko pravé, změně názvu kategorie (cvičně na VK) a změně názvu grafu máme boxplot pro toto šetření hotový.
Porovnáním dat zadaného souboru s vytvořeným boxplot ihned vidíme užitečnost boxplot pro rychlý náhled o hodnotách dat v souboru. Ještě patrnější to je, použijeme-li k tomuto porovnání setříděná data. ∀ ∃
17
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Nejvýraznější jev patrný z tohoto boxplot je, že čtvrtina katastrů města Liberec má velmi malou výměru a navíc ve velmi úzkém rozpětí. Obě střední čtvrtiny katastrů střední velikosti jsou si podobné svým rozpětím. Čtvrtina plošně největších katastrů má výrazně velké rozpětí. ……………………………………………………………………………………………………………………………………………………………
Řešení 2b Nyní máme vyšetřit stejný datový soubor, před vlastním vyšetřením ho ale máme rozdělit do sedmi tříd, jejichž rozpětí bude zaokrouhlené na celé desítky hektarů. Počet sedmi tříd je dán zadáním (v teoretické části jsme viděli, že podle Sturgesova pravidla by bylo vhodné volit rozdělení do šesti tříd). Nyní musíme rozhodnout, jaké mají být hranice těchto sedmi tříd. Je dobré, aby třídy měly stejné rozpětí. Nejprve tedy vydělíme rozpětí našeho souboru počtem tříd a zaokrouhlíme toto rozpětí na celé desítky. Dostaneme 1291 − 34,8 1256,2 = ≅ 179,46 ≅ 180 7 7 Tříd má být sedm. Počáteční hodnotu první třídy musíme volit tak, aby se minimální hodnota vešla do první třídy a maximální hodnota vešla do poslední třídy. Je vhodné volit celá čísla, máme tedy možnost volit dolní hranici první třídy s hodnotou 31, 32, 33 nebo 34. Zdá se, že je to úplně jedno, ale není tomu tak. Při volbě 31 padne katastr Rochlice do třetí třídy a katastr Horní Suchá do čtvrté třídy. Při volbě 33 budou oba tyto katastry o třídu níže. Při volbě 32 bude o třídu níže pouze katastr Rochlice. To zcela jistě ovlivní budoucí výsledky. Z důvodů, které na tomto místě nijak neodůvodňujeme, jsme se rozhodli pro dolní hranici první třídy v hodnotě 32. Jednotlivé třídy budou mít tedy hranice dané následující tabulkou. Do této tabulky jsme již doplnili i počty katastrů, které do jednotlivých tříd patří. Třída 1 2 3 4 5 6 7
Plocha 32-212 212-392 392-572 572-752 752-932 932-1112 1112-1292
Počet 11 5 2 5 0 0 3
Dostali jsme tak tabulku rozdělení četností. Snadno ověříme, že stále pracujeme s 26 katastry, neboli 26 prvky souboru. Můžeme vytvořit sloupcový graf.
∀ ∃
18
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Někdy je žádoucí, aby jednotlivé sloupce grafu byly prezentovány bez mezer. Důvodem je, že jednotlivé třídy svými intervaly na sebe navazují. Toho dosáhneme tak, že nastaváíme mezeru mezi jednotlivými sloupci na nulu. Pak stejný graf bude vypadat takto.
Třídní rozdělení jsme v tomto případě vytvořili ručně. Ale i v tom nám může pomoci MS Excel. Je v něm k dispozici statistická funkce ČETNOSTI, pomocí níž můžeme třídní rozdělení snadno vytvořit. Primární data máme k dispozici v poli Data. Vytovříme si sloupcový vektor horních hranic jednotlivých tříd (tento vektor je vyznačen zeleně). Pod horní hranicí nejvyšší třídy je ještě uvedeno slovo Více pro třídu s hodnotami nad zadaným horním limitem.
Do 212,0 412,0 612,0 812,0 1012,0 1212,0 Více
Počet
Nyní označíme celý prostor pod nadpisem Počet až k hranici označené Více. Do tohoto prostoru vložíme funkci ČETNOSTI (pozor, jde o maticovou funkci – vkládáme ji najednou do celého cílového prostoru). Prvním parametrem této funkce je prostor s priárními data, druhým argumentem je vektor horních hranic jednotlivých tříd (zazeleněný, tedy bez slova Více). Pak stiskneme klávesu F2, kterou potvrdíme maticový vzorec a následně stiskmeme kombinaci Ctrl+Shift+Enter, kterou potvrdíme výpočet. Okamžitě dostaneme výsledek.
Do 212,0 412,0 612,0 812,0 1012,0 1212,0 Více
∀ ∃
Počet 11 5 4 3 0 2 1
19
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Nyní jsme v situaci, ve které začíná celá řada statistických šetření, nemáme-li k dispozici základní data, ale jen jejich třídní rozdělení. Abychom mohli s třídně rozdělenými daty počítat. Potřebujeme v rámci každé třídy zvolit nějakou hodnotu, která bude reprezentovat každý z prvků patřících do této třídy. Obvykle se tedy volí střed této třídy. O tuto hodnotu si rozšíříme naši tabulku. Třída 1 2 3 4 5 6 7
Plocha 32-212 212-392 392-572 572-752 752-932 932-1112 1112-1292
Střed 122 302 482 662 842 1022 1202
Počet 11 5 2 5 0 0 3
Nyní lze požít vzorec pro vážený průměr a podobné rozšíření pro všechny ostatní vhodné vzorce statistických charakteristik k výpočtu. Uvědomme si ale, že pracujeme s pouhými 26 prvky. Není třeba odvozovat nové vzorce, stačí si v našem sešitu MS Excel v poli Data upravit hodnoty tak, aby byly reprezentovány odpovídajícími středy tříd. Vycházíme tedy ze situace (abychom zadávání středů měli jednodušší, primární data jsme si setřídili).
Data 122,0 122,0 122,0 122,0 122,0 122,0 122,0 122,0 122,0 122,0 122,0 302,0 302,0 302,0 302,0 302,0 482,0 482,0 662,0 662,0 662,0 662,0 662,0 1202,0 1202,0 1202,0 ∀ ∃
Sort 34,8 48,8 51,4 100,8 106,9 113,0 119,4 160,6 172,9 186,6 207,8 226,9 321,6 336,2 341,7 391,1 441,9 506,1 572,7 587,4 621,5 623,7 743,4 1133,7 1169,8 1291,0
20
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
MS Excel nám pak nově vypočtené charakteristiky i nový boxplot sám dodá.
Povšimněme si, že v této verzi první kvartil opticky vymizel. Všechny prvky prvního kvartilu a skoro všechny prvky druhého kvartilu jsou v první třídě.
Řešení 2c Nyní máme ještě jednou vyšetřit stejný datový soubor, před vlastním vyšetřením ho ale máme opět rozdělit do sedmi tříd, jejichž rozpětí bude zaokrouhlené na celé stovky hektarů. Nyní musíme rozhodnout, jaké mají být hranice těchto sedmi tříd. Je dobré, aby třídy měly stejné rozpětí. Nejprve tedy vydělíme rozpětí našeho souboru počtem tříd a zaokrouhlíme na celé stovky. Dostaneme ∀ ∃
21
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
1291 − 34,8 1256,2 = ≅ 179,46 ≅ 200 7 7 Tříd má být sedm, budeme pracovat s jejich rozpětími danými následující tabulkou. Všechny prvky se bez problémů vejdou do některé z tříd. To tabulky jsme si již vyplnili i středy tříd. Třída 1 2 3 4 5 6 7
Plocha 0-200 200-400 400-600 600-800 800-1000 1000-1200 1200-1400
Střed 100 300 500 700 900 1100 1300
Počet 10 6 4 3 0 2 1
V našem sešitu MS Excel v poli Data znovu upravíme hodnoty tak, aby byly reprezentovány odpovídajícími středy tříd. Vycházíme tedy ze situace (abychom zadávání středů měli jednodušší, primární data jsme si setřídili).
Data 100,0 100,0 100,0 100,0 100,0 100,0 100,0 100,0 100,0 100,0 300,0 300,0 300,0 300,0 300,0 300,0 500,0 500,0 500,0 500,0 700,0 700,0 700,0 1100,0 1100,0 1300,0
Sort 34,8 48,8 51,4 100,8 106,9 113,0 119,4 160,6 172,9 186,6 207,8 226,9 321,6 336,2 341,7 391,1 441,9 506,1 572,7 587,4 621,5 623,7 743,4 1133,7 1169,8 1291,0
MS Excel nám pak nově vypočtené charakteristiky i nový boxplot sám dodá. ∀ ∃
22
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
I v této verzi první kvartil opticky vymizel. Oproti předchozí verzi se ale významně rozšířil čtvrtý kvartil.
Řešení 2d V této chvíli máme porovnat výsledky jednotlivých šetření v předchozích podúlohách. To nejlépe naplníme tabulkou základních statistických charakteristik v jednotlivých šetřeních a společně prezentovanými boxploty. Dostáváme
∀ ∃
23
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Charakteristika Primární data Třídy po 180 Třídy po 200 Minimum 34,80 122,00 100,00 Maximum 1291,00 1202,00 1300,00 Průměr aritmetický 408,14 412,77 400,00 Průměr geometrický 270,13 290,97 274,22 Průměr harmonický 164,46 215,02 192,77 Medián 328,90 302,00 300,00 Kvartil první 117,80 122,00 100,00 Kvartil třetí 595,93 662,00 550,00 Modus #NENÍ_K_DISPOZICI 122,00 100,00 Rozptyl 121840,13 122314,79 117692,31 Směrodatná odchylka 349,06 349,74 343,06 Variační koeficient 0,86 0,85 0,86 Rozpětí 1256,20 1080,00 1200,00 Mezikvartilové rozpětí 478,13 540,00 450,00 Střední odchylka 277,68 288,64 276,92 Šikmost 1,23 1,22 1,24 Špičatost 0,84 0,57 0,82
Z tabulky i společného box plot (primární data, desítkové zaokrouhlení a stovkové zaokrouhlení) vidíme, že i docela šikovně volené rozdělení do tříd může viditelně ovlivnit výsledek. Nejzajímavější je to u údaje aritmetický průměr, který se při desítkovém zaokrouhlení velikosti třídy zvýšil oproti primárním datům - jakoby se nám Liberec zvětšil. Při stovkovém zaokrouhlení velikosti třídy se aritmetický průměr naopak snížil – jakoby se nám Liberec zmenšil. Reálně ovšem celková plocha města Liberec zůstala zachována. Tento jev se dá velice snadno ovlivňovat nastavením počátku prvního intervalu. Samozřejmě vždy záleží na primárních datech. ……………………………………………………………………………………………………………………………………………………………
∀ ∃
24
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Příklad 3 Určete charakteristiky počtu dní s deštěm v Liberci v letech 1990-1998. Pro jednotlivé roky nabýval tento znak postupně hodnot 162, 152, 150, 147, 178, 154, 143, 143, 180. ……………………………………………………………………………………………………………………………………………………………
Řešení 3 Jde o úlohu s velmi malým souborem dat – jde o pouhých devět hodnot. Lze samozřejmě použít již dříve připravený sešit MS Excel se vzorci. To uděláme v prvním řešení. Ale vzhledem k malému rozsahu souboru v druhém řešení provedeme ze cvičných důvodů ruční výpočet podle vzorců. Řešení 3a – využití MS Excel Máme tato data v poli Data
Data 162,0 152,0 150,0 147,0 178,0 154,0 143,0 143,0 180,0 Z nich dostaneme v připraveném MS Excel tento výsledek.
Z těchto dat dostaneme ihned následující boxplot. ∀ ∃
25
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
A můžeme přemýšlet, jak to s těmi dešti v Liberci je. Z tohoto šetření vyplývá, že není pravda to, co se o Liberci říká – že tu prší pořád. Pravda je, že tu prší skoro obden. Řešení 3a – ruční výpočet dle vzorců Označíme si jednotlivé prvky zadaného souboru. = 162, = 152, = 150, = 147, = 178, = 154, = 143, = 143, = 180 Současně si tento soubor setřídíme od nejmenšího do největšího prvku. ( ) = 143, ( ) = 143, ( ) = 147, ( ) = 150, ( ) = 152, ( ) = 154, ( ) = 180 ( ) = 162, ( ) = 178, Extrémní hodnoty získáme snadno ze setříděného souboru. min # = ( ) = 143, max # = ( ) = 180 #$ ..
#$ ..
Pro zjištění charakteristik polohy se nejprve rozhodneme pro správný průměr, který je třeba uvažovat. V tomto případě jde jednoznačně o průměr aritmetický. Ten můžeme počítat přímo ze zadaného souboru takto: +
1 ̅= * ) #$
#
1 1 = (162 + 152 + 150 + 147 + 178 + 154 + 143 + 143 + 180) = ∙ 1409 9 9
≅ 156,56 Z kvantilů budeme vzhledem k malému rozsahu souboru uvažovat jen medián a první a třetí kvartil. Snadno je nalezneme pomocí setříděného souboru. Vzhledem k tomu, že počet prvků souboru je lichý, dostáváme medián přímo: 0 = 0 , = ( ) = 152 První a třetí kvartil leží mezi zadanými hodnotami. Vypočteme je tedy lineární interpolací. 143 + 147 290 ( )+ ( ) 1 = 0 , = = = = 145 2 2 2 162 + 178 340 ( )+ ( ) 1 = 0 , = = = = 170 2 2 2 V tuto chvíli máme k dispozici všechna data pro boxplot. Mohli bychom ho nakreslit, ale už ho máme. ∀ ∃
26
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Nyní se budeme věnovat výpočtu charakteristik variability. Rozptyl budeme počítat podle vzorce +
1 3 = *( ) #$
#
− ̅)
Pro výpočet si připravíme tabulku se všemi zadanými hodnotami. Vypočteme odchylku jako rozdíl počtu deštivých dnů a průměru (ve čtvrtém sloupci) a druhou mocninu odchylky (v pátém sloupci). Rok DeštDny 1990 162 1991 152 1992 150 1993 147 1994 178 1995 154 1996 143 1997 143 1998 180 Sum 1409
Průměr 156,56 156,56 156,56 156,56 156,56 156,56 156,56 156,56 156,56
Odchylka 5,44 -4,56 -6,56 -9,56 21,44 -2,56 -13,56 -13,56 23,44 -0,04
Odchylka2 29,5936 20,7936 43,0336 91,3936 459,6736 6,5536 183,8736 183,8736 549,4336 1568,2224
V součtovém řádku očekáváme, že součet odchylek bude nulový. Není tomu tak proto, že výpočet proběhl s průměrem zaokrouhleným na dvě desetinná místa. Pro výpočet rozptylu je ale důležitý součet čtverců odchylek v posledním sloupci. Stačí spočítat jeho aritmetický průměr a dostaneme rozptyl. 1 3 = ∙ 1568,2224 ≅ 174,2469 9 Nyní již snadno dostáváme další charakteristiky variability. Směrodatná odchylka se vypočte odmocněním rozptylu. 3 = 63 = 6174,2469 ≅ 13,2003 Variační koeficient se vypočte vydělením směrodatné odchylky průměrem. 3 13,2003 7= = ≅ 0,0843 ̅ 156,56 Rozpětí získáme ze setříděného souboru nebo později určených extrémů. 8 = ( ) − ( ) = 180 − 143 = 37 Mezikvartilové rozpětí získáme z již dříve vypočtených kvartilů. 89 = 1 − 1 = 0 , − 0 , = 170 − 145 = 25 Trochu více práce nám dá výpočet střední odchylky od průměru. Ale pomůžeme si úpravou naší poslední tabulky, do které doplníme sloupec s absolutní hodnotou odchylky a do posledního řádku součet těchto odchylek. Střední odchylku od průměru vypočteme jako průměr těchto absolutních hodnot. Rok DeštDny 1990 162 1991 152 1992 150 1993 147 ∀ ∃
Průměr 156,56 156,56 156,56 156,56
Odchylka 5,44 -4,56 -6,56 -9,56
Odchylka2 AbsOdchylka 5,44 29,5936 4,56 20,7936 6,56 43,0336 9,56 91,3936 27
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Rok DeštDny 1994 178 1995 154 1996 143 1997 143 1998 180 Sum 1409
Průměr 156,56 156,56 156,56 156,56 156,56
Odchylka 21,44 -2,56 -13,56 -13,56 23,44 -0,04
Odchylka2 AbsOdchylka 21,44 459,6736 2,56 6,5536 13,56 183,8736 13,56 183,8736 23,44 549,4336 100,68 1568,2224
Střední odchylku od průměru vypočteme jako průměr těchto absolutních hodnot. +
:̅
1 = *| ) #$
#
− ̅| =
1 ∙ 100,68 ≅ 11,1867 9
Zbývá vypočítat charakteristiky tvaru – šikmost a špičatost. K tomu potřebujeme nejprve vypočítat třetí a čtvrtý centrální moment. Opět si pomůžeme rozšířením naší tabulky. Rok DeštDny 1990 162 1991 152 1992 150 1993 147 1994 178 1995 154 1996 143 1997 143 1998 180 Sum 1409
Průměr 156,56 156,56 156,56 156,56 156,56 156,56 156,56 156,56 156,56
Odchylka 5,44 -4,56 -6,56 -9,56 21,44 -2,56 -13,56 -13,56 23,44 -0,04
Odchylka2 AbsOdchylka 5,44 29,5936 4,56 20,7936 6,56 43,0336 9,56 91,3936 21,44 459,6736 2,56 6,5536 13,56 183,8736 13,56 183,8736 23,44 549,4336 100,68 1568,2224
Odchylka3 Odchylka4 160,9892 875,7812 -94,8188 432,3738 -282,3004 1851,8907 -873,7228 8352,7901 9855,4020 211299,8185 -16,7772 42,9497 -2493,3260 33809,5008 -2493,3260 33809,5008 12878,7236 301877,2808 16640,8435 592351,8864
Třetí centrální moment je průměrem třetích mocnin odchylek a čtvrtý centrální moment je průměrem čtvrtých mocnin odchylek. Odtud tedy dostáváme. +
1 < = *( ) #$ +
1 < = *( ) #$
#
#
− ̅) =
− ̅) =
1 ∙ 16640,8435 ≅ 1848,9826 9
1 ∙ 592351,8864 ≅ 65816,8763 9
Nyní již snadno dosazením do vzorce vypočteme šikmost < 1848,9826 1848,9826 = = ≅ 0,8039 = = 3 13,2002 2300,0726 Daný soubor je tedy mírně záporně zešikmen. Podobně snadno dostaneme špičatost < 65816,8763 65816,8763 = = −3= −3= − 3 ≅ 2,1678 − 3 = −0,8322 3 13,2002 30361,4176 Daný soubor je tedy mírně zploštělý. ……………………………………………………………………………………………………………………………………………………………
∀ ∃
28
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Příklad 4 Délka slunečního svitu v Liberci v jednotlivých měsících let 1997 a 1998 byla (zaokrouhleno na celé hodiny) 35, 83, 133, 163, 211, 205, 189, 270, 200, 94, 56, 33, 59, 75, 112, 156, 234, 201, 186, 228, 112, 53, 46, 52. Určete charakteristiky tohoto souboru. ……………………………………………………………………………………………………………………………………………………………
Řešení 4 V tomto případě už máme v souboru trochu více dat. Pro zpracování tohoto šetření využijeme připravený sešit MS Excel. Všechny zadané hodnoty vložíme do pole Data.
Data 35 83 133 163 211 205 189 270 200 94 56 33 59 75 112 156 234 201 168 228 112 53 46 52 Na listu se vzorci pro statistické charakteristiky ihned dostaneme.
∀ ∃
29
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Na listu Boxplot jen upravíme levé měřítko a titulek. Přímo dostáváme boxplot pro zkoumaná data.
Milovníci slunečního svitu nyní mohou vidět, že v Liberci po celou čtvrtinu doby svítí slunce jen kolem 50 hodin za měsíc. To málokterého z nich naplní nadšením. Ale také po čtvrtinu doby svítí slunce více než 200 hodin za měsíc a to už není tak špatné. ……………………………………………………………………………………………………………………………………………………………
∀ ∃
30
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Příklad 5 Koncentrace polétavého prachu v Liberci v jednotlivých měsících období 1993-1998 byla 65,99,100,90,57,46,36,42,50,72,105,59,69,108,72,105,55,59,67,50,54,80,61,58,64,51,80,83,73,46,64, 62,54,70,56,51,99,90,76,82,41,32,18,22,24,44,34,97,109,43,66,43,33,30,20,37,33,22,32,32,43,49,29, 33,34,19,15,19,20,16,44,33. a) Určete charakteristiky souboru. b) Určete charakteristiky souboru po rozdělení do šesti tříd 0-19, 20-39, …, 100-119. c) Určete charakteristiky souboru po rozdělení do pěti tříd 10-29, 30-49, …, 90-109. d) Porovnejte výsledky z předchozích podúloh. ……………………………………………………………………………………………………………………………………………………………
Řešení 5a V tomto případě máme v souboru ještě více dat. Pro zpracování tohoto šetření využijeme připravený sešit MS Excel. Všechny zadané hodnoty vložíme do pole Data. Na listu PopStat dostaneme přímo vypočtené hodnoty jednotlivých statistických charakteristik.
Polétavý prach po měsících v Liberci 1993-1998 120 100 80 60 40 20 0
10000 8000 6000 4000 2000 0 věk.třídy po 5 letech
…………………………………………………………………………………………………………………………………………………………… ∀ ∃
31
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Řešení 5b Připravíme si tabulku četností se středy intervalů dle zadání.
trida 1 2 3 4 5 6
oddo 0-19 20-39 40-59 60-79 80-99 100-119
stred 10 30 50 70 90 110
pocet 5 18 22 13 9 5
Vytvoříme graf četností tohoto třídního rozdělení.
V poli data nahradíme všechny prvky hodnotami středu třídy, do které prvek patří. Poté ihned dostaneme statistické charakteristiky a příslušný boxplot.
∀ ∃
32
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
……………………………………………………………………………………………………………………………………………………………
Řešení 5c Připravíme si tabulku četností se středy intervalů dle zadání.
trida 1 2 3 4 5
oddo 10-29 30-49 50-69 70-89 90-109
stred 20 40 60 80 100
pocet 11 22 20 9 10
Vytvoříme graf četností tohoto třídního rozdělení.
∀ ∃
33
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
V poli data nahradíme všechny prvky hodnotami středu třídy, do které prvek patří. Poté ihned dostaneme statistické charakteristiky a příslušný boxplot.
∀ ∃
34
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
……………………………………………………………………………………………………………………………………………………………
Řešení 5d Porovnání základních charakteristik a boxplot následuje.
Charakteristika Minimum Maximum Průměr aritmetický Průměr geometrický Průměr harmonický Medián Kvartil první Kvartil třetí Modus Rozptyl Směrodatná odchylka Variační koeficient Rozpětí Mezikvartilové rozpětí Střední odchylka Šikmost Špičatost
Prim
v0
v10
15 109 54,52777778 48,34492739 42,12112958 51 33 71,5 33 644,2770062 25,38261228 0,465498748 94 38,5 20,90509259 0,468879394 -0,62005347
10 110 55 47,53799689 38,47862299 50 30 70 50 708,3333333 26,61453237 0,483900589 100 40 21,80555556 0,392806684 -0,53292802
20 100 55,83333333 49,87486478 43,74683544 60 40 80 40 621,5277778 24,93045884 0,446515681 80 40 20,625 0,363085186 -0,79121308
I v tomto případě je jasně patrné, že volba tříd má vliv na to, co vypovídají z nich odvozené charakteristiky. Proto je vždy důležité volit třídy tak, aby se nezastřel původní charakter souboru. ……………………………………………………………………………………………………………………………………………………………
∀ ∃
35
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Příklad 6 K 31. 12. 1998 žilo v Liberci následující počty obyvatel v jednotlivých věkových skupinách: Skupina 0-4 roky 5-9 let 10-14 let 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let
Počet obyvatel 4307 5797 5942 6745 9055 7896 6695 5961 6898 8626
Skupina 50-54 let 55-59 let 60-64 let 65-69 let 70-74 let 75-79 let 80-84 let 85-89 let 90-94 let 95-99 let
Počet obyvatel 8455 5831 4188 4223 4038 3111 998 614 307 107
Určete charakteristiky tohoto do tříd rozděleného souboru a sestavte vhodné grafy. ……………………………………………………………………………………………………………………………………………………………
Řešení 6 Máme do tříd rozdělený soubor. Tabulku tříd doplníme střední hodnotou jednotlivých skupin.
trida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
skupina 0-4 roky 5-9 let 10-14 let 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let 60-64 let 65-69 let 70-74 let 75-79 let 80-84 let 85-89 let 90-94 let 95-99 let
stred 2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97
pocet 4307 5797 5942 6745 9055 7896 6695 5961 6898 8626 8455 5831 4188 4223 4038 3111 998 614 307 107
Přímo z tabulky rozdělení do tříd můžeme vytvořit sloupcový graf pro absolutní četnost počtu obyvatel v jednotlivých třídách. ∀ ∃
36
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Ze stejných dat vytvoříme i výsečový graf relativní četnosti zastoupení jednotlivých skupin obyvatel.
∀ ∃
37
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Dále budeme využívat připravený sešit s našimi statistickými vzorci. Pole Data na listu Soubor naplníme počtem obyvatel v jednotlivých skupinách. Ihned dostaneme statistiku porovnávající tyto jednotlivé skupiny a příslušný boxplot.
Takový přehled statistických charakteristik není příliš zajímavý. Vypovídá o četnosti jednotlivých skupin. To může zajímat snad demografy. Většinu ostatních zájemců ale taková statistika nebude bavit. Nicméně je na místě doplnit ještě jeden graf. Protože jsme zpracovali demografická data, je dobré si ukázat, v jaké podobě si je obvykle prezentují demografové.
∀ ∃
38
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Obyvatelé Liberce k 31.12.1998 95-99 let
107
90-94 let
307
85-89 let
614
80-84 let
998
75-79 let
3111
70-74 let
4038
65-69 let
4223
60-64 let
4188
55-59 let
5831
50-54 let
8455
45-49 let
8626
40-44 let
6898
35-39 let
5961
30-34 let
6695
25-29 let
7896
20-24 let
9055
15-19 let
6745
10-14 let
5942
5-9 let
5797
0-4 roky
4307 0
2000
4000
6000
8000
10000
Nyní bychom měli přemýšlet o tom, jaké další zajímavé informace bychom mohli za našeho souboru získat. Mohla by být třeba zajímavá statistika zkoumající přímo strukturu obyvatel podle věku. Protože nemáme k dispozici primární data, využijeme námi doplněný střední věk v jednotlivých třídách. Kdybychom chtěli uplatnit podobný přístup, jako v předchozích případech, museli bychom pole Data připravit pro 99794 prvků. Ne, že by to nebylo možné, ale počet prvků už není malý a s akcí spojená pracnost je očividná. Budeme tedy užívat výpočtu váženého průměru pro zjištění průměrného věku. Následně zvážíme, které další charakteristiky by bylo možné na základě podobného principu zjistit. Zjištění extrémního hodnot je jednoduché – buď použijeme dolní hranici dolní třídy a horní hranici horní třídy, nebo z obou těchto tříd použijeme střední hodnoty. Druhý postup je ale v této konkrétní úloze diskutabilní. Dost dobře nelze uvažovat, že by Liberci byl minimální věk obyvatel 2 roky. Stále se tu totiž rodí děti. Takže pro extrémní hodnoty volíme min # = 0, max # = 99 #
#
Dále se budeme věnovat charakteristikám polohy. Nejprve vypočítáme průměrný věk obyvatel Liberce k 31. 12. 1998. To uděláme tak, že vynásobíme počet obyvatel v každé třídě středním věkem této třídy. Tak dostaneme součet věku v každé třídě. Tyto součty sečteme a dostaneme součet věku všech obyvatel Liberce. Ten pak vydělíme počtem obyvatel Liberce a dostaneme průměrný věk obyvatel Liberce. Takto vedený výpočet přesně odpovídá výpočtu váženého aritmetického průměru. ∀ ∃
39
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Naši tabulku si doplníme o sloupec součin a součtový řádek. Dostaneme
trida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Celkem
skupina 0-4 roky 5-9 let 10-14 let 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let 60-64 let 65-69 let 70-74 let 75-79 let 80-84 let 85-89 let 90-94 let 95-99 let
stred 2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97
pocet soucin 4307 8614 5797 40579 5942 71304 6745 114665 9055 199210 7896 213192 6695 214240 5961 220557 6898 289716 8626 405422 8455 439660 5831 332367 4188 259656 4223 282941 4038 290736 3111 239547 998 81836 614 53418 307 28244 107 10379 99794 3796283
Odtud průměrný věk obyvatel Liberce k 31. 12. 1998 vypočtený metodou váženého aritmetického průměru je 3796283 ̅= ≅ 38,04 99794 O jiných průměrech nemá smysl v této úloze uvažovat. Pro zjištění mediánu doplníme naši tabulku o sloupec distribuce. Víme, že v Liberci bylo k uvedenému dni 99794 obyvatel. Setřídíme-li je podle věku, pak nás zajímá průměrný věk 49897-ého a 49898-ého člověka v této řadě. Proto ve sloupci distribuce jsou postupně kumulovány počty z jednotlivých tříd od nejnižší po nejvyšší třídu. U nejvyšší třídy je tedy již počet všech obyvatel města. Pro zjištění mediánu pak stačí v tomto sloupci najít první číslo přesahující 49897 (polovina celkového počtu). Ve stejném řádku ve sloupci stred nalezneme hodnotu mediánu (žlutě podbarveno).
∀ ∃
40
ŘEŠENÉ PŘÍKLADY Z MV2
trida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Celkem
ČÁST 1
skupina 0-4 roky 5-9 let 10-14 let 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let 60-64 let 65-69 let 70-74 let 75-79 let 80-84 let 85-89 let 90-94 let 95-99 let
stred 2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97
pocet soucin distribuce 4307 8614 4307 5797 40579 10104 5942 71304 16046 6745 114665 22791 9055 199210 31846 7896 213192 39742 6695 214240 46437 5961 220557 52398 6898 289716 59296 8626 405422 67922 8455 439660 76377 5831 332367 82208 4188 259656 86396 4223 282941 90619 4038 290736 94657 3111 239547 97768 998 81836 98766 614 53418 99380 307 28244 99687 107 10379 99794 99794 3796283
V našem případě tedy je
0 = 37 Stejným způsobem nalezneme v téže tabulce první a třetí kvartil (podbarveno modře). Pro první kvartil hledáme věk 24949-ého člověka, pro třetí kvartil hledáme věk 74846 člověka. Dostáváme 1 = 22, 1 = 52 Modus nalezneme snadno. Ve stejné tabulce ve sloupci pocet nalezneme nejvyšší hodnotu (zeleně podbarveno). Ve stejném řádku ve sloupci stred je hodnota modu. Tedy 2 = 22 Máme k dispozici všechny údaje potřebné k sestavení boxplot.
∀ ∃
41
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Rozptyl budeme počítat podle vzorce s rozdělením četností. Tabulku upravíme. Odstraníme sloupce soucin a distribuce, přidáme sloupce prumer pro aritmetický průměr, odchylka pro odchylku věku od aritmetického průměru, odchylka2 pro čtverec odchylky a pocodchylka2 pro čtverec odchylky vynásobený počtem výskytů ve třídě. Pozor – v tomto případě nemůže být součet sloupce odchylka nulový, důvod je snad jasný. Nulový by byl součet sloupce odchylka vynásobeného odpovídajícím počtem obyvatel ve stejné třídě. Tabulka nyní vypadá takto.
trida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Celkem
skupina 0-4 roky 5-9 let 10-14 let 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let 60-64 let 65-69 let 70-74 let 75-79 let 80-84 let 85-89 let 90-94 let 95-99 let
stred 2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97
pocet prumer odchylka odchylka2 pocodchylka2 4307 38,04 -36,04 1298,97 5594654,00 5797 38,04 -31,04 963,56 5585732,85 5942 38,04 -26,04 678,14 4029530,64 6745 38,04 -21,04 442,73 2986226,54 9055 38,04 -16,04 257,32 2330031,99 7896 38,04 -11,04 121,91 962585,44 6695 38,04 -6,04 36,50 244340,96 5961 38,04 -1,04 1,08 6462,24 6898 38,04 3,96 15,67 108106,41 8626 38,04 8,96 80,26 692324,39 8455 38,04 13,96 194,85 1647441,88 5831 38,04 18,96 359,44 2095873,02 4188 38,04 23,96 574,02 2404013,95 4223 38,04 28,96 838,61 3541460,14 4038 38,04 33,96 1153,20 4656623,40 3111 38,04 38,96 1517,79 4721840,02 998 38,04 43,96 1932,38 1928511,80 614 38,04 48,96 2396,96 1471736,26 307 38,04 53,96 2911,55 893846,66 107 38,04 58,96 3476,14 371947,06 99794 19251,08 46273289,65
Nyní již snadno vypočteme rozptyl.
1 ∙ 46273289,65 = 463,69 99794 Standardními postupy již dostaneme další charakteristiky variability. Směrodatná odchylka je 3 =
3 = 63 = 6463,69 = 21,53
Variační koeficient
7= Rozpětí Mezikvartilové rozpětí
8=
(+)
−
( )
3 21,53 = = 0,57 ̅ 38,04
= max #
#
− min #
#
= 99 − 0 = 99
89 = 1 − 1 = 52 − 22 = 30 Střední odchylku od aritmetického průměru budeme počítat podle vzorce pro data ve formě rozdělení četností. Naši tabulku rozšíříme o sloupec absodchylka pro absolutní odchylku od průměru a o sloupec pocabsodchylka pro součin absolutní odchylky a počtu obyvatel v každé třídě. ∀ ∃
42
ŘEŠENÉ PŘÍKLADY Z MV2
trida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Celkem
skupina 0-4 roky 5-9 let 10-14 let 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let 60-64 let 65-69 let 70-74 let 75-79 let 80-84 let 85-89 let 90-94 let 95-99 let
ČÁST 1
stred 2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97
pocet prumer odchylka absodchylka pocabsodchylka 4307 38,04 -36,04 36,04 155229,43 5797 38,04 -31,04 31,04 179945,81 5942 38,04 -26,04 26,04 154736,78 6745 38,04 -21,04 21,04 141922,86 9055 38,04 -16,04 16,04 145253,02 7896 38,04 -11,04 11,04 87181,27 6695 38,04 -6,04 6,04 40445,80 5961 38,04 -1,04 1,04 6206,56 6898 38,04 3,96 3,96 27307,84 8626 38,04 8,96 8,96 77278,65 8455 38,04 13,96 13,96 118021,70 5831 38,04 18,96 18,96 110548,79 4188 38,04 23,96 23,96 100339,48 4223 38,04 28,96 28,96 122293,03 4038 38,04 33,96 33,96 137125,66 3111 38,04 38,96 38,96 121200,84 998 38,04 43,96 43,96 43870,89 614 38,04 48,96 48,96 30060,71 307 38,04 53,96 53,96 16565,35 107 38,04 58,96 58,96 6308,59 99794 1821843,06
Střední odchylka od aritmetického průměru je podíl součtu sloupce pocabsodchylka a počtu obyvatel. 1 ∙ 1821843,06 = 18,26 :̅ = 99794 Zbývá vypočítat charakteristiky tvaru. Vypočteme je podobnou metodou jako rozptyl. Nejprve si upravíme tabulku pro šikmost výpočtem dílčích sčítanců pro třetí momenty pomocí třetích mocnin odchylek. Vydělením součtu těchto dílčích sčítanců počtem obyvatel dostaneme třetí moment.
∀ ∃
43
ŘEŠENÉ PŘÍKLADY Z MV2
trida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Celkem
skupina 0-4 roky 5-9 let 10-14 let 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let 60-64 let 65-69 let 70-74 let 75-79 let 80-84 let 85-89 let 90-94 let 95-99 let
ČÁST 1
stred 2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97
pocet prumer odchylka odchylka3 pocodchylka3 4307 38,04 -36,04 -46816,35 -201638015,01 5797 38,04 -31,04 -29909,92 -173387821,76 5942 38,04 -26,04 -17659,68 -104933792,51 6745 38,04 -21,04 -9315,61 -62833774,50 9055 38,04 -16,04 -4127,72 -37376497,18 7896 38,04 -11,04 -1346,01 -10628093,43 6695 38,04 -6,04 -220,48 -1476111,33 5961 38,04 -1,04 -1,13 -6728,45 6898 38,04 3,96 62,04 427972,21 8626 38,04 8,96 719,04 6202399,35 8455 38,04 13,96 2719,85 22996320,14 5831 38,04 18,96 6814,48 39735248,19 4188 38,04 23,96 13752,94 57597301,81 4223 38,04 28,96 24285,21 102556454,23 4038 38,04 33,96 39161,31 158133366,74 3111 38,04 38,96 59131,23 183957245,11 998 38,04 43,96 84944,96 84775074,25 614 38,04 48,96 117352,52 72054449,00 307 38,04 53,96 157103,90 48230897,98 107 38,04 58,96 204949,10 21929553,95 99794 601599,69 206315448,76
Odtud třetí centrální moment je +
1 < = *( ) Šikmost pak je
#$
#
− ̅) =
1 ∙ 206315448,76 = 2067,41 99794
< 2067,41 2067,41 = = = 0,2072 3 21,53 9980,04 Nyní si upravíme tabulku pro špičatost výpočtem dílčích sčítanců pro čtvrté momenty pomocí čtvrtých mocnin odchylek. Vydělením součtu těchto dílčích sčítanců počtem obyvatel dostaneme čtvrtý moment. = =
∀ ∃
44
ŘEŠENÉ PŘÍKLADY Z MV2
trida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Celkem
skupina 0-4 roky 5-9 let 10-14 let 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let 60-64 let 65-69 let 70-74 let 75-79 let 80-84 let 85-89 let 90-94 let 95-99 let
ČÁST 1
stred 2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97
pocet prumer odchylka odchylka4 pocodchylka4 4307 38,04 -36,04 1687317,16 7267274990,41 5797 38,04 -31,04 -29909,92 -173387821,76 5942 38,04 -26,04 -17659,68 -104933792,51 6745 38,04 -21,04 -9315,61 -62833774,50 9055 38,04 -16,04 -4127,72 -37376497,18 7896 38,04 -11,04 -1346,01 -10628093,43 6695 38,04 -6,04 -220,48 -1476111,33 5961 38,04 -1,04 -1,13 -6728,45 6898 38,04 3,96 62,04 427972,21 8626 38,04 8,96 719,04 6202399,35 8455 38,04 13,96 2719,85 22996320,14 5831 38,04 18,96 6814,48 39735248,19 4188 38,04 23,96 13752,94 57597301,81 4223 38,04 28,96 24285,21 102556454,23 4038 38,04 33,96 39161,31 158133366,74 3111 38,04 38,96 59131,23 183957245,11 998 38,04 43,96 84944,96 84775074,25 614 38,04 48,96 117352,52 72054449,00 307 38,04 53,96 157103,90 48230897,98 107 38,04 58,96 204949,10 21929553,95 99794 2335733,20 7675228454,18
Odtud čtvrtý centrální moment je +
1 < = *( ) Špičatost pak je
#$
#
− ̅) =
1 ∙ 7675228454,18 = 76910,72 99794
< 76910,72 76910,72 −3= −3= − 3 = 0,36 − 3 = −2,64 3 21,53 214870,17 Vyhodnotíme-li nalezené charakteristiky, pak lze konstatovat, že výsledky nejsou překvapivé. Průměrný věk je očekávaný, směrodatná odchylka rovněž, soubor je velmi mírně zešikmen vpravo a je velmi plochý. …………………………………………………………………………………………………………………………………………………………… = =
∀ ∃
45
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Příklad 7 V roce 1996-1998 se v Liberci vdaly ženy v jednotlivých věkových skupinách v následujících počtech: Skupina 15-19 let 20-24 let 25-29 let 30-34 let 35-39 let 40-44 let 45-49 let 50-54 let 55-59 let
Počet nevěst 1996 52 260 122 36 22 18 29 10 16
Počet nevěst 1997 35 246 120 60 30 25 27 25 20
Počet nevěst 1998 30 272 159 50 26 25 27 22 12
Z doplňkových zdrojů víme, že v roce 1996 měla nejmladší nevěsta 16 let, v ostatních dvou letech byla nejmladší nevěsta sedmnáctiletá. Určete charakteristiky věku nevěst tohoto do tříd rozděleného souboru zvlášť pro jednotlivé roky, sestavte pro každý z těchto roků boxplot a vzájemně je porovnejte. Sestavte další zajímavé grafy. ……………………………………………………………………………………………………………………………………………………………
Řešení 7 V této úloze máme velmi podobné zadání, jako v příkladu 6. Jde ale o data popisující jiný jev ve třech obdobích. Budeme postupovat téměř stejně, jako v úloze 6, ale klíčové výpočetní pasáže budeme opakovat třikrát, neboli zvlášť pro každé zadané období. Nejprve ale velmi snadno přímo z tabulky třídního rozdělení vytvoříme graf počtu nevěst podle věku v třídním rozdělení společný pro všechny tři roky.
Z tohoto grafu vidíme, že ve zkoumaných letech se postupně snižoval počet sňatků v nejmladší třídě. Naopak v dalších dvou třídách tento počet mírně vzrostl. ∀ ∃
46
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Můžeme také sledovat globální vývoj počtu nevěst (takže i sňatků) v uvedených letech. Ty lze zachytit následujícími grafy.
Podle tohoto grafu by bylo možné na první pohled soudit, že počet nevěst se pronikavě zvyšuje. Ale při pohledu na levé měřítko je jasně patrné, že jde jen o jedno z kouzel, kterými jsme při setkávání se statistickými výstupy často ovlivňováni. Převedeme-li tento graf do výsečové podoby, je jasně patrné, že změna není zdaleka tak dramatická, jak se jevila při prvním dojmu.
Oba grafy vypovídají o tomtéž, oba jsou správné. To, že jeden z nich působí výrazně pro zdůraznění stoupajícího počtu sňatků a to, že první dojem je obvykle ten nejsilnější, je známo guruům mediálních masáží. Setkat se s využitím těchto jevů je možné velice často. Připravíme základ našich tabulek pro výpočty charakteristik podle věku nevěst v jednotlivých letech. Protože budeme počítat pro tři roky stejné charakteristiky, je výhodné to dělat najednou. Je rovněž zřejmé, že budeme v některých případech využívat vzorce pro třídní rozdělení (vážený aritmetický průměr a podobně). Základ této tabulky vypadá takto. ∀ ∃
47
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
rok 1996 1996 1996 1996 1996 1996 1996 1996 1996 Suma
skupina stred pocet 15-19 let 17 52 20-24 let 22 260 25-29 let 27 122 30-34 let 32 36 35-39 let 37 22 40-44 let 42 18 45-49 let 47 29 50-54 let 52 10 55-59 let 57 16 565
rok 1997 1997 1997 1997 1997 1997 1997 1997 1997 Suma
skupina stred pocet 15-19 let 17 35 20-24 let 22 246 25-29 let 27 120 30-34 let 32 60 35-39 let 37 30 40-44 let 42 25 45-49 let 47 27 50-54 let 52 25 55-59 let 57 20 588
rok 1998 1998 1998 1998 1998 1998 1998 1998 1998 Suma
skupina stred pocet 15-19 let 17 30 20-24 let 22 272 25-29 let 27 159 30-34 let 32 50 35-39 let 37 26 40-44 let 42 25 45-49 let 47 27 50-54 let 52 22 55-59 let 57 12 623
Tento základ budeme v průběhu výpočtů doplňovat o další sloupce tak, abychom snadno vypočítali ty charakteristiky, které budeme potřebovat. Průběžně budeme nalezené charakteristiky ukládat do tabulky popisných charakteristik. Zjištění extrémních hodnot je snadné. Pro minimum použijeme doplňkovou informaci ze zadání, pro maximum použijeme hodní hranici třídy nejstarších nevěst. Dále se budeme věnovat charakteristikám polohy. Nejprve vypočítáme průměrný věk nevěst. To uděláme tak, že vynásobíme počet nevěst v každé třídě středním věkem této třídy. Tak dostaneme součet věku v každé třídě. Tyto součty sečteme a dostaneme součet věku všech nevěst v Liberci. Ten pak vydělíme počtem nevěst a dostaneme průměrný věk nevěst v Liberci v každém roce. Takto vedený výpočet přesně odpovídá výpočtu váženého aritmetického průměru. ∀ ∃
48
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
rok 1996 1996 1996 1996 1996 1996 1996 1996 1996 Suma
skupina stred pocet pocstred 15-19 let 17 52 884 průměr 20-24 let 22 260 5720 25-29 let 27 122 3294 30-34 let 32 36 1152 35-39 let 37 22 814 40-44 let 42 18 756 45-49 let 47 29 1363 50-54 let 52 10 520 55-59 let 57 16 912 565 15415
rok 1997 1997 1997 1997 1997 1997 1997 1997 1997 Suma
skupina stred pocet pocstred 15-19 let 17 35 595 průměr 20-24 let 22 246 5412 25-29 let 27 120 3240 30-34 let 32 60 1920 35-39 let 37 30 1110 40-44 let 42 25 1050 45-49 let 47 27 1269 50-54 let 52 25 1300 55-59 let 57 20 1140 588 17036
rok 1998 1998 1998 1998 1998 1998 1998 1998 1998 Suma
skupina stred pocet pocstred 15-19 let 17 30 510 průměr 20-24 let 22 272 5984 25-29 let 27 159 4293 30-34 let 32 50 1600 35-39 let 37 26 962 40-44 let 42 25 1050 45-49 let 47 27 1269 50-54 let 52 22 1144 55-59 let 57 12 684 623 17496
27,28
28,97
28,08
Nalezli jsme aritmetický průměr věku nevěst v jednotlivých zkoumaných letech. O jiných průměrech nemá smysl v této úloze uvažovat. Pro zjištění mediánu a kvartilů doplníme naši tabulku o sloupec distr, ve kterém jsou postupně kumulovány počty nevěst z jednotlivých tříd od nejmladších po nejstarší. U nejstarší třídy je tedy počet všech nevěst v Liberci v příslušném roce. Do pomocného sloupce jsme si vypočítali pořadí nevěst pro medián a oba kvartily podle věku. Nyní již snadno pro všechny tři charakteristiky nalezneme příslušný věk ve sloupci stred. Podle nejvyšší hodnoty ve sloupci pocet nalezneme modus. Z nalezených charakteristik snadno vypočteme i jednoduché charakteristiky variability, kterými jsou rozpětí a mezikvartilové rozpětí. ∀ ∃
49
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
rok 1996 1996 1996 1996 1996 1996 1996 1996 1996 Suma
skupina stred pocet 52 15-19 let 17 20-24 let 22 260 25-29 let 27 122 30-34 let 32 36 35-39 let 37 22 40-44 let 42 18 45-49 let 47 29 50-54 let 52 10 55-59 let 57 16 565
distr 52 min 312 max 434 průměr 470 medián 492 1.kvartil 510 3.kvartil 539 modus 549 rozpětí 565 mezikvartilové rozpětí
pom 16 59 27,28 22 22 27 22 43 5
282,5 141,25 423,75
rok 1997 1997 1997 1997 1997 1997 1997 1997 1997 Suma
skupina stred pocet 15-19 let 17 35 20-24 let 22 246 25-29 let 27 120 30-34 let 32 60 35-39 let 37 30 40-44 let 42 25 45-49 let 47 27 50-54 let 52 25 55-59 let 57 20 588
distr 35 min 281 max 401 průměr 461 medián 491 1.kvartil 516 3.kvartil 543 modus 568 rozpětí 588 mezikvartilové rozpětí
17 59 28,97 27 22 32 22 42 10
294 147 441
rok 1998 1998 1998 1998 1998 1998 1998 1998 1998 Suma
skupina stred pocet 15-19 let 17 30 20-24 let 22 272 25-29 let 27 159 30-34 let 32 50 35-39 let 37 26 40-44 let 42 25 45-49 let 47 27 50-54 let 52 22 55-59 let 57 12 623
distr 30 min 302 max 461 průměr 511 medián 537 1.kvartil 562 3.kvartil 589 modus 611 rozpětí 623 mezikvartilové rozpětí
17 59 28,08 27 22 32 22 42 10
311,5 155,75 467,25
Zjistili jsme již všechny charakteristiky pro vytvoření boxplot. Přepíšeme si hodnoty těchto charakteristik do příslušné tabulky a necháme boxplot vygenerovat z šablony vytvořené při řešení příkladu 1. Tabulka pro boxplot vypadá takto.
Boxplot 1996 1997 1998 ∀ ∃
med
Q1 22 27 27
max 22 22 22
min 59 59 59
Q3 16 17 17
27 32 32
50
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Z boxplot není patrná žádná velmi významná změna ve věkové struktuře nevěst ve zkoumaných letech. Za zmínku ovšem rozhodně stojí to, že v roce 1996 splynul hodnotově medián s dolním kvartilem a třetí kvartil byl na úrovni mediánu v následujících dvou letech. To zcela jistě souvisí s vyšším váženým aritmetickým průměrem nevěst v letech 1997 i 1998. Přepíšeme (samozřejmě kopírujeme) nalezené hodnoty charakteristik do pomocné tabulky. Ta se nám pěkně zaplňuje.
Charakteristika Minimum Maximum Průměr aritmetický Medián Kvartil první Kvartil třetí Modus Rozptyl Směrodatná odchylka Variační koeficient Rozpětí Mezikvartilové rozpětí Střední odchylka Šikmost Špičatost
1996
1997
1998
16 59 27,28 22 22 27 22
17 59 28,97 27 22 32 22
17 59 28,08 27 22 32 22
43 5
42 10
42 10
Nyní se budeme věnovat výpočtu dalších charakteristik variability. Rozptyl budeme počítat podle vzorce s rozdělením četností. Tabulku upravíme. Odstraníme sloupce pocstred a distr, přidáme sloupce prumer pro aritmetický průměr, odch pro odchylku věku od aritmetického průměru, odch2 pro čtverec odchylky a podch2 pro čtverec odchylky vynásobený počtem výskytů ve třídě. Tabulka nyní vypadá takto.
∀ ∃
51
ŘEŠENÉ PŘÍKLADY Z MV2 rok 1996 1996 1996 1996 1996 1996 1996 1996 1996 Suma
skupina stred pocet pocstred distr prumer odch odch2 podch2 15-19 let 17 52 884 52 27,28 -10,28 105,68 5495,28 Rozptyl 20-24 let 22 260 5720 312 27,28 -5,28 27,88 7248,38 Směrodatná odchylka 25-29 let 27 122 3294 434 27,28 -0,28 0,08 9,56 Variační koeficient 30-34 let 32 36 1152 470 27,28 4,72 22,28 802,02 Střední odchylka 35-39 let 37 22 814 492 27,28 9,72 94,48 2078,52 3.moment 40-44 let 42 18 756 510 27,28 14,72 216,68 3900,21 Šikmost 45-49 let 47 29 1363 539 27,28 19,72 388,88 11277,47 4.moment 50-54 let 52 10 520 549 27,28 24,72 611,08 6110,78 Špičatost 55-59 let 57 16 912 565 27,28 29,72 883,28 14132,45 565 15415 51054,70
rok 1997 1997 1997 1997 1997 1997 1997 1997 1997 Suma
skupina stred pocet pocstred distr prumer odch odch2 podch2 15-19 let 17 35 595 35 28,97 -11,97 143,28 5014,83 Rozptyl 20-24 let 22 246 5412 281 28,97 -6,97 48,58 11950,90 Směrodatná odchylka 25-29 let 27 120 3240 401 28,97 -1,97 3,88 465,71 Variační koeficient 30-34 let 32 60 1920 461 28,97 3,03 9,18 550,85 Střední odchylka 35-39 let 37 30 1110 491 28,97 8,03 64,48 1934,43 3.moment 40-44 let 42 25 1050 516 28,97 13,03 169,78 4244,52 Šikmost 45-49 let 47 27 1269 543 28,97 18,03 325,08 8777,18 4.moment 50-54 let 52 25 1300 568 28,97 23,03 530,38 13259,52 Špičatost 55-59 let 57 20 1140 588 28,97 28,03 785,68 15713,62 588 17036 61911,57
rok 1998 1998 1998 1998 1998 1998 1998 1998 1998 Suma
skupina stred pocet pocstred distr prumer odch odch2 podch2 15-19 let 17 30 510 30 28,08 -11,08 122,77 3682,99 Rozptyl 20-24 let 22 272 5984 302 28,08 -6,08 36,97 10054,86 Směrodatná odchylka 25-29 let 27 159 4293 461 28,08 -1,08 1,17 185,46 Variační koeficient 30-34 let 32 50 1600 511 28,08 3,92 15,37 768,32 Střední odchylka 35-39 let 37 26 962 537 28,08 8,92 79,57 2068,73 3.moment 40-44 let 42 25 1050 562 28,08 13,92 193,77 4844,16 Šikmost 45-49 let 47 27 1269 589 28,08 18,92 357,97 9665,09 4.moment 50-54 let 52 22 1144 611 28,08 23,92 572,17 12587,66 Špičatost 55-59 let 57 12 684 623 28,08 28,92 836,37 10036,40 623 17496 53893,67
ČÁST 1
90,36 9,51 0,35
105,29 10,26 0,35
86,51 9,30 0,33
Rozptyl je podílem součtu sloupce podch2 a počtu nevěst v příslušném roce. Směrodatná odchylka je odmocninou rozptylu a variační koeficient je podílem směrodatné odchylky a průměrného věku nevěst v příslušném roce. Střední odchylku od aritmetického průměru budeme počítat podle vzorce pro data ve formě rozdělení četností. Naši tabulku rozšíříme o sloupec absodch pro absolutní odchylku od průměru a o sloupec pabsodch pro součin absolutní odchylky a počtu nevěst v každé třídě.
∀ ∃
52
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
rok 1996 1996 1996 1996 1996 1996 1996 1996 1996 Suma
skupina stred pocet pocstred 52 884 15-19 let 17 20-24 let 22 260 5720 25-29 let 27 122 3294 30-34 let 32 36 1152 35-39 let 37 22 814 40-44 let 42 18 756 45-49 let 47 29 1363 50-54 let 52 10 520 55-59 let 57 16 912 565 15415
distr prumer odch absodch pabsodch 52 27,28 -10,28 10,28 534,56 Rozptyl 312 27,28 -5,28 5,28 1372,80 Směrodatná odchylka 434 27,28 -0,28 0,28 34,16 Variační koeficient 470 27,28 4,72 4,72 169,92 Střední odchylka 492 27,28 9,72 9,72 213,84 3.moment 510 27,28 14,72 14,72 264,96 Šikmost 539 27,28 19,72 19,72 571,88 4.moment 549 27,28 24,72 24,72 247,20 Špičatost 565 27,28 29,72 29,72 475,52 3884,84
rok 1997 1997 1997 1997 1997 1997 1997 1997 1997 Suma
skupina stred pocet pocstred 15-19 let 17 35 595 20-24 let 22 246 5412 25-29 let 27 120 3240 30-34 let 32 60 1920 35-39 let 37 30 1110 40-44 let 42 25 1050 45-49 let 47 27 1269 50-54 let 52 25 1300 55-59 let 57 20 1140 588 17036
distr prumer odch absodch pabsodch 35 28,97 -11,97 11,97 418,95 Rozptyl 105,29 281 28,97 -6,97 6,97 1714,62 Směrodatná odchylka 10,26 401 28,97 -1,97 1,97 236,40 Variační koeficient 0,35 461 28,97 3,03 3,03 181,80 Střední odchylka 8,06 491 28,97 8,03 8,03 240,90 3.moment 516 28,97 13,03 13,03 325,75 Šikmost 543 28,97 18,03 18,03 486,81 4.moment 568 28,97 23,03 23,03 575,75 Špičatost 588 28,97 28,03 28,03 560,60 4741,58
rok 1998 1998 1998 1998 1998 1998 1998 1998 1998 Suma
skupina stred pocet pocstred 15-19 let 17 30 510 20-24 let 22 272 5984 25-29 let 27 159 4293 30-34 let 32 50 1600 35-39 let 37 26 962 40-44 let 42 25 1050 45-49 let 47 27 1269 50-54 let 52 22 1144 55-59 let 57 12 684 623 17496
distr prumer odch absodch pabsodch 30 28,08 -11,08 11,08 332,40 Rozptyl 302 28,08 -6,08 6,08 1653,76 Směrodatná odchylka 461 28,08 -1,08 1,08 171,72 Variační koeficient 511 28,08 3,92 3,92 196,00 Střední odchylka 537 28,08 8,92 8,92 231,92 3.moment 562 28,08 13,92 13,92 348,00 Šikmost 589 28,08 18,92 18,92 510,84 4.moment 611 28,08 23,92 23,92 526,24 Špičatost 623 28,08 28,92 28,92 347,04 4317,92
90,36 9,51 0,35 6,88
86,51 9,30 0,33 6,93
Střední odchylka od aritmetického průměru je podíl součtu sloupce pabsodch a počtu nevěst v příslušném roce. Zbývá vypočítat charakteristiky tvaru. Vypočteme je podobnou metodou jako rozptyl. Nejprve si upravíme tabulku pro šikmost výpočtem dílčích sčítanců pro třetí momenty pomocí třetích mocnin odchylek. Vydělením součtu těchto dílčích sčítanců počtem obyvatel dostaneme třetí moment.
∀ ∃
53
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
rok 1996 1996 1996 1996 1996 1996 1996 1996 1996 Suma
skupina stred pocet pocstred 15-19 let 17 52 884 20-24 let 22 260 5720 25-29 let 27 122 3294 30-34 let 32 36 1152 35-39 let 37 22 814 40-44 let 42 18 756 45-49 let 47 29 1363 50-54 let 52 10 520 55-59 let 57 16 912 565 15415
distr prumer odch odch3 podch3 52 27,28 -10,28 -1086,37 -56491,45 Rozptyl 90,36 312 27,28 -5,28 -147,20 -38271,47 Směrodatná odchylka 9,51 434 27,28 -0,28 -0,02 -2,68 Variační koeficient 0,35 470 27,28 4,72 105,15 3785,55 Střední odchylka 6,88 492 27,28 9,72 918,33 20203,26 3.moment 1380,71 510 27,28 14,72 3189,51 57411,11 Šikmost 1,61 539 27,28 19,72 7668,68 222391,78 4.moment 549 27,28 24,72 15105,86 151058,58 Špičatost 565 27,28 29,72 26251,03 420016,54 780101,23
rok 1997 1997 1997 1997 1997 1997 1997 1997 1997 Suma
skupina stred pocet pocstred 35 595 15-19 let 17 20-24 let 22 246 5412 25-29 let 27 120 3240 30-34 let 32 60 1920 35-39 let 37 30 1110 40-44 let 42 25 1050 45-49 let 47 27 1269 50-54 let 52 25 1300 55-59 let 57 20 1140 588 17036
distr prumer odch odch3 podch3 35 28,97 -11,97 -1715,07 -60027,53 Rozptyl 105,29 281 28,97 -6,97 -338,61 -83297,78 Směrodatná odchylka 10,26 401 28,97 -1,97 -7,65 -917,44 Variační koeficient 0,35 461 28,97 3,03 27,82 1669,09 Střední odchylka 8,06 491 28,97 8,03 517,78 15533,45 3.moment 1415,54 516 28,97 13,03 2212,25 55306,13 Šikmost 1,31 543 28,97 18,03 5861,21 158252,63 4.moment 568 28,97 23,03 12214,67 305366,80 Špičatost 588 28,97 28,03 22022,64 440452,71 832338,05
rok 1998 1998 1998 1998 1998 1998 1998 1998 1998 Suma
skupina stred pocet pocstred 15-19 let 17 30 510 20-24 let 22 272 5984 25-29 let 27 159 4293 30-34 let 32 50 1600 35-39 let 37 26 962 40-44 let 42 25 1050 45-49 let 47 27 1269 50-54 let 52 22 1144 55-59 let 57 12 684 623 17496
distr prumer odch odch3 podch3 30 28,08 -11,08 -1360,25 -40807,55 Rozptyl 86,51 302 28,08 -6,08 -224,76 -61133,55 Směrodatná odchylka 9,30 461 28,08 -1,08 -1,26 -200,29 Variační koeficient 0,33 511 28,08 3,92 60,24 3011,81 Střední odchylka 6,93 537 28,08 8,92 709,73 18453,04 3.moment 1221,46 562 28,08 13,92 2697,23 67430,71 Šikmost 1,52 589 28,08 18,92 6772,72 182863,56 4.moment 611 28,08 23,92 13686,22 301096,85 Špičatost 623 28,08 28,92 24187,72 290252,60 760967,16
Odtud třetí centrální moment je podíl součtu ve sloupci podch3 a počtu nevěst v příslušném roce. Šikmost pak je podílem třetího centrálního momentu a třetí mocniny směrodatné odchylky. Nakonec si upravíme tabulku pro špičatost výpočtem dílčích sčítanců pro čtvrté momenty pomocí čtvrtých mocnin odchylek. Vydělením součtu těchto dílčích sčítanců počtem obyvatel dostaneme čtvrtý moment.
∀ ∃
54
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
rok 1996 1996 1996 1996 1996 1996 1996 1996 1996 Suma
skupina stred pocet prumer odch odch4 podch4 15-19 let 17 52 27,28 -10,28 11167,92 580732,06 Rozptyl 90,36 20-24 let 22 260 27,28 -5,28 777,21 202073,35 Směrodatná odchylka 9,51 25-29 let 27 122 27,28 -0,28 0,01 0,75 Variační koeficient 0,35 30-34 let 32 36 27,28 4,72 496,33 17867,78 Střední odchylka 6,88 35-39 let 37 22 27,28 9,72 8926,17 196375,70 3.moment 1380,71 40-44 let 42 18 27,28 14,72 46949,53 845091,52 Šikmost 1,61 45-49 let 47 29 27,28 19,72 151226,41 4385565,89 4.moment 39725,25 50-54 let 52 10 27,28 24,72 373416,81 3734168,11 Špičatost 1,87 55-59 let 57 16 27,28 29,72 780180,73 12482891,71 565 22444766,86
rok 1997 1997 1997 1997 1997 1997 1997 1997 1997 Suma
skupina stred pocet prumer odch odch4 podch4 15-19 let 17 35 28,97 -11,97 20529,42 718529,57 Rozptyl 105,29 20-24 let 22 246 28,97 -6,97 2360,10 580585,55 Směrodatná odchylka 10,26 25-29 let 27 120 28,97 -1,97 15,06 1807,37 Variační koeficient 0,35 30-34 let 32 60 28,97 3,03 84,29 5057,34 Střední odchylka 8,06 35-39 let 37 30 28,97 8,03 4157,79 124733,59 3.moment 1415,54 40-44 let 42 25 28,97 13,03 28825,55 720638,85 Šikmost 1,31 45-49 let 47 27 28,97 18,03 105677,59 2853294,97 4.moment 41467,92 50-54 let 52 25 28,97 23,03 281303,90 7032597,48 Špičatost 0,74 55-59 let 57 20 28,97 28,03 617294,48 12345889,53 588 24383134,24
rok 1998 1998 1998 1998 1998 1998 1998 1998 1998 Suma
skupina stred pocet prumer odch odch4 podch4 15-19 let 17 30 28,08 -11,08 15071,59 452147,67 Rozptyl 86,51 20-24 let 22 272 28,08 -6,08 1366,51 371692,01 Směrodatná odchylka 9,30 25-29 let 27 159 28,08 -1,08 1,36 216,32 Variační koeficient 0,33 30-34 let 32 50 28,08 3,92 236,13 11806,31 Střední odchylka 6,93 35-39 let 37 26 28,08 8,92 6330,81 164601,11 3.moment 1221,46 40-44 let 42 25 28,08 13,92 37545,42 938635,44 Šikmost 1,52 45-49 let 47 27 28,08 18,92 128139,94 3459778,48 4.moment 33700,19 50-54 let 52 22 28,08 23,92 327374,39 7202236,56 Špičatost 1,50 55-59 let 57 12 28,08 28,92 699508,76 8394105,06 623 20995218,96
Odtud čtvrtý centrální moment je podílem součtu sloupce podch4 a počtu všech nevěst v příslušném roce. Špičatost pak je podíl čtvrtého centrálního momentu a čtvrté mocniny směrodatné odchylky snížený o hodnotu 3. Nalezli jsme všechny charakteristiky, které jsme chtěli vypočítat. Jejich hodnoty si překopírujeme do naší pomocné tabulky pro porovnání nalezených charakteristik pro jednotlivé roky. Dostaneme.
∀ ∃
55
ŘEŠENÉ PŘÍKLADY Z MV2
ČÁST 1
Charakteristika Minimum Maximum Průměr aritmetický Medián Kvartil první Kvartil třetí Modus Rozptyl Směrodatná odchylka Variační koeficient Rozpětí Mezikvartilové rozpětí Střední odchylka Šikmost Špičatost
1996 16 59 27,28 22 22 27 22 90,36 9,51 0,35 43 5 6,88 1,61 1,87
1997 17 59 28,97 27 22 32 22 105,29 10,26 0,35 42 10 8,06 1,31 0,74
1998 17 59 28,08 27 22 32 22 86,51 9,30 0,33 42 10 6,93 1,52 1,50
Vyhodnotíme-li nalezené charakteristiky, pak lze konstatovat, že v roce 1997 byl průměrný věk nevěst o více než rok a půl vyšší, než v roce 1996 a skoro o rok vyšší než v roce 1998. Současně byl v roce 1997 největší rozptyl a tedy i směrodatná odchylka. To se týká i střední odchylky. V důsledku toho se v tomto roce snížilo očekávané kladné zešikmení (nevěsty jsou obvykle mladší) a špičatost souboru (nevěsty se vdávají obvykle ve věku, který se od věku jiných nevěst příliš neliší). V roce 1997 tedy došlo k významnému zvýšení průměrného věku nevěst a jisté nevyrovnanosti jejich věku s ohledem na stavy v okolních letech. V roce 1998 se situace stabilizovala.
∀ ∃
56