ZÁKLADY POPISNÉ STATISTIKY Statistika – věda o metodách sběru, zpracování a vyhodnocování statistických údajů. Statistické údaje jsou např. údaje o přirozeném přírůstku či migraci obyvatelstva, objemu výroby průmyslových podniků, dovozu či vývozu určitého zboží apod. Statistická jednotka – každý prvek statistického souboru, jehož některé vlastnosti jsou předmětem statistického zjišťování, zatímco některé přesně vymezené vlastnosti jsou shodné s ostatními prvky souboru (na základě těchto vlastností je vymezen statistický soubor) Statistický soubor – souhrn všech statistických jednotek podle určitého kritéria (vlastnosti, kterou mají statistické jednotky společnou). Soubor je vždy nutné přesně vymezit z hlediska věcného, časového a prostorového (viz konkrétní příklad níže). Statistický znak – vlastnost statistických jednotek určitého statistického souboru. Jsou-li varianty statistického znaku vyjádřeny čísly, hovoříme o kvantitativním statistickém znaku, zatímco jsou-li vyjádřeny slovy, mluvíme o kvalitativním statistickém znaku. Statistický znak budeme značit velkými písmeny.
Příklad) statistický soubor – žáci všech třetích ročníků SPŠ na Proseku ve školním roce 2012 – 2013 statistická jednotka – každý z těchto žáků statistický znak – prospěch z matematiky v pololetí, barva očí, výška, váha apod.
Označíme-li určitý kvantitativní statistický znak X, pak číselné hodnoty n statistických jednotek statistického souboru označíme symbolem xi, kde i = 1 až n.
Příklad) Máme statistický soubor všech žáků třetích ročníků SPŠ na Proseku ve školním roce 2012 – 2013. Dejme tomu, že počet všech těchto žáků je n = 80. Označme symbolem X jejich výšku a seřadíme je podle abecedy. Pak x1 je výška prvního žáka podle abecedy, x2 je výška druhého žáka, x80 je výška posledního žáka. U větších statistických souborů je zřejmé, že bude docházet k opakovanému výskytu stejných hodnot statistického znaku. Označíme xj různé hodnoty statistického znaku X, j = 1, ..., k, kde k ≤ n (rovnost nastane opravdu jen výjimečně). Pak x1 bude nejnižší hodnota znaku X, xk nejvyšší hodnota znaku X. Počet statistických jednotek se stejnou hodnotou xj pro j = 1, 2, ..., k nazýváme četnost hodnoty xj. Pro různá j tuto četnost označíme nj. Uspořádáme-li hodnoty znaku X a jejich odpovídající četnosti do tabulky, dostáváme jednorozměrné rozdělení četností.
Příklad) Máme opět statistický soubor všech žáků třetích ročníků SPŠ na Proseku ve školním roce 2012 – 2013. Zkoumáme jejich výšku X. Žáků třetích ročníků je celkem 80. Zde je tabulka rozdělení četností znaku X: j 1 2 3 4 5 ... 15 16 ... 25 26
xj (cm) 152 154 155 160 161
nj 1 1 1 2 1
180 181
6 5
195 196
2 1
Tato tabulka mimo jiné říká: Bylo zjištěno 26 různých výšek žáků, nejmenší naměřená výška žáka byla 152 cm a měl ji jeden žák, největší naměřená výška byla 196 cm a měl ji taktéž jeden žák, počet žáků s výškou 180 cm je 6 atd. 26
Dále zřejmě platí
n
j
n 80 .
j 1
Intervalové rozdělení četností V některých případech, kdy je rozsah souboru a počet variant kvantitativního statistického znaku velký, můžeme zjednodušit rozdělení četností záměrným zanedbáním malých rozdílů mezi hodnotami znaku. Při tomto uspořádání údajů rozdělíme obor hodnot statistického znaku na intervaly. Hodnoty, které patří do stejného intervalu, považujeme za rovnocenné a nahrazuje je střed intervalu. Vhodný počet intervalů se stanovuje různě, nejznámější je tzv. Sturgesovo pravidlo, podle kterého má být počet intervalů přibližně 1 + 3,3log n. Rozdělení relativních četností Relativní četnost (ozn. pj) vyjadřuje podíl četnosti určité hodnoty (varianty) statistického znaku nebo skupiny (intervalu) hodnot a součtu četností všech hodnot. nj pj pro j = 1, 2, ..., k. n k
Zřejmě platí
p
j
1.
j 1
Příklad 1 Při zjišťování počtu nezletilých dětí ve dvaceti domácnostech jsme dostali výsledky 0,0,2,2,1,1,1,1,1,0,0,0,3,2,1,1,2,3,2,1. Uspořádejte údaje do tabulky rozdělení četností, vypočítejte relativní četnosti a vyjádřete zastoupení jednotlivých variant statistického znaku v procentech.
Příklad 2 Navrhněte podle Sturgesova pravidla formu intervalového rozdělení četností věků u 2000 pracovníků. Požadujeme, aby jednotlivé intervaly byly stejně velké, a víme, že věk pracovníků je v intervalu od 18 do 66 let. Příklad 3 Ve třídě je 10 žáků s prospěchem od 1 do 1,5, 15 žáků s prospěchem od 1,5 do 2, 12 žáků s prospěchem od 2 do 2,5 a 5 žáků s prospěchem od 2,5 do 3. Sestavte tabulku intervalového rozdělení četností prospěchu žáků; četnosti intervalů prospěchu vyjádřete absolutně, relativně a v procentech. Statistické charakteristiky I. Charakteristiky polohy Charakteristiky polohy jsou čísla, která umožňují srovnávat úroveň zkoumaného jevu u dvou nebo více souborů. Pro srovnání polohy hodnot znaku v různých souborech se nejčastěji používají průměry, jejichž výše přímo závisí na velikosti všech hodnot. Nejpoužívanějším druhem průměru je aritmetický průměr (AP). Ten se značí x a určuje se ze vztahu:
x
x1 x 2 x3 ... x n 1 n xi n n i 1
Takto vyjádřený AP se nazývá prostý AP. Vycházíme-li z rozdělení četností, pak dostáváme aritmetický průměr ve formě váženého AP. k
x n j
x
j
j 1
k
n
j
j 1
Příklad 4 Máme údaje o počtu dětí v dvaceti domácnostech: 0,1,1,1,1,2,2,2,2,0,0,0,3,4,1,0,0,1,1,2. Vypočítejte prostý AP a po uspořádání údajů do tabulky rozdělení četností ukažte, že ke stejnému výsledku dojdeme i použitím vzorce pro vážený AP. Doplňující charakteristiky polohy jsou modus xˆ a medián ~ x . Modus je nejčetnější hodnota statistického souboru. Medián je prostřední hodnota statistického souboru, který je uspořádán podle velikosti hodnot statistického znaku. Při sudém počtu je medián aritmetickým průměrem dvou prostředních hodnot.
Příklad 5 Údaje o počtu zameškaných hodin v kurzu matematiky jsou uspořádány do tabulky na následující straně. Určete AP, modus a medián.
Počet zameškaných hodin 0 1 2 3 4 5 19
Počet žáků 1 11 0 2 0 0 1
Příklad 6 Ze 44 žáků je 12 ve věku 17 let, 30 ve věku 18 let a 2 ve věku 19 let. Jaký je průměrný věk žáků? Příklad 7 V první třídě nasbíral jeden žák průměrně 20 kg papíru, ve druhé třídě 30 kg a ve třetí 40 kg. Kolik kilogramů papíru sebral průměrně jeden žák za všechny tři třídy dohromady, jestliže ve druhé třídě byl stejný počet žáků jako v první třídě, ale ve třetí třídě byla polovina žáků ve srovnání s první i druhou třídou?
II. Charakteristiky variability Kromě polohy sledovaných znaků je třeba zkoumat i to, jak se jednotlivé hodnoty liší od míry polohy i jak se liší vzájemně. Odlišnost hodnot příslušného znaku nazýváme variabilita.
Příklad) Řada 7,7,7,8,8,8,8,9,9,9 xˆ = ~ x= x=8
Řada 1,1,1,8,8,8,8,15,15,15 xˆ = ~ x= x=8
Přitom se obě tyto řady liší variabilitou.
Nejpoužívanější charakteristikou variability je rozptyl s x2 . Rozptyl statistického znaku je v prosté formě definován: n
s x2
x
2
i
x
i 1
n
Při uspořádání údajů do tabulky rozdělení četností používáme pro výpočet váženou formu rozptylu k
x 2 x
s
k
x nj 2
j
j 1
2 x
resp. s
k
n j 1
x
j
2 j
nj
j 1
x2
k
n j 1
j
(tzv. výpočetní tvar)
Dalšími používanými charakteristikami variability jsou například směrodatná odchylka s x , s variační koeficient v x x či variační rozpětí R = xmax – xmin. x Příklad 8 Pro řadu čísel 1,2,3,4,5,6,7,8,9,10 vypočítejte variační rozpětí, rozptyl a směrodatnou odchylku.
Příklad 9 Na základě údajů tabulky níže vypočítejte směrodatnou odchylku počtu zmetků. Počet zmetků xj
Počet případů nj
2 3 4 5 6 7 8 Celkem
13 15 25 18 12 12 8 103
Příklad 10 Porovnejte diferenciaci mezd dvou podniků na základě údajů v tabulce níže. Podnik A
Podnik B
hodinová mzda (Kč)
počet pracovníků
měsíční mzda (Kč)
počet pracovníků
50 100 150 200
30 80 50 40
Celkem
200
20 000 25 000 30 000 35 000 40 000 Celkem
40 60 100 20 10 230
Příklad 11 Měřicí přístroj se při 20 měřeních dopustil následujících odchylek od skutečné hodnoty parametru pozorované součástky. 0,01 0,01
-0,02 0,01 -0,01 0,00
0,01 0,03
-0,01 0,00 0,01 -0,02 0,02 0,01 -0,03 -0,01 0,02 0,01
0,00 -0,02
Určete aritmetický průměr chyby měření a směrodatnou odchylku chyb měření.
Příklad 12 Pro řadu čísel 2,3,3,3,4,4,4,5,5,6,7,8 vypočtěte variační rozpětí, rozptyl a směrodatnou odchylku. Příklad 13 Ve třídě je 30% žáků bez sourozence, 60% žáků s jedním sourozencem a 10% žáků se dvěma sourozenci. Vypočtěte směrodatnou odchylku počtu sourozenců ve třídě. Příklad 14 Porovnejte variabilitu řad 1, 2, 3, 4, 5 s variabilitou řady 100, 200, 300, 400, 500.