Statistické třídění, intervalové rozdělení četnosti © Aleš Drobník
strana 1
9.7 TŘÍDĚNÍ PODLE JEDNOHO SPOJITÉHO ČÍSELNÉHO ZNAKU. INTERVALOVÉ ROZDĚLENÍ ČETNOSTI Problematiku třídění podle jednoho spojitého číselného znaku si vysvětlíme na následujícím příkladu. Předpokládejme, že pracovník podniku Alfa Blatná, který spravuje podnikovou databázi, exportoval do tabulkového procesoru všechny pracovníky podniku s některými sledovanými atributy (vlastnostmi), které jsou vypsané v tabulce 9.1. Tuto tabulku budeme používat i pro tento příklad. Tabulka 9.1: Zaměstnanci malé organizace Alfa Blatná k 30. 6. 2012
Číslo pracovníka
Příjmení
Pohlaví
Titul
Stav
Počet vyživovaných dětí
Pracovní kategorie
Hrubá měsíční mzda za červen
Zbývá dní dovolené
1
Adam
1
1
0
Dělník
15 000
4
2
Bartoš
1
2
1
Dělník
12 000
8
3
Beneš
1
2
4
Dělník
24 000
9
4
Berka
1
3
0
Provozní
23 000
6
5
Bláha
1
2
2
Technický
27 000
5
6
Bohuš
1
2
0
Dělník
18 000
7
7
Bouše
1
2
1
Dělník
17 000
4
8
Boušová
2
2
2
Hospodářský
32 000
5
9
Bůbal
1
2
1
Dělník
18 000
6
10
Bureš
1
2
4
Technický
20 000
9
11
Burešová
2
2
0
Provozní
24 000
5
Ing.
Statistické třídění, intervalové rozdělení četnosti © Aleš Drobník
strana 2
12
Burgerová
2
2
2
Dělník
24 000
7
13
Černá
2
1
0
Dělník
14 000
3
14
Daněk
1
1
1
Dělník
19 000
6
15
Dlask
1
2
0
Dělník
18 000
6
16
Dobeš
1
2
3
Dělník
18 000
4
17
Drobník
1
2
2
Hospodářský
40 000
9
18
Erb
1
1
2
Dělník
16 000
3
19
Fichtner
1
2
1
Dělník
16 000
6
20
Gál
1
2
1
Hospodářský
14 000
4
21
Gott
1
2
6
Dělník
29 000
5
22
Havel
1
2
0
Hospodářský
28 000
4
23
Házová
2
2
0
Dělník
10 000
3
24
Hejral
1
2
0
Technický
19 000
6
25
Hrubín
1
2
4
Dělník
18 000
3
26
Hubač
1
2
2
Dělník
18 000
8
27
Hupová
2
2
2
Provozní
17 000
4
28
Hus
1
2
3
Hospodářský
34 000
5
29
Janda
1
2
1
Dělník
19 000
8
30
Janků
1
2
0
Dělník
18 000
4
31
Janků
2
3
3
Provozní
14 000
3
32
Jarý
1
2
1
Dělník
19 000
6
33
Jiřinec
1
2
2
Dělník
18 000
4
34
Jonáš
1
2
3
Dělník
27 000
8
35
Kobosil
1
2
1
Hospodářský
30 000
5
36
Korousová
2
2
2
Dělník
14 000
8
37
Kos
1
2
2
Dělník
21 000
7
38
Koucký
1
2
2
Dělník
23 000
7
39
Kulíšek
1
2
1
Dělník
16 000
6
40
Lahodný
1
2
1
Dělník
24 000
4
41
Lahodová
2
2
3
Dělník
14 000
3
42
Líbenková
2
2
0
Hospodářský
12 000
5
43
Lín
1
2
3
Dělník
12 000
6
RNDr. Bc.
JUDr.
Mgr.
Statistické třídění, intervalové rozdělení četnosti © Aleš Drobník
strana 3
44
Linka
1
Doc.
2
2
Hospodářský
23 000
7
45
Líný
1
Mgr.
2
1
Technický
24 000
8
46
Mahel
1
2
2
Dělník
20 000
6
47
Masaryk
1
2
1
Dělník
18 000
6
48
Mocová
2
2
3
Dělník
17 000
5
49
Moravec
1
2
2
Technický
22 500
5
50
Nezval
1
2
3
Dělník
17 000
7
51
Nohavica
1
2
2
Technický
23 000
6
52
Novák
1
2
5
Dělník
19 000
6
53
Novák
1
2
2
Dělník
21 000
7
54
Nováková
2
2
0
Dělník
17 000
6
55
Ondráš
1
2
4
Dělník
17 000
5
56
Prádler
1
2
1
Hospodářský
19 000
5
57
Rus
1
3
2
Technický
20 000
7
58
Svoboda
1
1
2
Technický
21 000
7
59
Tatar
1
1
2
Technický
16 000
5
60
Tomšů
1
4
3
Technický
17 000
9
x
106
Celkem
x
x
x
Vysvětlivky: Pohlaví
Kód
muž
1
žena
2
Stav
Kód
svobodný/á
1
vdaná/ženatý
2
vdova/vdovec
3
rozvedený/á
4
1 194 500
x
Statistické třídění, intervalové rozdělení četnosti © Aleš Drobník
strana 4
Příklad 9.4: a) Z tabulky 9.1 vhodné skupinové tabulky roztřídíme soubor pracovníků dle třídícího číselného znaku hrubá měsíční mzda na přiměřený počet tříd neboli intervalů mezd. Pak doplníme procento pracovníků s daným intervalem mezd. Dále vytvoříme graficky histogram rozdělení četnosti pracovníků podle intervalů mezd. Jde o tzv. intervalové (skupinové) rozdělení četnosti. b) Do skupinové tabulky doplníme kumulativní četnost. Tzn. počet pracovníků, kteří mají první interval mezd, první až druhý interval mezd, první až třetí interval mezd atd. Dále vytvoříme graf kumulativní četnosti pracovníků v závislosti na postupně se zvyšujícím intervalu mezd. c) Do skupinové tabulky doplníme poměrné zastoupení pro kumulativní četnosti. d) Uvedeme slovní popis pro první, druhý a třetí řádek tabulky. Řešení: Ad a) Z tabulky 9.1 vhodné skupinové tabulky roztřídíme soubor pracovníků dle třídícího číselného znaku hrubá měsíční mzda na přiměřený počet tříd neboli intervalů mezd. Pak doplníme procento pracovníků s daným intervalem mezd. Dále vytvoříme graficky histogram rozdělení četnosti pracovníků podle intervalů mezd. Jde o tzv. intervalové (skupinové) rozdělení četnosti. Ad b) Do skupinové tabulky doplníme kumulativní četnost. Tzn. počet pracovníků, kteří mají první interval mezd, první až druhý interval mezd, první až třetí interval mezd atd. Dále vytvoříme graf kumulativní četnosti pracovníků v závislosti na postupně se zvyšujícím intervalu mezd.
U spojitého číselného znaku neznáme počet tříd. i) Jednak nevíme, od jaké minimální do jaké maximální hrubé měsíční mzdy se budeme pohybovat. Proto musíme ve sloupci „Hrubá měsíční mzda“ tabulky 9.1 nejprve zjistit minimum a maximum. Minimum a maximum zjistíme z tabulky 9.1 buď ručně, anebo výpočtem v MS Excel.
Pohledem vidíme, že v tab. 9.1 je nejmenší mzda 10 000 Kč a nejvyšší 40 000 Kč.
Při výpočtu v MS Excel jde o funkci MIN a MAX: =MIN(oblast) =MAX(oblast)
kde „oblast“ je oblast buněk v tabulce 9.1 ve sloupci „Hrubá měsíční mzda“.
Statistické třídění, intervalové rozdělení četnosti © Aleš Drobník
strana 5
ii) Dalším problémem je, že statistický znak pracovníka hrubá měsíční mzda lze považovat za spojitý nebo částečně spojitý. (Mzdu lze vyplácet na účet pracovníka s přesností na setiny Kč.) Proto musíme třídit rozpětí znaku, u nás mezd, od minimální po maximální mzdu na několik intervalů mezd.
Pravidla pro tvorbu intervalů spojitého znaku Pro tvorbu intervalů spojitého znaku platí několik základních pravidel a doporučení:
Intervaly mohou být stejně dlouhé. I když nutně to není třeba.
Všechny intervaly musejí pokrýt variační rozpětí znaku, tj. u nás mezd, od minima po maximum.
Je doporučeno, aby interval byl polouzavřený, tj. aby jedna mez každého intervalu byla otevřená a druhá mez každého intervalu uzavřená, aby hodnota krajního znaku (meze intervalu) jednoznačně patřila do právě jednoho intervalu. Jinými slovy, aby hodnota znaku nebyla započítána dvakrát nebo ani jednou.
Počet intervalů k může být podle potřeby libovolný, je doporučeno, aby byl mezi 4 až 20. Ale je zřejmé, že čím větší je počet statistických jednotek souboru n, tím více intervalů k může být.
Pro počet intervalů k je doporučený jeden z následujících vzorců. První je Sturgessovo pravidlo, druhý Yuleho vzorec. Oba vedou k přibližně stejnému výsledku, stačí pracovat jen s jedním z nich: k 1 3,322.log( n)
k 2,5.4 n
V našem příkladě máme n = 60 pracovníků. Podle Sturgessova pravidla je počet intervalů mezd:
k 1 3,322.log( 60) 6,91 Vzorec v Excelu vypadá následovně: = 1 + 3,322*LOG(60) Podle Yuleho vzorce je počet intervalů mezd: k 2,5.4 60 6,96
Vzorec v Excelu vypadá následovně:
Statistické třídění, intervalové rozdělení četnosti © Aleš Drobník
strana 6
= 2,5*(60)^(1/4) Vidíme, že oba vzorce vedou k téměř stejnému výsledku. Počet intervalů musí být přirozené číslo. Zvolíme počet intervalů k = 7. Délka intervalu d se přibližně stanoví jako podíl variačního rozpětí R a počtu intervalů k. Variační rozpětí R je rozdíl mezi maximální a minimální mzdou:
R X max X min Variační rozpětí je u nás: R 40 000 Kč 10 000 Kč 30 000 Kč
Délka intervalu d je:
d
X max X min R k k
V našem příkladě je délka intervalu:
d
40 000 Kč 10 000 Kč 4 286 Kč 7
Je doporučeno kvůli přehlednosti budoucí tabulky rozumně zaokrouhlit délku intervalu:
Například zaokrouhlit nahoru na pětistovky na číslo 4 500 Kč. Počet intervalů zůstane k = 7.
Nebo zaokrouhlit dolů na tisíce na číslo 4 000 Kč, pak ale musíme počet intervalů zvýšit třeba na k = 8.
Zvolíme první možnost, zaokrouhlení nahoru na pětistovky na číslo 4 500 Kč. Počet intervalů zůstane k = 7. Zkontrolujeme si, jaké rozpětí mezd pokryjeme tímto zaokrouhleným intervalem 4 500 Kč při počtu intervalů k = 7:
d 4 500 Kč . 7 31 500 Kč Vidíme, že variační rozpětí R = 30 000 Kč je překročeno o 1 500 Kč = 31 500 Kč – 30 000 Kč. Proto lze začít mzdu například o 1 000 Kč níže, než je minimum, tj. od 10 000 – 1 000 = 9 000 Kč. A lze mzdu zakončit o 500 Kč nad maximem, maximální mzdou tj. do 40 000 + 500 = 40 500 Kč. První interval bude 9 000 Kč až 13 500 Kč a tyto meze zvyšujeme o 4 500 Kč. Další interval bude 13 500 Kč až 18 000 Kč, další 18 000 Kč až 22 500 Kč atd., jak vidíme v tabulce 9.5.
Statistické třídění, intervalové rozdělení četnosti © Aleš Drobník
strana 7
V tabulce 9.5 vytvoříme legendu „Interval mezd“, kdy dolní mez volíme uzavřenou a horní mez volíme otevřenou. V tabulce 9.5 vytvoříme hlavičku „Počet pracovníků“, a to „absolutně“, „v %“, „kumulativně“ a „kumulativně v %“. Zařazení pracovníků podle mezd řešíme
buď ručně nad tabulkou 9.1,
anebo využitím MS Excel.
Při využití MS Excel je tabulku nejvýhodnější vyplňovat od sloupce „Počet pracovníků kumulativně“, kam do prvního řádku napíšeme: =COUNTIF(oblast;"<13500") kde
oblast je sloupec buněk v tabulce 9.1, kde se nalézá sloupec „Hrubá měsíční mzda za červen“
a "<13500" znamená, že v oblasti sloupce hledáme počet mezd nižších než 13 500 Kč.
Například: =COUNTIF(H$24:H$83;"<13500") Výsledkem je číslo 4. Takže jsou 4 pracovníci, kteří mají mzdu pod 13 500 Kč. Protože minimální vyplacená mzda je 10 000 Kč, zjistíme tím, že v intervalu 9 000 Kč až 13 500 Kč jsou mzdy 4 pracovníků. Proto do prvního řádku tabulky 9.5 napíšeme číslo 4 jak do sloupce „Počet pracovníků absolutně“ i „Počet pracovníků kumulativně“. Do sloupce „Počet pracovníků kumulativně“ do druhého řádku napíšeme: =COUNTIF(oblast;"<18000") kde
oblast je sloupec buněk v tabulce 9.1, kde se nalézá sloupec „Hrubá měsíční mzda za červen“
a "<18 000" znamená, že v oblasti sloupce hledáme počet mezd nižších než 18 000 Kč.
Výsledek je 21. Takže je 21 pracovníků, kteří mají hrubou mzdu pod 18 000 Kč. Protože mzdu pod 13 500 Kč mají 4 pracovníci, pokud tyto vyloučíme, zjistíme tím zároveň, že v intervalu 13 500 Kč až 18 000 Kč jsou mzdy 21 – 4 = 17 pracovníků. Proto do sloupce „Počet pracovníků kumulativně“ napíšeme 21 a do sloupce „Počet pracovníků absolutně“ napíšeme 17. Do sloupce "Počet pracovníků kumulativně" do třetího řádku napíšeme:
Statistické třídění, intervalové rozdělení četnosti © Aleš Drobník
strana 8
=COUNTIF(oblast;"<22500") kde
oblast je sloupec buněk v tabulce 9.1, kde se nalézá sloupec „Hrubá měsíční mzda za červen“
a "<22 500" znamená, že v oblasti sloupce hledáme počet mezd nižších než 22 500 Kč.
Výsledek je 42. Takže je 42 pracovníků, kteří mají mzdu pod 22 500 Kč. Protože mzdu pod 18 000 Kč má 21 pracovníků, zjistíme tím zároveň, že v intervalu 18 000 Kč až 22 500 Kč jsou mzdy 42 – 21 = 21 pracovníků Proto do sloupce „Počet pracovníků kumulativně“ napíšeme 42 a do sloupce „Počet pracovníků absolutně“ napíšeme 21. Takto vyplníme celou tabulku. Dále již může laskavý čtenář postupovat sám. Legendu uzavřeme řádkem „Celkem“. V řádku „Celkem“ ve sloupci „Počet pracovníků absolutně“ sečteme pracovníky s různým počtem dětí. Výsledek musí být 60, což je počet pracovníků. Ve sloupci „Počet pracovníků v %“ jde o známá poměrná čísla struktury. Spočítáme je jednoduše podle příkladu 9.1. V řádku „Celkem“ ve sloupci „Počet pracovníků kumulativně“ a „Počet pracovníků kumulativně v %“ dáme symbol „x“, neboť hodnota v tomto řádku nemá smysl. Tabulka vypadá takto: Tab. 9.5: Třídění pracovníků firmy Alfa Blatná podle mzdy za červen 2012 Počet pracovníků
Interval mezd dolní mez uzavřená
horní mez otevřená
absolutně
kumulativně
v%
kumulativně v%
9 000
13 500
4
6,7
4
6,7
13 500
18 000
17
28,3
21
35,0
18 000
22 500
21
35,0
42
70,0
22 500
27 000
10
16,7
52
86,7
27 000
31 500
5
8,3
57
95,0
31 500
36 000
2
3,3
59
98,3
36 000
40 500
1
1,7
60
100,0
60
100
Celkem
x
x
Statistické třídění, intervalové rozdělení četnosti © Aleš Drobník
strana 9
Histogram absolutní četnosti vytvoříme sloupcovým grafem ze sloupce „Počet pracovníků absolutně“. Na ose x budou hodnoty z legendy tabulky 9.5, kde je „dolní mez uzavřená“ a „horní mez otevřená“.
Z grafu vidíme, že počet pracovníků narůstá s výší mzdy až do intervalu mezd 18 000 Kč až 22 500 Kč. Nejvyšší počet pracovníků má mzdu 18 000 Kč až 22 500 Kč s tím, že do intervalu dolní mez 18 000 Kč patří a horní mez 22 500 Kč nepatří. Od intervalu 18 000 Kč až 22 500 Kč počet pracovníků klesá. Tzn., že nejčetnější jsou střední mzdy. Intervaly nižších i vyšších mezd má již menší počet pracovníků. S tím souvisí obálka grafu, která připomíná tvarem horu nebo zvon. Jedná se o asymetrickou Gaussovu křivku. Histogram relativní četnosti vytvoříme sloupcovým grafem ze sloupce „Počet pracovníků v %“. Na ose x budou hodnoty z legendy tabulky 9.5, kde je „dolní mez uzavřená“ a „horní mez otevřená“. Histogram rozdělení relativní četnosti pracovníků v závislosti na mzdě je v grafu 9.6. Tvar grafu s relativní četností je stejný, jako u grafu s absolutní četností. Jen místo počtů pracovníků je procentuální zastoupení pracovníků.
Statistické třídění, intervalové rozdělení četnosti © Aleš Drobník
strana 10
Graf kumulativní četnosti pracovníků v závislosti na mzdě vytvoříme sloupcovým grafem ze sloupce tabulky 9.5 „Počet pracovníků kumulativně“. Z grafu 9.7 vidíme, že relativní počet pracovníků, kteří mají mzdu od intervalu 9 000 Kč až 13 500 Kč s rozšiřujícím se intervalem narůstá nejprve rychleji, pak pomaleji k hodnotě 60, kdy mzdu 9 000 Kč až 40 500 Kč má všech 60 pracovníků.
Statistické třídění, intervalové rozdělení četnosti © Aleš Drobník
strana 11
Ad c) Do skupinové tabulky doplníme poměrné zastoupení pro kumulativní četnosti. Počítáme,
kolik procent jsou 4 pracovníci, kteří mají mzdu od 9 000 Kč do 13 500 Kč, ze 60, vyjde 6,7 %,
kolik procent je 21 pracovníků, kteří mají mzdu 9 000 Kč do 18 000 Kč, ze 60, vyjde 35 %,
ostatní výpočty si provede čtenář sám a jsou v tabulce 9.5.
Graf relativní kumulativní četnosti pracovníků v závislosti na mzdě vytvoříme sloupcovým grafem ze sloupce tabulky 9.5 „Počet pracovníků kumulativně v %“.
Tvar grafu 9.8 s relativní kumulativní četností je stejný, jako u grafu s kumulativní četností. Jen místo počtů pracovníků je procentuální zastoupení pracovníků.
Ad d) Uvedeme slovní popis pro první, druhý a třetí řádek tabulky. Slovní popis pro první řádek tabulky:
Mzdu od 9000 Kč včetně do 13 500 Kč mají 4 pracovníci z 60, což je 6,7 % pracovníků.
Slovní popis pro druhý řádek tabulky:
Mzdu od 13 500 Kč včetně do 18 000 Kč má 17 pracovníků z 60, což je 28,3 % pracovníků.
Mzdu od 9 000 Kč včetně do 18 000 Kč má 21 pracovníků z 60, což je 35 % pracovníků.
Statistické třídění, intervalové rozdělení četnosti © Aleš Drobník
strana 12
Slovní popis pro třetí řádek tabulky:
Mzdu od 18 000 Kč včetně do 22 500 Kč má 21 pracovníků z 60, což je 35 % pracovníků.
Mzdu od 9 000 Kč včetně do 22 500 Kč má 42 pracovníků z 60, což je 70 % pracovníků.
Úkol 9.4: a) Z tabulky 9.1 vhodné skupinové tabulky roztřídíme soubor pracovníků dle třídícího číselného znaku hrubá měsíční mzda na přiměřený počet tříd neboli intervalů mezd. Pak doplníme procento pracovníků s daným intervalem mezd. Dále vytvoříme graficky histogram rozdělení četnosti pracovníků podle intervalů mezd. Jde o tzv. intervalové rozdělení četnosti. Počet intervalů volíme pro změnu k = 8. b) Do skupinové tabulky doplníme kumulativní četnost. Tzn. počet pracovníků, kteří mají první interval mezd, první až druhý interval mezd, první až třetí interval mezd atd. Dále vytvoříme graf kumulativní četnosti pracovníků v závislosti na postupně se zvyšujícím intervalu mezd. c) Do skupinové tabulky doplníme poměrné zastoupení pro kumulativní četnosti. d) Uvedeme slovní popis pro první, druhý a třetí řádek tabulky.
PŘÍKLADY V EXCELU Praktické provedení třídění v MS Excel je v příkladech:
22TrideniDleJednohoCiselnehoZnakuSpojitehoNeresene.xlsx – zde je neřešený příklad.
22TrideniDleJednohoCiselnehoZnakuSpojitehoResene.xlsx – zde je ten samý příklad řešený.
22TrideniDleJednohoCiselnehoZnakuSpojitehoUkol.xlsx – zde je nový neřešený příklad.
OPAKOVACÍ OTÁZKY 1. Jak postupujeme při třídění podle jednoho číselného znaku spojitého? 2. Jaká jsou pravidla pro stanovení intervalového rozdělení četnosti. 3. Vysvětlete pojem histogram rozdělení (absolutní) četnosti? Čeho se týká, s čím souvisí? Jak souvisí s Gaussovou křivkou? 4. Vysvětlete pojem histogram rozdělení relativní četnosti? Čeho se týká, s čím souvisí?