Statistické třídění. Třídění dle jednoho znaku © Aleš Drobník
strana 1
9. STATISTICKÉ TŘÍDĚNÍ 9.1 CO JE TO STATISTICKÉ TŘÍDĚNÍ Již jsme si říkali, že v 19. a 20. století se stala statistika vědou, která pomocí státních statistických úřadů a soukromých firem na průzkum trhu a veřejného mínění
získává (zjišťuje), zpracovává, rozebírá a poskytuje
číselné i slovní údaje (informace) o jevech hromadné povahy
v oblasti ekonomiky, společnosti, anebo přírodních věd.
V kapitole „Statistická služba“ jsme si řekli, jak se získají informace od organizací. Pověřený pracovník organizace vyplní výkaz, který zašle na Krajskou správu ČSÚ. Zde se informace třídí, slučují (agregují) za okres, kraj, ČR a zpracované na úrovni ČR se odesílají na ČSÚ Praha. Statistické třídění je jedna ze základních metod statistického zpracování. Abychom získali alespoň základní představu, co je třídění, zatím postačí prozatím následující příklady: Statistické třídění na úrovni organizace Pracovník, který spravuje podnikovou databázi:
roztřídí např. soubor pracovníků podniku podle třídícího znaku pracovní kategorie na třídy: dělníci, techničtí pracovníci, hospodářští pracovníci, pomocní a obsluhující pracovníci,
roztřídí např. soubor pracovníků podniku podle třídícího znaku pohlaví a pracovní kategorie na skupinu žen a skupinu mužů ve třídách dělníci, techničtí pracovníci, hospodářští pracovníci, pomocní a obsluhující pracovníci,
roztřídí např. soubor odběratelských firem podle třídícího znaku výše realizovaných ročních tržeb na skupinu firem nejvýznamnějších, významných a méně významných apod.
Příklady takovéhoto třídění pomocí tabulkového procesoru si ukážeme v jedné z dalších kapitol.
Statistické třídění. Třídění dle jednoho znaku © Aleš Drobník
strana 2
Statistické třídění na úrovni Krajské správy ČSÚ Pracovník Krajské správy ČSÚ:
Roztřídí došlé výkazy od organizací podle odvětví (zemědělství, strojnictví, elektrotechnika, textilní výroba aj.). Data z výkazů převede do databázového prostředí a zjistí např. souhrnné tržby všech zemědělských organizací na okrese, průměrnou tržbu na pracovníka aj.
V rámci jednoho odvětví (organizace s převahou strojní výroby) roztřídí, kolik je malých, středních a velkých strojních firem na okrese. Jaké jsou tržby v nich, náklady, hrubé zisky, roční tržby na zaměstnance atd.
9.2 DATABÁZE Statistika obvykle pracuje s velkým objemem dat. Data jsou uložená buď v jedné tabulce, ale většinou ve více tabulkách navzájem propojených. Příklad databáze v jedné velké tabulce: Telefonní seznam Řádek seznamu telefonních účastníků – občanů má jaké položky (sloupce)?
Telefonní číslo, příjmení, jméno, obec, ulice, č. p. a případně další.
Řádek seznamu firem má jaké položky (sloupce)?
Číslo, název firmy, příjmení osoby, jméno, obec, ulice, č. p. a případně další.
Číslo telefonu může být tzv. primární klíč, který jednoznačně určuje řádek. Příklad databázových prostředí Databázové prostředí máme např.:
Excel,
Access,
a vyspělá prostředí, kde lze užít dotazovací jazyk SQL: Oracle, FoxBase, MySQL, Visual Studio aj.
Databázové prostředí umožní například:
Efektivní uložení velkého množství dat, aby se zbytečně neopakovaly údaje.
Řazení ve sloupci do určité formy dle požadavků, např. u telefonního seznamu: o řazení telefonního čísla např. vzestupně od nejmenšího čísla 1.. … … do 9.. .. …, o řazení příjmení vzestupně dle abecedy od příjmení A* do Ž*
Seskupení (agregace) dat, například kolik příjmení začíná na písmeno „N“
Třídění a filtrování dat, například: o výběr čísel začínajících 383 42…, tj. Blatná a okolí,
Statistické třídění. Třídění dle jednoho znaku © Aleš Drobník
strana 3
o výběr všech příjmení začínající na písmeno N, výběr všech příjmení Novák…
Tvorbu výstupu, tzv. tiskové sestavy podle nastavených kritérií třídění a filtrování.
Problematika databází je náplní jiného předmětu. V praxi je situace obvykle následující:
Máme data uložena v databázovém prostředí.
Původní či vyfiltrovaná data můžeme exportovat do tabulkového procesoru a v něm data dále statisticky zpracovávat, například třídit (jak si ukážeme v této kapitole „Statistické třídění“), počítat průměry a mnohé jiné statistické ukazatele a charakteristiky (jak si ukážeme v dalších kapitolách).
9.3 TABULKA VYBRANÁ Z DATABÁZE Předpokládejme, že pracovník fiktivního podniku Alfa Blatná, který spravuje podnikovou databázi, exportoval do tabulkového procesoru všechny pracovníky podniku s některými sledovanými atributy (vlastnostmi), které jsou vypsané v tabulce 9.1. Tuto tabulku budeme používat pro všechny další příklady Tabulka 9.1: Zaměstnanci malé organizace Alfa Blatná k 30. 6. 2012
Číslo pracovníka
Příjmení
Pohlaví
Titul
Stav
Počet vyživovaných dětí
Pracovní kategorie
Hrubá měsíční mzda za červen
Zbývá dní dovolené
1
Adam
1
1
0
Dělník
15 000
4
2
Bartoš
1
2
1
Dělník
12 000
8
3
Beneš
1
2
4
Dělník
24 000
9
4
Berka
1
3
0
Provozní
23 000
6
5
Bláha
1
2
2
Technický
27 000
5
6
Bohuš
1
2
0
Dělník
18 000
7
7
Bouše
1
2
1
Dělník
17 000
4
8
Boušová
2
2
2
Hospodářský
32 000
5
9
Bůbal
1
2
1
Dělník
18 000
6
10
Bureš
1
2
4
Technický
20 000
9
11
Burešová
2
2
0
Provozní
24 000
5
Ing.
Statistické třídění. Třídění dle jednoho znaku © Aleš Drobník
strana 4
12
Burgerová
2
2
2
Dělník
24 000
7
13
Černá
2
1
0
Dělník
14 000
3
14
Daněk
1
1
1
Dělník
19 000
6
15
Dlask
1
2
0
Dělník
18 000
6
16
Dobeš
1
2
3
Dělník
18 000
4
17
Drobník
1
2
2
Hospodářský
40 000
9
18
Erb
1
1
2
Dělník
16 000
3
19
Fichtner
1
2
1
Dělník
16 000
6
20
Gál
1
2
1
Hospodářský
14 000
4
21
Gott
1
2
6
Dělník
29 000
5
22
Havel
1
2
0
Hospodářský
28 000
4
23
Házová
2
2
0
Dělník
10 000
3
24
Hejral
1
2
0
Technický
19 000
6
25
Hrubín
1
2
4
Dělník
18 000
3
26
Hubač
1
2
2
Dělník
18 000
8
27
Hupová
2
2
2
Provozní
17 000
4
28
Hus
1
2
3
Hospodářský
34 000
5
29
Janda
1
2
1
Dělník
19 000
8
30
Janků
1
2
0
Dělník
18 000
4
31
Janků
2
3
3
Provozní
14 000
3
32
Jarý
1
2
1
Dělník
19 000
6
33
Jiřinec
1
2
2
Dělník
18 000
4
34
Jonáš
1
2
3
Dělník
27 000
8
35
Kobosil
1
2
1
Hospodářský
30 000
5
36
Korousová
2
2
2
Dělník
14 000
8
37
Kos
1
2
2
Dělník
21 000
7
38
Koucký
1
2
2
Dělník
23 000
7
39
Kulíšek
1
2
1
Dělník
16 000
6
40
Lahodný
1
2
1
Dělník
24 000
4
41
Lahodová
2
2
3
Dělník
14 000
3
42
Líbenková
2
2
0
Hospodářský
12 000
5
43
Lín
1
2
3
Dělník
12 000
6
RNDr. Bc.
JUDr.
Mgr.
Statistické třídění. Třídění dle jednoho znaku © Aleš Drobník
strana 5
44
Linka
1
Doc.
2
2
Hospodářský
23 000
7
45
Líný
1
Mgr.
2
1
Technický
24 000
8
46
Mahel
1
2
2
Dělník
20 000
6
47
Masaryk
1
2
1
Dělník
18 000
6
48
Mocová
2
2
3
Dělník
17 000
5
49
Moravec
1
2
2
Technický
22 500
5
50
Nezval
1
2
3
Dělník
17 000
7
51
Nohavica
1
2
2
Technický
23 000
6
52
Novák
1
2
5
Dělník
19 000
6
53
Novák
1
2
2
Dělník
21 000
7
54
Nováková
2
2
0
Dělník
17 000
6
55
Ondráš
1
2
4
Dělník
17 000
5
56
Prádler
1
2
1
Hospodářský
19 000
5
57
Rus
1
3
2
Technický
20 000
7
58
Svoboda
1
1
2
Technický
21 000
7
59
Tatar
1
1
2
Technický
16 000
5
60
Tomšů
1
4
3
Technický
17 000
9
x
106
Celkem
x
x
x
Vysvětlivky:
Pohlaví
Kód
muž
1
žena
2
Stav
Kód
svobodný/á
1
vdaná/ženatý
2
vdova/vdovec
3
rozvedený/á
4
1 194 500
x
Statistické třídění. Třídění dle jednoho znaku © Aleš Drobník
strana 6
9.4 TŘÍDĚNÍ PODLE JEDNOHO SLOVNÍHO ZNAKU Problematiku třídění podle jednoho slovního znaku si vysvětlíme na následujícím příkladu. Příklad 9.1: a) Z tabulky 9.1 do skupinové tabulky roztřídíme soubor pracovníků dle třídícího znaku pracovní kategorie na 4 třídy:
dělníci,
techničtí pracovníci,
hospodářští pracovníci,
provozní a obsluhující pracovníci.
b) Do skupinové tabulky doplníme poměrné zastoupení tříd pracovníků v procentech. c) Učiníme slovní popis pro některé vypočtené ukazatele poměrného zastoupení. d) Dle jakého jiného znaku lze roztřídit pracovníky? Řešení: Ad a) Do skupinové tabulky roztřídíme soubor n pracovníků dle třídícího znaku pracovní kategorie na 4 třídy:
dělníci s četností (počtem) n1,
techničtí pracovníci s četností (počtem) n2,
hospodářští pracovníci s četností (počtem) n3,
provozní a obsluhující pracovníci s četností (počtem) n4.
Zatím neznámý počet dělníků n1 zjistíme:
Buď ručně. Spočítáme, kolikrát je ve sloupci "Pracovní kategorie" napsáno slovo "Dělník". Zjistíme, že je to 37 ×. Dále slovo „Technický“ 10 ×, „Hospodářský“ 9 × či „Provozní“ 4 ×.
Anebo tak, že v MS Excel sestrojíme vhodnou skupinovou tabulku 9.2 a do příslušné buňky napíšeme vzorec s užitím funkce COUNTIF (načítej, když v dané oblasti je hledaná posloupnost znaků): =COUNTIF(oblast;"kategorie")
kde
oblast je oblast buněk v tabulce 9.1, kde se nalézá pracovní kategorie
Statistické třídění. Třídění dle jednoho znaku © Aleš Drobník
strana 7
a kategorie je například slovo „Dělník“, „Technický“, „Hospodářský“ či „Provozní“ přesně tak, jak je to zapsáno v tabulce 9.1.
Například: =COUNTIF(G$24:G$83;"Dělník") Znak dolaru $ (pravé Alt + ů) je dobré do vzorce doplnit proto, že vzorec zkopírujeme v Excelu a oblast se zachová. Obdobně se postupuje u dalších kategorií a zjistíme počty ni pracovníků ve všech kategoriích. Do řádku "Celkem" tabulky 9.2 sečteme jednotlivé kategorie. V MS Excel použijeme funkce SUMA, například vzorec: =SUMA(C143:C146)
Ad b) Do skupinové tabulky doplníme poměrné zastoupení tříd pracovníků v procentech. Připomeneme si, že poměrná čísla složení neboli struktury:
Získáme srovnáním (podílem) 2 veličin stejnorodých.
Srovnávaná veličina (čitatel) je část,
základ (jmenovatel) je celek.
Vyjadřují: rozčlenění zkoumaného jevu na části, neboli jak se podílí části na celku (jakým procentem).
Část je například počet dělníků, kterých je 37. Celek je vždy celkový počet pracovníků, kterých je 60. Například procento dělníků zjistíme podle vztahu
37 .100 % 61,7 % 60 Další výpočty pro tabulku 9.2 snadno provedete sami, pokud budou těžkosti, připomeňte si kapitolu „5.2.3 POMĚRNÁ ČÍSLA SLOŽENÍ NEBOLI STRUKTURY“.
Statistické třídění. Třídění dle jednoho znaku © Aleš Drobník
strana 8
Tab. 9.2: Třídění pracovníků firmy Alfa Blatná dle pracovní kategorie k 30. 6. 2012
Kategorie
Počet pracovníků absolutně
v%
Dělníci
37
61,7
Techničtí pracovníci
10
16,7
Hospodářští pracovníci
9
15,0
Provozní a obsluhující
4
6,7
60
100,0
Celkem
Ad c) Učiníme slovní popis pro některé vypočtené ukazatele poměrného zastoupení. Ve firmě pracuje 61,7 % dělníků, 16,7 % technických pracovníků, 15 % hospodářských pracovníků a 6,7 % provozních a obsluhujících pracovníků. Ad d) Dle jakého jiného znaku lze roztřídit pracovníky? Pracovníky lze roztřídit například dle pohlaví, počtu zbylých dní dovolené, počtu vyživovaných dětí a jiných vlastností, které sledujeme a zaznamenáváme do databáze.
Závěr pro třídění podle jednoho slovního znaku Tabulka 9.2 je velmi podobná tabulce „Tab. 8.6: Struktura pracovníků firmy Alfa Blatná“ z kapitoly „8. PREZENTACE DAT“. Skupinová tabulka 8.6 se vlastně tříděním podle jednoho slovního znaku z databáze pracovníků získala. Třídění podle jednoho slovního znaku vede ke skupinové tabulce. Úkol 9.1 a) Z tabulky 9.1 do skupinové tabulky roztřídíme soubor pracovníků dle třídícího znaku pracovní kategorie na 4 třídy:
svobodný/á,
vdaná/ženatý,
vdova/vdovec,
rozvedený/á.
b) Do skupinové tabulky doplníme poměrné zastoupení tříd pracovníků v procentech. c) Učiníme slovní popis pro některé vypočtené ukazatele poměrného zastoupení.
Statistické třídění. Třídění dle jednoho znaku © Aleš Drobník
strana 9
PŘÍKLADY V EXCELU Praktické provedení třídění v MS Excel je v příkladech:
19TrideniDleJednohoSlovnihoZnakuNeresene.xlsx – zde je neřešený příklad.
19TrideniDleJednohoSlovnihoZnakuResene.xlsx – zde je ten samý příklad řešený.
19TrideniDleJednohoSlovnihoZnakuUkol.xlsx – zde je nový neřešený příklad.
OPAKOVACÍ OTÁZKY 1. Jak postupujeme při třídění podle jednoho slovního znaku? 2. K jakému typu tabulek obvykle vede třídění podle jednoho slovního znaku?