1 Popis statistických dat 1.1 Popis nominálních a ordinálních znaků K zobrazení rozdělení hodnot nominálních nebo ordinálních znaků lze použít tabulku nebo graf rozdělení četností. Tuto formu zobrazení lze dokonce použít i pro číselné znaky, pokud počet obměn znaku není příliš vysoký (např. počet dětí v domácnosti). Tabulka rozdělení četností (stručně tabulka četností) je speciálním případem tabulky agregovaných údajů. Řádky tabulky představují jednotlivé obměny zobrazovaného znaku, zobrazeným agregovaným údajem jsou četnosti (počty) výskytu těchto obměn. ZNÁMKA
POČET POČET MATEMATIKA STATISTIKA
1
12
18
2
35
37
3
61
54
4
18
17
CELKEM
126
126
Obr. 2.1 Ukázka tabulky četností – rozdělení známek z matematiky a statistiky Četnost (někdy zvaná absolutní četnost, cizím slovem frekvence) obměny znaku je rovna celkovému počtu výskytů této obměny v souboru. Pokud je statistický soubor tvořen n jednotkami a sledovaný znak nabývá k různých obměn (hodnot), pak pro četnosti jednotlivých obměn n1, n2 až nk musí platit: k
n1 n2 nk
ni
n
i 1
Kromě absolutních četností ni se často uvádějí také relativní četnosti pi, které vyjadřují, jakou část z celku (tj. celého souboru) tvoří jednotky s danou obměnou znaku. Obvykle se uvádějí v procentech (%). Relativní četnost pi spočítáte podle vzorce: pi
ni n
100%
Součet relativních četností všech obměn znaku musí být roven 1, neboli 100%. 2
Pořadí jednotlivých obměn v tabulce rozdělení četností se u nominálních znaku volí obvykle podle abecedy (podle názvů obměn), u ordinálních a metrických znaků podle rostoucí hodnoty. Poslední řádek tabulky četností tvoří obvykle součet hodnot (četností) z jednotlivých řádků. Tento údaj je roven u absolutních četností rozsahu souboru n, u relativních četností je roven jedné. U ordinálních znaků se někdy uvádějí také kumulativní četnosti. Kumulativní četnost i-té obměny je definována jako součet četností všech obměn znaku, které v daném uspořádání mají hodnotu nižší nebo nejvýše rovnu sledované obměně. Pokud jsou jednotlivé obměny uspořádány ve smyslu svých pořadových čísel, lze kumulativní četnost mi vyjádřit jako: i
mi
n1 n2 ... ni
nj j 1
Obdobně jako relativní četnost lze definovat i relativní kumulativní četnost Fi jako relativní vyjádření kumulativní četnosti obměny vůči počtu všech jednotek souboru (například relativní kumulativní četnost trojky vyjadřuje, jaká část studentů udělala zkoušku). Platí tedy:
Fi
mi n
100%
V programu Microsoft Excel lze k vytvoření tabulky rozdělení četností použít nástroj Kontingenční tabulka. Tento nástroj vytvoří absolutní četnosti, ostatní typy četností lze dopočítat pomocí výše uvedených vzorců. VZDĚLÁNÍ základní vyučen maturita VŠ CELKEM
ČETNOSTI abs. 4 5 9 7 25
rel. 16% 20% 36% 28% 100%
KUMUL. ČETNOSTI abs. rel. 4 16% 9 36% 18 72% 25 100% x x
Obr. 2.2 Tabulka četností statistického znaku „vzdělání“ Názornou a často používanou formou zobrazení četností nominálního nebo ordinálního znaku jsou grafy četností: • • •
sloupcový graf četností neboli histogram; spojnicový graf četností neboli polygon; výsečový (koláčový) graf. 3
Výsečový graf je vhodný zejména v případech, kdy je počet obměn malý. V případě většího počtu obměn se stává nepřehledným a je lepší zvolit sloupcový graf (histogram). Ten je naopak vhodný v případech, kdy počet různých obměn je mezi 5 a 20. Na osu y lze vynášet absolutní i relativní četnosti. Pro grafické vyjádření četností obměn ordinálního znaku se graf výsečový příliš nehodí, neboť nezdůrazňuje uspořádání (ordinalitu) zobrazovaného znaku. Naopak velmi vhodný je spojnicový graf četností, takzvaný polygon, neboť jeho spojnice znázorňuje vývoj daného znaku. Kromě grafů (prostých) četností se však k vyjádření a zobrazení průběhu ordinálního znaku používají i grafy kumulativních četností. Polygon kumulativních četností se také nazývá podle svého autora Galtonova ogiva, díky svému typickému tvaru také součtová S – křivka.
Histogram
Galtonova ogiva
10 8 6 4 2 0
100% 80% 60% 40% 20% 0%
základní vyučen maturita
základní vyučen maturita
VŠ
VŠ
Obr. 2.3 Grafy rozdělení četností statistického znaku „vzdělání“
1.2 Popis metrických znaků Počet obměn metrického (číselného) znaku bývá často příliš velký na to, aby mohl být prezentován pomocí tabulky rozdělení četností přímo. Praktické zkušenosti ukazují, že počet různých obměn k by neměl překročit hodnotu 20 (tj. k < 20), navíc rozsahem souboru (počet jednotek) n by měl být alespoň 3x větší než počet obměn k. Představte si například rozdělení měsíčních příjmů všech zaměstnanců v České republice. Jejich příjmy mohou teoreticky nabývat hodnot od několika tisíc Kč až po stovky tisíc Kč. Tabulka rozdělení četností by v takovém případě měla statisíce řádek, přičemž četnosti u většiny hodnot by byla velmi malá čísla (často 0 nebo 1). Vypovídací schopnost takové tabulky by byla prakticky nulová. Pro vyhodnocení metrického statistického znaku s velkým počtem obměn se proto používá metoda, při které se rozdělí celý rozsah hodnot znaku na několik stejně velkých disjunktních intervalů – tříd, se kterými se dále pracuje obdobně jako s obměnami ordinálního znaku. Tomuto rozdělení se obvykle říká intervalové rozdělení četností. 4
Počet tříd (intervalů) je třeba volit tak, aby vzniklé rozdělení četností mělo dobrou vypovídací schopnost. Pokud se zvolí malý počet tříd, dojde při třídění k výrazné ztrátě informace o průběhu původního znaku. Pokud se naopak zvolí příliš velký počet tříd (s malými četnostmi), bude vzniklé intervalové rozdělení nepřehledné. Existují různá empirická doporučení pro určení počtu tříd k, z nichž nejznámější je zřejmě Sturgesovo „pravidlo“:
k 1 3,3 log n Vypočtená hodnota k je pouze doporučenou, není tedy žádné dogma, které je nutno dodržet. Odchylka skutečného počtu tříd od doporučené hodnoty o 2 třídy nahoru nebo dolů je tedy ještě přijatelná. Je-li určen počet tříd k, může se stanovit přibližná šířka intervalu (třídy) h podle vztahu:
h kde:
xmax
xmin k
xmax … nejvyšší hodnota statistického znaku x xmin … nejnižší hodnota statistického znaku x
Ve skutečnosti se intervaly (třídy) volí tak, aby byly splněny následující podmínky: • • • • •
počet intervalů nemá být menší než 5 a větší než 20; hranice intervalů musí být dobře zapamatovatelná zaokrouhlená čísla; intervaly musí jednoznačně pokrývat celý obor hodnot popisovaného znaku; intervaly by měly být stejně široké; oba krajní intervaly rozdělení musí mít nenulové četnosti.
Aby byla splněna podmínka jednoznačného pokrytí oboru hodnot proměnné, musí mít sousední intervaly společný hraniční bod, přičemž ale tato hranice musí být jednoznačně přiřazena pouze jednomu z intervalů. ZNAK PLAT 5001 - 10000 10001 - 15000 15001 - 20000 20001 - 25000 25001 - 30000 30001 - 35000 35001 - 40000 CELKEM
ČETNOST abs. 15 3 2 0 2 1 1 24
rel. 62,5% 12,5% 8,3% 0,0% 8,3% 4,2% 4,2% 100,0% 5
KUMUL. ČETNOST abs. rel. 15 62,5% 18 75,0% 20 83,3% 20 83,3% 22 91,7% 23 95,8% 24 100,0% x x
Obr. 2.4 Tabulka rozdělení četností statistického znaku „plat“ K vytvoření intervalového rozdělení četností lze v programu Microsoft Excel použít nástroj Histogram, který je součástí Analytických nástrojů (z menu Nástroje / Analýza dat).
1.3 Číselné míry a charakteristiky Rozložení obměn statistických znaků lze vyjádřit nejen tabulkou nebo grafem rozložení četností, ale také vhodnou kombinací číselných charakteristik. Tyto míry pak mohou být prezentovány samostatně, nebo jako agregátní ukazatele v rámci tabulky nebo grafu. Většina charakteristik uváděných v této kapitole se bude vztahovat k číselným, tedy metrickým proměnným. Stranou však nezůstanou ani charakteristiky, které se používají k popisu proměnných kvalitativních. Statistické znaky obvykle popisují dva základní typy charakteristik: • •
míry polohy (úrovně), které určují typické rozložení hodnot znaku (umístění obměn znaku na číselné ose); míry variability, které určují variabilitu neboli rozptyl hodnot kolem své typické polohy.
Míry polohy se snaží nahradit celé rozložení statistického znaku jedinou hodnotou, která bude typickým reprezentantem znaku, jeho pomyslným středem. Proto se těmto charakteristikám říká také střední hodnoty. Základním a nejrozšířenějším typem střední hodnoty (pro číselné proměnné) je aritmetický průměr. Získáte ho tak, že sečteme všechny hodnoty (obměny) číselného znaku a součet vydělíte počtem hodnot: n
x
kde:
x1
x2 ... xn n
xi i 1
n
x … aritmetický průměr xi … jednotlivé hodnoty znaku (x1, x2, … až xn) n … počet hodnot znaku (rozsah statistického souboru)
Pokud máte statistickou proměnnou definovánu pomocí tabulky rozdělení četností, takže víte, že každá obměna xi se v souboru vyskytuje s četností ni, můžete střední hodnotu všech hodnot znaku vyjádřit pomocí vzorce pro vážený aritmetický průměr:
6
k
ni xi x
kde:
i 1
n
ni … četnosti jednotlivých hodnot znaku
Pokud nahradíme jednotlivé hodnoty znaku xi středními hodnotami jednotlivých tříd, lze tento vzorec použít také pro výpočet střední hodnoty znaku v intervalovém rozdělení četností. Pokud v intervalovém rozdělení neznáte průměry tříd, můžete je odhadnout pomocí středu intervalu. V tom případě však vypočtený aritmetický průměr nebude přesný, půjde pouze o odhad skutečné hodnoty. Aritmetický průměr se počítá ze všech hodnot statistického znaku. Využívá tedy nejvíce informací o celém souboru (znaku), na druhé straně je ovšem velmi citlivý na extrémní odchylky. Proto se v některých případech místo něho používají další střední hodnoty, které jsou na extrémní výkyvy méně citlivé. Patří mezi ně především medián a modus. Medián x je definován jako prostřední hodnota znaku. Znamená to, že počet hodnot menších než medián a větších než medián by se měl rovnat. Hodnota mediánu metrického znaku x se určí následujícím způsobem: 1. jednotky souboru se uspořádají podle sledovaného znaku od nejmenší do největší a očíslují se; 2. je-li rozsah souboru lichý, je střed souboru definován jednoznačně (např. při 25 prvcích souboru jde o 13. hodnotu v pořadí), medián je roven přímo hodnotě tohoto prostředního znaku; 3. je-li rozsah souboru sudý, určí se medián jako aritmetický průměr dvou hodnot, které leží nejblíže pomyslnému středu souboru (např. u souboru o 20 jednotkách je to 10. a 11. hodnota). Medián lze použít jako střední hodnotu také u ordinálních nečíselných znaků. Stačí hodnoty tohoto znaku uspořádat podle velikosti (významu) a najít střed takto uspořádaného znaku (viz postup výše). Takto určený střed souboru lze interpretovat jako hodnotu, která je stejně vzdálená od obou krajních jednotek. Modus xˆ číselného (metrického) znaku x je chápán jako hodnota (obměna) s nejvyšší četností, tedy hodnota, která se v souboru vyskytuje nejčastěji. Modus lze samozřejmě určovat pouze tehdy, pokud jej lze stanovit jednoznačně, tj. pokud nejvyšší četnost má pouze jedna obměna. U spojitých metrických znaků (např. plat, teplota nebo spotřeba automobilu) bývá každá obměna znaku individuální, proto u takových znaků nemá smysl modus určovat. Modus je naopak obvykle jedinou střední hodnotou, kterou lze určit u nominálního nečíselného znaku. V tomto případě nepředstavuje ani tak pomyslný střed souboru (znaku), 7
jako spíše typického reprezentanta tohoto znaku, tedy hodnotu, která chování souboru ovlivňuje nejvíce. Uvedené střední hodnoty, ať již jde o průměr, medián nebo modus, umožňují charakterizovat polohu statistického znaku. Vyjadřují pomyslný střed zkoumaného znaku, nic však neříkají o rozložení jednotlivých obměn kolem tohoto středu – tedy o variabilitě znaku. Čím větší je totiž rozptýlenost hodnot kolem pomyslného středu souboru, tím menší má tato střední hodnota schopnost reprezentovat celý znak. Základní míra rozptýlenosti (variability) číselného statistického znaku je rozptyl 2 . Jde vlastně o aritmetický průměr vypočtený z druhých mocnin odchylek hodnot znaku od jejich střední hodnoty. Pro výpočet rozptylu tedy není důležité, zda jsou tyto odchylky kladné nebo záporné: n
xi 2
x
2
i 1
n
V případě výběrového souboru však uvedený vzorec skutečnou variabilitu daného znaku podhodnocuje. Proto se místo něho používá vztah pro tzv. výběrový rozptyl s2: n
xi s2
x
2
i 1
n 1
Hodnota n – 1 ve jmenovateli vzorce pro výběrový rozptyl se nazývá stupeň volnosti. Neboť v praxi se budete setkávat především s výběrovými soubory, budete také většinou variabilitu hodnot znaku vyjadřovat podle právě uvedeného vzorce pro výběrový rozptyl. Navíc u souborů s více než 30 hodnotami (tzv. velké soubory) již není mezi oběma výpočty rozptylu prakticky žádný podstatný rozdíl. V praxi se pro výpočet (výběrového) rozptylu s2 obvykle používá upravený vzorec: n
xi2 n x 2 s2
i 1
n 1
Při použití tohoto vzorce se výrazně snižuje počet potřebných operací při výpočtu. Máme-li statistický znak zadaný pomocí tabulky četností, lze variabilitu určit pomocí váženého rozptylu, tedy obdobně jako u aritmetického průměru. Pro výběrový rozptyl bude příslušný vzorec vypadat takto:
8
k
ni xi2 n x 2 s2
i 1
n 1
Problém nastává teprve u intervalového rozdělení četností. Pokud bychom totiž do výše uvedeného vzorce dosadili namísto hodnot xi střední hodnoty intervalů, vypočteme tímto způsobem pouze variabilitu mezi třídami, rozptyly hodnot uvnitř intervalů nebudou započteny. Výsledná variabilita bude tedy podhodnocená. Nevýhodou použití rozptylu jako ukazatele variability je skutečnost, že rozměr tohoto ukazatele je vyjádřen ve druhé mocnině rozměru hodnot daného statistického znaku. Tento nedostatek však odstraní další ukazatel variability, směrodatná odchylka s. Ta se vypočte jednoduše jako odmocnina z rozptylu: n
xi2 n x 2 s
i 1
n 1
Směrodatnou odchylku lze interpretovat jako průměrnou odchylku hodnot znaku od střední hodnoty, případně jako průměrnou odchylku (rozdíl) mezi hodnotami znaku. Pro výpočet číselných charakteristik statistických znaků zadaných ve formě seznamu hodnot (nikoliv tedy tabulky četností) existuje v Excelu (verze 2010 a výše) několik funkcí, které si nyní uvedeme: PRŮMĚR
aritmetický průměr
MEDIAN
medián
MODE
modus
VAR.P
rozptyl (základního souboru)
VAR.S
výběrový rozptyl
SMODCH.VÝBĚR.S
výběrová směrodatná odchylka
Souhrnné popisné údaje o statistickém znaku můžeme získat také najednou pomocí analytického nástroje „Popisná statistika“.
9
Vyzkoušejte si sami 1. Tabulka obsahuje rozdělení pracovníků podle platových tříd:
a) b) c) d)
TARIF
PLAT
POČET
třída 6
16 400
213
třída 7
17 200
354
třída 8
18 000
289
třída 9
19 000
153
třída 10
20 000
87
třída 11
21 300
25
třída 12
22 600
4
Určete, jakého typu jsou statistické znaky „platová třída“ a „tarifni plat“. Doplňte tabulku o relativní a kumulativní četnosti. Určete medián a modus znaku „platová třída“. Určete střední hodnotu a směrodatnou odchylku znaku „tarifní plat“.
2. Tabulka obsahuje přehled o pravidelném měsíčním spoření klientů vesnické kampeličky: MĚSÍČNÍ SPOŘENÍ POČET
a) b)
0 až 200
5
200 až 400
9
400 až 600
12
600 až 800
11
800 až 1000
6
více než 1000
2
Vypočtěte aritmetický průměr a medián znaku „měsíční spoření“. Vypočtěte rozptyl a směrodatnou odchylku.
10