TEORIE K MV2
POPISNÁ STATISTIKA
Statistika jako obor Statistika Statistika je vědní obor zabývající se zkoumáním jevů hromadného charakteru. Tím se myslí to, že zkoumaný jev musí příslušet určité části velkého množství objektů (lidí, předmětů, událostí, …). V některých případech musí být dána možnost mnohokrát opakovat podmínky, za nichž uvažovaný jev může nastat.
Popisná statistika Popisná statistika se zabývá popisem stavu nebo vývoje hromadných jevů. Nejprve vymezí soubor objektů, na nichž bude zkoumat uvažovaný jev, neboli vymezí vyšetřovaný soubor (například při sčítání lidu jde o všechny lidi na území konkrétního státu). Potom všechny jednotky vyšetří z hlediska studovaného jevu (na jejich existenci, hodnotu, …). Díky velkým pamětem současných počítačů je to obvykle možné. Nakonec zhuštěním získaných údajů vytvoří číselný obraz zkoumaného hromadného jevu vzhledem k vyšetřovanému souboru. Tento číselný obraz je složen buď z tabulky četností, vhodných grafů nebo z různých charakteristik vyšetřovaného souboru, případně ze všech těchto věcí najednou.
Matematická statistika Matematická statistika se vyvinula z popisné statistiky. Jejím základem je teorie pravděpodobnosti. Rozdíl mezi popisnou statistikou a matematickou statistikou je v rozdílném přístupu ke zkoumání jevu. Popisná statistika zkoumá jev na souboru objektů přímo a musí mít tedy celý vyšetřovaný soubor najednou k dispozici. Získání celého souboru může být ovšem velmi náročné až nemožné (cena, organizace a doba sběru dat, …). Matematická statistika zkoumá jevy ve vyšetřovaném souboru nepřímo prostřednictvím výběrů. Výběrem se myslí určitá podmnožina vyšetřovaného souboru. Prvky výběrového souboru jsou vybrány náhodně a nezávisle ze základního souboru. Na získané údaje se pak pohlíží jako na výsledek určitého náhodného pokusu (ve výběru prvků do výběrového souboru hraje podstatnou roli náhoda), který mohl dát i jiné výsledky. Takto se ve zkoumání jevu objeví prvek náhodnosti. Proto mají všechny závěry matematické statistiky pravděpodobnostní charakter.
∀ ∃
1
TEORIE K MV2
POPISNÁ STATISTIKA
Popisná statistika Typy zkoumaných dat V rámci zkoumání souborů se můžeme setkat s různými typy statistických znaků popisujících vyšetřovaný jev. Jde vlastně o následující typy dat: • kvantitativní (lze je vyjádřit hodnotou) o diskrétní (obvykle přirozená čísla nebo celá nezáporná čísla – počet zaměstnanců, počet obyvatel, …) o spojité (spotřeba pohonných hmot, doba čekání na obsluhu, hmotnost, …) • kvalitativní (lze je vyjádřit slovně nebo kódem – jde o rozdělení do kategorií, případně jde o pořadí prvku) o nominální alternativní (nula-jedničkový, může nabývat jen dvou hodnot – pohlaví, on/off, …) množný (může nabývat více hodnot – profese, krevní skupina, …) o pořadové (ordinální – míra spokojenosti, platová skupina, …) V některých případech se zkoumaná data vyjadřují v násobku nějaké dohodnuté jednotky, respektive je dostaneme k dispozici sdružená do intervalů (takto jsou často spojitá data převáděna na diskrétní). V takových situacích hovoříme o poměrovém respektive intervalovém typu dat. Z výše uvedeného rozdělení typů dat je zřejmé, že pro kvalitativní data můžeme vyšetřovat v podstatě jen počet výskytů v rámci kategorie či pořadí a jejich poměry. Vyšetřování kvantitativních dat umožňuje podstatně bohatší pohled na tato data.
Statistické soubory jednorozměrné V této fázi se budeme zabývat jednorozměrnými statistickými soubory. Tyto soubory jsou tvořeny reálnými čísly , , … , , kde ∈ je obvykle dost velké číslo. Při zkoumání souboru vypočítáváme různé charakteristiky tohoto souboru za účelem porozumění zkoumanému jevu. V průběhu vývoje statistiky jako oboru byla navržena celá řada různých charakteristik často spojených přímo se zkoumaným jevem. To ovšem neumožňovalo standardizovat statistické metody pro zkoumání jakéhokoliv jevu. Proto v moderní statistice byly takové charakteristiky již opuštěny. Jevy jsou nyní vyšetřovány zásadně standardními charakteristikami.
Rozdělení četností Prosté rozdělení četností
Zkoumaný soubor setřídíme do rostoucí posloupnosti , … , . Při tom vynecháme duplicitní výskyty ve zkoumaném souboru. Ke každé hodnotě přiřadíme počet jejich výskytů v původním souboru nazývaný četnost. Vznikne tabulka rozdělení četností. Často je vhodné vypočítat relativní četnosti =
∑ Takto vznikne tabulka relativního rozdělení četností. Poznámka – Součet relativních četností je vždy roven hodnotě 1. Často se vyjadřuje v procentech. Prosté rozdělení četností lze rozumně využívat jen pro zpracování statistického znaku s malým počtem různých hodnot. ∀ ∃
2
TEORIE K MV2
POPISNÁ STATISTIKA
Intervalové (třídní) rozdělení četností
V situaci, kdy ve zkoumaném souboru je velké množství různých hodnot, postupujeme jinak. Rozpětí zkoumaného soboru rozdělíme na konečný a rozumně malý počet intervalů (tříd). Potom zjistíme počet hodnot patřících do tohoto intervalu. Vznikne tak tabulka intervalového rozdělení četností. Přitom je třeba si uvědomit, že při výpočtech statistických charakteristik z takovéto tabulky nahrazujeme všechny hodnoty z jednoho intervalu jedinou hodnotou, za kterou se zpravidla volí střed tohoto intervalu. Následně pak můžeme vytvořit tabulku relativního intervalového rozdělení četností stejným postupem, jako výše. Problémem je volba počtu intervalů (jde o přirozené číslo). V takovém případě je doporučováno, pokud nemáme jiný vhodný způsob pro určení počtu intervalů, volit ho dle Sturgessova pravidla ≅ 1 + log ≈ 1 + 3,3 log Podle tohoto pravidla volíme z tabulky, když má hodnotu v uvedeném rozmezí. n 1 2 3-5 6-11 12-23 24-46
M 1 2 3 4 5 6
n 47-93 94-187 188-376 377-756 757-1519 1520-3053
M 7 8 9 10 11 12
Statistické grafy Je známo, že jeden obrázek vydá za deset tabulek a tisíc slov. Proto je pro prezentaci statistických výsledků velmi často užíváno jejich vyjádření v podobě grafu. Prakticky postačují následující typy. Histogram
Jde o grafické vyjádření četnosti v jednotlivých třídách rozdělení četností obdélníkem tak, aby jeho plocha byla úměrná četnosti jevu v daném intervalu. Je vhodné volit intervaly stejné šíře – pak výška obdélníku odpovídá četnosti.
Liberec 1998 35000
Počet obyvatel
30000 25000 20000 15000 10000 5000 0 0-19
20-39
40-59
60-79
80-99
Věková skupina
∀ ∃
3
TEORIE K MV2
POPISNÁ STATISTIKA
Výsečový graf
Výsečový (koláčový) graf je užíván nejčastěji a nejvhodněji pro vyjádření poměrů jednotlivých tříd.
Liberec 1998 - poměr věkových tříd 2% 15% 30%
0-19
20-39
23% 30%
40-59
60-79
80-99
Poznámka – Pro vyjádření charakteristik zkoumaného souboru přidáme později ještě jeden velmi speciální typ grafu – boxplot neboli krabičkový diagram.
Extrémní hodnoty
Někdy je vhodné daný soubor uspořádat podle velikosti do neklesající posloupnosti ⋯ Odtud snadno dostaneme min , max
Charakteristiky polohy
Charakteristiky polohy umožňují charakterizovat úroveň zkoumané veličiny jedním číslem. Charakteristika polohy ' zachovává linearitu ' ( ∙ (∙' , pro libovolné (,
Aritmetický průměr
1
̅
∈ *.
,
Aritmetický průměr bývá často nazýván jen průměr. Jeho slabinou je citlivost na hrubé chyby zkoumaného souboru. Přesto jde o velmi důležitý ukazatel, protože velmi souvisí se souhrnem zkoumaných dat. Pro souhrn dat totiž platí ̅
,
Průměr je též velmi důležitý v souvislosti s lineární transformací. V případě častého opakování některých hodnot (- je počet výskytů jevu aritmetický průměr. ∑ ̅ ∑ -
) lze počítat i vážený
Geometrický průměr
̅.
/
0
∙
∙ …∙
12
0
Geometrický průměr je používán jen málokdy. Má ale svůj význam při výpočtu průměrného koeficientu růstu časové řady a v podobných úlohách.
∀ ∃
4
TEORIE K MV2
POPISNÁ STATISTIKA
Harmonický průměr
Jsou-li všechna
kladná, lze uvažovat i ̅3 =
+ ⋯+
=
4 ∑ I harmonický průměr má rovněž omezené použití. Má ale svůj smysl při výpočtu průměrů indexů typu rychlost a podobně. 4
Kvadratický průměr
̅5 = 6
+ ⋯+
4
∑ =6
Kvadratický průměr má rovněž velmi řídké použití ve statistické praxi. Později ale v souvislosti s mírami variability uvidíme, že směrodatná odchylka je vlastně kvadratickým průměrem odchylek jednotlivých hodnot od jejich aritmetického průměru. Poznámka – Je možné zavést i vážený geometrický, harmonický či kvadratický průměr. Vzhledem k jejich velmi omezenému použití to nebudeme potřebovat. Poznámka – je možná si definovat nejrůznější průměry. Uvedené typy průměrů ale mají svůj praktický význam. Navíc zvláště aritmetický průměr má řadu důležitých vlastností. Zvláště významné jsou vlastnosti odchylek od aritmetického průměru. Součet odchylek je nulový a součet čtverců odchylek je minimální. Věta o průměrech
Jsou-li všechna
kladná, pak platí
≤ ̅3 ≤ ̅. ≤ ̅ ≤ ̅5 ≤ Rovnost nastane pouze v případě, že všechna jsou si rovna. V opačném případě bude všude ostrá nerovnost. Medián
Medián je definován jako prostřední hodnota setříděného souboru, je-li počet jeho prvků lichý, respektive jako aritmetický průměr dvou prostředních hodnot, je-li počet prvků souboru sudý. Medián patří k robustním mírám polohy, protože ani větší změna některého z prvků souboru nezpůsobí výraznou změnu mediánu. Známe-li 7 pak víme, že polovina prvků souboru je menší nebo rovna mediánu a polovina je větší nebo rovna mediánu. Tuto vlastnost pochopitelně nemá žádný z průměrů. Kvantily
Podobně jako medián dělí setříděný soubor na stejně velké poloviny, můžeme definovat i další podobné dělení setříděného souboru. Obecně se nazývá kvantil, který dělí setříděný soubor na dvě části – jedna je menší nebo rovna než tento kvantil a druhá je větší nebo rovna než tento kvantil. Z toho můžeme odvodit další zajímavá dělení na: • kvartily – dělení na čtyři stejné části – první (dolní), druhý a třetí (horní) kvartil 7 = 7 ,9 , 8: = 7 ,;9 8 = 7 , 9, • decily – dělení na deset stejných částí – první až devátý decil – 7 , , … , 7 ,< , • percentily – dělení na sto stejných částí – první až devětadevadesátý percentil – 7 , , … , 7 ,<< , Poznámka – uvažovat druhý kvartil nebo pátý decil nemá obvykle smysl, jedná se o medián. ∀ ∃
5
TEORIE K MV2
POPISNÁ STATISTIKA
Modus = je ta hodnota v souboru, která se vyskytuje nejčastěji. Je zřejmé, že modus není určen jednoznačně. Modus
Boxplot
Boxplot neboli krabičkový diagram je velmi přehledným grafickým vyjádřením základních charakteristik polohy. Používá se jak ve svislé, tak vodorovné modifikaci. Velmi vhodné je jeho užití pro porovnání dvou souborů popisujících stejný jev v různých obdobích či územích. Boxplot zobrazuje minimum, dolní kvartil, medián, horní kvartil a maximum. V některých případech jsou extrémy (minimum a maximum) nahrazeny nejnižší a nejvyšší rozumnou hodnotou se zvýrazněním takzvaných odlehlých hodnot. Odlehlou hodnotou se myslí hodnoty ležící pod dolním kvartilem nebo nad horním kvartilem ve větší vzdálenosti než 1,5 ∙ 8: ? 8 . Rozumnou hodnotou se myslí minimum a maximum souboru, ze kterého jsou odebrány odlehlé hodnoty.
Charakteristiky variability
Charakteristiky variability umožňují měřit úroveň rozptýlení (proměnlivost, variabilitu) zkoumané veličiny. Charakteristika variability @ zachovává multiplikativní část linearity @ ( ∙ (∙@ , pro libovolné (, ∈ *. Rozptyl
@
1
,
1
? ̅
A,
?
̅ B
1
A,
B? ̅
Rozptyl je aritmetickým průměrem čtverců odchylek jednotlivých hodnot souboru od jejich aritmetického průměru.
Máme-li zkoumaný soubor zadaný ve formě rozdělení četností, pak rozptyl můžeme počítat podle vzorce @
1
,
? ̅
Poznámka – v některých případech lze vzorec pro rozptyl najít v literatuře v podobě se jmenovatelem ? 1. My takový tvar nebudeme používat.
@ /@ Směrodatná odchylka je kvadratickým průměrem odchylek jednotlivých hodnot souboru od jejich aritmetického průměru. Směrodatná odchylka se vyjadřuje ve stejných jednotkách, jako prvky zkoumaného souboru.
Směrodatná odchylka
∀ ∃
6
TEORIE K MV2
POPISNÁ STATISTIKA
@ ̅ Výhodou variačního koeficientu je nezávislost na jednotce zvolené pro vyjádření prvků zkoumaného souboru (variační rozpětí se nezmění, ať vyjádříme zkoumaný soubor v haléřích či korunách). C
Variační koeficient
*
Rozpětí
?
max
? min
Jde o rozdíl maxima a minima zkoumaného souboru.
*E 8: ? 8 7 ,;9 ? 7 , 9 Jde o rozdíl třetího a prvního kvartilu. Obdobně lze definovat i další kvantilová rozpětí – decilové a percentilové. Pro praxi to však má význam jen pro některá šetření. Mezikvartilové rozpětí
Střední odchylka kolem bodu ( se definuje jako Střední odchylka
1
F
,|
? (|
Nejčastěji se užívá průměrná odchylka kolem mediánu nebo kolem aritmetického průměru. V případě, že máme k dispozici data ve formě rozdělení četností, používáme vzorec pro střední odchylku kolem bodu ( v podobě 1
F
,|
? (|
Charakteristiky tvaru Charakteristiky tvaru umožňují měřit tvar rozdělení hodnot zkoumaného souboru. Charakteristika tvaru H splňuje H ( ∙ H , pro libovolné (, ∈ *. Centrální moment
Centrální moment k-tého řádu je
Odtud přímo plyne
'
'
Šikmost
∀ ∃
1
1
1
' ,
,
'
J
,
? ̅
1
? ̅
1
,
': @:
1
? ̅ ,1
,
? ̅ 1
,K
1
? ̅
@
1
0
? ̅ : L @ 7
TEORIE K MV2
POPISNÁ STATISTIKA
Jsou-li prvky zkoumaného souboru rozptýleny symetricky kolem aritmetického průměru, je (: 0. Je-li (: M 0, je zkoumaný soubor záporně zešikmen (má levý chvost). Při (: N 0, je zkoumaný soubor kladně zešikmen (má pravý chvost). Pro medián a průměr obvykle platí vztah naznačený na obrázku, nemusí tak tomu být ale vždy.
Špičatost
J
(O
(O ? 3
'O @O
1
'O ?3 @O
,K 1
? ̅ O L @
,K
? ̅ O L ?3 @
Špičatost vyjadřuje informaci, jakým způsobem se prvky zkoumaného souboru koncentrují kolem 0 (nebo aspoň blízké této hodnotě), pak má soubor jeho průměru. Je-li (O 3, respektive J normální špičatost. Je-li (O M 3, respektive J M 0, je zkoumaný soubor plochý. Při (O N 3, respektive J N 0, je zkoumaný soubor špičatý (jeho hodnoty jsou koncentrovány kolem průměru). Poznámka – charakteristiky tvaru jsou užitečné pro porovnání s normálním rozdělením (co to je se ukáže později v teorii poravděpodobnosti), které má J 0, J 0.
Statistické soubory vícerozměrné Jde o soubory obsahující více znaků, které mohou být vyšetřovány. Kromě toho, že můžeme vyšetřovat každý z těchto statistických znaků samostatně, můžeme také zkoumat jejich závislost buď vypočtením hodnoty vhodné charakteristiky, nebo grafickým zobrazením.
Grafické znázornění závislostí V případě zkoumání závislosti kvantitativního znaku na kvalitativním můžeme porovnat boxploty pro jednotlivé kategorie. Zkoumáme-li závislost dvou kvantitativních znaků, je vhodné sestavit takzvaný rozptylový diagram. Každý z těchto znaků má svou osu a do plochy se vynáší body odpovídající jednotlivým prvkům zkoumaného souboru. Přitom se mohou objevit jisté korelace a pomocí nich lze určovat trendy závislosti v souboru. Závislost je obvykle hledána v lineárním tvaru, tedy v podobě přímek. Pokud se závislost dat neprojeví, jsou body rozptýlené a nelze jimi rozumně proložit přímku trendu. ∀ ∃
8
TEORIE K MV2
POPISNÁ STATISTIKA
Charakteristiky závislosti Na každém prvku zkoumaného souboru máme dva kvantitativní znaky, neboli ,Q ,… ,Q Kovariance
1
1
Kovariance měří směr závislosti, je ovlivněna změnou měřítka. @RS
, 1
? ̅ Q ? QT
A,
Q B ? ̅ QT
Platí, že kovariance kvantitativního znaku sama se sebou je rozptyl. @RR
,
? ̅
@R ,
@SS
@S
Korelační koeficient (Pearsonův)
Pearsonův korelační koeficient je normovanou kovariancí, měří tedy směr i velikost (míru) lineární závislosti. UR,S
@RS
V@R @S
@RS @R @S
1
,
? ̅ Q ? QT ∙ @R @S
Korelační koeficient nabývá hodnot z intervalu 〈?1, 1〉. Je-li UR,S 0, pak znaky a Q jsou vzájemně nezávislé. Je-li UR,S 1, pak se jedná o silnou kladnou závislost, s rostoucím v průměru roste i Q. Jeli UR,S ?1, pak se jedná o silnou zápornou závislost, s rostoucím v průměru klesá Q. Obecně můžeme pro verbální vyjádření úrovně závislosti použít následující tabulku: Korelační koeficient Úroveň závislosti UR,S ?1 Pevná záporná závislost ?1 M UR,S M ?0,7 Značně vysoká záporná závislost ?0,7 M UR,S M ?0,5 Vysoká záporná závislost ?0,5 M UR,S M ?0,3 Střední záporná závislost ?0,3 M UR,S M 0 Slabá záporná závislost UR,S 0 Neexistující závislost 0 M UR,S M0,3 Slabá kladná závislost 0,3 M UR,S M0,5 Střední kladná závislost 0,5 M UR,S M0,7 Vysoká kladná závislost 0,7 M UR,S M 1 Značně vysoká kladná závislost UR,S 1 Pevná kladná závislost ∀ ∃
9
TEORIE K MV2
POPISNÁ STATISTIKA
Korelační matice
Korelační matici sestavujeme, máme-li zkoumat soubor s více než dvěma znaky. Korelační matice tak může vyjádřit všechny korelační koeficienty, které v našem souboru připadají v úvahu. Je zřejmé, že platí UR,S US,R @RR @RR @R 1 UR,R @R @R @R /@R @R
Proto korelační matice symetrická podle hlavní diagonály. Mějme například na každém prvku zkoumaného souboru čtyři kvantitativní znaky Z , ,Q ,[ ,… Z , ,Q ,[ Pak korelační matice zkoumaného souboru má tvar U],] UR,] \U S,] U^,]
U],R UR,R US,R U^,R
U],S UR,S US,S U^,S
U],^ UR,^ US,^ _ U^,^
1
bU],R a U],S U],^ `
U],R 1 UR,S UR,^
U],S UR,S 1 US,^
U],^ UR,^ e US,^ d 1
c
Statistika a MS Excel Při statistickém zpracování rozsáhlých souborů dat není nutné postupovat jen ručním vyhodnocováním charakteristik podle vzorců a nikdo to ani neočekává. K dispozici jsou různé softwarové nástroje. Jedním z nich je relativně snadno dostupný a hlavně velmi rozšířený MS Excel, který obsahuje krom celé řady statistických funkcí i doplněk Analýza dat. Tento doplněk má v sobě zapracované mnohé statistické metody. Navíc je v tomto programu k dispozici celá řada různých typů grafů. Jediná špatná zpráva – klasický boxplot sice v Excelu udělat jde, ale rozhodně to nejde samo. Na Internetu lze najít celou řadu návodů na to, jak v MS Excel udělat boxplot (hledejte též „box and whiskers“). Metodu jak lze boxplot vyrobit poměrně jednoduše z burzovního grafu (který je v MS Excel zabudován) uvedu v řešení první úlohy prvního týdne. Tento způsob jsem neviděl nikde publikován. Jeho výhodou je, že jde uložit jako šablona grafu a umožňuje tak opakované využití pro další grafy tohoto typu. Je publikováno i několik jiných postupů pro vytvoření velmi kultivovaných boxplot. Jsou založeny na skládaném sloupcovém grafu s nestandardním využitím chybových úseček. Opakované využití prostřednictvím uložené šablony bývá problematické, ale kopírování vzoru funguje. Viz ukázka.
Možnosti MS Excelu nemá smysl zde detailně popisovat. To už udělali jiní. Nicméně v řešeních jednotlivých úloh se budeme k využívání MS Excel opakovaně vracet. ∀ ∃
10