Statistické charakteristiky (míry) - shrnují informaci, obsaženou v datech (vyjadřují ji v koncentrované formě); - charakterizují základní rysy zkoumaného souboru dat; - umožňují porovnávání více souborů.
4 skupiny statistických charakteristik : 1. 2. 3. 4.
charakteristiky polohy (úrovně), charakteristiky variability, charakteristiky šikmosti, charakteristiky špičatosti.
Dva způsoby konstrukce statistických charakteristik: a) Charakteristiky, které jsou funkcí všech hodnot dané proměnné: - jsou ovlivněny případnými extrémy; - výpočet podle určitého funkčního předpisu. b) Charakteristiky, které nejsou funkcí všech hodnot dané proměnné: - nejsou ovlivněny extrémy; - jsou to konkrétní hodnoty proměnné, vybrané podle určitého kritéria.
1. Charakteristiky polohy - charakterizují střed, kolem něhož hodnoty kolísají; - charakterizují úroveň (velikost, hladinu) proměnné; - používá se pro ně rovněž pojem střední hodnoty.
a) Charakteristiky, které jsou funkcí všech hodnot - průměry
Aritmetický průměr n
k
x - prostý:
x
x n
i
i
i 1
- vážený:
n
x
i
i 1 k
n
i
i 1
! Používá se tam, kde má informační smysl součet hodnot proměnné.
Harmonický průměr k
- prostý:
xH
n
n
- vážený:
n
1 i 1 xi
xH
i 1 k
ni
x i 1
i
i
! Používá se tam, kde má smysl součet převrácených hodnot proměnné. Např. k výpočtu průměrné doby potřebné ke splnění úkolu, kdy jednotky plní úkoly současně.
1
Geometrický průměr n
- prostý:
xG n x1 x 2 ..... x n n
x
i
i 1 k
- vážený:
xG n x1n1 x 2n2 ... x knk n
x
ni i
i 1
! Používá se tam, kde má smysl součin hodnot proměnné. Např. k výpočtu průměrného koeficientu růstu v časových řadách.
Kvadratický průměr k
n
x - prostý:
xK
2 i
i 1
n
x - vážený:
xK
2 i
ni
i 1 k
n
i
i 1
! Používá se tam, kde má smysl součet čtverců hodnot proměnné. Např. tehdy, jestliže jednotlivé hodnoty jsou již samy odchylkami původních hodnot od aritmetického průměru, odchylkami od normy apod.
Vztah mezi průměry Jsou -li výše uvedené 4 typy průměrů vypočítány z týchž kladných hodnot proměnné, platí pro ně vztah: x H xG x x K .
b) Charakteristiky, které nejsou funkcí všech hodnot - patří sem především modus a kvantily; - jejich výhodou je, že nejsou ovlivněny odlehlými pozorováními.
Modus - varianta s největší četností (typická hodnota); - vrchol rozdělení četností; - označení symbolem x .
Kvantily - hodnoty, které rozdělují uspořádaný statistický soubor na určitý počet stejně obsazených částí; - hodnoty menší resp. stejné tvoří určitou stanovenou část rozsahu souboru (určitý podíl, určité procento). Uspořádaný statistický soubor: hodnoty proměnné jsou seřazeny do neklesající řady. Obecné označení kvantilů:
x p , kde p je relativní četnost ~ x100 p , kde 100 · p je relativní četnost vyjádřená v %
2
Druhy kvantilů :
~ x ,~ x50 , x0,5 - prostřední hodnota uspořádaného statistického souboru.
medián -
Člení statistický soubor na dvě stejně četné části, existuje tedy 50 % hodnot menších (nebo stejných) a 50 % hodnot větších (nebo stejných). Výpočet : a) rozsah souboru n je liché číslo
n 1 ~ x x n 1 , kde výraz udává pořadí mediánu v dané neklesající řadě hodnot. 2 2 Při lichém rozsahu souboru je mediánem konkrétní prvek.
b) rozsah souboru n je sudé číslo
x n x n 2 ~ x
2
2
2
Při sudém rozsahu souboru existují 2 prostřední hodnoty a medián je jejich aritmetickým průměrem. Pozn.: Kvantily < ~ x se nazývají dolní kvantily, kvantily > ~ x se nazývají horní kvantily.
tercily -
~ x33, 3 x0, 3 , ~ x66, 6 x0, 6
- jsou to 2 kvantily, které rozdělují uspořádaný statistický soubor na 3 stejně četné části.
kvartily -
~ x 25 x0, 25 , ~ x, ~ x75 x0, 75
- jsou to 3 kvantily, které rozdělují uspořádaný statistický soubor na 4 stejně četné části.
kvintily -
~ x 20 x 0, 2 , ~ x 40 x0, 4 , ~ x60 x 0, 6 , ~ x80 x0,8
- jsou to 4 kvantily, které rozdělují uspořádaný statistický soubor na 5 stejně četných částí.
sextily – 5 kvantilů, 6 částí septily – 6 kvantilů, 7 částí oktávily – 7 kvantilů, 8 částí nonily – 8 kvantilů, 9 částí decily – 9 kvantilů, 10 částí percentily – 99 kvantilů, 100 částí atd.
Výpočet pořadového čísla kvantilu :
n p mp n p 1 n .......... rozsah statistického souboru p .......... relativní četnost mp ....... pořadové číslo příslušného kvantilu
3
2. Charakteristiky variability - udávají rozptýlení (kolísání) hodnot kolem zvoleného středu (např. kolem nějaké střední hodnoty); - variabilita = měnlivost = kolísavost = odlišnost.
a) Míry absolutní variability
Variační rozpětí
R x max x min Kvantilová rozpětí - kvartilové rozpětí:
Rq ~ x75 ~ x 25
Kvantilové odchylky - kvartilová odchylka:
Q
- decilové rozpětí:
~ x75 ~ x 25 2
Rd ~ x90 ~ x10 atd.
D
- decilová odchylka:
~ x90 ~ x10 atd. 8
Průměrná absolutní odchylka n
k
x - prostá:
d
i
x
x
i 1
- vážená:
n
d
i
x ni
i 1 k
n
i
i 1
Rozptyl n
- prostý (klasický):
s x2
x
i
x
k
2
i 1
- vážený (klasický):
n
s x2
x
2
i
x ni
i 1 k
n
i
i 1
Výpočtový tvar rozptylu n
n x xi 2 i 1 - prostý: s x i 1 n n 2 i
k
- vážený:
s x2
xi2 ni i 1 k
n i 1
i
2
x2 x 2
k x i ni i 1k ni i 1
2
x2 x 2
Směrodatná odchylka - kladná odmocnina z rozptylu, tj.
s x s x2 ;
- udává, jak se v průměru liší jednotlivé hodnoty znaku od aritmetického průměru v obou směrech (±); - vhodná pro interpretaci, je udána v daných měrných jednotkách.
4
Pokud pracujeme s výběrovým souborem, počítáme výběrový rozptyl a výběrovou směrodatnou odchylku: n
- prostý:
s x2
k
x i x 2 i 1
- vážený:
n 1
s x2
x
2
i
x ni
i 1
n 1
Rozklad rozptylu Skládá-li se statistický soubor z k dílčích podsouborů, v nichž známe jednotlivé dílčí rozptyly průměry
xi a četnosti ni , pak rozptyl celého souboru s x2 můžeme rozložit na součet 2 rozptylů, z nichž
jeden charakterizuje variabilitu mezi skupinami a druhý variabilitu uvnitř skupin: k
k x x n x n x i ni i i i 2 i 1 i 1 Rozptyl skupinových průměrů: s xi k i 1k k ni ni ni i 1 i 1 i 1 2
k
2 i
s x2 s x2i s i2 .
2
k
Průměr skupinových rozptylů:
2 i
s
s
2 i
ni
i 1 k
n
i
i 1
b) Míry relativní variability
Variační koeficient - je bezrozměrné číslo; - umožňuje porovnávat variabilitu souborů s různou úrovní či různými měrnými jednotkami; - obecně může nabývat hodnot z intervalu
Vx
, , pro kardinální proměnnou z intervalu
0, .
sx x
Variabilita ordinální proměnné Ordinální rozptyl (variance)
kde
0,1 ;
nabývá hodnot z intervalu
hodnoty 0 nabývá v případě, kdy je zastoupena pouze jediná kategorie; hodnoty 1 nabývá tehdy, kdy je každé z obou krajních kategorií přiřazena relativní četnost 0,5.
dorvar
si2 , dílčí
4 k Fi 1 Fi , k 1 i 1
Fi jsou kumulativní relativní četnosti a k počet kategorií.
5
3. Charakteristiky šikmosti - šikmost = asymetrie;
Míry šikmosti n
k
xi x 3 - prostá:
x
i 1
- vážená:
ns x3
- jednoduchá charakteristika (Cyhelského míra šikmosti):
kde
=
3
i
x ni
i 1
ns x3
n n n
n je počet podprůměrných hodnot n je počet nadprůměrných hodnot.
Interpretace: - v symetrickém rozdělení α = 0; obvykle platí vztah: x xˆ ~ x ; počet podprůměrných hodnot je stejný jako počet hodnot nadprůměrných; - v kladně sešikmeném rozdělení α > 0; obvykle platí vztah: xˆ ~ x x ; více hodnot podprůměrných než nadprůměrných; - v záporně sešikmeném rozdělení α < 0; obvykle platí vztah: x ~ x xˆ ; více hodnot nadprůměrných než podprůměrných.
4. Charakteristiky špičatosti - špičatost = exces; - špičatost spočívá ve větší nahuštěnosti hodnot prostřední velikosti ve srovnání se stupněm nahuštěnosti ostatních hodnot resp. všech hodnot proměnné; - špičatější rozdělení má výraznější vrchol (tzn. že vrchol více vystupuje).
Míra špičatosti n
x - prostá:
i
x
i 1
ns x4
k
4
x 3
- vážená:
4
i
x ni
i 1
ns x4
3
Interpretace: - vyšší hodnota míry znamená větší špičatost, tzn. špičatější je to rozdělení, které má vyšší; - základem pro srovnání je normované normální rozdělení (viz další výklad).
Charakteristiky nominální proměnné 1.
polohy:
Modus x
6
2.
variability:
Míra mutability M - Mutabilita = variabilita hodnot nominální proměnné; - udává podíl dvojic jednotek s různou obměnou z celkového počtu všech možných dvojic jednotek; - lze ji vyjádřit v %. k
n 2 ni2 M
i 1
nn 1
M 0,1
Nominální variance - používá se v případě, že jsou známy pouze relativní četnosti a není znám rozsah souboru; - skutečný stupeň variability podhodnocuje. k
NOMVAR 1 pi2 ;
NOMVAR 0,1
i 1
7