Obsah Úvod do problému
Statistika
Míry polohy (úrovně) Míry centrální tendence Ostatní míry polohy
Zpracování informací ze statistického šetření – Charakteristiky úrovně, variability a koncentrace kvantitativního znaku
Míry variability Rozptyl Směrodatná odchylka a variační koeficient Rozptyl pro ordinální data Rozpětí
Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz
Míry šikmosti a špičatosti Míry šikmosti Míry špičatosti
20. února 2012
Grafická vizualizace Krabicový graf „Statistikaÿ by Birom
Statistika
Deskriptivní charakteristiky
1 / 28
„Statistikaÿ by Birom
Úvod do problému
jsou číselné charakteristiky, které „koncentrovanouÿ formou (jediným číslem) vyjadřují určitou vlastnost statistického znaku,
◮
obvykle slouží pro popis kvantitativního (kardinálního) statistického znaku, ale některé je možno použít i pro „ jednoduššíÿ statistické znaky (např.: modus)
◮
někdy je problém s jejich interpretací i u diskrétního kardinálního znaku (¯ x je 1,87 dítěte,)
◮
v některých případech mají jiný tvar (předpis) pro populaci a výběr (viz rozptyl) odlehlé hodnoty (pozorování) ◮
◮
pozorování jehož hodnota znaku vybočuje (reálná/nereálná) bývají vlivnými hodnotami
Statistika
Deskriptivní charakteristiky
◮ ◮
seřazení hodnot podle velikosti, x(1) ≤ x(2) ≤ x(3) ≤ . . . ≤ x(n−1) ≤ x(n) ,
ni absolutní četnost,
pro i = 1, . . . , k;
Pk
i=1
ni = N,
‡ odděluje pojmenování respektive vzorce pro netříděná a tříděná data; navíc vše pro tříděná data je barevně odlišeno,
xi hodnota statistického znaku (i = 1, . . . , n) ‡ hodnota statistického znaku při prostém třídění respektive středu intervalu pro třídění intervalové (i = 1, . . . , k),
ovlivňují výsledek statistické analýzy (výpočet charakteristik, odhadů parametrů, . . . )
„Statistikaÿ by Birom
n, N rozsah souboru – počet pozorování, x(i) pořadové statistiky,
wi pokud se ve tříděných datech formálně nahradí ni symbolem wi a k symbolem n, pak se obvykle mluví o vahách wi jednotlivých hodnot xi pro i = 1, . . . , n a platí čím vyšší hodnotaP wi , tím větší vliv hodnoty xi pro n výsledný výsledek, pochopitelně N = i=1 wi – proto vážené charakteristiky,
vlivné hodnoty (pozorování) ◮
2 / 28
Značení
◮
◮
Deskriptivní charakteristiky
Úvod do problému
Popisné (deskriptivní) charakteristiky/statistiky
◮
Statistika
3 / 28
„Statistikaÿ by Birom
Statistika
Deskriptivní charakteristiky
4 / 28
Míry polohy (úrovně)
Míry polohy (úrovně)
Míry polohy
Průměry I
◮
Mají být typickou hodnotou statistického znaku z daného statistického souboru,
◮
jsou jednoznačně definované a relativně jednoduše zjistitelné,
◮
slouží k porovnání úrovně různých statistických souborů, nebo vývoje statistického souboru v čase,
◮
mají co nejméně podléhat nahodilostem výběru respektive odlehlým hodnotám (pozorováním) – požadavek robustnosti.
x¯ aritmetický průměr ‡ n 1X x¯ = xi n ◮ ◮
◮
◮
n¯ x=
n P
Míry polohy (úrovně)
Deskriptivní charakteristiky
5 / 28
n P
(xi − x¯) = 0,
i=1 n P
(xi − x¯)2 ≤
n P
xi w i
(xi − a)2 , pro libovolné a.
průměr vypočtený klasickým způsobem bez α/2 % největších a nejmenších hodnot (robustnější než „obyčejnýÿ průměr) – méně nerobustní
Statistika
Míry polohy (úrovně)
vážený geometrický průměr q √ x¯G = n x1 x2 . . . xn ‡ x¯G = N x1n1 x2n2 . . . xknk ,
Deskriptivní charakteristiky
6 / 28
Míry centrální tendence
xˆ modus
‡
i = 1, . . . , n
‡
◮ ◮ ◮
i = 1, . . . , k
nejčetnější hodnota znaku (unimodální, bimodální, vícenásobný modus) modální interval – interval s největší četností (relativní či absolutní) odhad módu na základě intervalového třídění ◮
nerobustní míra ovlivněná odlehlými hodnotami, ve výpočtech časových řad a některých indexů (inflace, apod.).
x¯H harmonický průměr ‡
vážený harmonický průměr n x¯H = P n 1 i=1
‡
xi
x¯H =
x˜0,5 medián
N , k P ni
i=1
◮
xi
Statistika
h n1 − n−1 , 2 2n0 − n1 − n−1 kde x0 – je střed modálního intervalu, n0 – je četnost modálního intervalu, n−1 – je četnost intervalu, který předchází modálnímu intervalu, n1 – je četnost intervalu, který následuje za modálním intervalem a h – je délka modálního intervalu
xˆ ≈ x0 +
(˜ x)
hodnota znaku, jež dělí soubor na dvě poloviny, na ty pozorování s nižšími hodnotami znaku a ty s vyššími hodnotami znaku ◮
x˜0,5
= =
kde xi 6= 0, i = 1, . . . , n ‡ i = 1, . . . , k ◮ nerobustní míra ovlivněná odlehlými hodnotami, ◮ v časových výpočtech (frekvence, . . . )
„Statistikaÿ by Birom
i=1
i=1
„Statistikaÿ by Birom
◮
◮
wi
Modus a medián I
x¯G geometrický průměr
◮
i=1
!
xi ,
Míry centrální tendence
Průměry II
x¯ = Pn
n X
α-useknutý průměr ◮
Statistika
i=1
1
i=1
i=1
„Statistikaÿ by Birom
k 1 X x¯ = xi ni N
nerobustní míra ovlivněná odlehlými hodnotami, průměr může představovat rovnoměrnost nebo normu, která vůbec neexistuje a nemá odraz ve skutečnosti, jistě platí: ◮
◮
vážený aritmetický průměr
‡
i=1
◮
kde xi ≥ 0,
Míry centrální tendence
◮
◮
Deskriptivní charakteristiky
7 / 28
x(n/2) + x(n/2+1) 2 x((n+1)/2)
pro n sudé pro n liché
mediánový interval – interval obsahující medián, tj. první interval, pro který platí: kpi ≥ 0,5 odhad mediánu na základě intervalového třídění
„Statistikaÿ by Birom
Statistika
Deskriptivní charakteristiky
8 / 28
Míry polohy (úrovně)
Míry centrální tendence
Míry polohy (úrovně)
Modus a medián II n+1 2 ◮
◮
x˜ ≈ x0 +
Ostatní míry polohy
Ostatní míry polohy I −
j−1 P
xmin minimum
ni
i=1
h, nj P kde x0 – je střed mediánového intervalu, j−1 i=1 ni – je kumulativní četnost intervalu, který předchází mediánovému intervalu, nj – je četnost intervalu mediánového intervalu a h – je délka mediánového intervalu
◮
xmin = min x = x(1) = x˜0
xmax maximum ◮
xmax = max x = x(n) = x˜1
x˜0,25 dolní kvartil ◮
hodnota znaku, jež dělí soubor (pozorování) na dvě částí – čtvrtinu a tři čtvrtiny; na čtvrtinu pozorování s nižšími hodnotami znaku a tři čtvrtiny pozorování s vyššími hodnotami znaku
x˜0,75 horní kvartil ◮
hodnota znaku, jež dělí soubor na dvě částí – tři čtvrtiny a čtvrtinu; na čtvrtinu pozorování s nižšími hodnotami znaku a čtvrtinu pozorování s vyššími hodnotami znaku
x˜p p·100% (výběrový) kvantil ◮
◮
„Statistikaÿ by Birom
Statistika
Míry polohy (úrovně)
Deskriptivní charakteristiky
9 / 28
◮
◮
Statistika
Deskriptivní charakteristiky
10 / 28
Míry variability
Míry variability
kde S = ⌊p(n − 1) + 1⌋, H = ⌈p(n − 1) + 1⌉ a P = p(n − 1) − S + 1 decil p = 0; 0,1; 0,2; . . . ; 0,9; 1 percentil p = 0; 0,01; 0,02; . . . ; 0,99; 1
„Statistikaÿ by Birom
„Statistikaÿ by Birom
Ostatní míry polohy
Ostatní míry polohy II ◮
p ∈ h0; 1i
hodnota znaku, jež dělí soubor na dvě částí – p-tinu a (1 − p)-tinu; p-tinu pozorování s nižšími hodnotami znaku a (1 − p)-tinu s vyššími hodnotami znaku x˜p = (1 − P) · x(S) + P · x(H) ,
Statistika
Deskriptivní charakteristiky
11 / 28
◮
Vypovídají o variabilitě/proměnlivosti hodnot statistického znaku z daného statistického souboru,
◮
jsou jednoznačně definované a relativně jednoduše zjistitelné,
◮
slouží k porovnání variability různých statistických souborů, nebo vývoje statistického souboru v čase,
◮
mají co nejméně podléhat nahodilostem výběru respektive odlehlým hodnotám – požadavek robustnosti
◮
některé vycházejí v odlišných jednotkách než posuzovaný statistický znak (rozptyly), nebo jsou relativní mírou variability (variační koeficient).
„Statistikaÿ by Birom
Statistika
Deskriptivní charakteristiky
12 / 28
Míry variability
Rozptyl
Míry variability
Rozptyl I
Rozptyl II
sp2 (populační) rozptyl ‡
vážený (populační) rozptyl
n 1X sp2 = (xi − x¯)2 n
výběrový rozptyl ‡
◮ ◮ ◮ ◮
◮
sv2 =
‡
sp2 =
1 X (xi − x¯)2 · ni N −1
Statistika
Deskriptivní charakteristiky
13 / 28
n n 1 XX (xi − xj )2 2n2 i=1 j=1
Míry variability
Deskriptivní charakteristiky
14 / 28
Směrodatná odchylka a variační koeficient
VX variační koeficient (populační a výběrový)
sv výběrová směrodatná odchylka
q
sp2
VX =
◮
p sv = sv2
◮ ◮
nerobustní míry ovlivněné odlehlými hodnotami, směrodatné odchylky vychází v jednotkách analyzovaného statistického znaku, sp < sv – „daňÿ za výběrové šetření + požadavek nestrannosti odhadu, pro velká n respektive N není znatelný numerický rozdíl mezi populační a výběrovou směrodatnou odchylkou, transformace r r n−1 N −1 sp = sv ‡ sp = sv n N
„Statistikaÿ by Birom
Statistika
Variační koeficient sp =
◮
„Statistikaÿ by Birom
Směrodatná odchylka a variační koeficient
sp (populační) směrodatná odchylka
◮
N −1 2 sv N
i=1
Směrodatná odchylka
◮
sp2 =
nerobustní míry ovlivněné odlehlými hodnotami, rozptyl vychází v jednotkách na druhou!, sp2 = x 2 − x¯2 – výpočetní vzorec populačního rozptylu sp2 < sv2 – „daňÿ za výběrové šetření + požadavek nestrannosti odhadu, pro velká n respektive N není znatelný numerický rozdíl mezi populačním a výběrovým rozptylem,
Míry variability
◮
‡
obecná míra variability mezi všemi hodnotami (nejen vůči průměru)
k
1 X (xi − x¯)2 n−1
„Statistikaÿ by Birom
◮
n−1 2 sv n
vážený výběrový rozptyl
i=1
◮
transformace (Besselova oprava) sp2 =
i=1
n
sv2 =
◮
k 1 X sp2 = (xi − x¯)2 · ni N
‡
i=1
sv2
Rozptyl
Statistika
Deskriptivní charakteristiky
15 / 28
◮
sp x¯
(VX · 100 %),
VX =
sv x¯
(VX · 100 %)
nerobustní míry ovlivněné odlehlými hodnotami, Vx je bezrozměrná charakteristika respektive procentuálně vyjádřená; Interpretace procentuálního vyjádření: „Vx udává z kolika procent se podílí směrodatná odchylka na aritmetickém průměruÿ, Variační koeficienty jsou relativní míry variability („indexyÿ), což umožňuje porovnávat variabilitu statistických znaků: ◮ ◮
s odlišnými jednotkami, mající sice stejné jednotky, ale odlišnou míru polohy.
„Statistikaÿ by Birom
Statistika
Deskriptivní charakteristiky
16 / 28
Míry variability
Rozptyl pro ordinální data
Míry variability
Rozptyl pro ordinální data ◮
◮
◮
Rozpětí
dorvar Rozptyl pro ordinální data dorvar =
R variační rozpětí
4 k −1
k X i−1
R = xmax − xmin kpi (1 − kpi ),
IQR (inter)kvartilové rozpětí IQR = x˜0,75 − x˜0,25
kde k je počet uspořádatelných kategorií a kpi , pro i = 1, . . . , k jsou kumulativní relativní četnosti. Dorvar je variantou rozptylu (míry variability) pro ordinální data.
„Statistikaÿ by Birom
Statistika
Míry šikmosti a špičatosti
Deskriptivní charakteristiky
17 / 28
3 n 1 X xi − x¯ n sp i=1
Míry šikmosti a špičatosti
Deskriptivní charakteristiky
18 / 28
Míry šikmosti
vážený koeficient (populační) šikmosti ‡
mt,3 =
mt,3 > 0 , pak mluvíme o kladném zešikmení – vyšší koncentraci podprůměrných hodnot v porovnání s koncentrací hodnot nadprůměrných, mt,3 = 0 , pak mluvíme symetrickém zešikmení – stejné koncentraci podprůměrných a nadprůměrných hodnot, mt,3 < 0 , pak mluvíme o záporném zešikmení – vyšší koncentraci nadprůměrných hodnot v porovnání s koncentrací hodnot podprůměrných.
3 k 1 X xi − x¯ · ni N sp i=1
třetí centrální moment
mt,3 koeficient výběrové šikmosti (dle MS Excel 2000)
‡
vážený koeficient výběrové šikmosti n
mt,3
X n = (n − 1)(n − 2) i=1
k
mt,3
X N = (N − 1)(N − 2) i=1
◮
Statistika
Koeficient šikmosti II
mt,3 koeficient (populační) šikmosti ‡
◮
„Statistikaÿ by Birom
Míry šikmosti
Koeficient šikmosti I
mt,3 =
Rozpětí
xi − x¯ sv
3
‡
3
· ni
xi − x¯ sv
Je-li „Statistikaÿ by Birom
Statistika
Deskriptivní charakteristiky
19 / 28
„Statistikaÿ by Birom
Statistika
Deskriptivní charakteristiky
20 / 28
Míry šikmosti a špičatosti
Míry šikmosti
Míry šikmosti a špičatosti
Pearsonova míra šikmosti
Míra špičatosti I
τ Pearsonova míra šikmosti
mt,4 koeficient (populační) špičatosti ‡
x¯ − xˆ τ= sx
mt,4 = ◮
◮
míra šikmosti založená na x¯ a xˆ (přibližná míra)
Je-li ◮
Statistika
Míry šikmosti a špičatosti
Deskriptivní charakteristiky
‡
mt,4 =
4 k 1 X xi − x¯ · ni N sp i=1
čtvrtý centrální moment
kurt = mt,4 − 3
21 / 28
pro lepší srovnávání se od čtvrtého centrálního momentu odečítá 3, což je hodnota koeficientu špičatosti normálního rozdělení; „většíÿ respektive „menšíÿ špičatost pak určujeme ve srovnání se špičatostí normálního rozdělení
„Statistikaÿ by Birom
Míry špičatosti
Statistika
Grafická vizualizace
Míra špičatosti II
vážený koeficient (populační) špičatosti
kurt modifikovaný koeficient (populační) špičatosti
◮
„Statistikaÿ by Birom
4 n 1 X xi − x¯ n sp i=1
τ > 0 , pak mluvíme o kladném zešikmení – koncentrace některých podprůměrných hodnot je vyšší v porovnání s koncentrací hodnot nadprůměrných, τ = 0 , pak mluvíme symetrickém zešikmení – „průměrnéÿ hodnoty jsou nejčastější, τ < 0 , pak mluvíme o záporném zešikmení – koncentrace některých nadprůměrných hodnot je vyšší v porovnání s koncentrací hodnot podprůměrných.
Deskriptivní charakteristiky
22 / 28
Krabicový graf
Krabicový graf – Box-plot
mt,4 koeficient výběrové špičatosti (dle MS Excel 2000) mt,4
Míry špičatosti
‡
vážený koeficient výběrové špičatosti
◮
4 n X xi − x¯ (n + 1)n = (n − 1)(n − 2)(n − 3) sv i=1 k
mt,4 =
◮
X (N + 1)N (N − 1)(N − 2)(N − 3) i=1
xi − x¯ sv
4
vizualizace popisných statistik – vybrané míry polohy a vybraných variabilit plným názvem Box-and-whisker(s) plot – krabicový graf s vousy ◮
‡
◮
celý graf je složen z boxu (krabice), „vousůÿ, příčné čárky respektive čtverečku jaké hodnoty volit pro nastavení krabicového grafu záleží povaze dat a záměru analýzy – principiálně lze pro nastavení volit parametry x¯ a s, to pro „ilustraciÿ statistické indukce, nebo x˜0,50 a IQR, to pro analýzu odlehlých pozorování
· ni
kurt modifikovaný koeficient výběrové špičatosti ‡ vážený modifikovaný koeficient výběrové špičatosti (dle MS Excel 2000) kurt = mt,4 − ◮
◮
Je-li
3(n − 1)2 (n − 2)(n − 3)
‡
kurt = mt,4 −
3(N − 1)2 (N − 2)(N − 3)
stejné jak pro koeficient (populační) špičatosti
kurt > 0 , pak mluvíme o kladné špičatosti – koncentrace průměrných hodnot je vyšší, než bývá u normálního rozdělení, kurt = 0 , pak mluvíme o normální špičatosti – koncentrace průměrných hodnot je právě taková jako u normálníhoStatistika rozdělení, „Statistikaÿ by Birom Deskriptivní charakteristiky 23 / 28 kurt 0 , pak mluvíme o záporné špičatosti – koncentrace odlehlých hodnot je vyšší,
„Statistikaÿ by Birom
Statistika
Deskriptivní charakteristiky
24 / 28
Grafická vizualizace
Krabicový graf
Grafická vizualizace
Box-plot
Krabicový graf
Box-plot
Cena zaplacená za celkový spotřebitelský úvěr
Cena zaplacená za celkový spotřebitelský úvěr – dle provozoven I
28000
28000
26000
26000 24000
— x˜0,50 = 6 741
24000 22000
x˜
x0,75 0,25 –˜
20000
⊤ ⊥
18000 16000 14000
tj.4 995–9 086
8000
x0,75 0,25 –˜
⊤ ⊥
18000
Rozsah neodlehlých hodnot = (1 584; 15 093)
16000
Rozsah neodlehlých hodnot
◦ Odlehlé hodnoty
14000
∗ Extrémní hodnoty
12000
∗ Extrémní hodnoty
10000
x˜
20000
◦ Odlehlé hodnoty
12000
— x˜0,50
22000
10000 8000 6000
6000
4000
4000
2000
2000
0 Strakonice Vytvořeno v programuPrachatice STATISTICA Klatovy komplet 6.1 Cz
0 Vytvořeno v programu STATISTICA komplet 6.1 Cz
„Statistikaÿ by Birom
Statistika
Grafická vizualizace
Deskriptivní charakteristiky
25 / 28
„Statistikaÿ by Birom
Krabicový graf
Statistika
Grafická vizualizace
Box-plot
Cena zaplacená za celkový spotřebitelský úvěr – dle provozoven II
Cena zaplacená za celkový spotřebitelský úvěr – dle provozoven III
8200
16000
x¯ ± s
7800
⊤ ⊥
7600
7400
14000
x¯
x¯ ± 1,96 · sv
8000
6000
7000
4000
6800
2000
6600
Deskriptivní charakteristiky
28 / 28
sv √ n
x¯ ± 1,96 ·
sv √ n
0
Strakonice Vytvořeno v programuPrachatice STATISTICAKlatovy komplet 6.1 Cz
„Statistikaÿ by Birom
⊤ ⊥
10000
7200
x¯
x¯ ±
12000
v
26 / 28
Krabicový graf
Box-plot
8000
Deskriptivní charakteristiky
Strakonice Vytvořeno v programuPrachatice STATISTICA Klatovy komplet 6.1 Cz
Statistika
Deskriptivní charakteristiky
27 / 28
„Statistikaÿ by Birom
Statistika