2.2 Číselné charakteristiky statistických dat Průměrný statistik se během svého života ožení s 1,75 ženami, které se ho snaží vytáhnout večer do společnosti 2,25 x týdně, ale pouze s 50% úspěchem. W. F. Miksch (1950)
Kvantitativní metody B
Co se dozvíte Míry polohy, střední hodnoty. Míry variability, rozptyl a směrodatná odchylka. Střední poloha a variabilita nečíselných znaků. Normované hodnoty, míry tvaru rozdělení. Kvantily, explorační analýza dat. Lorenzova křivka, Giniho koeficient.
Kvantitativní metody B
2
Číselné charakteristiky agregují informaci o statistickém znaku do několika hodnot jsou stručnější a přehlednější než výchozí data snaží se charakterizovat rozdělení hodnot znaku typy charakteristik míry polohy – umístění hodnot znaku (na číselné ose) míry variability - rozptýlení hodnot kolem typické polohy míry tvaru rozdělení – symetrie, koncentrace hodnot znaku
Kvantitativní metody B
3
Míry polohy určují pomyslný střed statistického znaku (souboru) střední hodnota – aritmetický průměr
vyjadřuje geometrický střed (těžiště) statistického znaku na číselné ose
Kvantitativní metody B
4
Vážený aritmetický průměr střední hodnota pro tabulku rozdělení četností počet tříd (kategorií) četnosti jednotlivých tříd
jednotlivé hodnoty znaku
u intervalového rozdělení četností hodnotu xi nahradíme středem třídy Kvantitativní metody B
5
Modus a medián ) x modus – obměna znaku s nejvyšší četností, tedy hodnota, která se vyskytuje nejčastěji medián x% – prostřední hodnota znaku (ve smyslu pořadí) uspořádaného podle velikosti u sudého počtu prvků souboru se medián počítá jako průměr ze dvou hodnot nejbližších středu n = 21
x% = x11
Kvantitativní metody B
n = 20
x10 + x11 x% = 2 6
Jakou střední hodnotu použít ? aritmetický průměr – u číselných znaků, které nevykazují extrémní hodnoty medián – u číselných znaků s extrémy, u ordinálních nečíselných znaků modus – u nominálních nečíselných znaků Otázka: proč aritmetický průměr není vhodnou střední hodnotou pro znak „měsíční příjem zaměstnance“ ???
Kvantitativní metody B
7
Příklad – portfolio akcií cena akcie
počet
200 Kč
3
300 Kč
5
500 Kč
2
1 000 Kč
1
1 500 Kč
1
modus (nejčetnější hodnota) 300 Kč medián:
n = 12
x6 + x7 300 + 300 x% = = = 300 2 2
průměrná cena akcie:
x=
200 ⋅ 3 + 300 ⋅ 5 + 500 ⋅ 2 + 1000 ⋅1 + 1500 ⋅1 5600 = = 466, 67 3 + 5 + 2 +1+1 12
Kvantitativní metody B
8
Variabilita znaku variabilita určuje, jak se hodnoty znaku liší od průměru
malý rozptyl Kvantitativní metody B
velký rozptyl 9
Rozptyl – populační a výběrový rozptyl - variabilita znaku v základním souboru vzorec vhodnější pro ruční výpočet
výběrový rozptyl – variabilita ve vzorku
Kvantitativní metody B
10
Další ukazatele variability směrodatná odchylka průměrná odchylka od průměru (kvadratický průměr)
variační koeficient použití pro znaky s nezápornými hodnotami srovnání znaků s různou velikostí hodnot obvykle se vyjadřuje v % ( x 100)
Kvantitativní metody B
11
Příklad – portfolio akcií rozptyl ceny akcie: 2 2 2 2 2 2 200 ⋅ 3 + 300 ⋅ 5 + 500 ⋅ 2 + 1000 ⋅ 1 + 1500 ⋅ 1 − 12 ⋅ 466, 67 s2 = = 155148 11
směrodatná odchylka:
s = s 2 = 155148 = 394 variační koeficient:
vysoká variabilita znamená, že střední hodnota (průměr) není dobrým reprezentantem znaku
s 394 Vx = = = 0,844 = 84, 4% x 466, 67 Kvantitativní metody B
12
Normovaná hodnota z určuje vzdálenost hodnoty znaku od střední hodnoty (v násobcích směrodatné odchylky) z>0 z<0
hodnota je větší než průměr hodnota je menší než průměr
hodnoty z větší než 3 (menší než -3) značí extrémní hodnoty
někdy se normovaná hodnota označuje též jako u Kvantitativní metody B
13
Míry tvaru rozdělení šikmost - vyjadřuje asymetrii rozložení hodnot znaku 12
12
12
10
10
10
8
8
8
6
6
6
4
4
4
2
2
2
0
0 1
2
3
4
5
6
0
7
1
2
3
α= 0
4
5
6
7
1
2
3
α> 0
4
5
6
7
α< 0
kladné sešikmení
záporné sešikmení
špičatost - vyjadřuje koncentraci hodnot znaku 12
12
12
10
10
10
8
8
8
6
6
6
4
4
4
2
2
2
0
0 1
2
3
4
β= 0
5
6
7
0 1
2
3
4
5
6
7
β> 0
špičaté rozdělení
Kvantitativní metody B
1
2
3
4
5
6
7
β< 0
ploché rozdělení
14
Příklad – portfolio akcií cena akcie
počet
z
200 Kč
3
-0,68
300 Kč
5
-0,42
500 Kč
2
0,08
1 000 Kč
1
1,35
1 500 Kč
1
2,62
šikmost:
(−0, 68)3 ⋅ 3 + (−0, 42)3 ⋅ 5 + 0, 083 ⋅ 2 + 1,353 ⋅1 + 2, 623 ⋅1 α= = 1,59 12 kladné sešikmení – vyšší koncentrace menších hodnot Kvantitativní metody B
15
Příklad – portfolio akcií špičatost:
(−0, 68) 4 ⋅ 3 + (−0, 42) 4 ⋅ 5 + 0, 084 ⋅ 2 + 1,354 ⋅1 + 2, 624 ⋅1 β= − 3 = 1, 27 12 kladná špičatost – vyšší koncentrace hodnot kolem průměru 6
5
4
3
2
1
0
0 0 5 1 00 4 1
00 3 1 0 0 12
0 0 9
0 0 7
00 5
0 0 3
0 0 1 1 00 0 1
00 8
0 0 6
0 0 4
0 20
Kvantitativní metody B
16
Kvantily kvantil – hodnota, která rozdělí statistický soubor na dvě části s danými relativními četnostmi p% kvantil xp% – odděluje p% nejnižších hodnot od zbytku souboru p%
(100 – p) % xp%
xmin
medián kvartily decily percentily Kvantitativní metody B
x50% = x0,5 x25% x50% x10% x20% x1% x2%
xmax
x75% … …
x90% x99% 17
Jak určit kvantil zp%
pořadí kvantilu v rámci souboru
Příklad: Soubor o velikosti n = 12 má polohy kvartilů: z25% =
12 ⋅ 25 + 0,5 = 3,5 100
z50% =
12 ⋅ 50 + 0,5 = 6,5 100
z75% =
12 ⋅ 75 + 0,5 = 9,5 100
průměr ze 3. a 4. hodnoty znaku Kvantitativní metody B
18
Explorační analýza dat
(EAD)
box plot (with whiskers) = vousatá krabička
x25 LCL odlehlá hodnota
x50
x75 UCL dolní odlehlá hranice horní odlehlá hranice mezikvartilová odchylka
Kvantitativní metody B
19
Využití EAD porovnání rozložení dvou znaků porovnání rozložení znaku kategorizovaného podle jiného znaku
Kvantitativní metody B
20
Příklad – portfolio akcií kvartily:
200 + 300 = 250 2 300 + 300 = = 300 2 500 + 500 = = 500 2
z25% = 3,5
x25% =
z50% = 6,5
x50%
z75% = 9,5
x75%
IQR = x75% − x25% = 500 − 250 = 250 LCL = x25% − 1,5 ⋅ IQR = 250 − 375 = −125 UCL = x75% + 1,5 ⋅ IQR = 500 + 375 = 875
0
200
400
Kvantitativní metody B
600
800
1000
1200
1400
1600
21
Lorenzova křivka grafické znázornění koncentrace hodnot znaku kumulativní součty ty sledované prom proměnné
100%
0
100%
kumulativní četnosti počtu jednotek Kvantitativní metody B
22
Giniho koeficient koeficient koncentrace z Lorenzovy křivky G=0 G1
rovnoměrné rozdělení koncentrace do jedné kategorie
kpi … kumulativní relativní četnost (ne v %) Kvantitativní metody B
23
Příklad – portfolio akcií xi
xi+1-xi
ni
pi
kpi
1-kpi
CIT
200
100
3
0,250
0,250
0,750
18,75
300
200
5
0,417
0,667
0,333
44,42
500
500
2
0,167
0,833
0,167
69,56
1000
500
1
0,083
0,917
0,083
38,06
1500
x
1
0,083
1,000
0,000
S = 170,8
Giniho koeficient:
G=
170,8 = 0,37 466, 6
Poměrně vysoká hodnota G – velká nerovnoměrnost rozložení cen akcií
Kvantitativní metody B
24
Příště se dozvíte 3.1 Základy teorie pravděpodobnosti Náhodný pokus a náhodný jev. Pravděpodobnost, počítání s pravděpodobnostmi. Podmíněná a úplná pravděpodobnost, Bayesova věta. Rozhodovací stromy.
Kvantitativní metody B
25