Vysoká škola ekonomie a managementu Ekonomický institut VŠEM
Analýza dat v ekonomii (dříve Statistické metody a demografie)
© Mgr. Milena Opletalová, VŠEM
[email protected]
Na základě materiálů Matěje Bulanta, Ph.D.
Probíraná témata 9.01. Popisná statistika (1. část)
16.01. Popisná statistika (2. část) 23.01. Teorie odhadu, Časové řady 29.01. Indexní analýza, Úvod do demografie
Popisná statistika
Obecný úvod Základní statistické pojmy Grafické znázornění dat Statistické šetření Tabulky četností Souhrnné charakteristiky
Data, informace, znalosti
Jak porozumět datům Data analyzujeme abychom z nich získali informace. Pomůže: znát odkud se data vzala (zdroj/původ) znát co to je za data (jejich význam) přesně vědět čeho musím dosáhnout znalosti + zkušenosti
• • • •
Historický vývoj • •
•
2000 let před n.l. Čína – popis státu 17. st. sir William Petty a John Graunt - Politická aritmetika
18. st. Gottfried Achenwall, Edmond Halley - Světská úřední statistika
•
19. st. Adolphe Quételet, Karl Pearson, Karl F. Gauss - Matematická statistika, normální rozdělení, průměr, pravděpodobnost
• 20. st.
akademik Čěbyšev, Alexandr Ljapunov, Andrej Kolmogorov - Moderní statistka, induktivní statistika a statistická analýza, teorie věrohodnosti
Normální rozdělení Čím více náhodných vzájemně nezávislých jevů sčítáme, tím více se bude výsledné rozdělení blížit normálnímu. 20 = 1 kombinace 21 = 2 kombinace 22 = 4 kombinace 23 = 8 kombinací 24 = 16 kombinací
Obr.1 Zdroj: http://en.wikipedia.org/wiki/Bean_machine
Vývoj moderní statistiky První vnímání nejistoty „Statistiky“ hazardních her Kombinatorika – Pascal, Newton, J. Bernoulli, Euler
Proces návratu k průměru Sir Francis Galton (1822 – 1911) Směrodatná odchylka, otisky prstů, eugenismus
Riziko a nejistota Frank H. Knight (1885 – 1972) Riziko – Náhoda se známými pravděpodobnostmi Nejistota – Náhoda s neznámými pravděpodobnostmi • nejistota statistická - způsobena náhodou, je tedy nepředvídatelná • nejistota systematická - způsobena naší neznalostí nebo nedostatkem/ nepřesností informací.
Základní definice 1
Hromadné jevy a procesy - jevy a procesy vyskytují se u velkého množství prvků.
Statistická jednotka – popisovaný prvek souboru, u něhož jsou sledované různé vlastnosti
Statistický znak /proměnná/ – zachycuje určitou vlastnost statistické jednotky.
Hodnota statistického znaku ( ≡ pozorování) - míra dané vlastnosti (statistického znaku) u každé jednotky statistického souboru. ! Počet hodnot (pozorování) = rozsah souboru.
Obměna (≡ varianta) statistického znaku - hodnota ve smyslu vyjádření různého stupně dané vlastnosti. ! Počet variant ≤ rozsah souboru.
Základní definice 2
Statistický soubor – soubor, vytvořený ze statistických jednotek, u nichž se sleduji stejné statistické znaky.
základní soubor (populace) – soubor všech statistských prvků daných výčtem, nebo vymezením některých společných vlastností.
výběrový soubor – část jednotek základního souboru
Rozsah souboru – počet statistických jednotek ve statistickém souboru. Bývá označován písmenem n.
Základní definice 3
Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter
Číselné údaje o hromadných jevech
Praktická činnost spočívající ve sběru, zpracování a vyhodnocování statistických údajů.
Teoretická disciplína, která se zabývá metodami sloužícími k popisu a odhalování zákonitostí při působení podstatných, relativně stálých činitelů na hromadné jevy.
Klasifikace statistických znaků Statistické znaky
Kvantitativní - číselná
Diskrétní - celočíselná
Kvalitativní – kategoriální
Spojité - libovolné hodnoty z intervalu
Nominální - slovní
Obr. 2 Zdroj: Hindls, R., Hronová, S.,Seger, J., Statistika pro ekonomy, Professional Publishing, Praha, 2007
Ordinální - pořadové
Klasifikace statistických znaků
Kvantitativní - nabývají číselných hodnot (hmotnost, délka, pevnost, cena, doba, životnost)
Diskrétní - nabývají pouze oddělených číselných hodnot (počet vad, kusová produkce apod.)
Spojité - nabývají všech hodnot z nějakého intervalu reálných čísel (rozměr výrobku, doba do poruchy, cenový index apod.)
Kvalitativní /kategoriální/ - většinou slovní, používá se kódování
Nominální /slovní/ - nelze uspořádat dle stupně vlastnosti, hodnoty jsou buď jen stejné nebo rozdílné
Ordinální /pořadová/ - lze seřadit, nelze říci o kolík se liší
Dichotomická /alternativní/ - ano/ne
Statistické zjišťování /šetření/ - získávání hodnot proměnných u statistických jednotek, které tvoří statistický soubor
Etapy statistického zjišťování:
Příprava statistického šetření
co, kdo, kdy a jakým způsobem bude měřit rozhodný okamžik
přímé zjišťování, výkaz, rozhovor, dotazník
Provedení statistického šetření
Statistické zpracování zjištěných údajů /dat/ - souhrny, tabulky četnosti, grafy
Statistické vyhodnocování /analýza/
Publikace výsledků, prezentace
Příklad výkazu
Zdroj: archiv MŠMT, www.uiv.cz
Vzor publikace statistické ročenky
Obr.3 Zdroj: archiv MŠMT, www.uiv.cz
Statistické grafy, vizualizace dat
Obr.4 Zdroj: http://www.obt-volgograd.ru/product/bars_upr_region1/
Statistické grafy
Nezamšstnanost v %
Porovnání nezaměstnanosti ve Středočeském a Ústeckém kraji 19,00 18,00 17,00 16,00 15,00 14,00 13,00 12,00 11,00 10,00 9,00 8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 0,00
199 199 199 199 199 199 199 199 199 199 200 200 200 200 200 200 200 200 200 200 201 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 Česká republika 0,66 4,13 2,57 3,52 3,19 2,93 3,52 5,23 7,48 9,37 8,78 8,90 9,81 10,3 9,47 8,88 7,67 5,98 5,96 9,24 9,57 Středočeský 0,65 4,86 3,37 3,98 2,86 2,57 2,98 4,62 6,06 7,46 6,80 6,76 7,21 7,43 6,85 6,25 5,32 4,25 4,47 7,01 7,73 Ústecký 0,67 4,47 3,58 5,23 5,24 5,79 7,05 10,0 13,1 15,9 16,1 15,8 17,1 17,9 15,8 15,4 13,7 10,9 10,2 13,6 13,9
Statistické grafy, vizualizace dat Spojnicové a sloupkové grafy Polygon četností (spojnicový graf) – vhodné zobrazení při srovnávání struktury různých souborů. Sloupcový graf
Obr.5 Zdroj: Finanční analýza podnikové sféry za rok 2010, http://www.mpo.cz/dokument89407.html
Statistické grafy, sloupcový graf Vývoj podílu obézních mužů a žen na celkové populaci ČR 40
35
% celkové populace
30
17,5
25 13,6
16,1
Obézní ženy
20
Obézní muži 12,3
12,1
15
10 15 5
10,4
10,4
1993
1996
17,4 13,4
0 1999
2002
2008
Statistické grafy, vizualizace dat Histogram rozdělení četností – vhodný pro znázornění spojitých proměnných (intervalové rozdělení četností)
Obr.6 Zdroj:http://upload.wikimedia.org/wikipedia/commons/f/f7/Population_pyramid_CZE_2007rel.png
Statistické grafy, vizualizace dat
Bodové grafy - slouží ke znázornění závislostí mezi dvěma kvantitativními znaky (nebo průběhové časové řady) Vzor bodového grafu ze stránky Microsoft
Obr.7 Zdroj: http://technet.microsoft.com/cs-cz/library/dd207047.aspx
Statistické grafy, vizualizace dat
Výsečové grafy
Vzor výsečového grafu ze stránky Microsoft
Obr.8 Zdroj: http://technet.microsoft.com/cs-cz/library/dd220426
Statistické grafy, výsečový graf Podíl využití jednotlivých verzí Android
Ice Cream Sandwich 26%
Honeycomb 2%
Jelly Bean 3% Другой 2% Eclair 3%
Gingerbread 54% Froyo 12%
Cupcake 0% Donut 0%
Statistické grafy, vizualizace dat Krabicový graf – slouží k zakreslení základních výběrových charakteristik kvantitativní proměnné, v jednom obrázku poskytuje informaci o maximální a minimální hodnotě v souboru naměřených hodnot, o mediánu a horním a dolním kvartilu tohoto souboru atd. Příklad: Porovnáme statistické údaje hmotnosti 10. kaprů v jedné kádi
xi = {1.4; 0.8; 1.2; 1.6; 2.3; 1.3; 1.3; 0.9; 1.5; 2.1}
Obr.9 Zdroj: http://vydavatelstvi.vscht.cz/knihy/uid_isbn-80-7080-569-2/pdf/012.pdf
Statistické grafy, vizualizace dat Tornádo a Pavoučí grafy (Spider analýza)
Obr.10 Zdroj: Ing. Ondřej Nowak, prezentace k přednášce Analýza rizika a finanční modelování , KPE FPH VŠE, 2011
Statistické grafy, spider-graf
Solvency ratio (%)
Liquidity ratio
Return on shareholders funds (%) ROE 50,00 40,00 30,00 20,00 10,00 0,00 -10,00 -20,00 -30,00 -40,00
Return on capital employed (%) ROIC
Return on total assets (%) ROA
VOLKSWAGEN General Motors DAIMLER AG
BAYERISCHE MOTOREN WERKE Peugeot S.A. Profit margin (%) EAT/Sales ROS EAT
Current ratio (x)
EBIT Margin (%) EBIT/Sales
Interest cover (x) Net assets turnover
RENAULT ŠKODA Auto a.s. /součástí VW/
Statistické grafy, histogram Průměrná teplota a srážky v ČR 120
20 18
100
16
80
12 10
60 8 86
40
77
88
6 69
4
59 49 20
41
35
43
37
2 0
29 29 0
-2
Srážky
Průměrná teplota
Průměrná teplota v °C
Úhrn srážek v mm
14
Statistické grafy, vizualizace dat
Výroba motorů a plán výroby 14 12 10 8 6 4 2 0 37
38
39 Above Plan
40 Below Plan
41
42 Engine Input Plan
43
44
Statistické grafy, dashboard I&I
Turn-Around Time
0.6 0.8 0.9 0.5
Delinquent Engines
100%
8 6 4 2 0
1.1
0.3
1.2
0.2 0
Customer OTD
150 100
50%
1.4
0.4
1.5
50 0%
0
23 25 27 29 31 33 35 37 39
2324252627282930313233343536373839 CFM TAT
Delinquent Engines
GE90 TAT
Inventory (tis $)
Engine Inputs
$280 000
12 10 8 6 4 2 0
$80 000 -$120 000 23 25 27 29 31 33 35 37 39
23
Inventory
100%
25
27
29
31
Revenue QTD ($MM)
FTY
33
50% 0
H80 FTY
M601 FTY
49.5
640
80
720
236
37
39
66 82.5 99 560
160
35
OCPH YTD ($ per hr)
320 400 480 240
0%
OTD
800
115.5
33
132
16.5 0
148.5
96.
165
Základní pojmy, příklady Př.1
n
x
i
i 1
Základní pojmy, příklady Př.1
n
x x x i
i 1
1
2
x3 ... xn
Základní pojmy, příklady Př.1
n
x x x i
1
2
x3 ... xn
i 1
5
x x x i
i 1
1
2
x3 x 4 x5
Základní pojmy, příklady Př.1
n
x
i
x1 x 2 x3 ... xn
i 1
5
x x x i
1
2
x3 x 4 x5
i 1 8
x x i
i 3
3
x 4 x 5 x 6 x 7 x8
Základní pojmy, příklady Př.1 n
x x x i
1
2
x3 ... xn
i 1 5
x x x i
1
2
x3 x 4 x5
i 1 8
x x i
3
x 4 x 5 x 6 x 7 x8
i 3
i
x
1 2 3 4 5 6 7 8 9 25 24 18 17 22 25 18 19 25
Základní pojmy, příklady Př.1 n
x x x i
1
2
x3 ... xn
i 1
5
5
x x x i
1
2
x3 x 4 x5
x i
i 1
i 1 8
x x i
i 3
i
x
3
x 4 x 5 x 6 x 7 x8
8
x i
i 3
1 2 3 4 5 6 7 8 9 25 24 18 17 22 25 18 19 25
Základní pojmy, příklady Př.1 n
x x x i
1
2
x3 ... xn
i 1
5
5
x x x i
1
2
x3 x 4 x5
x i
106
i 1
i 1 8
x x i
i 3
i
x
3
x 4 x 5 x 6 x 7 x8
8
x i
i 3
1 2 3 4 5 6 7 8 9 25 24 18 17 22 25 18 19 25
Základní pojmy, příklady Př.1 n
x x x i
1
2
x3 ... xn
i 1
5
5
x x x i
1
2
x3 x 4 x5
x i
106
i 1
i 1 8
x x i
i 3
i
x
3
x 4 x 5 x 6 x 7 x8
8
x i
119
i 3
1 2 3 4 5 6 7 8 9 25 24 18 17 22 25 18 19 25
Př.2
Rozdělení četností Tab 1.1 Rozdělení četností, pravidlo Četnost
Varianta znaku Xi
Kumulativní četnost
Absolutní ni
Relativní pi
Absolutní
Relativní
n1 n2 … nk
p1 p2 … pk
n1 n1+n2 …
p1 p1 +p2 …
k
ni n
p 1
x
x
x1 x2 … xk
i 1
k
ni n
Celkem
i 1
k
p 1 i
k
i
i 1
i 1
• Podává informaci o počtu (četnosti) výskytu jednotlivých variant znaku v souboru • Absolutní/relativní četnosti k ni
pi
k
ni i 1
ni 1 k 1 pi ni n 1 i 1 n n i 1 n i 1 k
Rozdělení četností, četností příklad Př. 1.1 Z personálního oddělení průmyslového podniku jsme získali údaje o zařazení do tarifních tříd v souboru 75 pracovníků. Údaje jsou v tabulce 1.2
Zdroj: Hindls, R., Hronová, S.,Seger, J., Statistika pro ekonomy, Professional Publishing, Praha, 2007
Rozdělení četností, příklad
Rozdělení četností, příklad
Příklady
Zdroj: Jarošová, E.,Marek, L., Statistika pro ekonomy, II vydání, 2007
a) Typ domácnosti
Četnost
Varianta znaku Z Absolutní ni
Celkem
Relativní pi
a) Typ domácnosti
Četnost
Varianta znaku Z
Zaměstnanecká jiná
Celkem
Absolutní ni
Relativní pi
13
0,42
18
0,58
31
1,00
b) Počet členů domácnosti Četnost
Varianta znaku Absolutní ni
1 2 3 4 5 6
Celkem
Kumulativní četnost Relativní pi
Absolutní
Relativní
b) Počet členů domácnosti Četnost
Varianta znaku
Kumulativní četnost
Absolutní ni
Relativní pi
Absolutní
Relativní
1 2 3 4 5 6
3 6 4 10 5 3
0,0968 0,1935 0,1290 0,3226 0,1613 0,0968
3 9 13 23 28 31
0,0968 0,2903 0,4194 0,7419 0,9032 1,000
Celkem
31
1,0000
x
x
c) Měsíční výdaje domácnosti za potraviny Interval pro měsíční výdaje za potraviny
3000 a méně 3001 – 4000 4001 – 5000 5001 – 6000 6001 – 7000 7001 – 8000 8001 a více
Celkem
Četnost Absolutní ni
Kumulativní četnost Relativní pi
Absolutní
Relativní
c) Měsíční výdaje domácnosti za potraviny Četnost
Kumulativní četnost
Interval pro měsíční výdaje za potraviny
Absolutní ni
Relativní pi
Absolutní
Relativní
3000 a méně 3001 – 4000 4001 – 5000 5001 – 6000 6001 – 7000 7001 – 8000 8001 a více
3 5 6 5 8 2 2
0,0968 0,1613 0,1935 0,1613 0,2581 0,0645 0,0645
3 8 14 19 27 29 31
0,0968 0,2581 0,4516 0,6129 0,8710 0,9355 1,0000
Celkem
31
1,0000
x
x
Souhrnné charakteristiky Problém s průměry
Obr.11 Zdroj: SAVAGE, S. L.; DANZIGER, J.: The Flaw of Averages: Why We Underestimate Risk in the Face of Uncertainty. New York : John Wiley & Sons, 2009
Souhrnné charakteristiky Potíže, které má mnoho inteligentních lidí se sčítáním, jsou nekonečné. M. Greenwood
• Míry polohy – určují typické rozložení hodnot souboru • Střední hodnoty • Kvantily • Míry variability – určují variabilitu (rozptyl) hodnot kolem své typické hodnoty • Absolutní • Relativní • Šikmost • Špičatost
Histogram
Graf četností Četnost jednotlivých hodnot Četnost intervalu hodnot Histogram 6
5
5 Četnost
4
4 3 2 1
2 1
0 1
2
3
Hodnota
4
Souhrnné charakteristiky Příklad Rozdělení chlapců ve věku 9,5-10 let podle tělesné výšky (délka třídního intervalu 5 cm)
Střed třídy xi
Absolutní četnost ni
Relativní četnost ni /n
Kumulativní absolutní četnost
Kumulativní relativní četnost
120
13
0,0040
13
0,0040
125
95
0,0294
108
0,0334
130
414
0,1281
522
0,1615
135
880
0,2724
1402
0,4339
140
1013
0,3135
2415
0,7474
145
582
0,1801
2997
0,9275
150
199
0,0616
3196
0,9891
155
29
0,0090
3225
0,9981
160
6
0,0019
3231
1,0000
3231
1,0000
-
Celkem
-
Souhrnné charakteristiky
Histogram výběrového rozdělení tělesné výšky 3231 chlapců ve věku 9,5-10 let (délka třídního intervalu 5 cm) a teoretická hustota normálního rozdělení
Souhrnné charakteristiky Míry polohy
Aritmetický průměr - součet hodnot dělený jejich počtem. Průměr (aritmetický průměr) používáme, když čísla můžeme opravdu
sčítat, tj. znaky jsou kvantitativní, měřené na číselné stupnici. k
x
k
i
X
i 1
n
prostý tvar
x *n i
X
i 1
k
ni i 1
i
k
X xi * pi i 1
vážený tvar
Příklad: Vypočtěte průměr následujících výsledků vyšetření: 39, 42, 73, 67, 24, 55.
Souhrnné charakteristiky Míry polohy
Aritmetický průměr - součet hodnot dělený jejich počtem. Průměr (aritmetický průměr) používáme, když čísla můžeme opravdu
sčítat, tj. znaky jsou kvantitativní, měřené na číselné stupnici. k
x
k
i
X
i 1
n
prostý tvar
x *n i
X
i 1
k
ni i 1
i
k
X xi * pi i 1
vážený tvar
Příklad 1: Vypočtěte průměr následujících výsledků vyšetření: 39, 42, 73, 67, 24, 55. Řešení: Součet pozorování je 300. Počet pozorování je 6. Průměrem je podíl 300/6 = 50.
Souhrnné charakteristiky Míry polohy Příklad 2: Rozdělení chlapců ve věku 9,5-10 let. Aritmetický průměr vážený pro n = 3231, k = 9 a
k
x * n 447570 i
i 1
k
x *n i
X
i
i 1
k
n
i
i 1
i
Souhrnné charakteristiky Míry polohy Příklad 2: Rozdělení chlapců ve věku 9,5-10 let. Aritmetický průměr vážený pro n = 3231, k = 9 a
k
x * n 447570 i
i 1
k
x *n i
X
i
i 1
k
n
i
i 1
447570 138,52 3231
i
Souhrnné charakteristiky Míry polohy Geometrický průměr - n-tá odmocnina ze součinu kladných hodnot. Využívá se k výpočtu průměrného růstu XG
k
n
x
ni
i
x n
n1 1
*x
n2
i 1
prostý tvar
2
* ... * x
nk
k
XG n
n
x
i
n x1 * x 2 * ... * xn
i 1
vážený tvar
Příklad 3: Spočtěte geometrický průměr z následujících pěti hodnot: 4, 8, 16, 16 a 64 a)
5
4 * 8 *16 *16 * 64 5
aritm.průměr 21,6
Souhrnné charakteristiky Míry polohy Geometrický průměr - n-tá odmocnina ze součinu kladných hodnot. Využívá se k výpočtu průměrného růstu XG
k
n
x
ni
i
x n
n1 1
*x
n2
2
* ... * x
nk
k
XG n
i 1
prostý tvar
n
x
i
n x1 * x 2 * ... * xn
i 1
vážený tvar
Příklad 3: Spočtěte geometrický průměr z následujících pěti hodnot: 4, 8, 16, 16 a 64 aritm.průměr 21,6 4 * 8 *16 *16 * 64 5 524288 13,929 1 n log XG * log xi b) Zjednodušení postupu: , logaritmus geometrického n i 1 a)
5
průměru je roven průměru zlogaritmovaných pozorování. Zlogaritmováním zjištěných hodnot dostaneme čísla 0,60, 0,90, 1,20, 1,20 a 1,81. Jejich aritmetický průměr je 1,142. 101,142 13,9
Odlogaritmováním této hodnoty průměru jako 13,9.
dostaneme hodnotu geometrického
Souhrnné charakteristiky Míry polohy Harmonický průměr - počet hodnot proměnné dělený součtem jednotlivých obrácených hodnot. Hodnota, obracená aritmetickému průměru obracených hodnot původních dat. Využití v případech, kdy pracujeme s proměnnou vyjadřující relativní změny (např. průměrná rychlost, průměrná délka potřebná ke splnění určitého úkonu).
XH
n k
1 i 1 xi
prostý tvar
XH
k
n
1 k
i 1
pi xi
vážený tvar
XH
i
i 1 k
ni i 1 xi
Příklad 3: Spočtěte harmonický průměr z následujících pěti hodnot: 4, 8, 16, 16 a 64
XH
5 9,69 1 1 1 1 1 4 8 16 16 64
Souhrnné charakteristiky Míry polohy
X
Modus - nejčastěji se vyskytující kategorie sledované proměnné ve vztahu k nejbližšímu okolí Příklad 4: Co je modus v následujících výsledcích zjišťování krevních skupin: A, 0, 0, B, B, AB, A, A, 0, 0, 0, AB, B, 0, B, A, 0, AB, 0, 0, B, 0, A?
krevní skupina
A B AB 0
četnost výskytu
Souhrnné charakteristiky Míry polohy
Modus X - nejčastěji se vyskytující kategorie sledované proměnné ve vztahu k nejbližšímu okolí Příklad 4: Co je modus v následujících výsledcích zjišťování krevních skupin: A, 0, 0, B, B, AB, A, A, 0, 0, 0, AB, B, 0, B, A, 0, AB, 0, 0, B, 0, A?
krevní skupina
četnost výskytu
A
5
B
5
AB
3
0
10
Souhrnné charakteristiky Míry polohy Medián
~ X
Máme-li pozorování uspořádána vzestupně nebo sestupně, potom medián je ta hodnota, která rozdělí pozorování na dvě stejně velké skupiny. Přesněji řečeno, máme-li lichý počet uspořádaných pozorování, pak mediánem je prostřední z nich. U sudého počtu se mediánem rozumí obvykle průměr ze dvou prostředních pozorování. Medián využívá pouze informaci o pořadí hodnot, a proto ho má smysl používat pouze pro kvantitativní a ordinální veličiny. Příklad 5: Co je mediánem následujících výsledků vyšetření: 61, 49, 35, 74, 53, 82? Řešení: Uspořádejme pozorování vzestupně: 35, 49, 53, 61, 74, 82. Mediánem je průměr z hodnot 53 a 61, tj. (53 + 61)/2 = 57
Souhrnné charakteristiky Míry polohy p-procentní kvantil Určení pořadí jednotky 1) Datový soubor uspořádáme vzestupně podle velikosti 2) Seřazeným pozorováním přiřadíme pořadí od 1 do n 3) p%-ní kvantil je potom roven pozorování s pořadím zp
p p n* Zp n * 1 ~ 100 100 X pojmenované kvantily
• kvartily (25%, 50% a 75% kvantily) • decily (10%, 20%, ..., 90% kvantily) • percentily (1%, 2%, ..., 99% kvantily)
Souhrnné charakteristiky Příklad 6: Porovnáme statistické údaje hmotnosti 10. kaprů v jedné kádi
xi = {1.4; 0.8; 1.2; 1.6; 2.3; 1.3; 1.3; 0.9; 1.5; 2.1} Medián hmotnosti kapru je Konce dolního a horního fousu jsou (nejmenší hodnota vůbec) Největší hodnota Aritmetický průměr Kvartily jsou Mezikvartilové rozpětí Zdroj: http://vydavatelstvi.vscht.cz/knihy/uid_isbn-80-7080-569-2/pdf/012.pdf
Souhrnné charakteristiky Příklad: Porovnáme statistické údaje hmotnosti 10. kaprů v jedné kádi
xi = {1.4; 0.8; 1.2; 1.6; 2.3; 1.3; 1.3; 0.9; 1.5; 2.1} Medián hmotnosti kapru je 1,35 Konce dolního a horního fousu jsou (nejmenší a největší hodnota) 0,8 a 2,1 Největší hodnota 2,3 odlehlá Aritmetický průměr 1,4 Kvartily jsou 1,2 a 1,6 Mezikvartilové rozpětí 0,4 Zdroj: http://vydavatelstvi.vscht.cz/knihy/uid_isbn-80-7080-569-2/pdf/012.pdf
Souhrnné charakteristiky Míry variability Absolutní míry variability Variační rozpětí R - rozdíl největší a nejmenší hodnoty znaku
R X max X min Rozptyl - průměr čtverců odchylek jednotlivých hodnot znaku od jeho aritmetického průměru n
S
2 X
2 ( x i x ) i 1
prostý tvar
n
Souhrnné charakteristiky Míry variability Absolutní míry variability - rozptyl n
S x2
2 ( x x ) * ni i i 1
k
n i 1
i
k 2 x * n x * n i i i i i 1 S x2 x 2 x 2 i 1 k k ni ni i 1 i 1 n
vážený tvar
Souhrnné charakteristiky Míry variability Absolutní míry variability Směrodatná odchylka - druhá odmocnina z rozptylu. Uvedena ve stejných jednotkách jako zkoumaný statistický znak.
Sx S
2 x
Souhrnné charakteristiky Míry variability Relativní míry variability Variační koeficient - podíl směrodatné odchylky a aritmetického průměru sledované proměnné.
Sx Vx x Bezrozměrný, vyjadřuje relativní míru variability. Pro porovnání variability proměnných vyjádřených v různých jednotkách
Souhrnné charakteristiky Příklad
Zdroj: Simulační nástroj Profeta Risk Analyzer
Souhrnné charakteristiky Příklad Navštívili jsme dvě restaurace a sledovali počet objednaných jídel v průběhu stejného časového úseku. V první restauraci bylo objednáno
během pěti hodin: 1,1,2,1,10 a ve druhé: 2,4,3,4,2. Pro každou restauraci spočítejte následující míry: 1. Průměr 2. Medián 3. Rozptyl 4. Variační rozpětí 5. Variační koeficient Výsledky porovnejte a interpretujte
Souhrnné charakteristiky Výsledky 1
Souhrnné charakteristiky Výsledky 2
Souhrnné charakteristiky Rozklad rozptylu Máme-li datový soubor, který je rozdělen na skupiny a jsou-li zadané skupinové četnosti, skupinové průměry a skupinové rozptyly, počítáme celkový rozptyl pomocí rozkladu rozptylu na meziskupinovou a vnitroskupinovou variabilitu.
Souhrnné charakteristiky Rozklad rozptylu - vzorec Pokud máme statistický soubor o n jednotek rozdělen do k dílčích podsouborů, kde známe dílčí rozptyly, dílčí průměry a dílčí četnosti, potom rozptyl celého souboru je dán součtem rozptylu skupinových průměrů a průměrů ze skupinových rozptylů.
Souhrnné charakteristiky Rozklad rozptylu - příklad Dvě restaurace nabízejí v rámci polední nabídky hotová jídla. Restaurace číslo 1 prodala za měsíc 2000 hotových jídel, za průměrnou cenu 75 Kč, cena má směrodatnou odchylku 5. Restaurace číslo 2 prodala za měsíc 1500 hotových jídel za průměrnou cenu 85 Kč, cena má směrodatnou odchylku 10 Kč. Jaký je variační koeficient ceny hotových jídel za obě cukrárny? Zajímá nás, jak variabilita ceny hotových jídel kolísá během měsíce.
Souhrnné charakteristiky Rozklad rozptylu – příklad Výsledky
Souhrnné charakteristiky Rozklad rozptylu - příklad
Souhrnné charakteristiky Šikmost a špičatost Charakteristika šikmosti – popisuje soubor hodnot sledované proměnné z hlediska koncentrace malých a velkých hodnot sledované proměnné v porovnání se symetrickým rozdělením četností.
a) Pokud je koeficient šikmosti kladný = větší koncentrace malých hodnot v souboru. b) Pokud je koeficient šikmosti záporný = větší koncentrace velkých hodnot v souboru. c) Pokud je koeficient šikmosti roven nule = rozdělení hodnot je symetrické.
Zdroj: Mandelbrot, B. a Richard, L. H.: The Misbehavior of Markets: A Fractal View of Financial Turbulence. Basic Books, 2006.
Popisná statistika v Excelu Každá funkce v Excelu má své klíčové slovo. Průvodce funkcí (tlačítko fx na začátku stavového řádku). Je třeba zadat do závorky z čeho má být příslušná funkce počítána. Funkce pro popisnou statistiku
POPISNÁ CHARAKTERISTIKA NÁZEV FUNKCE V EXCELU
Rozsah souboru
=POČET
Aritmetický průměr
=PRŮMĚR
Harmonický průměr
=HARMEAN
Geometrický průměr
=GEOMEAN
Modus
=MODE
Medián
=MEDIAN
25 % kvartil
=PERCENTIL
Součet hodnot
=SUMA
Rozptyl
=VAR
Výběrový rozptyl
=VAR.VÝBĚR
Směrodatná odchylka
=SMODCH
Výběrová směrodatná odchylka
=SMODCH.VÝBĚR
Maximum
=MAX
Minimum
=MIN
Šikmost
=SKEW
Špičatost
=KURT
Souhrnné charakteristiky Šikmost a špičatost Charakteristika špičatosti – popisuje soubor hodnot sledované proměnné z hlediska koncentrace hodnot v souboru kolem střední hodnoty (v porovnání s tzv. Gaussovou křivkou). Čím je hodnota koeficientu špičatosti vyšší, tím je rozdělení četností strmější a v souboru je vyšší koncentrace hodnot blízkých střední hodnotě.
Zdroj: Mandelbrot, B. a Richard, L. H.: The Misbehavior of Markets: A Fractal View of Financial Turbulence. Basic Books, 2006.
Vlastností aritmetického průměru
1. 2. 3.
4. 5. 6. 7.
𝑛 𝑖=1
𝑥𝑖 − 𝑥 = 0 𝑘=𝑘 𝑥∗𝑘 =𝑥∗𝑘 𝑥 + 𝑘 = 𝑥 +k 𝑛 2 𝑥 − 𝑥 < 𝑖=1 𝑖 𝑥±𝑦 =𝑥±𝑦 𝑥𝐻 ≤ 𝑥𝐺 ≤ 𝑥
𝑛 𝑖=1
𝑥𝑖 − 𝑎
2
Výpočet váženého aritmetického průměru
Příklad 1.1 Tarifní třída dělníků 𝒙 𝒊 ∗ 𝒏í 6 44 95 162
112 419
𝑥=
419 75
= 5,6
Grafy
Polygon rozdělení četností
Kvantily
Kvantil – hodnota, která rozděluje soubor hodnot statistických znaků na 2 části, p % hodnot menších nebo rovných hodnotě p% kvantilu a (100-p) % větších p% kvantilu. Hodnoty menší, než ta, co leží na kvantilu, tvoří stanovenou část rozsahu souboru. 𝑍𝑝 – pořadové číslo jednotky
p p n* Zp n * 1 100 100
Příklady Kvantily Příklad 1.1 Počet odpracovaných hodin, n=75 pracovníků. 25% kvantil
𝑥0,25 : 75 ∗
25 100
< 𝑍𝑝 < 75 ∗
25 100
+1
18,75 < Zp < 19,75 Zp = 19 =≫ 𝑥0,25 leží v intervalu 160-180, střed 170
Výpočet kvantilu na intervalovém rozdělení četnosti 𝑧𝑝−𝑛1 𝑥𝑝 = ∗ ℎ𝑝 + 𝑎𝑝 , 𝑛2 𝑍𝑝 = n ∗ p + 0,5 Zp – pořadové číslo jednotky, jejíž hodnota bude hledaný kvantil. n – rozsah souboru p – relativní četnost hodnot 𝑛1 − kumulativní četnost jednotek ležících před kvantilovým intervalem 𝑛2 −četnost intervalu, v němž leží hledaný kvantil hp – délka kvantilového intervalu ap – dolní hranici kvantilového intervalu
Výpočet mediánu na intervalovém rozdělení četnosti c) Měsíční výdaje domácností za potraviny Četnost
Kumulativní četnost
Interval pro měsíční výdaje za potraviny
Absolutní ni
Relativní pi
Absolutní
Relativní
3000 a méně 3001 – 4000 4001 – 5000 5001 – 6000 6001 – 7000 7001 – 8000 8001 a více
3 5 6 5 8 2 2
0,0968 0,1613 0,1935 0,1613 0,2581 0,0645 0,0645
3 8 14 19 27 29 31
0,0968 0,2581 0,4516 0,6129 0,8710 0,9355 1,0000
Celkem
31
1,0000
x
x
𝑍0,25 = 31 ∗ 0,25 + 0,5 = 8,25
𝑥0,25 =
𝑍0,5 = 31 ∗ 0,5 + 0,5 = 16
𝑥=
8,25−3 ∗ 5
16−14 ∗ 5
1000 + 3001 = 4051
1000 + 5001 =5401
Míry absolutní variability Rozptyl Míra variability, která současně měří variabilitu kolem aritmetického průměru a variabilitu přes vzájemné odchylky jednotlivých hodnot znaků je rozptyl.
Rozptyl – průměr čtverců odchylek jednotlivých hodnot od jejích aritmetického průměru.
Výpočet rozptylu 𝒏 𝒊=𝟏
𝒙𝒊 −𝒙 𝟐 = - základní tvar, definice 𝒏 𝑛 2 − 2𝑥 𝑛 𝑥 + 𝑛𝑥 2 𝑛 2 𝑥 − 𝑥 = 𝑥 𝑖 𝑖=1 𝑖=1 𝑖 𝑖=1 𝑖
𝑺𝟐𝒙
Výpočtové tvary rozptylu 1.
𝑺𝟐𝒙 =
2.
𝑺𝟐𝒙
3.
𝑺𝟐𝒙
𝒙𝒊 𝟐 𝒏
−
= 𝒙𝟐 − 𝒙𝟐
𝒙𝒊 𝟐 −𝒏∗𝒙𝟐
= =
𝒙𝒊 𝟐 𝒏
𝒏 𝟏 𝒏
𝟐
𝟏 𝒏
𝒙𝒊 − ∗
𝒙𝒊
𝟐
Výpočet rozptylu příklad
V tabulce jsou údaje o tydenních mzdách ve dvou dílnách. Prorvnáme variabilitu v obou dílnách výpočtem rozptylu ve tvaru (1)
2
𝑆𝑥 =
100220862 12
−
2
112820518 12
−
𝑆𝑥 =
34246 2 12 36500 2 12
= 207375,708 – I dílna = 149971,694 – II dílna
𝑆𝑥 2 𝐼 > 𝑆𝑥 2 𝐼𝐼
Směrodatná odchylka 𝑆𝑥 = S1= 207375 = 455,4
𝑆𝑥 2 =
𝒏 𝒊=𝟏
𝒙𝒊 −𝒙 𝒏
𝟐
S2= 149971 = 387,3
Výpočet rozptylu ve váženém tvaru
2
𝑆𝑥 =
5407 33
−
359 33
= 45,5
Vlastnosti rozptylu 1. 2. 3. 4.
𝑆𝑐𝑜𝑛𝑠𝑡 2 =0 𝑆𝑥+𝑐𝑜𝑛𝑠𝑡 2 =𝑆𝑥 2 𝑆𝑥∗𝑐𝑜𝑛𝑠𝑡 2 =𝑐𝑜𝑛𝑠𝑡 2 ∗ 𝑆𝑥 2 𝑆𝑥±𝑦 2 = 𝑆𝑥 2 +𝑆𝑦 2 ± 2 ∗ 𝑆𝑥𝑦 , kde 𝑆𝑥𝑦 - kovariance dvou proměnných charakterizuje jejích vzájemnou závislost 𝑛
5.
1 𝑆𝑥𝑦 = 𝑥𝑖 − 𝑥 𝑛 𝑖=1 Rozklad rozptylu
𝑦𝑖 − 𝑦 =
𝑥𝑖 ∗ 𝑦𝑖 −𝑥∗𝑦 =𝑥∗𝑦−𝑥∗𝑦 𝑛 2
𝑆𝑥 2 = 𝑆𝑥 + 𝑆𝑥
Variabilita uvnitř skupiny, dílčí rozptyly
2
Variabilita mezi skupinami, dílčí průměry
Příklad Rozklad rozptylu
Příklad Variační rozpětí
2. Teorie pravděpodobnosti
Náhodná veličina – X, Y, Z
spojitá nespojitá
Náhodný jev – x, y, z Zákon rozdělení náhodné veličiny – pravidlo, které každé hodnotě přiřadí pravděpodobnost její výskytu Pravděpodobnostní funkce - nejjednodušší forma vyjádření zákonu rozdělení, pravděpodobnost, že diskrétní veličina X nabude hodnoty právě x.
𝑃 𝑥 =𝑃 𝑋=𝑥 2.
0≤𝑃 𝑥 ≤1 𝑥𝑃 𝑥 = 1
3.
𝑃 𝑥1 ≤ 𝑋 ≤ 𝑥2 =
1.
𝑥2 𝑥=𝑥1 𝑃
𝑥
Distribuční funkce je forma popisu spojité a nespojité náhodné veličiny, pravděpodobnost, že veličina X nabude hodnoty nejvýše x.
Hustota pravděpodobnosti
𝑓 𝑥 = 𝐹′(𝑥)
Charakteristiky náhodné veličiny
Střední, očekávaná hodnota Rozptyl Směrodatná odchylka Rozdělení pravděpodobností náhodné veličiny, obdobně jako rozdělení četností, mají svoje charakteristické vlastnosti: polohu, variabilitu, šikmost a špičatost
Rozdělení diskrétních veličin Sledováním nebo měřením náhodné veličiny lze určit rozdělení četností (např. relativních četností) naměřených hodnot. Můžeme ale také uvažovat rozdělení pravděpodobností hodnot náhodné veličiny Alternativní, Geometrické rozdělení – hod kostky 𝑷 𝟎 = 𝟏 − 𝝅; 𝑷 𝟏 = 𝝅; 𝐄 𝐱 = 𝛑; 𝑫 𝒙 = 𝝅(𝟏 − 𝝅)
Poissonovo rozdělení s parametrem 𝝀 >0 – pepř v polívce 𝑬 𝒙 = 𝝀; 𝑫 𝒙 = 𝝀
Binomické rozdělení – hod minci 𝐸 𝑥 = 𝑛𝜋, 𝐷 𝑥 = 𝑛𝜋(1 − 𝜋) Hypergeometrické rozdělení – kontrola kvality součástek, nevíme předem kolik z toho jsou zmetky
Rozdělení spojitých veličin
Rovnoměrné
Normální Laplaceovo – Gaussovo 𝐸 𝑥 =𝜇
𝐷 𝑥 = 𝜎2
Trojúhelníkové
Lognormální
Normální rozdělení
Rozdělení pravděpodobnosti spojité náhodné veličiny Charakterizováno střední hodnotou a směrodatnou odchylkou Normované normální rozdělení
Střední hodnota = 0 Směrodatná odchylka = 1
3. Teorie odhadu Odhadování vlastností (parametrů) celého základního souboru (populace) na základě výběrového souboru a jeho výběrových charakteristik je zevšeobecňující
úsudek Předpokladem zobecňujících úsudků je náhodný výběr při získávání jednotek do výběrového souboru (losování, výběr pomocí tabulek náhodných čísel, systematický výběr).
K odhadu charakteristiky nelze využít jakoukoliv charakteristiku, ale takovou, která splňuje určitá kritéria.
Kritéria použití charakteristiky k odhadu
1) Nestrannost = zvolená statistika by neměla vést k systematickému nadhodnocování nebo podhodnocování odhadované charakteristiky (zkreslení)
2) Konzistence = s rostoucím rozsahem výběru by se měl odhad charakteristiky blížit hodnotě charakteristiky základního souboru
3) Vydatnost = velikost rozptylu (čím nižší hodnoty rozptylu výběrové charakteristiky, tím menší zkreslení odhadu základní charakteristiky)
4) Dostatečnost = mimo výběrové statistiky neexistuje žádná jiná statistika, která by poskytovala další doplňující informace o odhadované charakteristice základního souboru
Bodový odhad Odhadované charakteristiky
Základní soubor sigma 𝜎, mi 𝜇,
pi π
Bodový odhad
Intervalový odhad intervalový odhad je interval, který bude s vysokou pravděpodobností obsahovat skutečnou hodnotu odhadované charakteristiky základního
souboru charakteristiky odhadované intervalový odhad = interval, který bude s vysokou pravděpodobností obsahovat skutečnou hodnotu odhadované charakteristiky základního souboru
základní střední hodnota při známém základním rozptylu
Příklad
Výsledek
Příklad 2
Výsledek
Časové řady časová řada: posloupnost hodnot sledovaného ukazatele, která je uspořádána v čase.
Příklad
Výsledek
Dekompozice časové řady
Typy trendů
Lineární trend s prognózou Pohyb cen akcí VW s porgnózováním lineární trend 170 y = 0,0399x - 1513,6 R² = 0,3956
160 150 140 130 120 110 100
90 80
Pohyb cen akcí VW
Линейная (Pohyb cen akcí VW)
Další trendové křivky Pohyb cen akcí VW s porgnózováním 170
y = 2E-07x3 - 0,0212x2 + 859,84x - 1E+07 R² = 0,5399
160 150
y = 0,0399x - 1513,6 R² = 0,3956
140 130 120
110 100 90 80
Pohyb cen akcí VW
Линейная (Pohyb cen akcí VW)
Полиномиальная (Pohyb cen akcí VW)
Příklad
Výsledek
Klouzavé průměry
Praktické využití klouzavých průměrů Price VW zkrácená řada každá třetí 170 160 150 140 130 120 110 100 90 80
Price VW zkrácená řada každá třetí
Klouzavý průměr 5
Trendová analýza na finančním trhu Býčí a medvědí trend na finančním trhu: Klouzavé průměr y 5 – 10 období nebo 12 - 24
Price VW Volume 3.11.2012
3.10.2012
3.9.2012
3.8.2012
3.7.2012
3.6.2012
3.5.2012
3.4.2012
3.3.2012
3.2.2012
3.1.2012
3.12.2011
3.11.2011
3.10.2011
3.9.2011
3.8.2011
3.7.2011
3.6.2011
3.5.2011
3.4.2011
3.3.2011
3.2.2011
3.1.2011
Skutečné prodeje Prodej akcí VW
180 25000
160
140 20000
120
100 15000
80
10000
60
40 5000
20
0 0
4. Indexní analýza
Indexní analýza
Index
– bezrozměrné číslo vyjadřující změnu sledovaného ukazatele mezi dvěma obdobími nebo místech srovnání v relativním vyjádření
𝐼
Diference – absolutní rozdíl, číslo vyjadřující změnu sledovaného ukazatele mezi dvěma obdobími nebo místech srovnání (ve stejných
měrných jednotkách jako sledovaný ukazatel) Δ
bazický index versus řetězový index individuální indexy souhrnné (cenové a množstevní) jednoduché (p,q,Q) a složené (Σq,ΣQ,ppr) Paascheho, Laspeyresův, Fisherův index
Bazické a řetězové indexy
Příklad
Řešení
Souhrnné indexy
Objemové indexy
Příklad
Řešení
5. Demografie
Demografická struktura
Pohyb obyvatel
Zahraniční a vnitřní migrace
6. Pojištění
Děkuji za pozornost