STATISTIKA 1
Adam Čabla Katedra statistiky a pravděpodobnosti VŠE
KONTAKTY
WWW: sites.google.com/site/adamcabla E-mail:
[email protected] Telefon: 777 701 783 NB367 na VŠE, konzultační hodiny:
Pondělí 13:25 – 14:25 Čtvrtek 9:05 – 10:05 Možnost dohody
NÁPLŇ KURZU STATISTIKA 1 Základní pojmy Četnosti Tabulky a grafy Míry polohy Míry variability Indexní analýza
ZKOUŠKA Písemná forma – 1 test za 100 bodů 60 bodů příklady 20 bodů teoretické otázky typu a,b,c,d (5x4) 20 bodů tvrzení ano x ne (5x4) Literatura: Hindls, Hronová – Statistika pro ekonomy
STATISTIKA Statistics is the study of the collection, organization, analysis, and interpretation of data. It deals with all aspects of this, including the planning of data collection in terms of the design of surveys and experiments. [wiki] Popisná statistika je základem poznání dat – shrnuje zjištěné poznatky, popisuje nasbíraná data.
STATISTICKÁ JEDNOTKA Prvek, jehož vlastnosti zkoumáme Př.: lidé, podniky, státy, psi, studenti..
Statistika se obvykle zabývá souhrnným zkoumáním vlastností vícero statistických jednotek.
STATISTICKÝ ZNAK Vlastnost, kterou zkoumáme Př.: národnost, zisk, HDP, rasa, spotřeba alkoholu..
Statistické znaky mají různé vlastnosti, podle kterých se dělí. Nazývá se též statistickou proměnnou
KVALITATIVNÍ STATISTICKÉ ZNAKY Kvalitativní je takový znak (vlastnost), kterou lze vyjádřit slovně Nominální: takové vlastnosti, které jsou u prvků buď stejné nebo odlišné (př.: národnost) Ordinální: takové vlastnosti, které můžeme seřadit logicky vzestupně či sestupně (př.: pořadí, známka(!))
KVANTITATIVNÍ STATISTICKÉ ZNAKY Kvantitativní je takový znak, který lze vyjádřit číselně. Spojité jsou takové znaky, které můžou nabýt teoreticky libovolnou číselnou hodnotu (Př.: teplota) Diskrétní jsou takové znaky, které můžou nabýt pouze omezené (byť nekonečné) množství hodnot (Př.: počet dětí)
STATISTICKÝ SOUBOR Statistický soubor je souhrnem statistických jednotek Základní soubor je souborem všech jednotek, o kterých chceme činit závěry (Př.: obyvatelstvo ČR) Výběrový soubor je vybranou částí základního souboru, kterou většinou prakticky zkoumáme (Př.: vybraní respondenti průzkumu)
ŠETŘENÍ Úplné šetření je zkoumáním celého základního souboru (Př.: SLDB) Výběrové šetření je zkoumáním části základního souboru – tzv. výběrového souboru (Př.: průzkum veřejného mínění) Vždy je dobré si uvědomit, co přesně je základním souborem (např. chci zkoumat životní podmínky důchodců, tak nebudu chodit s dotazníkem po středních školách)
STATISTICKÉ TABULKY Výsledky výzkumu se obvykle shrnují do statistický tabulek, ve kterých je úzus: Ve sloupcích psát statistické znaky V řádcích psát statistické jednotky V průsečíku řádku a sloupce psát hodnotu daného znaku u dané jednotky
domac
STATISTICKÁ TABULKA – PŘ.: osob
vek_p
vek_m
pohl_p
vzd_p
vzd_m
prac_prij
soc_prij
cp_prij
310100011
1
70
0
2
6
0
0
374
37400
310100031
2
55
0
1
2
0
240
288
60800
310100061
3
38
0
1
6
0
1049,36
536
158536
310100071
1
63
0
2
2
0
0
373
37300
310100101
1
80
0
2
3
0
0
326
32600
310100111
2
69
70
1
1
1
198
547
74500
310100131
2
80
73
1
6
6
0
677
67700
310100141
1
72
0
1
1
0
0
306
30600
310100151
1
63
0
1
4
0
0
405
40500
310100161
1
33
0
2
2
0
475,42
0
47542
310100171
1
66
0
2
3
0
0
355
35500
310100181
2
60
66
1
6
4
0
642
64200
310100191
3
61
57
1
4
1
0
590
59000
310100211
1
71
0
1
2
0
0
316
31600
310100221
3
46
0
2
2
0
911,37
297
120837
310100261
4
47
38
1
2
2
1948,08
50
208208
310100301
1
73
0
2
3
0
0
306
30600
310100302
1
21
0
1
4
0
778,85
0
77885
310100311
1
69
0
2
5
0
0
386
38600
310100312
1
32
0
2
6
0
875,47
0
87547
310100321
1
82
0
2
3
0
0
302
30200
310100391
2
24
0
1
6
0
266,04
411
126204
310100392
1
57
0
2
1
0
0
280
28000
310100411
1
67
0
2
3
0
0
278
27800
310100471
1
72
0
2
5
0
0
286
28600
310100491
2
67
63
1
4
3
0
643
99300
310100492
4
36
30
1
6
4
699,17
280
97917
310100501
2
77
0
2
2
0
0
373
52300
310100511
4
37
35
1
4
6
3461,93
131
359293
310100521
1
69
0
2
1
0
0
276
33600
310100531
2
45
0
2
1
0
444,6
81
54260
310100532
3
25
24
1
1
1
919,69
180
109969
310100541
2
87
80
1
6
3
0
452
45200
310100542
3
29
30
1
6
6
756,67
105
86167
310100551
2
67
63
1
4
3
0
642
84500
310100561
3
40
38
1
6
4
1279,72
50
132972
310100591
1
40
0
1
2
0
792,87
0
79287
310100611
1
78
0
2
5
0
0
298
29800
4
38
0
2
2
0
488,07
224
83207
310100621
ČETNOST Má smysl u všech proměnných s výjimkou spojitých Absolutní četnost je počet výskytů varianty sledovaného znaku Relativní četnost je podíl zastoupení varianty sledovaného znaku
ČETNOST - ZNAČENÍ
Varianty značíme obvykle xi pro i = 1, 2, …, k
Absolutní četnosti značíme obvykle ni
Máme tedy k variant daného znaku Součet všech četností všech znaků je n, což je zároveň počet zkoumaných jednotek
Relativní četnosti značíme obvykle pi Relativní četnost je podíl absolutní četnosti a počtu zkoumaných jednotek Součet všech relativních četnosti se rovná 1
.
TABULKA ČETNOSTÍ Tabulka četností je shrnutím četnosti zastoupení variant daného znaku. Jedná se o shrnutí poznatku o zastoupení jednotlivých variant. i
ni
pi
1
n1
p1
2
n2
p2
k-1
nk-1
pk-1
k
nk
pk
Součet
n
1
…
PŘÍKLAD Domácnost
Počet členů
A
2
B
3
C
1
D
2
E
2
F
3
G
5
H
3
I
2
J
1
K
2
L
3
Vytvořte tabulku absolutních a relativních četností
PŘÍKLAD - VÝSLEDEK Počet členů
ni
pi
1
2
0,17
2
5
0,42
3
4
0,33
5
1
0,08
Součet
12
1
KUMULATIVNÍ ČETNOSTI Kumulativní četnosti jsou četnosti daného znaku, které nabyly hodnoty menší nebo rovné té variantě znaku, pro kterou se počítá Kumulativní četnosti jsou absolutní i relativní Kumulativní četnosti (logicky) lze počítat pouze tam, kde lze varianty seřadit podle velikosti
KUMULATIVNÍ ČETNOSTI i
ni
Kumulativní ni
1
n1
n1
2
n2
n1 + n2
..
…
…
k
nk
n1 + n2 +… + nk = n
Příklad: z výsledku předchozího příkladu zjistěte kumulativní četnosti absolutní i relativní
PŘÍKLAD - VÝSLEDEK Počet členů
ni
Kumul ni
pi
kumul pi
1
2
2
0,17
0,17
2
5
7
0,42
0,59
3
4
11
0,33
0,92
5
1
12
0,08
1
Součet
12
xxx
1
xxx
INTERVALOVÉ ROZDĚLENÍ ČETNOSTÍ Používá se u spojitých znaků nebo u diskrétních znaků, které nabývají příliš mnoha obměn (např. platy) Hodnoty znaku rozdělíme do počtu k intervalů o ideálně jednotné délce takové, aby pokryly všechny hodnoty
POČET INTERVALŮ
Neexistuje jednotné pravidlo na vytvoření počtu a délky intervalů. Nemělo by jich být málo, ale v jednotlivých intervalech by mělo být dost pozorování. Existují ovšem některá návodná pravidla, z nich zde budeme používat Sturgessovo:
Pro daný počet intervalů se pak vytvoří vhodná délka tak, aby byla jednotná a obsáhla všechny varianty znaku. V případě extrému můžou být krajní intervaly jiné (obvykle delší typu „do plus nekonečna“)
PŘÍKLAD Domácnost
Příjem
A
7 853
B
12 332
C
28 885
D
14 442
E
17 774
F
24 554
G
13 846
H
25 523
I
41 945
J
27 950
Vytvořte tabulku intervalových četností – absolutních i relativních včetně kumulativních
PŘÍKLAD – ŘEŠENÍ 1 Počet intervalů: k = 1+3,3 * log 10 = 4,3; tedy 4 Min = 7 853, Max = 41 945; Rozdíl = 34 092 Délka intervalu: 34 092/4 = 8 523; zaokrouhleno nahoru (!) 8 600
Intervaly
ni
kumul. ni
pi
kumul. pi
<7 800 – 16 400)
4
4
0,4
0,4
<16 400 – 25 000)
2
6
0,2
0,6
<25 000 – 33 600)
3
9
0,3
0,9
<33 600 – 42 200)
1
10
0,1
1
PŘÍKLAD Pro statistické znaky „Počet členů“ a „Automobil“ vytvořte tabulku rozdělení absolutních a relativních četností. Pokud to dává smysl, vytvořte i sloupec kumulativních četností. Pro statistický znak „Měsíční příjem“ vytvořte tabulku intervalových četností Č
Počet členů
Měsíční příjem
Automobil
1
2
17 364
n
2
3
19 334
a
3
5
29 242
a
4
1
54 253
a
5
3
18 831
a
6
4
35 292
a
7
4
43 292
a
8
3
29 188
a
9
2
9 782
n
10
5
25 123
n
PŘÍKLAD - VÝSLEDEK Automobil
ni
pi
ano
7
0,7
ne
3
0,3
Počet členů
ni
kumul. ni
pi
kumul. pi
1
1
1
0,1
0,1
2
2
3
0,2
0,3
3
3
6
0,3
0,6
4
2
8
0,2
0,8
5
2
10
0,2
1
Celkem
10
xxx
10
xxx
PŘÍKLAD - VÝSLEDEK Intervaly
ni
kumul. ni
pi
kumul. pi
<9 700 – 20 900)
4
4
0,4
0,4
<20 900 – 32 100)
3
7
0,3
0,7
<32 100 – 43 300)
2
9
0,2
0,9
<43 300 – 54 500)
1
10
0,1
1
GRAFY
Grafy v popisné statistice jsou shrnutím informací z tabulek četností v (ideálně) přehledné formě.
Základní typy grafů: Sloupcový graf Polygon četností Histogram četností Výsečový graf
SLOUPCOVÝ GRAF
Ve sloupcovém grafu znázorňuje každý sloupec variantu daného znaku a jeho výška četnost výskytu. Stupnice může být absolutní i relativní 3,5 3 2,5 2 1,5 1 0,5 0
Řada 1
Porsche Škoda Trabant Ferrari
POLYGON ČETNOSTÍ
Polygon četností spojuje body v grafu, kde výška bodu určuje četnost zastoupení varianty a vzdálenost od nuly číselnou hodnotu znaku. Použitelné pouze pro kvantitativní znaky. 3,5 3 2,5 2 1,5 1 0,5 0
Řada 1
5
7
9
11
HISTOGRAM ČETNOSTÍ
Obdoba sloupcového grafu užívána pro intervalové rozdělení četností. Sloupce na sebe naléhají, což naznačuje spojitost intervalů. 3,5 3 2,5 2 1,5 1 0,5 0
Řada 1
VÝSEČOVÝ GRAF Prodej 1. čtvrt.
2. čtvrt.
3. čtvrt.
4. čtvrt.
9% 10%
23%
58%
PŘÍKLAD
U předchozího příkladu nakreslete vhodné grafy
VÝSLEDKY 3,5 3 2,5 2 Řada 1
1,5
1 0,5 0 1
2
3
4
5
VÝSLEDKY Automobil
ne 30%
ano 70%
VÝSLEDKY 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0
Řada 1
MÍRY POLOHY Míra polohy je pokusem shrnout údaje o zkoumaném znaku do jednoho čísla Míra polohy má určit úroveň, typickou hodnotu daného znaku Existují v zásadě tří míry polohy:
Průměry Modus Medián
PRŮMĚRY Průměr je míra polohy počítaná zahrnutím všech hodnot daného znaku. Pro smysluplný výpočet průměru je tedy nutné, aby znak byl kvantitativní. Průměry užíváme:
Aritmetický Harmonický Geometrický
ARITMETICKÝ PRŮMĚR
Aritmetický průměr se získá vydělením součtu všech hodnot daného znaku počtem těchto hodnot.
Tzv. vážený tvar se používá pro výpočet z četnostních tabulek. Jedná se pouze o jiný zápis téhož (viz. následující příklad). Vážený tvar v horním součtu násobí četnost varianty její hodnotou (znak je kvantitativní(!)).
VLASTNOSTI ARITMETICKÉHO PRŮMĚRU Součet jednotlivých odchylek od průměru je nulový Aritmetický průměr konstanty je roven konstantě Přičteme-li k jednotlivým hodnotám konstantu, průměr se zvýší o tuto konstantu Vynásobíme-li jednotlivé hodnoty konstantou, průměr se znásobí touto konstantou
PŘÍKLAD Z následujících čísel spočítejte průměr: 3, 5, 6, 3, 3, 3, 5, 3, 5, 6, 2, 4 Tato čísla zapište do tabulky absolutních četností a s její pomocí vypočtěte aritmetický průměr váženým tvarem.
VÝSLEDEK
Průměr = 48/12 = 4 xi
ni
xi*ni
2
1
2
3
5
15
4
1
4
5
3
15
6
2
12
Součet
12
48
Průměr = 48/12 = 4
HARMONICKÝ PRŮMĚR Používá se k průměrování v případě, kdy je znakem poměrné číslo (např. km/hod, obyv/km2) a váhou (četností) je jednotka v čitateli. Př.: jaká je průměrná rychlost, jestliže na dané dráze byly změřeny dané průměrné rychlosti.
PŘÍKLAD
Následující tabulka udává hustoty obyvatel a počty obyvatel zemí Visegrádské čtyřky. Určete průměrnou hustotu obyvatel celku. Země
Hustota obyvatel na km2
Počet obyvatel
ČR
132
10 400 000
SR
110
5 400 000
Polsko
122
38 100 000
Maďarsko
108
10 000 000
VÝSLEDEK xi
ni
ni/xi
132
10 400 000
78 787,88
110
5 400 000
49 090,91
122
38 100 000
312 295,08
109
10 000 000
92 592,59
Součet
63 900 000
532 766
Průměr: 63 900 000/532 766 = 119,94
GEOMETRICKÝ PRŮMĚR
Používá se k průměrování hodnot indexů – bude součástí indexní analýzy
MODUS Modus je nejčastější varianta sledovaného znaku Lze ho použít pro popis míry polohy všech typů znaků Modální interval je interval s největší četností zastoupení Příklad: Jaký byl modus v příkladě na aritmetický průměr?
MEDIÁN Výsledek příkladu: 3 Medián je prostřední hodnota souboru seřazeného podle hodnot sledovaného znaku Má-li soubor sudý počet jednotek, je medián průměrem dvou prostředních hodnot Medián je tzv. 50% kvantil. Příklad: určete medián v příkladě na aritmetický průměr a modus
KVANTILY Výsledek: 3,5 (6. hodnota je 3 a 7. hodnota je 4) Kvantil je hodnota, která rozděluje soubor hodnot určitého znaku seřazených dle velikosti na dvě části – tu, kde jsou hodnoty menší nebo stejné, a tu, kde jsou větší. Kolik procent hodnot je pod hodnotou kvantilu určuje kolikaprocentní daný kvantil je 50% kvantil znamená, že právě polovina hodnot je pod hodnotou kvantilu Další užívané kvantily: 25% a 75% (dolní a horní kvartil), 10% a 90% (dolní a horní decil) 1% a 99% (dolní a horní percentil)
URČENÍ KVANTILU
U mála hodnot stačí jednoduše hodnoty seřadit a vybrat z nich tu nejnižší, která splňuje podmínku daného kvantilu (% hodnot nižších nebo rovných než kvantil) U více hodnot se kvantil určí z tabulky kumulovaných relativních četností – tam kde kumulovaná relativní četnost vyrovná překročí požadované procento. Je-li kumulovaná četnost rovna % kvantilu, leží ten mezi danou hodnotou a hodnotou další xi
ni
pi
kumul pi
2
1
0,08
0,08
3
5
0,42
0,50
4
1
0,08
0,58
5
3
0,25
0,83
6
2
0,17
1