Popisna´ statistika Jitka Kuhnov a´ ¨ Statistika pro sociology
´ r´ı 2014 24. zaˇ
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
1 / 31
Outline
´ 1 Zakladn´ ı pojmy 2 Typy statistick´ych dat
ˇ e´ charakteristiky 3 V´yberov Charakteristiky polohy Charakteristiky variability ´ ˇ ı dat 4 Znazorn en´
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
2 / 31
´ Zakladn´ ı pojmy
• Populace (zakladn´ ˇ s´ı skupina individu´ı, kterou se ´ ı soubor) – vetˇ
snaˇz´ıme charakterizovat • Nahodn ´ ˇ – menˇs´ı skupina individu´ı, kterou jsme vybrali y´ vyb ´ er
´ nahodn eˇ a pomoc´ı ktere´ charakterizujeme populaci • Statisticky´ znak – vlastnost individua, kterou meˇ ˇ r´ıme nebo zjiˇst’ujeme • Populacn´ ˇ ı charakteristika – charakteristika sledovane´ vlasnosti ˇ a´ v´ysˇ ka, . . . ) cele´ populace (napˇr. prum ˚ ern • Vyb ´ ´ ˇ ˇ ´ erov a´ charakteristika – charakteristika nahodn eho v´yberu, pomoc´ı n´ı odhadujeme hodnotu populaˇcn´ı charakteristiky
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
4 / 31
Typy statistick´ych dat
´ Zakladn´ ı typy dat • kvalitativn´ı data – slovn´ı vyjadˇ ´ ren´ı, muˇ ˚ zeme nahradit cˇ ´ıselnou
hodnotou • nominaln´ ´ a, ´ kategorialn´ ´ ı) – pˇriˇrazene´ cˇ ´ıselne´ ´ ı data (v´ıceˇskalov
´ hodnoty nejsou uspoˇradateln e´ (barva vlasu, ˚ rodinn´y stav, ´ ´ ı pˇr´ıpad jsou binarn´ ´ ı (alternativn´ı, narodnost,. . . ). Specialn´ ˇ ˇ ´ data (muˇz/ˇzena, zamestnan´ dichotomicka) y/nezamestnan´ y,. . . ) • ordinaln´ ˇ ˇ ´ ´ ı data – puvodn e slovn´ı charakter, c´ıselna realizace je ˚ ´ ´ ale nen´ı zde jednotne´ meˇ ˇ r´ıtko“ (klasifikace, uspoˇradateln a, ” ˇ an´ ´ ı,. . . ) dosaˇzene´ vzdel • kvantitativn´ı data – pˇrirozena´ cˇ ´ıselna´ charakteristika • intervalova´ stupnice – mezi jednotkami je konstantn´ı rozd´ı, ale 0“ ” je relativn´ı (stupneˇ teploty, dny v roce,. . . ) • pomerov ˇ dvou hodnot, ˇ a´ stupnice – ma´ zde v´yznam urˇcovat pomer ´ smysluplna´ nula (v´ysˇ ka, vaha,. ..)
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
6 / 31
ˇ e´ charakteristiky V´yberov
ˇ rili jsme n hodnot Nameˇ x1 , x2 , . . . , xn , ´ ı poˇcet prvku˚ souboru n je tzv. rozsah souboru. Pro lepˇs´ı zpracovan´ ´ ame: ´ data uspoˇrad x(1) ≤ x(2) ≤ · · · ≤ x(n) ´ a dostaneme uspoˇradan y´ soubor hodnot
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
8 / 31
ˇ e´ charakteristiky V´yberov
ˇ rili jsme 11 hodnot Pˇr´ıklad 1: Nameˇ 64, 66, 60, 97, 68, 63, 97, 85, 73, 72, 87 Setˇrid’te tento soubor a oznaˇcte jednotlive´ hodnoty pomoc´ı xi a x(i) , i = 1, . . . 11
ˇ sen´ ˇ ı: Re x1 = 64, x2 = 66, x3 = 60, x4 = 97, x5 = 68, x6 = 63, x7 = 97, x8 = 85, x9 = 73, x10 = 72, x11 = 87
x(1) = 60, x(2) = 63, x(3) = 64, x(4) = 66, x(5) = 68, x(6) = 72, x(7) = 73, x(8) = 85, x(9) = 87, x(10) = 97, x(11) = 97 Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
9 / 31
ˇ e´ charakteristiky V´yberov
ˇ Cetnosti
• Poˇcet v´yskytu nj hodnoty xj se naz´yva´ cetnost ˇ
• Souˇcet vˇsech cˇ etnost´ı dav ´ a´ rozsah n
n
• Pod´ıl nj se naz´yva´ relativn´ı cetnost ˇ
• Souˇcet relativn´ıch cˇ etnost´ı dav ´ a´ hodnotu 1
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
10 / 31
ˇ e´ charakteristiky V´yberov
´ Pˇr´ıklad 2: Mame hodnoty 1, 1, 2, 2, 2, 3, 3 a 4. Sestavte tabulku cˇ etnost´ı a relativn´ıch cˇ etnost´ı.
ˇ sen´ı: Reˇ xj nj nj n
Jitka Kuhnov a´ (GSTAT) ¨
1 2 0,25
2 3 0,375
3 2 0,25
Popisna´ statistika
4 1 0,125
´ r´ı 2014 24. zaˇ
11 / 31
ˇ e´ charakteristiky V´yberov
Charakteristiky polohy
ˇ Aritmetick´y prum ˚ er
Klasick´y v´ypoˇcet: n
x1 + x2 + · · · + xn 1X xi = x= n n i=1
V´ypoˇcet pomoc´ı cˇ etnost´ı: k
x=
1X xj nj n j=1
ˇ je velice citliv´y na odlehle´ hodnoty. Aritmetick´y prum ˚ er
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
12 / 31
ˇ e´ charakteristiky V´yberov
Charakteristiky polohy
ˇ prum ˇ hodnot z pˇr´ıkladu 1 a 2. Pˇr´ıklad 3: Spoˇctete ˚ er
ˇ sen´ ˇ ı: Re
x1 =
64 + 66 + 60 + 97 + 68 + 63 + 97 + 85 + 73 + 72 + 87 = 11 832 = = 75, 636 11
x2 =
Jitka Kuhnov a´ (GSTAT) ¨
18 1·2+2·3+3·2+4·1 = = 2.25 8 8
Popisna´ statistika
´ r´ı 2014 24. zaˇ
13 / 31
ˇ e´ charakteristiky V´yberov
Charakteristiky polohy
p-kvantil ˇ y p-kvantil) p-kvantil (v´yberov´ x([np]+1) np 6= [np] , x˜p = 1 2 (x(np) + x(np+1) ) np = [np] ´ z a a 0 < p < 1. kde [a] znaˇc´ı celou cˇ ast ´ ı pˇr´ıpady: Specialn´ • 0,5-kvantil = Median ´ – 50 % hodnot leˇz´ı pod“ touto hodnotou a
” 50 % nad“ ” • 0,25-kvantil resp. 0,75-kvantil = doln´ı resp. horn´ı kvartil • 0,1-kvantil, 0,2-kvantil, . . . = decily
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
14 / 31
ˇ e´ charakteristiky V´yberov
Charakteristiky polohy
´ a oba kvartily hodnot z pˇr´ıkladu 1. Pˇr´ıklad 4: Urˇcete median
ˇ sen´ ˇ ı: Re • median: ´ n = 11, p = 0, 5 ⇒ n · p = 5, 5 np 6= [np] (5, 5 6= 5) ⇒
x˜0.5 = x(5+1) = x(6) = 72 • doln´ı kvartil: n = 11, p = 0, 25 ⇒ n · p = 2, 75 np 6= [np] (2, 75 6=
2) ⇒ x˜0.25 = x(2+1) = x(3) = 64 • horn´ı kvartil: n = 11, p = 0, 75 ⇒ n · p = 8, 25 np 6= [np] (8, 25 6=
2) ⇒ x˜0.75 = x(8+1) = x(9) = 87
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
15 / 31
ˇ e´ charakteristiky V´yberov
Charakteristiky polohy
• Geometricky´ prum ˇ ˚ er
xG
v u n uY n Xi =t i=1
ˇ an´ ´ ı procent. Pouˇz´ıva´ se napˇr. u prum ˚ erov • Harmonicky´ prum ˇ ˚ er
xH =
1 n
1 Pn
1 i=1 xi
ˇ eˇ rozloˇzeny kolem Pouˇz´ıva´ se, jsou-li hodnoty znaku nerovnomern ´ ˇ ´ aritmetickeho prum eˇ n´ızke´ cˇ i ˚ eru, nebo kdyˇz jsou hodnoty extremn ´ vysoke. • Modus – nejˇcastejˇ ˇ s´ı hodnota ve statistickem ´ souboru dat Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
16 / 31
ˇ e´ charakteristiky V´yberov
Charakteristiky variability
ˇ a´ odchylka od prum ˇ Rozptyl – zjednoduˇseneˇ ˇreˇceno je to prum ˚ ern ˚ eru. s2 =
n
n
i=1
i=1
1 X 1 X 2 (xi − x)2 = ( xi − nx 2 ) n−1 n−1
Vzorec pro v´ypoˇcet pomoc´ı cˇ etnost´ı: k
2 1 X s = xj − x · nj n−1 2
j=1
ˇ Smerodatn a´ odchylka – odmocnina z rozptylu s =
√
s2
ˇ ı Mezikvartilove´ rozpet´ rQ = x˜0,75 − x˜0,25
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
17 / 31
ˇ e´ charakteristiky V´yberov
Charakteristiky variability
ˇ rozptyl hodnot pˇr´ıkladu 1 obema ˇ Pˇr´ıklad 5: Spoˇctete zpusoby. ˚ ˇ sen´ ˇ ı: Re
s2 =
1 (64 − 75, 636)2 + (66 − 75, 636)2 + (60 − 75, 636)2 + . . . 10 · · · + (72 − 75, 636)2 + (87 − 75, 636)2 = 184, 05
s2 =
i 1 h (642 + 662 + 602 + · · · + 722 + 872 ) − 11 · 75, 6362 = 184, 05 10
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
18 / 31
´ ˇ ı dat Znazorn en´
67 64 61 67 49 64 68 67 66 67 56 57 67 49 67 63 58 49 60 65 63 68 66 65 66 67 62 50
53 63 64 61 66 56 60 57 65 68 68 64 62 62 68 68 68 63 63 49 67 68 63 57 68 62 63 68
62 64 63 68 56 68 66 58 61 67 59 68 62 62 66 62 62 68 65 51 62 60 62 59 66 60 67 63
66 56 67 61 61 58 62 65 64 68 67 63 67 63 66 68 62 57 67 57 57 60 62 61 60 65 51 68
53 63 60 68 62 63 68 66 61 60 54 67 58 58 53 65 60 62 66 65 58 68 53 66 64 67 65 60
64 57 68 61 67 68 60 63 66 66 58 62 51 59 65 59 68 66 68 65 68 65 66 63 62 61 67 67
51 68 53 67 68 61 49 57 62 67 65 64 53 67 66 64 60 64 67 66 51 66 67 66 59 65 68 66
Jitka Kuhnov a´ (GSTAT) ¨
63 67 68 61 56 68 63 67 60 62 57 67 60 54 55 65 62 61 55 65 64 59 62 64 63 64 68 49
62 61 68 62 61 59 68 66 50 62 61 63 59 68 65 54 62 68 55 64 64 65 58 57 64 67 61 61
60 64 52 52 68 56 68 59 57 65 66 65 63 67 57 49 64 54 59 64 67 60 62 59 67 58 62 61
66 66 62 61 61 68 52 67 60 55 52 61 58 64 57 64 65 65 60 62 66 62 68 64 50 65 68 64
60 63 60 61 67 66 51 61 68 57 68 65 68 58 63 60 58 60 62 56 54 65 65 64 60 66 65 68
61 65 67 66 63 61 59 60 68 65 63 58 49 65 66 68 67 68 64 59 65 67 63 65 64 65 57 61
56 61 57 61 60 58 65 63 65 64 54 58 65 66 62 61 51 54 65 62 49 62 66 67 58 67 67 66
55 64 60 67 65 50 67 58 68 64 68 68 55 64 68 68 64 66 66 63 64 65 63 65 65 56 67
Popisna´ statistika
54 64 68 62 66 67 63 61 65 64 57 55 64 67 60 57 67 68 68 61 67 56 65 55 64 65 65
55 64 63 65 60 55 63 53 65 57 68 63 58 60 62 65 66 66 64 66 67 58 65 49 59 67 64
61 66 54 66 67 62 66 67 62 59 68 57 61 54 53 55 62 61 67 64 67 68 65 63 64 58 58
ˇ ˇ Vek nezamestnan´ ych muˇzu˚ starˇs´ıch 49 let ˇ z CPS – Current (v´yber Population Survey, USA 1989)
´ r´ı 2014 24. zaˇ
20 / 31
´ ˇ ı dat Znazorn en´
ˇ Tabulka cˇ etnost´ı nezamestnan´ ych muˇzu˚ xj nj xj nj
49 10 59 15
Jitka Kuhnov a´ (GSTAT) ¨
50 4 60 29
51 7 61 34
52 4 62 40
53 8 63 33
54 10 64 42
Popisna´ statistika
55 11 65 50
56 10 66 42
57 20 67 52
58 21 68 58
´ r´ı 2014 24. zaˇ
21 / 31
´ ˇ ı dat Znazorn en´
Bodov´y graf
30 10
20
d
40
50
60
´ ´ ˇ ı zavislosti ´ Pouˇz´ıva´ se zejmena pro znazorn en´ dvou znaku˚
50
55
60
65
e
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
22 / 31
´ ˇ ı dat Znazorn en´
Spojnicov´y graf
30 10
20
d
40
50
60
ˇ cˇ asov´ych ˇrad, znazorn ´ ˇ ı cˇ etnost´ı (polygon cˇ etnost´ı) prub en´ ˚ ehy
50
55
60
65
e
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
23 / 31
´ ˇ ı dat Znazorn en´
Sloupcovy´ graf 60
50
40
30
20
10
0 45
Jitka Kuhnov a´ (GSTAT) ¨
50
55
Popisna´ statistika
60
65
70
´ r´ı 2014 24. zaˇ
24 / 31
´ ˇ ı dat Znazorn en´
ˇ ı cˇ etnost´ı Intervalove´ rozdelen´ ´ Data jsou bud’ pˇrirozeneˇ sˇ katulkovana“ do intervalu, ˚ nebo tyto ” ´ intervaly muˇ ˚ zeme vytvaˇret: 50 – 55 55 – 60 60 – 65 33 Histogram 77 of a 178
≥ 65 202
100 0
50
Frequency
150
200
< 50 10
45
50
55
60
65
70
a Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
25 / 31
´ ˇ ı dat Znazorn en´
ˇ zˇ e sloupcov´y diagram se men´ ˇ ı v zavislosti ´ Je videt, na tom, kterou stranu intervalu uvaˇzujeme uzavˇrenou 50 – 55 55 – 60 60 – 65 40 Histogram 95 of a 199
> 65 152
100 0
50
Frequency
150
200
≤ 50 14
45
50
55
60
65
70
a
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
26 / 31
´ ˇ ı dat Znazorn en´
nebo na poˇctu vytvoˇren´ych sloupcu˚ ≥ 60
< 60
200 0
100
Frequency
300
Histogram of a 120 380
40
50
60
70
80
a
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
27 / 31
´ ˇ ı dat Znazorn en´
ˇ ırˇka sloupcu˚ je volena napˇr. pomoc´ı Sturgesova pravidla S´ xmax −xmin ´ a´ h = 1+3,3 z v naˇsem pˇr´ıpadeˇ dav log n , coˇ h= xj nj
49 14
51 11
68 − 49 . = 1, 918. 1 + 3, 3 log 500
53 18
55 21
57 41
59 44
61 74
63 75
65 92
67 110
120
100
80
60
40
20
0 45
Jitka Kuhnov a´ (GSTAT) ¨
50
55
60
Popisna´ statistika
65
70
´ r´ı 2014 24. zaˇ
28 / 31
´ ˇ ı dat Znazorn en´
´ cov´y) graf Kruhov´y (kolaˇ zachycuje strukturu souboru
55−60 60−65 50−55 <50
>=65 Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
29 / 31
´ ˇ ı dat Znazorn en´
Krabicovy´ diagram (box plot, box and whisker plot, vousata´ krabiˇcka) – Krabiˇcka“ je ” ´ ohraniˇcena hodnotami kvartilu˚ a je zobrazen median. Vousky“ ” ´ nuj´ ˇ ı hodnoty, ktere´ nejsou od jednotliv´ych kvartilu˚ vzdalen ´ e´ o znazor ´ ´ ı, ktera´ v´ıce jak 1,5 nasobek RQ . Jednotliveˇ jsou vyznaˇcena pozorovan´ ˇ s´ı vzdalenosti. ´ jsou ve vetˇ 50
Jitka Kuhnov a´ (GSTAT) ¨
55
60
Popisna´ statistika
65
´ r´ı 2014 24. zaˇ
30 / 31
´ ˇ ı dat Znazorn en´
Pˇr´ıklad 6: Nakreslete krabicov´y diagram pro hodnoty z pˇr´ıkladu 1. ˇ sen´ ˇ ı: Re
Jitka Kuhnov a´ (GSTAT) ¨
Popisna´ statistika
´ r´ı 2014 24. zaˇ
31 / 31