Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky
[email protected] konzultace v úterý 14.10 až 15.40 hod.
Příklad „ze života“ • Cimrman, Smoljak/Svěrák, Posel z Liptákova, Paseka, 1992, str. 11-12 • pak zaznamenáme data z tohoto „laboratorního deníku“ ~ vznikne tabulka
Posel z Liptákova, str. 11-12, část přednášky Z. Svěráka
Příklad „ze života“ data - tabulka řádky – sledované objekty sloupce – sledované veličiny objekt
Rad. C
Kronika
Cimrman
1906 (+/- 200 let)
1902
Data - příjem pacientů nemocnice (výsek) pacient 1115 1116 1117 1118 1119 1120 1121 1122 1123 1124 1125 1126 1127 1128 1129
dat_prij 20.9.2010 20.9.2010 20.9.2010 20.9.2010 20.9.2010 20.9.2010 20.9.2010 20.9.2010 20.9.2010 20.9.2010 20.9.2010 20.9.2010 20.9.2010 20.9.2010 20.9.2010
vek 65 15 28 35 37 52 11 6 78 85 82 43 19 28 31
pohlavi m m z z m m m m m m z z z m m
odd CH P I G U I P P I CH O CH O I CH
dat_ukon stav_prop 27.9.2010 domu 24.9.2010 domu 24.9.2010 jinam 30.9.2010 domu 28.9.2010 jinam 23.9.2010 domu 24.9.2010 domu
28.9.2010 23.9.2010 24.9.2010
Ex jinam domu
Škály, ve kterých se měří hodnoty veličin • Nominální - mezi hodnotami není definováno uspořádání. Pokud jsou hodnoty označovány číselně, toto číslo je pouze zkratkou (kódem) slovní hodnoty. • Ordinální (pořadová) škála – uspořádání hodnot, ale není definována vzdálenost. • Intervalová (rozdílová) škála - vzdálenost mezi hodnotami měřené veličiny. Dovoluje počítat s rozdíly naměřených hodnot, nikoliv s jejich podíly. • Podílová škála zachovává nejen rozdíly (intervaly) mezi hodnotami, ale také podíly hodnot. Veličiny měřené v podílové škále mohou nabývat pouze kladných hodnot.
Veličiny Podle škály: • Kategoriální nominální - pohlaví, odd, … ordinální - školní klasifikace, dosažené vzdělání, … • Metrické – definována vzdálenost, hodnotu můžeme znázornit bodem na číselné ose, např. věk, výška, hmotnost, teplota, …
Podle hodnot: Diskrétní – všechny kategoriální veličiny, dále např. počet sourozenců, počet vyšetření,… Spojité – jejich možné hodnoty pokryjí interval na číselné ose, např. věk, výška, hmotnost, teplota, …
Popisné charakteristiky veličin • Rozdělení četnosti - pro diskrétní veličiny počet hodnot vyskytující se datech - pro spojité veličiny hustota hodnot na číselné ose 0
20
40
60
80
100
120
140
• Charakteristiky polohy a variability
160
180
Data po předzpracování (výsek) pohlavi m m z m z z z z m z m z m m m z
odd CH INT INT INT INT INT G CH CH CH INT INT INT INT INT INT
den_vtydnu ST CT ST PO UT UT PA SO NE UT PO PO PO PO PO UT
vek 89 81 60 65 88 96 27 75 80 91 28 28 28 85 85 96
dny_hosp 14 14 11 11 9 9 8 8 8 8 8 8 8 6 6 6
Popisná statistika: velicina vek dny_hosp
n
prum 614 614
60 9
smodch 18.48 4.64
min
max 18 2
pohlavi m z
Count
Percent 310 50.49 |||||||||||||||||||| 304 49.51 |||||||||||||||||||
odd CH G INT
Count
Percent 196 31.92 |||||||||||| 58 9.45 ||| 360 58.63 |||||||||||||||||||||||
97 29
Popisná statistika: Frequency Distribution of den_vtydnu den_vtydnuCount Percent CT 60 9.8 ||| NE 20 3.3 | PA 42 6.8 || PO 161 26.2 |||||||||| SO 20 3.3 | ST 154 25.1 |||||||||| UT 157 25.6 ||||||||||
Popisná statistika – rozdělení hospitalizovaných do dnů v týdnu den PO UT ST CT PA SO NE
Count 161 157 154 60 42 20 20
Percent 26.22 25.57 25.08 9.77 6.84 3.26 3.26
|||||||||| |||||||||| |||||||||| ||| || | |
Sloupcový graf četností Počet hospitalizovaných pacientů 180 160 140 120 100 80 60 40 20 0 PO
UT
ST
CT
PA
SO
NE
Koláčový graf (pie chart) počty hospitalizovaných vs. den v týdnu
PO UT ST CT PA SO NE
Charakteristiky polohy • Průměr (aritmetický) • Jiné průměry (geometrický, harmonický,...) • Modus - i pro nominální veličiny • Medián – i pro ordinální veličiny
Průměr (aritmetický): n
1 x = ∑ xi n i =1
n
∑ (x
i
i =1
n
n
n
i =1
i =1
i =1
− x ) = ∑ xi − n x = ∑ xi − ∑ xi = 0
Medián Naměřené hodnoty jsou 15, 17, 20, 11, 14. Uspořádáme je vzestupně: 11, 14, 15, 17, 20. Medián je hodnota uprostřed. Naměřené hodnoty jsou 15, 17, 21, 20, 11, 14. Uspořádáme je vzestupně: 11, 14, 15, 17, 20, 21.
Kvantily x(p) ... p-kvantil, přibližně platí, že n*p hodnot je menší než x(p) x(05 ,)
medián, x~
x(025 , ), x(075 , )
dolní kvartil, horní kvartil
x(01 , ), x(09 ,)
dolní decil, horní decil
Charakteristiky variability • Rozptyl
1 2 s = xi − x ) ( ∑ n − 1 i =1 2
• Směrodatná odchylka (standard deviation)
s = • Sm. odchylka průměru (standard error of the mean, SEM)
n
1 n 2 ( xi − x ) ∑ n − 1 i =1
sem = s / n
Rozdělení hodnot spojité veličiny vek - histogram 80.0
Count
60.0
40.0
20.0
0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0
vek
Rozdělení hodnot spojité veličiny dny_hosp - histogram 120.0
Count
90.0
60.0
30.0
0.0 0.0
10.0
20.0
dny_hosp
30.0
Další číselné charakteristiky tvaru rozdělení pozorovaných hodnot Druhý centrální moment Třetí centrální moment Čtvrtý centrální moment
Šikmost Špičatost
Šikmost a špičatost 120.0 80.0
90.0
Count
Count
60.0
40.0
60.0
30.0
20.0
0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0
vek
• Šikmost - 0.165 • Špičatost 2.17
0.0 0.0
10.0
20.0
dny_hosp
• Šikmost • Špičatost
0.675 3.63
30.0
Vztah dvou veličin – popisná statistika • Obě veličiny metrické – bodový graf závislosti • Jedna metrická, jedna kategoriální – tabulky charakteristik podle hodnot kategoriální veličiny – krabicové grafy • Obě diskrétní kategoriální – četnosti (kontingenční tabulka)
Závislost dvou metrických veličin dny_hosp na vek 30 25
dny_hosp
20 15 10 5 0
0
20
40
60
vek
80
100
Charakteristiky po skupinách vek CH G INT
n 196 58 360
prum 61 50 61
s 17.9 14.7 18.9
min 19 23 18
max 97 75 97
dny_hosp CH G INT
n 196 58 360
prum 8.4 7.5 9.4
s 4.3 4.1 4.8
min 2 2 2
max 22 18 29
Krabicový graf (box plot)
Porovnání věku pacientů v odděleních (závislost vek – odd) 100 90 80 70
vek
60 50 40 30 20 10 0
CH
G
INT
Porovnání délky hospitalizace v odděleních (závislost dny_hosp – odd) 30 27 24
dny_hosp
21 18 15 12 9 6 3 0
CH
G
INT
Závislost dvou diskrétních nemetrických veličin – kontingenční tabulka - četnosti
odd CH G INT Total
pohlavi m 116 0 194 310
z 80 58 166 304
Total 196 58 360 614
Závislost dvou diskrétních nemetrických veličin – kontingenční tabulka – četnosti - grafické znázornění
200 180 160 140 120 100 80 60 40 20
z
0
CH
m G
INT