Z´aklady biostatistiky (MS710P09) ak. rok 2014/2015 Karel Zv´ ara
[email protected] [email protected] http://www.karlin.mff.cuni.cz/∼zvara Katedra pravdˇ epodobnosti a matematick´ e statistiky MFF UK ´ Ustav aplikac´ı matematiky a v´ ypoˇ cetn´ı techniky PˇrF UK
(naposledy upraveno 12. dubna 2015)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
◮
cviˇ cen´ı na poˇ c´ıtaˇ c´ıch v B5 ◮ ◮
◮ ◮
◮
zkouˇska v B5 ◮ ◮ ◮ ◮
◮ ◮
jen se z´apoˇctem, pˇrihlaˇsov´an´ı prostˇrednictv´ım SIS kombinace p´ısemn´eho a ´ ustn´ıho zkouˇsen´ı ˇreˇsen´ı ´uloh na poˇc´ıtaˇci, interpretace v´ ysledk˚ u z´aklady teorie (pojmy, metody a jejich volba, interpretace)
Moodle slajdy, popisy cviˇcen´ı, heslo Biostat1415 literatura ◮
◮
◮
nutno zapsat se do paralelky prostˇrednictv´ım SIS z´apoˇcet za aktivn´ı ´ uˇcast + odevzd´av´an´ı soubor˚ u + p´ısemky (upˇresn´ı cviˇc´ıc´ı) nutno m´ıt aktivn´ı ´ uˇ cet v uˇ cebn´ ach, zn´at svoje heslo volnˇe ˇsiˇriteln´y program R (http://cran.r-project.org/)
K. Zv´ara: Z´aklady statistiky v prostˇred´ı R (Biomedic´ınsk´a statistika IV), Karolinum 2013 K. Zv´ara: Biostatistika. Karolinum 1998,. . . , 2008
konzultace ´ •u ´t 14:00– prac. 209, Albertov 6 (UAMVT PˇrF UK)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
2(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
tˇri ˇc´asti pˇredn´aˇsky snad neodpadne ˇz´ adn´ a pˇredn´ aˇska ◮
popisn´a statistika ◮ ◮ ◮
◮
abstraktn´ı pohled (teorie) ◮
◮ ◮ ◮ ◮
◮
pravdˇepodobnost, Bayes˚ uv vzorec, n´ahodn´a veliˇcina, distribuˇcn´ı funkce, stˇredn´ı hodnota, nez´avislost populace a v´ybˇer popisn´e statistiky jako odhady populaˇcn´ıch parametr˚ u interval spolehlivosti pro populaˇcn´ı parametr test statistick´e hypot´ezy
nˇekter´e metody (modely) ◮ ◮
◮
nˇekolika ˇc´ısly vystihnout d˚ uleˇzitou vlastnost jednoduch´ym grafem vyj´adˇrit d˚ uleˇzitou vlastnost porovnat soubory dat
testy o jednom, dvou ˇci nˇekolika v´ybˇerech rozhodov´an´ı o z´avislosti kvantitativn´ıch ˇci kvalitativn´ıch znak˚ u
c´ılem jsou principy, pojmy, z´ akladn´ı metody, nikoliv vzoreˇcky
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
3(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
cviˇcen´ı ◮
pˇr´ıleˇzitost procviˇ cit pojmy a postupy
◮
k tomu je tˇreba sledovat pˇredn´ aˇsku aspoˇ n orientaˇcnˇe doporuˇcuji aktivnˇe vyuˇz´ıt cviˇcen´ı, spolupracovat s cviˇc´ıc´ım, ovˇeˇrit si tak pochopen´ı princip˚ u a pojm˚ u
◮
◮
◮ ◮ ◮
u zkouˇsky mechanick´ a aplikace nestaˇc´ı, je tˇreba vysvˇetlit proˇ c byl zvolen nˇejak´y postup, co vyˇslo, interpretovat v´ ysledky; tak´e zn´at pojmy, jejich podstatn´e vlastnosti a interpretaci cviˇc´ıc´ı maj´ı svoje str´ anky s podrobnˇejˇs´ımi informacemi: cviˇ cen´ı nen´ı n´ ahradou pˇredn´ aˇsky! pracuje se v prostˇred´ı R, zejm´ena v nadstavbˇe Rcmdr, kter´a ◮ ◮ ◮ ◮ ◮
Z´ aklady biostatistiky
nab´ız´ı ˇreˇsen´ı vˇetˇsiny re´aln´ych ´ uloh umoˇzˇnuje modifikaci dosavadn´ıho postupu poskytuje demonstraˇcn´ı pom˚ ucky R je volnˇe ˇsiˇriteln´y SW v R pracuj´ı mnoz´ı dalˇs´ı uˇcitel´e (MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
4(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
statistika nejz´ akladnˇejˇs´ı dˇelen´ı, dvoj´ı pohled ◮
statistika ◮
◮
◮
popisn´ a (deskriptivn´ı): data struˇcnˇe popsat, nˇeco z dat vydolovat“ ” tvrdit nˇeco o dan´ych datech, nezobecˇ novat induktivn´ı (konfirmatorn´ı): tvrdit nˇeco nov´eho, zobecnit na vˇetˇs´ı soubor (populaci), d˚ uleˇzit´a je interpretace
pˇr´ıklady dat: ◮ ◮
◮
Z´ aklady biostatistiky
v´ yˇsky: v´yˇska desetilet´ych chlapc˚ u/d´ıvek dˇ eti: pohlav´ı, porodn´ı hmotnost a d´elka, hmotnost a d´elka v jednom roce, vˇek otce a matky, poˇcet onemocnˇen´ı otitidou v prvn´ım roce vˇeku kojen´ı: hmotnost a porodn´ı d´elka a ve 24. t´ydnu, vˇek a v´yˇska obou rodiˇc˚ u, zda tˇehotenstv´ı pl´anov´ano, zda dudl´ık, porodnice
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
5(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
co mˇeˇr´ıme (zjiˇst’ujeme) a kde
◮
mˇeˇr´ıme na statistick´ ych jednotk´ ach (osoba, obec, st´at, pokusn´e pole, rostlinka pˇsenice, tˇret´ı list rostlinky pˇsenice, . . . ) mˇeˇr´ıme (zjiˇst’ujeme) hodnoty znak˚ u
◮
znak - vlastnost mˇeˇren´ a na objektu (statistick´e jednotce)
◮
zjiˇstˇenou hodnotu vyjadˇrujeme ve zvolen´em mˇ eˇr´ıtku (stupnici) na jedn´e jednotce m˚ uˇzeme mˇeˇrit nˇekolik znak˚ u (umoˇzn´ı to vyˇsetˇrov´ an´ı z´ avislosti)
◮
◮
◮ ◮
◮
◮
mˇeˇr´ıme na skupin´ ach jednotek – souborech zaj´ımaj´ı n´as hromadn´ e vlastnosti, kter´e charakterizuj´ı celou velkou skupinu (populaci), ne jen pr´ avˇe zmˇeˇren´e objekty ’ hodnoty znak˚ u zjiˇst ujeme u jedinc˚ u, chceme vypov´ıdat cel´ych souborech jedinc˚ u kolik procent muˇz˚ u ve vˇeku 20–25 let kouˇr´ı?
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
6(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
mˇeˇr´ıtka ◮
nula-jedniˇ ckov´ e pouze dvˇe moˇzn´e hodnoty (muˇz/ˇzena, kouˇr´ı/nekouˇr´ı)
◮
nomin´ aln´ı seznam vˇsech jednoznaˇcnˇe rozliˇsiteln´ych hodnot, v R faktor (porodnice, pohlav´ı, odr˚ uda)
◮
ordin´ aln´ı hodnoty nomin´aln´ıho mˇeˇr´ıtka jsou uspoˇr´ ad´ any, adan´ y faktor (vzdˇel´ an´ı matky, stupeˇ n bolesti) v R uspoˇr´
◮
intervalov´ e stejn´e vzd´alenosti sousedn´ıch hodnot (rok narozen´ı) o kolik je x menˇs´ı neˇz y“ (nikoliv kolikr´ at“) ” ” pomˇ erov´ e srovn´an´ı se zvolenou jednotkou (hmotnost, v´yˇska, vˇek) kolikr´ at je x vˇetˇs´ı, neˇz y“ ”
◮
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
7(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
hrubˇs´ı dˇelen´ı mˇeˇr´ıtek (bezprostˇrednˇe ovlivn´ı volbu metod)
◮
kvalitativn´ı nula-jedniˇckov´e, nomin´ aln´ı, zpravidla i ordin´ aln´ı
◮
u kvalitativn´ıch se zpravidla ud´ avaj´ı ˇ cetnosti jednotliv´ych hodnot (kolikr´at kter´ a hodnota nastala)
◮
kvantitativn´ı (spojit´e) intervalov´e, pomˇerov´e, nˇekdy ordin´ aln´ı (ale nen´ı spojit´e)
◮
hodnoty kvantitativn´ıch – ˇc´ısla
◮
pro ˇcetnosti hodnot v kvalitativn´ım mˇeˇr´ıtku se pouˇz´ıvaj´ı zpravidla jin´e charakteristiky a metody, neˇz pro hodnoty v kvantitativn´ım mˇeˇr´ıtku
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
8(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
veliˇcina, statistika ◮
ˇc´ıselnˇe vyj´adˇren´y v´ysledek mˇeˇren´ı, pokusu
◮
spojit´ a veliˇ cina: moˇzn´e hodnoty znak˚ u v intervalov´em nebo pomˇerov´em mˇeˇr´ıtku jsou hustˇe rozm´ıstˇen´e, mezi dvˇema hodnotami existuje nekoneˇcnˇe mnoho dalˇs´ıch hodnot, v praxi je zapisujeme s omezenou pˇresnost´ı
◮
diskr´ etn´ı veliˇ cina: ˇcetnosti hodnot znak˚ u v nula-jedniˇckov´em, nomin´aln´ım (ˇci ordin´ aln´ım) mˇeˇr´ıtku
◮
u veliˇcin pouˇz´ıv´ame ˇc´ıseln´e charakteristiky nˇekter´ych hromadn´ych vlastnost´ı, napˇr. m´ıry polohy (m´ıry centr´aln´ı tendence), m´ıry variability, m´ıry tvaru)
◮
statistika (dalˇs´ı v´yznam slova) – funkce pozorovan´ych hodnot napˇr. pr˚ umˇern´a teplota v roce, nejvyˇsˇs´ı teplota v roce; ˇc´ıselnˇe charakterizuje d˚ uleˇzitou vlastnost veliˇciny (veliˇcin), je to spoleˇcn´a vlastnost skupiny statistick´ych jednotek
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
9(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
oznaˇcen´ı rozliˇsujte n, ni , m, xi , xi∗ (nemus´ı b´yt ˇc´ısla)
x1 ,
x2 ,
. . .,
xn
zjiˇstˇen´e hodnoty
x1∗ ,
x2∗ ,
. . .,
∗ xm
moˇzn´e hodnoty (r˚ uzn´e)
n1 ,
n2 ,
. . .,
nm
ˇ cetnosti hodnot
n1 + n2 + . . . + nm =
m X
nj = n
j=1
n1 n2 nm , ,..., n n n Nj =
j X
ni
- relativn´ı ˇcetnosti
kumulativn´ı ˇcetnosti
i =1
pro kumulativn´ı ˇcetnosti je nutn´e aspoˇ n ordin´ aln´ı mˇeˇr´ıtko Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
10(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
histogram (barplot u kvalitativn´ı veliˇciny)
◮
histogram grafick´e zn´azornˇen´ı intervalov´ych ˇcetnost´ı spojit´e veliˇciny
◮
barplot (sloupcov´ y diagram) grafick´e zn´azornˇen´e ˇcetnost´ı (poˇct˚ u hodnot) kvalitativn´ıho znaku
◮
plocha (v´yˇska) obd´eln´ıku u ´mˇern´ a ˇcetnosti
◮
relativn´ı ˇcetnosti maj´ı jen jin´e mˇeˇr´ıtko svisl´e osy
◮
v´ yseˇ cov´ y diagram pro relativn´ı ˇcetnosti kvalitativn´ıho znaku (pod´ıly nˇejak´eho celku)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
11(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
pˇr´ıklad hod kostkou A – barplot
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
15 10
fj = nj /n 0,12 0,21 0,14 0,15 0,21 0,17 1,00
5
nj 12 21 14 15 21 17 n = 100
0
j 1 2 3 4 5 6
20
zpracov´ an´ı ˇcetnost´ı (kostka A), nomin´ aln´ı mˇeˇr´ıtko s ˇsesti hodnotami
1
2
17. u ´nora 2015
3
4
5
6
12(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
pˇr´ıklad hod kostkou B – barplot
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
30 20
fj = nj /n 0,15 0,16 0,07 0,06 0,15 0,41
10
nj 15 16 7 6 15 41 n = 100
0
j 1 2 3 4 5 6
40
zpracov´ an´ı ˇcetnost´ı (kostka B), nomin´ aln´ı mˇeˇr´ıtko s ˇsesti hodnotami
1
1. pˇredn´ aˇska
2
17. u ´nora 2015
3
4
5
6
13(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
pˇr´ıklad kojen´ı (vzdˇel´an´ı 99 matek) ordin´ aln´ı mˇeˇr´ıtko se tˇremi hodnotami
vzdˇel. xj∗ nj nj /n nj /n Nj
Z´ aklady biostatistiky
z´akl. 1 34 0,343 34,3 % 34
maturita 2 47 0,475 47,5 % 81
(MS710P09) ak. rok 2014/2015
ˇ VS 3 18 0,182 18,2 % 99
celkem 99 1,000 100 %
1. pˇredn´ aˇska
pozn. moˇzn´e hodnoty absolutn´ı ˇcetnosti relativn´ı ˇcetnosti relativn´ı ˇcetnosti kumulativn´ı ˇcet.
17. u ´nora 2015
14(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
40 základní
č etnosti
30
20 maturita
VŠ
10
0 základní
Z´ aklady biostatistiky
maturita
VŠ
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
15(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
histogram u spojit´ e veliˇciny tˇr´ıdˇ en´ı: vˇsechny hodnoty z dan´eho intervalu (tj−1 , tj i nahrad´ıme prostˇredn´ı hodnotou xj∗ = (tj−1 + tj )/2 hmotnost dˇet´ı ve 12. mˇes´ıci (pˇr´ıklad dˇ eti, n = 1633) j 1 2 3 4 5 6 7 8 9 10 11 12
Z´ aklady biostatistiky
xj∗ 7750 8250 8750 9250 9750 10250 10750 11250 11750 12250 12750 13250
tj 8000 8500 9000 9500 10000 10500 11000 11500 12000 12500 13000 ∞
(MS710P09) ak. rok 2014/2015
nj 42 104 173 225 315 257 210 133 88 47 28 11
nj /n 0,026 0,063 0,106 0,138 0,193 0,157 0,129 0,081 0,054 0,029 0,017 0,007
Nj 42 146 319 544 859 1116 1326 1459 1547 1594 1622 1633
1. pˇredn´ aˇska
Nj /n 0,026 0,089 0,195 0,333 0,526 0,683 0,812 0,893 0,947 0,976 0,992 1,000
17. u ´nora 2015
16(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
histogram pro hmotnost v jednom roce Svisl´ a osa histogramu napravo pops´ ana tak, aby vybarven´ a plocha byla rovna jedn´e. Nepˇrehl´ednˇete, ˇze vˇetˇsina sloupk˚ u m´ a ˇs´ıˇrku rovnou jedn´e polovinˇe. 0.4 300 250
0.3 rel. č etnost
č etnost
200 150
0.2
100 0.1 50 0
0.0 8
10
12
14
8
hmotnost
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10
12
14
hmotnost
1. pˇredn´ aˇska
17. u ´nora 2015
17(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
variaˇcn´ı ˇrada, poˇrad´ı nutno rozliˇsovat xi a x(i ) ◮
p˚ uvodn´ı hodnoty spojit´e veliˇciny (kvantitativn´ı znak) x1 , x2 , . . . , xn
◮
napˇr. 7, 4, 5, 4, 2
variaˇ cn´ı ˇrada [sort(x)] x(1) ≤ x(2) . . . ≤ x(n)
napˇr. 2, 4, 4, 5, 7
◮
poˇrad´ı: [rank(x)] na kter´e m´ısto ve variaˇcn´ı ˇradˇe se dostane dan´a hodnota nejmenˇs´ı dostane poˇrad´ı 1, druh´ a nejmenˇs´ı dostane 2, . . .
◮
je-li nˇekolik hodnot stejn´ych, dostanou pr˚ umˇer z odpov´ıdaj´ıc´ıch poˇrad´ı
◮
poˇrad´ı hodnot 7, 4, 5, 4, 2 jsou po ˇradˇe 5, 2,5, 4, 2,5, 1
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
18(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
empirick´a distribuˇcn´ı funkce [empirical distribution function]
relativn´ı ˇcetnost hodnot, kter´e jsou menˇs´ı nebo rovny x jak´a ˇc´ast dat je nejv´ yˇse x
Fn (x) =
#(xi ≤ x) n
0.0 0.2 0.4 0.6 0.8 1.0
Fn(x)
naˇse variaˇcn´ı ˇrada: 2, 4, 4, 5, 7
1
2
3
4
5
6
7
8
x Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
19(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
0.0 0.2 0.4 0.6 0.8 1.0
Fn(x)
empirick´a distribuˇcn´ı funkce
8
10
12
14
x
◮
pˇr´ıklad: v´aha dˇet´ı v jednom roce (n = 1633)
◮
pˇripom´ın´a hladkou neklesaj´ıc´ı funkci
◮
matematick´y model pˇredpokl´ ad´ a pro celou populaci opravdu hladkou neklesaj´ıc´ı funkci
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
20(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
pr˚ umˇery ◮
pr˚ umˇ er [mean(x)] n
x¯ =
1X 1 (x1 + x2 + . . . + xn ) = xi n n i =1
◮
v´ aˇ zen´ y pr˚ umˇ er s vyuˇzit´ım ˇcetnost´ı (n = x¯ =
P
j
nj ) m
1 1X ∗ nj xj∗ (n1 x1∗ + n2 x2∗ + . . . + nm xm )= n n j=1
◮
obecnˇeji s nez´aporn´ymi vahami wj hodnot xj∗ P ∗ j wj xj x¯ = P j wj [weighted.mean(x, w)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
21(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
pˇr´ıklad: v´aˇzen´y pr˚ umˇer zn´amek v´aˇzen´y kredity jak´y je nev´ aˇzen´y pr˚ umˇer?
zn´ amka xj∗ 1 2 2 3 celkem x¯ =
kredit˚ u wj 6 4 2 4 16
souˇcin xj∗ · wj 6 8 4 12 30
30 6·1+4·2+2·2+4·3 = = 1,875 6+4+2+4 16
[weighted.mean(x=c(1,2,2,3),w=c(6,4,2,4))]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
22(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
dalˇs´ı m´ıry polohy opˇet jsou d˚ uleˇzir´e z´ avorky kolem index˚ u ◮
◮
◮
medi´ an (prostˇredn´ı hodnota, NIKOLIV stˇredn´ı hodnota) x n+1 n lich´e ( ) x˜ = 1 2 [median(x)] x( n ) + x( n +1) n sud´ e 2 2 2 minimum, maximum
xmin =x(1)
[min(x)]
xmax =x(n)
[max(x)]
[range(x)] spoˇc´ıt´a dvojici (xmin , xmax ) variaˇ cn´ı pr˚ umˇ er [mean(range(x))] 1 1 x(1) + x(n) = (xmin + xmax ) 2 2
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
23(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
kvartily, decily ◮
medi´ an x˜ je ˇc´ıslo, kter´e dˇel´ı data na dvˇe poloviny: hodnot menˇs´ıch nebo stejn´ych jako medi´ an – hodnot vˇetˇs´ıch nebo [median(x)] [quantile(x,probs=1/2)] stejn´ych jako medi´ an
◮
doln´ı kvartil Q1 je ˇc´ıslo, kter´e oddˇel´ı ˇctvrtinu hodnot (menˇs´ıch ˇci stejn´ych jako Q1 ) od tˇr´ı ˇctvrtin hodnot (vˇetˇs´ıch ˇci stejn´ych jako Q1 ) [quantile(x,probs=1/4)]
◮
horn´ı kvartil Q3 je ˇc´ıslo, kter´e oddˇel´ı tˇri ˇctvrtiny hodnot (menˇs´ıch ˇci stejn´ych jako Q3 ) od ˇctvrtiny hodnot (vˇetˇs´ıch ˇci stejn´ych jako Q3 ) [quantile(x,probs=3/4)]
◮
prvn´ı decil je ˇc´ıslo, kter´e oddˇel´ı desetinu nejmenˇs´ıch hodnot od ostatn´ıch hodnot [quantile(x,probs=1/10)]
◮
percentil xp je ˇc´ıslo, kter´e oddˇel´ı 100p % nejmenˇs´ıch hodnot od ostatn´ıch hodnot [quantile(x,probs=p)]
◮
nˇekolik percentil˚ u souˇcasnˇe
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
[quantile(x,probs=(0:4)/4)] 1. pˇredn´ aˇska
17. u ´nora 2015
24(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
v´ypoˇcet percentilu xp (fakultativnˇe) jedna z nejˇcastˇeji uˇz´ıvan´ych metod v´ypoˇctu percentilu, standardn´ı v R ◮
◮
◮
k dan´ym n, p se najde cel´e ˇc´ıslo k splˇ nuj´ıc´ı k −1 k ≤p< n−1 n−1 tedy k = ⌊1 + (n − 1) · p⌋ (⌊x⌋ znamen´a celou ˇc´ ast z x, zaokrouhl´ı dol˚ u) provede se line´arn´ı interpolace mezi x(k) a x(k+1) ({x} znamen´a zlomkovou ˇc´ ast x, o kolik pˇresahuje cel´e ˇc´ıslo) q = {1 + (n − 1) · p} = (1 + (n − 1) · p) − k
xp = (1 − q) · x(k) + q · x(k+1) ◮
napˇr. pro n = 99, p = 0,25 bude k = ⌊1 + (99 − 1) · 0,25⌋ = ⌊25,5⌋ = 25, q = 25,5 − 25 = 0,5
Q1 = x0,25 = (1 − 0,5) · x(25) + 0,5 · x(26) Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
25(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
krabicov´y diagram
5
10
15
20
[boxplot(c(4,5,8,9,10,13,21),horizontal=TRUE,col=7,pch=16)] zn´azorˇena ˇrada statistik pro data: 4, 5, 8, 9, 10, 13, 21 ◮
medi´an (˜ x = 9) – pˇr´ıˇcka obd´eln´ıka
◮
kvartily (Q1 = 6,5, Q3 = 11,5) – kratˇs´ı strany obd´eln´ıka
◮
tykadla od kvartilu k minimu (maximu), pokud nen´ı odlehl´e
◮
odlehl´e pozorov´an´ı – je d´ al, neˇz 3/2 · (Q3 − Q1 ) (= 7,5) od bliˇzˇs´ıho kvartilu
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
26(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
vlastnosti m´ıry polohy ◮
pˇriˇcteme-li ke kaˇzd´e hodnotˇe x stejnou konstantu a, mus´ıme tut´eˇz konstantu a pˇriˇc´ıst k pr˚ umˇeru (medi´ anu, kvartilu, . . . )
◮
vyn´asob´ıme-li kaˇzdou hodnotu x stejnou kladnou konstantou b, mus´ıme pr˚ umˇer (medi´ an, kvartil, . . . ) vyn´ asobit tout´eˇz konstantou b
◮
pro dobrou m´ıru polohy µ(X ) plat´ı: µ(a + X ) = a + µ(X ) µ(b · X ) = b · µ(X )
◮
(b > 0)
dobr´a m´ıra polohy je citliv´ a v˚ uˇci posunut´ı (pozn´a zmˇenu u ´rovnˇe) i v˚ uˇci zmˇenˇe mˇeˇr´ıtka (napˇr. pˇrechod od g ke kg)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
27(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
m´ıry variability ◮
m´ıra variability σ(x) ˇc´ıselnˇe charakterizuje jinou vlastnost, neˇz m´ıry polohy, proto na poloze nesm´ı z´ aviset
◮
ukazuje nakolik jsou zjiˇstˇen´e hodnoty nestejn´e, velikost jejich kol´ıs´an´ı, jejich variabilitu
◮
pro dobrou m´ıru variability σ(X ) plat´ı: σ(a + X ) = σ(X )
rozd´ıl proti m´ıˇre polohy!!!
σ(b · X ) = b · σ(X ) ◮
b>0
pˇriˇcten´ı konstanty a m´ıru variability nezmˇen´ı, na vyn´asoben´ı kladnou konstantou b reaguje
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
28(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
smˇerodatn´a odchylka, rozptyl [standard deviation, variance] n
◮
rozptyl (variance) sx2 =
1 X (xi − x¯)2 n−1 i =1
2 = b2s 2 sb·x x ◮
napˇr. pro data: 4, 5, 8, 9, 10, 13, 21 dostaneme x¯ = 10, tedy sx2 =
◮
[var(x)]
196 1 (4 − 10)2 + (5 − 10)2 + . . . + (21 − 10)2 = 7−1 6
smˇ erodatn´ a odchylka v u n u 1 X sx = t (xi − x¯)2 n−1
[sd(x)]
i =1
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
29(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
dalˇs´ı m´ıry variability ◮ ◮
rozpˇ et´ı R = xmax − xmin (mezi)kvartilov´ e rozpˇ et´ı
[range] [interquartile range]
R Q = Q3 − Q1 ◮
variaˇ cn´ı koeficient (nesplˇ nuje ani jeden poˇzadavek) slouˇz´ı k porovn´an´ı variability pˇri r˚ uzn´ych u ´rovn´ıch [coefficient of variation] sx Vx = x¯
◮
entropie (pro nomin´ aln´ı, poˇzadavky nemaj´ı smysl, nez´avis´ı na oznaˇcen´ı hodnot, jen na jejich relativn´ıch ˇcetnostech) [entropy] H=−
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
m X nj j=1
n
ln
nj n
1. pˇredn´ aˇska
17. u ´nora 2015
30(247)
u ´vod grafick´ a zn´ azornˇ en´ı m´ıry polohy m´ıry variability
pˇr´ıklad ICHS: vztah muˇz˚ u ke kouˇren´ı
vzdˇel. z´ akl. odb. stˇr. ˇ VS
nekuˇr´ ak/b´yval´y 25 21,4 % 83 28,0 % 99 33,2 % 115 48,3 %
vztah ke kouˇren´ı stˇredn´ı siln´y 14 12,0 % 78 66,7 24 8,1 % 189 63,9 24 8,1 % 175 58,7 17 7,1 % 106 44,5
% % % %
celk. 117 296 298 238
H 0,854 0,847 0,882 0,900
muˇzi se z´akladn´ım vzdˇel´ an´ım: 25 14 14 78 78 25 ln + ln + ln H=− = 0,854123 117 117 117 117 117 117 vˇetˇs´ı vyrovnanost ⇒ vˇetˇs´ı entropie maximum pro n1 = n2 = n3 = n4 vyjde H = ln(4) = 1,386294
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1. pˇredn´ aˇska
17. u ´nora 2015
31(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
z-sk´ory ◮
z-sk´ ory (normovan´ a veliˇcina) zi =
◮ ◮
◮ ◮ ◮ ◮
xi − x¯ , sx
i = 1, 2, . . . , n
[(x-mean(x))/sd(x)] nebo [scale(x)] hodnoty z1 , z2 , . . . , zn ztratily“ informaci o poloze a ” variabilitˇe, vˇzdy plat´ı z¯ = 0, sz = 1 pˇriˇcten´ı konstanty ani n´ asoben´ı konstantou z-sk´ory nezmˇen´ı hodnocen´ı vlastnost´ı nez´ avisl´ych na poloze a variabilitˇe pro data: 4, 5, 8, 9, 10, 13, 21 plat´ı x¯ = 10, sx = 5,715 proto dostaneme z1 =
Z´ aklady biostatistiky
21 − 10 4 − 10 = −1,050, . . . , z7 = = 1,925 5,715 5,715
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
32(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
ˇsikmost, ˇspiˇcatost ◮
ˇsikmost (pr˚ umˇer 3. mocnin z-sk´or˚ u) n n 1 X xi − x¯ 3 1X 3 zi = = g1 = n n sx i =1
◮
◮
Pn
i =1 (xi sx3
− x¯)3
[mean(((x-mean(x))/sd(x))ˆ3)] ˇspiˇ catost (pr˚ umˇer 4. mocnin z-sk´or˚ u zmenˇsen´y o 3) n n X X xi − x¯ 4 1 1 4 −3 zi − 3 = g2 = n n sx i =1
◮
i =1
1 n
i =1
[mean(((x-mean(x))/sd(x))ˆ4)-3] g1 , g2 se pouˇz´ıvaj´ı k posouzen´ı normality pro data: 4, 5, 8, 9, 10, 13, 21 dostaneme g1 = 0,771
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
g2 = −0,770 2. pˇredn´ aˇska
24. u ´nora 2015
33(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
pˇr´ıklad: vˇek matky, ˇc´ısla 1 aˇz 99 ˇc´ısla 1 aˇz 99: g1 = 0,
15
35
10 0
5
25 20
30
25
g2 = −1,236
20
g2 = 0,220
20
30
35
vˇek matek: g1 = 0,741,
0
1
2
−2
0
1
2
20
25
30
35
8 6 4 2
20 40 60 80 0
Z´ aklady biostatistiky
0
20 40 60 80 0
10
−2
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
0
20
60
24. u ´nora 2015
100 34(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
norm´aln´ı diagram [(normal) probability plot], [quantile-comparison plot] ◮
k ovˇeˇrov´an´ı pˇredpokladu norm´ aln´ıho rozdˇelen´ı
◮
porovn´av´a skuteˇcnou variaˇcn´ı ˇradu s ide´ aln´ı variaˇcn´ı ˇradou norm´aln´ıho (Gaussova) rozdˇelen´ı N(0, 1)
◮
v ide´aln´ım pˇr´ıpadˇe body t´emˇeˇr na pˇr´ımce
◮
systematick´a odchylka ukazuje na rozdˇelen´ı, kter´e nen´ı norm´aln´ı
◮
konvexn´ı ˇci konk´avn´ı pr˚ ubˇeh – nesymetrie, nenulov´a ˇsikmost
◮
esovit´y pr˚ ubˇeh – nenulov´ a ˇspiˇcatost
◮
[qqnorm(x)]
◮
pˇr´ımku vloˇz´ı [qqline(x)]
◮
nˇekter´e programy maj´ı zamˇenˇeny osy (Statistica)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
35(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
z´avislost dvojice znak˚ u ◮
moˇznost zkoum´an´ı z´ avislosti dvou znak˚ u
◮
zp˚ usob zn´azornˇen´ı (prokazov´ an´ı) z´ avis´ı na mˇeˇr´ıtc´ıch znak˚ u
◮
kvantitativn´ı – kvantitativn´ı rozptylov´y (bodov´y) diagram korelace, regrese
◮
◮
[scatter plot] [correlation, regression]
kvantitativn´ı - kvalitativn´ı krabicov´y diagram t-test, ANOVA
[box-plot]
kvalitativn´ı - kvalitativn´ı kontingenˇcn´ı tabulka ch´ı-kvadr´at test, Fisher˚ uv exaktn´ı test
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
[contingency table]
24. u ´nora 2015
36(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
kvantitativn´ı – kvantitativn´ı ◮
◮
pokud z´aleˇz´ı na smˇeru z´ avislosti, pak vysvˇetlovanou (z´ avisle promˇ ennou) veliˇcinu um´ıst´ıme na svislou osu y korelaˇ cn´ı koeficient vyjadˇruje s´ılu a smˇer vz´ ajemn´ e z´avislosti rxy =
◮ ◮ ◮
sxy , sx · sy
n
kde
sxy =
1 X (xi − x¯)(yi − y¯) n−1 i =1
[cor(x,y)] [correlation coefficient] sxy – v´ybˇerov´a kovariance [covariance] pomoc´ı z-sk´or˚ u (⇒ nez´ avislost na poloze a mˇeˇr´ıtku) n yi − y¯ 1 X xi − x¯ rxy = n−1 sx sy i =1
◮
pro rxy > 0 s rostouc´ım x v pr˚ umˇeru roste y pro rxy < 0 s rostouc´ım x v pr˚ umˇeru kles´ ay −1 ≤ rxy ≤ 1 nez´avislosti odpov´ıdaj´ı hodnoty rxy bl´ızk´e nule
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
37(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
kvantitativn´ı – kvantitativn´ı, pˇr´ıklady 140
10
vlevo – z´ avislost v´ ahy v 24. t´ydnu na porodn´ı v´ aze s rozliˇsen´ım pohlav´ı (data: Kojen´ı) vpravo – z´ avislost IQ na pr˚ umˇern´e zn´ amce v 7. tˇr´ıdˇe (data: Iq3) hoch dívka
120 110 100
IQ
8
70
6
80
90
7
váha v 24. týdnu
9
130
hoch dívka
2.0
2.5
3.0
3.5
4.0
1.0
porodní váha
(MS710P09) ak. rok 2014/2015
2.0
2.5
3.0
známky v 7. třídě
r = −0,689
r = 0,429 Z´ aklady biostatistiky
1.5
2. pˇredn´ aˇska
24. u ´nora 2015
38(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
pˇr´ıklad: kouˇren´ı u muˇz˚ u
mat. 55 44 24 175 298
ˇ VS 73 42 17 106 238
v grafu zn´azornˇeny absolutn´ı ˇcetnosti (sdruˇzen´e, margin´aln´ı ˇcetnosti) [barplot(t,beside=TRUE)]
celk. 197 125 79 548 949
nekurák bývalý k. kurák silný k.
100
odb. 55 28 24 189 296
50
z´akl. 14 11 14 78 117
0
vzdˇel´an´ı nekuˇr´ak b´yval´y k. kuˇr´ak siln´y k. celkem
150
data: Ichs
zákl.
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
odb.
24. u ´nora 2015
mat.
VS
39(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
kvalitativn´ı – kvalitativn´ı ◮
kontingenˇ cn´ı tabulka obsahuje pˇrehlednˇe zapsan´e u ´pln´e u ´daje
◮
sdruˇzen´e ˇcetnosti jednotliv´ych kombinac´ı hodnot dvou znak˚ u margin´aln´ı ˇcetnosti:
◮
◮
◮
◮
[contingency table]
ˇr´ adkov´ e margin´aln´ı ˇcetnosti: souˇcty sdruˇzen´ych ˇcetnost´ı v jednotliv´ych ˇr´adc´ıch (pro jednotliv´e hodnoty ˇr´adkov´eho znaku) sloupcov´ e margin´aln´ı ˇcetnosti: souˇcty sdruˇzen´ych ˇcetnost´ı v jednotliv´ych sloupc´ıch (pro jednotliv´e hodnoty sloupcov´eho znaku)
[table(F,G)] nebo [xtabs(∼ F + G)] resp. [xtabs(∼ F + G , data=DataFrame)] kde F a G jsou v R faktory, DataFrame je datab´aze
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
40(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
pˇr´ıklad: kouˇren´ı u muˇz˚ u podm´ınˇen´e relativn´ı ˇcetnosti
margin´ aln´ı relativn´ı ˇcetnosti
odb. 18,6 % 9,5 % 8,1 % 63,9 % 100 %
mat. 18,5 % 14,8 % 8,1 % 58,7 % 100 %
ˇ VS 30,7 % 17,6 % 7,1 % 44,5 % 100 %
0.8 0.6
0.8
0.4
0.6
0.2
0.4
0.0
0.2 0.0
zákl.
Z´ aklady biostatistiky
celk. 20,8 % 13,2 % 8,3 % 57,7 % 100 % 1.0
z´akl. 12,0 % 9,4 % 12,0 % 66,7 % 100 %
1.0
vzdˇel´an´ı nekuˇr´ak b´yval´y k. kuˇr´ak siln´y k. celkem
odb.
mat.
(MS710P09) ak. rok 2014/2015
VŠ
2. pˇredn´ aˇska
celk.
24. u ´nora 2015
41(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
relativn´ı ˇcetnosti v kontingenˇcn´ı tabulce ◮
ˇr´ adkov´ a procenta (relativn´ı ˇcetnosti v dan´em ˇr´adku) ◮
◮
◮
sloupcov´ a procenta (relativn´ı ˇcetnosti v dan´em sloupci) ◮
◮
◮
pod´ıl jednotliv´ych hodnot sloupcov´eho znaku pro danou hodnotu ˇr´adkov´eho znaku podm´ınˇ en´ e rozdˇ elen´ı hodnot sloupcov´eho znaku pro danou hodnotu ˇr´adkov´eho znaku pod´ıl jednotliv´ych hodnot ˇr´adkov´eho znaku pro danou hodnotu sloupcov´eho znaku podm´ınˇ en´ e rozdˇ elen´ı hodnot ˇr´adkov´eho znaku pro danou hodnotu sloupcov´eho znaku
nez´ avislosti obou znak˚ u odpov´ıd´ a situace, kdy jsou napˇr. sloupcov´a procenta pro vˇsechny hodnoty sloupcov´eho znaku podobn´e; podobnˇe pro ˇr´ adkov´ a procenta
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
42(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
kvantitativn´ı – kvalitativn´ı v´ aha v jednom roce podle pohlav´ı, data: Deti1633 ◮ ◮ ◮ ◮ ◮
lze ch´apat jako z´avislost spojit´e veliˇciny na kvalitativn´ı srovn´an´ı soubor˚ u dat (spojit´ a veliˇcina) krabicov´e diagramy resp. empirick´e distribuˇcn´ı funkce pˇr´ıklad: hmotnost chlapc˚ u a d´ıvek v jednom roce nez´ avislosti odpov´ıd´ a podobn´e um´ıstˇen´ı krabic resp. empirick´ych distribuˇcn´ıch funkc´ı 1.0 14 0.8 12
váha
0.6
0.4
10
0.2 8 0.0 dívka
Z´ aklady biostatistiky
hoch
(MS710P09) ak. rok 2014/2015
8
2. pˇredn´ aˇska
10 váha
12
24. u ´nora 2015
14
43(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
pˇr´ıklad: z´avislost v´yˇsky otce na vzdˇel´an´ı matky data: Kojen´ı ◮
porovn´ame v´yˇsky otc˚ u ve skupin´ ach podle vzdˇel´an´ı matky
◮
napravo zn´azorn´ıme pr˚ umˇery a smˇerodatn´e odchylky
◮
intervaly kolem pr˚ umˇeru m´ıvaj´ı i jinou interpretaci (jsou jin´e)
195
195
190
190
185
185
180
180
175
175
170
170
165
165
základní
Z´ aklady biostatistiky
maturita
VŠ
(MS710P09) ak. rok 2014/2015
základní
2. pˇredn´ aˇska
maturita
VŠ
24. u ´nora 2015
44(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
N´ahodn´e jevy ◮
n´ ahodn´ y pokus v´ysledek pˇredem neurˇcit´y
◮
pˇredpokl´ad´a se stabilita relativn´ıch ˇ cetnost´ı moˇzn´ych v´ysledk˚ u, kter´a s nez´ avisl´ymi opakov´ an´ımi pokusu roste
◮
n´ ahodn´ y jev tvrzen´ı o v´ysledku n´ ahodn´eho pokusu (podmnoˇzina mnoˇziny Ω)
◮
jist´ y jev Ω nast´av´ a vˇzdy
◮
nemoˇ zn´ y jev ∅ nenast´ av´ a nikdy
◮ ◮ ◮ ◮ ◮
podjev: B ⊂ D znamen´ aB ⇒D jev opaˇ cn´ y: D ⇔ neplat´ı D
pr˚ unik jev˚ u B ∩ D nastaly oba jevy
sjednocen´ı jev˚ u D ∪ B nastal aspoˇ n jeden nesluˇ citeln´ e jevy B ∩ D = ∅
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
45(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
zn´azornˇen´ı pomoc´ı Vennova diagramu cel´y obd´eln´ık – jev jist´y
B ⊂ D ⇒ P(B) ≤ P(D)
D
P(B) = 1 − P(B)
B
B
B
Ω
Ω
velikost plochy odpov´ıd´ a pravdˇepodobnosti
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
46(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
B ∩D = ∅ ⇒
obecnˇe plat´ı
P(B ∪ D) = P(B) + P(D)
P(B ∪ D) = P(B) + P(D) − P(B ∩ D)
D B
D
B
D ∩B
Ω
Ω
velikost plochy odpov´ıd´ a pravdˇepodobnosti
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
47(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
pravdˇepodobnost ◮ ◮ ◮
objektivn´ı ˇc´ıseln´e vyj´ adˇren´ı nadˇeje“, ˇze nastane jev B ” modelov´y protˇejˇsek relativn´ı ˇcetnosti pravdˇepodobnost (pst) by mˇela m´ıt stejn´e vlastnosti jako relativn´ı ˇcetnost: ◮
0 ≤ P(B) ≤ 1
◮
P(Ω) = 1, P(∅) = 0
◮
◮
B ∩ D = ∅ ⇒ P(B ∪ D) = P(B) + P(D) (sˇ c´ıt´ an´ı pravdˇ epodobnost´ı) P(B ∪ D) = P(B) + P(D) − P(B ∩ D)
◮
B ⊂ D ⇒ P(B) ≤ P(D)
◮
P(B) = 1 − P(B)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
48(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
klasick´a definice pravdˇepodobnosti ◮
klasick´ a definice psti ◮ ◮ ◮
m stejnˇ e pravdˇ epodobn´ ych element´arn´ıch jev˚ u ω1 , . . . , ωm jsou nesluˇciteln´e, sjednocen´ı vˇsech je jist´y jev mB element´arn´ıch jev˚ u pˇr´ızniv´ ych jevu B (tj. takov´ych ωi , ˇze ωi ∈ B, je pr´avˇe mB ) P(B) =
◮
mB m
pˇr´ıklad ◮ ◮
h´az´ı se dvˇema kostkami (modr´a, zelen´a) B – souˇcet aspoˇ n 10 m = 6 · 6 = 36;
mB = 6
⇒
P(B) =
6 36
pˇr´ızniv´e moˇznosti: (6,4), (6,5), (6,6), (5,5), (5,6), (4,6) Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
49(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
kombinaˇcn´ı ˇc´ıslo ◮
n k
=
n! k!(n−k)!
=
n(n−1)···(n−k+1) k(k−1)···1
◮
kolika zp˚ usoby lze z n rozliˇsiteln´ych objekt˚ u vybrat nˇejak´ych k objekt˚ u bez ohledu na poˇrad´ı
◮
kolika zp˚ usoby lze z 5 student˚ u vybrat trojici na pˇrezkouˇsen´ı? 5·4·3 5·4 5 5·4·3·2·1 = = = 10 = (3 · 2 · 1) · (2 · 1) 3·2·1 2·1 3 ◮
◮ ◮ ◮ ◮
Z´ aklady biostatistiky
v ˇcitateli je poˇcet moˇznost´ı, kolika zp˚ usoby lze postupnˇe (s ohledem na poˇrad´ı!) uspoˇr´adat vˇsech 5 student˚ u ve jmenovateli je souˇcin dvou ˇcinitel˚ u prvn´ı ud´av´a kolikr´at lze uspoˇr´adat tˇri vybran´e studenty druh´y ud´av´a kolikr´at lze uspoˇr´adat dva nevybran´e studenty kaˇzd´a trojice vybran´ych student˚ u se kombinuje s kaˇzdou dvojic´ı student˚ u nevybran´ych (MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
50(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
Poˇc´ıt´an´ı ryb v rybn´ıku
0.2
0.4
y
0.6
0.8
(m = 20), a = 7, n = 5, Y = 1 ⇒ m ˆ = n · a/Y = 35
0.0
0.2
0.4
0.6
0.8
x Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
51(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
hypergeometrick´e rozdˇelen´ı pˇr´ıklad na klasickou pravdˇepodobnost ◮
v rybn´ıku je m ryb (zpravidla nezn´ am´y poˇcet) a ryb vylov´ıme, oznaˇc´ıme a vypust´ıme zpˇet
◮
po nˇejak´e dobˇe vylov´ıme n ryb, z nich Y je oznaˇcen´ych
◮
ˇc´ıslo Y pˇredem nezn´ ame, je to n´ ahodn´ a veliˇ cina s jakou pravdˇepodobnost´ı je Y = k?
◮
◮ ◮ ◮
celkem mn moˇzn´ych n-tic vyloven´ych ryb k oznaˇcen´ych lze vybrat ka zp˚ usoby n − k neoznaˇcen´ych lze vybrat m−a usoby n−k zp˚ P(Y = k) =
◮
a k
m−a n−k m n
,
max(0, n + a − m) ≤ k ≤ min(a, n)
. napˇr. odhad nezn´ am´eho m: m ˆ = n · a (nebot’ Y /n = a/m) Y
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
52(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
pˇr´ıklad ponoˇzky V noci vzbudili Kubu, ˇze m´ a j´ıt hl´ıdat t´ abor. Po tmˇe z pytl´ıku vyt´ahl dvˇ e ponoˇzky, aniˇz ovˇeˇril jejich barvu. P˚ uvodnˇe tam byly tˇri p´ary ponoˇzek ze stejn´eho materi´ alu: zelen´e, modr´e, ˇsediv´e. N´ahodn´e jevy a veliˇciny: ◮
A obˇe ponoˇzky jsou stejn´e barvy
◮
B aspoˇ n jedna obut´ a ponoˇzka je zelen´ a
◮
C aspoˇ n jedna obut´ a ponoˇzka je modr´ a
◮
D na prav´e noze je zelen´ a ponoˇzka
◮
X poˇcet obut´ych ˇsediv´ych ponoˇzek
◮
Y poˇcet obut´ych modr´ych ponoˇzek
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
2. pˇredn´ aˇska
24. u ´nora 2015
53(247)
z-sk´ ory norm´ aln´ı diagram dvojice znak˚ u n´ ahodn´ e jevy pravdˇ epodobnost klasick´ a definice
pˇr´ıklad ponoˇzky – v´ypoˇcet pravdˇepodobnost´ı jev˚ u oznaˇcen´ı (z,m) znamen´ a barvu postupnˇe na lev´e a na prav´e noze
moˇznosti vyt´ahnou dvojici ponoˇzek: m = 6 · 5 = 30 moˇznosti vyt´ahnout dvˇe zelen´e: mz,z = 2 · 1 = 2 moˇznosti vyt´ahnout zelenou a modrou: mz,m = 2 · 2 = 4 ωi P(ωi ) (z,z) 1/15 (z,m) 2/15 (z,ˇs) 2/15 (m,z) 2/15 (m,m) 1/15 (m,ˇs) 2/15 (ˇs,z) 2/15 (ˇs,m) 2/15 (ˇs,ˇs) 1/15 pravdˇepodobnost
A •
•
B • • • • •
• 3/15
9/15
P(B) + P(C ) − P(B ∩ C ) = Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
C • • • • •
9/15
D •
B ∩C
•
•
B ∪C • • • • • • • •
4/15
14/15
•
• 5/15
Y 0 1 0 1 2 1 0 1 0
X 0 0 1 0 0 1 1 1 2
9 4 14 9 + − = = P(B ∪ C ) 15 15 15 15 2. pˇredn´ aˇska
24. u ´nora 2015
54(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
podm´ınˇen´a pravdˇepodobnost Venn˚ uv diagram: kdyˇz v´ıme, ˇze nastalo A (je to jist´e, pst A za podm´ınky A je rovna 1), pak podm´ınˇ en´ a pst jevu B za podm´ınky A bude rovna relativn´ı velikosti B ∩ A vzhledem k velikosti A
P(B|A) =
P(A ∩ B) P(A)
A A∩ B
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
B
3. pˇredn´ aˇska
3. bˇrezna 2015
55(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
pˇr´ıklad ponoˇzky: s jakou pst´ı se Kuba obul rozumnˇe? ◮ ◮
3 =1 bez dalˇs´ı informace: P(A) = 15 5 spolubydl´ıc´ı ve stanu Aleˇs se v noci vzbudil a v pytl´ıku vidˇel p´ar zelen´ych ponoˇzek P(A|B) =
◮
v pytl´ıku chybˇela aspoˇ n jedna modr´ a nebo aspoˇ n jedna zelen´a P(A|(B ∪ C )) =
◮
2/15 1 1 P(A ∩ B) = = > = P(A) 6/15 3 5 P(B)
P(A ∩ (B ∪ C )) 2/15 1 1 = = < = P(A) P(B ∪ C ) 14/15 7 5
na prav´e noze m´a Kuba zelenou P(A|D) =
Z´ aklady biostatistiky
P(A ∩ D) 1/15 1 1 = = = = P(A) P(D) 5/15 5 5
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
56(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
nez´avislost n´ahodn´ych jev˚ u informace, ˇze na prav´e noze je zelen´ a ponoˇzka (jev D) neovlivnila pravdˇepodobnost jevu A (stejn´ a barva ponoˇzek) jevy A a D jsou nez´ avisl´ e P(A|D) =
P(A ∩ D) = P(A) P(D)
a tedy po odstranˇen´ı zlomku v druh´e rovnosti P(A ∩ D) = P(A) · P(D) definuje nez´ avislost n´ ahodn´ych jev˚ uAaD (informace o v´yskytu D neovlivnila pravdˇepodobnost jevu A) vlastnost symetrick´a, nez´ avis´ı na poˇrad´ı
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
57(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
vlastnosti podm´ınˇen´e pravdˇepodobnost ◮
pravdˇepodobnost jevu D za podm´ınky jevu C P(D|C ) =
◮
mD∩C mD∩C /m P(D ∩ C ) = = mC mC /m P(C )
pravdˇepodobnost pr˚ uniku jev˚ u D, C obecnˇe P(D ∩ C ) = P(D|C ) P(C )
P(C ∩ D) = P(C |D) P(D) ◮
ale D ∩ C = D ∩ C , proto
◮
odtud shoda prav´ych stran
◮
vydˇel P(C ) ⇒ Bayes˚ uv vzorec:
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
P(C ∩ D) = P(D ∩ C )
P(D|C ) P(C ) = P(C |D) P(D) P(D|C ) =
3. pˇredn´ aˇska
P(C |D) P(D) P(C )
3. bˇrezna 2015
58(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
vzorec pro ´uplnou pst, Bayes˚ uv vzorec poˇc´ıt´ ame P(H1 |C ), napˇr. C – spr´ avn´ a odpovˇed’, Hj – spr´ avn´ a zn´ amka j
H4
H1 H2
H3
P(H1 ) = 0,231 P(H2 ) = 0,375 P(H3 ) = 0,219 P(H4 ) = 0,175
C
P(C |H1 ) = 0,589
P(C |H2 ) = 0,362
P(C ∩ H1 ) = P(C |H1 ) P(H1 ),
(proˇc je P(C |H2 ) < P(C |H1 )?)
P(C ∩ H2 ) = P(C |H2 ) P(H2 )
P(C ) = P(C ∩ H1 ) + P(C ∩ H2 ) = 0,136 + 0,136 = 0,272
P(H1 ∩ C ) = P(H1 |C ) P(C ) P(C |H1 ) P(H1 ) 1 P(H1 ∩ C ) = = P(H1 |C ) = P(C ) P(C |H1 ) P(H1 ) + P(C |H2 ) P(H2 ) 2 Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
59(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
obecn´y vzorec pro ´uplnou pravdˇepodobnost (tot´eˇz, ale obecnˇe)) ◮ ◮
H1 , . . . , Hk nesluˇciteln´e (tj. Hi ∩ Hj = ∅ pro i 6= j)
sjednocen´ı H1 , . . . , Hk d´ a jev jist´y (tj. H1 ∪ . . . ∪ Hk = Ω)
z definice podm´ınˇen´e psti plyne P(C ∩ Hj ) = P(C |Hj ) · P(Hj ) P(C ) = P(C ∩ Ω) = P(C ∩ (H1 ∪ H2 ∪ . . . ∪ Hk ))
= P((C ∩ H1 ) ∪ (C ∩ H2 ) ∪ . . . ∪ (C ∩ Hk )) (nesluˇciteln´e jevy)
= P(C ∩ H1 ) + P(C ∩ H2 ) + . . . + P(C ∩ Hk )
= P(C |H1 ) P(H1 ) + P(C |H2 ) P(H2 ) + . . . + P(C |Hk ) P(Hk ) tedy obecnˇe P(C ) =
k X j=1
P(C |Hj ) P(Hj )
P(C ) je v´ aˇ zen´ ym pr˚ umˇ erem podm´ınˇen´ych pst´ı P(C |Hj ) Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
60(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
Bayes˚ uv vzorec [Bayes formula] stejn´e pˇredpoklady: Hj nesluˇciteln´e, sjednocen´ı vˇsech jist´y jev
P(Hi |C ) =
P(Hi ∩ C ) , P(C )
P(C |Hi ) =
P(C ∩ Hi ) P(Hi )
odtud je pro libovolnˇe zvolen´e i P(Hi ∩ C ) = P(C ∩ Hi ) = P(C |Hi ) P(Hi ) proto pro kaˇzd´e i , i = 1, . . . , k plat´ı P(Hi |C ) =
P(Hi ∩ C ) P(C |Hi ) P(Hi ) P(C |Hi ) P(Hi ) = = Pk P(C ) P(C ) j=1 P(C |Hj ) P(Hj )
H1 , . . . , Hk – hypot´ ezy, P(H1 |C ), . . . , P(Hk |C ) – aposteriorn´ı psti P(H1 ), . . . , P(Hk ) – apriorn´ı psti (nutnˇe P(H1 ) + . . . + P(Hk ) = 1) Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
61(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
pˇr´ıklad: zkouˇsen´ı Hj – student si zaslouˇz´ı zn´ amku j, uˇcitel studenta (tedy j) nezn´a C – student spr´avnˇe odpov´ı na poloˇzenou ot´ azku P(Hj ) – apriorn´ı pˇredstava uˇcitele o nezn´ am´em studentovi P(C |Hj ) – obt´ıˇznost ot´ azky, vol´ı uˇcitel Hj 1 2 3 4 Σ
P(Hj ) 0,20 0,35 0,25 0,20 1,00
P(C |Hj ) 1,00 0,80 0,65 0,50
P(C |Hj ) P(Hj ) 0,2000 0,2800 0,1625 0,1000 0,7425
P(Hj |C ) 0,2694 0,3771 0,2189 0,1347 1,0000
P(Hj |C2 ) 0,3451 0,3865 0,1822 0,0863 1,0000
P(Hj |C3 ) 0,4230 0,3790 0,1452 0,0529 1,0000
P(C ) = 0,7425 podobnˇe C2 , C3 spr´avn´e odpovˇedi na dalˇs´ı stejnˇe obt´ıˇzn´e ot´azky, kdyˇz pouˇzijeme pˇredchoz´ı aposteriorn´ı psti jako apriorn´ı Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
62(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
senzitivita, specificita, prevalence
◮
◮
D – subjekt je nemocen, prevalence – pod´ıl nemocn´ych v populaci P(D), zvolme P(D) = 0,001 nemoc je skryt´a, vyhled´ av´ ame ji pomoc´ı testu s vlastnostmi: ◮
◮
Z´ aklady biostatistiky
P(T |D) – pravdˇepodobnost pozitivn´ıho v´ysledku u nemocn´eho (senzitivita, pokud moˇzno velk´a, zvolme P(T |D) = 0,98, na test pozitivnˇe reaguje 98 % nemocn´ych) P(T |D) – pravdˇepodobnost negativn´ıho v´ysledku u zdrav´eho (specificita, pokud moˇzno velk´a, zvolme P(T |D) = 0,99, na test pozitivnˇe reaguje jen P(T |D) = 1 − P(T |D) = 1 % zdrav´ych)
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
63(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
senzitivita, specificita, prevalence ◮
jak´a je pst, ˇze pozitivnˇe reaguj´ıc´ı je opravdu nemocn´y? P(T |D) P(D) P(T |D) P(D) + P(T |D) P(D) 0,98 · 0,001 . = 0,089 = 0,98 · 0,001 + 0,01 · 0,999
P(D|T ) =
◮
jak´a je pst, ˇze jde o zdrav´eho ˇclovˇeka v pˇr´ıpadˇe, ˇze test byl negativn´ı? P(T |D) P(D) P(T |D) P(D) + P(T |D) P(D) 0,99 · 0,999 = = 0,99998 0,99 · 0,999 + 0,02 · 0,001
P(D|T ) =
◮
porovnej s apriorn´ımi pstmi: 0,001 resp. 0,999
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
64(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
senzitivita, specificita, prevalence numerick´ a pˇredstava
◮ ◮
mˇejme N = 1 000 000 osob pak je zhruba N · P(D) = 1 000 nemocn´ych, z nich ◮ ◮
◮
podobnˇe je zhruba N · (1 − P(D)) = 999 000 zdrav´ych, z nich je ◮ ◮
◮
◮
1 000 · P(T |D) = 980 pozitivn´ıch 1 000 · (1 − P(T |D)) = 20 negativn´ıch
999 000 · (1 − P(T |D)) = 9 990 pozitivn´ıch 999 000 · P(T |D)) = 989 010 negativn´ıch
mezi 980 + 9 990 = 10 970 pozitivn´ımimi je 100 · 980/10 970 = 8,9 % nemocn´ych
mezi 20 + 98 9010 = 989 030 negativn´ımi je 100 · 989 010/989 030 = 99,998 % zdrav´ych
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
65(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
n´ahodn´a veliˇcina [random variable] ◮ ◮
ˇc´ıselnˇe vyj´adˇren´y v´ysledek n´ ahodn´eho pokusu pˇredem nev´ıme, kter´y v´ysledek vyjde, zn´ ame jen ◮ ◮
◮ ◮
kaˇzd´emu element´ arn´ımu jevu pˇriˇrad´ıme re´ aln´e ˇc´ıslo diskr´ etn´ı rozdˇ elen´ı n´ ahodn´e veliˇciny X ◮ ◮ ◮
◮
moˇzn´e hodnoty jejich pravdˇepodobnosti
model pro poˇcty pˇr´ıpad˚ u (ˇcetnosti) moˇzn´e hodnoty x1∗ , x2∗ , . . . psti hodnot P(X = x1∗ ), P(X = x2∗ ), . . . (pstn´ı funkce)
spojit´ e rozdˇ elen´ı n´ ahodn´e veliˇciny X ◮ ◮ ◮
Z´ aklady biostatistiky
model pro spojitou veliˇciny (d´elka, v´aha, koncentrace . . . ) obor (mnoˇzina) moˇzn´ych hodnot X hustota f (x)
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
66(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
pˇr´ıklad: ponoˇzky X a Y maj´ı stejn´ e rozdˇ elen´ı
n´ahodn´a veliˇcina Y – poˇcet modr´ych ponoˇzek rozdˇelen´ı Y d´ano hodnotami yj∗ a pstmi tˇechto hodnot P(Y = yj∗ ) n´ahodn´a veliˇcina X – poˇcet ˇsediv´ych ponoˇzek rozdˇelen´ı X d´ano hodnotami xj∗ a pstmi tˇechto hodnot P(X = xj∗ ) ωi (z,z) (z,m) (z,ˇs) (m,z) (m,m) (m,ˇs) (ˇs,z) (ˇs,m) (ˇs,ˇs)
P(ωi ) 1/15 2/15 2/15 2/15 1/15 2/15 2/15 2/15 1/15
Y 0 1 0 1 2 1 0 1 0
X 0 0 1 0 0 1 1 1 2
j 1 2 3
xj∗ 0 1 2
P(X = xj∗ ) 2/15+4/15=6/15 0/15+8/15=8/15 1/15+0/15=1/15
j 1 2 3
yj∗ 0 1 2
P(Y = yj∗ ) 2/15+4/15=6/15 0/15+8/15=8/15 1/15+0/15=1/15
Stˇredn´ı hodnota Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
67(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
distribuˇcn´ı funkce protˇejˇsek empirick´e distribuˇcn´ı funkce (str. 19),[(cumulative) distribution function] ◮
pst, ˇze X nepˇrekroˇc´ı x
◮
diskr´etn´ı rozdˇelen´ı:
FX (x) = P(X ≤ x) X F (x) = P(X = k) k≤x
Rx
◮
spojit´e rozdˇelen´ı: F (x) =
◮
vlastnosti distribuˇcn´ı funkce
neklesaj´ıc´ı:
−∞ f (t)dt,
kde f (x) = dF (x) dx
0 ≤ F (x) ≤ 1
x1 < x2 ⇒ F (x1 ) ≤ F (x2 )
P(x1 < X ≤ x2 ) = F (x2 ) − F (x1 )
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
68(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
pˇr´ıklad diskr´etn´ıho rozdˇelen´ı
0,6
FY (yj∗ ) 6/15=0,400 . 14/15=0,933 15/15=1,000
0,4
P(Y = yj∗ ) 6/15 8/15 1/15
0,2
yj∗ 0 1 2
0,0
j 1 2 3
FY(y)
0,8
1,0
rozdˇelen´ı poˇctu modr´ych ponoˇzek Y
−1
0
1
2
3
y
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
69(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
hustota spojit´eho rozdˇelen´ı [density function] ◮
necht’ f (x) je hustota n´ ahodn´e veliˇciny X
◮
hustota je nez´aporn´ a, plocha pod celou hustotou je rovna jedn´e Z ∞ f (x)dx = 1 f (x) ≥ 0, −∞
◮
plocha pod hustotou nad intervalem x1 , x2 je rovna pravdˇepodobnosti, ˇze X je mezi x1 , x2
y
y
P(x1 < X < x2 ) y = f (x)
0
Z´ aklady biostatistiky
x1
x2
x
(MS710P09) ak. rok 2014/2015
P(x2 < X < x2 + δ) y = f (x)
P(x1 < X < x1 + δ)
0
x1 x1 + δ
3. pˇredn´ aˇska
x2 x2 + δ
3. bˇrezna 2015
x 70(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
geometrick´y v´yznam hustoty P(x1 < X , X <= x2 ) = P(x1 < X <= x2 ), vpravo struˇcnˇejˇs´ı, pouˇz´ıvan´y z´ apis
F (x2 ) = P(X ≤ x2 ) = P(X ≤ x1 ) + P(x1 < X ≤ x2 ) = F (x1 ) + P(x1 < X ≤ x2 )
P(x1 < X ≤ x2 ) = F (x2 ) − F (x1 ) =
odtud
P(X ≤ x1) F(x1)
x1
fX (x) dx
P(x1 < X, X ≤ x2) F(x2) − F(x1) x1
Z´ aklady biostatistiky
R x2
(MS710P09) ak. rok 2014/2015
x2 3. pˇredn´ aˇska
3. bˇrezna 2015
71(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
p-kvantil x(p) ◮
x(p) je hodnota, pod kterou je 100p procent pravdˇepodobnosti P(X ≤ x(p)) = p
◮ ◮
1 p
populaˇcn´ı protˇejˇsek percentilu . napˇr. [qnorm(0.975)] d´ a 1,959964 = 1,96 y ✲ y = F (x)
y = f (x) p 1−p
✠
☛
0 Z´ aklady biostatistiky
❄
x(p)
x
(MS710P09) ak. rok 2014/2015
0 3. pˇredn´ aˇska
x(p) 3. bˇrezna 2015
x 72(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
stˇredn´ı hodnota pokraˇcujeme v idealizovan´ych pˇredstav´ ach ◮ ◮ ◮ ◮ ◮ ◮
m´ıra polohy, oˇcek´ avan´ a hodnota [expected value, mean value] metoda v´ypoˇctu se znaˇc´ı E X vypoˇcten´a hodnota se znaˇc´ı µ nebo u ´plnˇeji µX v´ aˇ zen´ y pr˚ umˇ er moˇ zn´ ych hodnot ide´aln´ı protˇejˇsek v´ybˇerov´eho pr˚ umˇeru diskr´etn´ı rozdˇelen´ı: vahami jsou pravdˇepodobnosti X µX = E X = xj∗ P(X = xj∗ ) j
◮
spojit´e rozdˇelen´ı: m´ısto vah je hustota fX (x) Z ∞ x fX (x)dx µX = E X = −∞
◮
praktick´a pˇredstava stˇredn´ı hodnoty: pr˚ umˇer cel´e populace moˇzn´ych hodnot, tedy populaˇ cn´ı pr˚ umˇ er
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
73(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
pˇr´ıklad ponoˇzky X – poˇcet modr´ych ponoˇzek
j 1 2 3 souˇcet
xj∗ 0 1 2
µX = 0 ·
P(X = xj∗ ) 6/15 8/15 1/15 15/15
xj∗ · P(X = xj∗ ) 0 8/15 2/15 10/15
8 1 10 2 6 +1· +2· = = 15 15 15 15 3
N´ ahodn´ a veliˇ cina
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
74(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
(populaˇcn´ı) rozptyl σ 2 , (populaˇcn´ı) smˇerodatn´a odchylka σ [variance, standard deviation] ◮ ◮ ◮ ◮ ◮
m´ıra variability, populaˇ cn´ı rozptyl, popul. smˇ er. odchylka ud´av´a velikost kol´ıs´ an´ı (variabilitu) kolem stˇredn´ı hodnoty metoda v´ypoˇctu se znaˇc´ı var X vypoˇcten´a hodnota σ 2 , u ´plnˇeji σX2 lze vyj´adˇrit pomoc´ı stˇredn´ı hodnoty σX2 = var X = E (X − µX )2 = E(X 2 ) − (µX )2
◮ ◮ ◮
σX2 – ide´aln´ı protˇejˇsek v´ybˇerov´eho rozptylu σX – ide´aln´ı protˇejˇsek v´ybˇerov´e smˇerodatn´e odchylky diskr´etn´ı rozdˇelen´ı X 2 xj∗ − µX P X = xj∗ σX2 = var X = j
◮
spojit´e rozdˇelen´ı
Z´ aklady biostatistiky
σX2 =
(MS710P09) ak. rok 2014/2015
R∞
−∞ (x
− µX )2 fX (x)dx
3. pˇredn´ aˇska
3. bˇrezna 2015
75(247)
podm´ınˇ en´ a pst nez´ avislost Bayes n´ ah. vel. distr. fce kvantily stˇr. hodn. rozptyl
pˇr´ıklad ponoˇzky X – poˇcet ˇsediv´ych ponoˇzek, µX = 2/3
j 1 2 3 P
xj∗ 0 1 2
P(X = xj∗ ) 6/15 8/15 1/15 15/15
σX2
=
xj∗ − µX –2/3 1/3 4/3 ???
2 xj∗ − µX 4/9 1/9 16/9
xj∗ − µX
2
P(X = xj∗ ) 24/135 8/135 16/135 48/135=16/45
X (xj∗ − µX )2 pj j
σX Z´ aklady biostatistiky
= (0 − 2/3)2 · 6/15 + (1 − 2/3)2 · 8/15 . +(2 − 2/3)2 · 1/15 = 16/45 = 0,356 p . 16/45 = 0,596 =
(MS710P09) ak. rok 2014/2015
3. pˇredn´ aˇska
3. bˇrezna 2015
76(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
sdruˇzen´e rozdˇelen´ı
◮
◮
abychom mohli popsat z´ avislost n´ ahodn´ych veliˇcin, zaj´ım´ame se o spoleˇ cn´ e chov´ an´ı dvojice (trojice,. . . ) n´ ahodn´ych veliˇcin, tedy chov´an´ı n´ ahodn´ eho vektoru pˇr´ıklad ponoˇ zky ◮ ◮ ◮
X – poˇcet ˇsediv´ych ponoˇzek Y – poˇcet modr´ych Z – poˇcet jin´ych neˇz ˇsediv´ych ponoˇzek
◮
zaj´ım´a n´as rozdˇelen´ı n´ ahodn´eho vektoru (X , Y )
◮
proˇc nem´a smysl vyˇsetˇrovat vektor (X , Z )?
◮
(protoˇze Z je urˇceno X jednoznaˇcnˇe: Z = 2 − X )
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
4. pˇredn´ aˇska
10. bˇrezna 2015
77(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
pˇr´ıklad ponoˇzky X ˇsediv´ych ponoˇzek, Y poˇcet modr´ych ponoˇzek
sdruˇzen´e pravdˇepodobnosti, margin´ aln´ı pravdˇepodobnosti, podm´ınˇen´e pravdˇepodobnosti Y pˇri dan´em X = x ωi (z,z) (z,m) (z,ˇs) (m,z) (m,m) (m,ˇs) (ˇs,z) (ˇs,m) (ˇs,ˇs)
P(ωi ) 1/15 2/15 2/15 2/15 1/15 2/15 2/15 2/15 1/15
Z´ aklady biostatistiky
Y 0 1 0 1 2 1 0 1 0
X 0 0 1 0 0 1 1 1 2
(MS710P09) ak. rok 2014/2015
xi∗ 0 1 2
xi∗ 0 1 2
yj∗ 0 1 2 celkem 1/15 4/15 1/15 6/15 4/15 4/15 0/15 8/15 1/15 0/15 0/15 1/15 6/15 8/15 1/15 15/15 yj∗ 0 1 2 celkem 1/6 4/6 1/6 1 3/6 3/6 0/6 1 6/6 0 0 1 4. pˇredn´ aˇska
10. bˇrezna 2015
78(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
sdruˇzen´e, margin´aln´ı a podm´ınˇen´e rozdˇelen´ı sdruˇ zen´ e rozdˇ elen´ı – popisuje spoleˇ cn´ e chov´ an´ı X , Y P(X = xi∗ , Y = yj∗ ) resp. fX ,Y (x, y ) margin´ aln´ı rozdˇ elen´ı: chov´ an´ı jedn´e bez ohledu na hodnotu druh´e P(X = xi∗ ) =
X
P(X = xi∗ , Y = yj∗ )
∀xi∗
P(X = xi∗ , Y = yj∗ )
∀yj∗
j
P(Y = yj∗ ) =
X i
podm´ınˇ en´ e rozdˇ elen´ı: chov´ an´ı Y pˇri dan´ e hodnotˇe X P(Y =
Z´ aklady biostatistiky
yj∗ |X
=
xi∗ )
(MS710P09) ak. rok 2014/2015
=
P(X = xi∗ , Y = yj∗ ) P(X = xi∗ ) 4. pˇredn´ aˇska
10. bˇrezna 2015
79(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
kovariance protˇejˇsek sxy (str. 37), [covariance]
kovariance vyjadˇruje vz´ ajemnou z´ avislost n´ ahodn´ych veliˇcin:
σX ,Y
σX ,Y = E(X − µX )(Y − µY ) XX = (xi∗ − µX )(yj∗ − µY ) P(X = xi∗ , Y = yj∗ ) i
j
oznaˇcen´ı metody v´ypoˇctu: cov(X , Y ) zˇrejmˇe plat´ı cov(X , X ) = var X tj. σX ,X = σX2 n´ahodn´e veliˇciny jsou nez´ avisl´ e pr´ avˇe tehdy, kdyˇz jsou nez´avisl´e vˇsechny jevy A (tvrzen´ı o X ) a B (tvrzen´ı o Y ), tj. kdyˇz plat´ı P(X = xi∗ , Y = yj∗ ) = P(X = xi∗ ) · P(Y = yj∗ ),
∀(xi∗ , yj∗ )
(ze znalosti hodnoty jedn´ e veliˇ ciny nic nev´ıme o druh´ e) jsou-li X , Y – nez´avisl´e ⇒ σX ,Y = 0 (nikoliv obr´acen´a implikace) Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
4. pˇredn´ aˇska
10. bˇrezna 2015
80(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
shrnut´ı vlastnost´ı populaˇcn´ıho pr˚ umˇeru a rozptylu srovnej s poˇzadavky na m´ıry polohy a m´ıry variability
µβX = β · µX ,
µα+X = α + µX , 2 σα+X
=
2 = β 2 · σX2 , σβX
σX2 ,
σβX = |β| · σX ,
σα+X = σX , pro souˇcet n´ahodn´ych veliˇcin X + Y d´ ale plat´ı µX +Y = µX + µY σX2 +Y = σX2 + σY2 + 2σXY σX ,Y = 0 σX2 +Y
=
σX2
obecnˇe pro nez´ avisl´e X , Y
+
σY2
pro nez´ avisl´e X , Y
µX , σX , . . . jsou konstanty, vyjadˇruj´ı (charakterizuj´ı) polohu, variabilitu . . . n´ahodn´e veliˇciny X Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
4. pˇredn´ aˇska
10. bˇrezna 2015
81(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
uk´azka d˚ ukazu µα+βX = E(α + βX ) X = (α + βxi∗ ) P(X = xi∗ ) i
=
X i
=α
α P(X = xi∗ ) +
X
X i
P(X =
i
xi∗ )
+β
βxi∗ P(X = xi∗ )
X
xi∗ P(X = xi∗ )
i
= α + β · E X = α + β · µX normov´ an´ı n´ahodn´e veliˇciny X (populaˇcn´ı obdoba z-sk´or˚ u) Z = ⇒ Z´ aklady biostatistiky
X − µX σX µZ = 0,
(MS710P09) ak. rok 2014/2015
(bezrozmˇern´e!) σZ = 1 4. pˇredn´ aˇska
10. bˇrezna 2015
82(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
charakteristiky zaloˇzen´e na normovan´e verzi I charakteristiky X nez´ avisl´e na µX a σX , protˇejˇsky popisn´ych statistik ◮
(populaˇcn´ı) korelaˇ cn´ı koeficient [correlation coefficient] X − µX Y − µY σXY ρXY = cov , = σX σY σX σY
◮
pˇripomeˇ nme: jsou-li n´ ahodn´e veliˇciny X a Y nez´ avisl´ e, plat´ı cov(X , Y ) = σXY = 0
◮
jsou-li n´ahodn´e veliˇciny X a Y nez´ avisl´ e, je nutnˇe ρXY = 0
◮
pˇredchoz´ı tvrzen´ı nic neˇr´ık´ a o z´ avisl´ych n´ ahodn´ych veliˇcin´ach
◮
pro z´ avisl´ e n´ahodn´e veliˇciny m˚ uˇ ze vyj´ıt ρXY = 0
◮
je-li ρXY 6= 0, pak X , Y nemohou b´yt nez´ avisl´e, jsou nutnˇe z´avisl´e
◮
vˇzdy plat´ı −1 ≤ ρXY ≤ 1
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
4. pˇredn´ aˇska
10. bˇrezna 2015
83(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
pˇr´ıklad ponoˇzky xi∗ 0 1 2
µX = µY = 2/3
0 1/15 4/15 1/15 6/15
yj∗ 1 4/15 4/15 0/15 8/15
2 1/15 0/15 0/15 1/15
celkem 6/15 8/15 1/15 15/15
σX2 = σY2 = 48/135 = 16/45
σXY = (0 − 2/3) · (0 − 2/3) · 1/15 + (0 − 2/3) · (1 − 2/3) · 4/15 + (0 − 2/3) · (2 − 2/3) · 1/15 + (1 − 2/3) · (0 − 2/3) · 4/15
+ (1 − 2/3) · (1 − 2/3) · 4/15 + (1 − 2/3) · (2 − 2/3) · 0/15
+ (2 − 2/3) · (0 − 2/3) · 1/15 + (2 − 2/3) · (1 − 2/3) · 0/15 . + (2 − 2/3) · (2 − 2/3) · 0/15 = −24/135 = −0,177
X , Y jsou z´avisl´e, nebot’ napˇr. . . 6/15 · 8/15 = 0,213 < 4/15 = 0,267,
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
ρX ,Y = −1/2
4. pˇredn´ aˇska
10. bˇrezna 2015
84(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
charakteristiky zaloˇzen´e na normovan´e verzi II charakteristiky X nez´ avisl´e na µX a σX , protˇejˇsky popisn´ych statistik
◮
(populaˇcn´ı) ˇsikmost n´ ahodn´e veliˇciny X [skewness] γ1 = E
◮
X − µX σX
3
=
E(X − µX )3 σX3
(populaˇcn´ı) ˇspiˇ catost n´ ahodn´e veliˇciny X (nˇekdy bez −3) [kurtosis] γ2 = E
Z´ aklady biostatistiky
X − µX σX
(MS710P09) ak. rok 2014/2015
4
−3=
E(X − µX )4 −3 σX4
4. pˇredn´ aˇska
10. bˇrezna 2015
85(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
pˇr´ıklad ponoˇzky x∗ 0 1 2 P(X = x ∗ ) 6/15 8/15 1/15 √ stˇr. hodnota, rozptyl: µ = 2/3, σ 2 = 16/45, σ = 4/(3 5) ˇsikmost 8 1 8 2 3 2 3 2 3 6 3 + + = 0− 1− 2− E(X − µ) = 15 3 15 3 15 3 135 √ !3 √ 5 8 3 5 γ1 = = 135 4 8 ˇspiˇ catost podobnˇe 8 γ2 = . . . = 27
Z´ aklady biostatistiky
√ !4 3 5 21 75 −3=− −3 = 4 32 32
(MS710P09) ak. rok 2014/2015
4. pˇredn´ aˇska
10. bˇrezna 2015
86(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
alternativn´ı rozdˇelen´ı nula-jedniˇckov´e, Bernoulliovo ◮
X – poˇ cet zdar˚ u v jednom pokusu
◮
pravdˇepodobnost zdaru π, 0 < π < 1
◮
π je jedin´y parametr
◮
pouze dvˇe moˇzn´e hodnoty: 1 (nastal zdar), 0 (nezdar)
◮
P(X = 1) = π,
◮
X je vlastnˇe poˇcet zdar˚ u v onom pokusu
◮
X ∼ alt(π)
◮
P(X = 0) = 1 − π
µX = E X = 1 · π + 0 · (1 − π) = π
◮
σX2 = var X = E (X − µX )2 = (1−π)2 ·π+(0−π)2 ·(1−π) = π(1−π)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
4. pˇredn´ aˇska
10. bˇrezna 2015
87(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
binomick´e rozdˇelen´ı [binomial distribution] ◮
n nez´ avisl´ ych pokus˚ u, v nichˇz rozliˇsujeme pouze zdar a nezdar
◮
P(zdar) = π, (0 < π < 1)
◮
Y je poˇ cet zdar˚ u v tˇechto pokusech
◮
moˇzn´e hodnoty: 0, 1, ...,n n k P(Y = k) = π (1 − π)n−k , k [dbinom(k,n,prob)]
◮
◮ ◮ ◮ ◮
k = 0, 1, . . . , n
Y ∼ bi(n, π)
napˇr. ze 7 vaj´ıˇcek se vyl´ıhne Y slepiˇcek, Y ∼ bi(7, 1/2)
napˇr. pˇri 60 hodech kostkou padlo Y ˇsestek, Y ∼ bi(60, 1/6) pˇredem nev´ıme, kolik bude slepiˇcek (ˇsestek), ale v dlouhodob´em pr˚ umˇeru je relativn´ı ˇcetnost bl´ızk´a 1/2 (1/6)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
4. pˇredn´ aˇska
10. bˇrezna 2015
88(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
binomick´e rozdˇelen´ı pomoc´ı alternativn´ıho rozdˇelen´ı ◮ ◮ ◮
◮
Y ∼ bi(n, π)
Y je celkov´y poˇcet zdar˚ u v n pokusech, tedy P Y = X1 + X2 + . . . + Xn = ni=1 Xi , kde Xi je poˇcet zdar˚ u v i -t´em pokusu
z vlastnost´ı stˇredn´ı hodnoty (oˇcek´ avan´y poˇcet zdar˚ u) µY = E Y = E
n X i =1
◮
Xi =
n X
E Xi =
n X
π = nπ
i =1
i =1
protoˇze jsou pokusy nez´ avisl´ e, plat´ı ! n n n X X X 2 π(1 − π) = nπ(1 − π) var Xi = Xi = σY = var i =1
Z´ aklady biostatistiky
i =1
(MS710P09) ak. rok 2014/2015
i =1
4. pˇredn´ aˇska
10. bˇrezna 2015
89(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
pˇr´ıklad: kuˇr´aci ◮
mezi dvacetilet´ymi muˇzi je (ˇreknˇeme) 35 % kuˇr´ak˚ u (π = 0,35)
◮
je-li dvacetilet´ych 70 tis´ıc (m = 70 000), pak je kuˇr´ak˚ u asi mπ = 70 000 · 0,35 = 24 500, ale nev´ıme, kteˇr´ı to jsou
◮
◮
vyberme n´ahodnˇe n = 60 dvacetilet´ych muˇz˚ u, oznaˇcme jako Y poˇcet kuˇra´k˚ u mezi nimi, je tedy Y ∼ bi(60, 0,35) stˇredn´ı hodnota (oˇcek´ avan´y poˇcet), rozptyl µY = 60 · 0,35 = 21
◮
◮
. σY2 = 60 · 0,35 · 0,65 = 13,65 = (3,7)2
uk´azky pravdˇepodobnost´ı moˇzn´ych hodnot k 15 17 19 21 P(Y = k) 0,029 0,062 0,095 0,107 pravdˇepodobnosti poˇc´ıt´ any pomoc´ı [dbinom(c(15,17,19,21,23,25),60,0.35)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
4. pˇredn´ aˇska
23 0,091
10. bˇrezna 2015
25 0,059
90(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
Poissonovo rozdˇelen´ı [Poisson distribution] ◮ ◮ ◮
◮
◮ ◮ ◮
◮
◮
X ∼ Po(λ) (λ > 0) z´akon vz´acn´ych (ˇr´ıdk´ych) jev˚ u kolikr´at nastal jev bˇehem jednotkov´eho ˇcasov´eho intervalu, na jednotkov´e ploˇse, v jednotkov´em objemu . . . pˇredpokl´ad´a se, ˇze poˇcet v´yskyt˚ u jevu v jednom intervalu nez´ avis´ı na poˇctu v´yskytu jevu v jin´em intervalu λk −λ k = 0, 1, . . . e , k! µX = λ, σX2 = λ pˇri nestejn´ych intervalech, objemech . . . je parametr u ´mˇern´y velikosti intervalu . . . (napˇr. λt u ˇcasov´eho intervalu d´elky t) pro velk´e n a mal´e π lze rozdˇelen´ı bi(n, π) aproximovat pomoc´ı rozdˇelen´ı Po(nπ) napˇr. poˇcet koloni´ı na Petriho misce P(X = k) =
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
4. pˇredn´ aˇska
10. bˇrezna 2015
91(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
pˇr´ıklad souvislost binomick´eho a Poissonova rozdˇelen´ı
s jakou pst´ı udˇel´a 5 z 55 student˚ u zkouˇsku na v´ybornou, je-li populace student˚ u charakterizov´ ana t´ım, ˇze pst jedniˇcky 0,08? ◮
binomick´e rozdˇelen´ı Y ∼ bi(55, 0,08) [dbinom(5,55,0.08)] 55 P(Y = 5) = · 0,085 · 0,9250 = 0,176 5
◮
aproximace Poissonov´ym rozdˇelen´ım (pouˇzij λ = nπ = 4,4) [dpois(5, 4.4)] Y ∼ Po(55 · 0,08) = Po(4,4) P(Y = 5) =
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
4,45 −4,4 e = 0,169 5!
4. pˇredn´ aˇska
10. bˇrezna 2015
92(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
norm´aln´ı (Gaussovo) rozdˇelen´ı N µ, σ 2 [normal (Gaussian) distribution] ◮
µX = µ, σX2 = σ 2
◮
spojit´e rozdˇelen´ı, symetrick´e okolo stˇredn´ı hodnoty µ
◮
maxim´aln´ı hodnota hustoty pˇribliˇznˇe 0,4/σ
◮
N(0, 1) (normovan´e norm´ aln´ı rozdˇelen´ı): 2 /2 1 −x √ ϕ(x) = 2π e (hustota), Rx Φ(x) = −∞ ϕ(t)dt (distr. fce) X ∼ N µ, σ 2 , pak Z = X σ−µ ∼ N(0, 1)
◮
P(a < X < b) = Φ
b−µ σ
−Φ
a−µ σ
◮
model vzniku: souˇcet velk´eho poˇctu nepatrn´ych pˇr´ıspˇevk˚ u
◮
velmi ˇcasto modeluje znaky v pomˇerov´em mˇeˇr´ıtku
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
4. pˇredn´ aˇska
10. bˇrezna 2015
93(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
graf hustoty N µ, σ 2
v´ypoˇcet hustoty: [dnorm(x,mu,sigma)]
34,13 %
34,13 %
2,14 %
2,14 % 13,59 %
13,59 %
❯ µ − 3σ
Z´ aklady biostatistiky
☛ µ − 2σ
µ−σ
(MS710P09) ak. rok 2014/2015
µ
µ+σ
4. pˇredn´ aˇska
µ + 2σ
10. bˇrezna 2015
µ + 3σ
94(247)
kovariance popul. charakteristiky alternativn´ı rozdˇ elen´ı binomick´ e Poisson norm´ aln´ı rozdˇ elen´ı
norm´aln´ı (Gaussovo) rozdˇelen´ı N µ, σ 2 0.8
v´yznam parametr˚ u
0.4 0.0
0.2
x
0.6
N(0, 1) N(1, 1) N(0, 0,25) N(−1, 0,25) N(0, 4)
−3
−2
−1
0
1
2
3
x Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
4. pˇredn´ aˇska
10. bˇrezna 2015
95(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
v´ypoˇcet pravdˇepodobnosti, ˇze a < X < b pomoc´ı distribuˇcn´ı funkce N(0, 1)
P(a < X < b) = FX (b) − FX (a) plat´ı obecnˇe pro spoj. rozdˇel. X −µ X ∼ N µ, σ 2 ⇒ Z = ∼ N(0, 1) σ x −µ x −µ x −µ X −µ ≤ =P Z ≤ =Φ P(X ≤ x) = P σ σ σ σ P(a < X < b) = Φ
b−µ σ
−Φ
a−µ σ
[pnorm((b-mu)/sigma)-pnorm((a-mu)/sigma)] v programu R je distribuˇcn´ı funkce N µ, σ 2 s obecn´ymi parametry: [pnorm(b,mu,sigma)-pnorm(a,mu,sigma)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
96(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
pˇr´ıklad ◮
◮
u jak´eho d´ılu populace desetilet´ych hoch˚ u namˇeˇr´ıme v´yˇsku od 135 do 140 cm, kdyˇz pro v´yˇsku desetilet´ych plat´ı X ∼ N 136,1, 6,42
pˇredpokl´ad´ame zaokrouhlov´ an´ı na cel´ a ˇc´ısla pˇri mˇeˇren´ı, takˇze hodnoty od 135 cm do 140 cm namˇeˇr´ıme, kdyˇz mˇeˇren´e v´yˇsky budou od 134,5 cm do 140,5 cm: 134,5 − 136,1 140,5 − 136,1 −Φ P(134,5 < X < 140,5) = Φ 6,4 6,4 = 0,754 − 0,401 = 0,353 [pnorm((140.5-136.1)/6.4)-pnorm((134.5-136.1)/6.4)]
◮
pomoc´ı distribuˇcn´ı fce s obecn´ymi parametry [pnorm(140.5,136.1,6.4)-pnorm(134.5,136.1,6.4)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
97(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
kvantily norm´aln´ıho a Studentova t-rozdˇelen´ı [Student distribution]
◮
norm´ aln´ı rozdˇ elen´ı N(0, 1) Z ∼ N(0, 1) :
[qnorm(1-alpha)]
P(Z < z(1−α)) = 1−α
P(Z > z(1−α)) = α
ze symetrie plat´ı P(|Z | > z(1 − α/2)) = α
◮
Studentovo t-rozdˇ elen´ı s k stupni volnosti tk (podobn´e norm´aln´ımu, protoˇze m´ısto σ pouˇz´ıv´a jeho odhad, m´a vˇetˇs´ı rozptyl) T ∼ tk :
P(|T | > tk (1 − α/2)) = α
[qt(1-alpha/2,k)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
98(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
nˇekter´e kritick´e hodnoty α z(1 − α/2) t100 (1 − α/2) t20 (1 − α/2) t5 (1 − α/2) ◮
0,50 0,674 0,677 0,687 0,727
0,25 1,150 1,157 1,185 1,301
0,10 1,645 1,660 1,725 2,015
0,05 1,960 1,984 2,086 2,571
0,01 2,576 2,626 2,845 4,032
T ∼ tk m´a jedin´y parametr k (poˇcet stupˇ n˚ u volnosti)
◮
s rostouc´ım k se chov´ an´ı bl´ıˇz´ı norm´ aln´ımu rozdˇelen´ı N(0, 1)
◮
pro Z ∼ N(0, 1) je 95 % hodnot v intervalu (−1,960; 1,960)
◮ ◮ ◮
pro T ∼ t5 je 95 % hodnot v intervalu (−2,571; 2,571)
pro T ∼ t20 je 95 % hodnot v intervalu (−2,086; 2,086)
pro T ∼ t100 je 95 % hodnot v intervalu (−1,984; 1,984)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
99(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
aproximace binomick´eho rozdˇelen´ı norm´aln´ım se stejnou stˇredn´ı hodnotou a stejn´ym rozptylem
0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14
rozdˇelen´ı bi(n, π) lze aproximovat pomoc´ı N(nπ, nπ(1 − π)) bi(60,1/6) bi(60,3/6) bi(60,4/6)
0
10
20
30
40
50
60
k
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
100(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
dalˇs´ı rozdˇelen´ı souvisej´ıc´ı s norm´aln´ım [F-distribution, chi-square distribution] ◮
◮
V m´a rozdˇelen´ı (mus´ı b´yt P(V > 0) = 1 !!) logaritmicko-norm´ aln´ı, plat´ı-li ln V ∼ N µ, σ 2 Fisherovo F -rozdˇ elen´ı Fk,m F ∼ Fk,m :
◮
P(F > Fk,m (1 − α)) = α
rozdˇ elen´ı ch´ı-kvadr´ at χ2k X 2 ∼ χ2k :
◮
[qf(1-alpha,k,m)]
[qchisq(1-alpha,k)]
P(X 2 > χ2k (1 − α)) = α
speci´alnˇe plat´ı: ◮ ◮ ◮
Z´ aklady biostatistiky
χ21 (0,95) = 3,841 = 1,9602 χ21 (1 − α) = (z(1 − α/2))2 F1,m (1 − α) = (tm (1 − α))2 (MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
101(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
pˇr´ıklad: vˇek matek (motivaˇcn´ı pˇr´ıklad) nepˇrehl´ednˇete slova populace, populaˇ cn´ı ◮ ◮ ◮
◮
◮
◮
◮
◮
velk´a populace dˇet´ı (a tedy jejich matek, t´emˇeˇr 11 tis´ıc) zn´ ame populaˇ cn´ı pr˚ umˇ er µ vˇeku matek kdyˇz n´ahodnˇe vybereme matku (d´ıtˇe), jej´ı vˇek je n´ahodn´a veliˇcina se stˇredn´ı hodnotou µ n´ahodnˇe vybr´ano 1000 matek (vlastnˇe pr˚ umˇery v´ybˇer˚ u rozsahu n = 1), nakreslen histogram 1000 kr´at n´ahodnˇe vybr´ ano vˇzdy n = 10 matek, vˇzdy spoˇc´ıt´an v´ ybˇ erov´ y pr˚ umˇer, nakreslen histogram v´ ybˇ erov´ ych pr˚ umˇer˚ u 1000 kr´at n´ahodnˇe vybr´ ano vˇzdy n = 100 matek, spoˇc´ıt´an v´ ybˇ erov´ y pr˚ umˇer, nakreslen histogram v´ ybˇ erov´ ych pr˚ umˇer˚ u podle teorie by kaˇzd´y dalˇs´ı rozptyl ze 1000 v´ ybˇ erov´ ych pr˚ umˇer˚ u mˇel b´yt desetkr´ at menˇs´ı neˇz ten zaloˇzen´y na desetkr´at menˇs´ım n skuteˇcn´e rozptyly (odhady z 1000 realizac´ı): 23,5; 2,20; 0,21
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
102(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
pˇr´ıklad: vˇek matek (umˇel´a situace) populace - 10 916 matek, opakovan´e v´ybˇery rozsahu n = 1, 10, 100 je patrn´ a variabilita klesaj´ıc´ı s rostouc´ım n populace
n=1
1500
Frequency
Frequency
2000
1000 500 0
100 50 0
15
20
25
30
35
40
45
15
20
25
n=10
250
30
35
40
45
35
40
45
n=100 150
200
Frequency
Frequency
150
150 100 50 0
100 50 0
15
Z´ aklady biostatistiky
20
25
30
35
40
(MS710P09) ak. rok 2014/2015
45
15
20
5. pˇredn´ aˇska
25
30
17. bˇrezna 2015
103(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
pˇr´ıklad: vˇek matek pr˚ umˇern´y vˇek matek v opakovan´ych v´ybˇerech, poˇcet opakov´ an´ı B = 1000 (20. bˇrezna 2012 nˇekter´e hodnoty opraveny)
rozsah v´ybˇeru n
pr˚ umˇer pr˚ umˇer˚ u
smˇer. odch. pr˚ umˇer˚ u
1 10 100 1000 populace
25,42 25,35 25,39 25,40 µ =25,40
4,625 1,544 0,480 0,150 σ =4,932
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
rozptyl pr˚ umˇer˚ u 21,388 2,385 0,231 0,022 2 σ =24,428
5. pˇredn´ aˇska
rozptyl pr˚ umˇer˚ u teoreticky 24,428 2,443 0,244 0,024
17. bˇrezna 2015
104(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
pr˚ umˇer z n´ahodn´eho v´ybˇeru nemus´ı j´ıt o norm´ aln´ı rozdˇelen´ı! ◮
X1 , . . . , Xn nez´ avisl´ e, maj´ı stejn´e rozdˇelen´ı n´ ahodn´ y v´ ybˇ er µXi = E Xi = µ (stejn´ a stˇredn´ı hodnota) populaˇcn´ı pr˚ umˇer populaˇcn´ı rozptyl σX2 i = var Xi = σ 2 (stejn´y rozptyl) n
◮
1 1X Xi = (X1 + X2 + . . . + Xn ) X¯ = n n
v´ybˇerov´y pr˚ umˇer
i =1
◮
µX¯ = E X¯ = µ ◮ ◮ ◮ ◮
◮
v´ybˇerov´y pr˚ umˇer X¯ je opˇet n´ahodn´a veliˇcina je nestrann´ ym odhadem [unbiased estimator] parametru µ nestrann´ym odhadem populaˇcn´ıho pr˚ umˇeru (stˇredn´ı hodnoty) kdyˇz poˇrizujeme v´ybˇery opakovanˇe, pr˚ umˇery kol´ısaj´ı kolem skuteˇcn´e hodnoty populaˇcn´ıho pr˚ umˇeru
z pˇr´ıkladu v´ıme, ˇze rozptyl X¯ z´ avis´ı na n
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
105(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
rozptyl pr˚ umˇeru z n´ ahodn´eho v´ybˇeru ! n
σX2¯ = var
1X Xi n i =1
◮
◮
◮ ◮
◮
S.E.(X¯ ) =
=
n 1 X σ2 σ 2 ¯) 2 √ var X = = = S.E.( X i n2 n n i =1
√σ n
– stˇredn´ı chyba pr˚ umˇ eru [standard error of mean] variabilita pr˚ umˇer˚ u (mˇeˇren´ a rozptylem) z v´ybˇer˚ u rozsahu n je n-kr´at menˇs´ı, neˇz variabilita jednotliv´ych pozorov´an´ı σ 2 √ stˇredn´ı chyba pr˚ umˇeru je n-kr´ at menˇs´ı neˇz σ ˇc´ım jsou rozsahy v´ybˇeru vˇetˇs´ı, t´ım m´enˇe v´ybˇerov´e pr˚ umˇery kol´ısaj´ı (kolem populaˇcn´ıho pr˚ umˇeru) speci´alnˇe pro norm´ aln´ı rozdˇelen´ı Xi ∼ N µ, σ 2 nez´avisl´e: X¯ − µ √ X¯ ∼ N µ, σ 2 /n ⇒ Z = n ∼ N(0, 1) σ
(vˇsimnˇete si z´avislosti na n) Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
106(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
pˇr´ıklad: vˇek matek (nestejn´a mˇeˇr´ıtka!) populace - 10 916 matek, opakovan´e v´ybˇery rozsahu n = 1, 10, 100 je patrno, ˇze s rostouc´ım n se histogram bl´ıˇz´ı histogramu norm. rozdˇelen´ı populace
n=1
1500
Frequency
Frequency
2000
1000 500 0
100 50 0
15
20
25
30
35
40
45
15
20
n=10
250
25
30
35
40
n=100 150
200
Frequency
Frequency
150
150 100 50 0
100 50 0
20
Z´ aklady biostatistiky
22
24
26
28
30
24.0
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
25.0
17. bˇrezna 2015
26.0
27.0
107(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
pˇr´ıklad: vˇek matek pr˚ umˇern´y vˇek matek v opakovan´ych v´ybˇerech, poˇcet opakov´ an´ı B = 1000
rozsah v´ybˇeru n 1 10 100 1000 populace
Z´ aklady biostatistiky
pr˚ umˇer pr˚ umˇer˚ u
smˇer. odch. pr˚ umˇer˚ u
25,42 25,35 25,39 25,40 µ =25,40
4,625 1,544 0,480 0,150 σ =4,942
(MS710P09) ak. rok 2014/2015
ˇsikmost pr˚ umˇer˚ u
ˇspiˇcatost pr˚ umˇer˚ u
0,740 0,275 0,081 0,003 γ1 =0,773
0,287 -0,038 -0,053 0,037 γ2 =0,192
5. pˇredn´ aˇska
17. bˇrezna 2015
108(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
centr´aln´ı limitn´ı vˇeta (CLV, CLT) [Central Limit Theorem] ◮
◮
◮
◮
◮
Necht’ X1 , X2 , . . . , Xn jsou nez´ avisl´e n´ ahodn´e veliˇciny se stejn´ym rozdˇelen´ım, se stˇredn´ı hodnotou µ a rozptylem σ 2 > 0 (nemus´ı poch´ azet z norm´ aln´ıho rozdˇelen´ı). ¯ Potom pro e n m´ a pr˚ umˇer X pˇribliˇznˇe rozdˇelen´ı velk´ σ2 N µ, n , souˇcet X1 + . . . + Xn pak rozdˇelen´ı N nµ, nσ 2 . prakticky: pr˚ umˇ er m´ a pro dost velk´ a n norm´ aln´ı rozdˇ elen´ı s rozptylem n-kr´at menˇs´ım neˇz jednotliv´ a pozorov´an´ı, a to bez ohledu na v´ychoz´ı rozdˇelen´ı jednotliv´ych pozorov´an´ı CLT je ˇcasto d˚ uvodem pˇredpokladu o norm´ aln´ım rozdˇelen´ı, v´ysledn´a hodnota je ovlivnˇena souˇctem velik´eho poˇctu nahodil´ych mal´ych vliv˚ u pˇr´ıklad: pr˚ umˇern´y vˇek matek z velk´ych v´ybˇer˚ u m´a uˇz (t´emˇeˇr) norm´aln´ı rozdˇelen´ı d˚ usledek: pro velk´e n lze binomick´e rozdˇelen´ı bi(n, π) aproximovat norm´ aln´ım rozdˇelen´ım N(nπ, nπ(1 − π))
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
109(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
interval spolehlivosti pro µ (pro populaˇcn´ı pr˚ umˇer) v´ybˇer z N µ, σ 2 nebo velk´e n ◮
[confidence interval]
v´ıme, ˇze X¯ ∼ N µ, σ 2 /n , tedy Z =
X¯ −µ √ n σ
∼ N(0, 1)
¯ |X − µ| √ P(|Z | < 1,96) = P n < 1,96 = 0,95 σ
◮
coˇz je tot´eˇz, jako (µ se od X¯ liˇs´ı nejv´yˇse . . . ) σ P |X¯ − µ| < 1,96 √ = 0,95 n
◮
tedy (vˇsimnˇete si zkracov´ an´ı intervalu s rostouc´ım n) σ σ P X¯ − 1,96 √ < µ < X¯ + 1,96 √ = 0,95 n n
◮
dostali jsme 95% interval spolehlivosti pro parametr µ
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
110(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
interpretace intervalu spolehlivosti ◮ ◮
je to intervalov´ y odhad populaˇcn´ıho pr˚ umˇeru (stˇr. hodnoty) µ X¯ je bodov´ y odhad µ
◮
z´ akladn´ı vlastnost: 95% interval spolehlivosti pˇrekryje s pravdˇepodobnost´ı 95 % nezn´ am´ e µ (odhadovan´ y parametr)
◮
kdybychom postup prov´ adˇeli opakovanˇe, pak asi v 95 % pˇr´ıpad˚ u interval pˇrekryje skuteˇcnou hodnotu µ, ve zbyl´ych asi 5 % z˚ ustane skuteˇcn´e µ mimo interval spolehlivosti
◮
pro obecn´e α (spolehlivost 1 − α): σ σ ¯ ¯ √ √ · z(1 − α/2) < µ < X + · z(1 − α/2) = 1−α P X− n n
◮
POZOR na nespr´ avn´e interpretace, vypov´ıd´ a o nezn´am´e konstantˇ e µ, nikoliv o n´ ahodn´ ych veliˇ cin´ ach X nebo X¯
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
111(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
pˇr´ıklad: v´yˇsky desetilet´ych chlapc˚ u ◮
X¯ −
◮
je zn´amo (pˇredpokl´ ad´ a se), ˇze je σ = 6,4 cm
◮
pr˚ umˇern´a v´yˇska ve v´ ybˇ eru 139,13 cm
◮
α = 5 %, tedy z(1 − α/2) = z(0,975) = 1,96
◮
√σ n
· z(1 − α/2) < µ < X¯ +
√σ n
· z(1 − α/2)
n´ahodnˇe vybr´ano n = 15 desetilet´ych chlapc˚ u,
◮
95% interval spolehlivosti pro pr˚ umˇ ernou v´ yˇsku vˇsech desetilet´ ych chlapc˚ u (populaˇ cn´ı pr˚ umˇ er): 6,4 6,4 139,13 − √ · 1,96 ; 139,13 + √ · 1,96 15 15 (135,9; 142,3)
◮
(populaˇ cn´ı) pr˚ umˇ er v´ yˇsek vˇsech desetilet´ych chlapc˚ u leˇz´ı s pst´ı 95 % v rozmez´ı od 135,9 cm do 142,3 cm
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
112(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
interval spolehlivosti pˇri nezn´am´em σ ◮
kdyˇz nezn´ame smˇer. odchylku σ, je tˇreba pouˇz´ıt kritick´e hodnoty Studentova t-rozdˇelen´ı (pozor na jin´e oznaˇcen´ı u Studentova t-rozdˇelen´ı v Biostatistice) Sx Sx P X¯ − √ tn−1 (1 − α/2) < µ < X¯ + √ tn−1 (1 − α/2) = 1−α n n
◮
jako odhad σ se pouˇzije v´ ybˇ erov´ a smˇerodatn´a odchylka v u n u 1 X SX = t (Xi − X¯ )2 n−1 i =1
◮
◮ ◮
pˇri velk´ych n (n ≥ 50) staˇc´ı pouˇz´ıt z(1 − α/2) m´ısto tn−1 (1 − α/2) interval spolehlivosti se poˇc´ıt´ a i pˇri odhadu jin´ych parametr˚ u je to interval, kter´y s poˇzadovanou pravdˇepodobnost´ı pˇrekryje odhadovan´y parametr – intervalov´ y odhad
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
113(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
pˇr´ıklad: vˇek matek (soubor Kojeni) norm´ aln´ı rozdˇelen´ı pr˚ umˇer˚ u d´ ano CLT a velk´ym n, t98 (0,95) = 1,98 ◮
◮
◮
95% interval spolehlivosti pro populaˇcn´ı pr˚ umˇer vˇeku vˇsech matek na z´akladˇe v´ybˇeru 99 matek 4,1 4,1 25,7 − √ · 1,98; 25,7 + √ · 1,98 = (24,9; 26,5) 99 99 [confint(lm(vek.m∼1,data=Kojeni))], [t.test(Kojeni$vek.m)] 99% interval spolehlivosti pro populaˇcn´ı pr˚ umˇer vˇeku vˇsech matek na z´akladˇe v´ybˇeru 99 matek (bude uˇzˇs´ı nebo ˇsirˇs´ı?) poˇzadovanou vˇetˇs´ı jistotu zajist´ı delˇs´ı interval spolehlivosti (delˇs´ı – m´enˇe vypov´ıdaj´ıc´ı) 4,1 4,1 25,7 − √ · 2,63; 25,7 + √ · 2,63 = (24,6; 26,8) 99 99 [confint(lm(vek.m∼1,data=Kojeni),level=0.99)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
114(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
pˇr´ıklad: vˇek matek norm´ aln´ı rozdˇelen´ı pr˚ umˇer˚ u d´ ano CLT a velk´ym n, t98 (0,90) = 1,66 ◮
◮
90% interval spolehlivosti pro populaˇcn´ı pr˚ umˇer vˇeku vˇsech matek na z´akladˇe v´ybˇeru 99 matek 4,1 4,1 25,7 − √ · 1,66; 25,7 + √ · 1,66 = (25,0; 26,4) 99 99 [confint(lm(vek.m∼1,data=Kojeni),level=0.9)] vˇsech matek na z´akladˇe v´ybˇeru 99 matek je pochopitelnˇe uˇzˇs´ı, neˇz interval 95% pˇr´ıklady nespr´avn´e interpretace 90% intervalu spolehlivosti: ◮
◮
Z´ aklady biostatistiky
90 % ˇzen m´a vˇek v intervalu (25,0; 26,4) napˇr. mezi naˇsimi 99 matkami je jen 12 ˇzen ve vˇeku 25 a 10 ve vˇeku 26 rok˚ u, nav´ıc, s rostouc´ım n se interval zuˇzuje v´ybˇerov´y pr˚ umˇer vˇeku matek je s pravdˇepodobnost´ı 90 % v intervalu (25,0; 26,4) v´ybˇerov´y pr˚ umˇer je uprostˇred (tedy uvnitˇr) intervalu vˇ zdy (MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
115(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
23
24
25
26
27
28
simulovan´e v´ybˇery pro n = 100 (vˇek matek)
0
20
40
60
80
100
zn´azornˇeno celkem 100 95% interval˚ u spolehlivosti pro µ ve skuteˇcnosti mimoˇr´adnˇe v´ıme, ˇze µ = 25,4 v 7 pˇr´ıpadech je µ nepˇrekryto (7 je realizace n´ahodn´e veliˇciny s rozdˇelen´ım bi(100, 0,05)) Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
116(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
centr´aln´ı limitn´ı vˇeta pro ˇcetnosti ◮
◮
◮
◮ ◮
◮ ◮
(CLT obecnˇe:) Necht’ X1 , X2 , . . . , Xn jsou nez´avisl´e n´ahodn´e veliˇciny se stejn´ym rozdˇelen´ım, se stˇredn´ı hodnotou µ a rozptylem σ2 > 0.Potom pro velk´e n m´ a pr˚ umˇer z nich pˇribl. 2 rozdˇelen´ı N µ, σn , jejich souˇcet pˇribl. rozdˇelen´ı N nµ, nσ 2 . Y ∼ bi(n, π): Y je absolutn´ı ˇcetnost v´yskytu jevu s pravdˇepodobnost´ı v´yskytu π v n nez´ avisl´ych pokusech Pn Y = i =1 Xi je souˇcet nez´ avisl´ych n´ ahodn´ych veliˇcin Xi s alternativn´ım rozdˇelen´ım, Xi ∼ alt(π), var Xi = π(1 − π) .
podle CLT proto pˇribliˇznˇe Y ∼ N(nπ, nπ(1 − π)) relativn´ı ˇcetnost Y /n = X¯ je pr˚ umˇer veliˇcin s alternativn´ım rozdˇelen´ım, oznaˇcme π ˆ = Y /n .
podle CLT je pˇribliˇznˇe π ˆ ∼ N(π, π(1 − π)/n) π ˆ je nestrann´ y odhad π
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
117(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
interval spolehlivosti pro pravdˇepodobnost π q
π(1−π) n
◮
odmocnina z rozptylu odhadu π ˆ je
◮
stˇredn´ı chyba relativn´ı ˇcetnosti = smˇerodatn´ a odchylka relativn´ı ˇcetnosti
◮
pravdˇepodobnost π nezn´ ame, odhadneme ji pomoc´ı relativn´ı ˇcetnosti π ˆ = Y /n
◮
odtud je 100(1 − α)% pˇribliˇzn´y interval spolehlivosti pro π ! r r π ˆ (1 − π ˆ) π ˆ (1 − π ˆ) π ˆ− · z(1 − α/2); π ˆ+ · z(1 − α/2) n n [prop.test(y,n,correct=FALSE)]
◮
existuj´ı pˇresnˇejˇs´ı (pracnˇejˇs´ı) postupy [binom.test(y,n)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
118(247)
stˇredn´ı chyba pr˚ umˇ eru CLT interval spolehlivosti (konfidenˇ cn´ı int.)
pˇr´ıklad: hody s hrac´ı kostkou ◮ ◮
odhadujeme pravdˇepodobnost ˇsestky, α = 0,05 kostka A: n = 100, y = 17, π ˆA = 0,17 0,17 −
◮
0,17 · 0,83 · 1,96; 0,17 + 100
r
0,17 · 0,83 · 1,96 100
!
= (0,10; 0,24)
!
= (0,31; 0,51)
kostka B: n = 100, y = 41, π ˆB = 0,41 0,41 −
◮
r r
0,41 · 0,59 · 1,96; 0,41 + 100
r
0,41 · 0,59 · 1,96 100
d˚ uleˇzit´y rozd´ıl: u kostky A patˇr´ı 1/6 = 0,167 do 95% intervalu spolehlivosti; u kostky B nikoliv
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
5. pˇredn´ aˇska
17. bˇrezna 2015
119(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
populace a v´ybˇer [population, (random) sample, representative, parameter, statistics, estimator] ◮
populace (z´ akladn´ı soubor): soubor jednotek, o jejichˇz hromadn´ych vlastnostech chceme vypov´ıdat (vˇsechny moˇzn´e v´ysledky pokusu, vˇsichni hoˇsi zvolen´eho vˇeku, vˇsichni ˇcolci v rybn´ıˇcku) ⇒ rozdˇelen´ı n´ ahodn´e veliˇciny
◮
v´ ybˇ er: n´ahodnˇe vybran´ a vyˇsetˇrovan´ a ˇc´ ast populace (vzorek)
◮
reprezentativn´ı v´ ybˇ er obr´ aˇz´ı pomˇery v populaci (nutn´a vlastnost v´ybˇeru, aby mohl vypov´ıdat o populaci)
◮
n´ ahodn´ y v´ ybˇ er: nez´ avisl´e n´ ahodn´e veliˇciny se stejn´ym rozdˇelen´ım (model pro mˇeˇren´ı na v´ybˇeru)
◮
parametr: (nezn´am´e) ˇc´ıslo popisuj´ıc´ı nˇejakou vlastnost populace, charakteristika rozdˇelen´ı n´ ahodn´e veliˇciny
◮
statistika: funkce n´ ahodn´eho v´ybˇeru (pozorov´an´ı)
◮
odhad: statistika pouˇzit´ a k odhadu parametru
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
120(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
Jsou desetilet´ı hoˇsi stejnˇe vysoc´ı jako desetilet´e d´ıvky? ◮
Jak porovnat r˚ uznˇe vysok´e chlapce s r˚ uznˇe vysok´ymi d´ıvkami?
◮
potˇrebujeme nˇejak´e ˇc´ıslo charakterizuj´ıc´ı v´yˇsky vˇsech chlapc˚ u a podobn´e ˇc´ıslo pro d´ıvky: populaˇ cn´ı pr˚ umˇ ery
◮
budeme rozhodovat o porovn´ an´ı populaˇ cn´ıho pr˚ umˇeru v´yˇsek chlapc˚ u s populaˇ cn´ım pr˚ umˇerem v´yˇsek d´ıvek
◮
X1 , . . . , Xn jsou v´yˇsky n´ ahodnˇ e vybran´ ych chlapc˚ u; pˇredem je nezn´ame ⇒ v u ´vah´ ach jsou to n´ ahodn´ e veliˇ ciny
◮
◮ ◮
◮
hodnoty X1 , . . . , Xn kol´ısaj´ı kolem stˇredn´ı hodnoty E Xi = µX (populaˇcn´ı pr˚ umˇer) velikost kol´ıs´an´ı popisuje populaˇ cn´ı rozptyl σ 2 (bodov´ym) odhadem populaˇcn´ıho pr˚ umˇeru bude v´ybˇerov´y ¯ pr˚ umˇer X spoˇc´ıtan´y z n skuteˇcnˇe zjiˇstˇen´ych v´yˇsek Jak´e vlastnosti m´ a pr˚ umˇer X¯ ?
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
121(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
pˇr´ıklad: v´yˇska desetilet´ych chlapc˚ u ◮
v roce 1951 bylo provedeno rozs´ ahl´e mˇeˇren´ı v´yˇsky desetilet´ych hoch˚ u, v´yˇska byla vyˇsetˇrena v populaci desetilet´ych chlapc˚ u: zjiˇstˇeno µ = 136,1 cm, σ = 6,4 cm
◮
na z´akladˇe v´ybˇeru poˇr´ızen´eho v roce 1961 m´ ame rozhodnout, zda se po deseti letech v´yˇska populace desetilet´ych zv´ yˇsila
◮
hodnoty zjiˇstˇen´e v roce 1961 [cm]: 130, 140, 136, 141, 139, 133, 149, 151, 139, 136, 138, 142, 127, 139, 147
◮
x¯ = 139,13 cm, s 2 = 6,562 cm2
◮
jin´y (dalˇs´ı) v´ybˇer z roku 1961 by obsahoval jin´ych 15 hoch˚ u, tedy by vedl k jin´emu v´ybˇerov´emu pr˚ umˇeru (n´ahodn´a veliˇcina)
◮
staˇc´ı rozd´ıl 139,13 − 136,1 = 3,03 (realizace n´ahodn´e veliˇciny, proˇc?), abychom prok´ azali, ˇze se populaˇ cn´ı pr˚ umˇ er v´yˇsek desetilet´ych chlapc˚ u po deseti letech zmˇenil?
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
122(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
testov´an´ı statistick´ych hypot´ez [hypothesis testing, null hypothesis, alternative hypothesis, critical (rejection) region, Type I (II) error, significance level] ◮
nulov´ a hypot´ eza H0 : tvrzen´ı o populaci (parametru), o jehoˇz platnosti rozhodujeme (nen´ı rozd´ıl, nez´ avis´ı, neliˇs´ı se od . . . )
◮
alternativn´ı hypot´ eza H1 : (alternativa) zb´yvaj´ıc´ı moˇznost (k H0 ), ˇcasto vˇedeck´ a hypot´eza“, kterou chceme dok´azat ” hypot´ezy H0 , H1 jsou d´ any u ´lohou, nikoliv naˇs´ı volbou
◮ ◮
kritick´ y obor: moˇzn´e v´ysledky pokusu, kdy H0 zam´ıt´ame; zpravidla pops´an pomoc´ı statistiky (napˇr. |Z | ≥ z(1 − α/2))
◮
obor pˇrijet´ı: moˇzn´e v´ysledky pokusu, kdy H0 nezam´ıt´ame
◮
chyba prvn´ıho druhu: (n´ ahodn´y jev) rozhodnut´ı zam´ıtnout H0 , kdyˇz plat´ı H0 , tj. faleˇsnˇe prok´ azat vˇedeckou hypot´ezu“ ” chyba druh´ eho druhu: (n´ ahodn´y jev) rozhodnut´ı nezam´ıtnout H0 , kdyˇz plat´ı H1 , tj. nepoznat neplatnost H0
◮
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
123(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
statistick´e rozhodov´an´ı [significance level, power, p-value] ◮
hladina testu α (zpravidla α = 5 %) ◮ ◮ ◮
◮
s´ıla testu 1 − β ◮ ◮ ◮
◮
pravdˇepodobnost zam´ıtnut´ı neplatn´e H0 pst, s jakou prok´aˇzeme platnou vˇedeckou hypot´ezu“ ” z´avis´ı na skuteˇcn´e hodnotˇe parametru
p-hodnota ◮
◮ ◮ ◮
◮
maxim´aln´ı dovolen´a pravdˇepodobnost chyby prvn´ıho druhu vol´ı se pˇred pokusem, nez´avisle na jeho v´ysledku pevn´ a (nen´ahodn´a) hodnota
za platnosti H0 urˇcen´a pst, ˇze dostaneme statistiku, kter´a stejnˇe nebo jeˇstˇe m´enˇe podporuje H0 nejmenˇs´ı hladina α, na kter´e lze jeˇstˇe H0 zam´ıtnout stupeˇn d˚ uvˇery“ v platnost nulov´e hypot´ezy ” je to n´ ahodn´ a veliˇ cina, nikoliv pravdˇepodobnost H0
H0 se zam´ıt´ a, pr´avˇe kdyˇz p ≤ α
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
(zapamatovat) 24. bˇrezna 2015
124(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
testov´an´ı statistick´ych hypot´ez skuteˇcnost H0 plat´ı H0 neplat´ı chyba spr´avn´e 1. druhu rozhodnut´ı (pst ≤ α) (pst = 1 − β) H0 nezam´ıtnout spr´ avn´e chyba (accept, pˇrijmout) rozhodnut´ı 2. druhu (pst ≥ 1 − α) (pst = β) zam´ıtnut´ı ⇔ v´ysledek pokusu v kritick´em oboru rozhodnut´ı H0 zam´ıtnout (reject)
◮ ◮
pˇrijet´ı ⇔ v´ysledek pokusu v oboru pˇrijet´ı
◮
nikdy spolehlivˇe nev´ıme, zda H0 plat´ı
◮
chybu 1. druhu nechceme dˇelat ˇcasto ⇒ α vol´ıme mal´e
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
125(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
rozhodov´an´ı o populaˇcn´ım pr˚ umˇeru norm´aln´ıho rozdˇelen´ı (σ zn´am´e) ◮ ◮ ◮
X1 , . . . , Xn ∼ N µ, σ 2 nez´ avisl´ e; σ > 0 zn´ ame √ 2 ¯ ¯ X ∼ N µ, σ /n , tedy S.E.(X ) = σ/ n
H0 : µ = µ0 (dan´e ˇc´ıslo, jin´y z´ apis H0 : µ − µ0 = 0)
X¯ − µ0 X¯ − µ0 √ n ∼ N(0, 1) = σ S.E.(X¯ )
◮
plat´ı-li H0 , pak Z =
◮
H1 : µ 6= µ0 ⇒ kritick´y obor: |Z | velk´e, tj. |Z | ≥ z(1 − α/2)
◮
H1 : µ > µ0 : zam´ıtnout pro Z ≥ z(1 − α)
◮
H1 : µ < µ0 : zam´ıtnout pro Z ≤ z(α) = −z(1 − α)
◮
volba jednostrann´e alternativy jen podle zad´ an´ı u ´lohy, nikoliv podle v´ysledku pokusu (nez´ avisle na datech)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
126(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
kritick´y obor pro Z =
X¯ −µ0 √ n σ
0,4
ˇcervenˇe na 5% hladinˇe, ˇcervenˇe a fialovˇe na 10% hladinˇe, hustota Z za H0
0,1
0,2
0,3
z(0,975)=1,96 z(0,95)=1,645
2,5 %
2,5 % 2,5 %
0,0
2,5 %
−3
−2
−1
0
1
2
3
z
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
127(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
pˇr´ıklad: v´yˇska desetilet´ych chlapc˚ u pozor, jednostrann´ a alternativa! ◮ ◮ ◮
◮ ◮
zvol´ıme klasickou hladinu α = 5 % v roce 1951 µ = µ0 = 136,1 cm, σ = 6,4 cm v roce 1961 zmˇeˇreno n = 15 n´ ahodnˇe vybran´ych desetilet´ych hoch˚ u, x¯ = 139,13 cm staˇc´ı tento vzr˚ ust k d˚ ukazu, ˇze nov´ a generace je vyˇsˇs´ı? vzrostla v´yˇska desetilet´ych ? H0 : µ = µ0 proti H1 : µ > µ0 z=
◮ ◮ ◮ ◮
139,13 − 136,1 √ 15 = 1,836 6,4
z(0,05) = 1,645 < 1,836, tedy H0 na 5% hladinˇe zam´ıt´ ame statisticky v´ yznamn´ y v´ysledek na 5% hladinˇe jsme prok´ azali, ˇze nov´ a generace je vyˇsˇs´ı v pˇr´ıpadˇe, ˇze nov´ a generace nen´ı vyˇsˇs´ı, riskovali jsme jen 5% pravdˇepodobnost, ˇze budeme nespr´ avnˇe tvrdit, ˇze vyˇsˇs´ı je
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
128(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
pˇr´ıklad: v´yˇska desetilet´ych chlapc˚ u kritick´y obor (nezapomeˇ n na jednostrannou alternativu!)
◮
kritick´y obor pomoc´ı Z : Z =
◮
◮
tot´eˇz pro X¯ :
X¯ − µ0 √ n ≥ z(1 − α) σ
σ X¯ ≥ µ0 + √ z(1 − α) n
konkr´etnˇe pro v´yˇsku hoch˚ u: 6,4 X¯ ≥ 136,1 + √ · 1,645 = 138,82 15
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
129(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
v´yˇska desetilet´ych hoch˚ u hustota X¯ za platnosti hypot´ezy H0 : µ = 136,1, ◮
√ ¯ p-hodnota je pst, ˇze za H√ 0 : Z = (X − µ0 ) n/σ > 1,836 tj. [1-pnorm(1.836)] X¯ > 136,1 + 1,836 · 6,4/ 15 = 139,13 p-hodnota: modr´a plocha napravo od 139,13, p = 3,3 %
0,25
◮
H1 : µ > µ0 pˇri σ = 6,4
138,82
139,13
136
138
0,00
0,05
0,10
0,15
0,20
hustota prů mě ru X za H0 : µ = 136,1
132
Z´ aklady biostatistiky
134
(MS710P09) ak. rok 2014/2015
140
6. pˇredn´ aˇska
142
144
24. bˇrezna 2015
130(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
v´yˇska desetilet´ych chlapc˚ u – s´ıla testu
µ = 136,1 µ = 140
0,10
0,15
0,20
0,25
hustota X¯ za hypot´ezy (modˇre) a pˇri µ = 140 (ˇcervenˇe) hladina testu = fialov´ a plocha, s´ıla testu = fialov´ a + ˇcerven´ a plocha
0,00
0,05
138,8
132
134
136
138
140
142
144
hraniˇcn´ı hodnota X¯ , pˇri kter´e se l´ ame“ rozhodov´ √ an´ı (hranice ” kritick´eho oboru a oboru pˇrijet´ı): 136,1 + 6,4/ 15 · 1,645 = 138,8 Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
131(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
volba rozsahu v´ybˇeru H0 : µ = µ0 proti H1 : µ 6= µ0 ◮ ◮
◮ ◮
pro zvolenou hodnotu µ1 6= µ0 poˇzadujeme s´ılu 1 − β 1 − β je pravdˇepodobnost, s jakou odhal´ıme neplatnost H0 , je-li ve skuteˇcnosti µ = µ1 z(1 − α/2) + z(1 − β) 2 2 σ n≥ µ1 − µ0 pˇri jednostrann´e alternativˇe by bylo z(1 − α) m´ısto z(1 − α/2) aby pˇri jednostrann´e alternativˇe pro µ1 = 140 byla s´ıla 90 % (tj. 1 − β = 0,9, β = 0,1, z(0,9) = 1,282), bude tˇreba aspoˇ n 1,645 + 1,282 2 2 6,4 = 23,1 n≥ 140 − 136,1 (m´ısto 15 pozorov´ an´ı jich potˇrebujeme aspoˇ n 24, pˇri oboustrann´e alternativˇe aspoˇ n 29)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
132(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
jednov´ybˇerov´ y t-test
v´ybˇer z N µ, σ 2 , σ nezn´ am´ e ◮ ◮ ◮
n nez´avisl´ych pozorov´ an´ı X1 , . . . , Xn z rozdˇelen´ı N µ, σ 2 H0 : µ = µ0 (populaˇcn´ı pr˚ umˇer roven dan´e konstantˇe) nutno odhadnout nezn´ am´y rozptyl σ 2
n
Sx2 =
2 1 X Xi − X¯ n−1 i =1
◮
statistika (m´ısto σ pouˇzijeme Sx ) T =
◮ ◮ ◮
X¯ − µ0 √ X¯ − µ0 = n Sx S.E.(X¯ )
H1 : µ 6= µ0 zam´ıtat pˇri |T | ≥ tn−1 (1 − α/2) H1 : µ > µ0 zam´ıtat pˇri T ≥ tn−1 (1 − α) H1 : µ < µ0 zam´ıtat pˇri T ≤ tn−1 (α) = −tn−1 (1 − α)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
133(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
v´yˇsky hoch˚ u pro pˇr´ıpad nezn´am´eho σ
◮
H0 : µ = 136,1 proti H1 : µ > 136,1 (α = 5 %) x¯ = 139,133 sx2 = 6,5562 139,133 − 136,1 √ 15 = 1,792 > 1,761 = t14 (0,95) t= 6,556 p = P(T ≥ 1,792) = 0,047 ( tj. 4,7 %)
◮
na 5% hladinˇe jsme prok´ azali zv´yˇsen´ı populaˇcn´ıho pr˚ umˇeru (H0 se na 5% hladinˇe zam´ıt´ a)
◮
[t.test(hosi,mu=136.1,alternative=”greater”)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
134(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
v´yˇsky hoch˚ u pro pˇr´ıpad nezn´am´eho σ (jin´e zad´ an´ı u ´lohy)
◮
kdybychom pˇredem nemˇeli urˇcenu jednostrannou alternativu, museli bychom zvolit H1 : µ 6= 136,1, pak |t| = |1,792| < 2,145 = t14 (0,975) p = P(|T | ≥ 1,792) = 0,0948
(tj. 9,48 %)
◮
hypot´ezu na 5% hladinˇe nezam´ıt´ ame, v´ysledek nen´ı statisticky v´ yznamn´ y
◮
neznamen´a to, ˇze bychom H0 prok´ azali, pouze m˚ uˇzeme pˇredpokl´ adat, ˇze H0 plat´ı
◮
[t.test(hosi,mu=136.1,alternative=”two.sided”)], staˇc´ı ale [t.test(hosi,mu=136.1)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
135(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
v´yˇsky hoch˚ u pro pˇr´ıpad nezn´am´eho σ ◮
95% interval spolehlivosti: (135,5; 142,8) s 95% pravdˇepodobnost´ı je skuteˇcn´y populaˇcn´ı pr˚ umˇer (stˇredn´ı hodnota oznaˇcen´ a µ) v uveden´em intervalu
◮
je jen 5% riziko, ˇze leˇz´ı mimo uveden´y interval
◮
99% interval spolehlivosti (134,1; 144,2) [t.test(hosi,mu=136.1,conf.level=0.99)] (vedlejˇs´ı v´ysledek) [confint(lm(hosi∼1),level=0.99)]
◮
aby byla zajiˇstˇena vˇetˇs´ı spolehlivost intervalu (vˇetˇs´ı pravdˇepodobnost, ˇze zachyt´ı skuteˇcnou hodnotu), je nutnˇe 99% interval spolehlivosti delˇs´ı, neˇz 95% interval spolehlivosti
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
136(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
souvislost s intervalem spolehlivosti pro µ pˇri oboustrann´e alternativˇe ◮
oboustrann´y interval spolehlivosti pro µ (viz str. 112) Sx Sx ¯ ¯ X − √ tn−1 (1 − α/2), X + √ tn−1 (1 − α/2) n n
◮
µ0 patˇr´ı do intervalu spolehlivosti, pr´ avˇe kdyˇz plat´ı Sx |X¯ − µ0 | < √ tn−1 (1 − α/2) n
◮
◮
◮
tedy, pr´avˇe kdyˇz se nezam´ıtne hypot´eza H0 : µ = µ0 pˇri oboustrann´e alternativˇe H1 : µ 6= µ0 interval spolehlivosti obsahuje takov´e hodnoty µ0 , pro kter´e bychom nezam´ıtli hypot´ezu H0 : µ = µ0 podobnˇe u jednostrann´ych interval˚ u spolehlivosti a jednostrann´ych alternativ
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
137(247)
populace a v´ ybˇ er statistick´ a indukce rozsah v´ ybˇ eru jednov´ ybˇ erov´ y t-test interval spolehlivosti ovˇ eˇren´ı normality
ovˇeˇren´ı pˇredpokladu o norm´aln´ım rozdˇelen´ı
145
◮
Shapir˚ uv-Wilk˚ uv test
◮
H0 : norm´ aln´ı rozdˇelen´ı s nˇejak´ymi (nezn´ am´ymi) parametry
◮
[shapiro.test(hosi)]
◮
W = 0,966, p = 80 %
◮
test hodnot´ı kvalitu pˇribl´ıˇzen´ı bod˚ u k pˇr´ımce na diagramu normality
◮
[qqnorm(hosi);qqline(hosi)]
140 135 130
Sample Quantiles
150
Normal Q−Q Plot
−1
0
1
Theoretical Quantiles
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
6. pˇredn´ aˇska
24. bˇrezna 2015
138(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
pravdˇepodobnost v´yskytu jevu test hypot´ezy o parametru π binomick´eho rozdˇelen´ı ◮
◮ ◮
◮ ◮ ◮ ◮
Y ∼ bi(n, π) H0 : π = π0 : Y − nπ0 π ˆ − π0 π ˆ − π0 . Z =p =p = ∼ N(0, 1) S.E.(ˆ π) nπ0 (1 − π0 ) π0 (1 − πo )/n podobnost s intervalem spolehlivosti pro π na str. 116 nˇekdy s opravou na spojitost (Yates) |Y − nπ0 | − 0,5 . Z= p sign(Y − nπ0 ) ∼ N(0, 1) nπ0 (1 − π0 )
H1 : π 6= π0 : zam´ıtnout pokud |Z | ≥ z(1 − α/2) H1 : π > π0 : zam´ıtnout pokud Z ≥ z(1 − α)
H1 : π < π0 : zam´ıtnout pokud Z ≤ z(α) = −z(1 − α) existuje pˇresn´y postup, bez pouˇzit´ı aproximace
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
7. pˇredn´ aˇska
31. bˇrezna 2015
139(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
pˇr´ıklad kalous ◮
◮ ◮
◮ ◮
◮
pokusit se prok´azat, ˇze kalous d´ a pˇrednost infikovan´e myˇsi pˇred myˇs´ı neinfikovanou Y – poˇcet zdar˚ u“, n = 50, π – pst, ˇze zvol´ı infikovanou ” Y m´a binomick´ e rozdˇ elen´ı za H0 : π = 1/2 (= π0 , myˇsi se neliˇs´ı) je Y ∼ bi(50, 1/2) alternativn´ı hypot´ eza: H1 : π > 1/2 v pokusu z 50 pˇr´ıpad˚ u dal kalous ve 33 pˇr´ıpadech pˇrednost infikovan´e myˇsi pˇred neinfikovanou kritick´ y obor: velk´ a hodnota Y (tj. velk´e π ˆ resp. velk´e Z ) 33 − 50 · 0,5 z=√ = 2,263 50 · 0,5 · 0,5
◮
p = P(Z ≥ 2,263) = 0,0118
s opravou na spojitost jsme opatrnˇejˇs´ı: z=
Z´ aklady biostatistiky
33 − 50 · 0,5 − 0,5 √ = 2,121 50 · 0,5 · 0,5 (MS710P09) ak. rok 2014/2015
p = P(Z ≥ 2,121) = 0,0169 7. pˇredn´ aˇska
31. bˇrezna 2015
140(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
pˇr´ıklad kalous ◮
◮
prop.test() poˇc´ıt´a Z 2 , kter´ a m´ a za H0 : rozdˇelen´ı χ21 [prop.test(33,n=50,p=0.5,alternative=”greater”,correct=FALSE)] [prop.test(33,50,alternative=”greater”)] [binom.test(33,50,alternative=”greater”)] p-hodnota (dosaˇ zen´ a hladina): za H0 poˇc´ıtan´a pst, ˇze dostaneme v´ysledek aspoˇ n tolik odporuj´ıc´ı nulov´e hypot´eze, jako ve skuteˇcn´em pokusu: p = P(Y ≥ 33) = 1 − P(Y ≤ 32) 50 X 50 = 0,5k (1 − 0,5)50−k k k=33
= 0,0164 [1-pbinom(32,50,1/2)] Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
[sum(dbinom(33:50,50,0.5))] 7. pˇredn´ aˇska
31. bˇrezna 2015
141(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
p´arov´e testy (pˇrevedou u ´lohu na jednov´ybˇerov´e testy) ◮
◮
◮ ◮
◮
◮ ◮ ◮
(U1 , V1 ), . . . , (Un , Vn ) – p´ arov´ a pozorov´ an´ı nez´ avisl´ e dvojice (moˇzn´ a) z´ avisl´ych n´ ahodn´ych veliˇcin Ui , Vi – dvojice mˇeˇren´ı na stejn´ych jedinc´ıch, napˇr. hodnota zjiˇstˇen´a pˇred oˇsetˇren´ım a po nˇem napˇr. v´yˇska otce a jeho syna nebo vˇek otce a vˇek matky nezaj´ım´ a n´ as zda je mezi nimi z´ avislost, tu pˇripouˇst´ıme, tˇesn´a z´avislost uvnitˇr dvojic je dokonce v´yhodn´a zaj´ım´ a n´ as zda jsou co do polohy stejn´ e, nebo napˇr. synov´e v (populaˇcn´ım) pr˚ umˇeru vyˇsˇs´ı, neˇz otcov´e Xi = Ui − Vi (oznaˇcen´ı rozd´ıl˚ u) pˇredp. stejn´ e rozdˇ elen´ı X1 , . . . , Xn (napˇr. norm´aln´ı) H0 tvrd´ı, ˇze napˇr. mezi v´yˇskami otc˚ u a syn˚ u nen´ı rozd´ıl, tedy ˇze rozd´ıly Xi kol´ısaj´ı kolem nuly: populaˇcn´ı m´ıra polohy rozd´ıl˚ u je nulov´a (napˇr. stˇredn´ı hodnota tj. populaˇcn´ı pr˚ umˇer)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
7. pˇredn´ aˇska
31. bˇrezna 2015
142(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
p´arov´y t-test pˇredpoklad: norm´ aln´ı rozdˇelen´ı rozd´ıl˚ u ◮ ◮ ◮ ◮
◮
pˇredpoklad: Xi = Ui − Vi maj´ı norm´ aln´ı rozdˇelen´ı, nez´ avisl´ e Xi = Ui − Vi ∼ N µU − µV , σ 2 = N µ, σ 2 vlastnˇe jednov´ ybˇ erov´ y t-test pro Xi = Ui − Vi
H0 : µ = µ0 (zpravidla µ0 = 0, pak je µU = µV ) n 2 1 X Xi − X¯ odhad σ 2 : S 2 = n−1 i =1
◮ ◮ ◮ ◮
X¯ − µ0 √ X¯ − µ0 U¯ − V¯ − µ0 √ = T = n = n S S S.E. (X¯ ) ve prospˇech H1 : µ 6= 0, kdyˇz |T | ≥ tn−1 (1 − α/2)
ve prospˇech H1 : µ < 0, kdyˇz T ≤ tn−1 (α) = −tn−1 (1 − α) ve prospˇech H1 : µ > 0, kdyˇz T ≥ tn−1 (1 − α)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
7. pˇredn´ aˇska
31. bˇrezna 2015
143(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
pˇr´ıklad: v´yˇsky rodiˇc˚ u (p´arov´a pozorov´an´ı!) H0 : otcov´e jsou o 10 cm vyˇsˇs´ı neˇz matky, H1 oboustrann´ a ◮ ◮ ◮ ◮ ◮
◮ ◮
U – v´yˇska otce, V – v´yˇska matky, X = U − V α = 0,05, H0 : µU = µV + 10 resp. µU − µV = 10 n = 99, u¯ = 179,267, v¯ = 166,970 x¯ = u¯ − v¯ = 12,293, sX = sU−V = 8,144 √ t = 12,293−10 99 = 2,801, tedy 8,144 |t| > t98 (0,975) = 1,9845 ⇒ zam´ıtnout H0 p = P(|T | ≥ |t|) = 0,0061 (0,61 %) 95% interval spolehlivosti pro µU − µV : 8,144 8,144 12,293 − √ 1,9845 ; 12,293 + √ 1,9845 = (10,67; 13,92) 99 99 [shapiro.test(vyska.o-vyska.m)] ovˇeˇren´ı normality [t.test(vyska.o,vyska.m, mu=10, paired=TRUE)] [t.test(vyska.o-vyska.m, mu=10)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
7. pˇredn´ aˇska
31. bˇrezna 2015
144(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
znam´enkov´y test bez pˇredpokladu norm´ aln´ıho rozdˇelen´ı, staˇc´ı libovoln´e spojit´ e rozdˇelen´ı ◮ ◮ ◮ ◮
◮
◮
staˇc´ı zn´at znam´enka rozd´ıl˚ u Xi = Ui − Vi pozorov´an´ı s Ui = Vi (tj. Xi = 0) se vynechaj´ı, uprav´ı se n Y – poˇcet kladn´ ych znam´enek Xi = Ui − Vi H0 : rozdˇelen´ı U a V jsou stejn´ a, pak je nutnˇe P(Ui > Vi ) = P(Xi > 0) = 1/2, tedy Y ∼ bi(n, 1/2) H0 zam´ıt´ame pro velk´ a nebo mal´ a Y: Y − n/2 Z = p , n/4
|Z | ≥ z(1 − α/2)
pro mal´a n je bezpeˇcnˇejˇs´ı pouˇz´ıt Yatesovu korekci Z =
Z´ aklady biostatistiky
|Y − n/2| − 0,5 p , n/4
(MS710P09) ak. rok 2014/2015
|Z | ≥ z(1 − α/2) 7. pˇredn´ aˇska
31. bˇrezna 2015
145(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
pˇr´ıklad: vˇek rodiˇc˚ u (p´arov´a pozorov´an´ı!) normalitu rozd´ılu vˇeku rodiˇc˚ u sotva lze pˇredpokl´ adat ◮ ◮
◮
◮
celkem 99 dvojic (otec, matka), sledujeme jejich vˇek (U, V ) H0 : µU = µV + 2 (populaˇcn´ı m´ıra polohy vˇeku otc˚ u je o 2 roky vˇetˇs´ı, neˇz matek), H1 oboustrann´ a v jeden´acti pˇr´ıpadech je vek.o – vek.m = 2, tyto dvojice nepouˇzijeme, proto n = 99 − 11 = 88 u 50 dvojic je vek.o – vek.m > 2, proto z=
◮
50 − 88/2 p = 1,279, 88/4
p = 0,201 (20,1 %)
s Yatesovou korekc´ı: z = 1,172, p = 0,241 (24,1 %)
[n = sum(vek.o-vek.m != 2)] [y = sum(vek.o-vek.m > 2)] [prop.test(y,n,correct=FALSE)] [prop.test(y,n,correct=TRUE)] Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
poˇcet nenulov´ych Xi poˇcet kladn´ych Xi bez Yatesovy korekce s Yatesovou korekc´ı 7. pˇredn´ aˇska
31. bˇrezna 2015
146(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
p´arov´y Wilcoxon˚ uv test [Wilcoxon signed rank test] (silnˇejˇs´ı pˇredpoklad, neˇz u znam´enkov´eho testu) ◮ ◮ ◮ ◮ ◮
◮
◮
nutn´e je spojit´ e a symetrick´ e rozdˇelen´ı Xi = Ui − Vi H0 : populaˇcn´ı medi´ an Xi je roven 0 (tj. P(Xi > 0) = 0,5) opˇet vylouˇc´ıme pˇr´ıpady Ui = Vi (tj. Xi = 0) urˇc´ıme poˇrad´ı Ri+ absolutn´ıch hodnot |Xi | = |Ui − Vi | W souˇcet tˇech poˇrad´ı, kde bylo Ui > Vi (tj. Xi > 0) Z =p
W − n(n + 1)/4
n(n + 1)(2n + 1)/24
pod odmocninou b´yv´ a jeˇstˇe oprava na v´yskyt shodn´ych hodnot, kter´a jmenovatele ponˇekud zmenˇs´ı [wilcox.test(vyska.o,vyska.m,mu=10,paired=TRUE)] pro mal´a n se ˇcitatel zpravidla pˇribliˇzuje o 1/2 k nule: (vˇsimnˇete si zkr´acen´ych n´ azv˚ u parametr˚ u – jednoznaˇcnost!) [wilcox.test(vyska.o,vyska.m,m=10,p=TRUE,cor=FALSE)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
7. pˇredn´ aˇska
31. bˇrezna 2015
147(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
pˇr´ıklad: porovn´an´ı dvou metod uˇcen´ı nazpamˇet’ ◮
◮ ◮
◮
u dev´ıti osob provedeno porovn´ av´ an´ı dvou zp˚ usob˚ u pˇred´av´an´ı informace (napˇr. poslouch´ an´ı vers. ˇcten´ı) rozhodnout, zda je mezi obˇema zp˚ usoby rozd´ıl H0 : rozdˇelen´ı U a V stejn´ a, tedy populaˇcn´ı medi´an rozd´ıl˚ u X = U − V je roven 0 znam´enkov´y test s Yatesovou korekc´ı (m´ alo pozorov´an´ı): y =5 z= ui vi xi ri+
Z´ aklady biostatistiky
90 85 5 8
n=8
|5 − 8/2| − 0,5 p = 0,3536 8/4 86 87 -1 1,5
72 70 2 3
(MS710P09) ak. rok 2014/2015
65 62 3 5
44 44 0 –
52 53 -1 1,5
7. pˇredn´ aˇska
p = 72,4 % 46 42 4 7
38 35 3 5
43 46 -3 5
31. bˇrezna 2015
148(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
pˇr´ıklad: porovn´an´ı dvou metod uˇcen´ı nazpamˇet’ p´ arov´y Wilcoxon˚ uv test [Wilcoxon signed-rank test] ◮
H0 : populaˇcn´ı medi´ an rozd´ıl˚ u=0
◮
novˇe pˇredpokl´ad´ame symetrii u −v 5 Wilcoxon˚ uv test: i +i ri 8
◮
-1 1,5
2 3
3 5
-1 1,5
4 7
3 5
-3 5
n=8 w = 8 + 3 + 5 + 7 + 5 = 28 28 − 8 · 9/4 − 1/2 9,5 z= p = √ = 1,33 51 8 · 9 · 17/24 p = 18,3 %
◮
program R d´a p = 18,1 %, protoˇze kromˇe opravy na spojitost bere ohled na shody (pˇresn´y v´ypoˇcet by dal p = 19,5 %)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
7. pˇredn´ aˇska
31. bˇrezna 2015
149(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
porovn´an´ı populaˇcn´ıch mˇer polohy rozdˇelen´ı
norm´aln´ı
spojit´e
populaˇcn´ı parametr (o ˇcem je hypot´eza) jeden v´ybˇer
populaˇcn´ı pr˚ umˇer jednov´ybˇerov´y t-test
populaˇcn´ı medi´an (distribuˇcn´ı funkce) jednov´ybˇerov´y Wilcoxon˚ uv, znam´enkov´y
v´ybˇer dvojic
p´arov´y t-test
p´arov´y Wilcoxon˚ uv, znam´enkov´y
dva nez´avisl´e v´ybˇery
dvouv´ybˇerov´y t-test
Mann-Whitney (Kolmogorov-Smirnov)
k nez´avisl´ych v´ybˇer˚ u
anal´yza rozptylu jedn. tˇr´ıdˇen´ı anal´yza rozptylu n´ahodn´e bloky
Kruskal-Wallis
v´ybˇer r -tic
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
Friedman
7. pˇredn´ aˇska
31. bˇrezna 2015
150(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
dvouv´ybˇerov´y t-test (pˇredpoklad norm´ aln´ıho rozdˇ elen´ı, testuje se shoda stˇredn´ıch hodnot µX = µY ) ◮ ◮
◮ ◮
◮
nX nez´avisl´ych pozorov´ an´ı X , nY nez´ avisl´ych pozorov´an´ı Y tyto v´ybˇery mus´ı b´yt nez´ avisl´ e (mus´ı to zajistit zp˚ usob poˇr´ızen´ı dat) rozptyly σX2 , σY2 shodn´e (lze ovˇeˇrit, odhady SX2 , SY2 podobn´e) norm´aln´ı rozdˇelen´ı v obou v´ybˇerech (lze ovˇeˇrit, pro velk´a nX , nY nenormalita tolik nevad´ı) spoleˇcn´y odhad rozptylu (v´ aˇzen´y pr˚ umˇer odhad˚ u z jednotliv´ych v´ybˇer˚ u) S2 =
◮
nY − 1 nX − 1 S2 + S2 nX + nY − 2 X nX + nY − 2 Y
statistika (pro test hypot´ezy, ˇze rozdˇelen´ı X a Y jsou stejn´a) r X¯ − Y¯ X¯ − Y¯ nX nY T = = S nX + nY S.E.(X¯ − Y¯ )
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
7. pˇredn´ aˇska
31. bˇrezna 2015
151(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
dvouv´ybˇerov´y t-test ◮
H0 : µX = µY zam´ıtnout ve prospˇech alternativy ◮ ◮ ◮
H1 : µX 6= µY kdyˇz |T | ≥ tnX +nY −2 (1 − α/2) H1 : µX > µY kdyˇz T ≥ tnX +nY −2 (1 − α) H1 : µX < µY kdyˇz T ≤ tnX +nY −2 (α) = −tnX +nY −2 (1 − α)
[t.test(hosi,divky,var.equal=TRUE)] [t.test(vyska∼Hoch,data=Vysky,var.equal=TRUE)]
nebo
◮
zam´ıt´ame-li H0 , ˇr´ık´ ame, ˇze rozd´ıl v´ybˇerov´ych pr˚ umˇer˚ u je (statisticky) v´ yznamn´ y
◮
pochyby o shodˇe rozptyl˚ u: Welch˚ uv test (modifikace t-testu) [t.test(hosi,divky,var.equal=FALSE)] (pro σX 6= σY ) [t.test(hosi,divky)] resp. [t.test(vyska∼Hoch)] (pro σX 6= σY )
◮
shodu rozptyl˚ u lze ovˇeˇrit napˇr. F -testem [var.test(hosi,divky)]
◮
ovˇeˇren´ı normality nutnˇe pro kaˇzd´y v´ybˇer zvl´ aˇst’!
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
7. pˇredn´ aˇska
(H0 : σX = σY )
31. bˇrezna 2015
152(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
pˇr´ıklad: v´yˇsky desetilet´ych dˇet´ı hoˇsi d´ıvky
rozsah 15 12
pr˚ umˇer 139,13 140,83
v´yb. rozptyl 42,98 33,79
12 − 1 15 − 1 42,98 + 33,79 = 38,936 15 + 12 − 2 15 + 12 − 2 r |139,13 − 140,83| 15 · 12 √ |t| = = |−0,703| < 2,06 = t25 (0,975) 15 + 12 38,936 s2 =
[shapiro.test(hosi)] p = 80 % [shapiro.test(divky)] p = 38 % [tapply(vyska,Hoch,shapiro.test)] (spoˇc´ıt´ a test pro oba v´ybˇery) [var.test(hosi,divky)] p = 70 % [t.test(hosi,divky,var.equal=TRUE)] p = 49 % [t.test(vyska∼Hoch,data=Vysky,var.equal=TRUE)] Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
7. pˇredn´ aˇska
31. bˇrezna 2015
153(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
pˇr´ıklad: v´aha dˇet´ı maturantek v 24. t´ydnu vˇeku d´ıtˇete t = 2,52, p = 1,5 %, rozd´ıl je v´ yznamn´ y
9000
dívka
Z´ aklady biostatistiky
8000 7000 6000
6000
7000
hmotnost
8000
9000
95% intervaly spolehlivosti
hoch
(MS710P09) ak. rok 2014/2015
dívka
7. pˇredn´ aˇska
hoch
31. bˇrezna 2015
154(247)
test o psti jevu p´ arov´ e testy dvov´ ybˇ erov´ y t-test
dvouv´ybˇerov´y t-test a intervaly spolehlivosti (pozn´ amka na okraj, plat´ı pro α = 5 %)
D: disjunktn´ı int. spol. versus V: v´ yznamn´ y rozd´ıl (PP: pr˚ umˇ ery jsou v CI druh´ eho v´ ybˇ eru) D ⇒ V disjunktn´ı intervaly spolehlivosti ⇒ v´yznamn´y rozd´ıl non V ⇒ non D nev´yznamn´y rozd´ıl pr˚ umˇer˚ u ⇒ pˇrekryv interval˚ u V ; D rozd´ıl pr˚ umˇer˚ u m˚ uˇze b´yt v´yznamn´y a souˇcasnˇe se intervaly mohou pˇrekr´yvat PP ⇒ non V pokud kaˇzd´y z interval˚ u spolehlivosti obsahuje v´ybˇerov´y pr˚ umˇer druh´eho v´ybˇeru, rozd´ıl pr˚ umˇer˚ u nen´ı v´yznamn´y (nemus´ı platit v pˇr´ıpadˇe, kdy oba rozsahy v´ybˇeru jsou do ˇctyˇr) pˇr´ıklad: v´aha dˇet´ı matek maturantek v 24. t´ydnu ◮ 95% interval spolehlivosti pro hochy [kg]: (7,51; 8,25) ◮ 95% interval spolehlivosti pro d´ ıvky [kg]: (6,98; 7,59) ◮ intervaly se ponˇ ekud pˇrekr´yvaj´ı, pˇrestoˇze t-test dal: t = 2,52, p = 1,5 %, tedy v´yznamn´y rozd´ıl Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
7. pˇredn´ aˇska
31. bˇrezna 2015
155(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
dvouv´ybˇerov´y Wilcoxon˚ uv test (Mann˚ uv-Whitney˚ uv) (staˇc´ı spojit´ e rozdˇ elen´ı) ◮
dva nez´avisl´e v´ybˇery rozsahu nX , nY
◮
spojit´a rozdˇelen´ı
◮
H0 : rozdˇelen´ı jsou stejn´ a, tedy i populaˇ cn´ı medi´ any stejn´e
◮ ◮
za H0 jsou v´ybˇery dobˇre prom´ıchan´e“ ” urˇc´ıme poˇrad´ı v r´ amci spojen´ych v´ybˇer˚ u
◮
kritick´y obor: pr˚ umˇern´ a poˇrad´ı se pˇr´ıliˇs liˇs´ı
◮
WX souˇcet poˇrad´ı hodnot X
◮ ◮
WX − nX (nX + nY + 1)/2 Z = p nX nY (nX + nY + 1)/12
shodu zam´ıtni, pokud |Z | ≥ z(1 − α/2) (pˇribliˇzn´y test) citliv´y v˚ uˇci posunut´ı, m´enˇe v˚ uˇci nestejn´e variabilitˇe
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
156(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
pˇr´ıklad: vˇek matek vers. pl´anovan´e tˇehotenstv´ı ◮
vˇek matky nem´a norm´ aln´ı rozdˇelen´ı: Shapir˚ uv-Wilk˚ uv test dal p-hodnoty p = 0,0045 a p = 0,0470 [tapply(vek.m,Plan,shapiro.test)]
◮
rozdˇelen´ı vˇeku matek je nepochybnˇe spojit´e
◮
v´ybˇery (0 – nepl´anovan´e, 1 – pl´ anovan´e tˇehotenstv´ı) jsou nez´avisl´e
◮
dvouv´ybˇerov´y Wilcoxon˚ uv test H0 : shodn´ a rozdˇelen´ı (shodn´e medi´any) dal p = 0,02067, rozd´ıl je na 5% hladinˇe pr˚ ukazn´ y [wilcox.test(vek.m∼Plan)]
◮
W = 864 je #(vek0 > vek1) + #(vek0 == vek1)/2, kde vek0 je vˇek matky s Plan == 0, podobnˇe vek1
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
157(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
Kolmogorov˚ uv-Smirnov˚ uv test
citliv´y v˚ uˇci vˇsem neshod´ am (nejen co do populaˇcn´ıho pr˚ umˇeru ˇci populaˇcn´ıho medi´anu)
◮
porovn´an´ı vˇeku matek podle pl´anovan´eho tˇehotenstv´ı
0,8
◮
0,6
urˇc´ı jejich nejvˇetˇs´ı svislou“ ” vzd´alenost
0,4
◮
12 D = 20 41 − 58 = 0,2808 p = 4,5 % [ks.test(vek.m[Plan==0],vek.m[Plan==1])]
◮
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
D
0,2
porovn´a empirick´e distribuˇcn´ı funkce dvou nez´ avisl´ ych v´ybˇer˚ u
Plan==0 Plan==1
0,0
◮
1,0
(staˇc´ı spojit´ e rozdˇ elen´ı)
20
8. pˇredn´ aˇska
25
30
35
věk matky
7. dubna 2015
158(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
porovn´an´ı populaˇcn´ıch mˇer polohy rozdˇelen´ı
norm´aln´ı
spojit´e
populaˇcn´ı parametr (o ˇcem je hypot´eza) jeden v´ybˇer
populaˇcn´ı pr˚ umˇer jednov´ybˇerov´y ttest p´arov´y t-test
populaˇcn´ı medi´an (distribuˇcn´ı funkce) jednov´ybˇerov´y Wilcoxon znam´enkov´y, Wilcoxon
dva nez´avisl´e v´ybˇery
dvouv´ybˇerov´y t-test
Mann-Whitney (Kolmogorov-Smirnov)
k nez´avisl´ych v´ybˇer˚ u
anal´yza rozptylu jedn. tˇr´ıdˇen´ı anal´yza rozptylu n´ahodn´e bloky
Kruskal-Wallis
v´ybˇer dvojic
v´ybˇer r -tic
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
Friedman
8. pˇredn´ aˇska
7. dubna 2015
159(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
motivaˇcn´ı pˇr´ıklad pro anal´yzu rozptylu (j´atra): ◮ ◮ ◮ ◮
pˇet m´ıst na ˇrece, vˇzdy vyloveno po 7 ryb´ ach ’ zjiˇst ov´ana koncentrace mˇedi v j´ atrech liˇs´ı se tato m´ısta sv´ym zneˇciˇstˇen´ım? logaritmov´an´ı na prav´e stranˇe stabilizuje rozptyl 2.5
0.5
log(Cu)
Cu
2.0
1.5
0.0 1.0
−0.5 A
B
C
D
E
A
Misto
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
B
C
D
E
Misto
8. pˇredn´ aˇska
7. dubna 2015
160(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
jin´e zobrazen´ı dat (error bars) ◮
log(Cu)
◮
v obou grafech jsou zn´ azornˇeny pr˚ umˇery na jednotliv´ych m´ıstech vlevo: u ´seˇcky = smˇerodatn´e odchylky, vyjadˇruj´ı variabilitu dat vpravo u ´seˇcky = stˇredn´ı chyba pr˚ umˇeru, vyjadˇruj´ı pˇresnost odhad˚ u stˇredn´ıch hodnot 0.8
0.8
0.6
0.6
0.4
0.4
log(Cu)
◮
0.2
0.2
0.0
0.0
−0.2
−0.2
−0.4
−0.4 A
Z´ aklady biostatistiky
B
C
D
E
(MS710P09)místo ak. rok 2014/2015
A
8. pˇredn´ aˇska
B
C
místo 7. dubna 2015
D
E
161(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
anal´yza rozptylu jednoduch´eho tˇr´ıdˇen´ı (ANOVA) ◮
◮ ◮ ◮ ◮
Y11 , . . . , Y1n1 ∼ N µ1 , σ 2 (prvn´ı v´ybˇer, pr˚ umˇer Y¯1• ) 2 Y21 , . . . , Y2n2 ∼ N µ2 , σ (druh´y v´ybˇer, pr˚ umˇer Y¯2• ) ... (k-t´y v´ybˇer, pr˚ umˇer Y¯k• ) Yk1 , . . . , Yknk ∼ N µk , σ 2 nez´ avisl´ e v´ybˇery (shodn´e rozptyly, norm´ aln´ı rozdˇelen´ı) H0 : µ1 = µ2 = . . . = µk (= µ) H1 : neplat´ı H0 P celkov´y pr˚ umˇer Y¯•• , celkov´y rozsah n = ki=1 ni rozklad souˇctu ˇctverc˚ u
ni ni k X k k X X X X (Yit − Y¯i • )2 ni (Y¯i • − Y¯•• )2 + (Yit − Y¯•• )2 = i =1 t=1
i =1 t=1
i =1
(celkov´a variabilita) = (variabilita mezi) + (variabilita uvnitˇr) ST = SA + Se fT = fA + fe (n − 1) = (k − 1) + (n − k)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
162(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
rozklad souˇctu ˇctverc˚ u pˇr´ıklad j´ atra (celkov´y pr˚ umˇer y¯•• = 0,36)
(celkov´a variabilita) = (variabilita mezi) + (variabilita uvnitˇr) ni k X X
0.5
i =1
ni (Y¯i • − Y¯•• )2 +
+
ni k X X (Yit − Y¯i • )2 i =1 t=1
+
+
0.0
+
k X
+
−0.5
log(Cu)
i =1 t=1
(Yit − Y¯•• )2 =
A Z´ aklady biostatistiky
B
(MS710P09) ak. rok 2014/2015
C
D 8. pˇredn´ aˇska
7. dubna 2015
E 163(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
tabulka anal´yzy rozptylu H0 zam´ıtnout, je-li FA = variabilita v´ybˇery rezidu´aln´ı celkov´a
S SA Se ST
SA /fA ≥ FfA ,fe (1 − α) Se /fe
f fA = k − 1 fe = n − k fT = n − 1
◮
S – souˇcty ˇctverc˚ u, jejich rozklad
◮
f – poˇcty stupˇ n˚ u volnosti
◮
S/f – pr˚ umˇern´e ˇctverce
◮
F – F -statistika
◮
p – p-hodnota
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
S/f SA /fA Se /fe
8. pˇredn´ aˇska
F FA
p pA
7. dubna 2015
164(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
pˇr´ıklad j´atra
variab. m´ısta rezid. celk.
S 1,796 2,285 4,081
f 4 30 34
S/f 0,4490 0,0762
F 5,862
p 0,0013
F = 5,862 > F4,30 (0,95) = 2,690 na 5% hladinˇe jsme prok´ azali rozd´ıl [summary(aov(lnCu∼Misto,data=Med))] nebo tak´e [anova(lm(lnCu∼Misto,data=Med))]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
165(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
ovˇeˇren´ı pˇredpoklad˚ u ◮
◮
nez´ avislost: d´ano organizac´ı (pl´ anem) pokusu pˇredpoklad nelze vynechat ˇci nahradit shoda rozptyl˚ u: (vyv´ aˇzen´y model je m´ alo citliv´y na neshodu populaˇcn´ıch rozptyl˚ u) ◮
◮
◮
Levene˚ uv test (vlastnˇe jednoduch´e tˇr´ıdˇen´ı s |Yit − medt Yit |) p = 64,8 % [leveneTest(lnCu,Misto)] Bartlett˚ uv test (citliv´y na splnˇen´ı pˇredpokladu o norm´aln´ım rozdˇelen´ı) p = 45,3 % [bartlett.test(lnCu,Misto)]
norm´ aln´ı rozdˇ elen´ı: (vyv´ aˇzen´y model je m´ alo citliv´y na nenormalitu), test normality nutno uplatnit na rezidua Yit − Y¯i • (na vˇsech n rezidu´ı najednou) p = 6,8 % [shapiro.test(resid(aov(lnCu∼Misto)))] nebo [shapiro.test(resid(lm(lnCu∼Misto)))]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
166(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
varianty z´apisu modelu AR jednoduch´eho tˇr´ıdˇen´ı ◮
model – idealizovan´ a pˇredstava o vzniku pozorovan´e hodnoty
◮
mˇeˇren´ı = u ´roveˇ n + n´ ahodn´ a chyba“ ” mˇeˇren´ı = systematick´ a sloˇzka + n´ ahodn´ a sloˇzka Yit
1 ≤ t ≤ ni ,
= µi + Eit
= µ + (µi − µ) + Eit = µ + αi + Eit
◮
1≤i ≤k
Eit nez´avisl´e Eit ∼ N 0, σ 2
reparametrizace (αi – efekty faktoru A): k X
αi = 0
i =1
◮
H0 : α1 = α2 = . . . = αk (tot´eˇz jako µ1 = µ2 = . . . = µk )
◮
pro k = 2 je FA = T 2 (vztah s dvouv´ybˇerov´ym t-testem)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
167(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
mnohon´asobn´a srovn´an´ı (Tukey˚ uv test, Kramerova verze, HSD – honest significance test) ◮
nutnost zachovat zvolenou hladinu testu i pˇri souˇcasn´em rozhodov´an´ı o ˇradˇe hypot´ez (napˇr. ˇze µ1 = µ2 , µ1 = µ3 , µ2 = µ3 , . . .)
◮
kter´e dvojice u ´rovn´ı faktoru (stˇr. hodnoty µi resp. efekty αi ) se liˇs´ı? s 2 1 1 S + |Y¯i • − Y¯j• | ≥ qk,n−k (1 − α) 2 ni nj kde qk,n−k (1 − α) je tabelovan´ a kritick´ a hodnota Se S = = fe 2
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
PP
(Yit − Y¯i • )2 n−k
8. pˇredn´ aˇska
7. dubna 2015
168(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
pˇr´ıklad j´atra m´ısto
poˇcet
pr˚ umˇer
efekt
A B C D E celkem
7 7 7 7 7 35
0,568 0,484 0,495 -0,063 0,329 0,363
0,206 0,121 0,133 -0,426 -0,034 0,000
s
q5,30 (0,95)
0,0762 2
1 1 + 7 7
smˇer. odchylka 0,312 0,279 0,318 0,290 0,144 0,104
= 4,10 · 0,104 = 0,428
−0,063 + 0,428 = 0,365 ⇒ na 5% hladinˇe se m´ısta D s nejmenˇs´ım pr˚ umˇerem liˇs´ı vˇsechna m´ısta s pr˚ umˇery aspoˇ n 0,365, tedy m´ısta A, B, C, nikoliv E [TukeyHSD(aov(lnCu∼Misto,data=Med))] Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
169(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
pˇr´ıklad j´atra funkce [TukeyHSD(aov(lnCu∼Misto,data=Med))] d´a tabulku porovn´an´ı vˇsech dvojic funkce [plot(TukeyHSD(aov(lnCu∼Misto,data=Med)))] graficky zn´azorn´ı porovn´ an´ı vˇsech dvojic pomoc´ı knihovny Rcmdr dostaneme tak´e graf 95% family−wise confidence level B−A
(
C−A
(
D−A
) (
E−A
) (
(
) )
(
E−B D−C
)
(
C−B D−B
)
)
(
) (
E−C
) (
E−D −1.0
−0.5
0.0
) 0.5
Linear Function
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
170(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
Kruskal˚ uv-Wallis˚ uv text (neparametrick´y test) ◮
◮
zobecnˇen´ı dvouv´ybˇerov´eho Wilcoxonova testu (pouˇzije opˇet poˇrad´ı m´ısto p˚ uvodn´ıch hodnot) pˇredpoklady: ◮ ◮
k nez´avisl´ych v´ybˇer˚ u spojit´a rozdˇelen´ı
◮
H0 : rozdˇelen´ı jsou stejn´ a (tedy i medi´ any jsou stejn´e)
◮
Ti - souˇcet poˇrad´ı v i -t´em v´ybˇeru k
Q=
X T2 12 i − 3(n + 1) n(n + 1) ni i =1
H0 se zam´ıt´a pˇri Q ≥ χ2k−1 (1 − α) (velk´a variabilita pr˚ umˇern´ych poˇrad´ı) Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
171(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
20
25
věk
30
35
pˇr´ıklad kojen´ı – vˇek matek podle vzdˇel´an´ı
základní
maturita
VŠ
vzdě lání
je patrn´a nesymetrie, zejm´ena u z´ akladn´ıho vzdˇel´ an´ı Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
172(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
pˇr´ıklad kojen´ı – vˇek matek podle vzdˇel´an´ı vzdˇel´an´ı
ni
z´akladn´ı maturita ˇ VS celk.
34 47 18 99
12 Q= 99 · 100
pr˚ umˇern´y vˇek 23,412 26,278 28,500 25,697
stˇredn´ı souˇcet pr˚ umˇern´e chyba poˇrad´ı poˇrad´ı 0,638 1025 30,15 0,543 2618 55,70 0,877 1307 72,61 4950 50,00
26182 13072 10252 + + 34 47 18
χ22 (0,05) = 5,99
− 3 · 100 = 29,25
p < 0,0001
[kruskal.test(vek.m∼Vzdelani,data=Kojeni)] (pˇresnˇejˇs´ı hodnocen´ı pˇrihl´ıˇz´ı ke shod´ am pˇri urˇcov´ an´ı poˇrad´ı)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
173(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
porovn´an´ı populaˇcn´ıch mˇer polohy rozdˇelen´ı
norm´aln´ı
spojit´e
populaˇcn´ı parametr (o ˇcem je hypot´eza) jeden v´ybˇer
populaˇcn´ı pr˚ umˇer jednov´ybˇerov´y ttest p´arov´y t-test
populaˇcn´ı medi´an (distribuˇcn´ı funkce) jednov´ybˇerov´y Wilcoxon znam´enkov´y, Wilcoxon
dva nez´avisl´e v´ybˇery
dvouv´ybˇerov´y t-test
Mann-Whitney (Kolmogorov-Smirnov)
k nez´avisl´ych v´ybˇer˚ u
anal´yza rozptylu jedn. tˇr´ıdˇen´ı anal´yza rozptylu n´ahodn´e bloky
Kruskal-Wallis
v´ybˇer dvojic
v´ybˇer r -tic
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
Friedman
8. pˇredn´ aˇska
7. dubna 2015
174(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
motivaˇcn´ı pˇr´ıklad diety: v´ahov´e pˇr´ır˚ ustky za danou dobu rozˇs´ıˇren´ı u ´lohy p´ arov´eho testu
dieta vrh 1 2 3 4 5 pr˚ umˇer ◮ ◮ ◮
◮
A 6,6 10,1 5,8 12,1 8,2 8,56
B 5,2 11,4 4,2 10,7 8,8 8,06
C 7,4 13,0 9,5 11,9 9,6 10,28
D 9,1 12,6 8,8 13,0 9,4 10,58
pr˚ umˇer 7,075 11,775 7,075 11,925 9,000 9,370
r = 4 oˇsetˇren´ı (pevn´e efekty, zvolili jsme je sami) k = 5 vrh˚ u (n´ahodn´e efekty, zvolila je n´ ahodnˇe pˇr´ıroda) jsou patrn´e rozd´ıly mezi pr˚ umˇery pro jednotliv´a oˇsetˇren´ı i pro jednotliv´e vrhy kdyby byly jen dvˇe diety (r = 2), pouˇzili bychom p´arov´y test (sourozenci moˇzn´ a reaguj´ı na dietu podobnˇe)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
175(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
n´ahodn´e bloky norm´ aln´ı rozdˇ elen´ı n´ ahodn´e sloˇzky modelu ◮
u ´ˇcel: porovnat dvˇe nebo v´ıce oˇsetˇren´ı na stejn´ych objektech
◮
zobecnˇen´ı p´ arov´ ych test˚ u na r -tice n´ ahodn´ y blok
◮
◮ ◮ ◮
◮
homogenn´ı skupina r objekt˚ u poˇcet objekt˚ u ve skupinˇe = poˇcet oˇsetˇren´ı (nebo jeho n´asobek) oˇsetˇren´ı se pˇriˇrad´ı uvnitˇr bloku n´ ahodnˇ e (kaˇzd´emu oˇsetˇren´ı stejn´y poˇcet objekt˚ u)
bloky – n´ahodn´e efekty Ai ∼ N P 0, σA2 oˇsetˇren´ı – pevn´e efekty βj ( rj=1 βj = 0)
Yij = µ+Ai +βj +Eij ,
Eij ∼ N 0, σ 2
(vliv bloku) (vliv oˇsetˇren´ı)
j = 1, . . . , r ; i = 1, . . . , k
pˇredpokl´ad´a se aditivn´ı vliv, symbolicky zapisovan´y A + B (vliv oˇsetˇren´ı je stejn´y pˇri r˚ uzn´ych hodnot´ ach Ai ) Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
176(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
n´ahodn´e bloky ◮
testovan´e hypot´ezy ◮ ◮
◮
H B : β1 = . . . = βr = 0 pˇr´ıpadnˇe HA : σA2 = 0
(oˇsetˇren´ı B nem´a vliv) (nulov´a variabilita mezi bloky)
rozklad variability ST = SA + SB + Se
◮
vliv dvou faktor˚ u ◮
◮
◮
Z´ aklady biostatistiky
A – n´ahodn´y: nastavuje pˇr´ıroda, pˇri opakov´an´ı pokusu budou ´urovnˇe jin´e B – pevn´y: nastavuje experiment´ator, pˇri opakov´an´ı pokusu budou ´urovnˇe stejn´e rozhodov´an´ı zda A je pevn´y nebo n´ahodn´y efekt z´avis´ı na c´ıli v´yzkumu, na interpretaci
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
177(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
pˇr´ıklad diety ◮
tabulka ANOVA (spr´ avn´ a) variabilita vrhy dieta rezidu´aln´ı celk.
S 91,932 23,322 12,388 127,642
f 4 3 12 19
S/f 22,983 7,774 1,032 -
F (22,26) 7,53 -
p (<0,0001) 0,0043 -
◮
na 5% hladinˇe jsme prok´ azali rozd´ıl mezi dietami (p = 0,4 %)
◮
variabilita mezi vrhy je tak´e pr˚ ukazn´ a (p < 0,1 %)
◮
[summary(aov(prirustek∼Error(Vrh)+Dieta,data=Mysi))]
◮
pro takto jednoduch´y model vyjde tabulka stejnˇe i kdyˇz povaˇzujeme faktor A za pevn´y (nen´ ahodn´y); porovn´av´ame pak konkr´etn´ıch pˇet vrh˚ u, vrhy nech´ apeme jako vzorek vˇsech moˇzn´ych vrh˚ u
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
178(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
pˇr´ıklad diety ◮
kdybychom nespr´ avnˇ e nevzali v u ´vahu z´ avislost nˇekter´ych pozorov´an´ı zp˚ usobenou n´ ahodn´ymi bloky (vrhy), dostali bychom model ANOVA jednoduch´eho tˇr´ıdˇen´ı variabilita dieta rezidu´aln´ı celk.
S 23,332 104,320 127,642
f 3 16 19
S/f 7,774 6,520 -
F 1,193 -
◮
[summary(aov(prirustek∼Dieta,data=Mysi))]
◮
porovn´an´ı se spr´avnou tabulkou anal´yzy rozptylu Se = 91,932 + 12,388 = 104,320,
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
p 0,344 -
fe = 4 + 12 = 16
8. pˇredn´ aˇska
7. dubna 2015
179(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
Friedman˚ uv test, zobecnˇen´ı znam´enkov´eho testu (neparametrick´y test, bez pˇredpokladu normality) ◮
model Yij = µ + Ai + βj + Eij (n´ ahodn´y ˇr´ adkov´y efekt) nebo Yij = µ + αi + βj + Eij (pevn´y ˇr´ adkov´y efekt, jde vlastnˇe o dvojn´ e tˇr´ıdˇ en´ı bez interakc´ı)
◮
Eij nez´avisl´e, spojit´e rozdˇelen´ı (nemus´ı b´yt norm´aln´ı)
◮
H0 : β1 = . . . = βr (nez´ avis´ı na oˇsetˇren´ı)
◮
urˇci poˇrad´ı v r´amci kaˇzd´eho bloku (ˇr´ adku) Rij
◮
za hypot´ezy je v kaˇzd´em ˇr´ adku n´ ahodn´ a permutace ˇc´ısel 1,. . . ,r , souˇcty ve sloupc´ıch (pro oˇsetˇren´ı) jsou podobn´e
◮ k r X X 12 Rij Q= kr (r + 1) j=1
◮
i =1
!2
− 3k(r + 1)
zam´ıtat H0 : pro Q ≥ χ2r −1 (1 − α)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
8. pˇredn´ aˇska
7. dubna 2015
180(247)
dvouv´ ybˇ erov´ y Wilcoxon (Mann-Whitney) Kolmogorov-Smirnov jednoduch´ e tˇr´ıdˇ en´ı Kruskal-Wallis N´ ahodn´ e bloky Friedman
pˇr´ıklad diety [friedman.test(prirustek∼Dieta|Vrh,data=Mysi)] dieta vrh 1 2 3 4 5 pr˚ um.
A 6,6 10,1 5,8 12,1 8,2 8,56
vrh 1 2 3 4 5 souˇcet
A 2 1 2 3 1 9
Z´ aklady biostatistiky
B 5,2 11,4 4,2 10,7 8,8 8,06
C 7,4 13,0 9,5 11,9 9,6 10,28 dieta B C 1 3 2 4 1 4 1 2 2 4 7 17
D 9,1 12,6 8,8 13,0 9,4 10,58 D 4 3 3 4 3 17
(MS710P09) ak. rok 2014/2015
pr˚ um. 7,075 11,775 7,075 11,925 9,000 9,370
k=5 r =4 12 92 + 72 5·4·5 +172 + 172 − 3 · 5 · 5
Q=
= 9,96
Q > χ23 (0,95) = 7,8147 p = 0,0189
8. pˇredn´ aˇska
7. dubna 2015
181(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
dvojn´e tˇr´ıdˇen´ı s interakcemi motivaˇcn´ı pˇr´ıklad Howells
u ´daje zjiˇstˇen´e na exhumovan´ych lebk´ ach ◮
m´ısto: Austr´ale (AUSTR), Rakousko (BERG), Sibiˇr (BURIAT)
◮
pohlav´ı: M, F vysvˇetlovan´e znaky:
◮
◮ ◮
◮
nejvˇetˇs´ı d´elka mozkovny GOL t´yln´ı ´uhel OCA
bude rozd´ıl mezi pohlav´ımi na vˇsech m´ıstech stejn´y? ◮
pokud ano (vliv je aditivn´ı, dvojn´ e tˇr. bez interakc´ı) Yijt = µ + αi + βj + Eijt
◮
pokud ne (vliv nen´ı aditivn´ı, rozd´ıl z´avis´ı na m´ıstˇe) Yijt = µ + αi + βj + γij + Eijt
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
9. pˇredn´ aˇska
14. dubna 2015
182(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
dvojn´e tˇr´ıdˇen´ı s interakcemi opˇet norm´ aln´ı rozdˇ elen´ı, oba faktory pevn´ e ◮
vliv dvou faktor˚ u nemus´ı b´yt aditivn´ı (1 ≤ t ≤ T ) Yijt = µ + αi + βj + γij + Eijt
◮ ◮
◮
◮
Eijt ∼ N 0, σ 2
symbolicky A + B + AB P (reparametrizaˇcn´ı podm´ınka) i αi = 0 efekty faktoru A odpov´ıdaj´ıc´ı jeho k u ´rovn´ım P (reparametrizaˇcn´ı podm´ınka) j βj = 0 efekty faktoru B odpov´ıdaj´ıc´ı jeho r u ´rovn´ım P P (reparametrizaˇcn´ı podm´ınka) i γij = 0, j γij = 0 interakce vyjadˇruj´ı neaditivitu obou faktor˚ u (vliv A z´avis´ı na u ´rovni B, vliv B z´ avis´ı na u ´rovni A), pak dvojn´e tˇr´ıdˇen´ı bez interakc´ı (s opakov´ an´ım pro T > 1)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
9. pˇredn´ aˇska
14. dubna 2015
183(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
testy ve dvojn´em tˇr´ıdˇen´ı
◮
HAB : γij = 0 (aditivita obou faktor˚ u, interakc´ı netˇreba) vliv u ´rovnˇe faktoru A je stejn´y pˇri vˇsech u ´rovn´ıch faktoru B vliv u ´rovnˇe faktoru B je stejn´y pˇri vˇsech u ´rovn´ıch faktoru A (vliv pohlav´ı je stejn´y na vˇsech m´ıstech)
◮
HA : αi = 0: faktor A nem´ a vliv (nez´ aleˇz´ı na m´ıstu)
◮
HB : βj = 0: faktor B nem´ a vliv (nez´ aleˇz´ı na pohlav´ı)
◮
pokud zam´ıtneme HAB , nem´ a smysl testovat HA , HB , nebot’ prostˇrednictv´ım interakc´ı oba faktory vliv maj´ı
◮
v takov´em pˇr´ıpadˇe je l´epe pˇrej´ıt k modelu jednoduch´eho tˇr´ıdˇen´ı s kombinovan´ymi u ´rovnˇemi
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
9. pˇredn´ aˇska
14. dubna 2015
184(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
pˇr´ıklad Howells ◮
lebky exhumovan´e na tˇrech m´ıstech (A)
◮
lebky jsou rozliˇsov´ any podle pohlav´ı (B)
◮
mˇeˇr´ıme nejvˇetˇs´ı d´elku mozkovny GOL
190 185
M F
180
Gender
nebo
pAB = 0,8872
170
175
GOL
[anova(lm(gol∼Gender*Popul))] [anova(lm(gol∼Gender+Popul+Gender:Popul))]
AUSTR
Z´ aklady biostatistiky
BERG
(MS710P09) ak. rok 2014/2015
BURIAT
9. pˇredn´ aˇska
14. dubna 2015
185(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
pˇr´ıklad Howells (GOL) pohlav´ı M F M F M F variabilita m´ısta pohlav´ı interakce rezidu´ aln´ı celkov´ a
Z´ aklady biostatistiky
m´ısto Berg Berg Austr´ alie Austr´ alie Sibiˇr Sibiˇr S 5242,1 5170,8 9,6 9410,6 19833,2
f 2 1 2 234 239
(MS710P09) ak. rok 2014/2015
nij 40 40 40 40 40 40
y¯ij 180,300 170,450 190,375 181,375 181,175 172,175
S/f 2621,1 5170,8 4,8 40,2
sij 7,293 6,641 5,555 6,632 6,468 5,228
F 65,2 128,6 0,1
9. pˇredn´ aˇska
p <0,0001 <0,0001 0,8872
14. dubna 2015
186(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
pˇr´ıklad Howells ◮
lebky exhumovan´e na tˇrech m´ıstech (A)
◮
lebky jsou rozliˇsov´ any podle pohlav´ı (B)
◮
mˇeˇr´ıme t´yln´ı u ´hel OCA
117
[anova(lm(oca∼Gender*Popul))] [anova(lm(oca∼Gender+Popul+Gender:Popul))] Gender
115
116
F M
pAB = 0,0222
114
OCA
nebo
AUSTR
Z´ aklady biostatistiky
BERG
(MS710P09) ak. rok 2014/2015
BURIAT
9. pˇredn´ aˇska
14. dubna 2015
187(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
pˇr´ıklad Howells (OCA) pohlav´ı M F M F M F variabilita m´ısta pohlav´ı interakce rezidu´ aln´ı celkov´ a
Z´ aklady biostatistiky
m´ısto Berg Berg Austr´ alie Austr´ alie Sibiˇr Sibiˇr S 150,908 91,267 191,608 5789,550 6223,333
(MS710P09) ak. rok 2014/2015
nij 40 40 40 40 40 40 f 2 1 2 234 239
y¯ij 116,675 116,850 115,025 114,800 113,450 117,200 S/f 75,454 91,267 95,804 24,742
sij 5,567 5,682 4,382 4,286 4,782 4,973
F 3,05 3,69 3,87
9. pˇredn´ aˇska
p 0,0493 0,0560 0,0222
14. dubna 2015
188(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
porovn´an´ı populaˇcn´ıch mˇer polohy rozdˇelen´ı
norm´aln´ı
spojit´e
populaˇcn´ı parametr (o ˇcem je hypot´eza) jeden v´ybˇer
populaˇcn´ı pr˚ umˇer jednov´ybˇerov´y ttest p´arov´y t-test
populaˇcn´ı medi´an (distribuˇcn´ı funkce) jednov´ybˇerov´y Wilcoxon znam´enkov´y, Wilcoxon
dva nez´avisl´e v´ybˇery
dvouv´ybˇerov´y t-test
Mann-Whitney (Kolmogorov-Smirnov)
k nez´avisl´ych v´ybˇer˚ u
anal´yza rozptylu jedn. tˇr´ıdˇen´ı anal´yza rozptylu n´ahodn´e bloky
Kruskal-Wallis
v´ybˇer dvojic
v´ybˇer r -tic
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
Friedman
9. pˇredn´ aˇska
14. dubna 2015
189(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
vyˇsetˇrov´an´ı z´avislosti nez´avisle promˇenn´ a(´e) spojit´ a nomin´ aln´ı
z´ avisle promˇenn´ a spojit´ a nomin´ aln´ı regrese logistick´a korelace regrese anal´yza kontingenˇcn´ı rozptylu tabulky
pˇr´ıklady: ◮
hmotnost na v´yˇsce
◮
rakovina plic na poˇctu vykouˇren´ych cigaret
◮
hmotnost obilky na ˇzivn´em roztoku
◮
barva oˇc´ı a barva vlas˚ u
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
9. pˇredn´ aˇska
14. dubna 2015
190(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
korelace a regrese [correlation, regression]
◮
korelace (dvojice n´ ahodn´ych veliˇcin) ◮ ◮ ◮ ◮
◮
mˇeˇr´ı s´ılu (tˇesnost) vz´ ajemn´ e z´avislosti spojit´ ych veliˇcin lze pouˇz´ıt k prokazov´ an´ı existence vz´ ajemn´ e z´avislosti X , Y k porovn´ av´ an´ı s´ıly (tˇesnosti) z´avislosti v nˇekolika populac´ıch symetrick´ a vlastnost veliˇcin X a Y
regrese (n´ahodn´a veliˇcina na nen´ ahodn´e veliˇcinˇe) ◮
◮ ◮
◮
Z´ aklady biostatistiky
ud´av´a jak z´avis´ı stˇredn´ı hodnota spojit´ e veliˇciny Y na nez´avisle promˇenn´e (promˇenn´ych) x nesymetrick´ a vlastnost: (z´av. Y na x) 6= (z´av. X na y ) lze pouˇz´ıt k prokazov´ an´ı existence z´avislosti z´ avisle promˇenn´e Y na nez´ avisle promˇenn´e x umoˇzˇnuje pˇredpov´ıdat stˇr. hodnotu Y pro zvolenou hodnotu x
(MS710P09) ak. rok 2014/2015
9. pˇredn´ aˇska
14. dubna 2015
191(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
korelaˇcn´ı koeficient (rozliˇsuj v´ ybˇ erov´ y a populaˇ cn´ı korelaˇcn´ı koeficient) ◮
(populaˇcn´ı) korelaˇcn´ı koeficient ρXY = ◮ ◮ ◮
◮
σXY σX σY
(str. 82)
|ρXY | ≤ 1 pro nez´avisl´e X , Y je ρXY = 0 konstanta, kter´a mˇeˇr´ı s´ılu line´ arn´ı z´avislosti
(v´ybˇerov´y) korelaˇcn´ı koeficient rxy (zaveden na obr. 37) P sxy (Xi − X¯ )(Yi − Y¯ ) = pP rxy = P sx sy (Xi − X¯ )2 (Yi − Y¯ )2 ◮ ◮ ◮ ◮
Z´ aklady biostatistiky
n´ahodn´a veliˇcina (z´avis´ı na datech) odhaduje populaˇcn´ı korelaˇcn´ı koeficient ρXY pˇresnost odhadu z´avis´ı na n alternativn´ı oznaˇcen´ı: Pearson˚ uv korelaˇcn´ı koeficient, momentov´y korelaˇcn´ı koeficient, [correlation coefficient] (MS710P09) ak. rok 2014/2015
9. pˇredn´ aˇska
14. dubna 2015
192(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
dokazov´an´ı z´avislosti X , Y ◮ ◮
k prok´az´an´ı z´avislosti je nutn´e norm´ aln´ı rozdˇelen´ı (X , Y ) H0 : X , Y nez´avisl´e (tedy ρXY = 0) se na hladinˇe α zam´ıt´a: T =√
◮
√ r n − 2, 1 − r2
|T | ≥ tn−2 (1 − α/2)
(r je dost daleko od nuly) Spearman˚ uv korelaˇcn´ı koeficient ◮ ◮ ◮
mˇeˇr´ı s´ılu monotonn´ı z´avislosti (nejen line´arn´ı z´avislosti) m´ısto hodnot Xi , Yi pouˇzije jejich poˇrad´ı Ri , Qi lze upravit na tvar n
(S)
rXY = 1 − ◮ ◮
Z´ aklady biostatistiky
X 6 (Ri − Qi )2 2 n(n − 1) i =1
k testu nez´avislosti nepotˇrebuje norm´aln´ı rozdˇelen´ı (S) √ H0 : (nez´avislost) se zam´ıt´a, je-li |rXY n − 1| ≥ z(1 − α/2) (MS710P09) ak. rok 2014/2015
9. pˇredn´ aˇska
14. dubna 2015
193(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
z´avislost v´ahy a v´yˇsky u muˇz˚ u data: Policie
[cor.test(weight,height)]
80
r
= 0,648
t = 5,814
70
weight
90
100
[plot(weight∼height)]
60
p < 0,001
165 170 175 180 185 190 195 height
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
9. pˇredn´ aˇska
14. dubna 2015
194(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
z´avislost v´ahy a pulsu u muˇz˚ u data: Policie
[cor.test(pulse,weight)]
80
r
= −0,245
t = −1,752
70
weight
90
100
[plot(weight∼pulse]
= 8,6 %
60
p
50
60
70
80
90
100
pulse
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
9. pˇredn´ aˇska
14. dubna 2015
195(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
Fisherova z-transformace (pˇribl´ıˇz´ı rozdˇelen´ı v´ybˇerov´eho korelaˇcn´ıho koeficientu r norm´ aln´ımu rozdˇelen´ı)
1 1+r . 1 1+ρ 1 Z = ln ∼N ln , 2 1−r 2 1−ρ n−3 test shody dvou nez´ avisle odhadovan´ ych korel. koeficient˚ u pˇr´ıklad Kojeni: v´yˇska rodiˇc˚ u chlapc˚ u a d´ıvek 1 1 + 0,279 ◮ d´ ıvky: r1 = 0,279, n1 = 50, z1 = ln = 0,286 2 1 − 0,279 1 1 + 0,150 ◮ hoˇ si: r2 = 0,150, n2 = 49, z2 = ln = 0,151 2 1 − 0,150 ◮ test H0 : ρ1 = ρ2 proti H1 : ρ1 6= ρ2 z=r
0,286 − 0,151
1 1 + 50 − 3 49 − 3
= 0,650.
srovnej s kritickou hodnotou z(1 − 0,05/2) = 1,960, p = 51,6 % Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
9. pˇredn´ aˇska
14. dubna 2015
196(247)
dvojn´ e tˇr´ıdˇ en´ı z´ avislost korelace z-trafo
interval spolehlivosti pro ρ opˇet potˇrebujeme norm´ aln´ı rozdˇelen´ı (X , Y ) ◮
ve dvou kroc´ıch: ◮ ◮ ◮
1+ρ interval spolehlivosti pro ζ = 12 ln 1−ρ pomoc´ı inverzn´ı transformace pak int. spol. pro ρ takto postupuje funkce cor.test(), napˇr. [cor.test(∼vyska.o+vyska.m,subset=HochL,data=Kojeni)]
◮
interval spolehlivosti
◮
n´aˇs pˇr´ıklad: skupina r (bodov´y odhad ) 95% int. spol. pro ρ d´ıvky 0,279 (0,000; 0,517) hoˇsi 0,150 (−0,137; 0,414) u chlapc˚ u nelze prok´ azat na 5% hladinˇe z´ avislost
◮ ◮
p 5,01 % 30,3 %
u dˇevˇcat je z´avislost na 10% hladinˇe pr˚ ukazn´ a, na 5% hladinˇe tˇesnˇe nikoliv (interval spolehlivosti je jen pˇribliˇzn´y!)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
9. pˇredn´ aˇska
14. dubna 2015
197(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
regrese (p˚ uvod pojmu) ◮
tendence (n´avrat) k pr˚ umˇernosti F. Galton (1886) vyˇsetˇroval dˇediˇcnost v´yˇsky postavy
◮
uvaˇzujme otce, jejichˇz v´yˇska je rovna pr˚ umˇern´e v´yˇsce generace vˇsech otc˚ u; pr˚ umˇern´ a v´yˇska syn˚ u otc˚ u t´eto v´yˇsky bude rovna pr˚ umˇern´e v´yˇsce vˇsech syn˚ u
◮
uvaˇzujme otce o 10 cm vyˇsˇs´ı, neˇz je pr˚ umˇern´a v´yˇska generace otc˚ u: pr˚ umˇern´a v´yˇska syn˚ u tˇechto otc˚ u bude jen asi o 5 cm vyˇsˇs´ı, neˇz pr˚ umˇern´ a v´yˇska generace syn˚ u
◮
uvaˇzujme otce o 10 cm niˇ zˇs´ı, neˇz je pr˚ umˇern´ a v´yˇska generace otc˚ u: pr˚ umˇern´a v´yˇska syn˚ u tˇechto otc˚ u bude jen o asi 5 cm niˇ zˇs´ı, neˇz pr˚ umˇern´ a v´yˇska generace syn˚ u
◮
pr˚ umˇern´e v´yˇsky syn˚ u nereprodukuj´ı celou odchylku v´yˇsky otce od pr˚ umˇeru, je tu n´ avrat k pr˚ umˇeru (regrese)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
198(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
Z´avislost v´yˇsky syna na v´yˇsce otce
syn
65
70
75
v´yˇsky v ang. palc´ıch, Galtonova data, ke kaˇzd´emu otci n´ ahodnˇe vybr´ an jeden z jeho syn˚ u proloˇzena pˇr´ımka: y = 35,4 + 0,5x, pro porovn´ an´ı ˇsedivˇe pˇr´ımka s jednotkovou smˇernic´ı
60
65
70
75
80
otec
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
199(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
regresn´ı pˇr´ımka ◮
◮ ◮ ◮
pˇredpokl´ adan´ a z´ avislost stˇredn´ı hodnoty Y na nen´ahodn´e x: Yi = β0 + β1 xi + Ei , Ei ∼ N 0, σ 2 Yi = systematick´ a sloˇzka (β0 + β1 xi )+ n´ ahodn´a sloˇzka (Ei ) k dan´ym x1 , . . . , xn zjist´ıme Y1 , . . . , Yn pˇredpoklady: ◮ ◮ ◮
◮
nez´ avisl´ a pozorov´an´ı Y1 , . . . , Yn (tedy tak´e E1 , . . . , En ) stejn´ y rozptyl σ 2 norm´ aln´ı rozdˇelen´ı E1 , . . . , En (potˇrebn´e aˇz pro testy, normalitu nelze ovˇeˇrovat testov´an´ım pˇr´ımo Y1 , . . . , Yn !)
nezn´am´e populaˇcn´ı parametry β0 , β1 odhadujeme metodou nejmenˇs´ıch ˇ ctverc˚ u: n X minimalizovat pˇres β0 , β1 v´yraz (Yi − β0 − β1 xi )2 i =1
◮
odhady oznaˇc´ıme b0 , b1
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
200(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
Metoda nejmenˇs´ıch ˇctverc˚ u pˇr´ımka veden´ a tˇremi ˇcerven´ymi body [xi , Yi ]
y
y=b0+b1x
b1 1 ^ [xi,Yi]
soucet ctvercu = 1.5 [xi,Yi] x
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
201(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
metoda nejmenˇs´ıch ˇctverc˚ u
2.0
odhadovan´a z´avislost: odhad z´avislosti: i -t´a vyrovnan´a hodnota: i -t´e reziduum: celkov´a plocha ˇctverc˚ u:
y = β0 + β1 · x y = b0 + b1 · x Yˆi = b0 + b1 · xi Ui =P Yi − Yˆi Se = ni=1 Ui2
(populace) (v´ybˇer) (v´ybˇer) (v´ybˇer) (v´ybˇer)
1.5
y = b0 + b1x
1.0
[xi;Y^i] b1
0.5
1
[xi;Yi]
0.0
b0
0 Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
1
2 10. pˇredn´ aˇska
3 21. dubna 2015
202(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
◮ ◮
◮ ◮ ◮ ◮
b1 – odhad smˇernice β1 b1 = (b0 + b1 (x + 1)) − (b0 + b1 x) – odhad zmˇeny stˇredn´ı hodnoty z´ avisle promˇenn´e Y pˇri jednotkov´ e zmˇ enˇ e nez´ avisle promˇenn´e x i -t´e reziduum Ui = Yi − Yˆi = Yi − (b0 + b1 xi ) Yi = Yˆi + Ui (vysvˇetlov´ano)=(vysvˇetleno z´ avislost´ı)+(nevysvˇetleno) rezidu´ aln´ı souˇ cet ˇ ctverc˚ u (nevysvˇetlen´ a variabilita): Se =
n n n X X X Ui2 (Yi − b0 − b1 xi )2 = (Yi − Yˆi )2 = i =1
◮
i =1
i =1
rezidu´ aln´ı rozptyl (odhad rozptylu σ 2 ) S2 =
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
Se n−2 10. pˇredn´ aˇska
21. dubna 2015
203(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
alternativn´ı formulace ◮
uvaˇzovanou z´avislost lze ps´ at ve tvaru Yi = (β0 + β1 x¯) + β1 (xi − x¯) + Ei = β0∗ + β1 (xi − x¯) + Ei
◮
◮
◮
◮
β0∗ vyjadˇruje stˇredn´ı u ´roveˇ n vysvˇetlovan´e promˇenn´e Y pˇri pr˚ umˇern´e hodnotˇe nez´ avisle promˇenn´e x β1 vyjadˇruje citlivost, s jakou reaguje stˇredn´ı hodnota vysvˇetlovan´e promˇenn´e Y na jednotkovou odchylku nez´avisle promˇenn´e x od jej´ıho pr˚ umˇeru x¯ Ei vyjadˇruje n´ an´ı, ahodnou sloˇzku i -t´eho pozorov´ Ei ∼ N 0, σ 2 odhadem z´avislosti je (b1 je stejn´e jako pˇri klasick´em vyj´adˇren´ı) Yˆi = Y¯ + b1 (xi − x¯)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
204(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
prokazov´an´ı z´avislosti
◮
modelujeme z´avislost E Y na x pomoc´ı E Y = β0 + β1 x
◮
nez´avislost y = β0 + β1 x na x znamen´ a β1 = 0
◮
hypot´ezu H0 : β1 = 0 testujeme pomoc´ı statistiky T =
◮
◮
b1 S.E.(b1 )
hypot´ezu zam´ıt´ame, je-li |T | ≥ tn−2 (1 − α/2) tj. je-li pˇr´ısluˇsn´a p-hodnota ≤ α
pokud H0 zam´ıtneme, ˇr´ık´ ame, na hladinˇe α je z´ avislost pr˚ ukazn´ a
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
205(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
pˇr´ıklad z´avislost procenta tuku na v´yˇsce data: Policie
regresor abs. ˇclen height ◮ ◮ ◮
bj –53,870 0,379
S.E.(bj ) 24,657 0,138
t –2,185 2,742
p 0,0338 0,0086
pˇredpovˇed’: Yˆi = −53,870 + 0,379 · xi c – 53,870 + 0,379 · height fat=
z´avislost procenta tuku na v´yˇsce je na 5% hladinˇe pr˚ ukazn´a, nebot’ p = 0,86 %
◮
na kaˇzd´y centimetr v´yˇsky v pr˚ umˇeru pˇribude 0,379 procentn´ıho bodu tuku
◮
[summary(lm(fat∼height))]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
206(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
koeficient determinace [coefficient of determination] ◮
pod´ıl variability Y vysvˇetlen´e uvaˇzovanou z´ avislost´ı (jakou ˇc´ast variability Y se podaˇrilo z´ avislost´ı na x vysvˇetlit)
◮
P variabilita vysvˇetlen´ a (Yˆi − Y¯ )2 R = =P variabilita vysvˇetlovan´ a (Yi − Y¯ )2 P variabilita nevysvˇetlen´ a (Yi − Yˆi )2 =1− =1− P variabilita vysvˇetlovan´ a (Yi − Y¯ )2 Se =1− P (Yi − Y¯ )2 2
◮ ◮ ◮
R 2 je bezrozmˇern´e ˇc´ıslo, ˇcasto vyj´ adˇreno v procentech 2 R ukazuje, zda m´ a smysl pˇredpov´ıdat pomoc´ı regrese 2 v pˇr´ıpadˇe regresn´ı pˇr´ımky je R 2 = rXY
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
207(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
tabulka anal´yzy rozptylu variabilita regrese rezid. celk.
souˇcet ˇctverc˚ u 362,54 2314,41 2676,95
st. vol. 1 48 49
pr˚ um. ˇctverec 362,54 48,22 (54,63)
F
p
7,519
0,0086
◮
s 2 = 48,22 ◮
R2 =
2314,41 362,54 =1− = 0,135 2676,95 2676,95
◮
z´avislost´ı na v´yˇsce jsme vysvˇetlili jen 13,5 % variability procenta tuku
◮
[anova(lm(fat∼height))]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
208(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
mnohon´asobn´a line´arn´ı regrese ◮
z´avislost na dvou (nebo v´ıce) nez´ avisle promˇenn´ych
◮
pozorov´an´ı (x1 , v1 , Y1 ), . . . , (xn , vn , Yn )
◮
pˇredstava (model) Yi = β0 + β1 xi + β2 vi +Ei | {z } E Yi
◮
stˇredn´ı hodnota Yi (tj. systematick´ a, nen´ ahodn´a sloˇzka Yi ) vysvˇetlena pomoc´ı xi , vi jako β0 + β1 xi + β2 vi
◮
E1 , . . . , En (tak´e Y1 , . . . , Yn ) jsou nez´ avisl´ e n´ahodn´e veliˇciny Ei ∼ N 0, σ 2 (norm´ aln´ı rozdˇelen´ı se stejn´ym rozptylem)
◮ ◮
b0 , b1 , b2 – odhady parametr˚ u β0 , β1 , β2
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
209(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
interpretace ◮
b1 – odhad zmˇeny stˇredn´ı hodnoty Y pˇri jednotkov´ e zmˇenˇe x a nezmˇ enˇ en´ e hodnotˇe v
◮
b2 – odhad zmˇeny stˇredn´ı hodnoty Y pˇri jednotkov´ e zmˇenˇe v a nezmˇ enˇ en´ e hodnotˇe x
◮
Ui – reziduum Ui = Yi − Yˆi = Yi − (b0 + b1 xi + b2 vi )
◮
rozklad variability ST = SR + Se n n n X X X (Yi − Yˆi )2 (Yˆi − Y¯ )2 + (Yi − Y¯ )2 = i =1
Z´ aklady biostatistiky
i =1
(MS710P09) ak. rok 2014/2015
i =1
10. pˇredn´ aˇska
21. dubna 2015
210(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
koeficient determinace ◮
koeficient determinace R 2 pod´ıl celkov´e variability, kter´y se podaˇrilo vysvˇetlit z´avislost´ı Y na x a v (jakou ˇc´ ast variability Y se podaˇrilo vysvˇetlit) R2 =
◮
H0 : β1 = β2 = 0 F =
◮
SR Se =1− ST ST
(chov´ an´ı Y nez´ avis´ı ani na x ani na v ) SR /2 ≥ F2,n−3 (1 − α) Se /(n − 3)
p-hodnota tohoto testu b´yv´ a uv´ adˇena spolu s R 2
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
211(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
testy o pˇr´ınosu jednotliv´ych regresor˚ u ◮
model
y = β0 + β1 x + β2 v
◮
H0 : β2 = 0 k vysvˇetlen´ı chov´an´ı Y staˇc´ı x, tj. y = β0 + β1 x T2 =
◮
zam´ıtat pro |T2 | ≥ tn−3 (1 − α/2)
H0 : β1 = 0 k vysvˇetlen´ı chov´an´ı Y staˇc´ı v , tj. y = β0 + β2 v T1 =
◮
b2 , S.E.(b2 )
b1 , S.E.(b1 )
zam´ıtat pro |T1 | ≥ tn−3 (1 − α/2)
H0 : β0 = 0 zpravidla nem´ a re´ aln´y smysl
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
212(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
pˇr´ıklad: z´avislost procenta tuku na v´yˇsce a v´aze data: Policie
regresor abs. ˇclen height weight ◮ ◮
◮
◮
◮
bj 11,327 –0,262 0,624
S.E.(bj ) 16,682 0,110 0,0690
t 0,679 –2,376 9,050
p 0,5005 0,0216 <0,0001
[summary(lm(fat∼height+weight))] pˇri stejn´ e v´ yˇsce oˇcek´ av´ ame na kaˇzd´y kg hmotnosti o 0,6 proc. bodu v´ıce tuku u muˇz˚ u, kteˇr´ı se liˇs´ı v´yˇskou o 10 cm a maj´ı stejnou hmotnost oˇcek´av´ ame, ˇze ti vyˇsˇs´ı maj´ı v pr˚ umˇeru o 2,6 proc. bodu m´ enˇ e tuku na 5% hladinˇe nelze vylouˇcit v´yˇsku, pr˚ ukaznˇe pˇrisp´ıv´a k vysvˇetlen´ı pomoc´ı v´ ahy na 1% hladinˇe nelze vylouˇcit v´ ahu, pr˚ ukaznˇe pˇrisp´ıv´ a k vysvˇetlen´ı pomoc´ı v´yˇsky
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
213(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
tabulka anal´yzy rozptylu (F -statistika je v summary(), v commanderu nutno zvolit typ I a pˇr´ınosy regresor˚ u seˇc´ıst)
variabilita regrese rezid. celk. ◮ ◮
◮ ◮
souˇc. ˇctv, 1833,11 843,85 2676,95
st. vol. 2 47 49
pr˚ um. ˇctv. 916,55 17,95 (54,63)
F 51,050
p <0,001
R 2 = 1833,11/2676,95 = 1 − 843,85/2676,95 = 0,685
z´avislost´ı na v´yˇsce a v´ aze jsme vysvˇetlili 68,5 % variability procenta tuku s 2 = 17,95 na kaˇzd´e rozumn´e hladinˇe zam´ıt´ ame hypot´ezu, podle kter´e procento tuku nez´ avis´ı ani na v´yˇsce ani na v´ aze
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
214(247)
regrese metoda nejm. ˇ ctverc˚ u koef. determinace mnohon´ asobn´ a line´ arn´ı regrese
regresn´ı diagnostika zda byly splnˇeny pˇredpoklady
a) zvolili jsme spr´ avnˇe tvar z´ avislosti? b) je rozptyl vˇsude stejn´ y? c) je pˇrimˇeˇrenˇe splnˇen pˇredpoklad o norm´ aln´ım rozdˇ elen´ı? d) jsou opravdu pozorov´ an´ı nez´ avisl´ a? probl´em ˇcasto tam, kde p˚ usob´ı ˇcas ◮
k odstranˇen´ı probl´em˚ u s body a), b), c) ˇcasto pom˚ uˇze transformace, napˇr. logaritmov´ an´ı z´ avisle promˇenn´e
◮
[plot(lm(fat∼height+weight))]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
10. pˇredn´ aˇska
21. dubna 2015
215(247)
multinomick´ e rozdˇ elen´ı
vyˇsetˇrov´an´ı z´avislosti nez´avisle promˇenn´ a(´e) spojit´ a nomin´ aln´ı
z´ avisle spojit´ a regrese korelace anal´yza rozptylu
promˇenn´ a nomin´ aln´ı (logistick´a regrese) kontingenˇcn´ı tabulky
pˇr´ıklady: ◮
hmotnost na v´yˇsce
◮
rakovina plic na poˇctu vykouˇren´ych cigaret
◮
hmotnost obilky na ˇzivn´em roztoku
◮
barva oˇc´ı a barva vlas˚ u
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
11. pˇredn´ aˇska
28. dubna 2015
216(247)
multinomick´ e rozdˇ elen´ı
hodnocen´ı kvalitativn´ıch znak˚ u ◮
znaky v nomin´ aln´ım mˇeˇr´ıtku
◮
nˇekdy i v ordin´aln´ım mˇeˇr´ıtku, ale uspoˇr´ ad´ an´ı zde pˇrehl´ıˇz´ıme
◮
postupy pro ordin´ aln´ı znaky existuj´ı, ale zde nen´ı pro nˇe ˇcas pˇr´ıklady
◮
◮ ◮ ◮
poˇcty osob s krevn´ımi skupinami A, B, AB, 0 poˇcty dˇet´ı narozen´ych v jednotliv´ych mˇes´ıc´ıch v Praze poˇcty matek se z´akladn´ım, stˇredn´ım, vysokoˇskolsk´ym vzdˇel´an´ım
◮
statistick´e jednotky tˇr´ıd´ıme podle hodnoty nomin´aln´ıho znaku do k nesluˇciteln´ych kategori´ı
◮
v´ysledkem je k-tice (n´ ahodn´y vektor) ˇcetnost´ı
◮
modelem pro tento vektor je multinomick´e rozdˇelen´ı
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
11. pˇredn´ aˇska
28. dubna 2015
217(247)
multinomick´ e rozdˇ elen´ı
multinomick´e rozdˇelen´ı pˇr´ıklad: hod hrac´ı kostkou, k = 6 ◮
v d´ılˇc´ım pokusu k moˇzn´ych v´ysledk˚ u (jev˚ u) A 1 , . . . , A k
◮
A1 , . . . , Ak jsou nesluˇciteln´e jevy, sjednocen´ı vˇsech je jev jist´y
◮
πj je pst, ˇze vyjde Aj
◮
n nez´ avisl´ ych d´ılˇc´ıch pokus˚ u (n opakov´ an´ı)
◮
Nj – poˇcet d´ılˇc´ıch pokus˚ u, kdy nastalo Aj
◮
(N1 , . . . , Nk ) m´a multinomick´e rozdˇelen´ı s parametry n, π1 , . . . , πk
◮
pravdˇ epodobnost toho, ˇze N1 = n1 , . . . , Nk = nk (n1 + n2 + . . . + nk = n, n1 ≥ 0, . . . , nk ≥ 0)
(π1 + π2 + . . . + πk = 1)
P(N1 = n1 , . . . , Nk = nk ) =
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
n! π n1 . . . πknk n1 ! . . . nk ! 1
11. pˇredn´ aˇska
28. dubna 2015
218(247)
multinomick´ e rozdˇ elen´ı
souvislost s binomick´ym rozdˇelen´ım pˇr´ıklad: zaj´ım´ ame se jen ˇsestku na hrac´ı kostce ◮
pro k = 2 jsou v d´ılˇc´ım pokusu jen dva moˇzn´e v´ysledky, binomick´e rozdˇelen´ı je speci´ aln´ım pˇr´ıpadem multinomick´eho P (N1 = n1 , N2 = n2 ) =
n! π n1 π n2 n1 !n2 ! 1 2
je tot´eˇz jako (plat´ı pˇrece n1 + n2 = n) n P (N1 = n1 ) = π n1 (1 − π1 )n−n1 n1 1 ◮
kaˇzd´e Nj (samotn´e, proti ostatn´ım ˇcetnostem) m´a binomick´e rozdˇelen´ı, tedy Nj ∼ bi(n, πj ),
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
E Nj = nπj
11. pˇredn´ aˇska
28. dubna 2015
219(247)
multinomick´ e rozdˇ elen´ı
vlastnost χ2 (ch´ı-kvadr´at), ch´ı-kvadr´at test dobr´e shody (X 2 – velk´e χ2 ) ◮
plat´ı pro velk´a n, napˇr. pokud nπj ≥ 5 pro vˇsechna j, k X (Nj − nπj )2 X = m´ a pˇribliˇznˇe rozdˇelen´ı χ2k−1 nπj 2
j=1
◮
◮ ◮
ch´ı-kvadr´ at test dobr´ e shody H0 : π1 = π10 , . . . , πk = πk0 (pravdˇepodobnosti jsou hypot´ezou d´ any jednoznaˇ cnˇ e) plat´ı-li H0 , oˇcek´av´ ame ˇcetnosti bl´ızk´e hodnot´ am E Nj = nπj0 : H0 zam´ıt´ame, je-li X 2 ≥ χ2k−1 (1 − α), 2
X =
k X (Nj − nπj0 )2 j=1
nπj0
Nj – empirick´ e (experiment´ aln´ı) ˇcetnosti, nπj0 – oˇ cek´ avan´ e (za platnosti H0 , teoretick´e) ˇcetnosti ◮ statistika X 2 (velk´ e ch´ı-kvadr´ at) porovn´ av´ a empirick´e a oˇcek´avan´e ˇcetnosti (mˇeˇr´ı jejich neshodu, vzd´alenost“) ” Z´ aklady biostatistiky (MS710P09) ak. rok 2014/2015 11. pˇredn´ aˇska 28. dubna 2015 ◮
220(247)
multinomick´ e rozdˇ elen´ı
poˇcty student˚ u biologie narozen´ych v jednotliv´ych mˇes´ıc´ıch nulov´ a hypot´ eza: dˇeti se rod´ı bˇehem roku rovnomˇ ernˇ e
[chisq.test(nj,p=c(31,28,31,30,31,30,31,31,30,31,30,31)/365)] mˇes´ıc 1 2 3 4 5 6 7 8 9 10 11 12 celkem
nj 11 9 13 11 8 5 10 6 13 8 8 9 111
nπj0 9,43 8,52 9,43 9,12 9,43 9,12 9,43 9,43 9,12 9,43 9,12 9,43 111,00
pˇr´ınos k ch´ı-kvadr´ at 0,2623 0,0276 1,3539 0,3861 0,2161 1,8635 0,0348 1,2461 1,6473 0,2161 0,1383 0,0194 7,4115
X 2 = 7,4115 < χ212−1 (0,95) = 19,675 Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
p = 76,5 % 11. pˇredn´ aˇska
28. dubna 2015
221(247)
multinomick´ e rozdˇ elen´ı
pˇr´ıklad: reprezentativnost v´ybˇeru (porovnat procenta v populaci a v´ybˇeru nestaˇ c´ı) ◮
◮
◮ ◮
ve vzorku pacient˚ u byly poˇcty osob s krevn´ımi skupinami 0, A, B a AB po ˇradˇe 56, 72, 54, 18 (tedy n = 200) ve vyˇsetˇrovan´e populaci jsou krevn´ı skupiny 0, A, B a AB v pomˇeru 35 %, 35 %, 20 % a 10 % (to urˇcuje H0 ) v pr˚ umˇ eru oˇcek´av´ ame ˇcetnosti 200 · 0,35 = 70 (70, 40, 20) lze povaˇzovat tento v´ybˇer za reprezentativn´ı vzhledem k v´ yskytu krevn´ıch skupin? (72 − 70)2 (54 − 40)2 (18 − 20)2 (56 − 70)2 + + + 70 70 40 20 = 7,96 > 7,81 = χ23 (0,95) p = 4,7 %
χ2 =
◮ ◮
v´ybˇer nelze povaˇzovat za reprezentativn´ı pˇri poloviˇcn´ıch ˇcetnostech ve v´ybˇeru (28, 36, 27, 9) by vyˇslo χ2 = 3,98, p = 26,4 % (lze povaˇzovat za reprezentativn´ı)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
11. pˇredn´ aˇska
28. dubna 2015
222(247)
multinomick´ e rozdˇ elen´ı
pˇr´ıklad hr´ach: barva kvˇet˚ u a tvar pylov´ych zrnek segregace dvou typ˚ u gen˚ u (C. R. Rao: Line´ arn´ı metody statistick´e indukce ..., str. 439) ◮
barva kvˇet˚ u – purpurov´ a : ˇcerven´ a v pomˇeru 3 : 1 (d´ano)
◮
tvar pylu – ov´aln´y : kulat´y v pomˇeru 3 : 1 (d´ ano)
◮
plat´ı-li nulov´a hypot´eza (H0 : jde o nez´ avislou segregaci), pak ˇctyˇri moˇzn´e kombinace mus´ı b´yt v pomˇeru 9 : 3 : 3 : 1 barva pupurov´ a ˇcerven´ a purpurov´ a ˇcerven´a celkem ov´aln´y ov´ aln´y kulat´y kulat´y tvar nj 296 27 19 85 427 3843/16 1281/16 1281/16 427/16 427 oj (nj −oj )2 oj
12,97
35,17
46,57
127,41
222,12
χ2 = 222,12 > χ23 (0,95) = 7,81 ◮
nez´avislost jsme zam´ıtli
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
11. pˇredn´ aˇska
28. dubna 2015
223(247)
multinomick´ e rozdˇ elen´ı
pˇr´ıklad hr´ach: barva kvˇet˚ u a tvar pylov´ych zrnek dodateˇcn´e ovˇeˇren´ı pˇredpokladu zn´ am´eho pomˇeru ◮
◮
co zp˚ usobilo zam´ıtnut´ı hypot´ezy? barva purpurov´ a ˇcerven´ a celkem ov´aln´y tvar 296 27 323 19 85 104 kulat´y tvar celkem 315 112 427 jsou barvy v oˇcek´ avan´em pomˇeru 3 : 1? [chisq.test(c(315,112),p=c(3/4,1/4))] χ2 = 0,3443
◮
jsou tvary v oˇcek´avan´em pomˇeru 3 : 1? χ2 = 0,0945
◮
p = 55,7 %
p = 75,9 %
d˚ uvodem zam´ıtnut´ı je nutnˇe z´ avislost
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
11. pˇredn´ aˇska
28. dubna 2015
224(247)
multinomick´ e rozdˇ elen´ı
stejn´y pˇr´ıklad, ˇstˇepn´e pomˇery nezn´ame proˇc takto poˇc´ıt´ ame, bude ˇcasem
tvar ov´aln´y kulat´y celkem
barva purpurov´a ˇcerven´ a 296 27 19 85 315 112
celkem 323 104 427
oˇcek´avan´e ˇcetnosti: 323 · 315/427 = 238,28
104 · 315/427 = 76,72 2
2
323 · 112/427 = 84,72
104 · 112/427 = 27,28 2
2
χ2 = (296−238,28) + (27−84,72) + (19−76,72) + (85−27,28) = 215,10 238,28 84,72 76,72 27,28 p < 0,001, oˇcek´avan´e ˇcetnost jsou vˇetˇs´ı, neˇz 5 Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
11. pˇredn´ aˇska
28. dubna 2015
225(247)
multinomick´ e rozdˇ elen´ı
sloˇzen´a nulov´a hypot´eza (hypot´eza o struktuˇre) ◮
hypot´eza urˇcuje vztahy mezi pravdˇepodobnostmi π1 , . . . , πk nˇekter´e parametry z˚ ust´ avaj´ı voln´e, je tˇreba je odhadnout
◮
pˇr´ıklad antigen: (Hardy-Weinberg equilibrium, nez´avislost) model pro fenotypy AA, Aa, aa P(AA) ≡ π1 (θ) = θ 2
P(Aa) ≡ π2 (θ) = 2θ(1 − θ) P(aa) ≡ π3 (θ) = (1 − θ)2
◮
neurˇcen´y parametr θ – pravdˇepodobnost alely A
◮
jsou zjiˇstˇen´e ˇcetnosti fenotyp˚ u n1 = 18, n2 = 17, n3 = 6 v souladu s modelem, tj. s H-W rovnov´ ahou?
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
11. pˇredn´ aˇska
28. dubna 2015
226(247)
multinomick´ e rozdˇ elen´ı
odhad metodou maxim´aln´ı vˇerohodnosti za H0 [maximum likelihood estimate]
P(N1 = n1 , N2 = n2 , N3 = n3 ) =
n! (θ 2 )n1 (2θ(1−θ))n2 ((1−θ)2 )n3 n1 !n2 !n3 !
◮
naj´ıt θ takov´e, aby pravdˇepodobnost konkr´etn´ıho v´ysledku byla maxim´aln´ı moˇzn´ a (maxim´ alnˇe vˇerohodn´ a)
◮
odhad θ maximalizac´ı logaritmick´e vˇerohodnostn´ı funkce ℓ(θ) = ln(P(N1 = n1 , N2 = n2 , N3 = n3 )) n n = ln c1 θ 2 1 (2θ(1 − θ))n2 (1 − θ)2 3
= c2 + (2n1 + n2 ) ln θ + (n2 + 2n3 ) ln(1 − θ)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
11. pˇredn´ aˇska
28. dubna 2015
227(247)
multinomick´ e rozdˇ elen´ı
◮
v naˇsem pˇr´ıkladu vyjde 2 · N1 + N2 θˆ = 2n
2 · 18 + 17 = 0,646 = 82
◮
(poˇcet alel A na poˇcet m´ıst“ pro alely) ” θ m´a obecnˇe q nez´ avisl´ych sloˇzek, zde q = 1 kaˇzd´y odhadovan´y parametr ubere jeden stupeˇ n volnosti
◮
H0 zam´ıt´a pokud k X ˆ 2 (Nj − nπj (θ)) ≥ χ2k−1−q (1 − α) X = ˆ nπj (θ) 2
j=1
◮
pˇr´ıklad: χ2 = 0,355 < χ23−1−1 (0,95) = 3,84 p = 55,1 % hypot´ezu na 5% hladinˇe nem˚ uˇzeme zam´ıtnout
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
11. pˇredn´ aˇska
28. dubna 2015
228(247)
kontingenˇ cn´ı tabulka McNemar ˇ ctyˇrpoln´ı tabulka Fisher˚ uv exaktn´ı test
nez´avislost nomin´ aln´ıch znak˚ u pˇr´ıklad hr´ ach: barva kvˇet˚ u a tvar pylov´ych zrnek ◮
nomin´aln´ı znak s hodnotami A1 , . . . , Ar
(tvar)
◮
nomin´aln´ı znak s hodnotami B1 , . . . , Bc
(barva)
◮
Nij kolikr´at souˇcasnˇe Ai a Bj (sdruˇ zen´ eˇ cetnosti)
◮
margin´ aln´ı ˇcetnosti Ni • =
◮
c X j=1
Nij
N•j =
r X
Nij
i =1
nez´ avislost znak˚ u: pro vˇsechny dvojice i , j plat´ı P(Ai ∩ Bj ) = P(Ai ) P(Bj )
◮
charakteristika nez´ avislosti: z margin´ aln´ıch pst´ı jev˚ u Ai , Bj dok´aˇzeme rekonstruovat sdruˇ zen´ e psti jev˚ u Ai ∩ Bj
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
12. pˇredn´ aˇska
5. kvˇ etna 2015
229(247)
kontingenˇ cn´ı tabulka McNemar ˇ ctyˇrpoln´ı tabulka Fisher˚ uv exaktn´ı test
test nez´avislosti dvou kvalitativn´ıch znak˚ u hodnocen´ı kontingenˇcn´ı tabulky ◮
H0 : znaky jsou nez´ avisl´ e X2 =
c r X X (Nij − oij )2 oij i =1 j=1
◮
teoretick´e ˇcetnosti (protˇejˇsek Nij ) – ˇcetnosti, kter´e v pr˚ umˇ eru oˇ cek´ av´ ame, plat´ı-li hypot´ eza Ni • N•j Ni • N•j \ \ \ oij = n · P(A · = i ∩ Bj ) = n · P(Ai ) · P(Bj ) = n · n n n
◮ ◮
◮
nez´avislost se zam´ıt´ a pokud X 2 ≥ χ2(r −1)(c−1) (1 − α)
stupnˇe volnosti n − 1 − q = r · c − 1 − (r − 1) − (c − 1) = r · c − r − c + 1 = (r − 1)(c − 1) mˇelo by b´yt oij ≥ 5 ∀ (i , j) (tj. pro vˇsechny dvojice)
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
12. pˇredn´ aˇska
5. kvˇ etna 2015
230(247)
kontingenˇ cn´ı tabulka McNemar ˇ ctyˇrpoln´ı tabulka Fisher˚ uv exaktn´ı test
pˇr´ıklad barva kvˇet˚ u a tvar pylov´ych zrnek ˇstˇepn´y pomˇer nezn´ ame
tvar ov´aln´y kulat´y celkem
barva purpurov´a ˇcerven´ a 296 27 19 85 315 112
celkem 323 104 427
oˇcek´avan´e ˇcetnosti: 323 · 315/427 = 238,28
104 · 315/427 = 76,72 2
2
323 · 112/427 = 84,72
104 · 112/427 = 27,28 2
2
χ2 = (296−238,28) + (27−84,72) + (19−76,72) + (85−27,28) = 222,12 238,28 84,72 76,72 27,28 p < 0,001, oˇcek´avan´e ˇcetnost jsou vˇetˇs´ı, neˇz 5 Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
12. pˇredn´ aˇska
5. kvˇ etna 2015
231(247)
kontingenˇ cn´ı tabulka McNemar ˇ ctyˇrpoln´ı tabulka Fisher˚ uv exaktn´ı test
pˇr´ıklad: kouˇren´ı u muˇz˚ u data: Ichs
empirick´ e sdruˇzen´e a marg. ˇcetnosti vzdˇel´ an´ı nekuˇr´ ak b´yval´y k. kuˇr´ ak siln´y k. celkem
z´ akl. 14 11 14 78 117
odb. 55 28 24 189 296
mat. 55 44 24 175 298
ˇ VS 73 42 17 106 238
celk. 197 125 79 548 949
(14 − 24,3)2 24,3 + ...
χ2 =
oˇ cek´ avan´ e sdruˇzen´e a marg. ˇcetnosti vzdˇel´ an´ı nekuˇr´ ak b´yval´y k. kuˇr´ ak siln´y k. celkem
z´ akl. 24,3 15,4 9,7 67,6 117
odb. 61,4 39,0 24,6 170,9 296
mat. 61,9 39,3 24,8 172,1 298
ˇ VS 49,4 31,3 19,8 137,4 238
(106 − 137,4)2 137,4 = 38,68
+
celk. 197 125 79 548 949
f = (4 − 1)(4 − 1) = 9 p < 0,0001
[chisq.test(matrix(c(14,11,14,78, 55,28,24,189, 55,44,24,175, 73,42,17,106),nr=4,nc=4))]
z´ avislost jsme na 5% hladinˇ e prok´ azali Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
12. pˇredn´ aˇska
5. kvˇ etna 2015
232(247)
kontingenˇ cn´ı tabulka McNemar ˇ ctyˇrpoln´ı tabulka Fisher˚ uv exaktn´ı test
pˇr´ıklad Baden barva oˇc´ı modr´ a ˇsed´ a/zelen´ a hnˇed´ a celkem ◮ ◮ ◮
svˇetl´ a 1 768 946 115 2 829
barva vlas˚ u hnˇed´ a ˇcern´ a 807 189 1 387 746 438 288 2 632 1 223
celkem ryˇsav´ a 47 53 16 116
2 811 3 132 857 6 800
barva oˇc´ı r = 3, barva vlas˚ u c = 4, n = 6800 o11 = 2811 · 2829/6800 = 1169. . . o34 = 116 · 857/6800 = 14,62 ≥ 5 (807 − 1088)2 (1768 − 1169)2 + + . . . = 1073,5 1169 1088 > χ26 (0,95) = 12,5916
χ2 =
p < 0,0001 z´avislost je na kaˇzd´e rozumn´e hladinˇe prok´ az´ ana Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
12. pˇredn´ aˇska
5. kvˇ etna 2015
233(247)
kontingenˇ cn´ı tabulka McNemar ˇ ctyˇrpoln´ı tabulka Fisher˚ uv exaktn´ı test
test homogenity t´eˇz test o shodnosti struktury pravdˇepodobnost´ı ◮
hodnoty znaku B1 , . . . , Bc
◮
r nez´ avisl´ ych v´ybˇer˚ u z r˚ uzn´ych populac´ı
◮
H0 : populace se neliˇs´ı
◮
d´al stejnˇe jako pro nez´ avislost
◮
pˇr´ıklad krevn´ı skupiny populace C D celkem
χ2 =
0 121 118 239
skupina A B 120 79 95 121 215 200
celkem AB 33 30 63
353 364 717
(121 − 353 · 239/717)2 +. . . = 11,742 > χ23 (0,95) = 7,815 353 · 239/717
nejm. teoretick´a ˇcetnost: 353 · 63/717 = 31,02 > 5, p = 0,8 % Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
12. pˇredn´ aˇska
5. kvˇ etna 2015
234(247)
kontingenˇ cn´ı tabulka McNemar ˇ ctyˇrpoln´ı tabulka Fisher˚ uv exaktn´ı test
McNemar˚ uv test (test symetrie) nezamˇen ˇovat s testem nez´ avislosti!
◮
p´ arov´ y test pro nomin´ aln´ı veliˇcinu s hodnotami B1 , . . . , Bk zjiˇst’ujeme hodnoty nomin´ aln´ıho znaku na stejn´ ych objektech za dvoj´ıch okolnost´ı (pˇred oˇsetˇren´ım, po oˇsetˇren´ı)
◮
Nij poˇcet objekt˚ u, u nichˇz prvn´ı mˇeˇren´ı Bi a druh´e mˇeˇren´ı Bj
◮
nulov´ a hypot´ eza: pravdˇepodobnosti moˇzn´ych hodnot znaku jsou stejn´ e za oboj´ıch okolnost´ı (pˇred oˇsetˇren´ım i po nˇem)
◮
X2 =
X X (Nij − Nji )2 Nij + Nji i <j
◮
hypot´ezu zam´ıtneme pˇri X 2 ≥ χ2k(k−1)/2 (1 − α)
◮
v´yrazy ve jmenovateli mus´ı b´yt kladn´e!
◮
nez´avis´ı na poˇctu objekt˚ u, kdy vyˇsly oba v´ysledky stejnˇe (Nii )
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
12. pˇredn´ aˇska
5. kvˇ etna 2015
235(247)
kontingenˇ cn´ı tabulka McNemar ˇ ctyˇrpoln´ı tabulka Fisher˚ uv exaktn´ı test
pˇr´ıklad stromy 1994 1 2 3 celkem ◮ ◮
◮ ◮
1995 2 3 3 3 21 11 15 35 39 49
celkem 10 39 51 100
stav t´ychˇz strom˚ u ve dvou sez´ on´ ach celkem 100 strom˚ u χ2 =
◮
1 4 7 1 12
(3 − 7)2 (3 − 1)2 (11 − 15)2 + + = 3,215 3+7 3+1 11 + 15
χ23 (0,95) = 7,8147, p = 36,0 % rozd´ıl mezi sez´onami jsme neprok´ azali [mcnemar.test(matrix(c(4,7,1,3,21,15,3,11,35),3,3))]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
12. pˇredn´ aˇska
5. kvˇ etna 2015
236(247)
kontingenˇ cn´ı tabulka McNemar ˇ ctyˇrpoln´ı tabulka Fisher˚ uv exaktn´ı test
ˇctyˇrpoln´ı tabulka (tabulka 2×2) znovu test nez´ avislosti ˇci homogenity
a c a+c
b d b+d
a+b c +d n
◮
speci´aln´ı pˇr´ıpad kontingenˇcn´ı tabulky pro r = c = 2
◮
test nez´avislosti i test homogenity statistiku lze upravit na pohodlnˇejˇs´ı vyj´ adˇren´ı X2 =
n(ad − bc)2 (a + c)(b + d)(a + b)(c + d)
zam´ıt´a se pro X 2 ≥ χ21 (1 − α) Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
(= z(1 − α/2)2 ) 12. pˇredn´ aˇska
5. kvˇ etna 2015
237(247)
kontingenˇ cn´ı tabulka McNemar ˇ ctyˇrpoln´ı tabulka Fisher˚ uv exaktn´ı test
pˇr´ıpad mal´ych ˇcetnost´ı
◮
je-li nˇekter´a oˇcek´avan´ a ˇcetnost mal´ a, pak lze u ˇctyˇrpoln´ı tabulky pouˇz´ıt upraven´y postup: Yatesova korekce XY2 =
n(|ad − bc| − n/2)2 (a + c)(b + d)(a + b)(c + d)
◮
Fisher˚ uv exaktn´ı test poˇc´ıt´ a pˇr´ımo dosaˇzenou hladinu p
◮
pro tabulku s velk´ymi ˇcetnostmi je v´ypoˇcet Fisherova testu v´ypoˇcetnˇe n´aroˇcn´y (pamˇet’ov´e n´ aroky, trv´ an´ı v´ypoˇctu)
◮
existuje zobecnˇen´ı Fisherova testu i pro vˇetˇs´ı tabulky, neˇz je ˇctyˇrpoln´ı
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
12. pˇredn´ aˇska
5. kvˇ etna 2015
238(247)
kontingenˇ cn´ı tabulka McNemar ˇ ctyˇrpoln´ı tabulka Fisher˚ uv exaktn´ı test
komplexn´ı pˇr´ıklad hraboˇs Frenkelia spp. + − celkem
Sarcocystis spp. + 4 11 15
◮
souvis´ı spolu n´akazy dvˇema cizopasn´ıky?
◮
nulov´a hypot´eza: nez´ avislost χ2 =
celkem − 27 473 500
515(4 · 473 − 11 · 27)2 = 11,643, 15 · 500 · 31 · 484
p = 0,06 %
15 · 31/515 = 0,9 < 5
◮
nejmenˇs´ı oˇcek´avan´ a ˇcetnost:
◮
[chisq.test(matrix(c(4,11,27,473),2,2),correct=FALSE)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
31 484 515
12. pˇredn´ aˇska
5. kvˇ etna 2015
239(247)
kontingenˇ cn´ı tabulka McNemar ˇ ctyˇrpoln´ı tabulka Fisher˚ uv exaktn´ı test
pˇr´ıklad hraboˇs ◮
Yates: χ2 = 8,187 p = 0,42 % [chisq.test(matrix(c(4,11,27,473),2,2))]
◮
Fisher˚ uv test: p = 0,92 % [fisher.test(matrix(c(4,11,27,473),2,2))]
◮
na 5% hladinˇe z´avislost prok´ az´ ana
◮
vyskytuj´ı se dvoj´ı cizopasn´ıci se stejnou pst´ı? (zcela jin´a ot´azka, neˇz na nez´ avislost) odpovˇed’ d´a McNemar˚ uv test:
◮
χ2 =
(11 − 27)2 = 6,7368, 11 + 27
p = 0,94 %
[mcnemar.test(matrix(c(4,11,27,473),2,2),correct=FALSE)]
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
12. pˇredn´ aˇska
5. kvˇ etna 2015
240(247)
pouˇ zit´ı statistiky pˇrehledy
jak statistiku pouˇzijeme ◮ ◮
co o probl´emu zjistili jin´ı? (pˇreˇcti, sepiˇs) co chceˇs zjistit? ◮ ◮
zformuluj ot´azku (to urˇc´ı moˇzn´e statistick´e metody) zformuluj nulovou a alternativn´ı hypot´ezu
◮
zvol hladinu testu α
◮
zvol rozsah v´ybˇeru (pˇresnost, d´elka int. spolehlivosti, s´ıla testu) poˇrid’ data
◮
◮ ◮ ◮
proved’ mˇeˇren´ı (podrobn´e z´aznamy!) pˇreved’ do elektronick´e formy (k´odov´an´ı) vyˇcisti data (grafy, popisn´e statistiky,. . . )
◮
proved’ v´ypoˇcty, kresli grafy
◮
pouˇzij v´ysledky a grafy, interpretuj
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
13. pˇredn´ aˇska
12. kvˇ etna 2015
241(247)
pouˇ zit´ı statistiky pˇrehledy
dvoj´ı p˚ uvod dat ◮
pl´ anovan´ y (organizovan´y) pokus ◮ ◮ ◮ ◮ ◮
◮
aktivnˇe zasahujeme fixujeme okolnosti (st´al´a teplota, svˇeteln´y reˇzim) nastavujeme ´urovnˇe zvolen´eho faktoru (napˇr. ˇzivn´e roztoky) jedinc˚ um n´ahodnˇe pˇriˇrazujeme oˇsetˇren´ı zjist´ıme-li rozd´ıl, zn´ame jeho pˇr´ıˇcinu
ˇsetˇren´ı (sledov´an´ı dˇen´ı) ◮ ◮
◮ ◮
Z´ aklady biostatistiky
pouze sledujeme, nezasahujeme rozd´ıl mezi porovn´avan´ymi skupinami m˚ uˇze b´yt zp˚ usoben matouc´ı (confounding) veliˇcinou, kter´a souvis´ı s rozdˇelen´ım do skupin i s mˇeˇren´ym znakem (pˇr´ıklad: pl´anovan´e tˇehotenstv´ı na vzdˇel´an´ı matky, matouc´ı veliˇcinou je vˇek matky) rozdˇelen´ı do skupin nem˚ uˇzeme ovlivnit, je d´ano m˚ uˇze z´aleˇzet na tom, zda dˇel´ıme podle moˇzn´ych pˇr´ıˇcin (kohortov´e studie, pomˇer rizik RR vypov´ıd´a) nebo n´asledk˚ u (case-control, RR nevypov´ıd´a, pomˇer ˇsanc´ı OR ano) (MS710P09) ak. rok 2014/2015
13. pˇredn´ aˇska
12. kvˇ etna 2015
242(247)
pouˇ zit´ı statistiky pˇrehledy
jak´e ´ulohy ˇreˇs´ıme dˇelen´ı podle skupin statistick´ych metod ◮
popsat stav (popisn´ a statistika, Exploratory Data Analysis ⇒ formulace vˇedeck´ych hypot´ez) ◮ ◮ ◮ ◮
◮
prok´ azat vliv oˇsetˇren´ı (induktivn´ı, konfirmaˇcn´ı statistika) ◮ ◮ ◮
◮
poloha (pr˚ umˇer, medi´an, kvartily,. . . ) variabilita (smˇer. odchylka, rozptyl, kvartilov´e rozpˇet´ı) z´avislost (korelaˇcn´ı koeficient, Spearman˚ uv korel. koeficient) tvar rozdˇelen´ı (ˇsikmost, ˇspiˇcatost) zmˇena polohy (t-testy, anal´yza rozptylu) zmˇena variability (Levene, F -test, Bartlett˚ uv test) jin´a zmˇena rozdˇelen´ı (Kolmogorov-Smirnov)
prok´ azat z´ avislost (induktivn´ı, konfirmaˇcn´ı statistika) ◮ ◮ ◮ ◮
Z´ aklady biostatistiky
obˇe spojit´e (korelaˇcn´ı koeficient, regrese) spojit´a na kvalitativn´ımi (ANOVA) obˇe kvalitativn´ı (ch´ı-kvadr´at v kontingenˇcn´ı tabulce) predikce spojit´e veliˇciny na spojit´ych ˇci kvalitativn´ıch (regrese) (MS710P09) ak. rok 2014/2015
13. pˇredn´ aˇska
12. kvˇ etna 2015
243(247)
pouˇ zit´ı statistiky pˇrehledy
v´ybˇer metody ◮ ◮
jakou u ´lohu ˇreˇs´ıme? jsou v´ybˇery nez´avisl´e? ◮
◮
lze pˇredpokl´adat norm´ aln´ı rozdˇelen´ı? ◮ ◮ ◮
◮
zajistit organizac´ı pokusu lze soudit z grafu (norm´aln´ı diagram) lze ovˇeˇrovat pomoc´ı test˚ u v jednotliv´ych v´ybˇerech nebo z rezidu´ı (v regresi)
je rozptyl st´al´y? ◮ ◮ ◮ ◮
Z´ aklady biostatistiky
lze soudit z grafu (rozptylov´y diagram) lze ovˇeˇrovat pomoc´ı test˚ u porovnat v´ybˇery nebo z rezidu´ı u regrese lze ovˇeˇrit pomoc´ı Breuschova-Paganova testu
(MS710P09) ak. rok 2014/2015
13. pˇredn´ aˇska
12. kvˇ etna 2015
244(247)
pouˇ zit´ı statistiky pˇrehledy
volba nulov´e a alternativn´ı hypot´ezy ◮
H0 zjednoduˇsuje model ◮ ◮ ◮ ◮
◮
hypot´eza pˇresnˇeji urˇcuje model (napˇr. test dobr´e shody) populace se neliˇs´ı (v´ybˇery se liˇs´ı jen n´ahodnˇe) veliˇciny jsou nez´avisl´e H0 zpravidla chceme vyvr´atit abychom prok´azali svoji vˇedeckou hypot´ezu
H1 je opak nulov´e hypot´ezy ◮
◮ ◮
pokud existuje jednostrann´a alternativn´ı hypot´eza, mus´ıme ji zvolit pˇred pokusem na z´akladˇe ´ uvah, kter´e nejsou zaloˇzeny na pouˇzit´ych datech zpravidla obsahuje v´ıce moˇznost´ı neˇz nulov´a hypot´eza zpravidla obsahuje tvrzen´ı, kter´e chceme dok´azat
◮
pouze zam´ıtnut´ım H0 nˇeco dokazujeme
◮
u kaˇzd´eho testu jsou nulov´ a i alternativn´ı hypot´ezy d´any, nem˚ uˇzeme je pˇrehodit
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
13. pˇredn´ aˇska
12. kvˇ etna 2015
245(247)
pouˇ zit´ı statistiky pˇrehledy
porovn´an´ı populaˇcn´ıch mˇer polohy rozdˇelen´ı
norm´aln´ı
spojit´e
populaˇcn´ı parametr (o ˇcem je hypot´eza) jeden v´ybˇer
populaˇcn´ı pr˚ umˇer jednov´ybˇerov´y ttest p´arov´y t-test
populaˇcn´ı medi´an (distribuˇcn´ı funkce) jednov´ybˇerov´y Wilcoxon znam´enkov´y, Wilcoxon
dva nez´avisl´e v´ybˇery
dvouv´ybˇerov´y t-test
Mann-Whitney (Kolmogorov-Smirnov)
k nez´avisl´ych v´ybˇer˚ u
anal´yza rozptylu jedn. tˇr´ıdˇen´ı anal´yza rozptylu n´ahodn´e bloky
Kruskal-Wallis
v´ybˇer dvojic
v´ybˇer r -tic
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
Friedman
13. pˇredn´ aˇska
12. kvˇ etna 2015
246(247)
pouˇ zit´ı statistiky pˇrehledy
vyˇsetˇrov´an´ı z´avislosti nez´avisle promˇenn´ a(´e) spojit´ a nomin´ aln´ı
z´ avisle spojit´ a regrese korelace anal´yza rozptylu
promˇenn´ a nomin´ aln´ı (logistick´a regrese) kontingenˇcn´ı tabulky
pˇr´ıklady: ◮
hmotnost na v´yˇsce
◮
rakovina plic na poˇctu vykouˇren´ych cigaret
◮
hmotnost obilky na ˇzivn´em roztoku
◮
barva oˇc´ı a barva vlas˚ u
Z´ aklady biostatistiky
(MS710P09) ak. rok 2014/2015
13. pˇredn´ aˇska
12. kvˇ etna 2015
247(247)