Me´neˇ nezˇ minimum ze statistiky Michaela Sˇedova´ KPMS MFF UK
Principy medicı´ny zalozˇene´ na du˚kazech a za´klady veˇdecke´ prˇ´ıpravy
1 / 33
Prˇ´ıklad Studie syndromu na´hodne´ho u´mrtı´ deˇtı´. Dveˇ skupiny: Deˇti, ktere´ byly nalezeny te´meˇrˇ mrtve´, bez zna´mek zˇivota. Vsˇechna dalsˇ´ı vysˇetrˇenı´ negativnı´, zotavily se beˇhem neˇkolika dnu˚. . . . „te´meˇrˇ ztracene´“ Norma´lnı´ deˇti LTV. . . dlouhodoba´ promeˇnlivost tepove´ frekvence (rozdı´l mezi min. a max. hodnotami novorozenecke´ tepove´ frekvence). Te´meˇrˇ ztracene´
Norma´lnı´
5.0, 7.0, 7.67, 8.17, 8.33, 8.83, 9.17, 9.33, 9.33, 9.67, 11.0,11.67, 13.33, 13.83, 14.17, 15.17, 15.50, 17.33, 18.0, 20.60, 21.17, 22.33, 22.67, 23.00, 24.67 11.33, 13.67, 14.33, 17.33, 17.83, 19.0, 20.67, 22.33, 27.83, 29.0, 31.17, 31.33, 32.0, 32.5, 35.0
Lisˇ´ı se „te´meˇˇr ztracene´“ deˇti od norma´lnı´ch z hlediska LTV? 2 / 33
Statistika
Rozlisˇenı´ LTV mezi skupinami nenı´ jednoznacˇne´: „te´meˇˇr ztracene´ deˇti“: (5,00–24,67) norma´lnı´ deˇti: (11,33–35,00) Lisˇ´ı se alesponˇ „v pru˚meˇru“? (13,70 resp. 23,69) Je tento rozdı´l pouze na´hodny´, nebo zde existuje neˇjake´ systematicke´ posunutı´?
3 / 33
Statistika Popisna´ (deskriptivnı´) Urcˇity´m zpu˚sobem popisuje nebo shrnuje data, ktera´ ma´me Popisne´ chrakteristiky (pru˚meˇr, media´n,. . . ), grafy (histogram, krabicovy´ diagram, bodovy´ graf, . . . ) Omezuje sva´ tvrzenı´ na dana´ data, necˇinı´ si na´rok zobecnˇovat, deˇlat za´veˇry Induktivnı´ Na za´kladeˇ dat se snazˇ´ı zobecnit pozorova´nı´ na veˇtsˇ´ı soubor, populaci Pracuje s na´hodou, odhady, testy Velkou roli zde hraje spra´vna´ interpretace Ve veˇtsˇineˇ pracı´ se setka´me s obojı´m. 4 / 33
Meˇrˇ´ıtko
Na statisticky´ch jednotka´ch sledujeme jejich vlastnosti hodnoty znaku˚ ve zvolene´m meˇrˇ´ıtku Kvalitativnı´ (zpravidla vyja´drˇene´ slovem, znakem,. . . ) nula-jednicˇkove´ (jev nastal/nenastal, pacient prˇezˇil/neprˇezˇil) nomina´lnı´ (neˇkolik kategoriı´, naprˇ. krevnı´ skupina, pohlavı´ faktor) ordina´lnı´ (kategorie jsou jisty´m zpu˚sobem rˇezene´, naprˇ. bolest je silna´, mı´rna´, zˇa´dna´)
Kvantitativnı´ (vyja´drˇene´ cˇı´slem) intervalove´ (spojite´, naby´vajı´ hodnoty z neˇjake´ho intervalu, naprˇ. vy´sˇka, LTV) diskre´tnı´ (ordina´lnı´, pocˇet pacientu˚, kterˇ´ı navsˇtı´vı´ ambulanci beˇhem jednoho dne)
5 / 33
Pravdeˇpodobnost I
Na´hodny´ pokus - pokus, jehozˇ vy´sledek nenı´ prˇedem urcˇeny´ Na´hodny´ jev - vy´sledek na´hodne´ho pokusu Pravdeˇpodobnost na´hodne´ho jevu A, P(A) - mı´ra cˇastosti vy´skytu jevu A, ”nadeˇje”, zˇe nastane 0 ≤ P(A) ≤ 1
6 / 33
Pravdeˇpodobnost II Klasicka´ definice pravdeˇpodobnosti n stejneˇ pravdeˇpodobny´ch elementa´rnı´ch jevu˚ ω1 , ω 2 , . . . , ω n z toho m elementa´rnı´ch jevu˚ prˇ´ıznivy´ch jevu A P(A) =
m n
Naprˇ. hod kostkou A. . . padne sude´ cˇı´slo Elementa´rnı´ jevy: padne 1,2,3,4,5,6, vsˇechny s pravdeˇpodobnostı´ 16 P(A) =
3 6
=
1 2
Ovsˇem ma´me-li spojity´ znak, tato definice nestacˇı´. Potrˇebujeme obecneˇjsˇ´ı koncept.
7 / 33
Na´hodna´ velicˇina ˇ ´ıselneˇ vyja´drˇeny´ vy´sledek na´hodne´ho pokusu. C Teoreticky´ pojem. Nevı´me vy´sledek, zna´me jenom mozˇne´ hodnoty a jejich pravdeˇpodobnosti (rozdeˇlenı´). Naprˇ. na´hodna´ velicˇina je LTV obecneˇ. Jejı´ realizace: nameˇrˇ´ıme ji u konkre´tnı´ho dı´teˇte. Populace (nekonečná) Náhodná veličina X Příště
Výběr Výběr pozorování
x 1 , ... x n
Výběr Výběr Jiná pozorování
x 1 , ... x n
8 / 33
Rozdeˇlenı´ na´hodne´ velicˇiny
0.2 0.1 0.0
f(x)
0.3
0.4
Diskre´tnı´ Model pro pocˇty prˇ´ıpadu˚ Dane´ pravdeˇpodobnosti hodnot Naprˇ. P(noveˇ narozene´ dı´teˇ je chlapec)=0,52, P(noveˇ narozene´ dı´teˇ je dı´vka)=0,48 Spojite´ Naprˇ. Norma´lnı´ (Gaussovo), X ∼ N(µ, σ 2 )
−4
−2
0
2
4
x 9 / 33
Norma´lnı´ rozdeˇlenı´
0.2 0.1 0.0
f(x)
0.3
0.4
Tzv. Gaussova krˇivka je hustota (vyja´drˇena prˇesny´m matematicky´m vzorcem) Urcˇuje s jakou pravdeˇpodobnostı´ mu˚zˇe na´hodna´ velicˇina X naby´t hodnoty z dane´ho intervalu To je da´no plochou pod krˇivkou
−4 −3 −2 −1
0
1
2
3
4
x 10 / 33
Norma´lnı´ rozdeˇlenı´ II Ma´ dva parametry Strˇednı´ hodnota µ - urcˇuje bod, kolem ktere´ho je tato hustota symetricka´ Rozptyl σ 2 - urcˇuje jak moc jsou hodnoty rozpy´lene´ kolem tohoto bodu
−2
0 x
2
4
0.4 f(x)
0.1 0.0
0.0 −4
0.2
0.3
0.3 0.1
f(x)
0.2
0.3 0.2 0.1 0.0
f(x)
N(0,2)
0.4
N(1,1)
0.4
N(0,1)
−4
−2
0 x
2
4
−4
−2
0
2
4
x
11 / 33
Jina´ spojita´ rozdeˇlenı´ Avsˇak norma´lnı´ rozdeˇlenı´ nenı´ zdaleka jedine´ spojite´ rozdeˇlenı´. Exponenciální, Exp(1) 0.8
µ
0.4
f(x) 0
1
2
0
µ 2
4
6
8
Studentovo, 5 st. volnosti
χ2, 5 st. volnosti
f(x) −2
0 c)
2
4
0.00
−4
0.10
b)
0.2
a)
0.0
f(x)
−1
0.0
1.0 0.0
f(x)
2.0
Rovnomìrné, Ro[0,1]
0
5
10
15
20
d) 12 / 33
Charakteristiky rozdeˇlenı´ Strˇednı´ hodnota (expectation, mean value) Diskre´tnı´ rozdeˇlenı´ Va´zˇeny´ pru˚meˇr - va´hy pravdeˇpodobnosti, s jaky´mi naby´va´me dany´ch hodnot µ = EX = x1 p1 + x2 p2 + · · · + xn pn Spojite´ rozdeˇlenı´ Funkci vah plnı´ hustota Z
∞
EX =
xf (x)dx −∞
13 / 33
Charakteristiky rozdeˇlenı´ II
Rozptyl (variance) Lze rˇ´ıci, zˇe je to pru˚meˇrna´ druha´ mocnina odchylky hodnot od strˇednı´ hodnoty σ 2 = var (X ) = E(X − EX )2 . Diskre´tnı´ rozdeˇlenı´ σ 2 = var (X ) = (x1 − µ)2 p1 + (x2 − µ)2 p2 + · · · + (xn − µ)2 pn . σ. . . smeˇrodatna´ odchylka (standard deviation, SD), neˇco jine´ho nezˇ smeˇrodatna´ chyba (standard error, SE), viz da´le
14 / 33
Jina´ spojita´ rozdeˇlenı´ Exponenciální, Exp(1) 0.8
µ
0.4
f(x) 0
1
2
0
µ 2
4
6
8
Studentovo, 5 st. volnosti
χ2, 5 st. volnosti
f(x) −2
0 c)
2
4
0.00
−4
0.10
b)
0.2
a)
0.0
f(x)
−1
0.0
1.0 0.0
f(x)
2.0
Rovnomìrné, Ro[0,1]
0
5
10
15
20
d)
15 / 33
Dalsˇ´ı charakteristiky
Kvantily Media´n x˜ . . . cˇı´slo, ktere´ oddeˇlı´ ”polovinu” mozˇny´ch hodnot P(X ≤ x˜ ) =
1 2
Kvartily. . . cˇı´sla, ktera´ oddeˇlı´ ”cˇtvrtiny” mozˇny´ch hodnot Dolnı´ kvartil q1 . . . P(X ≤ q1 ) = Hornı´ kvartil q3 . . . P(X ≤ q3 ) =
1 4 3 4
Decily (desetiny), percentily (setiny)
16 / 33
Popisna´ statistika Shrnuje to, co ma´me v datech. Prvnı´, ne vsˇak jediny´ krok k tomu, abychom mohli neˇco usoudit o dane´ na´hodne´ velicˇineˇ.
Mı´ry polohy Pru˚meˇr
x1 + x2 + · · · + xn n (Vy´beˇrovy´) media´n. . . prostrˇednı´ hodnota ( n liche´ x[ n+1 ] 2 x˜ = 1 n n n sude´, 2 (x[ ] + x[ +1] ) x¯ =
2
2
(Vy´beˇrove´) kvartily. . . analogicky
17 / 33
Graficke´ zna´zorneˇnı´ dat Krabicovy´ diagram (boxplot) Zna´zorneˇnı´ rozdeˇlenı´ spojite´ velicˇiny Media´n. . . prˇ´ıcˇka obde´lnı´ka Hornı´ resp. dolnı´ kvartil - kratsˇ´ı strany obde´lnı´ka Tykadla - od kvartilu k minimu resp. maximu, pokud nenı´ odlehle´ Odlehle´ pozorova´nı´ - je da´l, nezˇ zpravidla 23 (q3 − q1 )
●
5
10
15
20 18 / 33
Krabicovy´ diagram Prˇ´ıklad Zna´zorneˇnı´ dat o LTV pro „te´meˇrˇ ztracene´ deˇti“. Nevykreslovat jednotliva´ pozorova´nı´ (zvla´sˇt’ u objemneˇjsˇ´ıch dat neprˇehledne´), ale krabicovy´ diagram.
Krabicový diagram 25
25
Bodový graf ●
● ●
20
20
● ● ●
● ● ● ● ● ● ● ● ●
LTV
15 10
● ● ● ● ●
5
15 10 5
LTV
● ●
19 / 33
Graficke´ zna´zorneˇnı´ dat Histogram - zna´zorneˇnı´ intervalovy´ch cˇetnostı´ spojite´ velicˇiny Rozmezı´ vsˇech mozˇny´ch hodnot (osa x) rozdeˇlı´me na male´ intervaly, ke kazˇde´mu spocˇı´ta´me, kolik pozorova´nı´ do neˇj padne, to vyneseme na osu y Data: −1.48, −1.11| − 1.00, −0.62, −0.59, −0.55, −0.51| −0.48, −0.39, −0.28, −0.26, −0.18| 0.00, 0.06, 0.24, 0.24|0.68, 0.97|1.29, 1.45
3 2 1 0
Frequency
4
5
Histogram of x
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
x 20 / 33
Histogram Druha´ mozˇnost: vyne´st na osu y relativnı´ cˇetnosti (pocˇet pozorova´nı´ v intervalu deˇleny´ celk. pocˇtem pozorova´nı´). Prˇi dostatecˇne´m pocˇtu pozorova´nı´ aproximuje hustotu rozdeˇlenı´ Data z rozdeˇlenı´ N(0, 1).
0.2
10
15
Density
20
0.4
Histogram of x
0.0
5 0
Frequency
Histogram of x
−2 −1
0
1
2
−2 −1
0
1
2 21 / 33
Dalsˇ´ı grafy Bar plot Graficke´ zna´zorneˇne´ cˇetnostı´ (pocˇtu˚ hodnot) kvalitativnı´ho znaku Prˇ´ıklad Zjistili jsme krevnı´ skupinu ve vzorku 100 pacientu˚. 0 28
A 36
B 27
AB 9
22 / 33
Induktivnı´ statistika
Snazˇ´ıme se zobecnit to, co pozorujeme na konkre´tnı´ch stat. jednotka´ch. Odhadnout parametry (vlastnosti) rozdeˇlenı´ na´hodne´ velicˇiny. Odhadem strˇednı´ hodnoty je zpravidla pru˚meˇr Odhadem rozptylu je zpravidla vy´beˇrovy´ rozptyl atd. Kdybychom vsˇak dany´ pokus opakovali, dostaneme urcˇiteˇ jiny´ pru˚meˇr, tj. jiny´ odhad strˇednı´ hodnoty. Proto na´s zajı´ma´ prˇesnost nasˇeho bodove´ho odhadu, tj. prˇedstava, jak jsme nanejvy´sˇ daleko od skutecˇne´ strˇednı´ hodnoty.
23 / 33
Odhad strˇednı´ hodnoty Sledujeme na´hodnou velicˇinu, ktera´ ma´ v populaci rozdeˇlenı´ X ∼ N(23, 82 ). 3 na´hodne´ vy´beˇry o rozsahu 10, 50 a 1000. 0.06 0.00
Density
Histogram of x1
5
10
15
20
25
30
35
40
30
35
40
30
35
40
x1
0.04 0.00
Density
Histogram of x2
5
10
15
20
25 x2
Density
0.00 0.03
Histogram of x3
5
10
15
20
25 x3
24 / 33
Pru˚meˇr: x¯1 = 20, 17
x¯2 = 22, 69
x¯3 = 23, 14
Pru˚meˇr je tedy take´ na´hodna´ velicˇina. . . Nasˇteˇstı´ zna´me jejı´ vlastnosti: Je-li X ∼ N(µ, σ 2 ) a ma´me-li vy´beˇr o velikosti n 2
¯ ∼ N(µ, σ ) X n Pru˚meˇr kolı´sa´ kolem skutecˇne´ strˇednı´ hodnoty µ, je jejı´m odhadem. Zna´me-li jenom pru˚meˇr, moc to nepomu˚zˇe, protozˇe nevı´me, jak daleko je tento odhad od skutecˇne´ strˇednı´ hodnoty. √σ . . . sme ˇ rodatna´ n
chyba (standard error, SE), SD pru˚meˇru 25 / 33
Interval spolehlivosti
Kromeˇ bodove´ho odhadu strˇednı´ hodnoty vhodne´ uva´deˇt i intervalovy´ odhad. Interval, ktery´ pokryje skutecˇnou strˇednı´ hodnotu s prˇedem stanovenou pravdeˇpodobnostı´ Veˇtsˇinou se volı´ 95 % nebo 90 %, prˇ´ıpadneˇ 99 %. Lze uka´zat, zˇe 95% interval spolehlivosti je σ σ (x¯ − 1, 96 √ , x¯ + 1, 96 √ ). n n z = 1, 96 kriticka´ hodnota standardizovane´ho norma´lnı´ho rozdeˇlenı´
26 / 33
Kriticka´ hodnota
0.2 0.1
95%
2.5%
2.5%
0.0
f(x)
0.3
0.4
Kriticka´ hodnota standardizovane´ho norma´lnı´ho rozdeˇlenı´, tj. 97,5% kvantil. z = 1, 96
−4
−3
−2
−1
0
1
2
3
4
x 27 / 33
Interval spolehlivosti
Smeˇrodatnou odchylku vsˇak veˇtsˇinou nezna´me, nahrazujeme ji proto odhadem s. Lze uka´zat, zˇe 95% interval spolehlivosti pak je s x¯ ± t(n − 1) √ n t(n − 1). . . kriticka´ hodnota studentova rozdeˇlenı´ o n − 1 stupnı´ch volnosti. Studentovo rozdeˇlenı´. . . podobne´ norma´lnı´mu, pro veˇtsˇ´ı n (> 100) te´meˇˇr identicke´.
28 / 33
Prˇ´ıklad
Intervalove´ odhady v prˇedchozı´m prˇ´ıkladeˇ vysˇly na´sledovneˇ: 1.vy´beˇr: 2.vy´beˇr: 3.vy´beˇr:
(15,28 , 25,07) (20,55 , 24,82) (22,64 , 23,64)
ˇ ´ım vı´ce pozorova´nı´, tı´m uzˇsˇ´ı interval spolehlivosti C (prˇesneˇjsˇ´ı odhad) ˇ ´ım mensˇ´ı smeˇrodatna´ odchylka, tı´m uzˇsˇ´ı interval C spolehlivosti (prˇesneˇjsˇ´ı odhad) ˇ ´ım mensˇ´ı prˇesnost pozˇadujeme, tı´m . . . ? C
29 / 33
Testova´nı´ hypote´z Nulova´ hypote´za Formulujeme hypote´zu o hodnoteˇ parametru (cˇasto pra´veˇ o strˇednı´ hodnoteˇ). Naprˇ. Strˇednı´ hodnota LTV u ”te´meˇrˇ ztraceny´ch” deˇtı´ je stejna´ jako u zdravy´ch. Zpravidla je to opak toho, co chceme uka´zat. Alternativnı´ hypote´za Je doplnˇkem nulove´. Tj. zˇa´dna´ jina´ hodnota parametru (nezˇ ktera´ je obsazˇena v teˇchto dvou hypote´za´ch) neprˇicha´zı´ v u´vahu. Naprˇ. Strˇednı´ hodnoty LTV u ”te´meˇrˇ ztraceny´ch” deˇtı´ a u zdravy´ch se lisˇ´ı. 30 / 33
Mozˇna´ rozhodnutı´ Hypote´zu otestujeme na datech. Avsˇak musı´me ”ohlı´dat” na´hodu. Prˇedem si stanovı´me hladinu testu α, tedy pravdeˇpodobnost, se kterou si dovolı´me udeˇlat chybny´ za´veˇr. Veˇtsˇinou α = 5 %.
Skutecˇnost H0 platı´ H0 neplatı´
Rozhodnutı´ H0 zamı´tneme H0 nezamı´tneme Chyba 1. druhu (α) Spra´vne´ rozhodnutı´ Spra´vne´ rozhodnutı´ Chyba 2. druhu (β)
Nemu˚zˇeme minimalizovat obeˇ (jsou proti sobeˇ). Proto fixujeme α, tradicˇneˇ α = 5 %, β uzˇ je tı´m dane´. Sı´lu testu (1 − β) mu˚zˇeme ovlivnit velikostı´ vy´beˇru.
31 / 33
Logika testova´nı´
Test Prˇedpokla´da´me, zˇe platı´ H0 . Z dat spocˇı´ta´me testovou statistiku (naprˇ. pru˚meˇr). Spocˇı´ta´me pravdeˇpodobnost, zˇe bychom za H0 pozorovali nasˇe data nebo data stejneˇ cˇi vı´ce extre´mnı´. . . . dosazˇena´ hladina vy´znamnosti, p−hodnota Pokud p−hodnota ≤ α, H0 zamı´ta´me, jinak H0 nezamı´ta´me.
32 / 33
Literatura
Zva´ra, K.: Biostatistika. Karolinum, Praha, 2003 Zva´rova´, J.: Za´klady statistiky pro biomedicı´nske´ obory. Karolinum, Praha, 2002
33 / 33