76

Meńeˇ nezˇ minimum ze statistiky Michaela Sˇedova´ KPMS MFF UK

Principy medicıńy zalozˇene´ na du˚kazech a za´klady veˇdecke´ prˇ´ıpravy

1 / 76

Prˇ´ıklad Studie syndromu na´hodne´ho u´mrtı´ deˇtı´. Dveˇ skupiny: Deˇti, ktere´ byly nalezeny te´meˇrˇ mrtve´, bez zna´mek zˇivota. Vsˇechna dalsˇ´ı vysˇetrˇenı´ negativnı´, zotavily se beˇhem neˇkolika dnu˚. . . . „te´meˇrˇ ztracene´“ Norma´lnı´ deˇti LTV. . . dlouhodoba´ promeˇnlivost tepove´ frekvence (rozdı´l mezi min. a max. hodnotami novorozenecke´ tepove´ frekvence). Te´meˇrˇ ztracene´

Norma´lnı´

5.0, 7.0, 7.67, 8.17, 8.33, 8.83, 9.17, 9.33, 9.33, 9.67, 11.0,11.67, 13.33, 13.83, 14.17, 15.17, 15.50, 17.33, 18.0, 20.60, 21.17, 22.33, 22.67, 23.00, 24.67 11.33, 13.67, 14.33, 17.33, 17.83, 19.0, 20.67, 22.33, 27.83, 29.0, 31.17, 31.33, 32.0, 32.5, 35.0

Lisˇ´ı se „te´meˇˇr ztracene´“ deˇti od norma´lnıćh z hlediska LTV? 2 / 76

Statistika

Rozlisˇenı´ LTV mezi skupinami nenı´ jednoznacˇne´: „te´meˇˇr ztracene´ deˇti“: (5,00–24,67) norma´lnı´ deˇti: (11,33–35,00) Lisˇ´ı se alesponˇ „v pru˚meˇru“? (13,70 resp. 23,69) Je tento rozdı´l pouze na´hodny´, nebo zde existuje neˇjake´ systematicke´ posunutı´?

3 / 76

Statistika Popisna´ (deskriptivnı´) Urcˇity´m zpu˚sobem popisuje nebo shrnuje data, ktera´ ma´me Popisne´ chrakteristiky (pru˚meˇr, mediań,. . . ), grafy (histogram, krabicovy´ diagram, bodovy´ graf, . . . ) Omezuje sva´ tvrzenı´ na dana´ data, necˇinı´ si na´rok zobecnˇovat, deˇlat za´veˇry Induktivnı´ Na za´kladeˇ dat se snazˇ´ı zobecnit pozorovańı´ na veˇtsˇ´ı soubor, populaci Pracuje s na´hodou, odhady, testy Velkou roli zde hraje spra´vna´ interpretace Ve veˇtsˇineˇ pracı´ se setka´me s obojı´m. 4 / 76

Meˇrˇ´ıtko

Na statistickyćh jednotkaćh sledujeme jejich vlastnosti hodnoty znaku˚ ve zvolene´m meˇrˇ´ıtku Kvalitativnı´ (zpravidla vyja´drˇene´ slovem, znakem,. . . ) nula-jednicˇkove´ (jev nastal/nenastal, pacient prˇezˇil/neprˇezˇil) nomina´lnı´ (neˇkolik kategoriı´, naprˇ. krevnı´ skupina, pohlavı´ faktor) ordina´lnı´ (kategorie jsou jisty´m zpu˚sobem rˇezene´, naprˇ. bolest je silna´, mı´rna´, zˇa´dna´)

Kvantitativnı´ (vyja´drˇene´ cˇı´slem) intervalove´ (spojite´, naby´vajı´ hodnoty z neˇjake´ho intervalu, naprˇ. vy´sˇka, LTV) diskre´tnı´ (ordina´lnı´, pocˇet pacientu˚, kterˇ´ı navsˇtı´vı´ ambulanci beˇhem jednoho dne)

5 / 76

Pravdeˇpodobnost I

Na´hodny´ pokus - pokus, jehozˇ vy´sledek nenı´ prˇedem urcˇeny´ Na´hodny´ jev - vy´sledek na´hodne´ho pokusu Pravdeˇpodobnost na´hodne´ho jevu A, P(A) - mı´ra cˇastosti vy´skytu jevu A, ”nadeˇje”, zˇe nastane 0 ≤ P(A) ≤ 1

6 / 76

Pravdeˇpodobnost II Klasicka´ definice pravdeˇpodobnosti n stejneˇ pravdeˇpodobnyćh elementa´rnıćh jevu˚ ω1 , ω 2 , . . . , ω n z toho m elementa´rnıćh jevu˚ prˇ´ıznivyćh jevu A P(A) =

m n

Naprˇ. hod kostkou A. . . padne sude´ cˇı´slo Elementa´rnı´ jevy: padne 1,2,3,4,5,6, vsˇechny s pravdeˇpodobnostı´ 16 P(A) =

3 6

=

1 2

Ovsˇem ma´me-li spojity´ znak, tato definice nestacˇı´. Potrˇebujeme obecneˇjsˇ´ı koncept.

7 / 76

Na´hodna´ velicˇina ˇ ´ıselneˇ vyja´drˇeny´ vy´sledek na´hodne´ho pokusu. C Teoreticky´ pojem. Nevı´me vy´sledek, zna´me jenom mozˇne´ hodnoty a jejich pravdeˇpodobnosti (rozdeˇlenı´). Naprˇ. na´hodna´ velicˇina je LTV obecneˇ. Jejı´ realizace: nameˇrˇ´ıme ji u konkre´tnı´ho dı´teˇte. Populace (nekonečná) Náhodná veličina X Příště

Výběr Výběr pozorování

x 1 , ... x n

Výběr Výběr Jiná pozorování

x 1 , ... x n

8 / 76

Rozdeˇlenı´ na´hodne´ velicˇiny

0.2 0.1 0.0

f(x)

0.3

0.4

Diskre´tnı´ Model pro pocˇty prˇ´ıpadu˚ Dane´ pravdeˇpodobnosti hodnot Naprˇ. P(noveˇ narozene´ dı´teˇ je chlapec)=0,52, P(noveˇ narozene´ dı´teˇ je dı´vka)=0,48 Spojite´ Naprˇ. Norma´lnı´ (Gaussovo), X ∼ N(µ, σ 2 )

−4

−2

0

2

4

x 9 / 76

Norma´lnı´ rozdeˇlenı´

0.2 0.1 0.0

f(x)

0.3

0.4

Tzv. Gaussova krˇivka je hustota (vyja´drˇena prˇesny´m matematicky´m vzorcem) Urcˇuje s jakou pravdeˇpodobnostı´ mu˚zˇe na´hodna´ velicˇina X naby´t hodnoty z dane´ho intervalu To je dańo plochou pod krˇivkou

−4 −3 −2 −1

0

1

2

3

4

x 10 / 76

Norma´lnı´ rozdeˇlenı´ II Ma´ dva parametry Strˇednı´ hodnota µ - urcˇuje bod, kolem ktere´ho je tato hustota symetricka´ Rozptyl σ 2 - urcˇuje jak moc jsou hodnoty rozpy´lene´ kolem tohoto bodu

−2

0 x

2

4

0.4 f(x)

0.1 0.0

0.0 −4

0.2

0.3

0.3 0.1

f(x)

0.2

0.3 0.2 0.1 0.0

f(x)

N(0,2)

0.4

N(1,1)

0.4

N(0,1)

−4

−2

0 x

2

4

−4

−2

0

2

4

x

11 / 76

Jina´ spojita´ rozdeˇlenı´ Avsˇak norma´lnı´ rozdeˇlenı´ nenı´ zdaleka jedine´ spojite´ rozdeˇlenı´. Exponenciální, Exp(1) 0.8

µ

0.4

f(x) 0

1

2

0

µ 2

4

6

8

Studentovo, 5 st. volnosti

χ2, 5 st. volnosti

f(x) −2

0 c)

2

4

0.00

−4

0.10

b)

0.2

a)

0.0

f(x)

−1

0.0

1.0 0.0

f(x)

2.0

Rovnomìrné, Ro[0,1]

0

5

10

15

20

d) 12 / 76

Charakteristiky rozdeˇlenı´ Strˇednı´ hodnota (expectation, mean value) Diskre´tnı´ rozdeˇlenı´ Va´zˇeny´ pru˚meˇr - va´hy pravdeˇpodobnosti, s jaky´mi naby´va´me danyćh hodnot µ = EX = x1 p1 + x2 p2 + · · · + xn pn Spojite´ rozdeˇlenı´ Funkci vah plnı´ hustota Z

∞

EX =

xf (x)dx −∞

13 / 76

Charakteristiky rozdeˇlenı´ II

Rozptyl (variance) Lze rˇ´ıci, zˇe je to pru˚meˇrna´ druha´ mocnina odchylky hodnot od strˇednı´ hodnoty σ 2 = var (X ) = E(X − EX )2 . Diskre´tnı´ rozdeˇlenı´ σ 2 = var (X ) = (x1 − µ)2 p1 + (x2 − µ)2 p2 + · · · + (xn − µ)2 pn . σ. . . smeˇrodatna´ odchylka (standard deviation, SD), neˇco jine´ho nezˇ smeˇrodatna´ chyba (standard error, SE), viz da´le

14 / 76

Jina´ spojita´ rozdeˇlenı´ Exponenciální, Exp(1) 0.8

µ

0.4

f(x) 0

1

2

0

µ 2

4

6

8

Studentovo, 5 st. volnosti

χ2, 5 st. volnosti

f(x) −2

0 c)

2

4

0.00

−4

0.10

b)

0.2

a)

0.0

f(x)

−1

0.0

1.0 0.0

f(x)

2.0

Rovnomìrné, Ro[0,1]

0

5

10

15

20

d)

15 / 76

Dalsˇ´ı charakteristiky

Kvantily Mediań x˜ . . . cˇı´slo, ktere´ oddeˇlı´ ”polovinu” mozˇnyćh hodnot P(X ≤ x˜ ) =

1 2

Kvartily. . . cˇı´sla, ktera´ oddeˇlı´ ”cˇtvrtiny” mozˇnyćh hodnot Dolnı´ kvartil q1 . . . P(X ≤ q1 ) = Hornı´ kvartil q3 . . . P(X ≤ q3 ) =

1 4 3 4

Decily (desetiny), percentily (setiny)

16 / 76

Popisna´ statistika Shrnuje to, co ma´me v datech. Prvnı´, ne vsˇak jediny´ krok k tomu, abychom mohli neˇco usoudit o dane´ na´hodne´ velicˇineˇ.

Mı´ry polohy Pru˚meˇr

x1 + x2 + · · · + xn n (Vy´beˇrovy´) mediań. . . prostrˇednı´ hodnota ( n liche´ x[ n+1 ] 2 x˜ = 1 n n n sude´, 2 (x[ ] + x[ +1] ) x¯ =

2

2

(Vy´beˇrove´) kvartily. . . analogicky

17 / 76

Graficke´ zna´zorneˇnı´ dat Krabicovy´ diagram (boxplot) Zna´zorneˇnı´ rozdeˇlenı´ spojite´ velicˇiny Mediań. . . prˇ´ıcˇka obde´lnı´ka Hornı´ resp. dolnı´ kvartil - kratsˇ´ı strany obde´lnı´ka Tykadla - od kvartilu k minimu resp. maximu, pokud nenı´ odlehle´ Odlehle´ pozorovańı´ - je da´l, nezˇ zpravidla 23 (q3 − q1 )

●

5

10

15

20 18 / 76

Krabicovy´ diagram Prˇ´ıklad Zna´zorneˇnı´ dat o LTV pro „te´meˇrˇ ztracene´ deˇti“. Nevykreslovat jednotliva´ pozorovańı´ (zvla´sˇt’ u objemneˇjsˇ´ıch dat neprˇehledne´), ale krabicovy´ diagram.

Krabicový diagram 25

25

Bodový graf ●

● ●

20

20

● ● ●

● ● ● ● ● ● ● ● ●

LTV

15 10

● ● ● ● ●

5

15 10 5

LTV

● ●

19 / 76

Graficke´ zna´zorneˇnı´ dat Histogram - zna´zorneˇnı´ intervalovyćh cˇetnostı´ spojite´ velicˇiny Rozmezı´ vsˇech mozˇnyćh hodnot (osa x) rozdeˇlı´me na male´ intervaly, ke kazˇde´mu spocˇı´ta´me, kolik pozorovańı´ do neˇj padne, to vyneseme na osu y Data: −1.48, −1.11| − 1.00, −0.62, −0.59, −0.55, −0.51| −0.48, −0.39, −0.28, −0.26, −0.18| 0.00, 0.06, 0.24, 0.24|0.68, 0.97|1.29, 1.45

3 2 1 0

Frequency

4

5

Histogram of x

−1.5

−1.0

−0.5

0.0

0.5

1.0

1.5

x 20 / 76

Histogram Druha´ mozˇnost: vyne´st na osu y relativnı´ cˇetnosti (pocˇet pozorovańı´ v intervalu deˇleny´ celk. pocˇtem pozorovańı´). Prˇi dostatecˇne´m pocˇtu pozorovańı´ aproximuje hustotu rozdeˇlenı´ Data z rozdeˇlenı´ N(0, 1).

0.2

10

15

Density

20

0.4

Histogram of x

0.0

5 0

Frequency

Histogram of x

−2 −1

0

1

2

−2 −1

0

1

2 21 / 76

Dalsˇ´ı grafy Bar plot Graficke´ zna´zorneˇne´ cˇetnostı´ (pocˇtu˚ hodnot) kvalitativnı´ho znaku Prˇ´ıklad Zjistili jsme krevnı´ skupinu ve vzorku 100 pacientu˚. 0 28

A 36

B 27

AB 9

22 / 76

Induktivnı´ statistika

Snazˇ´ıme se zobecnit to, co pozorujeme na konkre´tnıćh stat. jednotkaćh. Odhadnout parametry (vlastnosti) rozdeˇlenı´ na´hodne´ velicˇiny. Odhadem strˇednı´ hodnoty je zpravidla pru˚meˇr Odhadem rozptylu je zpravidla vy´beˇrovy´ rozptyl atd. Kdybychom vsˇak dany´ pokus opakovali, dostaneme urcˇiteˇ jiny´ pru˚meˇr, tj. jiny´ odhad strˇednı´ hodnoty. Proto na´s zajı´ma´ prˇesnost nasˇeho bodove´ho odhadu, tj. prˇedstava, jak jsme nanejvy´sˇ daleko od skutecˇne´ strˇednı´ hodnoty.

23 / 76

Odhad strˇednı´ hodnoty Sledujeme na´hodnou velicˇinu, ktera´ ma´ v populaci rozdeˇlenı´ X ∼ N(23, 82 ). 3 na´hodne´ vy´beˇry o rozsahu 10, 50 a 1000. 0.06 0.00

Density

Histogram of x1

5

10

15

20

25

30

35

40

30

35

40

30

35

40

x1

0.04 0.00

Density

Histogram of x2

5

10

15

20

25 x2

Density

0.00 0.03

Histogram of x3

5

10

15

20

25 x3

24 / 76

Pru˚meˇr: x¯1 = 20, 17

x¯2 = 22, 69

x¯3 = 23, 14

Pru˚meˇr je tedy take´ na´hodna´ velicˇina. . . Nasˇteˇstı´ zna´me jejı´ vlastnosti: Je-li X ∼ N(µ, σ 2 ) a ma´me-li vy´beˇr o velikosti n 2

¯ ∼ N(µ, σ ) X n Pru˚meˇr kolı´sa´ kolem skutecˇne´ strˇednı´ hodnoty µ, je jejı´m odhadem. Zna´me-li jenom pru˚meˇr, moc to nepomu˚zˇe, protozˇe nevı´me, jak daleko je tento odhad od skutecˇne´ strˇednı´ hodnoty. √σ . . . sme ˇ rodatna´ n

chyba (standard error, SE), SD pru˚meˇru 25 / 76

Interval spolehlivosti

Kromeˇ bodove´ho odhadu strˇednı´ hodnoty vhodne´ uva´deˇt i intervalovy´ odhad. Interval, ktery´ pokryje skutecˇnou strˇednı´ hodnotu s prˇedem stanovenou pravdeˇpodobnostı´ Veˇtsˇinou se volı´ 95 % nebo 90 %, prˇ´ıpadneˇ 99 %. Lze uka´zat, zˇe 95% interval spolehlivosti je σ σ (x¯ − 1, 96 √ , x¯ + 1, 96 √ ). n n z = 1, 96 kriticka´ hodnota standardizovane´ho norma´lnı´ho rozdeˇlenı´

26 / 76

Kriticka´ hodnota

0.2 0.1

95%

2.5%

2.5%

0.0

f(x)

0.3

0.4

Kriticka´ hodnota standardizovane´ho norma´lnı´ho rozdeˇlenı´, tj. 97,5% kvantil. z = 1, 96

−4

−3

−2

−1

0

1

2

3

4

x 27 / 76

Interval spolehlivosti

Smeˇrodatnou odchylku vsˇak veˇtsˇinou nezna´me, nahrazujeme ji proto odhadem s. Lze uka´zat, zˇe 95% interval spolehlivosti pak je s x¯ ± t(n − 1) √ n t(n − 1). . . kriticka´ hodnota studentova rozdeˇlenı´ o n − 1 stupnıćh volnosti. Studentovo rozdeˇlenı´. . . podobne´ norma´lnı´mu, pro veˇtsˇ´ı n (> 100) te´meˇˇr identicke´.

28 / 76

Prˇ´ıklad

Intervalove´ odhady v prˇedchozı´m prˇ´ıkladeˇ vysˇly na´sledovneˇ: 1.vy´beˇr: 2.vy´beˇr: 3.vy´beˇr:

(15,28 , 25,07) (20,55 , 24,82) (22,64 , 23,64)

ˇ ´ım vıće pozorovańı´, tı´m uzˇsˇ´ı interval spolehlivosti C (prˇesneˇjsˇ´ı odhad) ˇ ´ım mensˇ´ı smeˇrodatna´ odchylka, tı´m uzˇsˇ´ı interval C spolehlivosti (prˇesneˇjsˇ´ı odhad) ˇ ´ım mensˇ´ı prˇesnost pozˇadujeme, tı´m . . . ? C

29 / 76

Testovańı´ hypote´z Nulova´ hypote´za Formulujeme hypote´zu o hodnoteˇ parametru (cˇasto pra´veˇ o strˇednı´ hodnoteˇ). Naprˇ. Strˇednı´ hodnota LTV u ”te´meˇrˇ ztracenyćh” deˇtı´ je stejna´ jako u zdravyćh. Zpravidla je to opak toho, co chceme uka´zat. Alternativnı´ hypote´za Je doplnˇkem nulove´. Tj. zˇa´dna´ jina´ hodnota parametru (nezˇ ktera´ je obsazˇena v teˇchto dvou hypote´zaćh) neprˇicha´zı´ v u´vahu. Naprˇ. Strˇednı´ hodnoty LTV u ”te´meˇrˇ ztracenyćh” deˇtı´ a u zdravyćh se lisˇ´ı. 30 / 76

Mozˇna´ rozhodnutı´ Hypote´zu otestujeme na datech. Avsˇak musı´me ”ohlı´dat” na´hodu. Prˇedem si stanovı´me hladinu testu α, tedy pravdeˇpodobnost, se kterou si dovolı´me udeˇlat chybny´ za´veˇr. Veˇtsˇinou α = 5 %.

Skutecˇnost H0 platı´ H0 neplatı´

Rozhodnutı´ H0 zamı´tneme H0 nezamı´tneme Chyba 1. druhu (α) Spra´vne´ rozhodnutı´ Spra´vne´ rozhodnutı´ Chyba 2. druhu (β)

Nemu˚zˇeme minimalizovat obeˇ (jsou proti sobeˇ). Proto fixujeme α, tradicˇneˇ α = 5 %, β uzˇ je tı´m dane´. Sı´lu testu (1 − β) mu˚zˇeme ovlivnit velikostı´ vy´beˇru.

31 / 76

Logika testovańı´

Test Prˇedpokla´da´me, zˇe platı´ H0 . Z dat spocˇı´ta´me testovou statistiku (naprˇ. pru˚meˇr). Spocˇı´ta´me pravdeˇpodobnost, zˇe bychom za H0 pozorovali nasˇe data nebo data stejneˇ cˇi vıće extre´mnı´. . . . dosazˇena´ hladina vy´znamnosti, p−hodnota Pokud p−hodnota ≤ α, H0 zamı´ta´me, jinak H0 nezamı´ta´me.

32 / 76

Jednovy´beˇrovy´ t-test H0 : µ = µ0 H1 : µ 6= µ0 Testova´ statistika T =

¯ − µ0 X √s n

Velke´ hodnoty |T | vypovı´dajı´ proti H0 : Porovna´me s kritickou hodnotou. Zamı´ta´me, je-li |T | > tn−1 ( α2 ). Pro velke´ n nahrazujeme tn−1 ( α2 ) kvantilem norma´lnı´ho rozdeˇlenı´ z( α2 ). Prˇedpoklady rozdeˇlenı´ sledovane´ velicˇiny je blı´zke´ norma´lnı´mu neza´visla´ pozorovańı´ 33 / 76

Jednovy´beˇrovy´ t-test Prˇ´ıklad Nameˇrˇili jsme LTV pouze u ”te´meˇrˇ ztracenyćh” deˇtı´. Prˇedpokla´dejme, zˇe vı´me, zˇe strˇednı´ hodnota LTV u zdravyćh deˇtı´ je 23. Je mozˇne´ rˇ´ıci, zˇe se ”te´meˇrˇ ztracene´” deˇti z hlediska LTV lisˇ´ı od norma´lnıćh? H0 : µ = 23 H1 : µ 6= 23 T =

13, 7 − 23 5,82 √ 26

= −8, 13

T < t25 (0, 025) = −2, 06 → zamı´ta´me H0 . Software, publikace: uva´dı´ se p-hodnota, v tomto prˇ´ıpadeˇ p = 1, 7 ∗ 10−8 < 0, 001. Lepsˇ´ı, nezˇ uve´st pouze vy´sledek testu. Da´va´ prˇedstavu, jak daleko jsme od kriticke´ hodnoty. 34 / 76

Jednostranny´ t-test Prˇedpokla´dejme vsˇak, zˇe bychom uzˇ prˇedem vedeˇli, zˇe ”te´meˇrˇ ztracene´” deˇti rozhodneˇ nemohou mı´t LTV veˇtsˇ´ı nezˇ deˇti zdrave´. H0 : µ = µ0 H1 : µ < µ0 Testova´ statistika stejna´ T =

¯ − µ0 X √s n

,

avsˇak sledujeme pouze, o kolik je pru˚meˇr mensˇ´ı nezˇ strˇednı´ hodnota. Male´ hodnoty T vypovı´dajı´ proti H0 ; zamı´ta´me, je-li T < tn−1 (α). Prˇedpoklady stejne´ jako u oboustranne´ho t-testu. Je silneˇjsˇ´ı, protozˇe reflektuje apriornı´ informaci. Ta ale musı´ by´t podlozˇena´. Nelze nejprve zjistit hodnotu T statistiky, a potom volit typ t-testu. 35 / 76

Dvouvy´beˇrovy´ t-test Prˇ´ıklad Nameˇrˇili jsme LTV u skupiny ”te´meˇrˇ ztracenyćh” deˇtı´ a u skupiny ”norma´lnıćh” deˇtı´. Je mozˇne´ rˇ´ıci, zˇe se LTV v teˇchto dvou skupinaćh v pru˚meˇru lisˇ´ı? H0 : µA = µB H1 : µA 6= µB Testova´ statistika ¯A − X ¯B X

T =q ¯A − X ¯B ) var(X

¯A − X ¯B r nA nB X = s nA + nB

Velke´ hodnoty |T | vypovı´dajı´ proti H0 . Porovna´me s kritickou hodnotou. Zamı´ta´me, je-li |T | > tnA +nB −2 ( α2 ). 36 / 76

Dvouvy´beˇrovy´ t-test

Prˇedpoklady Neza´visla´ pozorovańı´ (mezi skupinami i uvnitrˇ skupin) Rozdeˇlenı´ sledovane´ velicˇiny je v kazˇde´ skupineˇ blı´zke´ norma´lnı´mu V obou skupinaćh je shodny´ rozptyl

Pokud tyto prˇedpoklady nejsou splneˇny, nelze t-test pouzˇ´ıt! Je nutne´ pouzˇ´ıt jine´ na´stroje, naprˇ. existuje u´prava t-testu, ktera´ nevyzˇaduje shodnost rozptylu˚.

37 / 76

Dvouvy´beˇrovy´ t-test Prˇ´ıklad Nameˇrˇili jsme LTV u skupiny ”te´meˇrˇ ztracenyćh” deˇtı´ a u skupiny ”norma´lnıćh” deˇtı´. Je mozˇne´ rˇ´ıci, zˇe se LTV v teˇchto dvou skupinaćh v pru˚meˇru lisˇ´ı? H0 : µA = µB H1 : µA 6= µB x¯A = 13,70

x¯B = 23,69

T = −4, 62

T < t39 (0, 025) = −2, 02 → zamı´ta´me H0 . p = 4, 09 ∗ 10−5 < 0, 001 Pozn.: Dvouvy´beˇrovy´ t-test ma´ take´ jednostrannou a oboustrannou verzi. 38 / 76

Pa´rovy´ t-test Prˇ´ıklad U kazˇde´ho z pacientu˚ byl zjisˇteˇn krevnı´ tlak prˇed podańı´m a dveˇ hodiny po podańı´ farmaka. Ovlivnˇuje podańı´ farmaka krevnı´ tlak? Nameˇrˇene´ hodnoty prˇed: 206, 205, 205, 198, 191, 185,186, 172, 168, 165, 158 Nameˇrˇene´ hodnoty po: 187, 178, 202, 197, 173, 167, 184, 166, 155, 125, 162 H0 : µpred = µpo H1 : µpred 6= µpo ¯pred = 185, 36 X

¯po = 172, 36 X

Pouzˇijeme dvouvy´beˇrovy´ t-test: p-hodnota=0,07

39 / 76

Pa´rovy´ t-test Prˇ´ıklad U kazˇde´ho z pacientu˚ byl zjisˇteˇn krevnı´ tlak prˇed podańı´m a dveˇ hodiny po podańı´ farmaka. Ovlivnˇuje podańı´ farmaka krevnı´ tlak? Nameˇrˇene´ hodnoty prˇed: 206, 205, 205, 198, 191, 185,186, 172, 168, 165, 158 Nameˇrˇene´ hodnoty po: 187, 178, 202, 197, 173, 167, 184, 166, 155, 125, 162 H0 : µpred = µpo H1 : µpred 6= µpo ¯pred = 185, 36 X

¯po = 172, 36 X

Pouzˇijeme dvouvy´beˇrovy´ t-test: p-hodnota=0,07 CHYBA! 40 / 76

Pa´rovy´ t-test Pozorovańı´ prˇed a po za´visla´ (dvojice meˇrˇenı´ na jednom jedinci). Za´lezˇitost designu studie. Definujeme rozdı´ly Di = Predi − Poi , na neˇ pouzˇijeme jednovy´beˇrovy´ t-test. H0 : µd = µpred − µpo = 0 H1 : µd = µpred − µpo 6= 0 ¯d − 0 X sd √ n

=

13 − 0 13,09 √ 11

= 3, 29,

p-hodnota = 0, 004 → zamı´ta´me H0

41 / 76

ANOVA

Prˇ´ıklad 20 pacientu˚, kterˇ´ı podstoupili operaci srdce, bylo na´hodneˇ rozdeˇleno do trˇ´ı skupin. 50% oxidu dusne´ho a 50% kyslı´kove´ smeˇsi 24 hodin 50% oxidu dusne´ho a 50% kyslı´kove´ smeˇsi beˇhem operace a 35 − 50% kyslı´ku 24 hodin ? Koncentrace soli kyseliny listove´ v cˇervenyćh krvinkaćh ?

42 / 76

ANOVA Bodovy´ graf koncentrace soli kyseliny listove´ v jednotlivyćh skupinaćh

● ●

300

●

● ●

● ● ●

●

● ● ●

250

●

● ●

● ●

●

200

Koncentrace

350

●

● ●

1

2

3

skupina 43 / 76

ANOVA

Prvnı´ na´pad: Porovnat vsˇechny dvojice dvouvy´beˇrovy´mi t-testy. Skupina 1 vs Skupina 2 Skupina 1 vs Skupina 3 Skupina 2 vs Skupina 3

44 / 76

ANOVA

Prvnı´ na´pad: Porovnat vsˇechny dvojice dvouvy´beˇrovy´mi t-testy. Skupina 1 vs Skupina 2 Skupina 1 vs Skupina 3 Skupina 2 vs Skupina 3 Proble´m: Ma´-li kazˇdy´ test pravdeˇpodobnost chybne´ho pozitivnı´ho vy´sledku 5 %, vy´sledna´ pravdeˇpodobnost, zˇe dostaneme alesponˇ jeden chybny´ pozitivnı´ vy´sledek je veˇtsˇ´ı nezˇ 5 % (cca 14 %).

Pozn.: Proble´m mnohona´sobne´ho testovańı´ je obecneˇjsˇ´ı. . .

45 / 76

ANOVA H0 : µ1 = µ2 = µ3 H1 : neplatı´ H0 (Alesponˇ jedna skupina se lisˇ´ı) Testova´ statistika porovna´va´ variabilitu mezi skupinami a variabilitu uvnitrˇ skupin. F =

variabilita mezi skupinami . variabilita uvnitrˇ skupin

Velke´ hodnoty F sveˇdcˇı´ proti H0 . Prˇedpoklady: neza´visla´ pozorovańı´ (mezi skupinami i uvnitrˇ skupin) rozdeˇlenı´ sledovane´ velicˇiny je v kazˇde´ skupineˇ blı´zke´ norma´lnı´mu ve vsˇech skupinaćh je shodny´ rozptyl 46 / 76

ANOVA

Prˇ´ıklad 20 pacientu˚, kterˇ´ı podstoupili operaci srdce, bylo na´hodneˇ rozdeˇleno do trˇ´ı skupin. 50% oxidu dusne´ho a 50% kyslı´kove´ smeˇsi 24 hodin 50% oxidu dusne´ho a 50% kyslı´kove´ smeˇsi beˇhem operace a 35 − 50% kyslı´ku 24 hodin ? Koncentrace soli kyseliny listove´ v cˇervenyćh krvinkaćh ? p-hodnota= 0,015 → zamı´ta´me H0 . Ktera´ skupina se vsˇak lisˇ´ı od ktere´?

47 / 76

Bonferroniho korekce Ktera´ skupina se vsˇak lisˇ´ı od ktere´? Provedeme porovnańı´ vsˇech dvojic skupin dvouvy´beˇrovy´m t-testem. Avsˇak pouzˇijeme Bonferroniho korekci - za signifikantnı´ povazˇujeme vy´sledek, kdy je p<

α pocˇet skupin

. Skupina 1 vs Skupina 2: Skupina 1 vs Skupina 3: Skupina 2 vs Skupina 3:

p = 0, 006 < 0, 0167 p = 0, 095 > 0, 0167 p = 0, 368 > 0, 0167

Vy´znamny´ rozdı´l je mezi pru˚meˇry skupin 1 a 2, ale ne mezi ostatnı´mi. 48 / 76

ANOVA Bodovy´ graf koncentrace soli kyseliny listove´ v jednotlivyćh skupinaćh

● ●

300

●

● ●

● ● ●

●

● ● ●

250

●

● ●

● ●

●

200

Koncentrace

350

●

● ●

1

2

3

skupina 49 / 76

Wilcoxonu˚v test Neparametricka´ analogie t-testu. Pouzˇijeme, pokud nenı´ splneˇn prˇedpoklad o norma´lnı´m rozdeˇlenı´ dat (ale spojite´). H0 : Mediań x˜ = 0 H1 : Mediań x˜ 6= 0 Postup Urcˇı´me porˇadı´ Ri+ hodnot |Xi |. Urcˇı´me soucˇet teˇch porˇadı´, kde bylo Xi > 0, oznacˇı´me jej W. Polozˇ´ıme Z =p

W − n(n + 1)/4 n(n + 1)(2n + 1)/24 50 / 76

Neparametricke´ analogie parametrickyćh testu˚

rozdeˇlenı´ parametr jeden vy´beˇr vy´beˇr dvojic dva neza´visle´ vy´beˇry k neza´vislyćh vy´beˇru˚

norma´lnı´ strˇednı´ hodnota jednovy´beˇrovy´ t-test pa´rovy´ t-test dvouvy´beˇrovy´ t-test analy´za rozptylu (ANOVA)

spojite´ mediań jednovy´beˇrovy´ Wilcoxon Wilcoxon Mann-Whitney (Kolmogorov-Smirnov) Kruskal-Wallis

51 / 76

Analy´za kategoria´lnıćh dat

Prˇ´ıklad Ve vysˇetrˇovane´ populaci jsou krevnı´ skupiny 0, A, B a AB v pomeˇru 35 %, 35 %, 20 % a 10 %. Ve vzorku pacientu˚ byly pocˇty osob s krevnı´mi skupinami po rˇadeˇ 28, 36, 27, 9. Lze povazˇovat tento vy´beˇr za reprezentativnı´ vzhledem k vy´skytu krevnıćh skupin?

Zde testujeme rozdeˇlenı´ kategoricke´ho znaku.

52 / 76

Analy´za kategoria´lnıćh dat H0 : Kategoricky´ znak ma´ prˇedpokla´dane´ rozdeˇlenı´. H1 : Kategoricky´ znak nema´ prˇedpokla´dane´ rozdeˇlenı´. Testova´ statistika porovna´va´ napozorovane´ cˇetnosti (N1 , N2 , . . . , Nk ) jednotlivyćh kategoriı´ (je jich k) s teoreticky´mi. Teoreticke´ pravdeˇpodobnosti: π1 , π2 , . . . , πk Teoreticke´ cˇetnosti pro n pozorovańı´: nπ1 , nπ2 , . . . , nπk

χ2 =

(N1 − n ∗ π1 )2 (N2 − n ∗ π2 )2 (N − n ∗ πk )2 + + ··· + k n ∗ π1 n ∗ π2 n ∗ πk

Velke´ hodnoty mluvı´ proti H0 . Testovou statistiku porovna´va´me s kritickou hodnotou χ2k−1 (α). 53 / 76

Test dobre´ shody

Prˇ´ıklad Ve vysˇetrˇovane´ populaci jsou krevnı´ skupiny 0, A, B a AB v pomeˇru 35 %, 35 %, 20 % a 10 %. Ve vzorku pacientu˚ byly pocˇty osob s krevnı´mi skupinami po rˇadeˇ 28, 36, 27, 9. Lze povazˇovat tento vy´beˇr za reprezentativnı´ vzhledem k vy´skytu krevnıćh skupin?

χ2 =

(28 − 35)2 (36 − 35)2 (27 − 20)2 (9 − 10)2 + + + = 3, 98 35 35 20 35

p-hodnota=0,24 → nezamı´ta´me H0 .

54 / 76

Neza´vislost dvou kategorickyćh znaku˚

Prˇ´ıklad Ocˇkovańı´ proti chrˇipce se ućˇastnilo 460 dospeˇlyćh. 240 dostalo ocˇkovacı´ la´tku, 220 placebo. Chrˇipkou onemocneˇlo 20 z ocˇkovacı´ skupiny a 80 z kontrolnı´ skupiny. Je to dostatecˇny´ du˚kaz o tom, zˇe je ocˇkovacı´ la´tka ućˇinna´? Sestavı´me kontingencˇnı´ tabulku Chrˇipka Ano Ne Celkem

Ocˇkovańı´ 20 220 240

Placebo 80 140 220

Celkem 100 360 460

55 / 76

Neza´vislost dvou kategorickyćh znaku˚ H0 : Dva znaky jsou na sobeˇ neza´visle´. H1 : Dva znaky nejsou neza´visle´. Testova´ statistika porovna´va´ napozorovane´ cˇetnosti v kontingencˇnı´ tabulce (r × s) s ocˇeka´vany´mi: Ocˇeka´vana´ cˇetnost =

χ2 =

soucˇet v rˇa´dku × soucˇet ve sloupci celkovy´ pocˇet pozorovańı´

X (pozorovana´ cˇetnost − ocˇeka´vana´ cˇetnost)2 ocˇeka´vana´ cˇetnost

Velke´ hodnoty mluvı´ proti H0 . Testovou statistiku porovna´va´me s kritickou hodnotou χ2(r −1)(s−1) (α).

56 / 76

Neza´vislost dvou kategorickyćh znaku˚

Chrˇipka Ano Ne Celkem

χ2 =

Ocˇkovańı´ 20 220 240

Placebo 80 140 220

Celkem 100 360 460

(20 − 52, 2)2 (80 − 47, 8)2 (220 − 187, 8)2 (140 − 172, 2)2 + + + 52, 2 47, 8 187, 8 172, 2

p-hodnota= 7, 63 ∗ 10−13 < 0, 001 → zamı´ta´me H0 .

!Tento test je mozˇne´ pouzˇ´ıt jsou-li vsˇechny napozorovane´ cˇetnosti ≥ 5! 57 / 76

Korelace

Za´vislost znaku˚ kategoricky´ vs spojity´ kategoricky´ vs kategoricky´ spojity´ vs spojity´

←

58 / 76

Korelace Kovariance cov(X , Y ) = E(X − µX )(Y − µY ). . . . ”zobecneˇnı´ rozptylu” Pearsonu˚v korelacˇnı´ koeficient X − µ Y − µ cov(X , Y ) X Y ρX ,Y = cov , =√ . σX σY var X var Y . . . ”normovana´ kovariance” −1 ≤ ρX ,Y ≤ 1 Vy´beˇrovy´ korelacˇnı´ koeficient P ¯ )(Yi − Y ¯) (Xi − X rXY = qP . ¯ )2 P(Yi − Y ¯ )2 (Xi − X 59 / 76

Korelacˇnı´ koeficient Vyjadrˇuje mı´ru linea´rnı´ za´vislosti.

60 / 76

Co korelace je/nenı´ Nema´ kategorie ANO/NE (korelujı´/nekorelujı´) - je to mı´ra korelace Vyjadrˇuje mı´ru linea´rnı´ za´vislosti, na jine´ nenı´ citlivy´ Linea´rnı´ za´vislost nepopı´sˇe (neda´ rovnici pro prˇ´ımku) Nezachycuje slozˇiteˇjsˇ´ı formy za´vislosti (vıće velicˇin) Test: H0 : ρXY = 0 H1 : ρXY 6= 0 Mozˇno pouzˇ´ıt pro norma´lneˇ rozdeˇlene´ na´hodne´ velicˇiny. Neparametricka´ analogie: Spearmanu˚v korelacˇnı´ koeficient (zalozˇen na porˇadı´) 61 / 76

Regrese Odhadne rovnici pro prˇ´ımku v prˇ´ıpadeˇ linea´rnı´ za´vislosti.

62 / 76

Kde korelace nestacˇı´ Prˇ´ıklad U mladyćh muzˇu˚ vysˇetrˇujeme za´vislost procenta tuku na vy´sˇce. Avsˇak procento tuku za´visı´ zajiste´ i na hmotnosti.

63 / 76

Kde korelace nestacˇı´

Zkoumat za´vislost procenta tuku na vy´sˇce bez uva´zˇenı´ hmotnosti postra´da´ smysl (ve veˇtsˇineˇ prˇ´ıpadu˚). Prˇi zkoumańı´ za´vislosti procenta tuku na vy´sˇce ”adjustujeme na hmotnost” ”Jak prˇi dane´ hmotnosti za´visı´ procento tuku na vy´sˇce?” Hmotnost je matoucı´ (confounding) promeˇnna´.

64 / 76

Kde korelace nestacˇı´ Regrese se pokousˇ´ı najı´t rovnici: EY = β0 + β1 x1 + · · · + βp xp , V nasˇem prˇ´ıkladeˇ E tuk = β0 + β1 vy´sˇka + β2 hmotnost. Vy´sledek E tuk = 11, 327 − 0, 262 vy´sˇka + 0, 624 hmotnost, S rostoucı´ vy´sˇkou prˇi dane´ hmotnosti klesa´ procento tuku. Konkre´tneˇ: prˇi pevneˇ stanovene´ hmotnosti s kazˇdy´m centimetrem je procento tuku o 0,262 mensˇ´ı.

65 / 76

Zava´deˇjıćı´ faktor (confounding) Vztah mezi konzumacı´ ka´vy a rakovinou plic u zˇen Studie prˇ´ıpadu˚ a kontrol (nemocnice na Bulovce) Pitı´ ka´vy Denneˇ Zrˇ´ıdka Celkem

Onemocneˇnı´ Ano Ne 221 653 61 193 282 846

d= Pomeˇr sˇancı´ (odds ratio): OR

221 653 61 193

Celkem 874 254 1128

= 1, 7

d (0, 76; 1, 51) Interval spolehlivosti pro OR:

66 / 76

Avsˇak musı´me vzı´t v u´vahu vliv kourˇenı´. Kourˇenı´ ma´ vliv na vy´skyt rakoviny plic Osoby, ktere´ pijı´ ka´vu, take´ cˇasto kourˇ´ı Kurˇacˇky Pitı´ ka´vy Denneˇ Zrˇ´ıdka Celkem

Onemocneˇnı´ Ano Ne 189 305 36 41 225 346

Nekurˇacˇky Pitı´ ka´vy Onemocneˇnı´ Ano Ne Denneˇ 32 348 Zrˇ´ıdka 25 152 Celkem 57 500

Celkem d = 0, 71 OR int.spol. (0, 42; 1, 18)

494 77 571

Celkem 380 177 557

d = 0, 56 OR int.spol. (0, 31; 1, 02)

Suma´rnı´ pomeˇr sˇancı´: 0,64 67 / 76

Kourˇenı´ je asociovańo s rakovinou. Kourˇenı´ Ano Ne Celkem

Prˇ´ıpady 225 57 282

Kontroly 346 500 846

Celkem 571 557 1128

d = 5, 70 OR (4, 08; 8, 00)

Kourˇenı´ je asociovańo s pitı´m ka´vy.

Kourˇenı´ Ano Ne Celkem

Pitı´ ka´vy Denneˇ Zrˇ´ıdka 305 41 348 152 653 193

Celkem 346 500 846

d = 3, 25 OR (2, 18; 4, 85)

68 / 76

Simpsonu˚v paradox Sˇance vy´skytu rakoviny plic v za´vislosti na konzumaci ka´vy prˇi soucˇasne´ kontrole vlivu kourˇenı´ a bez kontroly

69 / 76

Slovaćˇek, L.: Transplantace krvetvornyćh buneˇk a kvalita zˇivota. Triton, 2008

70 / 76

71 / 76

ˇ aste´ chyby v pouzˇ´ıvańı´ statistiky (prˇ´ıklady) C Nevhodny´ nebo nepromysˇleny´ design studie, mala´ velikost vy´beˇru (mala´ → sı´la) ˇ patne´ rozdeˇlenı´ do skupin (randomizace, nevhodna´ S kontrolnı´ skupina), matoucı´ faktory Non-response, vyloucˇenı´ ze studie Pouzˇitı´ nevhodne´ho prˇ´ıstupu/testu pro danou hypote´zu Nesplneˇnı´ prˇedpokladu˚ pro pouzˇitı´ testu (parametricke´ testy, naprˇ. ANOVA) Mnohona´sobne´ testovańı´ Data torturing (”If you torture your data long enough, they will tell you whatever you want to hear.”) Nedostacˇujıćı´ prezentace vy´sledku˚, chybne´ interpretace ... 72 / 76

Plańovańı´ studie

Nelze „sesbı´rat“ data, a potom teprve hledat, jake´ metody analy´zy pouzˇ´ıt. Prˇi plańovańı´ studie je mimo jine´ trˇeba: Formulovat na za´kladeˇ medicıńske´ hypote´zy hypote´zu statistickou Navrhnout efektivnı´ design studie Urcˇit optima´lnı´ velikost vy´beˇru Naplańovat vlastnı´ statistickou analy´zu (apriori)

73 / 76

Sbeˇr dat

Mala´ studie: naprˇ. Excel Velka´ studie: specia´lnı´ software Ulehcˇenı´ praće, vyvarovańı´ se chyba´m, prˇeklepu˚m

74 / 76

Meˇrˇenı´

Le´pe neˇkolik konkre´tnıćh znaku˚, ktere´ opravdu potrˇebujeme zna´t, nezˇ desı´tky meˇrˇenı´ (odva´dı´ pozornost) Proble´m chybeˇjıćıćh pozorovańı´ („deˇrava´ data“ neˇkdy te´meˇrˇ nepouzˇitelna´) Forma za´znamu (ko´dovańı´), prˇesnost,. . .

75 / 76

Literatura

Zva´ra, K.: Biostatistika. Karolinum, Praha, 2003 Zva´rova´, J.: Za´klady statistiky pro biomedicıńske´ obory. Karolinum, Praha, 2002

76 / 76

76

Recommend Documents