Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II

Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení

Teoretické rozložení

1 e 2 



 x   2 

Teoretické rozložení-matematické modely rozložení Kvantitativní spojité veličiny Výběrové rozložení - určeno třídními intervaly, četnostmi velikost výběru, výběrový průměr, rozptyl

výběrové charakteristiky liší se pro jednotlivé výběry Teoretické rozložení – určeno frekvenční křivkou (hustota pravděpodobnosti), průměrem a rozptylem základního souboru

Parametry konstanty

Teoretické rozložení-matematické modely rozložení Kvalitativní – nominální ,diskrétní veličiny Výběrové rozložení - určeno výčtem četností (absolutní, relativní) možných hodnot

výběrové charakteristiky liší se pro jednotlivé výběry Teoretické rozložení – určeno výčtem pravděpodobností jednotlivých hodnot – pravděpodobnostní funkce

Parametry konstanty

Normální (Gaussovo) rozložení Zásadní pro spojité kvantitativní veličiny

1 e  2

32

34

 ( x )2   

36

   

38

40

42

44

46

48

Normální (Gaussovo) rozložení

1 e  2

 ( x )2   

 =  <   =  <

   

Normální (Gaussovo) rozložení praktický význam směrodatné odchylky 

1 e  2

 ( x )2   

   

Teoretické rozložení pro nespojité, diskrétní znaky Nejjednodušší případ – alternativní znak (ANO,NE) Rozložení četnosti výskytu jevu – Binomické rozdělení Příklad: 30 myší, π -pravděpodobnost úmrtí Jaká je pravděpodobnost, že z 30-ti myší zahyne x  30  x P ( x)    (1   ) 30  x x

Obecně pro n : n   k 

n P( x)    x (1   ) n  x  x

Kombinační číslo – udává počet kombinací k prvků z n možných n n!     k  k!( n  k )!

n! n  (n  1)  (n  2)  ( n  3).............  1

Binomické rozložení

0

10 π=0,5

20 π=0,1

30 π=0,9

Poissonovo rozložení Nespojitá náhodná veličina nabývající pouze celočíselné hodnoty 0,4

  e x! x

0,35 0,3 0,25 0,2 0,15

λ=1

0,1

λ=2

0,05

λ=5 λ=10

0 1

3

5

7

9

11

13

15

17

19

21

23

Statistické odhady Cíl : odhadnout neznámé parametry základního souboru pomocí výběrových charakteristik

Bodové odhady Odhadujeme neznámý parametr jedním číslem (bodem) Př.: odhad průměru základního souboru pomocí výběrového průměru

Intervalové odhady kolem bodového odhadu utvoříme interval, který s předem zvolenou vysokou pravděpodobností pokryje odhadovaný parametr Interval spolehlivosti, konfidenční interval 95-procentní, 99-procentní

Intervalový odhad průměru základního souboru Základní soubor

x2

x1



x3

xn výběry

x4 x5

x 1, x

2,

x 3, x

4 ........

bodové odhady - jaké je jejich rozložení ?

Intervalový odhad průměru základního souboru Kvantitativní veličina má normální rozložení (  ,  )

výběrové průměry



n > 30

n

︵

μ

Mají normální rozdělení :

σ

x 1, x 2, x 3,........ x k ︶

σ n

… střední chyba aritmetického průměru

Intervalový odhad průměru základního souboru Výběrový průměr se neodchýlí od průměru základního souboru  o více než 1,96 /√n s pravděpodobností 0,95

6 9 , 1

x



1 s n

95%-ní interval spolehlivosti pro průměr základního souboru

8 5 , 2

x



1 s n

99%-ní interval spolehlivosti pro průměr základního souboru

s – výběrová standardní odchylka

100 náhodných výběrů z jedné populace 95%-ní interval spolehlivosti

Celkový průměr

x  1.96

s n 1

100 náhodných výběrů z jedné populace s Interval x  n 1

Celkový průměr

Statistické testování hypotéz Jde o prověření nejrůznějších předpokladů a domněnek, které vyplývají ze stanovených cílů výzkumu, např: • zda se 2 soubory liší v průměru nějakého znaku • zda výskyt nějaké nemoci závisí na kouření • zda lék A je účinnější než lék B • ……

Jednoduchý příklad Chceme ověřit hypotézu, zda pravděpodobnost úmrtí pokusné myši po vystavení určité nákaze je p=0.3 Připravíme pokus : 10 myší vystavíme nákaze a zjistíme počet uhynulých Podle počtu uhynulých myší x musíme rozhodnout, zda hypotéza o úhynu platí JAK ??? Pokud skutečně platí, že pravděpodobnost úhynu je 0.3 jde o binomické rozložení s parametry n=10 a p=0,3

Binomické rozložení Pravděpodobnost úhynu x myší z 10ti, při pravděpodobnosti smrti p=0,3

10  x  0,3 (1  0,3)10 x x π=0,3

počet uhynulých

P=0,04

0

pravděpodobnost 0

0,02825

1

0,12106

2

0,23347

3

0,26683

4

0,20012

5

0,10292

6

0,03676

7

0,009

8

0,00144

9

0,00014

10

0,00001

10 π=0,3

P=0,96

Statistické testování hypotéz - základní pojmy Testovaná hypotéza (nulová) H0 ….. Alternativní hypotéza A …..

p = 0,3 p ≠ 0,3

pokud počet uhynulých x = 0, 7, 8 , 9 , 10 : Pravděpodobnost uhynutí není p=0.3 ----> nastal jev za platnosti hypotézy H0 málo pravděpodobný ( p=0.04) hypotézu zamítáme pokud počet uhynulých x = 1, 2, 3 , 4 , 5 : Pravděpodobnost uhynutí může být p=0,3 ----> hypotézu nezamítáme, pravděpodobnost tohoto výsledku je vysoká (p=0.96) !!! Neznamená to přijetí hypotézy !!! Statistické testy mohou testované hypotézy pouze vyvracet , ne dokazovat

Statistické testování hypotéz - základní pojmy Testovaná hypotéza (nulová) H0 ….. Alternativní hypotéza A …..

p = 0,3 p ≠ 0,3

Rizika rozhodování Hypotézu zamítáme, ale platí --> chyba 1.druhu pravděpodobnost chyby 1. druhu = hladina významnosti   = 0.05

 = 0.01

Hypotézu nezamítáme, ale neplatí --> chyba 2.druhu pravděpodobnost chyby 2. druhu rozhoduje o síle testu

Významnost statistického testu Hypotézu nezamítáme

- test není statisticky významný

– pozorované odchylky od hypotézy je možno vysvětlit pouhou náhodou důvodem může být i to, že rozdíl je tak malý, že na jeho prokázání nestačí použitý rozsah souboru.

Hypotézu zamítáme - test je statisticky významný – pozorované odchylky od hypotézy není možno vysvětlit pouhou náhodou odchylka od hypotézy je tak velká, že při opakování šetření bychom s velkou pravděpodobností hypotézu opět zamítli

Testování hypotéz – srovnání průměrů Testuji, zda se 2 soubory liší v průměru nějakého znaku: 1.soubor…… 1 1, 1 2.soubor…….

n,x s n 2, x 2 , s 2

Předpoklady: n1 , n2 > 30 , rozložení dat zhruba normální ,stejné rozptyly, nezávislé výběry Hypotéza H0 :

1 = 2 = 

Hypotéza A :

1 ≠ 2

Za platnosti H0 :

(x  x )

rozdíly kolísají kolem nuly podle normálního rozložení se 1 2 směrodatnou odchylkou - střední chyba rozdílu dvou průměrů :

s x 1 x 2  s x 1  s x 2 2

2

z vlastností normálního rozložení plyne, že s pravděpodobností 0.95 leží v intervalu

 1.96 s x 1 x 2

Testování hypotéz – srovnání průměrů Testuji, zda se 2 soubory liší v průměru nějakého znaku: 1.soubor…… 2.soubor…….

n1, x 1, s1 n 2, x 2 , s 2

Hypotéza H0 :

1 = 2 = 

Hypotéza A :

1 ≠ 2

U – test ( t – test) :

u 

x1  x 2 s x 1 x 2

u > 1.96

rozdíl je statisticky významný na hladině

 = 0.05

u > 2.58

rozdíl je statisticky významný na hladině

 = 0.01

Testování hypotéz – test závislosti 2 kvalitativních znaků Kontingenční tabulky četnost pozorovaná

četnost očekávaná

H0 – typ nádoru nezávisí na jeho lokalizaci A – typ nádoru závisí na jeho lokalizaci

Kontingenční tabulky

Pokud platí H0 : P( A1∩B1) = P(A1) . P(B1) …………..atd. = (44 / 152) . (85 / 152) Očekávaná četnost = (44/152) . (85/152) . 152 = 24,6

2-test nezávislosti

=

pozorované

- očekávané očekávané



2


2= 

n

- e ij 

2

ij

e ij

= 9,25

Platnost testované hypotézy prověříme srovnáním s kritickou hodnotou -

závisí na velikosti tabulky

2=



n


ij - e ij 

2

e ij

= 9,25

Protože vypočítaná hodnota 2 je menší než 5%-ní kritická hodnota (9,49) testovanou hypotézu nezamítáme

Vztah dvou kvalitativních veličin Kontingenční tabulka – multiplikativní míry Nemoc Exp.

+

-

+

a

b

a+b

-

c

d

c+d

a+c

b+d

N

Šance na onemocnění Exp.

Neexp.

Oexp

Oneexp. 

a a   a b b b ab

Multiplikativní míry

c d

a Rexp  Riziko exponovaných ab c Riziko neexponovaných Rnexp  cd Relativní riziko a a (c  d ) a  b RR   c c ( a  b) cd Poměr šancí (křížový poměr) a ad OR  b  c bc d

Nezávisí-li nemocnost na expozici je RR=1=OR

Vztah dvou kvalitativních veličin Šance na onemocnění

Poměr šancí (křížový poměr) a ad b OR   c bc d

Interpretace: Odds ratio = 1 … nezávisí onemocnění na expozici Odds ratio > 1 … pozitivní asociace – větší šance onemocnět u exponovaných Odds ratio < 1 … negativní asociace – větší šance onemocnět u skupiny neexponovaných

Vztah spojitých veličin Dvě spojité veličiny Histogram je 3-rozměrný graf

Historie analýzy vztahu spojitých veličin 1886 Francis Galton - model lineární regrese y

reziduum – odchylka od modelu

yi  α  βxi  εi

170

i – jednotlivá pozorování

Výška syna

y - závisle proměnná

160

x - nezávisle proměnná

180

190

Vztah výšky otce a syna

160

0

165

170

175

180

Výška otce

185

190

195

x

Jak je model regrese konstruován? Hledáme α a β tak, aby reziduální rozptyl 2

1 N  yi  α  βxi  se   N  2 í 1 byl minimální

i – té residuum

ei  yi  (α  βxi ) = skutečnost - odhad

Nekauzální vztah - korelace Pearsonův koeficient lineární korelace r

N

200

 x  x   x  x  i

i 1

2

190

i 1

2

i

-1 ≤ r ≤ 1

180

N

 y

170

i 1

i

160

i

Výška syna

r

 x  x  y

150

N

160

165

170

175

180

Výška otce

185

190

195

Tvary závislostí Pearsonův koeficient lineární korelace

r

r =1,000

r =-1,000

r =0,000

r =0,967

r =0,857

r =-0,143

r =0,934

r =0,608

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Recommend Documents