Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II
Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení
Teoretické rozložení
1 e 2
x 2
Teoretické rozložení-matematické modely rozložení Kvantitativní spojité veličiny Výběrové rozložení - určeno třídními intervaly, četnostmi velikost výběru, výběrový průměr, rozptyl
výběrové charakteristiky liší se pro jednotlivé výběry Teoretické rozložení – určeno frekvenční křivkou (hustota pravděpodobnosti), průměrem a rozptylem základního souboru
Parametry konstanty
Teoretické rozložení-matematické modely rozložení Kvalitativní – nominální ,diskrétní veličiny Výběrové rozložení - určeno výčtem četností (absolutní, relativní) možných hodnot
výběrové charakteristiky liší se pro jednotlivé výběry Teoretické rozložení – určeno výčtem pravděpodobností jednotlivých hodnot – pravděpodobnostní funkce
Parametry konstanty
Normální (Gaussovo) rozložení Zásadní pro spojité kvantitativní veličiny
1 e 2
32
34
( x )2
36
38
40
42
44
46
48
Normální (Gaussovo) rozložení
1 e 2
( x )2
= < = <
Normální (Gaussovo) rozložení praktický význam směrodatné odchylky
1 e 2
( x )2
Teoretické rozložení pro nespojité, diskrétní znaky Nejjednodušší případ – alternativní znak (ANO,NE) Rozložení četnosti výskytu jevu – Binomické rozdělení Příklad: 30 myší, π -pravděpodobnost úmrtí Jaká je pravděpodobnost, že z 30-ti myší zahyne x 30 x P ( x) (1 ) 30 x x
Obecně pro n : n k
n P( x) x (1 ) n x x
Kombinační číslo – udává počet kombinací k prvků z n možných n n! k k!( n k )!
n! n (n 1) (n 2) ( n 3)............. 1
Binomické rozložení
0
10 π=0,5
20 π=0,1
30 π=0,9
Poissonovo rozložení Nespojitá náhodná veličina nabývající pouze celočíselné hodnoty 0,4
e x! x
0,35 0,3 0,25 0,2 0,15
λ=1
0,1
λ=2
0,05
λ=5 λ=10
0 1
3
5
7
9
11
13
15
17
19
21
23
Statistické odhady Cíl : odhadnout neznámé parametry základního souboru pomocí výběrových charakteristik
Bodové odhady Odhadujeme neznámý parametr jedním číslem (bodem) Př.: odhad průměru základního souboru pomocí výběrového průměru
Intervalové odhady kolem bodového odhadu utvoříme interval, který s předem zvolenou vysokou pravděpodobností pokryje odhadovaný parametr Interval spolehlivosti, konfidenční interval 95-procentní, 99-procentní
Intervalový odhad průměru základního souboru Základní soubor
x2
x1
x3
xn výběry
x4 x5
x 1, x
2,
x 3, x
4 ........
bodové odhady - jaké je jejich rozložení ?
Intervalový odhad průměru základního souboru Kvantitativní veličina má normální rozložení ( , )
výběrové průměry
n > 30
n
︵
μ
Mají normální rozdělení :
σ
x 1, x 2, x 3,........ x k ︶
σ n
… střední chyba aritmetického průměru
Intervalový odhad průměru základního souboru Výběrový průměr se neodchýlí od průměru základního souboru o více než 1,96 /√n s pravděpodobností 0,95
6 9 , 1
x
1 s n
95%-ní interval spolehlivosti pro průměr základního souboru
8 5 , 2
x
1 s n
99%-ní interval spolehlivosti pro průměr základního souboru
s – výběrová standardní odchylka
100 náhodných výběrů z jedné populace 95%-ní interval spolehlivosti
Celkový průměr
x 1.96
s n 1
100 náhodných výběrů z jedné populace s Interval x n 1
Celkový průměr
Statistické testování hypotéz Jde o prověření nejrůznějších předpokladů a domněnek, které vyplývají ze stanovených cílů výzkumu, např: • zda se 2 soubory liší v průměru nějakého znaku • zda výskyt nějaké nemoci závisí na kouření • zda lék A je účinnější než lék B • ……
Jednoduchý příklad Chceme ověřit hypotézu, zda pravděpodobnost úmrtí pokusné myši po vystavení určité nákaze je p=0.3 Připravíme pokus : 10 myší vystavíme nákaze a zjistíme počet uhynulých Podle počtu uhynulých myší x musíme rozhodnout, zda hypotéza o úhynu platí JAK ??? Pokud skutečně platí, že pravděpodobnost úhynu je 0.3 jde o binomické rozložení s parametry n=10 a p=0,3
Binomické rozložení Pravděpodobnost úhynu x myší z 10ti, při pravděpodobnosti smrti p=0,3
10 x 0,3 (1 0,3)10 x x π=0,3
počet uhynulých
P=0,04
0
pravděpodobnost 0
0,02825
1
0,12106
2
0,23347
3
0,26683
4
0,20012
5
0,10292
6
0,03676
7
0,009
8
0,00144
9
0,00014
10
0,00001
10 π=0,3
P=0,96
Statistické testování hypotéz - základní pojmy Testovaná hypotéza (nulová) H0 ….. Alternativní hypotéza A …..
p = 0,3 p ≠ 0,3
pokud počet uhynulých x = 0, 7, 8 , 9 , 10 : Pravděpodobnost uhynutí není p=0.3 ----> nastal jev za platnosti hypotézy H0 málo pravděpodobný ( p=0.04) hypotézu zamítáme pokud počet uhynulých x = 1, 2, 3 , 4 , 5 : Pravděpodobnost uhynutí může být p=0,3 ----> hypotézu nezamítáme, pravděpodobnost tohoto výsledku je vysoká (p=0.96) !!! Neznamená to přijetí hypotézy !!! Statistické testy mohou testované hypotézy pouze vyvracet , ne dokazovat
Statistické testování hypotéz - základní pojmy Testovaná hypotéza (nulová) H0 ….. Alternativní hypotéza A …..
p = 0,3 p ≠ 0,3
Rizika rozhodování Hypotézu zamítáme, ale platí --> chyba 1.druhu pravděpodobnost chyby 1. druhu = hladina významnosti = 0.05
= 0.01
Hypotézu nezamítáme, ale neplatí --> chyba 2.druhu pravděpodobnost chyby 2. druhu rozhoduje o síle testu
Významnost statistického testu Hypotézu nezamítáme
- test není statisticky významný
– pozorované odchylky od hypotézy je možno vysvětlit pouhou náhodou důvodem může být i to, že rozdíl je tak malý, že na jeho prokázání nestačí použitý rozsah souboru.
Hypotézu zamítáme - test je statisticky významný – pozorované odchylky od hypotézy není možno vysvětlit pouhou náhodou odchylka od hypotézy je tak velká, že při opakování šetření bychom s velkou pravděpodobností hypotézu opět zamítli
Testování hypotéz – srovnání průměrů Testuji, zda se 2 soubory liší v průměru nějakého znaku: 1.soubor…… 1 1, 1 2.soubor…….
n,x s n 2, x 2 , s 2
Předpoklady: n1 , n2 > 30 , rozložení dat zhruba normální ,stejné rozptyly, nezávislé výběry Hypotéza H0 :
1 = 2 =
Hypotéza A :
1 ≠ 2
Za platnosti H0 :
(x x )
rozdíly kolísají kolem nuly podle normálního rozložení se 1 2 směrodatnou odchylkou - střední chyba rozdílu dvou průměrů :
s x 1 x 2 s x 1 s x 2 2
2
z vlastností normálního rozložení plyne, že s pravděpodobností 0.95 leží v intervalu
1.96 s x 1 x 2
Testování hypotéz – srovnání průměrů Testuji, zda se 2 soubory liší v průměru nějakého znaku: 1.soubor…… 2.soubor…….
n1, x 1, s1 n 2, x 2 , s 2
Hypotéza H0 :
1 = 2 =
Hypotéza A :
1 ≠ 2
U – test ( t – test) :
u
x1 x 2 s x 1 x 2
u > 1.96
rozdíl je statisticky významný na hladině
= 0.05
u > 2.58
rozdíl je statisticky významný na hladině
= 0.01
Testování hypotéz – test závislosti 2 kvalitativních znaků Kontingenční tabulky četnost pozorovaná
četnost očekávaná
H0 – typ nádoru nezávisí na jeho lokalizaci A – typ nádoru závisí na jeho lokalizaci
Kontingenční tabulky
Pokud platí H0 : P( A1∩B1) = P(A1) . P(B1) …………..atd. = (44 / 152) . (85 / 152) Očekávaná četnost = (44/152) . (85/152) . 152 = 24,6
2-test nezávislosti
=
pozorované
- očekávané očekávané
2
Kontingenční tabulky
2=
n
- e ij
2
ij
e ij
= 9,25
Platnost testované hypotézy prověříme srovnáním s kritickou hodnotou -
závisí na velikosti tabulky
2=
n
Kontingenční tabulky
ij - e ij
2
e ij
= 9,25
Protože vypočítaná hodnota 2 je menší než 5%-ní kritická hodnota (9,49) testovanou hypotézu nezamítáme
Vztah dvou kvalitativních veličin Kontingenční tabulka – multiplikativní míry Nemoc Exp.
+
-
+
a
b
a+b
-
c
d
c+d
a+c
b+d
N
Šance na onemocnění Exp.
Neexp.
Oexp
Oneexp.
a a a b b b ab
Multiplikativní míry
c d
a Rexp Riziko exponovaných ab c Riziko neexponovaných Rnexp cd Relativní riziko a a (c d ) a b RR c c ( a b) cd Poměr šancí (křížový poměr) a ad OR b c bc d
Nezávisí-li nemocnost na expozici je RR=1=OR
Vztah dvou kvalitativních veličin Šance na onemocnění
Poměr šancí (křížový poměr) a ad b OR c bc d
Interpretace: Odds ratio = 1 … nezávisí onemocnění na expozici Odds ratio > 1 … pozitivní asociace – větší šance onemocnět u exponovaných Odds ratio < 1 … negativní asociace – větší šance onemocnět u skupiny neexponovaných
Vztah spojitých veličin Dvě spojité veličiny Histogram je 3-rozměrný graf
Historie analýzy vztahu spojitých veličin 1886 Francis Galton - model lineární regrese y
reziduum – odchylka od modelu
yi α βxi εi
170
i – jednotlivá pozorování
Výška syna
y - závisle proměnná
160
x - nezávisle proměnná
180
190
Vztah výšky otce a syna
160
0
165
170
175
180
Výška otce
185
190
195
x
Jak je model regrese konstruován? Hledáme α a β tak, aby reziduální rozptyl 2
1 N yi α βxi se N 2 í 1 byl minimální
i – té residuum
ei yi (α βxi ) = skutečnost - odhad
Nekauzální vztah - korelace Pearsonův koeficient lineární korelace r
N
200
x x x x i
i 1
2
190
i 1
2
i
-1 ≤ r ≤ 1
180
N
y
170
i 1
i
160
i
Výška syna
r
x x y
150
N
160
165
170
175
180
Výška otce
185
190
195
Tvary závislostí Pearsonův koeficient lineární korelace
r
r =1,000
r =-1,000
r =0,000
r =0,967
r =0,857
r =-0,143
r =0,934
r =0,608