Testová Testování statistických hypoté hypotéz a analýza kategoriá kategoriální lních dat
Prof. RNDr. Jana Zvárová, DrSc.
1
Záznam epidemiologických dat Populace Nemocní Kontroly Celkem
Rizikový faktor Přítomen Nepřítomen a b c d a+c b+d
Celkem a+b c+d n
Exponovaní Neexponovaní
a, b, c, d ... pozorované (absolutní) četnosti v jednotlivých skupinách
n = a+b+c+d 2
Epidemiologické Epidemiologické ukazatele Populace Nemocní Kontroly Celkem
Rizikový faktor Přítomen Nepřítomen a b c d a+c b+d
Celkem a+b c+d n
Exponovaní Neexponovaní
Incidence exponovaných
IE =
a a+c
Incidence neexponovaných
IN =
b b+d
Incidenci většinou přepočítáváme na 1 000, 10 000 nebo 100 000 osob. 3
1
Epidemiologické Epidemiologické ukazatele Relativní riziko
RR =
IE IN
• odhaduje sílu asociace mezi rizikovým faktorem a nemocí nemocí • vyjadřuje, kolikrát častěji se může nemoc vyvinout v populaci exponovaných ve srovnání s populací neexponovaných
4
Epidemiologické Epidemiologické ukazatele Atributivní riziko
AR = I E − I N • část incidence exponované populace, která může být vysvětlena pouze přítomností rizikového faktoru • umožňuje odhalit stupeň maximálního poklesu výskytu onemocnění u exponované populace v případě, že umíme odstranit vliv rizikového faktoru
5
Příklad Chceme ověřit, zda progresivní polyartritida (PAP) souvisí s výskytem antigenu HLA-DR4. Domníváme se, že ano (to je naše medicínská hypotéza). Sestavíme tedy nulovou a alternativní hypotézu (nezapomeňte, že nulovou hypotézu volíme opačně, než je dokazované tvrzení). Tedy:
H0: PAP nesouvisí s výskytem HLA-DR4 H1: PAP souvisí s výskytem HLA-DR4
6
2
Volba hladiny významnosti - hladina významnosti souvisí s chybami, kterých se při rozhodnutí můžeme dopustit: Rozhodnutí
Skutečnost H0 platí
H1 platí
Nezamítneme H0 (nevýznamný výsledek)
Správné rozhodnutí
Chyba II. druhu ( β)
Zamítneme H0 (významný výsledek)
Chyba I. druhu (α)
Správné rozhodnutí
- hladina významnosti (α) je předepsaná hodnota, kterou pravděpodobnost chyby I. druhu nesmí překročit Obvykle α = 0,05 (zamítáme na 5% hladině významný výsledek) nebo α = 0,01 (zamítáme na hladině 1% - vysoce významný výsledek) 7
Sbě Sběr dat - tato fáze je velmi důležitá a měla by být konzultována se statistikem - sebraný vzorek dat musí být objektivní, reprezentativní a dostatečně velký Př. (pokračování): Nasbíraná data – pozorované četnosti ve čtyřpolní tabulce
Výskyt PAP Ano Ne Celkem
Antigen HLA-DR4 Ano Ne 46 28 50 184 96 212
Celkem 74 234 308 8
Volba vhodné vhodného testu Rozhodnutí o platnosti nebo neplatnosti hypotézy činíme na základě aplikace vhodného statistického testu. Každý statistický test je charakterizován testovou statistikou funkcí, která ze sesbíraných dat "vytvoří" jedno číslo.
Př.: χ2 = ∑
(pozorovaná četnost - očekávaná četnost )2 očekávaná četnost
~ χ 2 (df )
9
3
Krok 5: Výpoč Výpočet hodnoty testové testové statistiky
Sesbíraná data je třeba zpracovat a dosadit do předpisu testové statistiky.
10
Příklad (pokrač (pokračová ování) Výpoč Výpočet oč očeká ekávaných hodnot:
Výskyt PAP Ano Ne Cel kem
Anti gen HLA-DR4 Ano Ne 46 28 50 184 96 212
Celkem 74 234 308
Výskyt antigenu je rozdělen v poměru 96:212. V případě platnosti hypotézy nezávislosti obou znaků očekáváme, že ve stejném poměru budou rozděleny i skupiny s PAP a bez PAP. Tedy pro skupinu (PAP-Ano, HLA-DR4-Ano):
Očekávaný počet = 96/308 . 74 = 23 11
Naměř Nam ěřen ené éao očček eká ávan vané é hodnoty
Výskyt PAP Ano Ne Celkem
Antigen HLA-DR4 Ano Ne 46 28 23 51 50 184 73 161 96 212
Celkem 74 234 308
Červeně jsou vyznačeny četnosti očekávané v případě, že platí hypotéza nezávislosti.
Po dosazení:
χ 2 = 43,61 12
4
Krok 5: Urč Určení ení kritické kritické hodnoty Po dosazení naměřených hodnot do testové statistiky zamítáme hypotézu, pokud výsledná hodnota přesáhne jistou mez, nazývanou kritická hodnota.
?
Jak tuto hodnotu určit?
Kritickou hodnotou testu je takové číslo, které testová statistika překročí v případě, že nulová hypotéza je pravdivá, s pravděpodobností nejvýše α.
PH 0 (T ≥ kα ) ≤ α
Kritické hodnoty jsou tabelovány. 13
Příklad (dokonč (dokončení ení) Testová statistika:
χ 2 = 43,61
Testové kriterium:
χ 2 ≥ χ12−α (1) = 3,84
Rozhodnutí:
χ 2 = 43,61 ≥ 3,84 = χ12− 0, 05 (1)
H0 zamítáme na hladině 5% Zjistili jsme významnou souvislost mezi výskytem antigenu HLA-DR4 a PAP na 5% hladině.
14
Statistická Statistická a klinická klinická významnost Statistická významnost Je-li statistický test zamítnut (významný) na předepsané hladině α (hladina významnosti).
Klinická významnost Je-li efekt významný z hlediska klinické praxe (např. překročení prahové hodnoty).
G
Pojmy statistické a klinické významnosti bývají často ztotožňovány. Toto ztotožnění je však třeba provádět opatrně, neboť bývá nepřesné.
15
5
Kontingenč Kontingenční tabulky - kontingenční tabulky slouží ke studování vztahů mezi dvěma znaky Kontingenční tabulka r x s: Znak 2 Znak 1
Kategorie 1
...
Kategorie s
Kategorie 1
n11 ...
... ...
n1s ...
n1•
nr1 n•1
... ...
nrs n•s
nr• n
... Kategorie r
- kontingenční tabulka typu 2x2 se nazývá čtyřpolní tabulka
16
Test hypoté hypotézy o shodnosti struktur - test shodnosti pravděpodobnostní struktury nějakého znaku za různých podmínek Př.:
Stejná věková struktura pacientů ve dvou nemocnicích.
- tzv. χ2-test dobré shody použitý na kontingenční tabulku
17
Příklad Studie percentuálních zastoupení krevních skupin ve třech krajích severního Skotska. Je ve všech krajích stejné percentuelní zastoupení krevních skupin? Oblast Eskdale Annadale Nithdale Celkem
A 33 54 98 185
B 6 14 35 55
0 56 52 115 223
AB 5 5 5 15
Celkem 100 125 253 478
18
6
Příklad (dokonč (dokončení ení) H0 : H1 :
Pravděpodobnosti skupin jsou v jednotlivých krajích stejné. Nulová hypotéza neplatí.
Testová statistika: 3
4
χ 2 = n∑∑ i =1
Testové kriterium: Rozhodnutí:
nij2
j = 1 ni.n. j
− n ~ χ 2 ((3 - 1)( . 4 − 1)) = χ 2 (6 )
χ 2 ≥ χ 12− 0,05 (6 )
χ 2 = 10,45 < 12,59 = χ 2 (6 ) 1 − 0,05 H0 tedy nelze zamítnout na 5% hladině. 19
Dosaž Dosažená ená hladina významnosti Alternativní postup při rozhodnutí o platnosti či neplatnosti hypotézy: Určíme pravděpodobnost p, s jakou bychom mohli obdržet pozorovaná data nebo data stejně nebo více odporující nulové hypotéze za předpokladu, že je nulová hypotéza pravdivá, tato hodnota se nazývá dosažená hladina významnosti.
!
Čím menší p, tím méně důvěryhodné je H0.
Pro účely statistické analýzy volíme hladinu významnosti α a zamítneme H0, je-li:
p <α 20
McNemarů McNemarův test • Máme ná náhodný výbě výběr 18 pacientů pacientů, kteř kteří byli lé léčeni dvě dvěma rů různými antihypertenzivy A, B. Kaž Každý pacient dostá dostával po dobu jednoho mě měsíce léka A a po odezně odeznění jeho případných účinků inků po dobu jednoho měsíce lé lék B. Výsledek byl klasifiková klasifikován jako úspě spěch nebo neú neúspě spěch.
21
7
Obecný postup př při testová testování hypoté hypotéz • Formulujeme nulovou hypoté hypotézu H0 a alternativu H1. • Zvolí Zvolíme hladinu významnosti α. • Získá skáme data. • Vybereme vhodný statistický test. • Spoč Spočteme hodnotu testové testového krité kritéria. • Najdeme v tabulká tabulkách př přísluš slušnou kritickou hodnotu. • Provedeme statistické statistické rozhodová rozhodování následují sledujícím způ způsobem: JeJe-li hodnota testové testového krité kritéria vě větší než než kritická kritická hodnota, zamí zamítneme nulovou hypoté hypotézu H0 ve prospě hladině významnosti α. prospěch alternativy H1 na hladině 22
Pravidla statistické statistického rozhodová rozhodování • hladina testu α : pravdě pravděpodobnost chyby 1. druhu, tj.. zamí zamítnutí tnutí platné platné nulové nulové hypoté hypotézy • kritický obor : výsledky pokusu, př při nichž nichž se zamí zamítá nulová nulová hypoté hypotéza • síla testu (1-β): pravdě pravděpodobnost zamí zamítnutí tnutí nulové nulové hypoté hypotézy, jestliž jestliže nulová nulová hypoté hypotéza neplatí neplatí • kritický obor i hladina testu se volí volí před pokusem, pokusem, nezá nezávisle na jeho výsledku
23
Dosaž Dosažená ená hladina testu • Hladinu testu α volí volíme př předem (nesmí (nesmí záviset na datech) • Dosaž Dosažená ená hladina ( p value ) je nejmenší nejmenší hladina, na které které bychom př při daných datech nulovou hypoté hypotézu zamí zamítli • Dosaž Dosažená ená hladina ( p value ) je pravdě pravděpodobnost naš našeho výsledku a vš všech výsledků výsledků ješ ještě méně podporují podporujících nulovou hypoté hypotézu • Jednoduché Jednoduché pravidlo: p value < α H0 zamí zamítáme
⇒
24
8
Obecné Obecné sché schéma statistické statistického rozhodová rozhodování Skutečnost Rozhodnutí
H0 platí
H0 neplatí
H0 zamítnout
chyba 1. druhu α
správně
H0 nezamítnout
správně
chyba 2. druhu β
8 1 5
25
Chyba 1.a 2. druhu (α (α, β) H0 x H
1
H0
H1
β
α
26
9