Biostatistika a matematické metody epidemiologie - stručné studijní texty Bohumír Procházka, SZÚ Praha
1
Co můžeme sledovat
Pro charakteristiku nebo vlastnost, kterou chceme sledovat zvolíme termín jev. Pod tímto pojmem si můžeme představit výšku postavy, její hmotnost, množství cholesterolu v krvi, vzdělání, skutečnost zda sledovaná osoba je nemocná, rodinný stav či krevní skupina a podobně. Abychom s těmito jevy mohli pracovat, potřebujeme je převést do nějaké formální podoby, tj. vyjádřit je číselnou hodnotou nebo nějakou skupinou kódů. Tento číselný obraz skutečnosti nazveme znakem. Formálně můžeme sledované znaky rozdělit do několika skupin:
Kvalitativní
znaky jsou charakteristiky sledovaných objektů, jejichž hodnoty patří do omezené skupiny hodnot. Například pohlaví nebo vzdělání. Dále je dělíme na:
Nominální znaky jsou takové, které není možno navzájem uspořádat. Ordinální znaky jsou naopak ty, které je možno navzájem uspořádat, ale není známa míra toho, jak jsou od sebe jednotlivé kategorie vzdáleny. Alternativní (binární) znaky jsou ty, které mohou nabývat pouze dvou různých hodnot (např Ano/Ne).
Kvantitativní
znaky, jsou ty, jejichž hodnoty jsou nejen uspořádány, ale vyjadřují dokonce i určitou míru (Např. může být věk, různé míry, váhy, koncentrace, počty zárodků či případů). Můžeme je rozdělit: Diskrétní znaky jsou ty, které nabývají pouze celočíselných hodnot (počty).
Spojité znaky jsou ty, u kterých předpokládáme, že je možno je měřit s libovolnou přesností (různé míry, váhy, . . .). Všechny charakteristiky však jsou zkresleny jistou mírou „náhodyÿ, a proto je nazýváme náhodnými veličinami.
2
Populace a výběr
Pokud používáme deskriptivní statistiku, týkají se naše tvrzení pouze souboru na kterém byla prováděna měření, pozorování a pod. . V tomto případě je výběr totožný s základní populací. Získané výsledky popisují pouze zkoumaný soubor a nesnaží se o žádné zobecnění na větší, nebo jinou skupinu objektů. Jiná situace nastává, pokud je požadováno použití induktivní statistiky. Ta se snaží o zobecnění - extrapolaci získaných výsledků na širší skupinu objektů. Celá induktivní statistika je založena na dvou pojmech: Základní populace a její charakteristiky. Jedná se často o velmi rozsáhlý soubor jehož vlastnosti nás zajímají. Můžeme je definovat dvěma způsoby: - První je výčet prvků souboru (například soubor všech voličů, soubor evidovaných diabetiků). - Druhou možností je popis souboru pomocí vlastností jeho členů, bez omezení na konkrétní skupinu osob. Například do souboru budou patřit osoby v produktivním věku léčené na diabetes. V tomto případě neomezujeme soubor na žádnou konkrétní populaci. Z pohledu induktivní statistiky nás zajímá jaké hodnoty sledované veličiny mají jedinci z celé populace. Mluvíme pak o rozložení sledované veličiny. Rozložením sledované veličiny v základní populaci rozumíme souhrn všech hodnot této veličiny základní populace. Tedy seznam všech možných hodnot této veličiny společně s četnostmi těchto hodnot v základní populaci.
1
Výběr a výběrové charakteristiky. Výběr je skupina objektů, na kterých provádíme šetření. To, jak výběr odpovídá základní populaci, určuje i kvalitu výsledku - přesněji řečeno kvalitu zobecnění získaných závěrů na základní populaci. Popisné charakteristiky výběru pak slouží jako odhady charakteristik celé populace. Výběrové charakteristiky jsou tedy odhadem populačních charakteristik.
3
Náhoda - pravděpodobnost - rozložení pravděpodobnosti
Je zřejmé, že z formálního hlediska jsou nejjednodušší alternativní znaky. Často informují o přítomnosti nějaké vlastnosti, indikují nemoc či expozici.
3.1
Alternativní veličiny
Při studiu alternativní veličiny je přirozené zajímat se o to, jakou hodnotu můžeme očekávat. Uvažujme alternativní (binární) veličinu, která nabývá dvou hodnot (např. ano a ne). Můžeme třeba položit otázku: „Má sledovaná osoba modré oči?ÿ. Označme tuto veličinu symbolem O. Na první pohled je zřejmé, že nelze bez ověření říci, zda veličina O nabývá hodnoty „Anoÿ či „Neÿ. Rozložení v základní populaci je popsáno dvěma číselnými hodnotami - počtem modrookých osob a počtem všech ostatních v celé populaci. Podobně je popsáno i rozložení výběru, které nám slouží jako odhad neznámého rozložení celé populace.
3.2
Pravděpodobnost - charakteristika alternativní veličiny v základní populaci
K tomu, aby bylo možno s náhodou nějak pracovat, je ji kvantifikovat. Jako míra očekávání zvolené odpovědi (např. „Anoÿ byl zaveden pojem pravděpodobnost. Ta nabývá hodnoty mezi 0 a 1 a pro její označení se používá písmeno P a je definována jako podíl počtu všech osob s modrými oči v celé základní populaci k jejímu rozsahu. Pravděpodobnost, že například veličina O nabývá hodnoty „Anoÿ, značíme: P (O = Ano) Teoreticky mohou nastat dva extrémní případy P (O = Ano) = 1 a P (O = Ano) = 0. Má-li výrok (O = Ano - sledovaná osoba má modré oči) pravděpodobnost rovnu 1 (resp. 0), mluvíme o jistém výroku (resp. nemožném). Někdy mluvíme i o takzvané podmíněné pravděpodobnosti, t.j. o pravděpodobnosti sledovaného jevu pokud nabývá jiná doprovodná veličina konkrétní požadované hodnoty. Označme ještě další veličinu, například V - „sledovaná osoba má černé vlasyÿ. Pravděpodobnost, že sledovaná černovlasá osoba má modré oči značíme P (O = Ano|V = Ano). Často se stává, že sledujeme současně různé jevy a ptáme se na jejich vztah. Řekneme, že dva jevy V a O jsou nezávislé, pokud pravděpodobnost společného výskytu modrých očí a černých vlasů P (O =„Anoÿ a současně V =„Anoÿ) je rovna součinu: P (O = Ano&V = Ano) = P (O = Ano) · P (V = Ano)
3.3
Relativní četnost - charakteristika alternativní veličiny ve výběru
Neznámou hodnotu pravděpodobnosti sledovaného jevu v základní populaci potřebujeme odhadnout. n1 počet odpovědí „Anoÿ ve výběru na otázku O. n2 počet odpovědí „Neÿ ve výběru na otázku O. n. celkový počet odpovědí (n. = n1 + n2 ). osob ve výběru s modrýma očima Relativní četností nazveme p1 = nn1. = počet počet všech osob ve výběru Pozorovaným hodnotám ni (i = 1, 2) obvykle říkáme pozorovaná četnost nebo absolutní četnost. V praktických aplikacích je relativní četnost často vyjadřována v procentech, promilích, nebo v počtech pozorovaných jedinců na 100 000.
3.4
Nominální veličiny
Podobně, jako u alternativních veličin, je možno mluvit o pojmu pravděpodobnosti i u nominálních veličin. Pro ilustraci můžeme uvažovat rodinný stav matek. Řekněme, že tato veličina může nabývat hodnot „Svobodnáÿ, „Vdanáÿ, „Rozvedenáÿ a „Vdovaÿ s pravděpodobnostmi π1 , π2 , π3 a π4 , kde například π1 =
počet svobodných matek v základní populaci počet všech matek v základní populaci
Jednotlivé kategorie označme čísly 1, 2, 3 a 4. Pak můžeme mluvit o četnostech n1 , relativních četnostech i , i=1,. . .,4. Je zřejmé, že jejich součet je roven jedné. pi = n1 +n2n+n 3 +n4
2
3.5
Ordinální veličiny
Stejně je možno uvažovat i o ordinálních veličinách. Jejich kódování je však nutno provést tak, aby respektovalo přirozené uspořádání veličiny. Například pokud pracujeme s veličinou D = „ dosažené vzděláníÿ, je přirozené uspořádat jednotlivé hodnoty takto: „základníÿ, „odbornéÿ, „středoškolskéÿ a „vysokoškolskéÿ. To, že sledovaná veličina je uspořádatelná, je užitečné využít. Poté co jednotlivé odpovědi vzestupně okódujeme (1,. . .,4), je možno zavést pro jednotlivé kódy i pojem kumulativní pravděpodobnost. Kumulativní pravděpodobnost je pak pravděpodobnost toho, že libovolná osoba (ze základní populace) má nejvýše právě uvažované vzdělání.
3.6
Kvantitativní veličiny
Věnujme se nyní skupině kvantitativních veličin. Tyto veličiny mohou obecně nabývat velkého množství různých hodnot. Charakterizovat rozložení výběru pomocí relativních četností pro jednotlivé pozorované hodnoty je většinou krajně nepřehledné, protože možných hodnot je mnoho. Rozložení spojitých veličin se snažíme popsat pomocí pouze několika číselných parametrů a matematického modelu, který dostatečně dobře popíše celé rozložení. Základním pojmem charakterizujícím populaci je distribuční funkce, často značená F (x). Je to kumulativní pravděpodobnost, že sledovaná veličina nabývá hodnotu menší nebo rovnu x F (x) = P (D ≤ x)
Tato funkce je rostoucí od nuly k jedničce. Byly vytvořeny různé modely této funkce, nazývané teoretickým rozložením pravděpodobnosti. Výběrovým protějškem distribiční funkce je empirická distribuční funkce Fn (x): nx n kde n je počet pozorování a nx je počet pozorování menších nebo rovných x Fn (x) =
3.7
Spojité veličiny
Často používanou výběrovou charakteristikou je histogram. Je to seznam všech pozorovaných hodnot sledované veličiny a počtů, kolikrát byly tyto hodnoty pozorovány (tedy seznam dvojic: pozorovaná hodnota, její četnost). Častěji jej ale chápeme jako sloupcový graf, kde pro konkrétní hodnotu x pozorované veličiny vztyčíme nad bodem x x-ové osy sloupec jehož výška je úměrná četnosti příslušné k hodnotě x uvažované veličiny. Pro spojité veličiny je ale takovéto zobrazení většinou nepoužitelné (protože pro spojité veličiny by jednotlivé četnosti neměly být větší než jedna). Proto nejprve rozdělíme číselnou osu na stejně velké intervaly. Přitom je důležité, abychom zvolili „rozumnouÿ délku dělení. Postupně pro všechny intervaly zobrazíme relativní četnosti výskytu pozorování v těchto intervalech. Tvar histogramu silně závisí na zvolené délce, ale i na počátku dělení. Histogram se s rostoucím počtem pozorování a jemnějším dělením stále více podobá své teoretické hodnotě. Histogram souží jako odhad rozložení veličiny v populaci, přesněji je odhadem hustoty (teoretického tvaru histogramu).
3.8
Celočíselné veličiny
Již z jejich názvu je vidět, že se jedná o veličiny vyjádřené pouze celými čísly, většinou se jedná o počty nějakých objektů (počty buněk, bakterií, výskytu sledované diagnosy, a pod.). Proto jsou tyto veličiny obvykle nezáporné (pokud neuvažujeme např. „změnu počtu . . .ÿ). Rozložení celočíselné veličiny můžeme popsat soustavou pravděpodobností pro jednotlivé hodnoty (0, 1, 2, . . .). K číselné presentaci výběrového rozložení se používají relativní nebo kumulativní relativní četnosti. Častěji se ale používá grafické zobrazení. Nejužívanější je histogram pro jednotlivé pozorované hodnoty, případně empirická distribuční funkce. Stejně jako u spojitých veličin je velmi užitečné popsat studované rozložení matematickým modelem, který je dán jen několika málo parametru. Pracovat přímo s distribuční funkcí je obtížné, protože je popsána velkým množstvím čísel. Rádi bychom pracovali jen s několika málo jednoduchými charakteristikami. Dříve než přistoupíme k popisu charakteristik, označme: X sledovanou náhodnou veličinu. n rozsah výběru - počet pozorovaných nebo naměřených hodnot sledované veličiny xi (i = 1, 2, , ..., n) jednotlivé naměřené hodnoty µ sledovaný parametr veličiny X (například průměr) v základní populaci. x ˆ odhad parametru µ vypočtený z výběru (například výběrový průměr x ¯).
3
4
Míry polohy
První co nás zajímá na sledované veličině je hodnota, která je schopna reprezentovat celý výběr. Chceme znát „středÿ všech hodnot populace, či část číselné osy, kde se pozorování nacházejí. Pokud uvažujeme teoretické rozložení populace, mluvíme o střední hodnotě (někdy bývá použit i termín očekávaná hodnota) a značíme ji písmenem E (např. E(X) = µ).
4.1
Průměr
Průměr x ¯ je nejčastěji používaná charakteristika. Vypočteme jej jako součet všech hodnot dělený jejich počtem. Máme-li ve výběru n pozorování xi , pak můžeme formálně zapsat: n
x ¯=
1X xi n i=1
Průměr je často používaná míra polohy, která za svou oblibu vděčí jednak tomu, že ji je možno jednoduše vypočíst, ale i proto, že je jedním z dvou přirozených parametrů normálního rozložení. Pro typy rozložení, jiné než je normální, však tento odhad již nemusí být vhodný. Například pokud sledujeme koncentraci látky nebo hmotnost postavy, je vhodnější pracovat spíše s logaritmy získaných hodnot než se samotnými hodnotami. Mluvíme pak o logaritmicko-normálním rozložení . Odlogaritmovaný průměr logaritmů pak nazýváme geometrický průměr xgeom . Vypočteme jej: v u n Pn uY 1 ln(xi ) n n i=1 xi = t xgeom = e i=1
Nepříjemnou vlastností průměru je, že již jedna odlehlá hodnota může výrazně ovlivnit hodnotu počítaného odhadu.
4.2
Medián
Další často používanou charakteristikou je medián xmed , který je jednoduše řečeno, prostřední měřená hodnota. Pro formální zápis definice mediánu seřaďme nejprve jednotlivé hodnoty xi podle velikosti a označme písmenem x s pořadovým číslem v hranaté závorce jako index (x[1] ≤ x[2] ≤ x[3] ≤ ... ≤ x[n−1] ≤ x[n] ). Medián pak definujeme: nje liché, x[ n+1 2 ] xmed = x[ n2 ] +x[ n2 +1] n je sudé. 2
Medián není sice pro normální rozložení nejlepším odhadem, má však jednu velmi užitečnou vlastnost je stabilní. Na rozdíl od průměru x ¯, medián se nezmění, pokud bychom použité hodnoty libovolně vzdálili od mediánu.
4.3
Modus
Další používanou charakteristikou je modus - nejpravděpodobnější hodnota. Jako výběrový odhad modu je používána nejčastěji pozorovaná hodnota. Pro veličiny, které jsou měřeny s velkou přesností je tento odhad obzvlášť pro menší soubory nepoužitelný.
4.4
Kvantil
Kvantil je charakteristika která se z této skupiny poněkud vymyká. Je zobecněním pojmu medián. Kvantil xα je definován jako hodnota taková, že pravděpodobnost menších hodnot je rovna α. Máme-li soubor o n pozorováních, pak právě αn pozorování je menších než výběrový kvantil xα . Někdy bývá zvykem používat i názvy první a druhý tercil, které dělí pozorování na tři stejné skupiny (popřípadě kvartily na čtyři, decily na deset a konečně percentily na sto).
5
Míry měřítka
K charakteristikám polohy je důležité znát i míru toho, jak se mohou lišit hodnoty pro jednotlivé objekty sledované populace. K tomu slouží skupina charakteristik, které se nazývají míry měřítka. Jinými slovy: míry měřítka nepopisují přímo sledovanou hodnotu, ale její kolísání - ať již je způsobeno chybou měření nebo přirozenou variabilitou sledovaných objektů.
4
5.1
Rozptyl
Rozptyl var(X) nebo σx2 , kde X je symbol označující sledovanou veličinu, je nejčastěji používanou mírou měřítka (někdy je také nazýván variance). Výběrovým protějškem je výběrový rozptyl. Zjednodušeně řečeno, je to „průměrnýÿ čtverec „vzdálenostíÿ naměřených hodnot od průměru. n
s2x =
1 X 2 (xi − x ¯) n − 1 i=1
Takto definovaný rozptyl je optimálním odhadem měřítka pro normální rozložení a je používán společně s průměrem. Směrodatná odchylka někdy bývá nazývána též standardní odchylka, je charakteristika, která je často značená S.D. nebo sx a je p sx = var(X)
Střední chyba průměru je další charakteristikou měřítka (ne již přímo sledované náhodné veličiny, ale jejího průměru). Vyjadřuje míru variability výběrového průměru a bývá často značena S.E. nebo sx¯ . Je rovna r var(X) sx sx¯ = =√ n n
Tato charakteristika již ale není populační charakteristikou, ale je charakteristikou výběru, přesněji řečeno odhaduje charakteristiku měřítka výběrového průměru. Obě poslední charakteristiky jsou úzce spjaté s intervalovými odhady. S.E. je používán pro konstrukci intervalů spolehlivosti a S.D. pro konstrukci tolerančních intervalů. Pozor! Jejich záměnou může dojít k zcela mylné interpretaci výsledků. V praxi se někdy při popisu výsledků používá vyjádření x ¯ ± S.D. nebo x ¯ ± S.E.. Toto vyjádření ale navádí k zcela chybné interpretaci. Čtenář, který není dostatečně seznámen s principy matematické statistiky si nutně takovýto výraz vysvětlí jako „interval, v kterém je sledovaná hodnotaÿ. Tím může mínit buď některou charakteristiku rozložení (např. průměrnou výšku postavy), nebo hodnoty jedinců základní populace (jednotlivé výšky postavy). To jsou dva zcela odlišné pohledy. Navíc ale výše zmiňovaný interval není možno interpretovat takto interpretovat.
5.2
Rozpětí
Jako míra měřítka se nabízí i takzvané rozpětí - vzdálenost nejmenší a největší pozorované hodnoty. Tato charakteristika je však silně závislá na rozsahu výběru. Čím více pozorování máme k disposici, tím menší může být minimální hodnota, případně větší maximální hodnota. Je tedy zřejmé, že takto definované rozpětí není vhodnou mírou.
5.3
Mezikvartilové rozpětí
Pokud není sledovaná veličina normálně rozložena, obzvláště pokud jsou ve výběru obsažena odlehlá pozorování, je často rozumné vliv těchto extrémních hodnot omezit. Charakteristikou, která je málo citlivá na odlehlá pozorování je mezikvartilové rozpětí, které je definováno jako rozdíl prvního a třetího kvartilu: x75% − x25%
Na rozdíl od rozpětí se zde již neprojevuje efekt rozsahu výběru, přesněji řečeno u maxima a minima.
5.4
Variační koeficient
Někdy je v praxi používáno relativní vyjádření míry polohy vzhledem k měřítku. Nazýváme jej variační koeficient: V =
6
S.D. · 100% x ¯
Ostatní charakteristiky
Někdy bývají používány i další charakteristiky, které není možno zařadit do žádné z obou skupin. Jsou to charakteristiky, které poskytují další informace o rozložení sledované veličiny.
5
6.1
Šikmost
Je veličina, která měří asymetrii rozložení. T.j. udává, jsou-li pravděpodobnější větší odchylky na jednu, než na druhou stranu. Tato veličina je definována jako E(X − E(X))3 (var(X))3/2 Výběrová šikmost je pak 1 n
Pn
3
(xi − x ¯) 3 s Odchylky šikmosti od nuly poukazují na nesprávnost předpokladu normality. Například logaritmicko-normální rozložení má zápornou šikmost.
6.2
i=1
Špičatost
Tato charakteristika popisuje plochost či špičatost hustoty rozložení sledované veličiny. Je definována: E(X − E(X))4 −3 (var(X))2 Výběrová špičatost je pak 1 n
Pn
4
(xi − x ¯) −3 s4 Takto definovaná špičatost je pro normální rozložení vždy rovna nule (někteří autoři však používají k definici špičatosti výraz neobsahující konstantu 3). i=1
Věnujme se nyní různým typům rozložení pravděpodobností. Říkali jsme si, že pro popis rozložení veličiny je užitečné používat matematické modely rozložení pravděpodobností, které je možno popsat pomocí pouze několika málo parametrů. Podle typu sledované veličiny je možno rozdělit rozložení do několika skupin:
7
Nominální veličiny
O rozložení nominálních veličin jsme se již vlastně zmínili. Je jej možno popsat pravděpodobnostmi jednotlivých možných hodnot. Jak jsme si již říkali, alternativní veličiny je možno popsat pouze pomocí jediného parametru - pravděpodobnosti π. Někdy pak mluvíme o alternativním rozložení. Pokud nominální veličina nabývá více hodnot (například k), je k popisu jejího rozložení nutno k − 1 pravděpodobností π1 ,. . .,πk−1 (poslední pravděpodobnost je vždy možno dopočítat jako doplněk do jedné).
8
Diskrétní kvantitativní veličiny
Tyto veličiny popisují kolikrát byl daný jev pozorován. Pokud se soustředíme na takovouto kvantitativní veličinu, uvažujeme vztah mezi pravděpodobnostmi, že tato veličina nabývá různých hodnot, který je možno popsat pouze pomocí malého počtu parametrů. Dále si ukážeme různé modely rozložení pravděpodobností.
8.1
Binomické rozložení
Představme si, že sledujeme populaci skládající se z n osob, pak se můžeme zajímat o pravděpodobnost, že v tomto výběru bude právě x nemocných. Rozložení takovéto veličiny nazýváme binomické. Samozřejmě je možno vypočíst i základní charakteristiky. Střední hodnota (např. střední počet nemocných) je rovna: E(X) = nπ a pro rozptyl platí: var(X) = nπ(1 − π)
6
8.2
Poissonovo rozložení
U binomického rozložení jsme uvažovali, že sledujeme souboru omezeného rozsahu. Často se stává, že sledovaná populace je velmi rozsáhlá nebo dokonce „nekonečnáÿ. Například můžeme sledovat počet zárodků na kultivační půdě (může být x = 0, 1, 2, 3, ...) nebo počet infektů horních cest dýchacích u dětí během prvních tří let věku. Často pak neznáme horní mez pro sledované počty. Základní popisné charakteristiky - střední hodnota a rozptyl jsou: E(X) = var(X) = λ Spolu s binomickým rozložením je Poissonovo rozložení nejčastěji používáno pro popis veličin, které vyjadřují počet nalezených objektů našeho zájmu.
9
Spojité kvantitativní veličiny
Další skupinu veličin tvoří ty, které popisují různé míry, měřitelné s „libovolnou přesnostíÿ. Patří sem různé délky, plochy, objemy, váhy, koncentrace a podobně.
9.1
Normální (Gaussovo) rozložení
Je nejčastěji používaným rozdělením pro spojité náhodné veličiny. Pro názorné vysvětlení se uchýlíme k zjednodušení, které není z formálního hlediska přesné, ale umožní jednodušší pochopení. Představme si, že chceme měřit nějakou délku ale na měření máme k disposici nástroj, kterým je možno měřit pouze velmi malé délky (například měříme výšku postavy mikrometrem o rozsahu 0-25mm). Rozdělíme tedy měřenou délku na „malé úsekyÿ (v našem případě 20mm), ty změříme a sečteme. V praxi nebude toto měření jednotlivých dílků absolutně přesné. Dá se předpokládat, že tyto chyby měření budou mít stejné rozložení a nebudou navzájem závislé. Měřená délka, získaná jako součet, pak bude mít rozložení, které je symetrické okolo svého středu (průměru x ¯) má tvar velmi blízký binomickému rozložení s pravděpodobností 0, 5. Pokud bychom si představili, že dílčí, měřené úseku jsou velmi (přesněji řečeno neomezeně) malé, pak získáme rozložení, které nazýváme normální či Gaussovo. Na tomto vysvětlení je názorně vidět, že součet či rozdíl normálních veličin je opět normální. Tedy i průměr skupiny normálně rozložených veličin je normální. Dokonce platí, že čím více nezávislých náhodných veličin sčítáme, tím je jejich součet blíže normálnímu rozložení i bez ohledu na to, zda má původní veličina normální či jiné rozložení.
9.2
Logaritmicko-normální rozložení
Často se stává, že rozložení není symetrické. Příkladem může být hmotnost postavy, koncentrace různých látek a mnohé další veličiny. Řekněme, že hmotnost dospělého muže je 80kg. Uvažujeme-li odchylku 50kg, pak je zřejmé, že v populaci se mnohem častěji najdou dospělí muži o hmotnosti 130kg než o hmotnosti 30kg. d nazývaný Jako charakteristika polohy se pak často používá odlogaritmovaný průměr logaritmů exp(ln(X)) geometrický průměr.
10
Výběrová rozložení
Konečně je nutno zmínit se i o rozloženích používaných ke konstrukci statistických testů. Tyto testy jsou vlastně prováděny tak, že vytvoříme tzv. testovací statistiku a test pak provádíme na základě toho, zda její hodnota „odpovídáÿ rozložení testovací statistiky pokud by testovaná skutečnost byla pravdou.
11
Odhady populačních charakteristik
V praxi jsme často postaveni před problém stanovení určitých charakteristik rozložení sledované veličiny v základní populaci, je nutno pracovat s hodnotami sledovaných veličin (např. hladiny cholesterolu v krvi), které popisují populaci (přesněji řečeno základní populaci hladin cholesterolu) jako celek. V této kapitole se budeme zabývat principy testování a stanovením obecně platných hodnot sledovaných charakteristik - odhadů. Skutečné hodnoty parametrů rozložení sledované náhodné veličiny nemůžeme nikdy znát, můžeme pouze získat její odhadnout, který je zatížen jistou neurčitostí, kterou nazýváme náhodnou chybou, obsaženou v každém měření a dokonce i v každém našem odhadu. Pokud konstruujeme odhady charakteristik populace, můžeme toto zkreslení libovolně zmenšit rozsahem výběru, ale nikdy jej neodstraníme.
7
V dalších úvahách budeme často používat popis pozorování xi náhodné veličiny X pomocí jejího parametru polohy (nejčastěji populačního průměru µ): xi = µ + εi kde εi představuje chybu (variabilitu) veličiny X. Jestliže máme vytvořen takovýto model, je naším cílem získat o informace o jeho charakteristikách, odhadnout např. střední hodnotu µ sledované náhodné veličiny X. Odhady je možno v principu rozdělit do dvou základních skupin:
11.1
Bodové odhady
Bodovým odhadem x ˆ charakteristiky µ náhodné veličiny X nazveme číslo, které považujeme za dobrého representanta odhadované charakteristiky µ. Nikde však není řečeno, že odhad x ˆ je přesně roven skutečné hodnotě µ. Kvalita odhadu je daná na jedné straně variabilitou veličiny X, ale na druhé straně i rozsahem výběru. Čím více pozorování máme, tím je odhad přesnější, stabilnější. Příkladem bodového odhadu průměrné výšky postavy v populaci je průměrná výška vypočtená z použitého výběru, odhadem pravděpodobnosti výskytu diabetes je její relativní četnost.
11.2
Intervalové odhady populačních charakteristik - intervaly spolehlivosti
Místo jednoho čísla bodového odhadu použijeme nyní jako odhad rozmezí (interval), který s „dostatečnou jistotouÿ obsahuje hledaný parametr rozložení sledované veličiny. Odhady populačních charakteristik tohoto typu se nazývají intervaly spolehlivosti, v složitějších situacích mluvíme o oblastech či pásech spolehlivosti. Konstruhujeme interval, který s dostatečnou jistotou obsahuje skutečnou hodnotu odhadované charakteristiky v základním souboru. Formálně požadujeme, aby pravděpodobnost toho, že konstruovaný interval obsahuje skutečnou hodnotu byla větší než námi zvolená hodnota. Tuto pravděpodobnost pak nazveme hladinou spolehlivosti. Často ji volíme rovnu 0,95 (95%). U později zmíněných statistických testů mluvíme často o jejím doplňku - hladině významnosti, značené obvykle α (v našem případě 0, 05 = 5%). Je to pravděpodobnost toho, že konstruovaný interval je chybný a neobsahuje skutečnou hodnotu. Na tomto místě je nutno si uvědomit, že intervaly je možno vymezit více způsoby. Obvykle se používají následující dvě možnosti: Jednostranné intervaly používáme, pokud nás zajímají odchylky pouze v jednom směru, například pokud měříme koncentraci nějaké nežádoucí látky v potravinách a chceme stanovit hodnotu, kterou skutečná koncentrace této látky s námi zvolenou pravděpodobností1 nepřekročí. Nezajímá nás omezení koncentrace zdola. Z výběru, který máme k dispozici, odhadneme parametry uvažovaného rozložení a získáme tak odhad hustoty fX (x) veličiny X. Snadno pak sestrojíme i odhad hustoty odhadu parametrů - např. fx¯ (.) průměru x ¯. Pomocí této hustoty můžeme nalézt bod na číselné ose, pro který pravděpodobnost toho, že hledaný průměr je menší než tato hodnota, je větší než (např.) 95%. Toho dosáhneme tak, že z číselné osy odřízneme zprava část, jejíž hodnoty se v sledované populaci vyskytují s pravděpodobností α (100α%, tj. 5%). K nalezení takovéhoto hraničního bodu použijeme hustotu fx¯ (x) - viz. obrázek ??, kde šrafovaná plocha nad x-ovou osou určuje oblast, která obsahuje v našem případě tolik největších číselných hodnot výšky postavy, by jejich pravděpodobnost byla rovna 5%. Je tak vlastně určena polopřímka která obsahuje skutečnou hodnotu s pravděpodobností menší než je námi zvolená přípustná chyba. Nás ale zajímá opačná polopřímka - jednostranný interval spolehlivosti. Ten tedy skutečnou hodnotu obsahuje s 95%-ní jistotou - spolehlivostí. Dvoustranné intervaly jsou konstruovány na podobném principu. Nyní však chceme omezit (například výšku postavy) z obou stran. Obvykle přikládáme stejnou váhu chybám na obě strany. Jestliže uvažovanou pravděpodobnost chyby α rozdělíme na dvě části, stačí vypočíst dva jednostranné intervaly každý pro α2 a ty vytvoří hledaný oboustranný interval. Graficky je tato konstrukce zobrazena na obrázku ??). Dvě šedé plochy na tomto obrázku určují dvě polopřímky, jejichž hodnot nabývá sledovaná veličina pouze s pravděpodobností 5%. Přesněji řečeno pravděpodobnost, že průměrná výška postavy v sledované populaci je větší horní mez intervalu spolehlivosti je 2,5% (podobně i pro menší hodnoty). 1
Často volíme 5%, pro málo závažné orientační výsledky se výjimečně používá i 10%, nebo pro závažná rozhodování 1%, 0.5% či 0,1%.
8
5% 2.5%
3310
2.5%
3320
3330
3340
3350
porodní hmotnost (g)
11.3
Intervalové odhady pro jednotlivá pozorování - toleranční intervaly
Dosud jsme se zabývali odhadem charakteristik, které nepopisují jednotlivé pozorované hodnoty, ale popisují zvolené charakteristiky sledované populace (např. průměrnou porodní hmotnost). Věnujme nyní pozornost odhadu hodnot pro jednotlivé členy populace. Například chtějme stanovit interval, který s „dostatečnouÿ jistotou obsahuje „většinuÿ (zvolené procento) novorozenců z pohledu porodní hmotnosti. K tomuto účelu se konstruují takzvané toleranční (pokryvné) intervaly. Jedná se o interval, který s pravděpodobností α pokryje 100γ% (řekněme 80%) pozorování jakéhokoliv náhodného výběru ze základní populace. Přibližme si názorně úvahy, které umožní konstrukci těchto intervalů. Hraniční hodnoty těchto intervalů někdy nazýváme toleranční meze.
11.4
Rozdíl interpretace intervalu spolehlivosti a tolerančního intervalu
Při praktickém použití je nutno zvážit potřeby, musíme se rozhodnout, zda chceme vyslovit tvrzení pro základní populaci jako celku (např. o průměrné hodnotě sledované veličiny v populaci), nebo zda se chceme vyjadřovat o jednotlivých případech. Často mluvíme o epidemiologickém přístupu - vyslovujeme tvrzení pro populaci jako celek (například když chceme stanovit průměrnou výšku populace), nebo o klinickém přístupu - pokud nás zajímají jedinci (například když chceme stanovit rozmezí, v kterém se „pohybujeÿ většina populace. Můžeme chtít stanovit rozsah hodnot hladiny cholesterolu v krvi 90-ti procent zdravé populace).
12
Statistické testy
Jistě jste si všimli, že již při konstrukci intervalových odhadů provádíme skryté rozhodování o tom, které hodnoty ještě považujeme za přijatelné pro uvažovaný parametr a které již ne. Je samozřejmé, že toto rozhodování není nikdy absolutně spolehlivé. Je nutné zajistit, aby míra případných omylů byla v přijatelných mezích. V předchozím odstavci jsme si ukazovali myšlenku intervalových odhadů. Často však býváme postaveni přímo před problém rozhodnout, zda nějaké tvrzení platí: například zda je rozdíl ve výšce postavy osob z různých krajů, či zda je častěji nemocná skupina exponovaných než neexponovaných osob. Testy, kterými se budeme zabývat, poskytují nástroj pro rozhodování, zda se například liší charakteristika sledované skupiny od požadované hodnoty (zda porodní hmotnost dětí je větší než 2800g). Základem statistických testů je snaha o rozhodnutí, zda je rozdíl testovaných hodnot možno vysvětlit pomocí náhody, či zda jej musíme považovat za systematický. Nejprve si představme velmi jednoduchý
9
příklad rozhodování. Řekněme, že chceme z pohledu zkoušejícího tvrdit o konkrétním studentovi výrok A = „jeho znalosti jsou v sledované oblasti dostatečnéÿ. Statistik nazývá takovéto tvrzení hypotézou (H0 ). Na základě zkoušky (v statistice ji nazýváme testem) tuto hypotézu přijmeme nebo zamítneme. V reálné situaci je takovéto „měření znalostíÿ zatíženo chybou. Může se stát, že přestože student zná zkoušenou látku, odpoví na některou otázku chybně, nebo naopak jinému se podaří správnou odpověď uhádnout. Cílem zkoušky by mělo být zjištění, zda pravděpodobnost správné odpovědi π je dostatečně velká. Při hodnocení studenta mohou nastat čtyři případy: I. Budeme mylně tvrdit, že výrok A je nepravdivý. II. Budeme mylně tvrdit, že výrok A je pravdivý. III. Budeme správně tvrdit, že výrok A je pravdivý. IV. Budeme správně tvrdit, že výrok A je nepravdivý.
Výsledek testu H0 přijata H0 nepřijata
Skutečnost H0 platí H0 neplatí III. Chyba II. druhu β Chyba I. druhu IV. α
Tabulka 1: Možnosti při testování hypotézy H0 Správné rozhodnutí je pouze III. a IV. Všechny tyto možnosti jsou názorně zobrazeny ještě i v tabulce 1. Můžeme se tedy dopustit chyby dvojím způsobem (I. a II.). Při testech se budeme snažit pravděpodobnosti těchto chyb minimalizovat. O první z nich jsme se již zmínili u intervalových odhadů. Nazýváme ji chybou I. druhu a její pravděpodobnost značíme α. Je tedy: α = P (tvrdíme, že výrok A není pravdivý, ale ve skutečnosti platí) Písmenem β pak označujeme pravděpodobnost chyby II. druhu: β = P (tvrdíme, že výrok A je pravdivý, ale ve skutečnosti neplatí) 1 − β se nazývá síla testu. V praxi bychom chtěli minimalizovat obě tyto pravděpodobnosti. Ty však na sobě závisí, s klesajícím α roste β a naopak. Minimalizovat pouze jednu z nich je sice jednoduché, ale nedává to žádný smysl. V praxi se při testování snažíme testem hodnotit charakteristiku jedné nebo více populací. Například hodnotíme průměrnou výšku postavy osob z určité skupiny (např. definované věkem a pohlavím). Nezajímá nás konkrétní jedinec, ale určitá charakteristika základní populace. Při provádění testu „vstupují do hryÿ nejen chyby α a β, ale i rozsah výběru n. Testem tedy kontrolujeme pravděpodobnost toho, že tvrzení H0 platí a my jej neprokážeme. Opačnou chybu (pravděpodobnost, že H0 neplatí a my jej mylně budeme považovat za platné) již ale máme (při konkrétním rozsahu výběru) pevně danou. Pokud však zvětšíme rozsah výběru, zvýší se naše „znalostÿ rozložení sledované veličiny, zpřesní se odhad testovaného parametru a test se tedy stává přesnějším, bude více schopen nalézt případné rozdíly. Věnujme se nyní principu provádění testu. Ten provedeme tak, že vypočteme tzv. testovací statistiku S, která je pro konkrétní test určitou funkcí jednotlivých pozorování (viz. popis testů v dalších kapitolách). Za platnosti testované hypotézy známe rozložení testovací statistiky S. Vypočtené S pak porovnáme s kritickou hodnotou testovací statistiky. Je-li testovací statistika větší než odpovídající kritická hodnota, tak je pravdivost hypotézy H0 málo pravděpodobná - proto ji zamítneme. Pokud je však testovací statistika menší než kritická hodnota, je možno pozorované rozdíly vysvětlit prostřednictvím náhody hypotézu tedy nezamítáme. Jinými slovy: říkáme že, rozdíly nestačí k tomu abychom hypotézu zamítli. Ve výstupech statistických programů se velmi často objevuje mimo hodnotu testovací statistiky i takzvaná P-hodnota. Ta nám při hodnocení testu ještě více usnadní práci. Nemusíme totiž vyhledávat v statistických tabulkách kritickou hodnotu příslušné testovací statistiky, ale stačí pouze porovnat P-hodnotu s požadovanou významností. P-hodnota je rovna při testu dosažené hladině významnosti. Je to pravděpodobnost toho, že při opakovaném provedení experimentu, bude hodnota testovací statistiky stejná nebo větší. Prakticky tedy
10
stačí porovnat P-hodnotu se zvolenou hladinou významnosti α a je-li P-hodnota< α (např. < 0, 05 = 5%) řekneme, že test potvrdil statistickou významnost. Jinak považujeme testovaný rozdíl za statisticky nevýznamný - pozorované rozdíly je možno vysvětlit pomocí náhody.
Jedním z nejčastějších požadavků je porovnání míry polohy souboru (např. průměru) s nějakou konkrétní hodnotou, nebo porovnání měr polohy různých základních souborů. Příkladem může být porovnání průměrné výšky postavy mužů a žen. Popišme si nyní řešení takovýchto problémů.
13
Jedna skupina
Nejjednodušším úkolem je porovnání charakteristiky základní populace s konkrétní hodnotou.
13.1
Jednovýběrový U-test
Ten ověřuje, zda je střední hodnota (průměr x ¯) rovna požadované konstantě za předpokladu, že sledovaná veličina má normální rozložení se známým rozptylem σx2 (např. víme-li, že σx = 0, 5). Nutným předpokladem tohoto testu je jednak zmíněná normalita sledované veličiny, ale i nezávislost jednotlivých pozorovaných hodnot. Ta je porušena např., pokud v souboru jsou některé osoby měřeny opakovaně (takovýto problém je nutno řešit složitějšími nástroji). Dříve než zahájíme testování, musíme jednak zvolit hladinu významnosti α (například α = 0, 05 = 5%), ale i rozhodnout, zda chceme provést test jednostranný nebo oboustranný. Řekněme, že nás zajímá pouze jednostranná varianta testu, tedy hypotéza zda je průměrná hladina cholesterolu v krvi dětí ze školy „Bÿ statisticky významně větší než hodnota 4,4. Pro test vypočteme: √ √ (4, 212 − 4, 4) 128 (¯ x − µ) n = = −4, 254 U= σx 0, 5 Pokud je pravda, že hladina HDL cholesterolu je menší nebo rovna hodnotě 4,4, má tato testovací statistika U normální (Gaussovo) rozložení. To nám umožní provést požadovaný test. Ze statistických tabulek zjistíme kritickou hodnotu uα normálního rozložení, t.j. hodnotu takovou, aby pro normálně rozloženou veličinu byla pravděpodobnost výskytu větších nebo stejných hodnot U nejvýše rovna 100α% (v našem případě 5%). Je-li pak U > uα , je testovaná hypotéza „máloÿ pravděpodobná - nemůžeme rozdíl mezi normou 4,4 a x ¯ vysvětlit pouhou náhodou. Řekneme, že hladina cholesterolu je statisticky významně větší než 4,4 (na hladině významnosti 5%). Pokud je naopak U < uα není možno testovanou hypotézu vyloučit, případnou odchylku hladiny cholesterolu „nad normuÿ je možno vysvětlit i pomocí náhody. Řekneme, že rozdíl není statisticky významný (na hladině významnosti 5%). Případný rozdíl je tak malý, že se „schoval do náhodné chybyÿ. V praxi však v současné době není nutno výpočty provádět „ručněÿ, statistické programy tuto práci udělají za nás a dokonce mimo testovací statistiky U nabídnou i již zmíněnou P-hodnotu. Pokud potřebujeme použít oboustranný test, pak stačí porovnat absolutní hodnotu statistiky U s hodnotou u α2 test je tedy statisticky významný pokud je |U | > u α2 Dále se budeme zabývat pouze oboustrannými testy.
13.2
Jednovýběrový t-test
Předpokládejme, že sledovaná veličina má stále normální rozložení. V praxi však známe skutečný rozptyl jen výjimečně, musíme tedy použít jeho odhad. Pak je ale nutno předchozí test modifikovat. Tento test používá v kapitole 5 již zmíněné t-rozložení. Testovací statistika pro oboustranný test je pak velmi podobná U statistice: √ √ (4, 212 − 4, 4) 128 |¯ x − µ| n = = 4, 624 t= sx 0, 460 Tuto hodnotu porovnáme s kritickou hodnotou tα (n − 1) Studentova t-rozdělení s n − 1 stupni volnosti. Protože je t = 4, 624 > 1, 984 = t5% (127), není možno odchylku od normy vysvětlit pomocí náhody. Říkáme, že test prokázal statisticky významnou odchylku sledované veličiny od normy.
11
13.3
Jednovýběrový znaménkový (mediánový) test
Pokud sledovaná veličina nemá normální rozložení není možno použít t-test a musíme se uchýlit k obecněji použitelným, neparametrickým testům. Tím je například znaménkový test. Tento test je založen na velmi jednoduchém principu, sleduje totiž procento naměřených hodnot menších než hodnota s kterou soubor porovnáváme. Test zjišťuje, zda je toto procento statisticky významně odlišné od 50%. Označme Y počet hodnot větších než hypotetická hodnota a n počet měření. Pak vypočteme U=
2 · 45 − 128 2Y − n √ √ = −3, 359 = n 128
Statistiku U pak porovnáme s kritickou hodnotou normálního rozložení. Pro jednostranný test na hladině významnosti 100α% porovnáme U > uα = u5% = 1, 64 nebo U < −uα = 1, 64. Pokud však chceme vypočíst oboustranný test na hladině významnosti 100α%, použijeme |U | > u α2 = u2,5% = 1, 96.
13.4
Jednovýběrový Wilcoxonův test
Můžeme však použít i Wilcoxonův neparametrický test, který je silnější než předchozí znaménkový test. Použití Wilcoxonova testu je vhodné obzvlášť pokud je rozsah souboru menší a o analyzovaná náhodná veličina nemá normální rozložení. Tento test nesleduje pouze zda je naměřená hodnota větší či menší než „normaÿ, ale pracuje s pořadím naměřených hodnot. Přesněji řečeno seřadíme bez ohledu na znaménko odchylky naměřených hodnot od „normyÿ a budeme se ptát zda se statisticky významně liší průměrné pořadí odchylek v kladném a záporném smyslu.
13.5
Test rozptylu jednoho výběru
Zatím jsme si ukazovali pouze testy parametrů polohy. Někdy však potřebujeme testovat i parametry měřítka (např. σ 2 ). Řekněme, že chceme vypočíst jednostranný test, že σ 2 nepřekročí hodnotu σ0 = 0, 5. Vypočtěme nejprve statistiku S=
127 · 0, 4602 (n − 1)s2x = = 108, 34 σ02 0, 52
Tuto hodnotu pak porovnáme s kritickou hodnotou S < χ2n−1 (1 − α). Pokud bychom chtěli testovat hypotézu σ 2 > σ02 (např. σ02 = 0, 25), je nutno porovnat S > χ2n−1 (α). Pro splnění oboustranné hypotézy (σ 2 = σ02 ) musí platit, že α α χ2n−1 ( ) = 97, 70 < 108, 34 = S < 160, 09 = χ2n−1 (1 − ) 2 2 Směrodatná odchylka sx se tedy statisticky významně neliší od hodnoty 0,5. Tento výsledek nám tedy nebrání použít U-test tak, jak byl popsán. S výše zmíněnými testy velmi úzce souvisí i intervalové odhady. Ukažme si možnosti jejich konstrukce a použití.
13.6
Intervaly spolehlivosti
Dále si ukážeme konstrukce intervalů spolehlivosti pro nejčastěji používané statistické charakteristiky průměru x ¯, pro σ známé, je oboustranný α%-ní interval spolehlivosti
σ σ x ¯ − u α2 √ , x ¯ + u α2 √ n n
σ neznámé, je oboustranný α%-ní interval spolehlivosti
12
sx sx x ¯ − tα (n − 1) √ , x ¯ + tα (n − 1) √ n n
Poznámka: Intervalové odhady je možno konstruovat i pro veličiny, které je nutno transformovat, aby měly normální rozložení. Například hmotnost postavy h mívá logaritmicko-normální rozložení. Vypočteme tedy intervalové odhady pro ln(h) a ty pak zpět odlogaritmovat. Získáme tak nesymetrické intervaly: sln(h) sln(h) eln(h)−tα (n−1) n , eln(h)+tα (n−1) n kde ln(h) je průměr hodnot ln(hi ). Sestrojený interval pak má vlastně tvar
hgeom ; hgeom · k k
mediánu xmed Interval spolehlivosti pro medián se konstruuje tak, že nejprve seřadíme všechna pozorování Xi a seřazená označíme X[1] , X[2] , X[3] , ..., X[n] . Pak v statistických tabulkách pro daný rozsah n, hladinu významnosti α a typ testu (jednostranný nebo oboustranný) nalezneme pořadové číslo pozorování, které tvoří příslušnou hranici intervalu spolehlivosti pro medián. Příklad intervalu spolehlivosti pro medián je v tabulce. rozptylu s2 Oboustranný α%-ní interval spolehlivosti pro rozptyl je (n − 1)s2x (n − 1)s2x , χ2n−1 ( α2 ) χ2n−1 (1 − α2 )
13.7
Toleranční intervaly
Mezi intervalové odhady patří i toleranční intervaly. Ukažme si konstrukci takového intervalu pro veličinu s normálním rozložením s neznámým σ 2 . Sestrojíme je tak, že v statistických tabulkách nalezneme příslušné hodnoty tolerančních činitelů k1 či k2 . Příslušné intervaly pak jsou: (¯ x − sx k2 , x ¯ + sx k2 )
13.8
Co nejsou intervalové odhady
¯ ± S.D. nebo X ¯ ± S.E.. Použití takového V praxi se někdy při popisu výsledků používá vyjádření X ¯ ± S.D., intervalu je ale krajně nevhodné, protože nabízí zavádějící interpretaci. Pokud použijeme výraz X pak tento interval, pro dostatečně velké n, obsahuje méně než 68% potenciálních pozorování. V některých pracích dokonce ani není uvedeno, co výraz „číslo ± čísloÿ představuje, pak ale je takováto prezentace ¯ ± S.E. pokryje skutečnou hodnotu s pravděpodobností nejvýše 68%. Pokud nic neříkající. Podobně X je rozsah n souboru malý, je toto procento v závislosti na n ještě menší. K tomu, aby mohl být výraz ¯ ±S.E. považován za interval spolehlivosti normálně rozložené veličiny, je nutno vynásobit S.E. vhodnou X konstantou. Například 95%-ní interval spolehlivosti vypočteme x ¯ ±tn−1 (α). Konstanta tn−1 (α) je kritická hodnota t-rozložení, pro dostatečně velké n je ji možno pro hrubý odhad nahradit číslem 2. Ospravedlňovat ¯ ± S.E. tím, že správné intervalové odhady jsou širší a „zpochybňují výsledky práceÿ, je zcela použití X zcestné.
14
Dvě skupiny
Podobná situace nastává, pokud máme porovnat střední hodnoty dvou různých skupin. Problém opět můžeme rozdělit podle typu rozložení sledované veličiny.
13
14.1
Dvouvýběrový t-test
Pokud je rozložení sledované veličiny normální, porovnáme průměry skupin opět pomocí t-testu, tentokrát dvouvýběrového. Testování je jednodušší, pokud jsou oba rozptyly s2x a s2y stejné, to však nemusí být pravda. Nejprve tedy potřebujeme rozhodnout, kterou variantu t-testu použijeme - zda pro stejné či pro různé rozptyly. Pro jednoduchost se omezíme na popis vzorce pro variantu t-testu pro výběry se stejnými rozptyly. Stačí vypočíst statistiku
t= q
q n n |¯ x − y¯| nxx+nyy
(nx −1)s2x +(ny −1)s2y nx +ny −2
Tato testovací statistika uvažuje rozdíl průměrů x ¯ a y¯, který vydělíme odhadem standardní chyby průměru tohoto rozdílu. Získáme tak statistiku, která má t-rozložení s nx +ny −2 stupni volnosti a tu pak využijeme pro provedení testu (případně pro výpočet P-hodnoty).
14.2
Porovnání dvou rozptylů
Pro volbu správné varianty t-testu potřebujeme mimo jiné vědět, zda můžeme rozptyly v obou skupinách s2 považovat za stejné. Pro porovnání rozptylů dvou skupin stačí vypočíst jejich podíl F = sx2 Test pak y
provedeme tak, že zjistíme je-li
1 Fny −1,nx −1 ( α 2)
< F < Fny −1,nx −1 ( α2 ) pokud tomu tak není, je nutno
považovat rozptyly s2x a s2y za statisticky významně odlišné.
14.3
Dvouvýběrový znaménkový test
Stejně jako pro řešení předchozího problému i nyní existuje neparametrická varianta dvouvýběrového ttestu - znaménkový test, který nepožaduje normální rozložení. Mediánový test provedeme tak, že nejprve vypočteme medián pozorování z obou skupin spojených dohromady. Testovací statistika S je pak počet pozorování z prvního výběru, která jsou větší než společný medián. Pro test využijeme to, že statistika S má hypergeometrické rozložení.
14.4
Dvouvýběrový Wilcoxonův test
Dalším neparametrickým testem je Wilcoxonův test. Opět spojíme na chvíli oba soubory a ke každému pozorování vypočteme pořadí v tomto společném souboru. Potom sečteme všechna pořadová čísla pozorování, která byla původně v prvním souboru, jejich součet označíme R+ . Porovnáme hodnotu R+ s kritickými hodnotami dvouvýběrového Wilcoxonova testu.
15
Párové porovnání
Mezi výše jmenované testy se často zahrnují testy pro párová porovnání. Jsou založeny na zmíněném t-testu či Wilcoxonově testu, ale řeší poněkud odlišný problém. Podobnost názvů párových a nepárových testů sice vychází z použití stejných technických metod, ale z hlediska interpretace se jedná o zcela odlišné přístupy, které není možno zaměňovat. Představme si, že chceme porovnávat efekt určitého zásahu tak, že zjistíme na stejné skupině objektů sledovanou veličinu před zásahem a po něm. Ptáme se, zda změna jídelníčku snížila hladinu cholesterolu v krvi. Hodnota, o kterou je možno snížit hladinu cholesterolu změnou (pouze části) dětské stravy, zřejmě nebude velká a naopak rozdíly hladiny cholesterolu mezi jednotlivými dětmi mohou být mnohem větší. Pokud bychom porovnali obě skupiny dvouvýběrovým testem, zůstane efekt našeho zásahu skryt interindividuální variabilitou a dvouvýběrový test neprokáže významné rozdíly. Dopustili jsme se chyby, protože jsme neuvažovali závislost hodnot naměřených na jedné osobě. Musíme se tedy pokusit vyloučit vliv variability mezi osobami, „srovnatÿ výsledky tak, aby hodnoty byly srovnány na stejnou úroveň. Nebudeme proto pracovat přímo s naměřenými hodnotami, ale s rozdíly obou měření (porovnáváme změnu ke které došlo za sledované období). Vypočteme-li tedy pro každou osobu rozdíl prvního a druhého měření, můžeme již snadno použít některý z výše jmenovaných jednovýběrových testů a zjistit, zda změny během pokusu jsou statisticky významně odlišné od nuly.
14
15.1
Párový t-test
Je-li rozložení sledované veličiny normální, je normální i rozložení rozdílu prvého a druhého měření. Můžeme tedy pro výpočet změny mezi prvním a druhým měřením u jednotlivých osob použít jednovýběrový t-test. Samozřejmě je možno pracovat i s intervalovými odhady, interval spolehlivosti je pak vypočten nikoliv pro naměřenou hodnotu, ale pro její změnu za sledované období. Interval tedy odhaduje nárůst či pokles.
15.2
Párový znaménkový test
Další často používanou variantou párového testu je znaménkový test. Podobně jako u párového t-testu, nejprve vypočteme pro každého jedince rozdíl mezi prvním a druhým měřením a pak na tyto diference použijeme znaménkový jednovýběrový test.
15.3
Párový Wilcoxonův test
Stejně můžeme postupovat i při konstrukci párového Wilcoxonova testu.
16
Více skupin - Analýza rozptylu - ANOVA
Nejprve se věnujme jednoduchému modelu, kdy soubor hodnot sledované veličiny (hladina HDL cholesterolu) rozdělíme do skupin podle kvalitativní veličiny, která nabývá více hodnot (např. veličina indikující školu, kterou dítě navštěvuje).
16.1
Více skupin - Analýza rozptylu jednoduchého třídění
Často se stává, že potřebujeme provést složitější porovnání. Porovnejme více než dvě skupiny (počet sledovaných skupin označme k). Chceme zjistit, zda jsou rozdíly v průměrné hladině HDL cholesterolu v krvi 8-letých dětí tří vybraných pražských škol (např. k = 3 ). Označme průměrné hladiny HDL cholesterolu v těchto třech školách µ1 , µ2 , µ3 a celkový průměru µ. Dále budeme tyto parametry odhadovat a testovat hypotézu zda se od sebe statisticky významně liší. Analýzou rozptylu testujeme, zda je část variability způsobená rozdíly průměry ve skupinách jsou statisticky významně odlišná. To je testováno tak, že porovnáváme rozptyl za platnosti hypotézy shody průměrů s rozptylem pokud tato hypotéza neplatí. Hypotézu analýzy rozptylu pak ověříme testovací statistikou F F =
s2mezi skupinami , s2uvnit skupin
která má k − 1 a n − k stupňů volnosti. Tuto hodnotu pak musíme porovnat s kritickou hodnotou Frozdělení. Statistické programy nám však usnadní práci tím, že vypočtou i P-hodnotu.
16.2
Podmínky použitelnosti analýzy rozptylu
Na to, abychom vůbec mohli tento postup použít, je nutno přijmout jisté předpoklady, přesněji řečeno ověřit zda nejsou v rozporu s pozorovanými daty. 1. Sledovaná veličina musí mít normální rozložení. 2. Druhým předpokladem je shoda rozptylů. Na ověření tohoto předpokladu existuje několik testů, které si brzy popíšeme v odstavci „test shody rozptylůÿ. 3. Dále by měla být pozorování nezávislá (viz. párový test).
16.3
Test shody rozptylů
Tento test potřebujeme např. k ověření hypotézy shody rozptylů před tím, než použijeme analýzu rozptylu. Jeden takovýto test je již zmíněn v souvislosti s dvouvýběrovým t-testem, ten však porovnává pouze variabilitu dvou skupin. Existují však ještě i další testy, které dokonce dokáží porovnat variabilitu více skupin. Jsou to Bartlettův test a Leveneho test.
15
16.4
Kruskall-Wallisův test
Zmíněná analýza rozptylu má sice bohaté uplatnění, ale vyžaduje splnění předpokladu normality. Nyní si ukážeme test, který tuto podmínku nevyžaduje. Podobně jako při provádění Wicoxonova testu neporovnává průměry, ale mediány. Tento test předpokládá, že studovaná veličina je spojitá - t.j. žádná hodnota není pozorována vícekrát.
16.5
Znaménkový test
Je možno použít i znaménkový test, který vypočteme tak, že nejprve zjistíme společný medián všech pozorování a pak pro každou skupinu (školu) stanovíme počty pozorování větších a menších než tento medián. Vznikne tak matice. V ní je možno testovat pomocí χ2 zda je v některém souboru statisticky významně více hodnot nad mediánem než v ostatních souborech.
16.6
Metody mnohonásobného porovnávání
Pokud hypotézu shody zamítneme, tvrdíme, že rozdíly mezi školami není možno vysvětlit pomocí náhody. Analýza rozptylu nám pak říká, že průměrné hmotnosti dětí v sledovaných školách se statisticky významně liší od ostatních, nevíme však která(é) škola(y) tento rozdíl způsobuje(jí). Samozřejmě je možno testovat například dvouvýběrovým t-testem každou dvojici škol. V tomto okamžiku se musíme zamyslet nad tím, jak chceme zajistit spolehlivost našich tvrzení. Při porovnání škol po dvojicích kontroluje každý z prováděných testů, zda je pravděpodobnost chyby našeho tvrzení menší než 100α% (např. 5%). Provádíme-li však na 5%-ní hladině významnosti pro tyto tři školy všechny možné testy (t.j. 3 porovnání), je celková pravděpodobnost toho, že uděláme chybu, větší než zvolených 5%. Víme o ni pouze, že je menší než 3 · 5% = 15%. K tomuto účelu byly navrženy testy mnohonásobného srovnávání. Ty jsou používány jako přirozené pokračování, analýzy rozptylu v případě, že ta prokázala statisticky významné rozdíly mezi porovnávanými skupinami. Mezi tyto testy patří: LSD test, Bonferroniho test, Scheffeho testu, Tuckeyho test nebo Duncanův test.
16.7
Analýza rozptylu dvojného třídění
Zatím jsme se zabývali porovnáním hodnoty sledované veličiny v různých skupinách, do kterých jsou pozorované objekty rozděleny pomocí jedné veličiny (např. z které školy je sledované dítě). Někdy je ale rozdělení do jednotlivých skupin přirozené popsat pomocí více veličin.
Dalším základním problémem, který matematická statistika řeší, je studium vztahu spojitých veličin. Budeme se zajímat o to, zda a jak na sobě sledované veličiny závisí. Nejprve bychom se měli zabývat pojem nezávislosti dvou spojitých veličin. Již v kapitole 3 jsme se seznámili s pojem nezávislosti dvou jevů. Nejdříve se ale zabývejme rozložením více veličin.
17
Kovariance - míra lineárního vztahu dvou veličin
Pokusme se nalézt míry vztahu mezi dvěma spojitými, normálně rozloženými veličinami. Již dříve jsme si pro analýzu jednotlivých veličin ukázali význam míry polohy a měřítka. V případě normálně rozložených veličin pracujeme s průměry a rozptyly. Tyto charakteristiky ale nepopisují vztah dvou nebo více veličin. Obdobou míry polohy je zde lineární vztah obou veličin (přímka, která popisuje tuto závislost). Zobecněním míry měřítka pak je jistá míra „těsnostiÿ dat vzhledem k této přímce. K měření vztahu dvou veličin byl zaveden pojem kovariance. Výběrovou kovarianci pak vypočteme: cov(x, y) =
n 1 X (xi − x ¯)(yi − y¯) n − 1 i=1
Z definice kovariance je zřejmé, že: cov(x, y) = cov(y, x) Dále si všimněme, že pokud je kovariance kladná, je jistá kladná vazba mezi x a y - čím je větší x, tím je větší i y a naopak.
16
18
Koeficient lineární korelace
Takto definovaná kovariance je ale závislá na rozptylu veličin x a y. Stejnou úvahu ale můžeme provést i y x a yis−¯ . Získáme tak (výběrový) Pearsonův korelační koeficient: pro tzv. z-skóry, tj. pro xis−¯ x y r = rx,y
Pn n (xi − x ¯)(yi − y¯) 1 X xi − x yi − y¯ ¯ = = pPn i=1 Pn 2 n − 1 i=1 sx sy ¯) ¯)2 i=1 (xi − x i=1 (yi − y
Hodnoty korelačního koeficientu r se pohybují v rozmezí −1 ≤ r ≤ 1. hodnota r = 0 odpovídá tomu, že mezi studovanými veličinami není žádná lineární vazba a hodmoty 1 a -1 odpovídají přesné lineární závislosti. V praxi často vypouštíme z názvu jak slovo „Pearsonůvÿ, tak i slovo „lineárníÿ, není to zásadní chyba, ale název pak svádí k tomu, abychom koeficient chápali jako míru libovolné vazby veličin x a y a to je již chybná interpretace. Populační korelační koeficient obvykle značíme ̺. Koeficient nabývá hodnot z intevalu [−1; 1], kde hodnota 0 představuje vzájemnou nezávislost a hodnoty 1 a −1 představují funční lineární závislost (v pozitivním, případně negativním smyslu). Výše uvedený odhad korelačního koeficientu je sice velmi užitečný, ale v praxi většinou potřebujeme mít i možnost testovat zda tento koeficient je statisticky významně odlišný od nuly (̺ 6= 0) - zda mezi veličinou x a y existuje lineární vztah. K tomu stačí vypočíst testovací statistiku √ r T =√ n−2 1 − r2
která má Studentovo t-rozložení s n − 2 stupni volnosti.
19
Lineární regresní model
Z popisu korelačního koeficientu je zřejmé, že vyjadřuje vztah dvou veličin na „stejné úrovniÿ, veličiny jsou pozorovány najednou. Např. měříme současně hladinu cholesterolu a triglyceridů a neuvažujeme, že by existoval kauzální vztah studovaných veličin. Je na experimentátorovi, aby rozhodl o tom zda a jakou kauzalitu bude v modelu předpokládat. Někdy se pokoušíme na základě znalosti jedné veličiny odhadnout („modelovatÿ) jinou veličinu. Např. z výšky otce bychom chtěli usuzovat na výšku syna, nebo z věku dítěte chceme odhadnout jeho výšku. V modelu vlastně předpokládáme kauzalitu veličin (výšky syna na výšce otce). První, kdo se zabýval modelem tohoto typu byl v roce 1886 Francis Galton. Snažil se řešit právě problém závislosti výšky prvorozených synů na výšce jejich otců. Z této práce také pochází termín „regreseÿ. Podobně jako v analýze rozptylu budeme mluvit o nezávisle proměnné, veličině o které předpokládáme, že do jisté míry předurčuje hodnoty pozorované, „cílovéÿ, náhodné veličiny. Tu opět nazveme závisle proměnou. Označme y výšku syna a x výšku otce. Pokud lineární model platí zcela přesně, je možno jej popsat rovnicí y = β0 + β1 x kde β0 a β1 jsou konstanty které popisují vztah veličin. V praxi je ale pozorovaná veličina zkreslena nepřesností měření, biologickou variabilitou a dalšími rušivými faktory. Model tedy ve skutečnosti má tvar: y = β0 + β1 x + ε kde ε je právě tato zmíněná náhodná složka veličiny y. Někdy, když není zcela jasné která proměnná je závislá a která nezávislá, používáme přesnější označení y = β0y:x + β1y:x · x + ε
19.1
Lineární regresní model normálně rozložené náhodné veličiny
V další části se zaměříme na modely s normálně rozloženou závisle proměnnou (ε má normální rozložení N (0, σ 2 ). Tento předpoklad v praxi bývá široce užíván jednak protože se zdá být často přirozený ale i proto, že výpočty jsou relativně velmi jednoduché. Naším cílem bude porovnat rozdíl mezi jednodušším modelem (výška syna nezávisí na výšce otce) a složitějším (výška syna je lineárně závislá na výšce otce), zjistit zda rozdíly mezi modely je možno vysvětlit
17
pomocí náhody. Zvolíme podobně v modelu analýzy rozptylu postup, kdy porovnáme rozptyl za hypotezy s rozptylem, kdy hypotéza neplatí. Nalezneme odhady parametrů regresní přímky b0 ab1 a rozptylu „okolo regresní přímkyÿ. Graficky si můžeme představit konstrukci odhadu jako nalezení takové přímky, aby svislé vzdálenosti bodů od ní byly pokud možno co nejmenší. Nyní již můžeme snadno testovat zvolený model, případně jednotlivé koeficienty, nebo sestrojit jejich intervalové odhady. Součty čtverců mají velký význam nejen pro konstrukci odhadu, ale především pro testování modelu. Uvažujeme tedy, že platí model Y = β0 + β1 X a chceme testovat zda je možno uvažovat jednodušší model (nazývaný hypotézou). Podobně jako v analýze rozptylu, je nutným předpokladem normalita chyby ε. Dalším předpokladem je, že rozptyl chyby nesmí záviset na nezávisle proměnné a samozřejmě, jak jsme si již říkali, vztah závisle a nezávisle proměnné musí být lineární. To vše pak můžeme shrnout do požadavku, aby závisle proměnná Y měla za podmínky X = x normální rozložení N (β0 + β1 x, σ 2 ). Střední hodnota tedy závisí na X, ale rozptyl je konstantní (nezávisí na X).
19.2 Vztahu regresního lineárního modelu a lineárního korelačního koeficientu Uvažujme co se ale stane, pokud zaměníme závisle a nezávisle proměnnou? Získáme tak koeficienty b0x:y a b1x:y . Tyto koeficienty se budou lišit od b0y:x a b1y:x . Získané regresní přímky jsou různoběžné a protínají se uprostřed dat. Úhel, který svírají obě regresní přímky, odpovídá korelaci veličin X a Y .
19.3
Problémy s linearitou a normalitou - transformace modelu
V praxi se často stává, že studovaný problém nesplňuje požadavky použitého modelu. Snadno se může stát, že závislost není lineární, nebo že i rozptyl závisle proměnné Y je funkcí nezávisle proměnné X. Například o hmotnosti osoby je známo, že závisí na výšce měřené postavy. Tato závislost ale není lineární, ale ukazuje se, že hmotnost závisí lineárně na čtverci výšky postavy. Proto je nutno abychom pro regresní analýzu nepoužívali přímo sledované veličiny X a Y , ale místo výšky postavy X použijeme její druhou mocninu X 2 . Teoreticky je možno transformovat jak závisle, tak i nezávisle proměnnou. Transformace závisle proměnné přináší kromě případného „narovnáníÿ regresní křivky i změnu modelu. Pro přizpůsobení modelu datům se někdy používá jak transformace závisle proměnné (pro převedení rozložení závisle proměnné na tvar blízký normálnímu rozložení), tak i transformace nezávisle proměnné (abychom přiblížili regresní model lineární závislosti). Tato transformace vlastně odpovídá změně použité stupnice měření (pro konkrétní veličinu nemusí být vždy jasné, zda je přirozenější použít normální, logaritmickou či jinou stupnici.
19.4
Odlehlá pozorování v regresi
O odlehlých pozorováních jsme se již zmínili u parametrů polohy. V regresním modelu ale přibývá ještě i problém odlehlých hodnot nezávisle proměnné. Je-li hodnota závisle proměnné odlehlá, pak samozřejmě dochází k zkreslení odhadu. Tyto hodnoty, jež nazýváme vlivné body, mohou být pro takovéto zkreslení mnohem nebezpečnější než odlehlé hodnoty závisle proměnné.
Podobně jako jsme v minulé kapitole mluvili o sdruženém rozložení dvou spojitých veličin, můžeme mluvit o sdruženém rozložení i u diskrétních veličin. Situace se dokonce zdá být jednodušší, protože obě proměnné nabývají pouze omezený (většinou malý) počet hodnot.
20
Kontingenční tabulka 2 × 2
Jednou z lékařských disciplín, kde se často používají kontingenční tabulky je epidemiologie. Velmi často používáme právě tabulku 2 × 2 k řešení problému, zda výskyt vybrané diagnózy závisí na uvažované expozici. K vyčerpávajícímu popisu tabulky 2 × 2 stačí znát pouze čtyři číselné hodnoty. Proto se často používá zjednodušené značení (viz. tabulka 2).
18
náhodná veličina X např. expozice Ano Ne celkem
náhodná veličina Y např. nemoc Ano Ne celkem a b a+b c d c+d a+c b+d a+b+c+d=n
Tabulka 2: Obecný zápis kontingenční tabulky 2 × 2 20.0.1
χ2 test nezávislosti v tabulce 2 × 2
χ2 -test nezávislosti v kontingenční tabulce 2 × 2 vypočteme χ2 =
(ad − bc)2 n (a + b)(a + c)(b + d)(c + d)
Pro ilustraci použijme data o výskytu vrozené vady kyčlí v závislosti na pohlaví dítěte (viz. tabulka 3).
Pohlaví Chlapci Dívky celkem
pozorovaná četnost pozorovaná četnost
Vrozená vada kyčlí Ano Ne celkem 362 4255 4617 422 3934 4356 784 8189 8973
Tabulka 3: Výskyt vrozené vady kyčlí u chlapců a dívek Chceme ověřit hypotézu, že vrozené vady kyčlí jsou častější u dívek než u chlapců. Testovací statistika χ2 je pak rovna hodnotě 9, 59. Tomu odpovídá P-hodnota 0,002. Je tedy statisticky významný rozdíl mezi pravděpodobností vrozené vady kyčlí u chlapců a u dívek. Porovnáním pozorovaných a očekávaných četností v tabulce 3 vidíme, že odchylka od modelu nezávislosti je způsobena větším výskytem vady kyčlí u dívek. Tímto testem jsme prokázali, že je dokonce statisticky významně větší. V praxi se ukazuje, že χ2 test nezávislosti je možno pro malé pozorované četnosti vylepšit tzv. Yatesovou korekcí Oba tyto testy jsou ale pouze přibližné. Je však možno provést i přesný test. Tím je Fisherův exaktní (faktoriálový) test, který si nyní popíšeme. Sestrojíme všechny možné tabulky, které mají stejné marginální četnosti (řádkové a sloupcové součty) jako původní tabulka. Vybereme z nich ty, které jsou „vzdálenějšíÿ od hypotézy nezávislosti než původní kontingenční tabulka (t.j., jsou to tabulky méně pravděpodobné než naše tabulka, pokud skutečně platí hypotéza nezávislosti). Sečteme-li pravděpodobnosti těchto tabulek, získáme tak součet P a ten je již přímo P-hodnotou Fisherova testu. Použít tento přesný test je sice lákavé, ale v praxi se snadno může stát, že se dostaneme do vážných technických problémů. S rostoucím n roste dramaticky i počet všech možných tabulek a pokud je „velkáÿ i nejmenší ze čtyř četností testované kontingenční tabulky, stává se snadno, že problém není řešitelný „v rozumném časeÿ ani na nejmodernějších počítačích.
20.1
Míry vztahu dvou alternativních veličin
Jako míra závislosti v kontingenční tabulce se často používají různé charakteristiky. Uvažujme tabulku a , ale i u neexpo2. Jistě je zajímavé vypočíst pravděpodobnost onemocnění u skupiny exponovaných a+b c novaných c+d . Relativním rizikem RR pak nazýváme podíl těchto pravděpodobností: RR =
a a+b c c+d
=
a(c + d) c(a + b)
Pokud platí model nezávislosti, je je možno ukázat, že je RR = 1. Často bývá používána i další charakteristika, která je nazývaná křížový poměr (anglicky odds ratio). Někdy je používán i název podíl šancí nebo sázkový poměr. Tato charakteristika je obvykle používána v
19
anglosaských pracích. Není založena na pojmu pravděpodobností, ale na pojmu „šance na onemocněníÿ. Křížový pomět OR je a b c d
OR =
=
ad bc
Křížový poměr, podobně jako relativní riziko, je roven jedné pokud jsou sledované veličiny nezávislé, jinak se ale hodnoty těchto měr liší. Obě tyto míry jsou založeny na „multiplikativním principuÿ - ptáme se kolikrát je větší pravděpodobnost onemocnění (či poměr zdravý/nemocný) u exponovaných než u kontrol (neexponovaných). V praxi se ale někdy používá i „aditivní principÿ - sledujeme o kolik se změní pravděpodobnost onemocnění působením uvažované expozice. Proto bývá jako míra používáno například i „atributivní rizikoÿ (anglicky atributable risk), které je definováno jako rozdíl pravděpodobnosti onemocnění ve skupině exponovaných a ve skupině neexponovaných. Výběrová varianta atributivního rizika je tedy: AR =
a c − a+b c+d
Někdy bývá používáno i v procentech vyjádřené relativní atributivní riziko (atributable fraction) AF =
a a+b
−
c c+d
a a+b
· 100%
Další podobné varianty těchto koeficientů jsou populační atributivní riziko: ARP =
c a+c − n c+d
a populační relativní atributivní riziko AFP =
20.2
a+c n
−
a+c n
c c+d
· 100%
Hypotéza symetrie McNemar
Zatím jsme se zabývali pouze hypotézou nezávislosti, ale v praxi nás často zajímají i jiné hypotézy. Chceme porovnat například efekt léčby tak, že se ptáme, zda se stav sledovaných osob změnil po uplynutí určité doby. Vlastně chceme provést obdobu párového testu, který jsme si již popisovali pro spojité veličiny. Představme si, že nás zajímá, zda u dětí jednoho vybraného okresu v studii novorozenců závisí výskyt infektů horních cest dýchacích na jejich věku. Výskyt tohoto onemocnění byl zjišťován jednak v 6.měsíci, ale i v 3.roku věku dítěte. Příslušné pozorované hodnoty jsou zobrazeny v tabulce 4:
6.měsíc věku
Ano Ne celkem
3.rok věku Ano Ne celkem 1439 108 1547 663 37 700 2102 145 2247
Tabulka 4: Infekty horních cest dýchacích Použít χ2 -test nezávislosti je v tomto případě chybné a zcela zavádějící. Hypotéza nezávislosti by znamenala že „nemocnostÿ v 3.roce nezávisí na nemocnosti v prvých šesti měsících. Jinými slovy pravděpodobnost onemocnění v 3.roce by byla stejná pro ty, co v prvých 6. měsících onemocněly, ale i pro ty co byly zdravé. Jednotlivé děti ale mají zřejmě různý sklon k onemocnění. U těch které byly v 6. měsíci zdravé je větší pravděpodobnost, že budou zdravější i v 3. roce věku než ty děti, které byly nemocné v 6. měsíci věku. Nás ale zajímá, zda je stejná pravděpodobnost toho, že dítě má sledovanou diagnózu v 6.měsíci a nemá v třetím roce, je stejná jako pravděpodobnost že dítě nemá tuto diagnózus v 6.měsíci a má v třetím roce (porovnáváme tedy políčka b a c kontingenční tabulky). Chceme říci, jestli pravděpodobnost výskytu diagnózy závisí na věku dítěte, pak by se totiž od sebe lišily očekávané četnosti b a c (jejich rozdíl ukazuje na „vytráceníÿ starých nebo „objevováníÿ nových výskytů sledované diagnózy). Hypotéza vlastně ověřuje
20
zda je tabulka symetrická podle hlavní úhlopříčky (platí-li, že π12 = π21 ). Takováto hypotéza je zřejmě zcela odlišná od hypotézy nezávislosti, obě hypotézy jsou splněny současně pouze pro tabulku v které jsou všechny dílčí pravděpodobnosti stejné (π11 = π12 = π21 = π22 ). Všimněme si, že při hypotéze symetrie nás vlastně nezajímají hodnoty π11 ani π22 - zajímají nás pouze ty případy, ve kterých došlo ke změně jak v jednom, tak i v druhém smyslu. K testu symetrie používáme takzvaný McNnemarů test symetrie: M=
(b − c)2 b+c
kde M má χ2 rozložení s jedním stupněm volnosti. V našem příkladu je testovací statistika: M=
(108 − 663)2 (−555)2 = = 398, 996 108 + 663 772
Kritická hodnota rozložení χ21 (5%) = 3, 84 (dokonce i χ21 (0, 5%) = 7, 88). Je tedy nutno považovat test symetrie za statisticky významný.
21
Typy studií - způsoby konstrukce kontingenčních tabulek
Stejně jako při analýze spojitých veličin je i pro kvalitativní veličiny podstatné které z nich jsou náhodné a které ne. To samozřejmě závisí na způsobu získávání pozorovaných hodnot. Kontingenční tabulky, tak jak jsme o nich doposud mluvili, vznikly jako obraz reprezentativního vzorku sledované populace. Všichni jedinci použitého výběru jsou rozděleni podle hodnot sledovaných veličin do jednotlivých polí tabulky. Pokud je ale výběr proveden jiným způsobem, musí tuto skutečnost uvažovat i použitý model. To je také důvod proč jsou studie analyzované pomocí kontingenčních tabulek děleny do tří základních skupin:
21.1
Průřezová studie
Pokud je použitý výběr reprezentativní pro posuzovanou populaci z pohledu obou veličin2 , mluvíme o průřezové studii. Můžeme pak odhadovat pravděpodobnost onemocnění, případně pravděpodobnost vystavení expozici v celé populaci a testovat. Ověřujeme, zda pravděpodobnost onemocnění závisí na případné expozici. V praxi se ale často setkáváme s problémem, že potřebujeme výběry o velkém rozsahu. K tomu dochází obzvlášť pokud je pravděpodobnost sledované diagnózy nebo expozice blízká mezním hodnotám 0 nrbo 1. Epidemiologické studie si někdy ale ani nekladou za cíl stanovit pravděpodobnost onemocnění, ale zajímají se pouze o otázku, zda je pravděpodobnost výskytu onemocnění závislá na některých vybraných faktorech (například na expozici). Tomu je možno přizpůsobit plán studie tak, aby byla snáze proveditelná.
21.2
Kohortová studie
Situaci si můžeme zjednodušit pokud budeme některou z proměnných „kontrolovatÿ. Řekněme, že chceme posoudit zda, je větší pravděpodobnost onemocnění v exponované, než v kontrolní skupině. K tomu získáme jednak skupinu kontrol, ale i skupinu exponovaných. Poměr velikostí těchto skupin ale v praxi nemusí odpovídat podílu exponovaných a kontrol v základním souboru. Protože výběr provádíme zvlášť pro skupinu exponovaných a kontrol, musíme dopředu plánovat rozsahy obou skupin. Poměr rozsahů těchto skupin tedy nemá nic společného se skutečným poměrem exponovaných a kontrol v populaci. Často se konstruují obě skupiny srovnatelně velké.
21.3
Studie případ-kontrola
Jiná situace je v okamžiku, kdy máme k disposici dvě odlišné skupiny - skupinu nemocných osob a skupinu zdravých osob. Rozsahy těchto skupin nemusí odrážet jejich poměry v populaci. Takováto šetřením se nazývají studie typu případ-kontrola. Jejím cílem je porovnat jestli expozice souvisí s onemocněním bez nutnosti odhadovat rizika onemocnění v skupině exponovaných a neexponovaných. 2
Reprezentativní výběr nejčastěji konstruujeme jako náhodný výběr z populace. Konstrukce výběru v žádném případě nesmí záviset na hodnotách porovnávaných veličin. Tomuto problému se budeme podrobněji věnovat v následující kapitole.
21
21.4
Typy studií a míry nezávislosti
Jak jsme si již řekli v studii typu případ-kontrola ovlivňujeme v plánu experimentu počty zdravých a nemocných (počty exponovaných a neexponovaných jsou výsledkem šetření a nemůžeme je tedy plánem experimentu ovlivnit). Uvažujme tedy studii, jejíž výsledky jsou v tabulce 2. Označme křížový poměr a relativní riziko této tabulky: OR1 = a RR1 =
ad bc
a(c + d) (a + b)c
Pokud ale naplánujeme studii jinak, například s dvojnásobnými počty nemocných, získáme teoreticky tabulku 5. Vypočtěme křížový poměr této tabulky
Expozice Ano Ne celkem
Ano 2a 2c 2(a + c)
Nemoc Ne celkem b 2a + b d 2c + d b + d 2a + b + 2c + d
Tabulka 5: Tabulka studie případ-kontrola s dvojnásobným počtem nemocných OR2 =
2ad 2bc
Číslici 2 můžeme vykrátit. Získáme tak: OR1 = OR2 Křížový poměr tedy není ovlivněn vyvážeností plánu studie. To je v pořádku, ale problém nastane při výpočtu relativního rizika: 2a(2c + d) a(2c + d) = (2a + b)2c (2a + b)c
RR2 =
Dál již ani není možno podíl krátit. Je tedy zřejmé, že RR1 6= RR2 Vidíme, že hodnota relativního rizika je závislá na plánu studie. Tato charakteristika je tedy pro studie případ-kontrola nepoužitelná. Snadno můžeme mít podezření, že relativní riziko selhává i v ostatních studiích. V průřezové studii můžeme jejím plánem regulovat pouze celkový rozsah, teoreticky se tedy rovnoměrně zvětší všechny čtyři políčka kontingenční tabulky (viz. 6). Pak se ale podíl vykrátí:
Expozice Ano Ne celkem
Ano 2a 2c 2(a + c)
Nemoc Ne celkem 2b 2a + 2b 2d 2c + 2d 2(b + d) 2(a + b + c + d)
Tabulka 6: Tabulka průřezové studie s dvojnásobným počtem
RR =
2a(2c + 2d) a(c + d) = (2a + 2b)2c (a + b)c
Uvažujme ještě kohortovou studii. V ní můžeme kontrolovat rozsahy skupiny exponovaných a neexponovaných osob. Můžeme tak získat tabulku 7. Vypočteme relativní riziko: RR =
2a(c + d) a(c + d) = (2a + 2b)c (a + b)c
22
Expozice Ano Ne celkem
Ano 2a c 2a + c
Nemoc Ne celkem 2b 2(a + b) d c+d 2b + d 2(a + b) + c + d
Tabulka 7: Tabulka kohortové studie s dvojnásobným počtem exponovaných Je tedy vše v pořádku. To je způsobeno tím, že pro relativní riziko potřebujeme odhadnout rizika onemocnění v obou skupinách (exponovaných a neexponovaných), což je možné jak v průřezové, tak i v kohortové studii. V studii případ-kontrola ale nemůžeme odhadnout riziko onemocnění kontrol ani exponovaných protože počty zdravých a nemocných jsou ovlivňovány plánem studie.
22
Test trendu v kontingenční tabulce
Někdy se setkáváme s takovým problémem, že potřebujeme hodnotit expozici nejen ve smyslu její přítomnosti a nepřítomnosti, ale potřebujeme pracovat i s její mírou. Například nás zajímá to, jestli riziko onemocnění závisí na dávce expozice. χ2 test nezávislosti v kontingenční tabulce sice umožní testovat nezávislost nemoci a expozica, ale pokud je nějaká závislost nalezena, pak citovaný χ2 test nic neříká o tom, zda je tento vztah lineární (nebo alespoň monotónní). Ukažme si nyní jednu z možností, jak tento vztah ověřit. Můžeme vypočíst rizika pro různé dávky expozice vzhledem k nulové expozici (to jsou tabulky 2 × 2) a z nich vypočíst relativní riziko (nebo křížový poměr). Snadno si pak můžeme klást otázku zda s rostoucí expozicí roste (případně klesá) i RR nebo OR. Potřebujeme ověřit, zda pravděpodobnosti projevují nějaký trend v závislosti na výši expozice. Představme si, že máme kontingenční tabulku 2 × K a uvažujme značení z tabulky 10. Aby mělo smysl trend testovat, musí být počet řádek tabulky K ≥ 3. Ukažme si nejprve praktický příklad: Uvažujme diagnózu „B15ÿ - virová hepatitida typu A a případy této diagnózy rozdělme do dvou skupin podle toho, zda se jedná o manifestní průběh onemocnění či ne. Řekněme, že nás zajímá skutečnost zda tento průběh závisí na věku. Uvažujme tři věkové skupiny 0-5, 5-15 a 15-25. Odpovídající data jsou zobrazena v tabulce 10.
věková skupina 0-5 5-15 15-25
četnost pozorovaná relativní pozorovaná relativní pozorovaná relativní
celkem
Klinická forma manifestní latentní celkem 33 51 84 39,3% 60,7% 145 91 236 83,3% 16,7% 393 79 742 83,3% 16,7% 751 221 792
Tabulka 8: Kontingenční tabulka klinické formy a věkových skupin virové hepatitidy typu A K řešení tohoto problému byl navržen χ2 test trendu v kontingenční tabulce. V našm příkladu je jako skóre xi jednotlivých skupin použit jejich průměrný věk, tedy 2,5; 10 a 20. Nejprve se podívejme na RR nebo OR, ty jsou vypočteny v tabulce 11. Dále vypočteme χ2 lineárního trendu: χ2I/L = 86, 89 Ten má v našem případě jeden stupeň volnosti (kritická hodnote je χ2(1) = 3, 84). Je tedy možno říci, že klinická forma je statisticky významně závislá na věku.
23
skóre xi 2,5 10 20
Klinická forma relativní riziko RR křížový poměr OR 1,00∗ 1,00∗ 1,56 (1,18;2,08) 2,46 [1,48;4,10] 2,12 (1,62;2,77) 7,69 (4,66;12,68)
Tabulka 9: RR, OR a jejich intervaly spolehlivosti pro test trendu v tabulce závislosti klinické firmy virové hepatitidy A na věku pacienta. ∗ první řádek je referenční je tedy nutně OR = 1.
23
Standardizace
Často se stává, že potřebujeme porovnat počty onemocnění nebo úmrtí mezi různými skupinami jedinců, například mezi dvěma různými okresy. Pokud předpokládáme, že jsou oba okresy stejné z pohledu různých možných faktorů, je možno porovnávat tyto počty, přesněji řečeno porovnávat odhady pravděpodobností onemocnění. V praxi se nejčastěji pracuje s počtem onemocnění na 100 000 osob. Situace ale nebývá tak jednoduchá, protože se porovnávané lokality mohou lišit například ve věkové struktuře. Pak ale může být pozorovaný rozdíl způsoben jinou věkovou strukturou a ne různou pravděpodobností onemocnění v porovnávaných lokalitách. Správně bychom měli porovnávat pravděpodobnosti onemocnění v jednotlivých věkových skupinách. Pak bychom ale měli více různých výsledků, které by se mohly navzájem lišit (i z pohledu statistické významnosti) a navíc by velké rozdrobení porovnávaných souborů výrazně snížilo možnosti nalezení rozdílů mezi nimi. Jedna z možností řešení tohoto problému je standardizace. Její myšlenkou je snaha upravit pozorované počty obou porovnávaných populací tak, aby byl vyloučen vliv uvažovaných rušivých faktorů3 . Praktických způsobů provedení je více, vždy však potřebujeme zvolit tzv. standard (je to „ideálníÿ populace, která nám bude sloužit jako „měřítkoÿ pro naše porovnání). Jako takovýto standard můžeme uvažovat například celosvětovou populaci s jejím věkovým složením a výskytem sledovaného onemocnění na celém světě. Jinou možností je evropský či republikový standard, nebo si vezmeme pro porovnání dvou okresů počty a nemocnosti v obou okresech dohromady. Teoreticky si můžeme zvolit věkovou strukturu zcela libovolně. To ale nemá praktický význam - standard by měl být pokud možno co nejbližší prostředí, v kterém studii provádíme (nebo by se měl soustředit na část populace, která nás zajímá). Například pro porovnání nemocnosti ve dvou evropských státech není vhodné používat celosvětový standard4 . Nejprve rozdělíme soubory (populaci a standard) na skupiny podle rušivého faktoru (např. věku), písmenem K označme počet těchto (věkových) skupin. Zaveďme si nyní potřebné označení, viz tabulka 12.
celkové počty specifické počty celkové počty případů specifické počty případů specifické relativní počty případů na 100 000
Populace m. mi x. xi ri = 100 000 ·
xi mi
Standard n. ni y. yi si = 100 000 ·
yi ni
Tabulka 10: Popis značení pro výpočet standardizace Slovem specifické rozumíme počty v jednotlivých skupinách (v našem případě věkových). Nyní je již čas na popis jednotlivých metod standardizace.
23.1
Přímá standardizace
Přímou standardizaci provedeme tak, že v každé věkové skupině vypočteme pravděpodobnost onemocnění v populaci. Pokud tyto pravděpodobnosti vynásobíme velikostí příslušné věkové skupiny ve standardu a sečteme přes všechny věkové skupiny, získáme odhad „kolik by bylo nemocných v standardu, pokud by pravděpodobnosti onemocnění (ve věkových skupinách) byly stejné jako v sledované populaciÿ. Standardizovanou nemocnost (úmrtnost), která se obvykle vyjadřuje jako počet nemocných (zemřelých) na 100 000 obyvatel tedy vypočteme: 3 4
V našem případě uvažujeme, že rušivým faktorem je věk, ale rušivým faktorem může to být i jiná veličina. celosvětová populace je výrazně mladší než evropská.
24
PK K X ri ni ni Stp = Pi=1 ri PK = K i=1 ni i=1 ni i=1
Vlastně se nejedná o nic jiného než o vážený průměr pravděpodobností onemocnění v jednotlivých skupinách populace s vahami odpovídajícími rozsahům věkových skupin standardu (wi = PKni ) vynásobený i=1
číslem 100 000.
23.2
ni
Nepřímá standardizace
Pokud neznáme specifické počty onemocnění v sledované populaci (známe pouze celkový počet nemocných v sledované populaci), můžeme vypočíst, kolik by mělo být nemocných v populaci, pokud by pravděpodobPK nosti onemocnění v sledované populaci byly stejné jako v standardu i=1 mi si . Jestliže touto hodnotou vydělíme celkový počet nemocných v populaci, zjistíme kolikrát více (méně) je nemocných v populaci než by mělo být, pokud by v populaci platily stejné zákonitosti jako v standardu: IStn = PK
x.
i=1
Populace
Standard
celkové počty specifické počty celkové počty případů specifické počty případů specifické počty specifické počty případů
mi si
Přímá * * * * *
Standardizace Nepřímá Inverzní * * * * * * * * * *
Tabulka 11: Údaje potřebné k výpočtu standardizace
23.3
Inverzní standardizace
Posledním typem standardizace, který bývá použit jen velmi zřídka, je inverzní standardizace: Neznáme-li specifické počty osob v populaci, můžeme vypočíst, by měla být velká sledovaná populace, PK jak xi aby v ní byl stejný počet nemocných jako v standardu i=1 si . Pokud vydělíme toto číslo velikostí populace m. , zjistíme kolikrát větší (menší) musí být sledovaná populace, pokud by v ní platily stejné zákonitosti jako v standardu Abychom mohli tyto metodu porovnat, podívejme se na tabulku 13, kde jsou přehledně zobrazeny hodnoty, které potřebujeme pro jednotlivé metody. Jedním z důležitých kritérií pro volbu metody standardizace bude tedy dostupnost specifických počtů. Pokud se ale rozhodneme pro konkrétní metodu standardizace, je nutno citovat, která metoda byla použita. Není možno metody vzájemně zaměňovat a směšovat. Ukažme si nyní na reálném příkladu použití přímé standardizace. V rámci systému EpiDat jsou shromažďovány údaje o výskytu vybraných diagnóz v jednotlivých okresech. Uvažujme například diagnózu B01 plané neštovice za rok 1997. Pro ilustraci zvolíme pouze dvě oblasti - Praha a Litoměřice. V tabulce 14 pak najdeme jednak všechny P údaje potřebné pro výpočet přímé standardizace, ale i jednotlivé mezivýpočty. Na řádce označené se nachází jednak celkové počty obyvatel v jednotlivých oblastech, ale hlavně součet všech ri nni. , což je hledaný standardizovaný počet hlášení na 100 000 obyvatel v příslušné oblasti.
24
Intenzita incidence
Vraťme se ještě ke kontingenčním tabulkám a uvažujme některé speciální typy. Někdy nás zajímá tabulka, kdy se sleduje počet onemocnění společně s počten dnů sledování osob. Počty onemocnění jsou vztaženy k osobám a času. Jako marginální počet pro každou exposici je uvažován „osoba*časÿ (person*time) P T a, P T b.
25
Věková skupina 0 1-5 5-10 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65+
Praha Litoměřice ni ri mi ri n. ri mi ri nni. 606,662 9066 5,455 471,254 1061 4,238 1754,148 44295 77,957 1887,906 5085 83,901 1454,130 63887 90,283 1152,993 6765 71,586 219,353 68383 14,373 176,176 7379 11,544 54,860 89318 4,419 51,562 9697 4,154 33,098 93661 2,818 40,012 9997 3,407 28,724 76590 1,934 39,583 7579 2,666 21,013 80902 1,412 27,894 7170 1,874 14,926 73698 0,969 0,000 7115 0,000 5,213 95919 0,402 0,000 8969 0,000 0,000 104618 0,000 10,281 9727 0,827 3,153 95142 0,209 26,774 7470 1,776 1,673 59785 0,083 0,000 5607 0,000 0,000 57699 0,000 0,000 5464 0,000 1,578 63373 0,073 0,000 5278 0,000 P 1207299 200,388 113927 185,971 Výpočet bez standardizace - relativní počty na 100 000 169,883 183,451
Standard ČR ni ni n. 92756 0,008992 458427 0,044441 640451 0,062087 675904 0,065524 830980 0,080558 878358 0,085151 694632 0,067340 692996 0,067181 669935 0,064945 796214 0,077187 829796 0,080443 684102 0,066319 512266 0,049661 476958 0,046238 476302 0,133935 10315353 1,000000
Tabulka 12: Výpočet přímé standardizace výskytu planých neštovic dvou oblastí v ČR.
Nemoc Expozice Ano Ne
Ano a b
Ne -
celkem PTa PTb
Tabulka 13: Kontingenční tabulka pro intenzity
26
Intenzita incidence v exponované skupině je pak Rexp =
a PTa
Rne =
b PTb
RR =
a PTa b PTb
a v neexponované skupině:
. Relativní riziko:
Podobně lze definovat Atributivní riziko AR =
25
b a − PTa PTb
Metoda dvojího záchytu
Metoda dvojího záchytu či detekce (capture/recapture), tj. metoda dvojího zjištění výskytu sledovaného onemocnění, odhaduje celkový počet případů v populaci spojováním informací získaných ze dvou nezávislých systémů záchytu (systémů surveillance). Nutným předpokladem je právě tato nezávislost obou použitých metod. Dále je nutno aby bylo možno rozdělit počty identifikovaných případů do tří skupin identifikovaných jen první, jen druhou nebo oběma metodami současně. Dále předpokládáme, že každý případ je skutečně pozitivní, ale ani jedna z metod nemusí být schopna nalézt všechny případy sledované populace. puužitím obou surveillance systémů získáme tabulku: kde n12 je počet pozitivních případů zachycených
1. Metoda 2. Metoda + n12 n1. n1
+ -
n.2
celkem n2 N
Tabulka 14: Metoda dvojího záchytu oběma metodami, n1 je počet pozitivních případů zachycených první a n2 druhou metodou. Celkový počet pozitivních případů pak je n = n1 + n2 − n12 a odhadované N N= s rozptylem var(N ) =
(n1 + 1)(n2 + 1) n12 + 1
(n1 + 1)(n2 + 1)(n1 − n12 )(n2 − n12 ) (n12 + 1)2 (n12 + 2)
Citlivosti jednotlivých metod jsou p1 =
n1 N
p2 =
n2 N
p=
n N
a Citlivost obou systémů dohromady je
27
Výsledek testu Ano Ne
Stav nemoci Ano a c a+c
Ne b d b+d
celkem a+b c+d N
Tabulka 15: Hodnocení Screeningového testu
26
Screeningové testy - měření jejich kvality
Jedná se o testy sloužící k vyhledávání rizikových, pravděpodobně nemocných nebo nemocných osob pomocí rychlého, jednoduchého testu. Při jejich použití je však nutno znát kvalitu použitého testu. Test hodnotíme pomocí tabulky, kde stav nemoci představuje nějakou spolehlivou metodu detekce. Vznikne tak tabulka: Kde a = Shodné pozitivně (test+ & nemoc+) b = Falešně pozitivní (test+ & nemoc-) c = Falešně negativní (test- & nemoc+) d = Shodné negativně (test- & nemoc-) Pak definujeme: Senzitivita je pravděpodobnost, pozitivní odpověďi, když je testovaná osoba skutečně nemocná Se =
a (a + c)
Specificita je pravděpodobnost, negativní odpověďi, jestliže testovaná osoba skutečně nemá příslušnou nemoc d Sp = (b + d) Predikce pozitivního testu je pravděpodobnost, že osoba skutečně má sledovanou nemoc v případě, že je její test pozitivní a PV P = (a + b) Predikce negativního testu je pravděpodobnost, že osoba nemá sledovanou nemoc za předpokladu, že výsledek jejího screeningového testu je negativní PV N =
d (c + d)
Reference [1] B.Procházka: Biostatistika pro lékaře - principy základních metod a jejich interpretace. Karolinum, Praha 1999. [2] J.Zvárová: Základy ststistiky pro biomedicínské obory. Karolinum, Praha 1998. [3] P.Kasal, Š.Svačina a kolektiv: Lékařská informatika. Karolinum, Praha 1998. [4] K.Zvára: Biostatistika. Karolinum, Praha 1998. [5] M.Meloun, J.Militký: Statistické zpracování experimentálních dat. Plus s.r.o., Praha, 1994.
28