Analýza dat pro zdravotníky, Přednáška 5, Tomáš Ťoupal 2015
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně více náhodnými veličinami. V praxi se pracuje s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více hodnot bez uspořádání), ordinálními (nabývají více hodnot s uspořádáním) a kardinálními (nabývají více hodnot s uspořádáním a lze měřit rozdíly mezi hodnotami). Pro různé typy dat je třeba používat různé matematické postupy vhodné pro zjišťování souvislostí a závislostí. Úkolem statistiky je stanovit sílu a druh sledovaných závislostí. Síla „závislosti“ se vyjadřuje podle různých měr statistických závislostí. Statistická závislost však nevypovídá přímo o kauzalitě. Vysoký stupeň závislosti může, ale nemusí odrážet příčinný vztah mezi sledovanými statistickými veličinami. Příčinné souvislosti čistě empirickými prostředky neodhalíme. Ke statistickým výsledkům je třeba přidat odborné znalosti, praktické zkušenosti a účelně kombinovat deduktivní a induktivní způsob uvažování. Existují i jednoznačné funkční závislosti mezi náhodnými veličinami, ty však obvykle nejsou hlavním cílem statistického šetření (např. závislosti založené na fyzikálních zákonech dodávané teplo zvyšuje energii). Druh statistické závislosti se odhaduje obvykle na základě grafické reprezentace dat. V případě závislosti dvou náhodných proměnných je vyjádřením druhu závislosti křivka, která se nejvíce „hodí“ k napozorovaným hodnotám. Podle typu křivky se lze bavit o závislosti lineární, logaritmické, exponenciální atd. Typ proměnné
Nominální
Nominální Ordinální kontingenční tabulky 2x2, nezávislost, homogenita výběru, symetrie, rezidua, kontingenční tabulky, grafická reprezentace, loglineární modely znaménková schémata, míry asociace
Kardinální
probitová, logitová regrese, kontingenční tabulky, kontingenční koeficienty
Ordinální
--
Spearmanův korelační koeficient, Kendallovo 𝜏
analýza rozptylu
Kardinální
--
--
korelace, korelační koeficienty, regresní analýza
Tabulka 1: Vícerozměrná data
1
Analýza dat pro zdravotníky, Přednáška 5, Tomáš Ťoupal 2015
5.2 Kontingenční tabulky Kontingenční tabulka se užívá k přehledné vizualizaci vzájemného vztahu dvou statistických znaků. V praxi vzniká kontingenční tabulka tak, že se na statistických jednotkách sledují dva znaky. Řádky kontingenční tabulky odpovídají možným hodnotám prvního znaku, sloupce pak možným hodnotám druhého znaku. V příslušné buňce kontingenční tabulky je pak zařazen počet případů, kdy zároveň měl první znak hodnotu odpovídající příslušnému řádku a druhý znak hodnotu odpovídající příslušnému sloupci. Je možné, aby jeden řádek či sloupec odpovídal více možným hodnotám znaku. To se děje v případě, kdy znak nabývá některých hodnot příliš zřídka, takže je vhodné spojit více možných hodnot. Součty (mezisoučty) všech hodnot v každém řádku, resp. sloupci nesou informaci o počtu výskytů jevů, při nichž nabyl první (resp. druhý znak) příslušné hodnoty bez ohledu na hodnotu druhého (resp. prvního) znaku. Kromě prostého popisu četností kombinací hodnot dvou znaků nabízí kontingenční tabulka možnost testovat, zda mezi oběma znaky existuje nějaký vztah. K tomu lze užít např. test dobré shody. Znaky užité k zobrazení v kontingenční tabulce pak musí představovat diskrétní hodnoty (je možné tedy využít kvalitativní, diskrétně kvantitativní či spojitě kvantitativní znaky, v posledním případě však pouze s rozdělením jednotlivých znaků do skupin – tzv. skupinové třídění). Teoretickým základem kontingenčních tabulek jsou matice pravděpodobností pro dvourozměrné náhodné vektory.
1 2 … r ∑
1 2 … r ∑
1
…
c
∑
n11 n21 … nr1
… … … …
n1c n2c … nrc
n1. n2. … nr.
n.1 … n.c Tabulka 2: Kontingenční tabulka
n
1
…
c
∑
p11 p21 … pr1
… … … …
p1c p2c … prc
p1. p2. … pr.
p.1 … p.c 1 Tabulka 3: Matice pravděpodobností
2
Analýza dat pro zdravotníky, Přednáška 5, Tomáš Ťoupal 2015
Nechť náhodný vektor 𝑿 = (𝑋1 , 𝑋2 ) má diskrétní rozdělení, přičemž veličina 𝑋1 nabývá hodnot 𝑖 = 1,2, … , 𝑟 a veličina 𝑋2 nabývá hodnot 𝑗 = 1,2, … , 𝑠. Označme 𝑝𝑖𝑗 = 𝑃(𝑋1 = 𝑖, 𝑋2 = 𝑗);
𝑝𝑖∙ = ∑ 𝑝𝑖𝑗 ;
𝑝∙ 𝑗 = ∑ 𝑝𝑖𝑗 .
𝑗
𝑖
Předpokládejme, že se uskutečnil náhodný výběr rozsahu 𝑛 z tohoto rozdělení. Nechť 𝑛𝑖𝑗 je počet těch případů, kdy se ve výběru vyskytla dvojice (𝑖, 𝑗). Náhodné veličiny 𝑛𝑖𝑗 mají pak sdružené multinomické rozdělení s parametrem 𝑛 a s pravděpodobnostmi 𝑝𝑖𝑗 . Matice
(𝑝𝑖𝑗 )𝑖=1,2,…,𝑟;𝑗=1,2,…,𝑠
se
nazývá
matice
pravděpodobností
a
matice
(𝑛𝑖𝑗 )𝑖=1,2,…,𝑟;𝑗=1,2,…,𝑠 tvoří základ kontingenční tabulky.
Označme 𝑛𝑖 ∙ = ∑ 𝑛𝑖𝑗 ; 𝑛∙ 𝑗 = ∑ 𝑛𝑖𝑗 𝑗
𝑖
Číslům 𝑝𝑖∙ a 𝑝∙ 𝑗 se říká marginální pravděpodobnosti a hodnotám 𝑛𝑖 ∙ a 𝑛∙ 𝑗 marginální četnosti. Namísto dvou znaků lze sledovat obecně libovolné množství znaků. Kontingenční tabulka se pak tvoří pomocí stejného principu (v každém políčku je počet výskytů kombinací určitých hodnot jednotlivých znaků), avšak není již možné ji tak snadno znázornit. Ve vícerozměrné tabulce lze testovat mnohem víc typů závislostí mezi jednotlivými znaky, testování je však technicky mnohem komplikovanější než u dvojrozměrné tabulky. Excel: Zde je možnost vytvořit kontingenční tabulku pomocí příkazu 𝐶𝑂𝑈𝑁𝑇𝐼𝐹𝑆(𝑜𝑏𝑙𝑎𝑠𝑡1; 𝑝𝑜𝑑𝑚í𝑛𝑘𝑎1; 𝑜𝑏𝑙𝑎𝑠𝑡2; 𝑝𝑜𝑑𝑚í𝑛𝑘𝑎2; … ) nebo pomocí nabídky pro tvorbu kontingenční tabulky.
5.2.1 Testy nezávislosti Nejčastější úlohou při analýze kontingenčních tabulek, je problém testování nezávislosti. Vzhledem k tomu, že dvě veličiny 𝑋, 𝑌 jsou nezávislé právě tehdy, když platí 𝑝𝑖𝑗 = 𝑝𝑖∙ ⋅ 𝑝∙ 𝑗 pro všechna 𝑖, 𝑗, formuluje se nulová hypotéza testu nezávislosti v kontingenční tabulce ve tvaru
3
Analýza dat pro zdravotníky, Přednáška 5, Tomáš Ťoupal 2015
𝐻0 : 𝑝𝑖𝑗 = 𝑝𝑖∙ ⋅ 𝑝∙𝑗 ,
𝑖 = 1,2, … 𝑟; 𝑗 = 1,2, … , 𝑠.
Testovací kritérium má následně tvar 𝑛𝑖 ∙ 𝑛∙ 𝑗 2 (𝑛𝑖𝑗 − 𝑛 ) 𝜒2 = ∑ ∑ 𝑛𝑖 ∙ 𝑛∙ 𝑗 𝑖=1 𝑗=1 𝑛 𝑠
𝑟
a při platnosti nulové hypotézy má asymptoticky rozdělení 𝜒 2 , jehož počet stupňů volnosti je roven: 𝜈 = 𝑟𝑠 − (𝑟 + 𝑠 − 2) = (𝑟 − 1)(𝑠 − 1). Pokud
hodnota
testovacího
kritéria
2 𝜒 2 ≥ 𝜒(𝑟−1)(𝑠−1) (1 − 𝛼)
zamítáme
hypotézu
o nezávislosti veličin 𝑋 a 𝑌. Ke shodě s limitním rozdělením se požaduje, aby teoretické četnosti
𝑛𝑖 ∙ 𝑛∙ 𝑗 𝑛
byly větší než 5. Není-li tato podmínka splněna, je nutno sloučit některé
sloupce, případně řádky v kontingenční tabulce. Analogicky jako v postupu pro test nezávislosti v kontingenční tabulce lze postupovat v případě testování homogenity multinomického rozdělení. Tento přístup lze uplatnit v okamžiku, kdy marginální řádkové četnosti jsou pevně stanoveny a 𝑖 − 𝑡ý řádek v kontingenční tabulce má tzv. multinomické rozdělení s parametry 𝑛𝑖∙ , 𝑞𝑖 1 , 𝑞𝑖 2 , … , 𝑞𝑖 𝑠 , kde 𝑞𝑖 1 , 𝑞𝑖 2 , … jsou nějaké pravděpodobnosti splňující podmínku 𝑞𝑖 1 + 𝑞𝑖 2 + ⋯ + 𝑞𝑖 𝑠 = 1. Hypotéza homogenity pak říká, že pravděpodobnosti 𝑞𝑖 1 , 𝑞𝑖 2 , … nezávisí na řádkovém indexu 𝑖. Testovací kritérium a kritické hodnoty jsou pro tento test identické s veličinami pro test nezávislosti.
5.3 Čtyřpolní tabulky Je-li 𝑟 = 𝑠 = 2, potom se jedná o tzv. čtyřpolní kontingenční tabulku následujícího tvaru
1 2
1
2
∑
n11 n21
n12 n22
n1. n2.
n.1 n.2 n Tabulka 4: Čtyřpolní tabulka
∑
Testovací kritérium pro test nezávislosti a test homogenity v této čtyřpolní tabulce má tvar (𝑛11 𝑛22 − 𝑛12 𝑛21 )2 𝜒 =𝑛 𝑛∙ 1 𝑛∙ 2 𝑛1∙ 𝑛2∙ 2
a pro ověření platnosti nulové hypotézy je porovnávána s kritickou hodnotou kvantilu 2 𝜒𝜈=1 (1 − 𝛼) chí-kvadrát rozdělení s počtem stupňů volnosti 1. 4
Analýza dat pro zdravotníky, Přednáška 5, Tomáš Ťoupal 2015
Zdrojová literatura: 1) Blanka Šedivá, přednášky KMA/STAV, ZČU v Plzni 2009. 2) Jiří Reif: Metody matematické statistiky, ZČU v Plzni 2004. 3) Jan Kožíšek, Barbora Stieberová: Statistika v příkladech, Dashofer Holding, Ltd. 2012.
5