Přednáška 10 Analýza závislosti ― Analýza závislosti dvou kategoriálních proměnných ― Analýza závislosti v kontingečních tabulkách ― Analýza závislosti v asociačních tabulkách ― Simpsonův paradox
― Analýza závislosti dvou spojitých proměnných ― Pearsonův korelační koeficient, ― Spearmanův korelační koeficient
Analýza závislosti V praxi často u statistických jednotek (pozorovaných osob nebo jiných objektů) zjišťujeme současně řadu znaků. Například • spotřeba, objem motoru, hmotnost a zrychlení automobilů, • výše mzdy, velikost IQ, hmotnost a výška mužů, • školní prospěch a pocit deprese u dětí, apod.
Možnosti vyhodnocení: • Analýza jednotlivých znaků (každý zvlášť) • Analýza závislosti, tj. může zajímat, zda existuje závislost mezi – spotřebou automobilu a jeho hmotností, – výši mzdy a velikostí IQ, – pocitem deprese u dětí a školním prospěchem.
Metody analýzy jednostranné závislosti
Typ znaku X (příčina)
Jednostranná závislost - znak X působí na znak Y, avšak znak Y již nepůsobí zpětně na znak X.
kategoriální
kvantitativní
Typ znaku Y (důsledek) kategoriální kvantitativní analýza závislosti v kontingenčních, ANOVA resp. v asociačních tabulkách Diskriminační analýza, regresní a korelační analýza logistická regrese…
Není náplni základního kurzu Statistika!
Analýza závislosti dvou kategoriálních proměnných
Analýza závislosti v kontingenčních tabulkách
Motivační příklad Pro diferencovaný přístup v personální politice potřebuje vedení podniku vědět, zda spokojenost v práci závisí na tom, jedná-li se o pražský závod či závody mimopražské. Šetření se účastnilo 100 pracovníků z Prahy a 200 pracovníků z venkova. Výsledky šetření jsou v následující tabulce. místo/stupeň spokojenosti Praha Venkov
Výsledky šetření analyzujte.
velmi spíše nespokojen nespokojen 10 25 20 10
spíše spokojen 50 130
velmi spokojen 15 40
V jakém formátu obvykle získáváme tento typ dat? Místo Praha Praha Venkov Praha Venkov ⋮ Venkov
Stupeň spokojenosti velmi spokojen spíše spokojen spíše nespokojen spíše spokojen velmi spokojen ⋮ spíše spokojen
Tento převod lze provést pomocí většiny tabulkových procesorů i statistického software.
Standardní datový formát místo/stupeň spokojenosti Praha Venkov Kontingenční tabulka
velmi spíše nespokojen nespokojen 10 25 20 10
spíše spokojen 50 130
velmi spokojen 15 40
Základní terminologie Se základní terminologii a způsobem testování nezávislosti v kontingenční tabulce se seznamte v řešeném příkladu Analýza závislosti dvou kategoriálních veličin (flash animace).
Co je to kontingenční tabulka? 𝑋\𝑌 𝑥1 𝑥2 ⋮ 𝑥𝑟 Celkem
𝑦1 𝑛11 𝑛21 ⋮ 𝑛𝑟1 𝑛∙1
𝑦2 𝑛12 𝑛22 ⋮ 𝑛𝑟2 𝑛∙2
⋯ ⋯ ⋯ ⋯ ⋯ ⋯
𝑦𝑠 𝑛1𝑠 𝑛2𝑠 ⋮ 𝑛𝑟𝑠 𝑛∙𝑠
Celkem 𝑛1∙ 𝑛2∙ ⋮ 𝑛𝑟∙ 𝒏
Schéma rozšířené kontingenční tabulka Dvourozměrná tabulka četností, z jejichž hodnot můžeme usoudit na závislost či nezávislost mezi dvěma kategoriálními proměnnými.
Jak posoudit intenzitu závislosti mezi dvěma kategoriálními proměnnými pomoci explor. analýzy? • Grafická analýza – Shlukový sloupcový graf, – kumulativní sloupcový graf, – prostorový sloupcový graf (angl. sky chart), – mozaikový graf, – 100% skládaný pruhový graf • Míry kontingence – koeficient kontingence (počet variant obou proměnných je stejný) – korigovaný koeficient kontingence, – Cramerovo V Čím jsou tyto koeficienty blíže 1, tím je závislost mezi X a Y těsnější.
Míry kontingence Označme: • 𝑟… počet variant proměnné X, • 𝑠… počet variant proměnné Y, • 𝐾=
𝑟 𝑖=1
𝑠 𝑗=1
𝑂𝑖𝑗 −𝐸𝑖𝑗 𝐸𝑖𝑗
2
, kde 𝑂𝑖𝑗 jsou pozorované sdružené četnosti
zapsané v kontingenční tabulce a 𝐸𝑖𝑗 jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. • Koeficient kontingence ( 𝑟 = 𝑠 ⇒ 𝐶𝐶 ∈ 0; 1 ) 𝐶𝐶 =
𝐾 𝐾+𝑛
Míry kontingence Označme: • 𝑟… počet variant proměnné X, • 𝑠… počet variant proměnné Y, • 𝐾=
𝑟 𝑖=1
𝑠 𝑗=1
𝑂𝑖𝑗 −𝐸𝑖𝑗 𝐸𝑖𝑗
2
, kde 𝑂𝑖𝑗 jsou pozorované sdružené četnosti
zapsané v kontingenční tabulce a 𝐸𝑖𝑗 jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. • Korigovaný koeficient kontingence 𝐶𝐶𝑐𝑜𝑟 =
𝐶𝐶 , kde 𝐶𝐶𝑚𝑎𝑥
𝐶𝐶𝑚𝑎𝑥 =
𝑚𝑖𝑛 𝑟;𝑠 −1 𝑚𝑖𝑛 𝑟;𝑠
Míry kontingence Označme: • 𝑟… počet variant proměnné X, • 𝑠… počet variant proměnné Y, • 𝐾=
𝑟 𝑖=1
𝑠 𝑗=1
𝑂𝑖𝑗 −𝐸𝑖𝑗 𝐸𝑖𝑗
2
, kde 𝑂𝑖𝑗 jsou pozorované sdružené četnosti
zapsané v kontingenční tabulce a 𝐸𝑖𝑗 jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. • Cramerovo V 𝑉=
𝐾 𝑛 𝑚𝑖𝑛 𝑟;𝑠 −1
Motivační příklad Pro diferencovaný přístup v personální politice potřebuje vedení podniku vědět, zda spokojenost v práci závisí na tom, jedná-li se o pražský závod či závody mimopražské. Šetření se účastnilo 100 pracovníků z Prahy a 200 pracovníků z venkova. Výsledky šetření jsou v následující tabulce. místo/stupeň spokojenosti Praha Venkov
Výsledky šetření analyzujte.
velmi spíše nespokojen nespokojen 10 25 20 10
spíše spokojen 50 130
velmi spokojen 15 40
Exploratorní analýza pomocí Statgraphicsu
Exploratorní analýza pomocí Statgraphicsu
Mosaic Plot Praha
Venkov
Velmi nespokojen Spíše nespokojen Spíše spokojen Velmi spokojen
Exploratorní analýza pomocí Statgraphicsu
Exploratorní analýza pomocí Excelu
Venkov
20 10
Praha
10 0%
Velmi nespokojen Spíše nespokojen Spíše spokojen Velmi spokojen
130
25 20% Praha 10 25 50 15
40
50 40%
60%
15 80% Venkov 20 10 130 40
100%
Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Intervalové odhady vybraných pravděpodobností (viz Úvod do statistiky, kapitola 4)
A to musím počítat intervalové odhady pro „všechny“ pravděpodobnosti, které jsou v té tabulce???
Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Intervalové odhady vybraných pravděpodobností (viz Úvod do statistiky, kapitola 4)
NE!!! Vždy záleží na tom, co od výstupu analýzy očekáváš! Tohle je jen návrh analýz, které lze provést…
Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin 𝜒 2 test nezávislosti v kontingenční tabulce H0: Znaky X a Y v kontingenční tabulce jsou statisticky nezávislé HA: Znaky X a Y v kontingenční tabulce jsou statisticky závislé. Předpoklady testu: • žádná z očekávaných četností 𝐸𝑖𝑗 nesmí být menší než 2,
• alespoň 80% očekávaných četností 𝐸𝑖𝑗 musí být větších než 5.
Testové kritérium: 𝐾 =
𝑟 𝑖=1
𝑂𝑖𝑗 −𝐸𝑖𝑗 𝑠 𝑗=1 𝐸𝑖𝑗
2
𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎 = 1 − 𝐹0 𝑥𝑂𝐵𝑆 , kde 𝐹0 𝑥 je distribuční funkce χ2 rozdělení s 𝑟 − 1 𝑠 − 1 stupni volnosti.
Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Yatesova korekce 𝜒 2 testu nezávislosti v kontingenční tabulce H0: Znaky X a Y v kontingenční tabulce jsou statisticky nezávislé HA: Znaky X a Y v kontingenční tabulce jsou statisticky závislé. Předpoklady testu: ---Testové kritérium: 𝐾𝑌𝑎𝑡𝑒𝑠 =
𝑟 𝑖=1
𝑠 𝑗=1
𝑂𝑖𝑗 −𝐸𝑖𝑗 −0,5
2
𝐸𝑖𝑗
𝑝−ℎ𝑜𝑑𝑛𝑜𝑡𝑎 = 1 − 𝐹0 𝑥𝑂𝐵𝑆 , kde 𝐹0 𝑥 je distribuční funkce χ2 rozdělení s 𝑟 − 1 𝑠 − 1 stupni volnosti. Poznámka: Test má menší sílu testu (oproti χ2 testu nezávislosti).
Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu:
Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.
Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu:
A co když předpoklady splněny nebudou??? Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.
Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu:
Pokud lze některé varianty proměnné „smysluplně“ sloučit, zkus to udělat. Pokud ne, nelze výsledky z výběrového šetření zobecnit na populaci. Na tento možný problém je vhodné myslet již před výběrovým šetřením (dostatečný rozsah výběru).
Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.
Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné. Výstup ze Statgraphicsu (Nekopírovat do projektů, DP, článků…!!!)
Rozhodnutí: Na hladině významnosti 0,05 zamítáme nulovou hypotézu (𝜒 2 test nezávislosti v kontingenční tabulce, 𝜒 2 = 26,27, 𝐷𝐹 = 3, 𝑝 − ℎ𝑜𝑑𝑛𝑜𝑡𝑎 ≪ 0,001). Lze předpokládat, že spokojenost v práci souvisí s umístěním závodu (𝐶𝑟𝑎𝑚𝑒𝑟𝑜𝑣𝑜 𝑉 = 0,296).
Takže stačí stáhnout „něco“ z http://www.vyplnto.cz, dotazníky vyhodnotit a mám projekt!!! No, když tam seženeš data, která lze považovat za náhodný výběr z populace, na níž chceš výsledky zobecnit, tak by to šlo. Bude hodně záležet na tom, jak to vyhodnocení provedeš…
Analýza závislosti v asociačních tabulkách
Asociační tabulky • speciální typ kontingenčních tabulek, které používáme k sledování závislosti dvou dichotomických znaků, tj. kategoriálních znaků nabývajících pouze dvou variant. (asociace = vztah dvou dichotomických znaků)
𝑋 (𝑜𝑘𝑜𝑙𝑛𝑜𝑠𝑡𝑖)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑢𝑑á𝑙𝑜𝑠𝑡𝑖) 𝑥 1 (I.) 𝑥 2 (II.) Celkem
𝑦 1 (úspěch) 𝑎 𝑐 𝑎+𝑐
Schéma rozšířené asociační tabulky
𝑦 2 (neúspěch) 𝑏 𝑑 𝑏+𝑑
Celkem 𝑎+𝑏 𝑐+𝑑 𝒏
Asociační tabulky • speciální typ kontingenčních tabulek, které používáme k sledování závislosti dvou dichotomických znaků, tj. kategoriálních znaků nabývajících pouze dvou variant. (asociace = vztah dvou dichotomických znaků)
𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐸 (přítomnost faktoru) 𝐸 (nepřítomnost faktoru) Celkem
𝐷 (ANO) 𝑎 𝑐 𝑎+𝑐
𝐷 (NE) 𝑏 𝑑 𝑏+𝑑
Schéma rozšířené asociační tabulky (biomedicínská aplikace)
Celkem 𝑎+𝑏 𝑐+𝑑 𝒏
Asociační tabulky Na asociační tabulku lze sice nahlížet jako na speciální případ kontingenčních tabulek a při analýze používat jejich aparát, nicméně vhodnější je využít specifické metody a charakteristiky asociace.
𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐸 (přítomnost faktoru) 𝐸 (nepřítomnost faktoru) Celkem
𝐷 (ANO) 𝑎 𝑐 𝑎+𝑐
𝐷 (NE) 𝑏 𝑑 𝑏+𝑑
Schéma rozšířené asociační tabulky (biomedicínská aplikace)
Celkem 𝑎+𝑏 𝑐+𝑑 𝒏
Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „cross product ratio“) Pozorovaný poměr počtu úspěchů k počtu neúspěchů (tzv. pozorovaná šance) 𝑎 𝑐 za okolností I. je , za okolností II. . Odhad poměru šancí je pak 𝑏
𝑑
𝑂𝑅 =
𝑋 (𝑜𝑘𝑜𝑙𝑛𝑜𝑠𝑡𝑖)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑢𝑑á𝑙𝑜𝑠𝑡𝑖) 𝑥 1 (I.) 𝑥 2 (II.) Celkem
𝑎𝑑 . 𝑏𝑐
𝑦 1 (úspěch) 𝑎 𝑐 𝑎+𝑐
𝑦 2 (neúspěch) 𝑏 𝑑 𝑏+𝑑
Schéma rozšířené asociační tabulky
Celkem 𝑎+𝑏 𝑐+𝑑 𝒏
Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „cross product ratio“) Pozorovaný poměr počtu nemocných k počtu „zdravých“ (tzv. pozorovaná 𝑎 𝑐 šance) u exponované populace je , u neexponované populace . Odhad 𝑏 𝑑 poměru šancí je pak 𝑂𝑅 =
𝑎𝑑 . 𝑏𝑐
𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐸 (přítomnost faktoru) 𝐸 (nepřítomnost faktoru) Celkem
𝐷 (ANO) 𝑎 𝑐 𝑎+𝑐
𝐷 (NE) 𝑏 𝑑 𝑏+𝑑
Schéma rozšířené asociační tabulky (biomedicínská aplikace)
Celkem 𝑎+𝑏 𝑐+𝑑 𝒏
Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí nízká normální Celkem
ANO 618 422 1 040
NE 4 597 67 093 71 690
Celkem 5 215 67 515 72 730
• Odhad šance novorozeneckého úmrtí u dětí s nízkou porodní váhou je 𝑎 618 = = 0,134, 𝑏 4 597
což odpovídá přibližně 134 novorozeneckým úmrtím na 1 000 přeživších novorozenců s nízkou porodní váhou. • Obdobně odhadneme šanci novorozeneckého úmrtí u dětí s normální porodní váhou. 𝑐 422 = = 0,006 𝑑 67 093 Lze očekávat přibližně 6 novorozeneckých úmrtí na 1 000 přeživších novorozenců s normální porodní hmotností.
Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí nízká normální Celkem
ANO 618 422 1 040
NE 4 597 67 093 71 690
Celkem 5 215 67 515 72 730
• Odhad šance novorozeneckého úmrtí u dětí s nízkou porodní váhou je 𝑎 618 = = 0,134. 𝑏 4 597
• Odhad šance novorozeneckého úmrtí u dětí s normální porodní váhou je 𝑐 422 = = 0,006 𝑑 67 093 𝑎𝑑
618∙67 093
• 𝑂𝑅 = = ≅ 21,4 ⇒ šance novorozeneckého úmrtí je 21,4 𝑏𝑐 4 597∙422 krát vyšší u novorozenců s nízkou porodní váhou než u novorozenců s normální porodní váhou.
Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „cross product ratio“) 𝑂𝑅 =
𝑎𝑑 . 𝑏𝑐
0𝑅 < 1 U exponované populace (populace vystavené sledovanému faktoru) je nižší šance výskytu nemoci. 𝑂𝑅 = 1 Šance výskytu onemocnění u exponované a neexponované populace jsou shodné. 𝑂𝑅 > 1 U exponované populace je vyšší šance výskytu nemoci.
𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐸 (přítomnost faktoru) 𝐸 (nepřítomnost faktoru) Celkem
𝐷 (ANO) 𝑎 𝑐 𝑎+𝑐
𝐷 (NE) 𝑏 𝑑 𝑏+𝑑
Schéma rozšířené asociační tabulky (biomedicínská aplikace)
Celkem 𝑎+𝑏 𝑐+𝑑 𝒏
Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „cross product ratio“)
𝑂𝑅 =
𝑎𝑑 . 𝑏𝑐
0𝑅 < 1 U exponované populace (populace vystavené sledovanému faktoru) je nižší šance výskytu nemoci. 𝑂𝑅 = 1 Šance výskytu onemocnění u exponované a neexponované populace jsou shodné. 𝑂𝑅 > 1 U exponované populace je vyšší šance výskytu nemoci.
Je-li 𝑂𝑅 ≠ 1, potřebujeme zpravidla ještě rozhodnout, zda je indikována asociace statisticky významná. Woolfova metoda: 100 1 − 𝛼 % intervalový odhad 𝑂𝑅 : 𝑂𝑅 ∙ 𝑒
−
1 1 1 1 + + + ∙𝑧 𝛼 𝑎 𝑏 𝑐 𝑑 1− 2
; 𝑂𝑅 ∙ 𝑒
1 1 1 1 + + + ∙𝑧 𝛼 𝑎 𝑏 𝑐 𝑑 1− 2
.
Jestliže 100 1 − 𝛼 % intervalový odhad 𝑂𝑅 nezahrnuje 1, pak zamítáme hypotézu o nezávislosti znaků X a Y.
Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí nízká normální Celkem 𝑎𝑑
ANO 618 422 1 040
NE 4 597 67 093 71 690
Celkem 5 215 67 515 72 730
618∙67 093
• 𝑂𝑅 = = ≅ 21,4 ⇒ šance novorozeneckého úmrtí je 21,4 krát 𝑏𝑐 4 597∙422 vyšší u novorozenců s nízkou porodní váhou než u novorozenců s normální porodní váhou. 95% intervalový odhad 𝑂𝑅 je dán vztahem 1 1 1 1
𝑂𝑅 ∙
− + + + ∙𝑧0,975 𝑒 𝑎 𝑏 𝑐 𝑑 ; 𝑂𝑅
∙𝑒
1 1 1 1 + + + ∙𝑧 𝑎 𝑏 𝑐 𝑑 0,975
𝑧0,975 = 1,64 (viz vybrana_rozdeleni.xls) Po dosazení: 95% intervalový odhad 𝑂𝑅 je 19,2; 23,8 . Je zcela zřejmé, že šance novorozeneckého úmrtí závisí na porodní váze 1 ∉ 19,2; 23,8 .
.
Míry asociace Absolutní riziko (angl. absolute risk“) výskytu události (onemocnění, úmrtí, …) v závislosti na okolnostech (přítomnosti sledovaného faktoru) • odhad absolutního rizika onemocnění u exponovaných respondentů je 𝑎 , 𝑎+𝑏
• odhad absolutního rizika onemocnění u neexponovaných respondentů je 𝑐 . 𝑐+𝑑
Absolutní rizika mohou nabývat hodnot z intervalu 0; 1 . 𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐸 (přítomnost faktoru) 𝐸 (nepřítomnost faktoru) Celkem
𝐷 (ANO) 𝑎 𝑐 𝑎+𝑐
𝐷 (NE) 𝑏 𝑑 𝑏+𝑑
Schéma rozšířené asociační tabulky (biomedicínská aplikace)
Celkem 𝑎+𝑏 𝑐+𝑑 𝒏
Míry asociace Relativní riziko (angl. relative risk“) • poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. 𝑅𝑅 =
𝑎 𝑐+𝑑 𝑐 𝑎+𝑏
.
𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐸 (přítomnost faktoru) 𝐸 (nepřítomnost faktoru) Celkem
𝐷 (ANO) 𝑎 𝑐 𝑎+𝑐
𝐷 (NE) 𝑏 𝑑 𝑏+𝑑
Schéma rozšířené asociační tabulky (biomedicínská aplikace)
Celkem 𝑎+𝑏 𝑐+𝑑 𝒏
Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí nízká normální Celkem
ANO 618 422 1 040
NE 4 597 67 093 71 690
Celkem 5 215 67 515 72 730
• Odhad absolutního rizika novorozeneckého úmrtí u dětí s nízkou porodní 𝑎 618 hmotností je = = 0,119, 𝑎+𝑏
5 215
tj. novorozenecké úmrtí lze očekávat u cca 119 z 1 000 novorozenců s nízkou porodní váhou), • u dětí s normální porodní hmotností je absolutní riziko: 0,006,
𝑐 𝑐+𝑑
=
422 67 515
=
tj. novorozenecké úmrtí lze očekávat u cca 6 z 1 000 novorozenců s normální porodní váhou.
Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí nízká normální Celkem
ANO 618 422 1 040
NE 4 597 67 093 71 690
Celkem 5 215 67 515 72 730
• Odhad absolutního rizika novorozeneckého úmrtí u dětí s nízkou porodní 𝑎 618 hmotností je = = 0,119, 𝑎+𝑏
5 215
• u dětí s normální porodní hmotností je absolutní riziko: 0,006,
𝑐 𝑐+𝑑
=
422 67 515
• Odhad relativního rizika novorozeneckého úmrtí
𝑅𝑅 =
𝑎 𝑐+𝑑 𝑐 𝑎+𝑏
=
0,119 0,006
= 19,0.
Ve sledovaném období bylo u dětí s nízkou porodní váhou 19 krát vyšší riziko novorozeneckého úmrtí než u dětí s normální porodní váhou.
=
Míry asociace Relativní riziko (angl. relative risk“) • poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. 𝑅𝑅 = 𝑅𝑅 < 1 𝑅𝑅 = 1 𝑅𝑅 > 1
𝑎 𝑐+𝑑 𝑐 𝑎+𝑏
.
Expozice snižuje riziko onemocnění. Mezi expozici a onemocněním neexistuje žádná asociace. Expozice zvyšuje riziko onemocnění.
𝑋 (𝑠𝑙𝑒𝑑𝑜𝑣𝑎𝑛ý 𝑓𝑎𝑘𝑡𝑜𝑟)\𝑌(𝑣ý𝑠𝑘𝑦𝑡 𝑜𝑛𝑒𝑚𝑜𝑐𝑛ě𝑛í) 𝐸 (přítomnost faktoru) 𝐸 (nepřítomnost faktoru) Celkem
𝐷 (ANO) 𝑎 𝑐 𝑎+𝑐
𝐷 (NE) 𝑏 𝑑 𝑏+𝑑
Schéma rozšířené asociační tabulky (biomedicínská aplikace)
Celkem 𝑎+𝑏 𝑐+𝑑 𝒏
Míry asociace Relativní riziko (angl. relative risk“) • poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. 𝑎 𝑐+𝑑 𝑎+𝑏
𝑅𝑅 = 𝑐
𝑅𝑅 < 1 𝑅𝑅 = 1 𝑅𝑅 > 1
.
Expozice snižuje riziko onemocnění. Mezi expozici a onemocněním neexistuje žádná asociace. Expozice zvyšuje riziko onemocnění.
Je-li 𝑅𝑅 ≠ 1, musíme rozhodnout, zda je indikována asociace statisticky významná. Katzova metoda: 100 1 − 𝛼 % intervalový odhad 𝑅𝑅: 𝑏
𝑑
− 𝑎 𝑎+𝑏 +𝑐 𝑐+𝑑 ∙𝑧 𝛼 1− 2
𝑏 𝑎 𝑎+𝑏
𝑑
+𝑐 𝑐+𝑑 ∙𝑧 𝛼 1− 2
𝑅𝑅 ∙ 𝑒 ; 𝑅𝑅 ∙ 𝑒 . Jestliže 100 1 − 𝛼 % intervalový odhad 𝑅𝑅 nezahrnuje 1, pak zamítáme hypotézu o nezávislosti znaků X a Y.
Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. porodní váha\novorozenecká úmrtí nízká normální Celkem
ANO 618 422 1 040
NE 4 597 67 093 71 690
Celkem 5 215 67 515 72 730
Odhad relativního rizika novorozeneckého úmrtí 𝑅𝑅 = 19,0 ⇒ ve sledovaném období bylo u dětí s nízkou porodní váhou 19 krát vyšší riziko novorozeneckého úmrtí než u dětí s normální porodní váhou. 95% intervalový odhad 𝑅𝑅 je dán vztahem 𝑏
𝑅𝑅 ∙
𝑑
− 𝑎 𝑎+𝑏 +𝑐 𝑐+𝑑 ∙𝑧 𝛼 1− 2 𝑒 ; 𝑅𝑅
∙𝑒
𝑏 𝑎 𝑎+𝑏
𝑑
+𝑐 𝑐+𝑑 ∙𝑧 𝛼 1− 2
𝑧0,975 = 1,64 (viz vybrana_rozdeleni.xls) Po dosazení: 95% intervalový odhad 𝑅𝑅 je 17,1; 21,0 . Je zcela zřejmé, že riziko novorozeneckého úmrtí závisí na porodní váze 1 ∉ 17,1; 21,0 .
.
Simpsonův paradox aneb pozor na posuzování tabulek, které se skládají ze dvou či více skupin
V Horních Sádrovicích bylo hospitalizováno 600 „lehkých“ pacientů, z nichž 10 (1,7%) zemřelo a 400 „těžkých“ pacientů, z nichž zemřelo 190 (47,5%). Ve Staré Dláze bylo hospitalizováno 900 „lehkých“ pacientů, z nichž 30 (3,2%) zemřelo a 100 „těžkých“ pacientů, z nichž zemřelo 100 (10,0%).
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE 10 590 lehký 0,017 (10/600) 0,983 (590/600) 190 210 těžký 0,475 (190/400) 0,525 (210/400) 200 800 celkem 0,200 (200/1000) 0,800 (800/1000)
celkem 600 400 1 000
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE 10 590 lehký 0,017 (10/600) 0,983 (590/600) 190 210 těžký 0,475 (190/400) 0,525 (210/400) 200 800 celkem 0,200 (200/1000) 0,800 (800/1000)
stav pacienta při přijetí/úmrtnost
lehký těžký
celkem
Stará Dláha ANO NE 30 870 0,033 (30/900) 0,967 (870/900) 70 30 0, 700 (70/100) 0,300 (30/100) 100 900 0, 100 (100/1000) 0,900 (900/1000)
celkem 600 400 1 000
celkem 900 100 1 000
Kontingenční tabulky rozšířené o marginální četnosti a řádkové rel. četnosti
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE 10 590 lehký 0,017 (10/600) 0,983 (590/600) 190 210 těžký 0,475 (190/400) 0,525 (210/400) 200 800 celkem 0,200 (200/1000) 0,800 (800/1000)
stav pacienta při přijetí/úmrtnost
lehký těžký
celkem
Stará Dláha ANO NE 30 870 0,033 (30/900) 0,967 (870/900) 70 30 0, 700 (70/100) 0,300 (30/100) 100 900 0, 100 (100/1000) 0,900 (900/1000)
Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?
celkem 600 400 1 000
celkem 900 100 1 000
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE 10 590 lehký 0,017 (10/600) 0,983 (590/600) 190 210 těžký 0,475 (190/400) 0,525 (210/400) 200 800 celkem 0,200 (200/1000) 0,800 (800/1000)
stav pacienta při přijetí/úmrtnost
lehký těžký
celkem
Stará Dláha ANO NE 30 870 0,033 (30/900) 0,967 (870/900) 70 30 0, 700 (70/100) 0,300 (30/100) 100 900 0, 100 (100/1000) 0,900 (900/1000)
Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?
celkem 600 400 1 000
celkem 900 100 1 000
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE 10 590 lehký 0,017 (10/600) 0,983 (590/600) 190 210 těžký 0,475 (190/400) 0,525 (210/400) 200 800 celkem 0,200 (200/1000) 0,800 (800/1000)
stav pacienta při přijetí/úmrtnost
lehký těžký
celkem
Stará Dláha ANO NE 30 870 0,033 (30/900) 0,967 (870/900) 70 30 0, 700 (70/100) 0,300 (30/100) 100 900 0, 100 (100/1000) 0,900 (900/1000)
Ve kterém městě je u těžkých pacientů nižší riziko úmrtí?
celkem 600 400 1 000
celkem 900 100 1 000
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE 10 590 lehký 0,017 (10/600) 0,983 (590/600) 190 210 těžký 0,475 (190/400) 0,525 (210/400) 200 800 celkem 0,200 (200/1000) 0,800 (800/1000)
stav pacienta při přijetí/úmrtnost
lehký těžký
celkem
Stará Dláha ANO NE 30 870 0,033 (30/900) 0,967 (870/900) 70 30 0, 700 (70/100) 0,300 (30/100) 100 900 0, 100 (100/1000) 0,900 (900/1000)
Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?
celkem 600 400 1 000
celkem 900 100 1 000
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE 10 590 lehký 0,017 (10/600) 0,983 (590/600) 190 210 těžký 0,475 (190/400) 0,525 (210/400) 200 800 celkem 0,200 (200/1000) 0,800 (800/1000)
stav pacienta při přijetí/úmrtnost
lehký těžký
celkem
Stará Dláha ANO NE 30 870 0,033 (30/900) 0,967 (870/900) 70 30 0, 700 (70/100) 0,300 (30/100) 100 900 0, 100 (100/1000) 0,900 (900/1000)
Ve kterém městě je nižší riziko úmrtí pacienta?
celkem 600 400 1 000
celkem 900 100 1 000
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE 10 590 lehký 0,017 (10/600) 0,983 (590/600) 190 210 těžký 0,475 (190/400) 0,525 (210/400) 200 800 celkem 0,200 (200/1000) 0,800 (800/1000)
stav pacienta při přijetí/úmrtnost
lehký těžký
celkem
Stará Dláha ANO NE 30 870 0,033 (30/900) 0,967 (870/900) 70 30 0, 700 (70/100) 0,300 (30/100) 100 900 0, 100 (100/1000) 0,900 (900/1000)
Ve kterém městě je nižší riziko úmrtí pacienta?
celkem 600 400 1 000
celkem 900 100 1 000
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE 10 590 lehký 0,017 (10/600) 0,983 (590/600) 190 210 těžký 0,475 (190/400) 0,525 (210/400) 200 800 celkem 0,200 (200/1000) 0,800 (800/1000)
stav pacienta při přijetí/úmrtnost
lehký těžký
celkem
Stará Dláha ANO NE 30 870 0,033 (30/900) 0,967 (870/900) 70 30 0, 700 (70/100) 0,300 (30/100) 100 900 0, 100 (100/1000) 0,900 (900/1000)
???
celkem 600 400 1 000
celkem 900 100 1 000
Horní Sádrovice stav pacienta při přijetí/úmrtnost ANO NE 10 590 lehký 0,017 (10/600) 0,983 (590/600) 190 210 těžký 0,475 (190/400) 0,525 (210/400) 200 800 celkem 0,200 (200/1000) 0,800 (800/1000)
stav pacienta při přijetí/úmrtnost
lehký těžký
celkem
Stará Dláha ANO NE 30 870 0,033 (30/900) 0,967 (870/900) 70 30 0, 700 (70/100) 0,300 (30/100) 100 900 0, 100 (100/1000) 0,900 (900/1000)
Simpsonův paradox
celkem 600 400 1 000
celkem 900 100 1 000
Simpsonův paradox • Jedná se o situaci, kdy se závislost mezi dvěma znaky kvalitativně změní, jestliže uvážíme vliv znaku třetího (skrytého). (Např. vztah mezi úmrtnosti pacientů a místem léčby (Horní Sádrovice vs. Stará Dláha), vezmeme-li v úvahu stav pacienta při přijetí do nemocnice.) • Důvodem je silná závislost mezi jedním z dvou analyzovaných znaků a znakem skrytým.
Simpsonův paradox Zajímavé odkazy: 1) http://koroptew.blogspot.com/2010/11/zlocin-statistika.html 2) Agresti, A. (2002). Categorical Data Analysis, Second Edition. Hoboken: John Wiley and Sons. ISBN 0-471-36093-7. 3) Blyth, C. R. (1972). On Simpson's paradox and the sure-thing principle. Journal of the American Statistical Association, 67, 364-366. 4) Davis, L. J. (1989). Intersection union tests for strictly collapsibility in three-dimensional contingency tables. Annals of Statistics, 17, 1693-1708. 5) Dong, J. (1998). Simpson's paradox. Pp. 4108-4110 in Encyclopedia of Biostatistics, vol. 5. Chichester: John Wiley and Sons. 6) Pavlides, M. G., Perlman, M. D. (2009). How likely is Simpson's paradox? The American Statistician, 63, 226-233. 7) Samuels, M. L. (1993). Simpson's paradox and related phenomena. Journal of the American Statistical Association, 88, 81-88. 8) Simpson, E. H. (1951). The interpretation of interaction in contingency tables. Journal of the Royal Statistical Society, Series B, 13, 238-241. 9) Wagner, C. H. (1982). Simpson's paradox in real life. The American Statistician, 36, 46-48. 10) Wardrop, R. L. (1995). Simpson's paradox and the hot hand in basketball. The American Statistician, 49, 24-28.
Analýza závislosti dvou numerických proměnných
Malé opakování z pravděpodobnosti Co je to kovariance? Kovariance 𝑐𝑜𝑣 𝑋, 𝑌 • je definována jako smíšený centrální moment řádu 1 + 1 . 𝑐𝑜𝑣 𝑋, 𝑌 = 𝐸
𝑋−𝐸 𝑋
∙ 𝑌−𝐸 𝑌
Vlastnosti kovariance 1. 𝑐𝑜𝑣 𝑋, 𝑌 = 𝐸 𝑋 ∙ 𝑌 − 𝐸 𝑋 ∙ 𝐸 𝑌 (výpočetní vztah), 2. 𝑐𝑜𝑣 𝑋, 𝑋 = 𝐷 𝑋 , 3. 𝑐𝑜𝑣 𝑎1 𝑋 + 𝑏1 , 𝑎2 𝑌 + 𝑏2 = 𝑎1 𝑎2 𝑐𝑜𝑣 𝑋, 𝑌 , 4. jsou-li X, Y jsou nezávislé náhodné veličiny, pak 𝑐𝑜𝑣 𝑋, 𝑌 = 0.
Malé opakování z pravděpodobnosti Co je to korelační koeficient? Korelační koeficient 𝜌 𝑋, 𝑌 je mírou lineární závislosti dvou náh. veličin. 𝑐𝑜𝑣 𝑋, 𝑌 𝜌 𝑋, 𝑌 = 0
𝐷𝑋 ∙ 𝐷𝑌
,
𝐷𝑋, 𝐷𝑌 ≠ 0, 𝑗𝑖𝑛𝑎𝑘.
Vlastnosti korelačního koeficientu 1. 2. 3. 4. 5. 6. 7. 8. 9.
−1 ≤ 𝜌 𝑋, 𝑌 ≤ 1, 𝜌 𝑋, 𝑌 = 𝜌 𝑌, 𝑋 , 𝜌 𝑋, 𝑋 = 1, jsou-li X, Y nezávislé náhodné veličiny, pak 𝜌 𝑋, 𝑌 = 0, je-li 𝜌 𝑋, 𝑌 = 0, říkáme, že X, Y jsou nekorelované náhodné veličiny, je-li 𝜌 𝑋, 𝑌 = 1, pak existuje 𝑎, 𝑏 ∈ ℝ, 𝑎 > 0 takové, že 𝑌 = 𝑎𝑋 + 𝑏 s pravd. 1 je-li 𝜌 𝑋, 𝑌 = −1, pak existuje 𝑎, 𝑏 ∈ ℝ, 𝑎 < 0 takové, že 𝑌 = 𝑎𝑋 + 𝑏 s pravd. 1 je-li 𝜌 𝑋, 𝑌 > 0, říkáme, že X, Y jsou pozitivně korelované (s rostoucím X roste Y), je-li 𝜌 𝑋, 𝑌 < 0, říkáme, že X, Y jsou negativně korelované (s rostoucím X klesá Y).
Malé opakování z pravděpodobnosti
𝜌 𝑋, 𝑌
=1,000
𝜌 𝑋, 𝑌
=0,967
𝜌 𝑋, 𝑌
𝜌 𝑋, 𝑌
= -1,000
𝜌 𝑋, 𝑌
=0,000
𝜌 𝑋, 𝑌
=0,934
=0,857
𝜌 𝑋, 𝑌
=-0,143
𝜌 𝑋, 𝑌
=0,608
Ověřit si, zda máte představu o významu korelačního koeficientu, můžete ZDE (jar).
Malé opakování z pravděpodobnosti Pokud jsou dvě náhodné veličiny korelované, znamená to pouze to, že jsou lineárně závislé. Nelze z toho však ještě usoudit, že by jedna z nich musela být příčinou a druhá následkem. To samotná korelovanost nedovoluje rozhodnout.
Silná korelace
Malé opakování z pravděpodobnosti Pokud jsou dvě náhodné veličiny korelované, znamená to pouze to, že jsou lineárně závislé. Nelze z toho však ještě usoudit, že by jedna z nich musela být příčinou a druhá následkem. To samotná korelovanost nedovoluje rozhodnout.
Silná korelace
Pearsonův korelační koeficient • Korelační koeficient 𝜌 dokážeme určit pouze tehdy, známe-li sdružené rozdělení náhodného vektoru 𝑋; 𝑌 . • Nechť 𝑋1 ; 𝑌1 , … , 𝑋𝑛 ; 𝑌𝑛 je výběr z dvourozměrného normálního rozdělení, tj. z rozdělení, jehož sdružená hustota pravděpodobnosti je dána vztahem 𝑓 𝑥; 𝑦 =
1 2𝜋𝜎𝑋 𝜎𝑌 1−𝜌2
𝑒
1 − 2 1−𝜌2
𝑥−𝜇𝑋 𝜎𝑋
2
−2𝜌
𝑥−𝜇𝑋 𝑦−𝜇𝑌 𝜎𝑋 𝜎𝑌
+
𝑦−𝜇𝑌 𝜎𝑌
2
.
Pak lze odhad korelačního koeficientu 𝜌 určit jako 𝑆𝑋𝑌 2 ∙𝑆 2 𝑆𝑋 𝑌
𝑟=
,
𝑆𝑋2 , 𝑆𝑌2 ≠ 0,
0 kde 𝑆𝑋𝑌 =
1 𝑛−1
𝑛 𝑖=1
𝑗𝑖𝑛𝑎𝑘, 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌 =
𝑛 𝑖=1 𝑋𝑖 𝑌𝑖 −𝑛𝑋 𝑌 𝑛 𝑋 2 −𝑛𝑋 2 𝑖=1 𝑖
𝑛 𝑌 2 −𝑛𝑌 2 𝑖=1 𝑖
.
Pearsonův korelační koeficient • Nechť 𝑋1 ; 𝑌1 , … , 𝑋𝑛 ; 𝑌𝑛 je výběr z dvourozměrného normálního rozdělení. • Zjistíme-li, že výběrový korelační koeficient 𝑟 ≠ 0, zpravidla nás zajímá, zda je indikovaná korelace statisticky významná. Chceme testovat nulovou hypotézu H0: 𝜌 = 0 vůči alternativě HA: 𝜌 ≠ 0, resp. 𝜌 < 0, resp. 𝜌 > 0. Testová statistika: 𝑇 =
𝑟 𝑛−2 1−𝑟 2
má za předpokladu platnosti H0 Studentovo rozdělení s 𝑛 − 2 stupni volnosti. Poznámka: Jsou-li složky náhodného vektoru 𝑋; 𝑌 s dvourozměrným normálním rozdělením nekorelované, jsou nezávislé. (POZOR! Obecně to neplatí.)
Spearmanův korelační koeficient • Mějme náhodný výběr 𝑋1 ; 𝑌1 , … , 𝑋𝑛 ; 𝑌𝑛 z dvourozměrného rozdělení. Nechť 𝑅𝑋1 , … , 𝑅𝑋𝑛 jsou pořadí veličin 𝑋1 , … , 𝑋𝑛 a nechť 𝑅𝑌1 , … , 𝑅𝑌𝑛 jsou pořadí veličin 𝑌1 , … , 𝑌𝑛. 𝑟𝑆 = 1 −
6 𝑛 𝑛2 −1
𝑛 𝑖=1
𝑅𝑋1 − 𝑅𝑌1
2
Pokud se v náhodných výběrech, z nichž je 𝑟𝑆 počítán, vyskytuje mnoho shod (tj. stejně velkých pozorování), doporučuje se používat korigovaný Spearmanův korelační koeficient 𝑟𝑆𝑘𝑜𝑟𝑖𝑔 .
𝑟𝑆𝑘𝑜𝑟𝑖𝑔 = 1 −
6 𝑛3 −𝑛−𝑇𝑋 −𝑇𝑌
𝑛 𝑖=1
𝑅𝑋1 − 𝑅𝑌1
2
Spearmanův korelační koeficient • Mějme náhodný výběr 𝑋1 ; 𝑌1 , … , 𝑋𝑛 ; 𝑌𝑛 z dvourozměrného rozdělení. Nechť 𝑅𝑋1 , … , 𝑅𝑋𝑛 jsou pořadí veličin 𝑋1 , … , 𝑋𝑛 a nechť 𝑅𝑌1 , … , 𝑅𝑌𝑛 jsou pořadí veličin 𝑌1 , … , 𝑌𝑛. • Pokud se v náhodných výběrech, z nichž je 𝑟𝑆 počítán, vyskytuje mnoho shod (tj. stejně velkých pozorování), doporučuje se používat korigovaný Spearmanův korelační koeficient 𝑟𝑆𝑘𝑜𝑟𝑖𝑔 . 𝑟𝑆𝑘𝑜𝑟𝑖𝑔 = 1 − kde 𝑇𝑋 =
1 2
𝑡3𝑋 − 𝑡𝑋 , 𝑇𝑌 =
6 𝑛3 −𝑛−𝑇𝑋 −𝑇𝑌 1 2
𝑛 𝑖=1
𝑅𝑋1 − 𝑅𝑌1
2
,
𝑡3𝑌 − 𝑡𝑌 ,
kde 𝑡𝑋 jsou rozsahy skupin stejně velkých X-ových hodnot. Obdobně definujeme 𝑡𝑌 .
Spearmanův korelační koeficient • Je-li hodnota Spearmanova korelačního koeficientu 𝑟𝑆 blízká nule, chceme zpravidla testovat, zda je odchylka koeficientu 𝑟𝑆 od nuly náhodná či statisticky významná. H0: X, Y jsou nezávislé náhodné veličiny. HA: X, Y jsou závislé náhodné veličiny. Testová statistika: 𝑟𝑆 Nulovou hypotézu zamítáme pokud 𝑟𝑆 ≥ 𝑟∗𝑆 𝛼 , kde 𝑟∗𝑆 𝛼 je kritická hodnota Spearmanova korelačního koeficientu. Pro rozsah výběru 𝑛 ≤ 30 a hladiny významnosti 0,05, resp. 0,01 jsou kritické hodnoty 𝑟∗𝑆 𝛼; 𝑛 tabelovány (tabulka T16). Je-li rozsah výběru 𝑛 > 30, pak
𝑟∗𝑆 kde 𝑧1−𝛼 je 1 − 2
𝛼 2
𝛼; 𝑛 =
𝑧
𝛼 1−2
𝑛−1
,
kvantil normovaného normálního rozdělení.
Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů.
Describe/Numeric Data/Multiple – Variable Analysis
Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů.
Describe/Numeric Data/Multiple – Variable Analysis
Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů.
Rozptylogram Pro výpočty jsou brány v úvahu pouze statistické jednotky neobsahující „chybějící hodnoty“ (angl. missing values) pro žádnou z analyzovaných proměnných. (Lze nastavit v Analysis Options.)
Pearsonův korelační koeficient
Describe/Numeric Data/Multiple – Variable Posuzovat Analysis hodnotu Pearsonova korelačního koeficientu bez vizuálního posouzení rozptylogramu nemá smysl!!!
Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů.
Rozptylogram Pro výpočty jsou brány v úvahu pouze statistické jednotky neobsahující „chybějící hodnoty“ (angl. missing values) pro žádnou z analyzovaných proměnných. (Lze nastavit v Analysis Options.)
Je to „správný“ korelační koeficient??? Pearsonův korelační koeficient
Describe/Numeric Data/Multiple – Variable Posuzovat Analysis hodnotu Pearsonova korelačního koeficientu bez vizuálního posouzení rozptylogramu nemá smysl!!!
Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů.
H0: Data jsou výběrem z normálního rozdělení. HA: Data nejsou výběrem z normálního rozdělení. Proměnná
P-hodnota (𝝌𝟐 test dobré shody)
Váha
0,178
Výška
0,021
Na hladině významnosti 0,05 zamítáme předpoklad normality pro proměnnou výška. ⇒ předpoklady pro použití Pearsonova korelačního koeficientu byly zamítnuty, je nutno použít např. Spearmanův korelační koeficient. Nutno ověřit normalitu proměnných!!!
Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů.
H0: Data jsou výběrem z normálního rozdělení. HA: Data nejsou výběrem z normálního rozdělení. Proměnná
P-hodnota (𝝌𝟐 test dobré shody)
Váha
0,178
Výška
0,021
Na hladině významnosti 0,05 zamítáme předpoklad normality pro proměnnou výška. ⇒ předpoklady pro použití Pearsonova korelačního koeficientu byly zamítnuty, je nutno použít např. Spearmanův korelační koeficient.
Statgraphics: Tabular Options (žlutá ikona), Rank Correlations
Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů.
korigovaný Spearmanův korelační koeficient
Na základě datového souboru biometrie.sf3 analyzujte míru závislosti mezi výškou a váhou respondentů.
Pro posouzení korelace mezi váhou a výškou byl z důvodů porušení normality u proměnné výška (𝜒 2 test dobré shody, 𝑝 − ℎ𝑜𝑑𝑛𝑜𝑡𝑎 = 0,021) použit korigovaný Spearmanův korelační koeficient. Pozorovanou hodnotu korelace (0,519) lze na hladině významnosti 0,05 označit za statisticky významnou (𝑝 − ℎ𝑜𝑑𝑛𝑜𝑡𝑎 ≪ 0,001).
Děkuji za pozornost!