cvičící Ing. Jana Fenclová
8. cvičení 4ST201-řešení Obsah: Neparametrické testy ☺ ☺ ☺
Chí-kvadrát test dobré shody Kontingenční tabulky Analýza rozptylu (ANOVA)
Vysoká škola ekonomická
VŠE kurz 4ST201
1
Ing. Jana Fenclová
Neparametrické testy •
Neparametrické testy využíváme, pokud neznáme rozdělení základního souboru a přesto chceme porovnávat (testovat) úrovně hodnot v souboru, testovat nezávislost sledovaných znaků či ověřit předpoklad o určitém typu rozdělení.
•
Často se testuje předpoklad normality základního souboru.
•
Nejpoužívanější test ověření předpokladu o určitém typu rozdělení: Chí-kvadrát test dobré schody.
•
Nejpoužívanější test o nezávislosti veličin v kontingenční tabulce: Chí-kvadrát test nezávislosti
•
Typ základního souboru volíme na základě zkušeností či z grafu. Tato volba nemusí být správná, proto testujeme.
2
VŠE kurz 4ST201
1.
Ing. Jana Fenclová
Chí-kvadrát test dobré schody
•
Ověřujeme shodu předpokládaného (teoretického) rozdělení s napozorovaným rozdělením.
•
Testujeme hypotézu:
H 0 : π j = π 0, j kde _ j = 1,2,...k
oproti alternativě, že alespoň jedna pravděpodobnost je odlišná. k
•
(n
Testovým kritériem je: χ = ∑ 2
j =1
j
- n * π 0, j
)
2
n * π 0, j
které při platnosti H0 má rozdělení X2(k-1). H0 zamítáme při hodnotách X2 větších než (1-α)*100% kvantil rozdělení X2(k-1). •
Předpokladem správného použití testu je, aby všechny teoretické četnosti n*π0,j byly větší než 5.
3
VŠE kurz 4ST201
Ing. Jana Fenclová
Chí-kvadrát test dobré shody Příklad 8.1.: Bylo sledováno 500 náhodně vybraných mužů z ČR a byla sledována jejich tělesná výška. Posuďte na 5% hladině významnosti, zda výška mužů má normální rozdělení. V níže uvedené tabulce jsou sledované četnosti výšky mužů. Ve sledovaném souboru byla průměrná výška rovna 170,1 cm a výběrová směrodatná odchylka 8,7. Méně jak 150 cm
20
150 cm – 160 cm
55
160 cm – 170 cm
194
170 cm – 180 cm
143
180 cm – 190 cm
68
Více než 190 cm
20
V souboru 4st201_cv8_pomocny.xls najdete pomůcku, jak příklad řešit. 4
VŠE kurz 4ST201
Ing. Jana Fenclová
Řešení příkladu 8.1
95% kvantil X2(6-1)=11,1
Na 5% hladině významnosti jsme prokázali, že hodnoty nepocházejí z normálního rozdělení. 5
VŠE kurz 4ST201
Ing. Jana Fenclová
2. •
Kontingenční tabulky
Chceme-li zjistit zda mezi dvěmi kvalitativními (kategoriálními) proměnnými existuje závislost (vztah), uspořádáme si sdružené četnosti do kontingenční tabulky: Proměnné B1, B2…BS Jejich součet je Σj ni,j
Proměnné A1, A2…Ar Jejich součet je Σi
ano
ne
Σ
ano
367
284
651
ne
168
181
349
Σ
535
465
100 0
nj,*
n
n*,j 6
VŠE kurz 4ST201
Ing. Jana Fenclová
Kontingenční tabulky •
Pokud máme za cíl zjistit, zda mezi dvěmi kvalitativními (kategoriálními) proměnnými existuje nějaký vztah, závislost, souvislost, můžeme použít chí-kvadrát test nezávislosti.
•
Testové kritérium:
r
s
(n
χ = ∑∑ 2
i ,j
)
2
- no',ij
no',ij
i =1 j =1
kde
no ,ij =
ni * * n * j
n χ 2 ≈χ 2 [(r - 1)(s - 1)]
Prokázaná souvislost nedokazuje kauzální závislost. •
Sílu závislosti dvou kategoriálních proměnných lze vyjádřit pomocí Pearsonova koeficientu: C =
χ2 n + χ2
χ2 či Cramérova koeficientu: V = n (m - 1) •
kde m=min(r,s)
Pro zcela nezávislé veličiny je C a V rovno nule, pokud je jedna kategorie jednoznačně dána kategorií druhé proměnné je V=1 a C = (k - 1) / k
7
VŠE kurz 4ST201
Ing. Jana Fenclová
Kontingenční tabulka Příklad 8.2.: Chceme zjistit, zda existuje nějaká souvislost mezi tím, jak lidé poslouchají rádio a tím, zda jezdí lidé v autě. Pokud prokážeme závislost, vyjádříme její sílu pomocí Pearsonova kontingenčního koeficientu a Cramérova V. (pomůcku najdete opět v souboru 4st201_cv8_pomocny.xls)
Jezdíte autem?
Posloucháte před den rádio?
ano
ne
Σ
ano
367
284
651
ne
168
181
349
Σ
535
465
100 0 8
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 8.2. - Nápověda nij = n11 = 367
n 0,ij =
(n
ij
651 * 535 = 348 1000
- no ,ij
)
no ,ij
2
=
(367 - 348)2 348
= 1,01
9
VŠE kurz 4ST201
Ing. Jana Fenclová
Řešení příkladu 8.2. χ 2 = 6,2 χ 2 0,95 (1) = 3,84 Testové kritérium je větší než vypočítaný kvantil, prokázali jsme souvislost mezi sledovanými proměnnými.
C =
6,2 = 0,078 6,2 + 1000
V =
6,2 = 0,079 1000(2 - 1)
Tato závislost je ovšem slabá. 10
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 8.2 v SASu 1.
Data v souboru: data_cv8_kt.sas7bdat
2.
Describe – Table Analysis
3.
Task Role: 1.
Table variable: jízda autem, rádio
2.
Frequency Count: počet
4.
Tables: Vytvořit tabulku: Rádio sloupce, jízda autem řádky
5.
Cell statistics 1.
6.
Cell frequencies, Expected cell frequency, Cell contribution to Pearson chi-square
Association: chi-square test 11
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 8.2.- test nezávislosti kategoriálních proměnných v SASu Table of jízda autem by rádio jízda autem
rádio ano
ano
ne
Total
Teoretické četnosti
Total ne
367 348.29 1.0056 68.60
284 651 302.72 1.157 61.08
168 186.72 1.8759 31.40
181 349 162.29 2.1582 38.92
535
465
Statistic
DF
Value
1
6.1968 0.0128
Likelihood Ratio Chi-Square 1
6.1914 0.0128
Chi-Square
Continuity Adj. Chi-Square
Prob
1
5.8701 0.0154
Mantel-Haenszel Chi-Square 1
6.1906 0.0128
Phi Coefficient
0.0787
Contingency Coefficient
0.0785
Cramer's V
0.0787
1000
Výsledky testu nezávislosti
Pearsonův kontingenční koeficient
Cramérovo V
12
VŠE kurz 4ST201
Ing. Jana Fenclová
3. Analýza rozptylu •
Pokud chceme zjistit souvislost mezi nějakou kategoriální a numerickou proměnnou, používáme metodu označovanou analýza rozptylu.
•
Metoda vychází z rozkladu rozptylu (součtu čtvercových odchylek) na vnitroskupinovou a meziskupinovou variabilitu. Je-li uvažovaná numerická proměnná nezávislá na zmíněné kategoriální proměnné, tedy:
H 0 : µ 1 = µ 2 = ...... = µ k má poměr těchto zdrojů variability rozdělení F(k-1,n-k). k
∑n j * (x j
-x
j =1
F =
k
)
2
k -1
∑n j
* s j2
j =1
n -k
•
Při hodnotách F, které překročí příslušný kvantil F rozdělení, zamítáme testovanou hypotézu o tom, že ve všech skupinách je stejný průměr, neboť podíl meziskupinové variability je příliš veliký. 13
VŠE kurz 4ST201
Ing. Jana Fenclová
Analýza rozptylu Příklad 8.3.: Vrátíme se k příkladu ze začátku 3.cvičení (příklad na rozklad rozptylu). Neboť už víte, jak tento příklad interpretovat, sami si umíte spočítat meziskupinovou a vnitroskupinovou variabilitu, bude se vám příklad dobře řešit. Zkoumáme váhu žen ve čtyřech věkových kategoriích. Budeme chtít posoudit, zda váha žen závisí na věku či zda rozdíl mezi vahami v jednotlivých kategoriích je bezvýznamný. Potřebná data jsou v následující tabulce (či v materiálech 3.cvičení):
Pomůcku najdete opět v souboru 4st201_cv8_pomocny.xls 14
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 8.3.- Nápověda
∑n * (x k
j
- x)
2
j
j =1
k -1
F=
=
k
∑n * s j
2 j
j =1
n- k
15
VŠE kurz 4ST201
Ing. Jana Fenclová
Řešení příkladu 8.3.
Testové kritérium: F= 0,243 Kvantil F0,95(3,680)=2,605
k
∑n j * (x j
-x
j =1
F =
k
k -1
∑n j
* s j2
j =1
)
2
45,28 15,093 3 = 0,243 = = 42270,57 62,163 680
n -k
16
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 8.3. v SASu •
Na příklad nemáme data. Je třeba mít soubor všechna pozorování.
•
Postup v SASu:
•
Analyze – One Way ANOVA – Dependent variable: numerická proměnná – Independent variable: kategoriální proměnná
•
SAS počítá tabulku ANOVA, ve které najdeme výpočet testového kritéria a rozklad variability dle zdroje. Nalezneme zde i Index Determinace (R-square), který udává, kolik variability jsme vysvětlili vlivem varianty V Aplikacích postup na straně 206 i s daty.
17
VŠE kurz 4ST201
Ing. Jana Fenclová
Děkuji za pozornost! Pokud budete mít jakékoliv dotazy či připomínky, pište mi na mail
[email protected] nebo přijďte do konzultačních hodin každý pátek 9:00-11:00 JM317.
18