cvičící Ing. Jana Fenclová
8. cvičení 4ST201 Obsah: Neparametrické testy ☺ ☺ ☺
Chí-kvadrát test dobré shody Kontingenční tabulky Analýza rozptylu (ANOVA)
Vysoká škola ekonomická
VŠE kurz 4ST201
1
Ing. Jana Fenclová
Neparametrické testy •
Neparametrické testy využíváme, pokud neznáme rozdělení základního souboru a přesto chceme porovnávat (testovat) úrovně hodnot v souboru, testovat nezávislost sledovaných znaků či ověřit předpoklad o určitém typu rozdělení.
•
Často se testuje předpoklad normality základního souboru.
•
Nejpoužívanější test ověření předpokladu o určitém typu rozdělení: Chí-kvadrát test dobré schody.
•
Nejpoužívanější test o nezávislosti veličin v kontingenční tabulce: Chí-kvadrát test nezávislosti
•
Typ základního souboru volíme na základě zkušeností či z grafu. Tato volba nemusí být správná, proto testujeme.
2
VŠE kurz 4ST201
1.
Ing. Jana Fenclová
Chí-kvadrát test dobré schody
•
Ověřujeme shodu předpokládaného (teoretického) rozdělení s napozorovaným rozdělením.
•
Testujeme hypotézu:
H 0 : π j = π 0, j kde _ j = 1,2,...k
oproti alternativě, že alespoň jedna pravděpodobnost je odlišná. k
•
(n
Testovým kritériem je: χ = ∑ 2
j =1
j
- n * π 0, j
)
2
n * π 0, j
které při platnosti H0 má rozdělení X2(k-1). H0 zamítáme při hodnotách X2 větších než (1-α)*100% kvantil rozdělení X2(k-1). •
Předpokladem správného použití testu je, aby všechny teoretické četnosti n*π0,j byly větší než 5.
3
VŠE kurz 4ST201
Ing. Jana Fenclová
Chí-kvadrát test dobré shody Příklad 8.1.: Bylo sledováno 500 náhodně vybraných mužů z ČR a byla sledována jejich tělesná výška. Posuďte na 5% hladině významnosti, zda výška mužů má normální rozdělení. V níže uvedené tabulce jsou sledované četnosti výšky mužů. Ve sledovaném souboru byla průměrná výška rovna 170,1 cm a výběrová směrodatná odchylka 8,7. Méně jak 150 cm
20
150 cm – 160 cm
55
160 cm – 170 cm
194
170 cm – 180 cm
143
180 cm – 190 cm
68
Více než 190 cm
20
V souboru 4st201_cv8_pomocny.xls najdete pomůcku, jak příklad řešit. 4
VŠE kurz 4ST201
Ing. Jana Fenclová
2. •
Kontingenční tabulky
Chceme-li zjistit zda mezi dvěmi kvalitativními (kategoriálními) proměnnými existuje závislost (vztah), uspořádáme si sdružené četnosti do kontingenční tabulky: Proměnné B1, B2…BS Jejich součet je Σj ni,j
nj,*
ano
ne
Σ
ano
367
284
651
ne
168
181
349
Σ
535
465
100 0
Proměnné A1, A2…Ar Jejich součet je Σi
n
n*,j 5
VŠE kurz 4ST201
Ing. Jana Fenclová
Kontingenční tabulky •
Pokud máme za cíl zjistit, zda mezi dvěmi kvalitativními (kategoriálními) proměnnými existuje nějaký vztah, závislost, souvislost, můžeme použít chí-kvadrát test nezávislosti.
•
Testové kritérium:
r
s
(n
χ = ∑∑ 2
i ,j
i =1 j =1
- no',ij
no',ij
Prokázaná souvislost nedokazuje kauzální závislost. •
2
kde
no ,ij =
ni * * n * j n
χ 2 ≈χ 2 [(r - 1)(s - 1)]
Sílu závislosti dvou kategoriálních proměnných lze vyjádřit pomocí Pearsonova koeficientu: C =
χ2 n + χ2
χ2 či Cramérova koeficientu: V = n (m - 1) •
)
kde m=min(r,s)
Pro zcela nezávislé veličiny je C a V rovno nule, pokud je jedna kategorie jednoznačně dána kategorií druhé proměnné je V=1 a C = (k - 1) / k
6
VŠE kurz 4ST201
Ing. Jana Fenclová
Kontingenční tabulka Příklad 8.2.: Chceme zjistit, zda existuje nějaká souvislost mezi tím, jak lidé poslouchají rádio a tím, zda jezdí lidé v autě. Pokud prokážeme závislost, vyjádříme její sílu pomocí Pearsonova kontingenčního koeficientu a Cramérova V. (pomůcku najdete opět v souboru 4st201_cv8_pomocny.xls)
Jezdíte autem?
Posloucháte před den rádio?
ano
ne
Σ
ano
367
284
651
ne
168
181
349
Σ
535
465
100 0 7
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 8.2. - Nápověda nij = n11 = 367
n 0,ij =
(n
ij
651 * 535 = 348 1000
- no ,ij
no ,ij
)
2
=
(367 - 348)2 348
= 1,01
8
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 8.2 v SASu 1.
Data v souboru: data_cv8_kt.sas7bdat
2.
Describe – Table Analysis
3.
Task Role: 1.
Table variable: jízda autem, rádio
2.
Frequency Count: počet
4.
Tables: Vytvořit tabulku: Rádio sloupce, jízda autem řádky
5.
Cell statistics 1.
6.
Cell frequencies, Expected cell frequency, Cell contribution to Pearson chi-square
Association: chi-square test 9
VŠE kurz 4ST201
Ing. Jana Fenclová
3. Analýza rozptylu •
Pokud chceme zjistit souvislost mezi nějakou kategoriální a numerickou proměnnou, používáme metodu označovanou analýza rozptylu.
•
Metoda vychází z rozkladu rozptylu (součtu čtvercových odchylek) na vnitroskupinovou a meziskupinovou variabilitu. Je-li uvažovaná numerická proměnná nezávislá na zmíněné kategoriální proměnné, tedy:
H 0 : µ 1 = µ 2 = ...... = µ k má poměr těchto zdrojů variability rozdělení F(k-1,n-k). k
∑n j * (x j
-x
j =1
F =
k
)
2
k -1
∑n j
* s j2
j =1
n -k
•
Při hodnotách F, které překročí příslušný kvantil F rozdělení, zamítáme testovanou hypotézu o tom, že ve všech skupinách je stejný průměr, neboť podíl meziskupinové variability je příliš veliký. 10
VŠE kurz 4ST201
Ing. Jana Fenclová
Analýza rozptylu Příklad 8.3.: Vrátíme se k příkladu ze začátku 3.cvičení (příklad na rozklad rozptylu). Neboť už víte, jak tento příklad interpretovat, sami si umíte spočítat meziskupinovou a vnitroskupinovou variabilitu, bude se vám příklad dobře řešit. Zkoumáme váhu žen ve čtyřech věkových kategoriích. Budeme chtít posoudit, zda váha žen závisí na věku či zda rozdíl mezi vahami v jednotlivých kategoriích je bezvýznamný. Potřebná data jsou v následující tabulce (či v materiálech 3.cvičení):
Pomůcku najdete opět v souboru 4st201_cv8_pomocny.xls 11
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 8.3.- Nápověda
∑n * (x k
j
j =1
F=
- x)
2
j
k -1
=
k
∑n * s j
2 j
j =1
n- k
12
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 8.3. v SASu •
Na příklad nemáme data. Je třeba mít soubor všechna pozorování.
•
Postup v SASu:
•
Analyze – One Way ANOVA – Dependent variable: numerická proměnná – Independent variable: kategoriální proměnná
•
SAS počítá tabulku ANOVA, ve které najdeme výpočet testového kritéria a rozklad variability dle zdroje. Nalezneme zde i Index Determinace (R-square), který udává, kolik variability jsme vysvětlili vlivem varianty V Aplikacích postup na straně 206 i s daty.
13
VŠE kurz 4ST201
Ing. Jana Fenclová
Děkuji za pozornost! Pokud budete mít jakékoliv dotazy či připomínky, pište mi na mail
[email protected] nebo přijďte do konzultačních hodin každý pátek 9:00-11:00 JM317.
14