Kurz 4st201 – cvičení č. 8
4ST201 – STATISTIKA CVIČENÍ Č. 8 • analýza závislostí →
kontingenční tabulky – test závislosti v kontingenční tabulce
→
analýza rozptylu
• regresní analýza →
lineární regrese
Analýza závislostí Budeme ověřovat existenci závislosti •
dvou kategoriálních proměnných – kontingenční tabulky o
např. závislost oblíbeného deníku a oblíbené televizní stanice, závislost průběhu choroby na tom, zda byl pacient očkován
•
číselné proměnné na kategoriální proměnné – analýza rozptylu o
např. závislost příjmu na dosaženém vzdělání, závislost spotřeby auta na typu použitého benzinu
•
číselné proměnné na jedné nebo více jiných číselných proměnných – regresní analýza o
•
např. závislost zisku firmy na počtu zaměstnanců, výši investic, objemu produkce,…
dvou číselných proměnných – korelační analýzy o
např. závislost výše pojistného na výši příjmu, závislost měsíčních výdajů domácnosti na počtu členů domácnosti
Závislost 2 kategoriálních proměnných - kontingenční tabulky X/Y
Y1
Y2
…
Yj
…
Ys
ni.
X1
n11
n12
…
n1j
…
n1s
n1.
X2
n21
n22
…
n2j
…
n2s
n2.
n.2
…
n3.
okrajové četnosti – vyjadřují
…
n.1
…
n.j
n3s …
nr2
…
… nr1
… …
… Xr
…
n3j
…
…
…
…
n32
…
…
n31
…
…
Xi
…
…
Hodnoty proměnné X
Hodnoty proměnné Y
nrj
…
nrs
nr.
n.j
…
n.s
n
četnosti jednotlivých hodnot proměnných X a Y
sdružené četnosti – vyjadřují četnosti kombinací jednotlivých hodnot proměnných X a Y
1
Kurz 4st201 – cvičení č. 8
Co testujeme? •
test k ověření nezávislosti v kontingenční tabulce je speciální případ chí-kvadrát testu dobré shody a porovnává výběrové (pozorované) četnosti s teoretickými četnostmi, které bychom očekávali v případě nezávislosti sledovaných proměnných
•
kontingenční (kombinační) tabulka vzniká tříděním jednotek souboru podle variant dvou kategoriálních znaků
Test •
nulová hypotéza říká, že sledované proměnné jsou nezávislé, alternativní hypotéza nulovou popírá a říká, že sledované proměnné jsou závislé
: = . . : •
1≤ ≤ 1≤≤
testovým kritériem je veličina G, která má v případě nezávislosti a při dostatečně velkém počtu pozorování přibližně chí-kvadrát rozdělení s ν = (r-1)(s-1) stupni volnosti, kde r je počet variant prvního znaku (počet řádků) a s je počet variant druhého znaku (počet sloupců)
=
∑ ∑
,
kde =
!. ."
jsou teoretické četnosti, které by kontingenční
tabulka obsahovala v případě nezávislosti sledovaných znaků Testové kritérium má při platnosti nulové hypotézy rozdělení
$ %& *+ =< #+ − 1(& − 1(); ∞(
Kritický obor
•
# $ %& − 1(& − 1()
pro posouzení intenzity závislosti proměnných v kontingenční tabulce se používají různé charakteristiky, nejpoužívanější jsou Pearsonův koeficient kontingence a Cramérův koeficient kontingence, které jsou založené na hodnotě testového kritéria chí-kvadrát / = 0/& + ( = Pearsonův koeficient kontingence
3 = 0/&4 − 1( = Cramérův koeficient kontingence, kde 4 = 4 5 ; 6
Asociační tabulka •
kontingenční tabulce o rozměru 2 řádky x 2 sloupce se říká asociační tabulka
•
v případě asociační tabulky lze hodnotu testového kritéria vypočítat pomocí vzorce
= •
&77 7 7 ( 7. . .7 .
$ %1); , kritický obor má pak tvar *+ = 〈#+ ∞(
těsnost závislosti v asociační tabulce lze měřit pomocí tzv. koeficientu asociace
9 =
11 22−12 21 , který nabývá hodnot <-1;1> 01. 2. .1 .2
2
Kurz 4st201 – cvičení č. 8 Př. 8.1 U 93 pacientů trpících chorobou bylo zjišťováno, zda byli očkováni a jaký průběh choroba má. Závisí průběh choroby na tom, zda pacient byl očkován? Uvažujte α = 0,05. Vypočtěte ručně.
Pacient očkován
Průběh choroby Lehký
Těžký
ANO
33
9
NE
15
36
Př. 8.2 Byla zjišťována souvislost mezi hladinou alkoholu v krvi (nízká, střední, vysoká) a rychlostí reakce (dobrá, špatná) u 100 náhodně vybraných lidí. Existuje souvislost? Pokud ano, jaká je intenzita závislosti? Testuje na hladině významnosti α = 0,05. Vypočtěte v MS Excel pomocí funkce CHITEST, pokud znáte teoretické četnosti.
Rychlost reakce Celkem Hladina alkoholu Nízká Střední Vysoká
Dobrá
Špatná
Empirické
53
12
Teoretické
39
26
Empirické
5
15
Teoretické
12
8
Empirické
2
13
Teoretické
9
6
60
40
Celkem
3
65 20 15 100
Kurz 4st201 – cvičení č. 8
Závislost číselné proměnné na kategoriální - Analýza rozptylu (ANOVA) Co testujeme? •
ověření existence vlivu kategoriálního faktoru (nezávisle proměnné) na hodnoty číselného znaku (závisle proměnné) tj. ověření závislosti jedné číselné proměnné na jedné kategoriální proměnné (faktoru)
•
faktor nabývá malého počtu (k) obměn a hodnoty závisle proměnné můžeme roztřídit do k skupin podle tohoto faktoru
Př. Máme k dispozici údaje z filmové databáze www.csfd.cz o průměrném hodnocení kvality 15 filmů
uživateli webu. Filmy mají na škále 0-100 hodnocení 87, 87, 84, 81, 62, 64, 70, 74, 67, 58, 79, 83, 91, 84 a 88. Filmy je možné roztřídit dle žánru do 3 skupin – akční, komedie a drama. Zajímá nás, zda faktor žánr má vliv na to, jak jsou filmy hodnoceny. •
ověření závislosti spočívá v porovnání výběrových průměrů uvnitř jednotlivých skupin (tj. jde o určité rozšíření testu o shodě středních hodnot) – rozdílnost mezi skupinovými průměry (charakterizovaná pomocí meziskupinové variability) je srovnávána s kolísáním hodnot uvnitř skupin (charakterizovaným vnitroskupinovou variabilitou) ŽÁNR
PRŮMĚRNÉ HODNOCENÍ
HODNOCENÍ
Komedie
87
87
84
74
81
82,6
Akční
62
64
70
58
67
64,2
Drama
83
91
84
79
88
85,0
PRŮMĚRNÉ HODNOCENÍ ZA VŠECHNY FILMY =
•
77,3
meziskupinová variabilita vyjádřena jako meziskupinový součet čtverců (součet druhých mocnin odchylek skupinových průměrů od celkového průměru sledované závislé veličiny) – vyjadřuje, jak moc se od sebe liší jednotlivé skupiny ;<.= = >
•
C
&?A@ − ?B($
vnitroskupinová variabilita vyjádřena jako vnitroskupinový součet čtverců (součet druhých mocnin odchylek jednotlivých hodnot uvnitř skupin od příslušných skupinových průměrů) – vyjadřuje, jak moc se liší hodnoty uvnitř skupin ;<.D = >
•
C
>
E? − ?A@ F
$
celková variabilita závisle proměnné vyjádřena jako celkový součet čtverců – vyjadřuje, jak moc různé jsou hodnoty závisle proměnné a platí, ;< = ;<.= + ;<.D = >
4
C
>
E? − ?BF
$
Kurz 4st201 – cvičení č. 8
Test •
nulová hypotéza o nezávislosti formulována jako hypotéza o rovnosti středních hodnot
: μ = μ$ = ⋯ = μI : •
=> nezávislost závisle proměnné na faktoru => závislost závisle proměnné faktoru
testové kritérium F vychází z toho, že čím větší podíl na celkové variabilitě má variabilita meziskupinová oproti vnitroskupinové, tím spíše má sledovaný faktor vliv na rozdílnost hodnot závisle proměnné J=
;<.= /&K − 1( ;<.D /& − K(
Při platnosti nulové hypotézy má testové kritérium rozdělení
J%&K − 1(, & − K(),
kde k je počet variant faktoru a n je počet pozorování. *+ = 〈J+ %&K − 1(, & − K(); ∞(
Kritický obor •
míru těsnosti závislosti závisle proměnné na třídícím faktoru lze měřit pomocí tzv. poměru determinace, který je konstruován jak podíl meziskupinové variability na celkové variabilitě závisle proměnné – nabývá hodnot o 0 do 1, přičemž závislost je tím těsnější, čím je hodnota poměru determinace blíže 1 M$ =
•
;<.= ;<
statistický software často dává výstup analýzy rozptylu v následujícím formátu:
Zdroj
Součet čtverců
Stupně volnosti
Průměrný
Hodnota F
variability
(SS)
(Rozdíl)
čtverec (MS)
(F)
Faktor
;<.=
K−1
;<.= /&K − 1(
(Všechny výběry)
;<.D
−K
;<.D /& − K(
Celkem
;<
−1
(Mezi výběry) Reziduální
;?.4 /&K − 1( ;?.N /& − K(
Hodnota P
…
• ANALÝZA ROZPTYLU V MS EXCEL o
V modulu ANALÝZA DAT nabídka „Anova: jeden faktor“
o
Jsou-li data ve formátu, kdy proměnné jsou v řádcích a pozorování ve sloupcích, pak volbu „Sdružit“ nastavit na „Řádky“
o
Jsou-li data ve formátu, kdy proměnné jsou ve sloupcích a pozorování v řádcích, pak volbu „Sdružit“ nastavit na „Sloupce“
5
Kurz 4st201 – cvičení č. 8 Př. 8.3 U 12 studentů jsme sledovali počet dosažených bodů na závěrečném testu (od 0 do 60). Vždy 4 z těchto studentů chodili k jednomu ze 3 cvičících – panu Kubovi, panu Kubinovi, nebo panu Kubinčákovi. Má osoba cvičícího vliv na počet dosažených bodů u závěrečného testu? Jaká je těsnost závislosti? Využijte výstup z MS Excel. Zkuste v modulu Analýza dat výstup vytvořit (sdružit sloupce). Zadání Kuba 53 47 55 50
Body u závěrečného testu
Cvičící
Kubina 42 48 48 50
Kubinčák 39 46 39 43
Výstup z MS Excel ANOVA
Zdroj variability Mezi výběry Všechny výběry Celkem
SS 2 9 11
Rozdíl
MS
181,17 107,5 288,67
F 90,58 11,94
Hodnota P
7,58
F krit 4,256
0,0117
Př. 8.4 Pomocí experimentu byla testována spotřeba při použití 3 druhů benzinu, s každým druhem bylo provedeno 5 pokusů. Doplňte tabulku ANOVA a rozhodněte na hladině významnosti 0,05, zda spotřeba závisí na druhu benzinu. Změřte těsnost závislosti. Zdroj variability
SS
Rozdíl
MS
F
Mezi výběry Všechny výběry
0,080280
Celkem
0,250773
Př. 8.5. Existuje závislost hodnocení filmu na serveru www.csfd.cz na jeho žánru? Testujte na 5% hladině významnosti a posuďte těsnost testované závislosti. Vypočtěte v MS Excel pomocí modulu Analýza dat (sdružit řádky). ŽÁNR Komedie Akční Drama
87 62 83
87 64 91
HODNOCENÍ 84 70 84
6
74 58 79
81 67 88