Kurz 4st201 – cvičení č. 10
4ST201 – STATISTIKA CVIČENÍ Č. 10 • regresní analýza - vícenásobná lineární regrese • korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte chybějící údaje ve výstupu z regresní analýzy v SAS. Vyhodnoťte výsledek F-testu a individuálních t-testů. Využijte vztahu mezi různými součty čtverců a indexem determinace. Analysis of Variance Source Model Error Corrected
DF 1 504 505
Sum of Squares
Mean Squares
F Value
42716 R-Square Adj R-Sq
0.4835 0.4825
Parameter Estimates Variable Intercept X
DF 1 1
Parameter Estimate -34.67062 9.10211
Standard Error 2.64980 0.41903
t Value
Vícenásobná lineární regrese •
v řadě případů se nepodaří „vysvětlit“ změny závisle proměnné pouze jednou vysvětlující proměnnou, pak můžeme úlohu rozšířit o více vysvětlujících proměnných a hovoříme o vícenásobné regresi
•
náročné nebo nemožné využít grafické analýzy pro posouzení vhodnosti regresní funkce - využití matematicko-statistických kritérií (testy, míry těsnosti, korelační koeficienty …)
•
v případě lineární závislosti vysvětlované proměnné na každé z vysvětlujících proměnných konstruujeme mnohonásobnou lineární funkci a zkoumáme vícenásobnou lineární regresi = + + + ⋯ +
•
vícenásobná lineární regresní funkce:
•
, , …, = dílčí regresní koeficienty, udávají odhad toho, jak se průměrně změní hodnota
vysvětlované proměnné při jednotkové změně dané vysvětlující proměnné za předpokladu, že ostatní vysvětlující proměnné zůstanou konstantní •
pro koeficient determinace platí, že přidáním dalších proměnných do modelu se jeho hodnota nesníží, proto model s větším množství vysvětlujících proměnných bude působit jako kvalitnější než model s nižším počtem vysvětlujících proměnných
•
proto se pro srovnání více modelů s různým počtem vysvětlujících proměnných používá tzv. upravený koeficient determinace, který zohledňuje počet parametrů modelu −1 = 1 − (1 − ) − 1
Kurz 4st201 – cvičení č. 10 Př. 10.2 Při zjišťování účinnosti dvou různých způsobů reklamy na tržby z prodeje nového CD byly získány následující údaje (zbozi.sas7bdat): tržby (tis. Kč) 1119 625 971 1177 982 1577 914 1330 1436 1741 1717
náklady (tis. Kč) rádio a televize tisk 0 40 25 25 30 30 35 35 40 25 45 45 50 0 55 25 60 30 65 35 70 40
a) Odhadněte parametry lineární regresní funkce, popisující závislost tržeb (y) na velikosti výdajů na reklamu v rádiu a televizi (x1) a na velikosti výdajů na reklamu v tisku (x2). Charakterizujte těsnost závislosti. b) Posuďte vhodnost zařazení proměnných do modelu na základě výsledků testů. c) Jaký průměrný přírůstek tržeb lze podle tohoto modelu očekávat při zvýšení nákladů na reklamu v tisku o 5000 Kč, zůstanou-li náklady na reklamu v rádiu a televizi stejné? d) Proveďte bodový odhad velikosti tržeb, vydá-li se na reklamu v rádiu a televizi 40 tis. Kč a na reklamu v tisku 35 tis. Kč. Analysis of Variance Source Model
DF 2
Error
8
Corrected Total
10
Sum of Squares Mean Square F Value p-value 1 065 848 532 924 19,9 0,000789 214 567
26 821
1 280 415
R-Square Adj R-Sq
0,8324 0,7905
Parameter Estimates Variable Intercept Radio_TV Tisk
DF 1 1 1
Parameter Estimate Standard Error t Value p-value 123,7 184,75 0,67 0,521991 12,6 2,56 4,93 0,001149 18,9 4,32 4,37 0,002393
2
Kurz 4st201 – cvičení č. 10 Př. 10.3 Na obrázku je uveden výstup z vícenásobné regresní analýzy v SAS, odpovídající modelu vícenásobné lineární regrese se dvěma vysvětlujícími proměnnými. Model má popisovat závislost pracovní neschopnosti (%) na průměrném věku pracovníků a na podílu žen na celkovém počtu pracovníků (%). Co všechno je možné z výstupu vyčíst? Vypočtěte hodnotu koeficientu determinace a upraveného koeficientu determinace. Parameter Estimates Variable Intercept vek zeny
DF 1 1 1
Parameter -3.04695 0.0100588 0.160399
Standard Error 1.11682 0.0190678 0.0156658
t Value -3.05058 0.527529 10.2388
Pr > |t| 0.0186 0.6141 0.0000
Analysis of Variance Source Model Error Corrected
DF 2 7 9
Sum of Squares 3.91442 0.205577 4.12
Mean Squares 1.95721 0.0293682
F Value 66.64
Pr > F 0.0000
Př. 10.4 Srovnejte model z předchozího příkladu s modelem, který obsahuje pouze proměnnou ženy. Který z těchto modelů je kvalitnější?
Variable Intercept zeny
DF 1 1
Parameter Estimates Parameter Estimate Standard Error -2,88125 0,480920139 0,15625 0,012922546
t Value -5,991 12,091
p-value 0,0003 0,0000
p-value
Source
DF
Analysis of Variance Sum of Squares Mean Squares F Value
Model Error Corrected Total
1 8 9
3,90625 0,21375 4,12
3,90625 0,02671875
3
146,20
0,0000
Kurz 4st201 – cvičení č. 10
Závislost 2 číselných proměnných - korelační analýza Co testujeme? •
jednoduchý (párový) korelační koeficient měří sílu vzájemné lineární závislosti mezi dvěma proměnnými =
•
=
− ̅
− ̅ −
nabývá hodnot z intervalu <-1;1>, kde kladné hodnoty značí přímou lineární závislost a záporné hodnoty nepřímou lineární závislost – čím více se hodnota korelačního koeficientu blíží ke krajním hodnotám, tím lze závislost považovat za silnější
•
hodnoty blízké nule neznamenají obecně nezávislost, nýbrž pouze lineární nezávislost (= nekorelovanost) sledovaných proměnných
= 0,93
= −0,88
= −0,09 = −0,12
Test •
nulová hypotéza o nezávislosti formulována jako hypotéza o nulové hodnotě korelačního koeficientu
! : ρ%& = 0 ! : ρ%& ( 0 •
=> lineární nezávislost proměnných => lineární závislost proměnných
testové kritérium t má při platnosti nulové hypotézy studentovo t rozdělení s ) = − 2 stupni volnosti
+=
√ − 2 1 −
Kritický obor
-. = ∞; −+1./ ( − 2)〉 ∪ 〈+1./ ( − 2); ∞
4
Kurz 4st201 – cvičení č. 10 Př. 10.5 U 15 chlapců jsme spočítali počet udělaných kliků a počet shybů. Spočítejte, jestli existuje vzájemná lineární závislost mezi počtem shybů a počtem kliků a vyčíslete intenzitu této závislosti. chlapec
shybů
kliků
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1
10
3
15
2
15
0
0
5
40
6
25
1
7
4
31
3
30
5
35
6
41
2
10
1
14
1
9
8
64
5