cvičící Ing. Jana Fenclová
9. cvičení 4ST201 Obsah: ☺ ☺ ☺
Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza
Vysoká škola ekonomická
VŠE kurz 4ST201
1
Ing. Jana Fenclová
Jednoduchá lineární regrese •
Regresní analýza je statistická metoda pro modelování závislostí mezi číselnými proměnnými.
•
Tuto závislost mezi vysvětlovanou proměnnou (Y) a jednou nebo více vysvětlujícími proměnnými (X) se snažíme popsat pomocí modelu, obsahujícího deterministickou složku η (vliv vysvětlujících proměnných) a náhodnou složku ε (všechny ostatní vlivy, ať už náhodné, nebo neuvažované)
•
Nejjednodušším regresním modelem závislosti vysvětlované proměnné pomocí jedné vysvětlující proměnné je model regresní přímky.
•
Jelikož skutečné parametry modelu neznáme, odhadujeme je pomocí modelu, který je pro jednotky v našem výběrovém souboru optimální.
•
Za optimální považujeme takové hodnoty parametru, pro které je součet čtvercových odchylek (reziduí) minimální.
2
VŠE kurz 4ST201
Ing. Jana Fenclová
Jednoduchá lineární regrese Příklad 9.1.: Jsou nám známy údaje o stáří a ceně 10 ojetých aut. a) Vytvořte regresní model závislosti ceny auta na jeho stáří. b) Posuďte kvalitu tohoto modelu. c) Odhadněte střední hodnotu ceny aut starých 10 let. Stáří (roky)
3
4
5
6
7
7
8
8
9
9
Cena (tis.Kč)
167
165
139
149
119
129
89
115
76
89
Jiná interpretace: a. Můžeme očekávat, že vlivem stáří auta se bude měnit jeho cena? Jaké je vaše očekávání? b. Jak se změní cena auta, pokud auto bude mít o rok více? c. Jaká bude cena aut, které budou mít stáří 10 let? Data naleznete v souboru Felicia1.sas7bdat a v 4st201_cv9_pomocny.xlsx 3
VŠE kurz 4ST201
Ing. Jana Fenclová
Jednoduchá lineární regrese v SASu •
Analyze – Regression – Linear
•
Task role – dependent variable: cena -Explanatory variables : stáří
•
Statistics – confidence limits for parameter estimates -Confidence level: 95%
• Plots – Observed vs independets (none)
• Pokud chceme předpovídat konkrétní individuální předpovědi: Analyse - Linear Regression - Predictions - Original sample, Display Output - Show predictions 4
VŠE kurz 4ST201
Ing. Jana Fenclová
Zdroje variability závislé proměnné, měřené pomocí teoretického, reziduálního a celkového součtu čtverců.
Celkový Ftest
Příslušné stupně volnosti Koeficient determinace
Směrodatné odchylky odhadnutých parametrů
Intervaly spolehlivosti regresních kfctů
Odhadnuté parametry regresního modelu Dílčí t-testy: pro každý parametr se ptám: je významně různý od nuly? 5
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 9.1. – nápověda k a) a.) Budeme uvažovat regresní přímku: y = β0 + β1x + ε kde y je cena auta a x je stáří auta. Koeficienty regresního modelu odhadneme metodou nejmenších čtverců:
b1 =
n ∑xi yi - ∑xi ∑yi n ∑xi - (∑xi ) 2
2
b0 =
∑y n
i
- b1
∑x
i
n
Výsledná funkce je: Y=……………… – ……………….*x Koeficienty interpretujeme jako: b0= odpovídá hodnotě pro x=0, tedy průsečíků přímky s osou y, znamená odhad středí hodnoty nového auta. b1= značí směrnici přímky, záporné znaménko znamená, že s rostoucím stářím auta, klesá jeho cena. Koeficient slouží jako odhad, že s každým rokem navíc se střední hodnota ceny auta sníží o……………….tis. Kč.
6
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 9.1. – nápověda k b) b.) Kvalitu modelu posuzujeme na základě hodnoty koeficientu determinace R2. Ten je složen z teoretického součtu čtverců ST a celkového součtu čtverců SY. kde
2
Sy
S R = T Sy 2
(∑ y ) = ∑( y - y) = ∑ y n 2
i
2
i
i
(∑yi ) -
2
ST = ∑(Yi - y ) = b0 ∑yi + b1 ∑xi yi 2
n
( S R = ∑( yi - Yi ) = SY - ST ) 2
Výsledný index determinace má hodnot…………………. Zjistili jsme, že …………………. variability cen aut je v daném souboru vysvětleno zvoleným regresním modelem.
7
VŠE kurz 4ST201
Ing. Jana Fenclová
Příklad 9.1. – nápověda k c) c.) Předpověď individuální ceny pro auta stará konkrétní dobu, učiníme dosazením požadovaného stáří do vypočítané regresní rovnice: Y=220,156 – 14,156 * …………………. = Odpověď: ………………….…………………………………….………………………………….………………….
8
VŠE kurz 4ST201
Ing. Jana Fenclová
Jednoduchá lineární regrese - testy •
Testování správnosti regresních koeficientů: – Dílčí t-testy – Celkový F-test Po vytvoření regresního modelu je nutno prozkoumat, zda zvolené regresní koeficienty jsou statisticky významné, neboli, zda existuje opravdu závislost mezi cenou a stářím auta.
•
Dílčí t-testy testují každý parametr zvlášť: 1.) H0: β1=0, H1: non H0 – Testové kritérium:
t=
b1 s (b1 )
– Testové kritérium je t= …………………. – Kritický obor je vymezen kvantilem t1-α/2(n-p)= …………………. – …………………. testovanou hypotézu o nulovém regresním koeficientu.
9
VŠE kurz 4ST201
Ing. Jana Fenclová
Jednoduchá lineární regrese - testy Dílčí t-testy testují každá parametr zvlášť (pokračování): – 2.) H0: β0=0, H1: non H0 – Testové kritérium:
t=
b0 s (b0 )
– Testové kritérium je t= …………………. – Kritický obor je vymezen kvantilem t1-α/2(n-p)= …………………. – …………………. testovanou hypotézu o nulovém koeficientu β0.
10
VŠE kurz 4ST201
Ing. Jana Fenclová
Jednoduchá lineární regrese - testy • Celkový F-test: Celkovým F-testem testujeme statistickou významnost všech regresních koeficientů v modelu. V lineárním modelu je hypotéza shodná s dílčím t-testem: – H0: βj=0, H1: non H0 – Testové kritérium:
ST p -1 F = S R n-p
– Testové kritérium je rovno F= …………………. – Kritický obor je vymezen kvantilem: F1-α(p-1,n-p)= …………………. – …………………. jsme hypotézu o všech nulových koeficientech regresního modelu.
11
VŠE kurz 4ST201
Ing. Jana Fenclová
Vícenásobná regrese Příklad 9.2.: Máme údaje o stáří, počtu najetých km a ceně 20 ojetých aut Felície Combi. a)
Zkonstruujte regresní model závislosti ceny auta na jeho stáří a na počtu najetých km
b)
Posuďte jeho kvalitu
c)
Použijte jej k odhadu ceny auta starého 6 let, které má najeto 60 tis. Km. Data naleznete v souboru Felicia2.sas7bdat Postup je stejný jako u jednoduché regrese, pouze interpretace se rozšiřuje o další koeficient.
12
VŠE kurz 4ST201
Ing. Jana Fenclová
Vícenásobná regrese v SASu Řešení v SASu: Analyze – regression – linear Task role – dependent variable: cena - explanatory variables: staří, km
Odhad individuální předpovědi: Analyse - Linear Regression - Predictions - Original sample, Display Output - Show predictions (předpověď definovaná v posledním řádku)
13
VŠE kurz 4ST201
Ing. Jana Fenclová Na hladině významnosti 5% jsme prokázali platnost hypotézy o tom,m že alespoň jeden z regresních kfctů je nenulový, tedy, že alespoň jedna z uvažovaných vysvětlujících proměnných ovlivňuje cenu.
Hodnota koeficientu determinace 0.9316 znamená, že přes 93% variability závislé proměnné byla vysvětlena modelem.
Dílčí t-testy obou regresních kfctů potvrzují oprávněnost zařazení obou vysvětlujících proměnných.
Regresní konstanta 222,592 představuje odhad střední hodnoty ceny, za kterou by se prodávalo auto s nulovým stářím a s nulovým počtem najetých km. Dílčí regresní kfc -11,850 vyjadřuje pokles ceny odpovídající přírůstku stáří o 1 rok, očištěných od vlivu počtu najetých km. Tzn. Že pokud by měla auta stejně najeto a lišila se jen stářím o 1 rok, bude se jejich cena lišit v průměru o 11,850 tis. Kč. Dílčí regresní kfc -0,202 vyjadřuje průměrný pokles ceny při vzrůstu počtu najetých km o 1 tis., zůstane li stejné stáří. Tzn, že u stejně starých aut, lišících se poštem najetých km o 1tis., lze očekávat průměrný rozdíl ceny 0,202 tis. Kč.
Bodový odhad ceny auta starého 6 let, který má najeto 160 Km, je přibližně 139 tis. Kč.
14
VŠE kurz 4ST201
Ing. Jana Fenclová
Korelační analýza •
Korelační analýzou posuzujeme sílu závislosti mezi dvěma proměnnými.
•
Sílu lineární závislosti měříme pomocí korelačního koeficientu, který pro nezávislé veličiny je roven nule.
•
Sx,y je výběrová kovariance veličin x a y.
15
VŠE kurz 4ST201
Ing. Jana Fenclová
Korelační analýza • •
Chceme-li testovat, zda jsou dvě veličiny lineárně nezávislé, používáme test o nulové hodnotě korelačního koeficientu v základním souboru. Testová hypotéza:
•
Testové kritérium:
•
Dvě veličiny spolu korelují, pokud jedna věcně souvisí s druhou, jedna veličina je závislá na druhé či měří obě veličiny to samé nebo na obě veličiny působí stejné vlivy.
16
VŠE kurz 4ST201
Ing. Jana Fenclová
Korelační analýza Příklad 9.3.: •
•
Na 10 vybraných místech byla měřena míra znečištění vzduchu, máme naměřeno 2 metodami koncentraci znečišťující látky. Vypočtěte, zda jsou dvě metody korelované. místo
1
2
3
4
5
6
7
8
9
10
M1(x)
12,9
7,9
4,3
9,9
13,2
7,9
15
17,2
11,4
6
M2(y)
13,6
9,5
5,9
8,9
11,2
7,8
13,9
16,8
12,4
6,2
Postup: 1. Spočítejte výběrový korelační koeficient mezi veličinami X a Y. 2. Učiňte závěr dle hodnoty výběrového korelačního koeficintu. 3. Proveďte test o nulovém korelačním koeficientu pro hypotézu ρ≠0 Soubor 4st201_cv10_pomocny.xls (web) Soubor mereni.sas7bdat (I:/) 17
VŠE kurz 4ST201
Ing. Jana Fenclová
Korelační analýzy v SASu •
Analyse – Multivariate – Correlations
•
Task role – jména proměnných (!!nezáleží na pořadí!!)
•
Options – Pearson
•
Results – create a scatter plot for each correlation pair (bodový diagram)
•
Je v bodovém grafu možno vidět, jaká závislost je?
18
VŠE kurz 4ST201
Ing. Jana Fenclová
Př. 10.1. - Korelační analýza Základní charakteristiky
Hodnota testového kritéria
Závislost mezi oběmi proměnnými je patrná☺
19