Část III. – Regresní a korelační analýza
Ing. Michal Dorda, Ph.D.
1
Regresní a korelační analýza • Je známo, že např. hmotnost m homogenního tělesa je dána jeho objemem V. V tomto případě hovoříme o funkční závislosti, tedy m = f(V). • V mnoha případech je ale třeba zkoumat závislosti, kdy mezi sledovanými znaky (náhodnými proměnnými) neexistuje jednoznačný vztah. V tomto případě hovoříme o statistické (stochastické) závislosti. Ing. Michal Dorda, Ph.D.
2
Regresní a korelační analýza • K posuzování statistických závislostí slouží regresní a korelační analýza . Úkolem regresní a korelační analýzy je: – Stanovení závislosti mezi sledovanými kvantitativními znaky (lineární, logaritmická, exponenciální,…), závislost je vyjádřena funkčním předpisem – regresní analýza. – Stanovení síly závislosti mezi sledovanými kvantitativními znaky – korelační analýza. Ing. Michal Dorda, Ph.D.
3
Regresní a korelační analýza • Sílu lineární závislosti mezi dvěma proměnnými můžeme kvantifikovat pomocí Pearsonova (výběrového) korelačního koeficientu: n
rX ,Y
i 1 n
i 1
X
X
i
X Yi Y
X Yi Y 2
i
n
2
.
i 1
• Pearsonův korelační koeficient nabývá hodnot z intervalu 1;1 . Ing. Michal Dorda, Ph.D.
4
Regresní a korelační analýza • Předpokladem je, že obě náhodné proměnné, pro které počítáme Pearsonův korelační koeficient, pocházejí z normálního rozdělení. • Pearsonův korelační koeficient vychází ze vztahu pro výpočet jednoduchého korelačního koeficientu, kde jsou číselné charakteristiky náhodného vektoru (neznámé rozptyly a neznámá kovariance) nahrazeny jejich odhady. Ing. Michal Dorda, Ph.D.
5
Regresní a korelační analýza
Ing. Michal Dorda, Ph.D.
6
Regresní a korelační analýza • V případech, kdy korelační koeficient rX,Y vypočtený z dat získaných náhodným výběrem je blízký nule, má smysl se ptát, zda jsou proměnné X a Y lineárně nezávislé, jinými slovy, zda je hodnota korelačního koeficientu populace X ,Y 0 . • Testujeme tedy na základě vypočtené hodnoty Pearsonova korelačního koeficientu, zda je jednoduchý korelační koeficient celé populace rovná nule. Ing. Michal Dorda, Ph.D.
7
Regresní a korelační analýza • Nulová hypotéza H0: X ,Y 0 (čili mezi proměnnými X a Y neexistuje lineární vztah). • V případě alternativní hypotézy má smysl uvažovat tři varianty: 1. H1: X ,Y 0 (oboustranná alternativa, tuto možnost volíme, pokud je vypočtený koeficient korelace blízký 0)
Ing. Michal Dorda, Ph.D.
8
Regresní a korelační analýza 2. H1: X ,Y 0 (pravostranná alternativa, tuto možnost má smysl volit, pokud je vypočtený koeficient korelace větší než 0, výběrový soubor tedy ukazuje na kladnou lineární závislost). 3. H1: X ,Y 0 (levostranná alternativa, tuto možnost má smysl volit, pokud je vypočtený koeficient korelace menší než 0, výběrový soubor tedy ukazuje na zápornou lineární závislost).
Ing. Michal Dorda, Ph.D.
9
Regresní a korelační analýza • Za předpokladu, že náhodné proměnné X a Y se řídí normálním rozdělením pravděpodobnosti, platí pro testovou statistiku: T
rX ,Y n 2 1 r
2 X ,Y
tn 2 ,
kde n je rozsah výběrového souboru.
Ing. Michal Dorda, Ph.D.
10
Regresní a korelační analýza • V případě výběru o velkém rozsahu (n > 30) lze příslušné Studentovo rozdělení pravděpodobnosti aproximovat normovaným rozdělením pravděpodobnosti N(0,1). • Při sestrojování kritického oboru a oboru přijetí je nutno vzít v potaz zvolenou alternativní hypotézu.
Ing. Michal Dorda, Ph.D.
11
Regresní a korelační analýza t1 ;n t ;n
f(t)
H1: X ,Y 0
1
2
2 Obor přijetí
t t 2
;n 2
t
0
1 ;n 2 2
t
1 ; n 2 2
Kritický obor Ing. Michal Dorda, Ph.D.
12
Regresní a korelační analýza t1 ;n t ;n
f(t)
H1: X ,Y 0
1
Obor přijetí
t 0
t1 ;n 2 Kritický obor
Ing. Michal Dorda, Ph.D.
13
Regresní a korelační analýza t1 ;n t ;n
f(t)
H1: X ,Y 0
1
Obor přijetí
t t ;n2 t1 ;n2
0
Kritický obor Ing. Michal Dorda, Ph.D.
14
Regresní a korelační analýza • Výsledek testu: – Leží-li vypočtená hodnota testové statistiky xobs v oboru přijetí, potom nezamítáme nulovou hypotézu o lineární nezávislosti proměnných X a Y. – Leží-li vypočtená hodnota testové statistiky xobs v kritickém oboru, potom zamítáme nulovou hypotézu ve prospěch alternativní hypotézy.
Ing. Michal Dorda, Ph.D.
15
Regresní a korelační analýza • Př.: V náhodném výběru o rozsahu 25 pozorování byl vypočítán koeficient korelace rX ,Y 0,23. Na hladině významnosti 0,05 otestujte, zda lze na základě tohoto výsledku usuzovat na lineární nezávislost mezi proměnnými X a Y v celé populaci.
Ing. Michal Dorda, Ph.D.
16
Regresní a korelační analýza • Nulová hypotéza H0: X ,Y 0 (čili mezi proměnnými X a Y neexistuje lineární vztah). • V případě alternativní hypotézy má smysl uvažovat dvě varianty: 1. H1: X ,Y 0. 2. H1: X ,Y 0.
Ing. Michal Dorda, Ph.D.
17
Regresní a korelační analýza • Výpočet pozorované hodnoty testové statistiky: rX ,Y n 2 0,23 25 2 xobs 1,133 . 2 2 1 rX ,Y
1 0,23
• Příslušné kvantily Studentova rozdělení získáme z tabulek: t
1 ; n 2 2
t10,025; 252 t0,975; 23 2,07, t 2
;n 2
t
1 ; n 2 2
2,07,
t1 ;n 2 t10,05; 252 t0,95; 23 1,71. Ing. Michal Dorda, Ph.D.
18
Ing. Michal Dorda, Ph.D.
19
Regresní a korelační analýza f(t)
H1: X ,Y 0
0,95 0,975
0,025
Obor přijetí
t 2,07
0
1,133
2,07
Kritický obor Ing. Michal Dorda, Ph.D.
20
Regresní a korelační analýza f(t)
H1: X ,Y 0
0,95 0,05 Obor přijetí
t 0
1,133
1,71
Kritický obor Ing. Michal Dorda, Ph.D.
21
Regresní a korelační analýza • V obou případech vidíme, že pozorovaná hodnota testového kritéria leží v oboru přijetí, výsledkem tedy je konstatování, že nezamítáme nulovou hypotézu, můžeme tedy předpokládat, že náhodné proměnné jsou lineárně nezávislé.
Ing. Michal Dorda, Ph.D.
22
Regresní a korelační analýza • V případech, kdy není splněna normalita obou náhodných výběrů, lze místo Pearsonova korelačního koeficientu použít Spearmanův korelační koeficient. • Mějme náhodný výběr z dvourozměrného rozdělení (X1,Y1),…, (Xn,Yn). Zaveďme nyní P1,…,Pn jako pořadí veličiny X1,…,Xn a R1,…,Rn jako pořadí veličiny Y1,…,Yn. Ing. Michal Dorda, Ph.D.
23
Regresní a korelační analýza • V případě, že máme několik stejných hodnot, potom jim přiřadíme průměrné pořadí. • Je zřejmé, že pokud s rostoucím Xi bude růst i Yi, potom bude stejný vztah platit i pro jejich pořadí. • Pokud s klesajícím Xi bude klesat i Yi, potom bude stejný vztah platit i pro jejich pořadí. • Budou-li veličiny X a Y nezávislé, potom budou i hodnoty jejich pořadí náhodně přeházené. Ing. Michal Dorda, Ph.D.
24
Regresní a korelační analýza • Spearmanův korelační koeficient rS je potom definován vztahem: n 6 2 rs 1 P R . i i 2 n n 1 i 1
• Spearmanův korelační koeficient nabývá hodnot z intervalu 1,1 .
Ing. Michal Dorda, Ph.D.
25
Regresní a korelační analýza • Při shodném pořadí nabývá hodnota Spearmanova korelačního koeficientu hodnoty 1. • Při opačném pořadí nabývá hodnoty -1. • V případě nezávislosti obou veličin X a Y nabývá hodnoty 0.
Ing. Michal Dorda, Ph.D.
26
Regresní a korelační analýza • Pokud se v náhodném výběru vyskytuje mnoho shod (tj. stejně velkých pozorování), potom se doporučuje používat korigovaný Spearmanův koeficient. Zaveďme: – Veličinu tx jako počty stejných hodnot proměnné X. – Veličinu ty jako počty stejných hodnot proměnné Y.
Ing. Michal Dorda, Ph.D.
27
Regresní a korelační analýza • Potom korigovaný Spearmanův koeficient definujeme vztahem: rskorig
n 6 2 1 3 Pi Ri , n n TX TY i 1
kde
1 TX t x3 t x 2 x
a
1 TY t 3y t y . 2 y
Ing. Michal Dorda, Ph.D.
28
Regresní a korelační analýza • Vyjde-li hodnota Spearmanova korelačního koeficientu blízká nule, může nás zase zajímat odpověď na otázku, zda je jeho hodnota statisticky významná, jinými slovy zda lze veličiny X a Y považovat za nezávislé. Dostáváme následující hypotézy: – H0 – veličiny X a Y jsou nezávislé náhodné veličiny. – H1 – veličiny X a Y jsou závislé náhodné veličiny. Ing. Michal Dorda, Ph.D.
29
Regresní a korelační analýza • Testovou statistikou je absolutní hodnota Spearmanova korelačního koeficientu, tedy: xobs rS .
• Nulovou hypotézu zamítáme v tom případě, pokud platí, že: xobs rs* , n, kde rs* , n je pro n≤30 tabelovaná hodnota. Ing. Michal Dorda, Ph.D.
30
Regresní a korelační analýza n 5 6 7 8 9 10 11 12 13 14 15 16 17
α =0,05 0,900 0,829 0,714 0,643 0,600 0,564 0,523 0,497 0,475 0,457 0,441 0,425 0,412
α =0,01 0,943 0,893 0,833 0,783 0,745 0,736 0,703 0,673 0,646 0,623 0,601 0,582
n 18 19 20 21 22 23 24 25 26 27 28 29 30
Ing. Michal Dorda, Ph.D.
α =0,05 0,399 0,388 0,377 0,368 0,359 0,351 0,343 0,336 0,329 0,323 0,317 0,311 0,305
α =0,01 0,564 0,549 0,534 0,521 0,508 0,496 0,485 0,475 0,465 0,456 0,448 0,440 0,432 31
Regresní a korelační analýza • Pro n>30 se kritická hodnota rs* , n stanoví: rs* , n
z
1
2
n 1
,
kde v čitateli je příslušný kvantil normovaného normálního rozdělení (jeho hodnotu např. nalezneme ve statistických tabulkách).
Ing. Michal Dorda, Ph.D.
32
Regresní a korelační analýza • Př.: V obchodě, zabývajícím se prodejem náhradních dílů do automobilů, bylo provedeno měření počtu zákazníků přicházejících do obchodu za 1 hodinu a odpovídajících tržeb za 1 hodinu vyjádřených v tisících Kč. Stanovte hodnotu Spearmanova korelačního koeficientu a pro α=0,05 otestujte hypotézu, zda lze počet přicházejících zákazníků za hodinu a hodinové tržby považovat za nezávislé veličiny. Ing. Michal Dorda, Ph.D.
33
Regresní a korelační analýza Počet zákazníků - X i Hodinová tržba - Y i 20 10 12 15
31 32 34 36 39 42 45
18 19 19 17 16 14 13
18 16 14
Tržba
23 26
20
12 10 8 6 4 2 0
15
20
25
30
35
40
45
50
Počet zákazníků
Ing. Michal Dorda, Ph.D.
34
Regresní a korelační analýza • Nejdříve musíme jednotlivým hodnotám veličin X a Y přiřadit pořadí. Počet zákazníků - X i Hodinová tržba - Y i Pořadí P i Pořadí R i (P i -R i )2 20 10 1 1 0 23 12 2 2 0 26 15 3 5 4 31 18 4 8 16 32 19 5 9,5 20,25 34 19 6 9,5 12,25 36 17 7 7 0 39 16 8 6 4 42 14 9 4 25 45 13 10 3 49 ∑ 130,5 Ing. Michal Dorda, Ph.D.
35
Regresní a korelační analýza • Nyní můžeme dosadit do vztahu pro výpočet Spearmanova korelačního koeficientu: n 6 6 2 rs 1 Pi Ri 1 130,5 0,21. 2 2 n n 1 i 1 10 10 1
• Nyní budeme testovat hypotézu o nezávislosti obou veličin.
Ing. Michal Dorda, Ph.D.
36
Regresní a korelační analýza • H0 – Počet přicházejících zákazníků za hodinu a hodinové tržby obchodu jsou nezávislé veličiny. • H1 – Počet přicházejících zákazníků za hodinu a hodinové tržby obchodu jsou závislé veličiny. • Z tabulky odečteme kritickou hodnotu testu pro n=10 (máme 10 pozorování) a hladinu významnosti α=0,05), která je rovna 0,564. Ing. Michal Dorda, Ph.D.
37
Regresní a korelační analýza • Porovnáním pozorovaného hodnoty testové statistiky (absolutní hodnota Spearmanova korelačního koeficientu) s kritickou hodnotou testu vidíme, že nezamítáme nulovou hypotézu o nezávislosti obou veličin.
Ing. Michal Dorda, Ph.D.
38
Regresní a korelační analýza • Lineární regrese – závislost proměnných je vyjádřena funkcí lineární v parametrech (resp. se dá na funkci lineární v parametrech převést vhodnou transformací) – např. Y 0 1 x . • Nelineární regrese – závislost proměnných je vyjádřena funkcí nelineární v parametrech (a ani nelze na funkci lineární v parametrech převést pomocí žádné transformace) – např. Y 0 1 x . Ing. Michal Dorda, Ph.D.
39
Regresní a korelační analýza • Jednoduchá regrese – studuje závislost jedné proměnné na druhé proměnné. • Vícenásobná regrese – studuje závislost jedné proměnné na několika proměnných.
Ing. Michal Dorda, Ph.D.
40
Regresní a korelační analýza • Vysvětlovaná (závisle) proměnná Y – proměnná, jejíž chování se snažíme vysvětlit, tedy popsat vyrovnávací křivkou. • Vysvětlující (nezávisle) proměnná x – proměnná, jejíž chování vysvětluje chování závisle proměnné Y. Tato proměnná je příčinnou proměnnou, v důsledku její změny se mění vysvětlovaná proměnná. Ing. Michal Dorda, Ph.D.
41
Regresní a korelační analýza Zajímá nás, zda existuje nějaká závislost mezi výkonem motoru automobilu a jeho maximální rychlostí. Výkon motoru je v tomto případě vysvětlující proměnná a maximální rychlost je vysvětlovaná proměnná.
Výkon motoru [kW] Maximální rychlost [km/h] 43 160 55 162 55 175 58 165 65 182 70 175 72 185 79 170 80 187 81 190 103 190 120 210 150 242 155 230 155 230 196 244 350 306 448 322 736 407 754 342
Ing. Michal Dorda, Ph.D.
42
Regresní a korelační analýza • Orientačně („podle oka“) lze druh a sílu závislosti mezi vysvětlující a vysvětlovanou proměnnou posoudit na základě bodového grafu [xi,Yi] – korelační pole. • Dále se budeme podrobně zabývat pouze jednoduchou lineární regresí, vyrovnávací křivka má tvar přímky.
Ing. Michal Dorda, Ph.D.
43
Regresní a korelační analýza 450 400
Maximální rychlost [km/h]
350 300 250
200 150 100 50 0 0
100
200
300
400
500
600
700
800
Výkon motoru [kW]
Ing. Michal Dorda, Ph.D.
44
Regresní a korelační analýza • Otázkou je, jak jednotlivými body proložit vyrovnávací křivku. 450 400
Maximální rychlost [km/h]
350 300 250
200 150 100 50 0 0
100
200
300
400
500
600
700
800
Výkon motoru [kW]
Ing. Michal Dorda, Ph.D.
45
Regresní a korelační analýza • Regresní funkce – EYi 0 1 xi – skutečná regrese populace, v praxi neznámá, proto regresní funkci pouze odhadujeme, zapisujeme tedy Yˆi b0 b1 xi . Y
EYi 0 1 xi Yˆi b0 b1 xi
x Ing. Michal Dorda, Ph.D.
46
Regresní a korelační analýza • Reziduum (chyba predikce) – ei Yi Yˆi – odchylka naměřené hodnoty od hodnoty předpovídané vyrovnávací křivkou. Y
Yˆi b0 b1 xi
Yi ei
Yˆi
x Ing. Michal Dorda, Ph.D.
47
Regresní a korelační analýza • Úkolem je najít vyrovnávací křivku Yˆi b0 b1 xi takovou, abychom získali co nejméně rozptýlený soubor reziduí. Můžeme tedy minimalizovat: n – Součet reziduí Yi Yˆi . n i 1 – Součet absolutních odchylek reziduí Yi Yˆ . i 1
– Součet druhých mocnin reziduí Yi Yˆi . n
2
i 1
Ing. Michal Dorda, Ph.D.
48
Regresní a korelační analýza • K nalezení koeficientů vyrovnávací přímky tedy použijeme metodu nejmenších čtverců. • Pro zjednodušení nejdříve upravme vztah pro Yˆi do vhodnější formy – tzv. odchylková forma: Yˆi b0 b1 x1 b0 b1 x b1 x1 x b0* b1 xi x . • Potom můžeme psát: n
Yi Yˆi i 1
Y b 2
n
i 1
i
* 0
b1 xi x .
Ing. Michal Dorda, Ph.D.
2
49
Regresní a korelační analýza • Jelikož hledáme minimum funkce s proměnnými b0* a b1, položíme parciální derivace funkce rovny nule. n d * 2 Y b i 0 b1 xi x 0 * db0 i 1
n d 2 Yi b0* b1 xi x xi x 0 db1 i 1
Ing. Michal Dorda, Ph.D.
50
Regresní a korelační analýza • Vyřešme nyní první rovnici. n 2 Yi b0* b1 xi x 0 i 1
n
n
i 1
i 1
* Y nb i 0 b1 xi x 0
n
x x 0 i 1
i
n
nb Yi * 0
i 1
n
b0*
Y i 1
i
n b0* Y b0 b1 x Y b0 Y b1 x
Ing. Michal Dorda, Ph.D.
51
Regresní a korelační analýza • Nyní upravme druhou rovnici. 2 Yi b
x x 0
n
b1 xi x xi x 0
* 0
i 1
n
n
n
n
i 1
i 1
i 1
n
n
i 1
i 1
i 1
i
* Y x x b i i 0 xi x b1 xi x 0 2
Yi xi x b1 xi x
2
n
b1
Y x x i 1 n
i
i
x x i 1
2
i
Ing. Michal Dorda, Ph.D.
52
Regresní a korelační analýza • Odvodili jsme tedy vztahy pro koeficienty vyrovnávací přímky ve tvaru: n
b1
Y x x i 1 n
i
i
2 x x i
a b0 Y b1 x
.
i 1
• Vyrovnávací přímka je potom ve tvaru: Yˆi b0 b1 xi Y b1 x b1 xi Y b1 xi x , prochází tedy vždy bodem x; Y . Ing. Michal Dorda, Ph.D.
53
Regresní a korelační analýza xi Yi 43 160 55 162 55 175 58 165 65 182 70 175 72 185 79 170 80 187 81 190 103 190 120 210 150 242 155 230 155 230 196 244 350 306 448 322 736 407 754 342 xp Yp 191,25 223,70
xi - xp -148,25 -136,25 -136,25 -133,25 -126,25 -121,25 -119,25 -112,25 -111,25 -110,25 -88,25 -71,25 -41,25 -36,25 -36,25 4,75 158,75 256,75 544,75 562,75
(x i - x p )∙Yi -23720,00 -22072,50 -23843,75 -21986,25 -22977,50 -21218,75 -22061,25 -19082,50 -20803,75 -20947,50 -16767,50 -14962,50 -9982,50 -8337,50 -8337,50 1159,00 48577,50 82673,50 221713,25 192460,50 ∑ 269482,50
(x i - x p )2 21978,06 18564,06 18564,06 17755,56 15939,06 14701,56 14220,56 12600,06 12376,56 12155,06 7788,06 5076,56 1701,56 1314,06 1314,06 22,56 25201,56 65920,56 296752,56 316687,56 ∑ 880633,75
b1 b0 0,306 165,176
Yˆi 165,176 0,306 xi
Pozn. xp x Yp Y
Ing. Michal Dorda, Ph.D.
54
Regresní a korelační analýza 500 y = 0,306x + 165,18 R² = 0,9078
Maximální rychlost [km/h]
400
300
200
100
0
0
100
200
300
400
500
600
700
800
Výkon motoru [kW]
Yˆi 165,176 0,306 xi Ing. Michal Dorda, Ph.D.
55
Regresní a korelační analýza • Pro účely ověření správnosti zvoleného regresního modelu slouží index determinace. Y Y n
SSY
2
i
i 1 n
SSYˆ i 1 n
SS R i 1
Yˆi Y
Yi Yˆi
Yˆi b0 b1 xi
Y Y
2
2
Yˆi
Yi
Ing. Michal Dorda, Ph.D.
x
56
Regresní a korelační analýza • Označme:
– Celkový součet čtverců SSY Yi Y , n
2
i 1 n
2 ˆ – Součet čtverců modelu SSYˆ Yi Y , i 1
n
2 ˆ – Reziduální součet čtverců SS R Yi Yi . i 1
• Platí: SSY SSYˆ SS R . Ing. Michal Dorda, Ph.D.
57
Regresní a korelační analýza SSYˆ
SS R 1. SSY
• Zaveďme Je zřejmé, že čím „lepší“ SSY model bude, tím více se bude první zlomek blížit k 1 a naopak.
n
• Zaveďme index determinace
R2
SSYˆ SSY
i 1 n
Yˆi Y
2
Y Y i 1
2
i
– Index determinace nabývá hodnot z intervalu 0;1 . Velké hodnoty (cca nad 0,8) znamenají, že použitý regresní model se hodí pro popis závislosti. Ing. Michal Dorda, Ph.D.
58
.
Regresní a korelační analýza Ŷi 178,33 182,01 182,01 182,92 185,07 186,60 187,21 189,35 189,66 189,96 196,69 201,90 211,08 212,61 212,61 225,15 272,28 302,27 390,40 395,91
(Ŷ i -Y p )2 2058,07 1738,38 1738,38 1662,67 1492,57 1376,68 1331,64 1179,89 1158,97 1138,22 729,29 475,38 159,34 123,05 123,05 2,11 2359,92 6172,93 27788,49 29655,24 ∑ 82464,27
(Y i -Y p )2 4057,69 3806,89 2371,69 3445,69 1738,89 2371,69 1497,69 2883,69 1346,89 1135,69 1135,69 187,69 334,89 39,69 39,69 412,09 6773,29 9662,89 33598,89 13994,89 ∑ 90836,20
R2 0,908
Ing. Michal Dorda, Ph.D.
59
Regresní a korelační analýza • Odhad regresní funkce nám umožňuje predikovat hodnotu Y0 při libovolné hodnotě x0: – Je-li x0 x1; xn , potom hovoříme o interpolaci. – Je-li x0 x1; xn , potom se jedná o extrapolaci.
Ing. Michal Dorda, Ph.D.
60
Regresní a korelační analýza • My jsme se zatím zabývali pouze případem, kdy vyrovnávací křivkou byla přímka. V praxi se používají i jiné regresní modely: 1. Parabolická regrese: EYi 0 1 xi 2 xi2 .
2. Polynomická regrese n-tého stupně: EYi 0 1 xi 2 xi2 ... n xin .
3. Hyperbolická regrese: EYi 0
1 xi
. Ing. Michal Dorda, Ph.D.
61
Regresní a korelační analýza 4. Logaritmická regrese: EYi 0 1 log xi .
5. Exponenciální regrese: EYi 0 1xi .
Ing. Michal Dorda, Ph.D.
62
Regresní a korelační analýza 1) Uvažujme parabolickou regresi, vyrovnávací křivka (její odhad) je tedy vyjádřena ve tvaru: Yi b0 b1 xi b2 xi2 .
Jelikož se jedná o regresní model lineární v parametrech, můžeme pro odhad koeficientů použít metodu nejmenších čtverců.
Ing. Michal Dorda, Ph.D.
63
Regresní a korelační analýza n
Tedy i 1
Yi Yi
Y b 2
n
i 1
i
0
2 2 i
b1 xi b2 x
min .
Hledáme minimum, položíme parciální derivace rovny nule : n d 2 1 2 Yi b0 b1 xi b2 xi 1 0, db0 i 1
n d 2 1 2 Yi b0 b1 xi b2 xi xi 0, db1 i 1
n d 2 1 2 Yi b0 b1 xi b2 xi xi2 0. db2 i 1
Ing. Michal Dorda, Ph.D.
64
Regresní a korelační analýza Získanou soustavu upravíme : n
n
n
n
i 1
i 1
i 1
i 1
2 Y b b x b x i 0 1 i 2 i 0, n
n
n
n
3 Y x b x b x b x i i 0 i 1 2 i 0, i 1
i 1
n
i 1
n
2 i
i 1
n
n
4 Y x b x b x b x i 0 1 2 i 0. i 1
2 i
i 1
2 i
i 1
3 i
i 1
Ing. Michal Dorda, Ph.D.
65
Regresní a korelační analýza Dalšími úpravami dostaneme : n
n
n
i 1
i 1
i 1
2 Y nb b x b x i 0 1 i 2 i , n
n
n
n
3 Y x b x b x b x i i 0 i 1 2 i , 2 i
i 1
i 1
i 1
n
n
n
n
i 1
i 1
i 1
i 1
i 1
2 2 3 4 Y x b x b x b x i i 0 i 1 i 2 i .
Získali jsme soustavu tří rovnic se třemi neznámými, řešením získáme odhady koeficientů regresního modelu.
Ing. Michal Dorda, Ph.D.
66
Regresní a korelační analýza 500 y = -0,0004x 2 + 0,643x + 136,11 R² = 0,9642
Maximální rychlost [km/h]
400
300
200
100
0
0
100
200
300
400
500
600
700
800
Výkon motoru [kW]
Ing. Michal Dorda, Ph.D.
67
Regresní a korelační analýza 2) Uvažujme polynomickou regresi, vyrovnávací křivka (její odhad) je vyjádřena ve tvaru: Yi b0 b1 xi b2 xi2 ... bn xin .
Jelikož se opět jedná o regresní model lineární v parametrech, můžeme pro odhad koeficientů použít metodu nejmenších čtverců.
Ing. Michal Dorda, Ph.D.
68
Regresní a korelační analýza n
Tedy i 1
Yi Yi
Y b 2
n
i 1
i
0
n 2 i
b1 xi b2 x ... bn x 2 i
min .
Hledáme minimum, položíme parciální derivace rovny nule : n d 2 n 1 2 Yi b0 b1 xi b2 xi ... bn xi 1 0, db0 i 1
n d 2 n 1 2 Yi b0 b1 xi b2 xi ... bn xi xi 0, db1 i 1
n d 2 n 1 2 Yi b0 b1 xi b2 xi ... bn xi xi2 0, db2 i 1
n d 2 n 1 2 Yi b0 b1 xi b2 xi ... bn xi xin 0. dbn i 1
Ing. Michal Dorda, Ph.D.
69
Regresní a korelační analýza Po úpravách dostaneme : n
n
n
n
i 1
i 1
i 1
i 1
2 n Y nb b x b x ... b x i 0 1 i 2 i n i , n
n
n
n
n
n 1 Y x b x b x b x ... b x , i i 0 i 1 2 n i 2 i
3 i
i 1
i 1
i 1
i 1
i 1
n
n
n
n
n
i 1
i 1
i 1
i 1
i 1
2 2 3 4 n2 Y x b x b x b x ... b x , i i 0 i 1 i 2 i n i
n
n
n
Yi x b0 x b1 x i 1
n i
i 1
n i
i 1
n 1 i
n
b2 x i 1
n2 i
n
... bn xi2 n . i 1
Získali jsme soustavu (n+1) rovnic s (n+1) neznámými, řešením získáme odhady koeficientů regresního modelu. Ing. Michal Dorda, Ph.D.
70
Regresní a korelační analýza 600
Maximální rychlost [km/h]
500 y = -1E-13x6 + 2E-10x5 - 1E-07x4 + 4E-05x3 - 0,0054x2 + 1,0238x + 122,83 R² = 0,9911 400
300
200
100
0
0
100
200
300
400
500
600
700
800
Výkon motoru [kW]
Ing. Michal Dorda, Ph.D.
71
Regresní a korelační analýza 3) Uvažujme hyperbolickou regresi, vyrovnávací křivka (její odhad) je vyjádřena ve tvaru: b1 Yi b0 . xi
Jelikož se opět jedná o regresní model lineární v parametrech, můžeme pro odhad koeficientů použít metodu nejmenších čtverců. Ing. Michal Dorda, Ph.D.
72
Regresní a korelační analýza 2
b1 Tedy Yi b0 min . xi i 1 i 1 Hledáme minimum, položíme parciální derivace rovny nule : n
Yi Yi
n
2
1
d b1 2 Yi b0 1 0, db0 xi i 1 n
1
d b1 2 Yi b0 db1 xi i 1 n
1 0. xi
Ing. Michal Dorda, Ph.D.
73
Regresní a korelační analýza Rovnice upravíme : n
n
n
b1 Yi b0 0, i 1 i 1 i 1 xi n
Yi n b0 n b1 2 0, i 1 xi i 1 xi i 1 xi n
n
1 1) Yi nb0 b1 0, i 1 i 1 xi n
n n Yi 1 1 2) b0 b1 2 0. i 1 xi i 1 xi i 1 xi Ing. Michal Dorda, Ph.D.
74
Regresní a korelační analýza Postupně vyjádříme: n
n
1 Yi b1 i 1 xi z 1) b0 i 1 a b1 n n
n
Y nb
n Yi 1 b 1 2 x i 1 i i 1 xi z 2) b0 a b1 n 1 i 1 xi
i
i 1
n
1 i 1 xi
0
,
n
n Yi 1 b 0 x i 1 i i 1 xi . n 1 2 i 1 xi
Ing. Michal Dorda, Ph.D.
75
Regresní a korelační analýza Jelikož musí platit : n
n
1 Yi b1 i 1 i 1 xi n
Také platí :
n
n Yi 1 b1 2 i 1 xi i 1 xi , n 1 i 1 xi
dostaneme po úpravách :
n Yi 1 Yi nb0 b0 i 1 xi i 1 xi i 1 , n n 1 1 2 x x i 1 i i 1 i
potom: n
n
b1
n Yi n 1 n Yi i 1 xi i 1 i 1 xi
1 n 1 n 2 i 1 xi i 1 xi n
2
n
n
.
b0
Ing. Michal Dorda, Ph.D.
n
n Yi n 1 1 Yi 2 i 1 i 1 xi i 1 xi i 1 xi
1 n 1 n 2 i 1 xi i 1 xi n
2
76
.
Regresní a korelační analýza 4) Uvažujme logaritmickou regresi, vyrovnávací křivka (její odhad) je vyjádřena ve tvaru: Yi b0 b1 log xi .
Jelikož se opět jedná o regresní model lineární v parametrech, můžeme pro odhad koeficientů použít metodu nejmenších čtverců. Ing. Michal Dorda, Ph.D.
77
Regresní a korelační analýza n
Tedy i 1
Yi Yi
Y b 2
n
i 1
i
0 b1 log xi min . 2
Hledáme minimum, položíme parciální derivace rovny nule : n d 1 2 Yi b0 b1 log xi 1 0, db0 i 1 n d 1 2 Yi b0 b1 log xi log xi 0. db1 i 1
Ing. Michal Dorda, Ph.D.
78
Regresní a korelační analýza Úpravami dostaneme : n
n
i 1
i 1
1) Yi nb0 b1 log xi 0, n
n
n
i 1
i 1
i 1
2) Yi log xi b0 log xi b1 log 2 xi 0.
Ing. Michal Dorda, Ph.D.
79
Regresní a korelační analýza Postupně vyjádříme: n
z 1) b0
n
Y b log x i 1
i
1
i
i 1
n
n
a b1
Y nb i 1 n
i
log x i 1
n
z 2) b0
n
2 Y log x b log xi i i 1 i 1
i 1
n
log xi
0
,
i
n
a b1
i 1
Ing. Michal Dorda, Ph.D.
n
Y log x b log x i 1
i
i
0
i
i 1
.
n
2 log xi i 1
80
Regresní a korelační analýza Jelikož platí : n
n
i 1
i 1
Yi b1 log xi n
n
n
i 1
i 1
2 Y log x b log xi i i 1 n
log x
,
i
i 1
získáme : b1
n
n
n
i 1
i 1
i 1 2
n Yi log xi log xi Yi n n log xi log xi i 1 i 1 n
.
2
Ing. Michal Dorda, Ph.D.
81
Regresní a korelační analýza Dále platí : n
Y nb i 1 n
i
n
0
log xi
n
Y log x b log x i 1
i
i
0
i
i 1
,
n
2 log xi
i 1
i 1
získáme : n
b0
Y log i 1
i
2
n
n
i 1
i 1 2
xi Yi log xi log xi
n n log xi log xi i 1 i 1 n
.
2
Ing. Michal Dorda, Ph.D.
82
Regresní a korelační analýza 500 y = 78,06ln(x) - 153,6 R² = 0,9506
Maximální rychlost [km/h]
400
300
200
100
0
0
100
200
300
400
500
600
700
800
Výkon motoru [kW]
Ing. Michal Dorda, Ph.D.
83
Regresní a korelační analýza 5) Uvažujme exponenciální regresi, vyrovnávací křivka (její odhad) je vyjádřena ve tvaru: Yi b0 b1xi .
Tento model není lineární v parametrech, použití metody nejmenších čtverců je problematické, výstupem jsou nelineární rovnice. V tomto případě užijeme linearizující transformaci. Ing. Michal Dorda, Ph.D.
84
Regresní a korelační analýza Postupně upravíme : Yi b0 b1xi / log, logYi log b0 b1xi , logYi log b0 xi log b1.
Pokud A log b0 , B log b1 , potom lze psát : logYi A B xi .
Nyní již můžeme použít metodu nejmenších čtverců, ale v logaritmickém tvaru: n 2 n log Yi log Yi log Yi A Bxi 2 min .
i 1
i 1
Ing. Michal Dorda, Ph.D.
85
Regresní a korelační analýza Hledáme minimum, položíme parciální derivace rovny nule : n d 1 2 log Yi A Bxi 1 0, dA i 1 n d 1 2 log Yi A Bxi xi 0. dB i 1 Upravíme : n
n
i 1
i 1
1) log Yi nA B xi 0, n
n
n
i 1
i 1
i 1
2) xi log Yi A xi B xi2 0. Ing. Michal Dorda, Ph.D.
86
Regresní a korelační analýza Postupně vyjádříme: n
z 1) A
n
n
log Y B x i
i 1
i 1
i
n
aB
log Y nA i
i 1
x i 1
n
z 2) A
n
x log Y B x i 1
i
i
n
xi
i 1
2 i
,
n
i
n
aB
n
x log Y A x i 1
i 1
i
i
n
2 x i
i 1
i
.
i 1
Ing. Michal Dorda, Ph.D.
87
Regresní a korelační analýza Jelikož musí platit : n
n
i 1
i 1
log Yi B xi n
n
n
i 1
i 1
2 x log Y B x i i i n
x i 1
,
i
dostaneme : B
n
n
n
i 1
i 1
i 1
n xi log Yi log Yi xi n xi2 xi i 1 i 1 n
n
2
log b1.
Ing. Michal Dorda, Ph.D.
88
Regresní a korelační analýza Dále musí platit : n
n
n
log Y nA x log Y A x i
i 1
n
xi
i 1
i
i
i 1
i
n
2 x i
i 1
,
i 1
tedy : n
A
n
n
n
log Y x x x log Y i 1
i
i 1
2 i
i 1
i
i 1 2
i
n n x xi i 1 i 1 n
i
log b0 .
2 i
Ing. Michal Dorda, Ph.D.
89
Regresní a korelační analýza • Jelikož jsme použili metodu nejmenších čtverců v logaritmické formě, je nutno přistoupit ke stanovení indexu determinace rovněž v logaritmické formě:
n
R2
SSYˆ SSY
i 1 n
log Yˆi log Y
2
log Y log Y i 1
.
2
i
Ing. Michal Dorda, Ph.D.
90
Regresní a korelační analýza • Excel používá při exponenciální regresi jiný zápis regresní funkce: Yi b0 eb1xi .
Označme b1 eb . Jelikož platí a y x log a x y , můžeme psát: 1
b1 ln b1 .
Ing. Michal Dorda, Ph.D.
91
Regresní a korelační analýza 500
y = 171,83e 0,0012x R² = 0,8554
Maximální rychlost [km/h]
400
300
200
100
0
0
100
200
300
400
500
600
700
800
Výkon motoru [kW] Ing. Michal Dorda, Ph.D.
92
Regresní a korelační analýza • Doposud jsme se zabývali vystižením závislosti vysvětlované proměnné na jedné vysvětlující proměnné, tedy jednoduchou regresí. • Podívejme se nyní na vícenásobnou regresi, vysvětlovaná proměnná Yi závisí na několika vysvětlujících proměnných x1i , x2i ,..., xni. • Pro jednoduchost se zaměřme pouze na závislost na dvou vysvětlujících proměnných. Ing. Michal Dorda, Ph.D.
93
Regresní a korelační analýza • Odhad regresní funkce můžeme zapsat ve tvaru: Yi b0 b1 x1i b2 x2i , kde parametry b1 a b2 se nazývají dílčí regresní koeficienty a udávají, jak se průměrně změní vysvětlovaná proměnná při jednotkové změně příslušné vysvětlující proměnné.
Ing. Michal Dorda, Ph.D.
94
Regresní a korelační analýza • Jelikož se jedná o model lineární v parametrech, lze použít metodu nejmenších čtverců, tedy: n n 2 Yi Yi Yi b0 b1 x1i b2 x2i 2 min, i 1
i 1
n d 1 2 Yi b0 b1 x1i b2 x2i 1 0, db0 i 1 n d 1 2 Yi b0 b1 x1i b2 x2i x1i 0, db1 i 1 n d 1 2 Yi b0 b1 x1i b2 x2i x2i 0. db2 i 1 Ing. Michal Dorda, Ph.D.
95
Regresní a korelační analýza • Po úpravách získáme: n
Y i 1
i
Y x i 1
n
i 1
i 1
nb0 b1 x1i b2 x2i ,
n
i
n
1i
n
n
n
b0 x1i b1 x b2 x1i x2i , 2 1i
i 1
i 1
n
n
n
n
i 1
i 1
i 1
i 1
i 1
2 Y x b x b x x b x i 2i 0 2i 1 1i 2i 2 21i .
• Řešením této soustavy získáme odhady regresních koeficientů. Ing. Michal Dorda, Ph.D.
96
Regresní a korelační analýza • Pro posouzení a srovnání individuálního vlivu jednotlivých vysvětlujících proměnných na vysvětlovanou proměnnou zavádíme normalizované regresní koeficienty – B-koeficienty: sx sx 2 B1 b1 , B2 b2 , sY sY kde sx , sx a sY jsou výběrové směrodatné odchylky jednotlivých proměnných. 1
1
2
Ing. Michal Dorda, Ph.D.
97
Regresní a korelační analýza • Známe-li jednoduché korelační koeficienty, můžeme psát: rx ,Y rx ,Y rx , x rx ,Y rx ,Y rx , x . B1 , B2 2 2 1
2
1 rx1 , x2
1
2
2
1
1
2
1 rx1 , x2
• B-koeficienty zavádíme, abychom mohli srovnat intenzity vlivu jednotlivých vysvětlujících proměnných na vysvětlovanou proměnnou. Ing. Michal Dorda, Ph.D.
98
Regresní a korelační analýza • Př. Uvažujme závislost maximální rychlosti osobního automobilu v [km/h] na výkonu motoru [kW] a točivém momentu [Nm]. Výpočtem jsme zjistili dílčí regresní koeficienty: km/h km/h . b1 0,78 a b2 0,47 kW
Nm
• Zajímá nás, vliv které vysvětlující proměnné je větší. Ing. Michal Dorda, Ph.D.
99
Regresní a korelační analýza • Dílčí koeficienty nelze přímo srovnat, protože jsou v jiných jednotkách. Proto je pro srovnání nutno provést výpočet B-koeficientů. • Uvažujme, že známe výběrové směrodatné odchylky jednotlivých proměnných, tedy: sY 87,24 km/h, sx 101,28 kW, sx 169,29 Nm . 1
2
Ing. Michal Dorda, Ph.D.
100
Regresní a korelační analýza • Dosazením a výpočtem dostaneme: s x1
101,28 B1 b1 0,78 0,90, xY 87,24 sx 2 169,29 B2 b2 0,47 0,91. xY 87,24
• Z výsledků vidíme, že vliv obou vysvětlujících proměnných na maximální rychlost je zhruba stejný. Ing. Michal Dorda, Ph.D.
101
Regresní a korelační analýza • Pro stanovení síly závislostí užíváme koeficienty dílčí korelace nebo koeficienty vícenásobné korelace. • Koeficienty dílčí korelace vyjadřují sílu závislosti mezi vysvětlovanou proměnnou a příslušnou vysvětlující proměnnou oproštěnou od vlivu druhé vysvětlující proměnné.
Ing. Michal Dorda, Ph.D.
102
Regresní a korelační analýza • Příslušné dílčí korelační koeficienty stanovíme dle vztahů: rx1 ,Y x2 rx2 ,Y x1
rx1 ,Y rx2 ,Y rx1 , x2
1 r 1 r 2 x2 ,Y
2 x1 , x2
rx2 ,Y rx1 ,Y rx1 , x2
1 r 1 r 2 x1 ,Y
2 x1 , x2
,
.
Ing. Michal Dorda, Ph.D.
103
Regresní a korelační analýza • Koeficient vícenásobné korelace vyjadřuje sílu závislosti vysvětlované proměnné na všech vysvětlujících proměnných. Určíme ho podle vztahu: rx1 , x2 ,Y
rx21 ,Y 2rx1 ,Y rx2 ,Y rx1 , x2 rx22 ,Y 1 r
2 x1 , x2
Ing. Michal Dorda, Ph.D.
.
104