Regresní analýza Korelační analýza Nelineární regresní funkce
Regresní a korelační analýza Přednáška STATISTIKA II - EKONOMETRIE
Jiří Neubauer Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:
[email protected]
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Regresní analýza
Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu) této závislosti pomocí vhodné funkce vystihnout pomocí regresní funkce průběh (trend) závislosti mezi X a Y na základě znalosti dvojic empirických hodnot [xi , yi ], kde i = 1, 2, . . . , n.
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Volba regresní funkce Hledáme regresní funkci Y = f (X , β0 , β1 , . . . , βp ) = E (Y |X ), kde βj , j = 0, 1, . . . , p jsou regresní parametry. Regresní funkce charakterizuje závislost podmíněných středních hodnot náhodné veličiny Y na hodnotách náhodné veličiny X . Na Y působí kromě X i další vlivy, proto se budou empirické hodnoty yi více či méně lišit od teoretické hodnoty Yi , tj. platí yi = Yi + i , i = 1, 2, . . . , n. Lineární regresní funkce má tvar Y = β0 f0 (X ) + β1 f1 (X ) + · · · + βp fp (X ), kde fj (X ), j = 0, 1, . . . , p se nazývají regresory (obvykle f0 (X ) = 1 → konstanta), počet regresorů je obecně c = p + 1. Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Volba regresní funkce
Některé typy lineárních regresních funkcí: přímková regrese Y = β0 + β1 X , hyperbolická regrese Y = β0 + βX1 , logaritmická regrese Y = β0 + β1 ln X , parabolická regrese Y = β0 + β1 X + β2 X 2 polynomická regrese Y = β0 + β1 X + · · · + βp X p Některé typy nelineárních regresních funkcí: exponenciální regrese Y = β0 β1X , mocninná regrese Y = β0 X β1 .
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Volba regresní funkce Označíme-li odhady parametrů β0 , β1 , . . . , βp jako b0 , b1 , . . . , bp , dostaneme odhady lineárních regresních modelů ve tvaru yˆ = f (x, b0 , b1 , . . . , bp ), nazveme je výběrová regresní funkce. (např. pro přímkovou regresi má výběrová regresní funkce tvar yˆ = b0 + b1 x) S využitím této výběrové regresní funkce, tzv. vyrovnané hodnoty, můžeme vztah y = Y + vyjádřit ve tvaru y = yˆ + e, kde e = y − yˆ je tzv. reziduum, resp. ve tvaru yi = yˆi + ei , i = 1, . . . , n, kde ei = yi − yˆi je reziduum pro i-té měření.
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Klasický regresní model Nejjednodušší z lineárních regresních modelů je tzv. klasický regresní model hodnoty X jsou volené - nastavované (X není náhodná veličina), regresní funkce je lineární vzhledem k parametrům, soustava normálních rovnic má právě 1 řešení ⇔ matice hodnot regresorů fj (x), j = 0, 1, 2, . . . , p, má hodnost p + 1 ⇔ sloupce matice hodnot regresorů jsou lineárně nezávislé náhodné složky i jsou nezávislé a mají normální rozdělení N(0, σ 2 ) ⇒ E (i ) = 0, D(i ) = σ 2 , i = 1, 2, . . . , n. Poznámka: z předpokladu o rozdělení náhodných složek i vyplývá, že v klasickém regresním modelu mají pozorované hodnoty yi vysvětlované proměnné Y normální rozdělení se středními hodnotami µi = E (yi |xi ) s rozptylem σ 2 = D(i ) = D(yi |xi ), hodnoty yi jsou navzájem nezávislé. Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Odhady regresních parametrů
Cílem metod určení parametrů je odhad parametrů zvolené regresní funkce tak, aby se hodnoty yˆi (tzv. vyrovnané hodnoty) náhodné veličiny Y ležící na této regresní funkci co nejtěsněji přimykaly pozorovaným (empirickým) hodnotám yi pro dané hodnoty xi náhodné veličiny X .
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Odhady regresních parametrů Základní metodou určení parametrů regresní funkce je metoda nejmenších čtverců (MNČ). Tato metoda vychází z požadavku, aby součet čtverců odchylek empirických hodnot yi a vyrovnaných hodnot yˆi (reziduí) – reziduální součet čtverců SR – byl minimální, tj. min Sr = min
n X
(yi − yˆi )2 = min
i=1
n X
ei2 .
i=1
Z matematiky je známo, že nutnou podmínkou pro existenci extrému funkce 2 a více proměnných je nulovost prvních parciálních derivací, tj. ∂SR ∂SR ∂SR = = ··· = = 0, ∂β0 ∂β1 ∂βp podmínku postačující pro minimum nemusíme vyšetřovat, neboť funkce SR je ryze konvexní. Dostáváme p + 1 rovnic (tzv. normálních rovnic), jejichž řešením obdržíme odhady parametrů regresní funkce b0 = βˆ0 , b1 = βˆ1 , . . . , bp = βˆp . Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Odhady regresních parametrů
Regresní funkce určená metodou nejmenších čtverců má tyto vlastnosti: Pn ˆi ) = 0 i=1 (yi − y prochází vždy bodem [x, y ] odhad regresní funkce MNČ je nejlepším nestranným odhadem
Jiří Neubauer
Regresní a korelační analýza
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Regresní analýza Korelační analýza Nelineární regresní funkce
Odhady regresních parametrů Regresní přímka: yˆ = b0 + b1 x Sr =
n X
(yi − yˆi )2 =
i=1
n X
(yi − (b0 + b1 xi ))2 =
i=1
n X
(yi − b0 − b1 xi )2
i=1 n
X ∂Sr =2 (yi − b0 − b1 xi )(−1) = 0 ∂b0 i=1
∂Sr =2 ∂b1
n X
(yi − b0 − b1 xi )(−xi ) = 0
i=1
dostáváme soustavu normálních rovnic n n X X b0 n + b1 xi = yi b0
n X
xi + b1
i=1
i=1
n X
n X
i=1
i=1 Jiří Neubauer
xi2 =
xi yi
i=1 Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Odhady regresních parametrů
Soustavu vyřešíme např. Cramerovým pravidlem a dostaneme odhady parametrů Pn Pn Pn Pn xi2 − i=1 xi i=1 xi yi yi b0 = i=1 Pi=1 2 Pn n n i=1 xi2 − i=1 xi Pn Pn Pn n i=1 xi yi − i=1 xi i=1 yi b1 = 2 Pn Pn n i=1 xi2 − i=1 xi
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Odhady regresních parametrů – maticové vyjádření Regresní model je možné zapsat ve tvaru Y = Xβ + kde Y = (Y1 , Y2 . . . Yn )0 , β = (β0 , β1 , . . . , βp )0 , = (1 , 2 , . . . , n )0 , f0 (x1 ) f1 (x1 ) . . . fp (x1 ) f0 (x2 ) f1 (x2 ) . . . fp (x2 ) X= .. .. .. .. . . . . f0 (xn ) f1 (xn ) . . .
fp (xn )
je matice regresorů. V případě přímkové regrese je matice regresorů rovna 1 x1 1 x2 X= . . .. .. 1 xn Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Odhady regresních parametrů – maticové vyjádření
Odhady parametrů získané MNČ mají tvar b = (X0 X)−1 X0 Y
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Odhady v lineární regresi Odhady b0 , b1 , . . . , bp parametrů β0 , β1 , . . . , βp získané MNČ jsou jejich nestranné odhady, tedy platí E (bj ) = βj pro j = 0, 1, . . . , p. Představu o tom, jaké chyby můžeme při bodových odhadech očekávat, poskytují směrodatné odchylky – směrodatné chyby těchto bodových odhadů s(bj ). K jejich určení potřebujeme znát rozptyl náhodných složek D(i ) = σ 2 , který je neznámý. Odhadneme jej pomocí reziduálního rozptylu n 1 X SR 2 = (yi − yˆi )2 , sR = n−c n−c i=1
kde c je počet neznámých (odhadovaných) regresních parametrů, SR je reziduální součet čtverců. Maticově SR = Y0 Y − b0 X0 Y.
Jiří Neubauer
Regresní a korelační analýza
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Regresní analýza Korelační analýza Nelineární regresní funkce
Odhady v lineární regresi
Pro regresní přímku je Sr =
n X
(yi − b0 − b1 x) = · · · =
i=1
n X
yi2 − b0
i=1
n X
yi − b1
i=1
i=1
potom 1 sR2 = n−2
n X
yi2 − b0
n X
yi − b1
n X
n X
! xi yi
i=1
i=1
i=1
Jiří Neubauer
Regresní a korelační analýza
.
x i yi ,
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Intervalové odhady Jsou-li splněny předpoklady klasického regresního modelu, mají potom regresní koeficienty bj normální rozdělení, tedy platí bj ∼ N(βj , D(bj )), kde rozptyly D(bj ) jsou rovny D(b0 ) = σ 2 · h00 , D(b1 ) = σ 2 · h11 , . . . , D(bp ) = σ 2 · hpp , pričemž h00 , h11 , . . . , hpp jsou prvky na hlavní diagonále matice H = (X0 X)−1 . Rozptyly odhadů regresních parametrů musíme odhadnout q ˆ j ) = sR2 · hjj ⇒ s(bj ) = s 2 · hjj D(b R
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Intervalové odhady
Pro regresní přímku yˆ = b0 + b1 x dostaneme s Pn 2 i=1 xi s(b0 ) = sR 2 Pn P n n i=1 xi2 − i=1 xi s n s(b1 ) = sR 2 Pn Pn 2 n i=1 xi − i=1 xi
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Intervaly spolehlivosti pro regresní parametry βj Východiskem pro konstrukci intervalů spolehlivosti parametrů βj při platnosti předpokladů klasického regresního modelu jsou statistiky tj =
bj − βj ∼ t(n − c) pro j = 0, 1, . . . p, s(bj )
kde bj je bodový odhad parametru βj , s(bj ) je směrodatná chyba tohoto odhadu. Oboustranný interval spolehlivosti má potom tvar bj − t1−α/2 (n − c) · s(bj ) < βj < bj + t1−α/2 (n − c) · s(bj ). Pokud tento interval pro určitý parametr obsahuje nulu, lze usoudit na hladině významnosti α, že tento parametr je statisticky nevýznamný.
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Testy hypotéz o významnosti regresních parametrů β
Statisticky významným parametrem βj se rozumí nenulový parametr, proto budeme testovat H : βj = 0 → A : βj 6= 0. Testovým kritériem je statistika tj =
bj − βj , s(bj )
kritický obor je Wα : |tj | ≥ t1−α/2 (n − c)
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Intervalové odhady pro regresní funkci
Intervaly spolehlivosti pro regresní funkci Yi (podmíněné střední hodnoty) jsou založené na tom, že při platnosti předpokladů klasického regresního modelu jsou statistiky ti =
yˆi − Yi ∼ t(n − c) pro s(ˆ yi )
i = 1, 2, . . . , n,
kde yˆi je bodový odhad podmíněné střední hodnoty Yi pro hodnotu xi , s(ˆ yi ) je směrodatná chyba (odchylka) bodového odhadu yˆi . Odtud lze klasicky odvodit vztah pro oboustranný intervalový odhad. yˆi − t1−α/2 (n − c) · s(ˆ yi ) < Yi < yˆi + t1−α/2 (n − c) · s(ˆ yi ).
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Intervalové odhady pro regresní funkci
Rozptyl vyrovnaných hodnot je D(ˆ yi ) = σ 2 x0i Hxi . kde xi = (1, f1 (xi ), f2 (xi ), . . . , fp (xi ))0 je vektor hodnot regresorů pro hodnotu xi . Pro rozptyl resp. směrodatnou chybu odhadu podmíněné střední hodnoty Yi , tj. pro s 2 (ˆ yi ) platí q s 2 (ˆ yi ) = sR2 x0i Hxi ⇒ s(ˆ yi ) = sR x0i Hxi .
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Intervalové odhady pro regresní funkci
Pro regresní přímku yˆ = b0 + b1 x dostáváme v u 2 Pn u xi q u1 xi − i=1 n s(ˆ yi ) = sR x0i Hxi = sR u t +P Pn 2 n n 2 − ( i=1 xi ) x i=1 i n
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Intervalové odhady pro individuální předpovědi Pro rozptyl individuálních hodnot platí, že je o σ 2 větší než rozptyl vyrovnaných hodnot, tedy platí D(ˆ yi0 ) = σ 2 + σ 2 x0i Hxi = σ 2 (1 + x0i Hxi ). Při určování odhadů individuálních hodnot Yi0 při určování odhadů individuálních hodnot yˆi0 ve tvaru q s 2 (ˆ yi0 ) = σR2 (1 + x0i Hxi ) ⇒ s(ˆ yi0 ) = sR 1 + x0i Hxi . Interval spolehlivosti pro individuální předpověď Yi0 je yˆi0 − t1−α/2 (n − c) · s(ˆ yi0 ) < Yi0 < yˆi0 + t1−α/2 (n − c) · s(ˆ yi0 )
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Intervalové odhady pro individuální předpovědi
Pro regresní přímku yˆ = b0 + b1 x dostáváme v u 2 Pn u xi q u xi − i=1 n 1 s(ˆ yi0 ) = sR 1 + x0i Hxi = sR u t1 + + P Pn 2 n n 2 − ( i=1 xi ) x i=1 i n
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Test o významnosti regresního modelu Zřejmě platí, že yi − y = (yi − yˆi ) + (ˆ yi − y ). Lze ukázat, že také platí n X
(yi − y )2 =
i=1
n X
(yi − yˆi )2 +
i=1
n X
(ˆ yi − y )2 → SY = SR + ST ,
i=1
kde celkový součet čtverců SY = y0 y − ny 2 SY =
n X
(yi − y )2 = n · s 2 (y ), kde s 2 (y ) =
i=1
n 1X (yi − y )2 n i=1
reziduální součet čtverců SR = y0 y − b0 X0 y SR =
n X
(yi − yˆi )2 = (n − c) · sR2 (y ), kde sR2 (y ) =
i=1
i=1
0
0
teoretický součet čtverců ST = b X y − ny ST =
n 1 X (yi − yˆi )2 n−c
n X
2
(ˆ yi − y )2 = n · s 2 (ˆ y ), kde s 2 (ˆ y) =
i=1
n 1X (ˆ yi − y )2 n i=1
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Test o významnosti regresního modelu Pro regresní přímku yˆ = b0 + b1 x dostáváme SR =
n X
(yi − yˆi )2 =
i=1
=
n X i=1 n X
n X
(yi − b0 − b1 xi )2 = · · · =
i=1
yi2 − b0
n X
yi − b1
i=1
n X
x i yi
i=1 n X
n
1X 2 ST = (ˆ yi − yˆi )2 = b0 + b1 xi − yi n i=1 i=1 i=1 !2 n n n X X 1 X = b0 yi + b1 xi yi − yi n i=1 i=1 i=1 !2 n n X 1 X 2 yi − yi SY = SR + ST = · · · = n i=1
Jiří Neubauer
i=1
Regresní a korelační analýza
! = ··· =
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Test o významnosti regresního modelu
teoretický součet čtverců ST je ta část celkového součtu čtverců SY , která je vysvětlená zvolenou regresní funkcí reziduální součet čtverců SR je ta část celkového součtu čtverců SY , která zvolenou regresní funkcí vysvětlená není
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Test o významnosti regresního modelu
Test o významnosti modelu → celkový F -test H : β0 = k, k 6= 0, β1 = β2 = · · · = βp = 0 A : βj 6= 0 pro alespoň jedno j = 1, 2, . . . , p Testové kritérium je statistika F =
ST (y ) c−1 SR (y ) n−c
∼ F (c − 1, n − c),
kde c = p + 1 je počet odhadovaných parametrů. Kritický obor je Wα : F > F1−α (c − 1, n − c).
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Test o významnosti regresního modelu Jsou-li celkový F -test i všechny t-testy jsou statisticky významné, model se považuje za vhodný k vystižení variability proměnné Y (to však ještě neznamená, že je model správně navržen). Jsou-li celkový F -test i všechny t-testy jsou statisticky nevýznamné, model se považuje za nevhodný, protože nevystihuje variabilitu proměnné Y . Je-li celkový F -test statisticky významný, ale některé t-testy vychází nevýznamné, model se považuje za vhodný, ale provádí se zpravidla vypuštění nevýznamných parametrů. Je-li celkový F -test statisticky významný, ale všechny t-testy vychází nevýznamné – paradox: formálně model jako celek vyhovuje, ale žádný člen modelu sám o sobě významný není – jde o důsledek tzv. multikolinearity, tj. lineární závislosti mezi jednotlivými regresory.
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Těsnost závislosti
Těsností závislosti rozumíme stupeň, s jakým se zkoumaná závislost blíží k funkční závislosti. Vztah mezi proměnnými X a Y může mít různou intenzitu, od úplné nezávislosti až po pevnou (funkční) závislost. Představu o síle závislosti můžeme získat z bodového diagramu (podle rozložení bodů okolo regresní křivky) pomoci měr těsnosti závislosti
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Těsnost závislosti
2 Poměr determinace pyx (viz ANOVA) 2 pyx =
SM (y ) 2 , p ∈ h0, 1i SC (y ) yx
udává, jaké procento variability proměnné Y je vysvětlené proměnnou X (jaké procento meziskupinové variability se podílí na celkové variabilitě). Tento poměr není závislý na zvolené regresní funkci, ale vyžaduje roztříděná data (korelační tabulka).
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Těsnost závislosti
2 Index determinace iyx 2 iyx =
ST (y ) 2 , i ∈ h0, 1i SY (y ) yx
udává, jaké procento variability proměnné Y lze vysvětlit zvoleným regresním modelem. Tento poměr vychází ze zvolené regresní funkce. V případě, kdy regresní funkce je přímka, použijeme název 2 koeficient determinace a značíme jej ryx .
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Těsnost závislosti
Čím více se i 2 blíží k 1, tím považujeme danou závislost za silnější, a tedy dobře vystiženou použitou regresní funkcí; naopak čím více se bude blížit k 0, tím považujeme danou závislost za slabší a regresní funkci za méně výstižnou. Nízká hodnota i 2 ještě nemusí znamenat nízký stupeň závislosti mezi proměnnými, ale může to signalizovat chybnou volbu regresní funkce. Kritéria vhodnosti použité regresní funkce pro popis závislosti: čím je i 2 blíže k 1, tím vhodnější je použitý model obecně platí i 2 ≤ p 2 , potom čím je i 2 blíže p 2 tím je použitý model lepší
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Těsnost závislosti
2 iyx představuje výběrový index determinace, který lze použít jako odhad 2 ˆ2 2 teoretického indexu determinace Iyx (Iyx = iyx ). Tento odhad je asymptoticky nestranný, navíc ale tento odhad pro malé výběry nadhodnocuje skutečnou těsnost závislosti, záleží i na počtu parametrů regresní funkce. Provádíme proto korekci 2 ikor = 1 − (1 − i 2 )
n−1 , n−c
tento odhad je již nestranný.
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Vícenásobná regrese Regresní model obsahující více než jednu vysvětlující proměnnou se nazývá model vícenásobné regrese. Omezíme se na model regrese se dvěma nezávisle proměnnými. Nechť Yi = β0 + β1 xi + β2 zi + i ,
i = 1, . . . , n.
Matice regresorů má tvar X=
1 1 .. .
x1 x2 .. .
z1 z2 .. .
1 xn
zn
Jiří Neubauer
.
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Volba regresní funkce Odhady v lineární regresi Těsnost závislosti Vícenásobná regrese
Vícenásobná regrese
Odhady určíme podle vztahu b = (X0 X)−1 X0 Y, sR2 =
1 (Y0 Y − b0 X0 Y) , n−c
kde Y = (Y1 , Y2 , . . . , Yn )0 . Testy hypotéz o významnosti regresních koeficientů a celkového modelu se provádějí podobně jako u lineární regrese s jednou vysvětlující proměnou.
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Korelační koeficient Koeficient mnohonásobné korelace
Korelační analýza
V regresní analýze jsme se doposud zabývali jednostrannými závislostmi a popisovali jsme formu závislosti vysvětlované proměnné Y na vysvětlující (ale nenáhodné, pevné, nastavené) proměnné X . Oboustrannými závislostmi mezi náhodnými veličinami X a Y se věnuje korelační analýza.
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Korelační koeficient Koeficient mnohonásobné korelace
Korelační koeficient Definice Korelační koeficient náhodných veličin X a Y je definován vztahem C (X , Y ) C (X , Y ) p . ρ(X , Y ) = p = σ(X )σ(Y ) D(X ) D(Y ) Pro korelační koeficient platí: −1 ≤ ρ(X , Y ) ≤ 1, jestliže jsou X a Y nezávislé, pak ρ(X , Y ) = 0, ρ(X , Y ) = 1 právě když Y = aX + b, kde a > 0, ρ(X , Y ) = −1 právě když Y = aX + b, kde a < 0.
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Korelační koeficient Koeficient mnohonásobné korelace
Dvourozměrné normální rozdělení Definice Má-li náhodný vektor X = (X , Y )0 sdruženou hustotu pravděpodobnosti 1 p 2πσ1 σ2 1 − ρ2 „ «ff (x − µ1 )2 (y − µ2 )2 2ρ(x − µ1 )(y − µ2 ) 1 × exp − + − 2(1 − ρ2 ) σ1 σ2 σ12 σ22
f (x, y ) =
pro x, y ∈ R, pak říkáme, že má dvourozměrné normální rozdělení s parametry µ1 , µ2 , σ1 , σ2 , ρ. Věta Nechť X = (X , Y )0 má dvourozměrné normální rozdělení s parametry µ1 , µ2 , σ1 , σ2 , ρ, potom X ∼ N(µ1 , σ12 ) a Y ∼ N(µ2 , σ22 ), ρ je korelační koeficient X a Y . Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Korelační koeficient Koeficient mnohonásobné korelace
Dvourozměrné normální rozdělení
Obrázek: Graf dvourozměrného normálního rozdělení Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Korelační koeficient Koeficient mnohonásobné korelace
Korelační koeficient
Empirickým protějškem korelačního koeficientu ρ výběrový korelační koeficient (koeficient korelace) r r=
sxy , sx · sy
Pn 1 kde sxy = n−1 i=1 (xi − x)(yi − y ) je výběrová kovariance, sx a sy jsou výběrové směrodatné odchylky. Korelační koeficient r lze vyjádřit ve tvaru Pn Pn Pn n i=1 xi yi − i=1 xi i=1 yi r=q P 2 q Pn 2 Pn Pn n x n i=1 xi2 − n i=1 yi2 − i i=1 i=1 yi
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Korelační koeficient Koeficient mnohonásobné korelace
Korelační koeficient
Koeficient determinace je pro závislost popsanou regresní přímkou 2 zvláštním případem indexu determinace, tedy platí ryx = SSYT . Tato míra 2 těsnosti závislosti má zcela stejné vlastnosti jako iyx . 2 Výběrový koeficient determinace ryx lze použít jako odhad teoretického koeficientu determinace ρ2 v základním souboru. Úpravou 2 rkor = 1 − (1 − r 2 )
n−1 n−2
získáme nestranný odhad ρ2 .
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Korelační koeficient Koeficient mnohonásobné korelace
Test významnosti korelačního koeficientu
H : ρ = 0 → A : ρ 6= 0 Testové kritérium je statistika t=√
√ r n − 2 ∼ t(n − 2). 1 − r2
Kritický obor je dán Wα : |t| > t1−α/2 (n − 2). Pokud hodnota testového kritéria padne do kritického oboru, podařila se prokázat lineární závislost mezi sledovanými proměnnými.
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Korelační koeficient Koeficient mnohonásobné korelace
Koeficient mnohonásobné korelace
Koeficient mnohonásobné korelace vyjadřuje společné působení nezávisle proměnných X1 , X2 , . . . Xk na závisle proměnnou Y a určuje spolehlivost regresního odhadu. Výběrový koeficient mnohonásobné korelace pro případ regrese se dvěma nezávisle proměnnými (Yi = β0 + β1 xi + β2 zi + i ) je roven s 2 + r 2 + 2r r r ryx yx yz xz yz , ry ,xz = 2 1 − rxz kde ryx je výběrový korelační koeficient mezi hodnotami yi a xi , ryz je výběrový korelační koeficient mezi yi a zi a ryx je výběrový korelační koeficient mezi xi a zi . Jeho druhou mocninou je index determinace.
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Nelineární regresní funkce Regresní analýza užívá řadu dalších funkcí, které nejsou lineární vzhledem k parametrům – nelineární regresní modely: nelineární regresní funkce, které lze linearizovat, např. regresní exponenciální funkce Y = β0 β1X ; Y = β0 eβ1 X regresní mocninná funkce Y = β0 X β1 X Törnquistova křivka I Y = ββ10+X
nelineární regresní funkce, které nelze linearizovat, např. regresní exponenciální funkce Y = β0 β1X + β2 ; Y = β0 eβ1 X + β2 regresní mocninná funkce Y = β0 X1β + β2 −β1 ) −β1 ) Törnquistovy křivka II a III Y = β0β(X2 +X ; Y = β0 Xβ(X 2 +X
Odhad parametrů těchto a dalších nelineárních regresních funkcí nelze provádět metodou nejmenších čtverců. Postupuje se tak, že se nejprve najde vhodný tzv. počáteční odhad, který se dále numerickými (iteračními) metodami postupně zlepšuje.
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Linearizující transformace
Linearizující transformace spočívá v tom, že se vhodnou transformací převede nelineární funkce Y na lineární funkci Y ∗ . Parametry lineární funkce Y ∗ se odhadnou metodou nejmenších čtverců a zpětnou transformací obdržíme odhady parametrů původní funkce Y . Příklad 1: Y = β0 β1X → yˆ = b0 b1x transformace: ln yˆ = ln b0 + x ln b1 lineární model: y ∗ = b0∗ + b1∗ x ∗ substituce: y ∗ = ln yˆ , x ∗ = x ∗ b0∗ = ln b0 ⇒ b0 = eb0 ∗ b1∗ b1 = ln b1 ⇒ b1 = e
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Linearizující transformace
Příklad 2: Y =
β0 X b0 x → yˆ = β1 + X b1 + x
b1 1 transformace: y1ˆ = bb10+x x = b0 · x + ∗ ∗ lineární model: y = b0 + b1∗ x ∗ substituce: y ∗ = y1ˆ , x ∗ = x1 b0∗ = b10 ⇒ b0 = b1∗
1 b0
0
b1∗ =
b1 b0
⇒ b1 = b0 · b1∗
Jiří Neubauer
Regresní a korelační analýza
Regresní analýza Korelační analýza Nelineární regresní funkce
Nelineární regresní funkce
Poznánka: Je třeba si uvědomit, že vlastnosti, které platí pro odhad regresní funkce získaný klasickou metodou nejmenších čtverců, platí pouze pro transformovanou funkci. Důsledkem toho je, že odhady jednotlivých regresních koeficientů užitého modelu nesplňují podmínku nestrannosti. V případě, že linearizující transformace není možná, je třeba použít jiných metod, např. metodu vybraných bodů apod.
Jiří Neubauer
Regresní a korelační analýza