Korreláció és Regresszió (folytatás)
11. elıadás (21-22. lecke) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények
21. lecke • Linearitás ellenırzésének egyéb lehetıségei • Konfidencia sáv • Lineárissá transzformálható görbék (1) Hiperbolikus és logaritmikus függvény
2.) A modell módosítása • Illesszünk egyenest az adatokra, az illeszkedési együtthatót jelölje R2L • Illesszünk valamely görbülı függvényt az adatokra, ennek illeszkedése legyen R2M • Ha R2M szignifikánsan nagyobb, mint R2L, akkor a lineáris tendencia feltevését elvethetjük • Ajánlás: próbálkozzunk elıször másodfokú regressziós függvény (parabola) illesztésével, ha ennek illeszkedési együtthatója (R2Q) szignifikánsan felülmúlja az egyenes illeszkedését, akkor máris elvethetjük a lineáris kapcsolat feltételezését. Erre késıbb még kitérünk.
3.) Ismétléseink is vannak az egyes xi értékekhez • Ha az X ható-változó változataihoz több y mért érték is tartozik (ez esetben X értékei általában nem véletlen, hanem beállított értékek (pl. dózis, évek /idısoroknál/), akkor az ei maradékokból leválasztható az ismétlések közötti szóródás • ez utóbbi képezi a „tiszta hibát”, amelyhez tesztelhetjük az eltérésekbıl megmaradó variancia-hányadot, ami a nemlinearitás mértékét jelzi • Az eljárást számpéldán mutatjuk be
Ismétlések is vannak (számpélda) Adatok x 1,5 y 2,9 3,7 3,3
8 7 6 5
2,1 4,5 4,4 3,8 4,9
2,8 5,9 6,6 6,4
3,5 5,7 6,3 6,1 6,7 6,2
Továbbá kell még f 3 4 3 5 n=∑f=15 SS 0,32 0,62 0,26 0,52 SShiba=∑SS=1,72 df= ∑(f-1)=11
4 y
3
Lineáris (y)
2 1 0 0
1
2
3
4
Ismétlések is vannak (a számpélda folytatása) •
A fenti adatokra egyenest illesztünk (Excel,Regresszió) df SS MS F P-érték Lin.Regresszió 1 19,28 19,28 56,4 0,000 Eltérés (maradék) 13 4,44 0,342 ----Összesen 14 23,72 ------•
A maradékot ketté bontjuk (nem.lin + hiba) és a HibaMS-hez viszonyítunk df SS MS F P-érték Lin.komponens 1 19,28 19,28 123,6 0,000 Nemlin.komponens 2 2,72 1,36 8,7 0,005 Hiba (ism.között) 11 1,72 0,156 ----Összesen 14 23,72 ------•
Megállapítás: A kapcsolat lineáris volta nem igazolt (P=0,005)
Konfidencia sáv • Adott x értékhez a mintából számított ŷ becsült érték még hibával terhelt (itt ŷ = a + bx) • Az α + ßx érték 95%-os konfidencia intervalluma ŷ ±t√{HibaMS*[1/n + (x- x)/SSx]}, itt t5% szab.foka n-2 • A felírt függvényt, mint x függvényét ábrázolva kapjuk a regressziós egyenes konfidencia sávját • Hasonlóan nyerjük adott x-hez jósolható egyedi y érték konfidencia intervallumát és az ezekhez tartozó konfidencia sávot ŷ ±t √{HibaMS*[1 + 1/n + (x- x )/SSx]}
• Konfidencia sáv képe 80
y
60
40
20
0 0
10
Legszőkebb az x-átlag fölött
20 x
30
40
További megjegyzések a Lineáris Regresszióról •
A regressziós egyenes egyenlete felírható az alábbi alakokban is: a) y =y + b(x - x) b) ~ y= r ~ x ~ ~ ~ ahol x és y a standardizált értékek: x i = ( x − x ) / sx
•
x és y szerepének felcserélésével az illesztett egyenes is megváltozik. Minél nagyobb r, annál közelebb van a két egyenes egymáshoz. Pontosabban: byxbxy = r2, ahol byx az x→y irányú regressziós együttható, bxy pedig az y→x irányúé
•
Ha y feltétezhetıen tendenciában arányos x-szel (azaz a=0), akkor az origón átmenı y = bx egyenest illesztjük (Excelben kipipáljuk a „zéró legyen a konstans”-t)
¨
Nemlineáris Regressziók (görbe-illesztés) I. Lineárissá transzformálható kapcsolatok Jónéhány regressziós görbe-típus a változók alkalmas transzformációjával „kiegyenesíthetı”. Gyakran e transzformációk az eredetileg inhomogén hibaszórásokat is homogenizálják. Áttekintjük a gyakoribb típusokat - hiperbolikus- logaritmus- exponenciális- és hatvány-függvénnyel leírható regressziós kapcsolatok
1) Két hiperbolikus regresszió a) y = a + b/x b) y = 1/(a + bx) • Az a) esetben az x* =1/x reciprok transzformáció után y = a +bx* (lineáris), itt tehát az yi és az 1/xi adatokkal számolunk lineáris regressziós elemzést • A b) esetben az y* = 1/y reciprok transzformáció után y* = a + bx (lineáris), itt tehát az 1/yi és az xi adatokkal számolunk lineáris regressziós elemzést •
Rajzoljuk fel a két görbét pozitív és negatív b-vel, telítıdési ill. kimerülési tendenciákat látunk
2) Logaritmikus regresszió y = a + b log(x), a log. alapja tetszıleges •
• •
A kapcsolat lényege: y megváltozása (∆y) arányos x relatív megváltozásával (∆x/x-szel) Például, ha x-et megduplázzuk, y ugyanannyival nı, bármi volt is x (vagy y) Az x* = log(x) transzformáció után y = a +bx* (lineáris), itt az yi és a log(xi) adatokkal számolunk lineáris regressziót E kapcsolatra példa: a hatás általában a dózis logaritmusával arányos dózis-hatás vizsgálatoknál.
KÖSZÖNÖM TÜRELMÜKET
22. lecke • Az exponenciális és a hatvány tendencia linearizálása • Parabola illesztés • Mitscherich-féle tendencia
3) Exponenciális tendencia y = A*Bx avagy b=lnB jelöléssel y = A*ebx • A kapcsolat lényege:y relatív megváltozása (∆y/y) arányos x megváltozásával (∆x-szel). Speciálisan, ha x egy egységgel nı, közben y a B-szeresére változik (nı,ha B>1,csökken,ha B<1) • A görbe x=0-nál a A szintrıl indul és exponenciálisan emelkedik (B>1) vagy 0-hoz közeledve csökken (B<1) • Linearizálása: mindkét oldal logaritmusát véve lny = lnA + (lnB)x = a + bx, tehát az yi*=lnyi és az xi adatok között számolhatunk lineáris regressziót • A gazdaságban és a biológiában a kezdeti fellendülı szakasz (B>1) ill. a leépülı szakasz (B<1) exponenciális
4) Hatványfüggvény kapcsolat (Cobb-Douglas függv.) y = A*xb, logaritmizálva logy = logA + blogx = a +bx* • A linearizálás tehát: y* =logy, x* =logx • A kapcsolat lényege:y relatív megváltozása (∆y/y) arányos x relatív megváltozásával (∆x/x-szel). Speciálisan, ha x egy %-kal emelkedik, eközben y b %-kal változik. b neve: elaszticitás • x=1-nél y=A, innen a görbe fokozódó ütemben emelkedik, ha b>1,csökkenı ütemben nı, ha b 0 és 1 közé esik, és hiperbolaszerően csökken, ha b negatív • A közgazdasági kapcsolatok jórésze hatványfüggvény alakú
Melyik regresszió-típust válasszuk • A leginkább hiteles választási mód az elméleti megfontolás: felállítjuk a kapcsolat differenciál alakját, ebbıl már következik a megfelelı regresszió típusa, mint fentebb láttuk. Ez persze ritkán megy, ezért • Ajánlható az adatpárok ábrázolása: különbözı transzformációk után mikor kapunk leginkább lineáris tendenciát. Az alkalmazott transzformáció egyértelmően jelzi a megfelelı görbe típusát, mint fentebb láttuk
¨
Nemlineáris Regressziók (görbe-illesztés) II. Lineárissá nem transzformálható kapcsolatok
• Néhány olyan regresszió-típusról szólunk, ahol a „kiegyenesítés” nem lehetséges, vagy körülményes, vagy nem célszerő, mert megzavarja az alkalmazás feltételeit (normalitás, a varianciák homogenitása) - parabolikus regresszió - Mitscherlich-féle telítıdési görbe - logisztikus függvény
1) Parabolikus (másodfokú) regresszió A sokasági modell: Yi = α + ßxi + γxi2 + εi A mintára átírt modell: yi = a + bxi + cxi2 + ei • A paraméterek jelentése: - a= ŷ (fiktív) értéke x=0-nál, - b= a görbe meredeksége (változás sebessége) x=0-nál, - c= a görbülés mértéke (c=0-val egyenest kapunk) • Az εi hibatagokról feltesszük, hogy független N(0;σ) eloszlásúak • Az a,b,c becslések (regressziós együtthatók) meghatározása az ei eltérések négyzetösszegének minimálásával történik
Parabola illesztés (fiktív numerikus példa) • Adatok (az Excelben a számításokhoz csatolni kell az x2 oszlopot) x x2 1 1 2 4 3 9 4 16 5 25
9 8 7 6 y
y 5,5 6,1 7,3 7,7 8,1
5 4 3 2 1 0 0
7,9 6 36
Var.Anal. Regresszió(parabola) Eltérés (maradék) Összesen
2
4
6
8
x
df 2 3 5
SS MS F P-érték R2 5,454 2,727 55,9 0,004 97,4% 0,146 0,049 ----5,60 -------
Parabola illesztés (példa folytatása) • A Var. táblázatból leolvasható a parabolikus regresszió szignifikanciája (P=0,004<5%) • Az Excel közli az a,b,c együtthatók értékeit, ezek szignifikanciáját és konfidencia határait is becslés P-érték 95%-os konfidencia-határok a= 4,06 0,002 2,80 5,32 b= 1,43 0,012 0,60 2,25 c= -0,129 0,038 -0,244 - -0,014 • A táblázat szerint mindhárom paraméter szignifikánsan eltér 0-tól • A regressziós parabola becsült egyenlete: y = 4,06 + 1,43x – 0,129x2
Parabola illesztés: kiegészítések 1) Kell-e parabola (nem elég-e az egyenes?) Erre a kérdésre már a c paraméter szignifikancia-foka is válaszol, mégis nézzük meg, mi áll a háttérben - Illesszünk egyenest a pontokra (a var.táblázatot itt nem közöljük, beépítjük az alábbi „bontott” táblázatba Var.Anal. Regresszió(parabola) Ebbıl Lineáris hatás Négyzetes hat. Eltérés (maradék) Összesen
df 2 1 1 3 5
SS 5,454 4,837 0,617 0,146 5,60
MS F P-érték R2 2,727 55,9 0,004 97,4% = RQ2 4,837 98,7 0,002 86,4% = RL2 0,617 12,7 0,038 11,0% 0,049 -----------
Parabola… kiegészítések folytatása • A példában a négyzetes hatás szignifikáns (P=0,038<5%), tehát a parabola jobb itt mint az egyenes 2) Az illeszkedés „javulása” az R2 -ek alapján is megítélhetı: F = dfhibaQ(RQ2–RL2)/(1–RQ2)= 3(0,974-0,864)/(1-0,974) = 12,7 (mint fent) (itt Q a négyzetes /Quadratikus/ szóra utal) 3) Ha az egyes x értékekhez több y értét is tartozik, akkor a parabola illesztésének indokolt volta is tesztelhetı hasonló módon, ahogy azt a „Valóban lineáris-e…” szakaszban tárgyaltuk
2) Mitscherlich-féle függvény y = A - Be-cx, (c>0 a „hatás-koefficiens”) • A görbe a A „telítıdési” szinthez emelkedıen közeledik, ha B pozitív. Ha B negatív, csökkenve közeledik a A „kimerülési” szinthez • A kapcsolat differencia-alakja: ∆y = c(A-y)∆x, azaz y változási üteme arányos A és y eltérésével • Ha A ismert, a kapcsolat linearizálható, különben a paraméterek becslése csak valamely fokozatos közelítı módszer alkalmazásával megy
KÖSZÖNÖM TÜRELMÜKET