Korreláció és Regresszió (folytatás)
12. elıadás (23-24. lecke) Logisztikus telítıdési függvény Több független változós regressziós függvények
23. lecke • A logisztikus telítıdési függvény
• Több független változós regressziós felületek Lineáris eset, illesztés, többszörös korreláció és determináció Értelmezési kérdések
3) Logisztikus (autokatalitikus) függvény y = A/(1 + Be-cx), (A,B,c pozitívak) • • • •
x=0-nál y=A/(1+B), majd a görbe „S-alakban” emelkedve közeledik az A „telítıdési” szinthez Az A/2 szintig fokozódó ütemben nı, innen kezdve csökkenı ütemben nı (a váltás-pont neve: inflexiós pont) A kapcsolat differencia-alakja: ∆y/y = cA(A-y) ∆x, azaz y relatív növekedési üteme arányos A és y különbségével (innen c szakmailag értelmezhetı) Ilyenek a szaporodási dinamikák a környezet korlátozott eltartó-képessége mellett (Verhulst-modell), ilyenek az organikus növekedések is
¨ Több (független) változós Regresszió ●
Egyetlen Y változó kialakításában több X változó is részt
vehet. ● Mint említettük, megeshet, hogy eme X változók mindegyike csak gyengén korrelál az Y változóval, de együttesen jelentıs a hatásuk ● Bıvebben foglalkozunk a lineáris esettel és kitérünk a nemlineáris esetre is
● Több- (független) változós LINEÁRIS regresszió • A modell a sokaságban: Y = a +b1x1 + b2x2 + …+bpxp + e mintavétel után: yi = a +b1x1i + b2x2i + …+bpxpi + ei tömören: yi = ŷi + ei • A bk (bk) paraméterek a parciális regressziós együtthatók, az e (ei) tag az eltérés (hiba), a regressziós felület p=2 esetén 3dimenzióban ábrázolható sík, p>2 esetén hipersík • A paraméterek becslése az eltérés-tagok négyzetösszegének minimálásával történik
Többszörös lineáris regresszió (folytatás) • A becslések után SS: SSössz{=SSy} = SSregr{=SSŷ} + SSelt{=∑ei2} df: n-1 = p + n-p-1 • Majd F = MSregr/ MSelt., a szabadságfokok p és n-p-1 • A (korrigálatlan) determinációs együttható (regr.illeszkedés): R2 = SSregr/ SSössz= 1 – SSelt./ SSössz statisztikai próbája megegyezik az F statisztika szignifikancia vizsgálatával
• A további taglalás elıtt egy számpéldát nézzünk
Többszörös lineáris regresszió Extrém fiktív számpélda (n=7, p=2)
y • 31 • 32 • • • • •
35 33 30 31 29
x1 x2
Elıször nézzük x1 és x2 hatását külön-külön
3 13 4 12
r(y,x1) = 0,3072 r(y,x2) = -0,1532 egyik sem szignifikáns! De ne adjuk fel!:
10 11 6 14 7
7 5 9 2 8
Nézzük az együttes hatást
(excel, adatelemzés,leíró statisztika, regresszió) df SS MS F P-érték Regresszió 2 20,10 10,05 11,11 0,023 Maradék 4 3,62 0,904 -----s 1,99 3,98 3,83 Összesen 6 23,72 --------b 2,64 2,62 R2 = 20,10/23,72 = 0,847 = 85% (R = 0,92) A regressziós sík egyenlete: ŷ = -10,1 + 2,64x1 + 2,62x2
Többszörös lineáris regresszió
A számpélda megbeszélése(1)
• A két X változó együttes hatása jelentıs (R2=84,7%, P=2,3%) következésképpen mindkét ható változónak van szerepe, amint az alábbi séma mutatja: A „veszteség”
• X1→Y r2= 0,30722 = 9,4% X1-et elhagyva 84,7%-2,3% = 82,4% X2→ Y r2= 0,15322 = 2,3% X2-ıt elhagyva 84,7%-9,4% = 75,3% {X1,X2} → Y R2 = 84,7% mindkét veszteség jelentıs!
Többszörös lineáris regresszió
A számpélda megbeszélése(2)
A parciális korrelációs együtthatók ugyanúgy jelzik X1 és X2 hatását, mint az elıbbi eszmefuttatás. Számításukhoz szükséges X1 és X2 korrelációja is (r(X1,X2)= -09851) • A korrelációk mátrixa {rij} /Excel, Adatelemzés, korreláció analízis/: Y X1 X2 Y 1 0,3072 -0,1532 X1 0,3072 1 -0,9851 X2 -0,1532 -0,9851 1 A parciális korrelációs együtthatók ryx1.x2 = [ 0,307- (-0,153×(-0,985)]/√{(1- 0,1532)(1- 0 ,9852)} = 0,95 ryx2.x1 = [-0,153- (-0,307×(-0,985)]/√{(1- 0,3072)(1- 0 ,9852)} = 0,95 (Statisztikai próbáikat ld. fentebb, mindkettı szignifikáns)
Többszörös lineáris regresszió: Kiegészítések Természetes a kérdés: az egyes X változók milyen mértékben járulnak hozzá az R2 determinációhoz, illetve melyek elhanyagolhatók?
1) Ha az X változók korrelálatlanok,azaz r(xj,xk)=0 ha j≠k, akkor R2 felbontható az egyes Xk változók hatására: R2 = r2y,x1 + r2y,x2 + … + r2y,xp (p az X változók száma), ez az eset azonban gyakorlatilag csak akkor fordul elı, ha az Xk változók nem véletlenek, értékeiket a kutató célszerően beállíthatja
Többszörös lineáris regresszió: Kiegészítések (folytatás) 2) Az X ható-változók általában összefonódottak (egymással korrelálnak), ezért együttes hatásuk szétbontása az egyes változókra nemigen lehetséges: az egyedi r2 determinációk összege lehet kisebb is, nagyobb is R2-nél Az egyes X változók hozzájárulásáról némi tájékoztatást kaphatunk a standardizált regressziós együtthatók (b’k) révén, illetve R2 alábbi algebrai felbontása alapján R2 = b’1ry,x1 + b’2ry,x2 + … + b’pry,xp ahol b’k = bksxk/sy a standardizált regressziós együttható (k=1…p) Nézzük mindezt a számpéldánkban:
Többszörös lineáris regresszió: Kiegészítések (folytatás) Visszatérve extrém számpéldánkra, illusztráljuk az elıbb mondottakat • Y X1 X2 szórás (s) 1,988 3,976 3,830 regr.együttható (b) 2,636 2,617 ry,x (r) 0,307 -0,153 (négyzetük összeg 11,8%<84,7%=R2) ================================ stand.regr.eh. (b’) 5,273 5,041 b’*r 1,620 -0,772 (Összegük 0,85 =R2) •
A standardizált regressziós együtthatókat így számoltuk: b’1 = b1*sx1,y/sy = 2,636*3,976/1,988 = 5,273 b’2 = b2*sx2,y/sy = 2,617*3,830/1,988 = 5,041
KÖSZÖNÖM TÜRELMÜKET
24. lecke • Az R2 felbontásának értelmezése • A lényeges változók kiválogatása
• Nem lineáris több X-változós regressziós függvények
Többszörös lineáris regresszió: Kiegészítések (2.folytatása) Értelmezzük az extrém számpélda utóbbi mutatóit • A standardizált regressziós együtthatók (b’) az X változók közvetlen hatásait jelzik arányukban Esetünkben b’1 és b’2 közel azonos, a két X változó közvetlen hatása Y-ra azonos mértékő (amint azt a korábban felírt parciális korrelációs együtthatók is jelezték) • A b’r szorzat-mutatók a közvetlen hatásokon kívül beszélnek a közvetett hatásokról is, ami az X változók közötti kapcsolatok áttételes eredménye Esetünkben e két mutató: X1-re 1,620 X2-re -0,772 ami úgy értelmezhetı, hogy X1 (közvetlen+közvetett) hatása Y-ra kétszer akkora és ellentétes irányú, mint X2 hatása
Többszörös lineáris regresszió: Kiegészítések (folytatás) 3) Az X ható-változók szelekciója
Ha sok X változónk van, a regresszió szempontjából ezek között lehetnek jelentéktelenek és olyan jelentısek, amelyek az összefonódottság miatt másokkal helyettesíthetık •
•
Az X változók közötti válogatásra több eljárás ismert, ezek elméleti hátterére itt nem térünk ki, az SPSS programcsomag ajánlható
Az ajánlott eljárások listája (lényegüket tanulmányozzuk a szakirodalomban): - minden lehetséges regresszió - backward módszer - forward módszer - stepwise módszer - stagewise módszer
¨ Több X-változós NEMLINEÁRIS regresszió (I) Két gyakori Linearizálható kapcsolat 1) Többváltozós hatvány- (Cobb-Douglas-)függvény • ŷ = A*x1b1x2b2...xpbp , logaritmizálva log ŷ = log A + b1log x1+ b2log x2+…+ bplog xp amely a változók logaritmusai között már lineáris 2) Többváltozós exponenciális függvény
•
ŷ
= A*B1x1B2x2...Bpxp , logaritmizálva
log ŷ = log A + (logB1)x1+ (logB2)x2+…+ (logBp)xp amely log y és az x-ek között már lineáris
(II) A kvadratikus felület (Nem linearizálható)
• Gyakran a sík (hipersík) nem kielégítı, a modell bıvítésre szorul, például négyzetes és szorzatos tagokat csatolhatunk hozzá • Például a kétváltozós ŷ = a+b1x1+b2x2 modell bıvítése: ŷ = a+b1x1+b2x2+ b11x12+b22x22+b12x1x2 • Ebben a másodrendő felületben a b11 és a b22 paraméterek a felület görbüléseit mérik, a b12 együttható pedig X1 és X2 kölcsönhatásának eredménye, a felület „győrıdése” • A modell a változóiban nem lineáris de a paramétereiben igen, ezért illesztése megoldható az Excel „Regressziójával”
• Másodrendő regressziós felület (illusztráció) z
=
15-x^2
+2x-2y^2+4y
• A kvadratikus felületnek maximuma vagy minimuma van ha a D = 4b11b22 - b122 érték pozitív, éspedig maximumot találunk, ha b11 és b22 negatív, minimumot, ha ezek pozitívak • A felület max/min pontját az x10 = (b2b12 – 2b1b22)/D, x20 = (b1b12 – 2b2b11)/D értékpárnál találjuk • Ha D negatív, a másodrendő felület „nyereg” alakú
Számpélda kétváltozós kvadratikus hatásfelületre Adatok (y mért, x1 és x2 mért vagy beállított, a többi számított)
y 10,8 10,7 9,5 11,3 11,5 11,5 8,5 9,7 10,1
x1 0,5 0,5 0,5 1 1 1 2 2 2
x2 0,5 1 2 0,5 1 2 0,5 1 2
I I I I I I I I I I
x12 0,25 0,25 0,25 1 1 1 4 4 4
x22 x1×x2 0,25 0,25 1 0,5 4 1 0,25 0,5 1 1 4 2 0,25 1 1 2 4 4
Etessük be e táblázatot az excelbe (Adatelemzés, Regresszió) Mindent megkapunk, ami kell (ld. a következı dia)
Kvadratikus felület (a példa folytatása) • Varianciaanalízis SS df MS F P-érték Regresszió 8,267 5 1,653 23,3 0,013 szign. Maradék 0,213 3 0,711 ----Összesen 8,48 8 ------Determinációs együttható: R2=8,267/8,48=97,5% • Együtthatók becslése P-érték 95%-os konfidencia határok a 8,46 0,002 5,95 – 10,96 szign. b1 5,0 0,017 1,71 – 8,29 szign. b2 0,6 0,60 - 2,69 – 3,89 nem szign. b11 -2,8 0,005 - 4,02 – -1,58 szign. b22 -0,76 0,14 - 1,98 – 0,47 nem szign. b12 1,2 0,013 0,47 – 1,93 szign.
Kvadratikus felület (a példa megbeszélése) • Az illesztett felület y variabilitásának szignifikáns hányadát magyarázza (P=0,013; R2=97,5%) Ez azonban nem jelenti azt, hogy nincs még jobban illeszkedı regressziós felület. • A becsült regressziós felület egyenlete: y = 8,46 + 5,0x1 – 2,8x12 + 0,6x2 - 0,76x22 +1,2 x1x2 ábrája hasonló a néhány diával korábbi felülethez • A felület maximum pontjának becslése: D = (4×-2,8×-0,76)-1,22 = 7,07 , pozitív, tehát van szélsıérték x10= (b2b12–2b1b22)/D =(0,6*1,2 - 2*5,0*(-0,76))/7,07 =1,17 x20= (b1b12–2b2b11)/D =(5,0*1,2 - 2*0,6*(-2,8) )/7,07 =1,32 ŷmax =11,8
a példa megbeszélésének folytatása • A b2 = 0,6 és a b22 = -0,76 regressziós együtthatók nem szignifikánsak (ez utóbbi azt jelenti, hogy az x2 változónak nincs depresszív hatása), a lényeg azonban az, hogy ez a két tag talán kihagyható a regressziós felület formulájából: • Azaz megpróbálkozhatunk az y = a + b1x1 + b11x12 + b12x1x2 felület illesztésével • Gyakorlásként végezzük el az illesztést és ellenırízzük az illeszkedés csökkenésének szignifikanciáját a fentebb ismertetett módon. Ha ez nem szignifikáns, maradhatunk a felírt redukált egyenletnél, különben tegyük vissza a b22x22 tagot (mert ennek P-értéke 0,14 ,kisebb b2 P-értékénél)
KÖSZÖNÖM TÜRELMÜKET