Fogalom Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a kétváltozós modell elemzése. Szükség van további olyan magyarázó változók vizsgálatára, amik a jelenség egzaktabb leírását teszik lehetővé. Azokat a kapcsolatokat, amelyeknél az egyik tényezőre több másik tényező is hatással van többszörös kapcsolatoknak nevezzük, a kapcsolatok mennyiségi jellemzőinek, illetve szorosságának vizsgálatát pedig többszörös korreláció- és regresszió-analízisnek hívjuk.
STATISZTIKA 8. Előadás Többszörös lineáris regresszió
A standard lineáris regressziós modell mátrixalgebrai jelölése
A standard lineáris modell
(
=
Eredménytáblázat
. .
=
. .
11 21
12 22
... ... ...
= nm
. .
=
. .
Alkalmazhatósági feltételek Ugyanazok, mint a kétváltozós regressziónál
Koefficiensek
Standard hiba
t érték
p-érték
Alsó 95%
Felső 95%
Tengelymetszet
1,234563411
3,866114742 0,31932922 0,750955
Nepesseg
2,23675E-05
9,05174E-06 2,47107595 0,017323
4,1364E-06 4,06E-05
4,14283659
0,874353193 4,73817288 2,19E-05
2,381798861 5,903874
Jovedelem
1,61062E-06
1,70924E-05 0,09422998 0,925345
-3,28153E-05
3,6E-05
Fagyos_napok
0,000581306
0,01005366 0,05782029 0,954148
-0,019667806
0,02083
Analfabetak
-6,552191393 9,021318
1
Miért nem teljesülhetnek a feltételek? Multikollinearitás: a magyarázó változók nem lineárisan függetlenek
Multikollinearitás (Ragnar Frisch) • A standard lineáris regressziós modell feltételezi, hogy a magyarázó változók egymástól lineárisan függetlenek. Ha azonban valamelyik magyarázó
Autokorreláció: a hibatagok lineárisan nem függetlenek
változó
kifejezhető
kombinációjaként
a
többi
tényező
(azaz
lineáris
függvényszerű
kapcsolatban áll a többi magyarázó változóval)
Heteroszkedaszticitás: a szórásnégyzete nem konstans
hibák
• Nagymértékű redundáns információk.
Ha a magyarázó változók lineárisan nem függetlenek A becslés és az előrejelzés torzított marad A regressziós együtthatók standard hibái nőnek A becsléseink bizonytalanná válnak Az egyes magyarázó változók elkülönítése nem lehetséges
akkor multikollinearitásról beszélünk.
A multikollinearitás mérése szintetikus mutatóval A magyarázó változók determinációs együtthatóinak összege, ha megegyezik a többszörös determinációs együttható értékével, akkor nem áll fenn a magyarázó változók között multikollinearitás.
hatásainak
VIF (Variance Inflation Factors)
VIF
Varianciainflációs tényező azt mutatja, hogy a jedik változó becsült együtthatójának varianciája hányszorosa annak, ami a multikollinearitás teljes hiányakor lenne. Ezért ezt a mutatószámot a j-edik változóhoz tartozó variancianövelő tényezőnek nevezzük.
• Minimális értékét, az 1-et akkor veszi fel, amikor a j-edik magyarázó változó nem korrelál a többivel. • Ahogy nő az R2j, úgy nő a VIF értéke is, jelezve, hogy a kollinearitás hányszorosára növeli a varianciával mért becslési hibát. • Ha R2j =1 a VIF mutató nem értelmezhető, ez a teljes vagy extrém multikollinearitás. • A VIF reciprokát toleranciamutatónak nevezik.
2
VIF meghatározása A magyarázó változók korrelációs mátrixának inverzéből. A főátló elemei. Nepesseg Analfabetak Jovedelem Fagyos_napok Nepesseg 1,25 0,08 -0,35 0,55 Analfabetak 0,08 2,17 0,63 1,34 Jovedelem -0,35 0,63 1,35 0,00 Fagyos_napok 0,55 1,34 0,00 2,08
VIF értékei 1–2 gyenge 2–5 erős (zavaró) 5 felett nagyon erős (káros) multikollinearitás
Multikollinearitás csökkentése •
Változók törlése
•
Ridge regresszió használata. Ez a többszörös regresszió-analízis olyan változata, amely kezeli a multikollinearitást.
Az elsőrendű autokorreláció mérése Durbin-Watson teszt:
Lineáris autokorrelációs együttható:
Autokorreláció •
A hibatagok lineárisan nem függetlenek
•
Az autokorreláció különböző rendű lehet, attól függően, hogy a hibatag i-edik értéke melyik értékkel van kapcsolatban. Ha a hibatag i-edik értéke közvetlenül az előtte lévő értékkel áll korrelációs kapcsolatban, akkor elsőrendű autokorreláció-ról beszélünk. Az elsőrendű autokorreláció modellje:
Durbin-Watson teszt döntési táblája Alternatív hipotézis
Ho: ró=0 Elfogadjuk
Elutasítjuk
Nincs döntés
Ró>0
d>dU
d
dL≤d≤dU
Ró<0
d<4-dU
D>4-dL
4-dL≤d≤4-dU
Ha a teszt alapján nem tudunk döntést hozni, vagyis a próbafüggvény értéke a semleges zónák valamelyikébe esik, akkor több lehetőséggel is élhetünk: A modell paramétereinek a becslését újra el kell végezni, de nagyobb minta alapján. Meg kell változatni a szignifikancia-szintet úgy, hogy döntési helyzetbe kerüljünk. Más próbafüggvényt kell alkalmazni.
3
A Durbin-Watson teszt döntési szabálya
Heteroszkedaszticitás
Heteroszkedaszticitás tesztelése
A többszörös lineáris regressziószámítás lépései
Ki kell számítani külön az egyes magyarázó változóknak, illetve a becsült eredményváltozóknak a reziduumok abszolút értékeivel való szorosságát jellemző lineáris korrelációs együtthatót, amelyek közül a legnagyobb abszolút értékű kerül tesztelésre. Ha a nullhipotézist elvetjük, akkor a modell heteroszkedasztikusnak tekinthető.
Korrelációs mátrix Gyilkossag Nepesseg Analfabetak Jovedelem Fagyos_napok
1. Modellalkotás, változók bevonása 2. Illeszkedés vizsgálata 3. Korrelációs index, determinációs együttható 4. Variancia-analízis, F-próba 5. Együtthatók t-próbája 6. Validálás
Multikollinearitás
Gyilkossag Nepesseg Analfabetak Jovedelem Fagyos_napok 1,00 0,34 0,70 -0,23 -0,54 0,34 1,00 0,11 0,21 -0,33 0,70 0,11 1,00 -0,44 -0,67 -0,23 0,21 -0,44 1,00 0,23 -0,54 -0,33 -0,67 0,23 1,00
M1=0,39
4
Illeszkedésvizsgálat = Nepesseg + Analfabetak + Jovedelem
Gyilkossag Fagyos_napok Együtthatók: Estimate Std. Error t (Intercept) 1,235e+00 3,866e+00 Nepesseg 2,237e-05 9,052e-06 Analfabetak 4,143e+00 8,744e-01 Jovedelem 1,611e-06 1,709e-05 Fagyos_napok 5,813e-04 1,005e-02 --Signif. codes: 0 ‘***’ 0,001 ‘**’ ’ 1
Magyarázó változók bevonása, törlése
+
value Pr(>|t|) 0,319 0,7510 2,471 0,0173 * 4,738 2,19e-05 *** 0,094 0,9253 0,058 0,9541
1. Lépésenkénti (Stepwise) regresszió Fordward Backward Vegyes módszer (mixed)
0,01 ‘*’ 0,05 ‘.’ 0,1 ‘
Residual standard error: 2,535 on 45 degrees of freedom Multiple R-squared: 0,567, Adjusted R-squared: 0,5285 F-statistic: 14,73 on 4 and 45 DF, p-value: 9,133e-08
2. Hatványhalmaz regresszió (All subset regresszió)
Halmaz részhalmazainak száma
Hatványhalmaz regresszió
2 = Pl. négyelemű halmaz Részhalmaz
Száma
Egy elemű
4
Két elemű
6
Három elemű
4
Négy elemű
1
A „legjobb” modell kritériumai • •
•
Nem létezik egyetlen „legjobb” modell mérőszám A végső modell kiválasztása a becslési pontosság és az egyszerűség kompromisszuma „Ockham borotvája” filozófiai elv
Modellek vizsgálata •
Beágyazott modellek vizsgálata ANOVAval
• •
AIC (Akaike information criterion). A kisebb érték jelenti az adekvátabb modellt. Nem feltétel, hogy a modell beágyazott legyen.
5
Beágyazott modellek
AIC (Akaike, 1973)
1. Modell Gyilkosságok=a+b1Analfabéták+b2Lakosság 2. Modell Gyilkosságok=a+b1Analfabéták+b2Lakosság +b3Jövedelem+b4Fagyos_napok
=
Töröljük a befolyásos értékeket Transzformáljuk a változókat Töröljünk vagy adjunk hozzá változókat Használjunk másik regressziós modellt
2. Változók transzformálása 1. A modell eloszlást
nem
teljesíti
a
normális
/
+2
Ahol n: a minta elemszáma RSS: a maradékok eltérés-négyzetösszege P: a modell paramétereinek száma (konstans is)
Mérések, megfigyelések korrigálása 1. 2. 3. 4.
ln
1. Megfigyelések törlése • • •
A kiugró értékek törlése sokszor javít a normális eloszlás feltételén. A befolyásos értékek törlése után a modellt újból becsülni kell. Az újabb diagnosztika lehet, hogy újabb befolyásos vagy kiugró értékeket jelez. Ekkor addig kell ismételni a modell becslést, amíg elfogadható eredményt nem kapunk.
2.1. Nem normális eloszlás esetén A függő változó (y) transzformálása segíthet. y értékét yλ értékére cserélhetjük. Arány, hányados esetén logit transzformáció
2. A linearitás feltétele nem teljesül 3. Heteroszkedasztikus a modell
λ gyakori értékei: -2; -1; -0,5; 0,5; 2 vagy log(y) balra ferde eloszlás esetén EZ NEVEZIK BOX-COX TRANSZORMÁCIÓNAK
6
2.3. Heteroszkedasztikus modell esetén
2.2. Nemlinearitás esetén A magyarázó változók (x) transzformálása segíthet.
Függő változó (y) transzformációja, hatványkitevő keresése.
A hatványkitevők becslése a BOX-TIDWELL TRANSZFORMÁCIÓ
3. Változók törlése vagy hozzáadása Törlés – Multikollinearitás VIF (variance inflation factor) változása.
4. Egyéb modellek • • • • •
Multikollinearitás esetén – ridge regresszió Sok kiugró vagy befolyásos érték esetén – robusztus regresszió Nem normális eloszlás esetén – nemparaméteres regresszió Nemlinearitás esetén – nemlineáris regresszió Maradékok nem függetlenek – többlépcsős regresszió
Kereszt validálás (crossvalidation)
A modell általánosíthatósága •
Hogyan működne a modellünk a valóságban, milyen pontos előrejelzést tehetünk vele?
•
Különböző adatokon végezzük el a regressziós modell illesztését és a validációt.
•
Szigorúbb validálási eljárások
•
Paraméterek becslése sample”) Validáció („hold-out sample”)
•
(„training
7
K-szoros kereszt-validáció • •
•
„Svájci bicska”
A teljes mintát k-számú véletlen mintára osztjuk A k számú alminták egy csoportja a validációt, a maradék k-1 csoportok kombinációja a modell optimalizálását szolgálja Amikor a k egyenlő n-nel, a megfigyelések számával, ezt nevezik az angol szakirodalomban „jackknifing”-nek.
A magyarázó változók relatív jelentősége
Törölt maradékok
=
− "(
)
Standardizált regressziós együtthatók Estimate Std. Error Nepesseg 0,270510 0,108274 Analfabetak 0,684050 0,142792 Jovedelem 0,010724 0,112560 Fagy_napok 0,008185 0,140019
t value 2,498 4,791 0,095 0,058
Pr(>|t|) 0,0161 * 1,77e-05 *** 0,9245 0,9536
•
Standardizált becslése
regressziós
együtthatók
•
Változókat standardizáljuk
•
Standardizált együttható = Path koefficiens
Std. regressziós együttható értelmezése • A magyarázó változó egy szórásnyi növekedése a függő változó szórását a standardizált regressziós együttható értékével növeli meg vagy csökkenti, attól függően, hogy milyen az előjele. A többi magyarázó változó értéke ilyenkor állandó, nem változik. • Nincs tengelymetszet!
8
Több változó ábrázolása
Háromdimenziós ábra
Regressziós sík
Több változó ábrázolása
Háromdimenziós ábra
Regressziós sík
9