A regressziószámítás alapproblémája Regressziószámításkor egy változót egy (vagy több) másik változóval becslünk.
Regresszióanalízis
Y
függıváltozó
X1, X2, ... Xp
független változók
Y≈ ≈ f(X1, X2, ... Xp )
Informatikai Tudományok Doktori Iskola
Példák 1. A Duna vízállásának elırejelzése Budapesten 2. A paradicsom beérési idejének becslése 3. Mőholdkép alapján a búza terméshozamának becslése 4. Mőholdkép alapján a Mars vastartalmának becslése
becslés
f∈ ∈F
E(Y- f*(X1, X2, ... Xp ))2 = min E(Y- f(X1, X2, ... Xp ))2 f∈ ∈F
A regressziószámítás alapproblémája Ha ismerjük az Y és az X1, X2, ... Xp együttes eloszlását, akkor a probléma elméletileg megoldott:
f (X1, X2, ... Xp ) = E ( Y | X1, X2, ... Xp ). Gyakorlatban azonban „csak” egy adatmátrix adott:
5. Predikciók, trendek idısoroknál 6. Lineáris közgazdasági modellek
Felté Feltételes vá várható rható érté rték, folytonos eset I.
Y1 Y2 M Y n
X11 X12 M X 1n
X 21 L X p1 X 22 L X p 2 M O M X 2 n L X pn
Felté Feltételes vá várható rható érté rték, folytonos eset II.
1
A regresszió regresszió tulajdonsá tulajdonságai
Felté Feltételes vá várható rható érté rték, folytonos eset III.
Az összes függvény közül a regressziós görbével lehet legpontosabban közelíteni!
Regresszió Regresszió normá normális eloszlá eloszlás eseté esetén
f X |Y ( x | y ) =
1 2π σ 1 1 − ρ 2
⋅e
−
1
(
2⋅σ 22 1− ρ 2
) ⋅ x − µ + σ 1 ρ ( y − µ ) 2 1 σ 2
Elméleti lineáris regresszió 2
Normális komponensek esetén a regressziós összefüggés lineáris!
Elméleti lineáris regresszió
A regressziószámítás alapproblémája F = {f(x1,x2,…,xp, a,b,c,… | a, b, c, … valós paraméterek}
A függvényhalmazból azt az elemet fogjuk kiválasztani, amelynél: Láttuk, hogyha X,Y együttes eloszlása normális, akkor a regresszió lineáris lesz!
n
h(a,b,c,...) =
Σ
i=1
(Yi- f(X1i, X2i, ..., Xpi, a,b,c,... ))2 → min a,b,c,...
Ez a legkisebb né négyzetek mó módszere!
2
A regresszióanalízis fajtái • Lineáris regresszió
f(X) = B0 + B1 X
A regresszióanalízis fajtái • Nemlineáris regressziók két változó között I.
• Többváltozós lineáris regresszió f(X1 , X2 ,...,Xp ) = B0 + B1 X1 + B2 X2+...+ Bp Xp • Polinomiális regresszió
f(X ) = B1 + B2 exp(B3 X )
aszimptotikus I.
f(X ) = B1 - B2 · (B3 )X
aszimptotikus II. sőrőség
f(X ) = (B1 + B2 X )-1/B3 X2+...+
f(X1 , X2 ,...,Xp ) = B0 + B1 X + B2
BpXp
X1=X, X2=X2, ... , Xp=Xp
f(X ) = B1 · (1- B3 · exp(B2 X 2))
Gauss
f(X ) = B1 · exp( exp( - B2 exp( exp( - B3 X
2))) Gompertz
• Kétparaméteres (lineárisra visszavezethetı) regresszió
e
pl. Y=f(X) = Bo·
B1 X
⇒ lnY = B1 X + ln Bo
A regresszióanalízis fajtái
loglog-módosí dosított
f(X) = B1 - ln(1 + B2 exp( exp( - B3 X )
loglog-logisztikus
f(X) = B1 + B2 exp( exp( - B3 X )
Metcherlich
f(X) = B1 · X / (X + B2 )
Michaelis Menten
f(X) = (B1 B2 +B3 XB4)/(B2 + XB4 )
MorganMorgan-MerczerMerczer-Florin
f(X) = B1 /(1+B2 exp( exp( - B3 X +B4X + B5X )) PealPeal-Reed 2
3
A regresszióanalízis fajtái • Szakaszonkénti lineáris regresszió
A regresszióanalízis fajtái • Nemlineáris regressziók két változó között III.
• Nemlineáris regressziók két változó között II. f(X) = (B1 + B3 X)B2
f(X ) = B1 · exp( exp( - B2 /(X + B3 )) Johnson-Schumacher
f(X) = (B1 + B2 X +B3X2 + B4X3)/ B5X3 köbök aránya f(X) = (B1 + B2 X +B3X2 )/ B4X2
négyzetek aránya
f(X) = B1/((1+B3 · exp(B2 X
Richards
f(X) = B1/((1+B3 · exp(B2 X))
Verhulst
))(1/B4)
f(X) = (B1
(1-B4)
· B2 exp( - B3 X))1/(1-B4) Von Bertalanffy
f(X) = B1 - B2 exp( -B3 X
B4)
f(X) = 1/(B1 + B2 X +B3X ) 2
Weibull Yield sőrőség
A regresszióanalízis fajtái • Poligoniális regresszió
3
A regresszióanalízis fajtái • Többváltozós lineáris regresszió kategória-változóval
A regresszióanalízis fajtái • Logisztikus regresszió 1, ha az A eseméény bekö övetkezik
Y
Y=
dichotó dichotóm
esem ny bek vetkezik { 0,1, haha azaz AA esemé esemény nem kö következik be • A választó fog szavazni • A páciensnek szívinfarktusa lesz • Az üzletet meg fogják kötni
A esemé esemény
X1 , X2 ,...,X ,...,Xp
ordiná ordinális szintő szintő független vá változó ltozók • eddig hányszor ment el, kor, iskola, jövedelem • napi cigi, napi pohár, kor, stressz • ár, mennyiség, piaci forgalom, raktárkészlet
A regresszióanalízis fajtái
A regresszióanalízis fajtái • Logisztikus regresszió
• Logisztikus regresszió
A legnagyobb valószínőség elve 1 P(Y=1) = P(A) ≈ ————— 1 - e-Z
L(εε1,εε2,...,εεn) = P(Y1= ε1, Y2= ε2, ... , Yn= εn) =
Z = B0 + B1 X1 + B2 X2+...+ Bp Xp P(A) ODDS = ————— ≈ e Z 1 - P(A)
⇒
log (ODDS) = Z = B0 + B1 X1 + B2 X2+...+ Bp Xp
Lineáris regresszió A lineáris kapcsolat kitüntetett:
= P(Y1= ε1) P(Y2= ε2) L P(Yn= εn) ≈ 1 1 ≈ ———— · ———— · L -Z 1 1-e 1 - e-Z2
1 ———— 1 - e-Zn
·
Σ ln(—————————————— )
ln L(εε1,εε2,...,εεn) =
1
1 - exp (B0 + B1 X1 + B2 X2+...+ Bp Xp)
Lineáris regresszió Az empirikus lineáris regresszió együtthatóit a legkisebb négyzetek módszerével kaphatjuk meg:
(1) a legegyszerőbb és leggyakoribb, könnyő a két paramétert értelmezni (2) két dimenziós normális eloszlás esetén a kapcsolat nem is lehet más (vagy lineáris vagy egyáltalán nincs)
Az empirikus lineáris regresszió együtthatói az elméleti regressziós egyenes együtthatóitól annyiban különböznek, hogy a képletekben az elméleti momentumok helyett a mintából számolt megfelelı empirikus momentumok állnak:
4
Lineáris regresszió
A lineáris regresszió
A teljes négyzetösszeg Q = Qres + Qreg
(xi, yi )
y res
A maradékösszeg
(xi, yˆ i )
reg
( x, y )
A regressziós összeg
yˆi = b + a⋅ xi x
0
A lineáris regresszió A teljes négyzetösszeg felbontása:
Q = Qres + Qreg fres szabadsági foka mindössze 1, mert az átlag konstans
freg szabadsági foka n-2, mert n tagú az összeg, de ezek között két összefüggés van. Ha nincs lineáris regresszió, a varianciák hányadosa (1, n-2) szabadsági fokú F eloszlást követ.
Megjegyzések:
2.
A legkisebb négyzetek módszere alapelve:
y
yˆi
2 s reg 2 s res
(x5, y5)
e3
Q reg F =
= b + a⋅ xi (x3, y3)
=
f reg Q reg ( n − 2 ) = Q res Q res f res
A lineáris regresszió 1.
A lineáris regresszió
(x1, y1) e1
e2 (x2, y2)
e5 e4 (x4, y4)
0
x
A lineáris regresszió Tervezett (determinisztikus) megfigyelés Fıleg mőszaki alkalmazasokban gyakori, hogy a méréseket Y -ra elıírt x beálltásoknál végzik el, és így keresik az ismeretlen Y~f(x) függvénykapcsolatot. A modell ilyenkor az, hogy Y = f(x) +ε, ahol ε a mérési hibát jelentı valószínőségi változó, melyre E ε = 0 és σ2ε véges.
5
Gauss-Markov-tétel
Lineárisra visszavezethetı kétparaméteres regresszió ℑ = { f ( x; a, b)}
E(Y − f ( X ; a * , b * )) 2 = min E(Y − f ( X ; a , b)) 2 ∀f ∈ℑ
Amennyiben találhatók olyan alkalmas
függvények, amivel
g , h, k1 , k 2
a probléma linearizálható: y = f ( x; a, b) ⇔ g ( y ) = k1 ( a, b) ⋅ h ( x ) + k 2 ( a, b) E( g (Y ) − k1* ⋅ h( X ) − k 2* ) 2 = min E( g (Y ) − k1 ⋅ h( X ) − k 2 ) 2 ∀k , k A trükkel nem az eredeti minimalizálási feladat megoldását a* ≈ k1−1 (k1* , k 2* ),b* ≈ k 2 −1 (k1* , k 2* ) kapjuk meg, csak attól nem túl messze esı közelítéseket! 1
Lineárisra visszavezethetı kétparaméteres regresszió
Lineárisra visszavezethetı kétparaméteres regresszió
y = a ⋅e
y=x**5
y = a ⋅ xb
hatványfüggvény: exponenciális függvénykapcsolat:
2
H A T V
bx
4000000
3000000
2000000
y * = ln y = b ⋅ x + ln a = k1 ⋅ x + k
1000000
2
0
y=exp(0.2*x) E 60 X P 50
-1000000 0
y = a⋅e
30
Arrhenius:
20
4
6
8
10
12
14
16
18
20
16
18
−b x y=exp(-5/x)
10 0 0
2
4
6
8
10
12
14
16
18
20
y * = ln y = −b ⋅
X
y = ln y = ax + b
„growth” függvény: y = exp( a + bx ) „compoud” függvény:
y=
.6
.4
.2
0.0
b = −k1, a = e k2
-.2 0
y * = ln y = ln a + x ⋅ ln b
y = a ⋅bx
1 a + b⋅ x
1 + ln a = k1 ⋅ x * + k 2 x
.8
A R R H
*
4
6
8
10
12
14
20
Lineárisra visszavezethetı kétparaméteres regresszió homogén kvadratikus: y = a ⋅ x 2 + b ⋅ x
y=1/(1+5*x) .18
R E C I
2
X
Lineárisra visszavezethetı kétparaméteres regresszió reciprok:
2
X
40
.16
y =a⋅x+b x
y* =
.14 .12 .10 .08
y=x*x+5*x K V A D R
600 500 400 300 200
.06
1 y = = a⋅x+b y
100
.04
*
.02
0 0
0.00 0
2
4
6
8
10
12
14
16
18
20
2
4
6
8
10
12
14
16
18
20
X
X
y=x/(1+5*x)
a⋅ x y= 1+ b ⋅ x
racionális:
R .20 A C I .19
.18
logaritmikus:
b x
y = a ⋅ ln (b ⋅ x ) = a ⋅ ln b + a ⋅ ln x y=ln(5*x)
y=1+5/x
.16 0
L 5.0 O G 4.5
H 7 I P 6 E R
.17
4.0
5
2
4
6
8
10
12
14
16
X
1 1 1 b 1 k y = = ⋅ + = k1 ⋅ x * + k 2 ⇒a = , b = 2 , y a x a k1 k1 *
y=a+
hiperbolikus:
18
3.5
20 4
3.0
3
2.5
2
2.0 1.5
1 0
X
2
4
6
8
10
12
14
16
18
20
0
2
4
6
8
10
12
14
16
18
20
X
6
Linearizálás, pl.
Polinomiális regresszió
A polinomiális regressziós feladatot többváltozós lineáris regresszióval oldhatjuk meg, a prediktor változók ilyenkor az X változó hatványai: Xi=X i !
Polinomiális regresszió
A regresszió közelítése Nadaraja módszerével Az X és Y változók között a „tökéletes” függvénykapcsolatot az r(x)=E(YX=x) regressziós görbe adja meg. Nadaraja nemparaméteres módszere a sőrőségfüggvény Parzen-Rosenblatt becslését használja. A sőrőségfüggvény becslését felhasználva a
Polinomiális regresszió
A regresszió közelítése Nadaraja módszerével Tétel: Legyen az (X1, Y1), (X2, Y2), …, (Xn, Yn) minta együttes sőrőségfüggvénye f(x,y). Legyen továbbá k(x) olyan páros sőrőségfüggvény, amelyre igazak a következık: Pl. k(x)=ϕ(x) és hn=n-1/3 (i) k(x) korlátos függvény jó választás, (ii) x⋅k(x)→0 ha x→∞ (iii) k(x) második momentuma véges Legyen a hn>0 számsorozat olyan, hogy (iv) hn nullsorozat ∀ε > 0 : P ( r ( x) − r ( x) > ε ) → 0 (n → ∞, ∀x ∈ IR (v) n⋅hn→∞ Akkor az n x−X n
E(Y X = x ) = r ( x ) =
+∞
∫y⋅
−∞
f X ,Y ( x, y ) f X ( x)
regressziós görbét „közvetlenül” becsli.
dy
∑ Y ⋅ k
rn ( x) =
i
i
hn n x − Xi k ∑ hn i =1
i =1
az r(x) regressiós görbe konzisztens becslése.
7
A regresszió közelítése Nadaraja módszerével Mivel minden esetben bár nagy, de mégiscsak véges mintával végezzük a becslést, a hn sorozat megadása helyett a n
rn ( x ) =
Egy meteorológiai mérıballon segítségével különbözı magasságokban megmérték a levegı napi ózon szintjét. Az összesen n=330 napon mértek:
x − xi ⋅ k h x x − i k h
∑y i =1
Egy példa az alkalmazásra
i
kifejezésben a h paraméterrel minimalizálunk.
Egy példa az alkalmazásra A két változó szóródásábrája:
Egy példa az alkalmazásra Gaussi magfüggvényt használva:
Egy példa az alkalmazásra
A többváltozós lineáris regresszió
A regresszió Nadaraja becslése: A független változók azon lineáris kombinációját keressük, amelynél a függıváltozót legkisebb négyzetes hibával tudjuk közelíteni:
~ Yi = Yi + ε i = b0 + b1 ⋅ X 1i + b2 ⋅ X 2i + .... + bk ⋅ X ki + ε i
∑ (Yi −Y~i ) = ε n
i =1
2
2
n
=
∑ε
2 i
(
= Y − Xb
) (Y − X b) = T
i =1
= Y T Y − bT X T Y − Y T X b + bT X T X b =
= Y T Y − 2Y T X b + bT X T X b = Q (b) → min b
8
A többváltozós lineáris regresszió
A többváltozós lineáris regresszió
Az együtthatók meghatározása a legkisebb négyzetek módszerével:
∂Q T T = − 2X Y + 2X X b = 0 ∂b
(
X Xb = X Y ⇒ b = X X T
T
T
)
−1
T
X Y
A többváltozós lineáris regresszió
A többváltozós lineáris regresszió
Szórásanalízis (ANOVA) a modell érvényességének eldöntésére Béta-együtthatók
H0 :
β 1 = β 2 = ... = β k = 0 SSR SSE
(k − 1)
BETAi = bi ⋅ S i Sy
∈ Fk −1,n−k
A béta-együtthatók egyfajta
(n − k )
bi
A nullhipotézis az, hogy a független változók mindegyike 0, vagyis egyik prediktor változó sem magyarázza a célváltozót!
(i = 1,2,..., k )
F-próbával dönthetünk a nullhipotézisrıl.
Si Sy
A többváltozós lineáris regresszió R2 (coefficient of determination) meghatározottsági együttható
szempontból minısítik a változók az i-edik regressziós együttható,
az i-edik
fontosságát a lineáris összefüggésben. Ha egy változónak az együtthatója abszolút változónagy standard szórása, értékben, akkor fontos, ha kicsi, kevésbé fontos .
a célváltozó standard szórása.
A többváltozós lineáris regresszió Az R2 érték megmutatja a lineáris kapcsolat mértékét
Ha csak egy SSR SSE magyarázó változó R2 = = 1− , 0 ≤ R2 ≤1 SSTO van, akkor R2 éppen a SSTO Megmutatja, hogy a lineáris korrelációs regresszióval a célváltozó együttható négyzete! varianciájának mekkora
∑ (X i − X )(Yi − Y ) hányadát lehet magyarázni n
R=±
SSR = SSTO
i =1
∑ (X i − X ) ∑ (Yi − Y ) n
i =1
2
n
,
− 1 ≤ R ≤ 1.
2
i =1
9
A többváltozós lineáris regresszió Korrigált (adjusztált) meghatározottsági mutató
Radj = 1 − (1 − R 2 ) 2
n −1 SSE / (n − p − 1) = 1− n − p −1 SSTO / (n − 1)
A korrekció azért szükséges, mert újabb változók bevonásával R2 automatikusan nı, és túl optimista képet mutat a modell illeszkedésérıl. Az adjusztált változatban „büntetjük” a túl sok változó bevonását a modellbe. p=1 esetben nem korrigálunk.
p a független változók száma
A többváltozós lineáris regresszió Modell-építési technikák
Egy tipikus többváltozós lineáris regressziós problémánál adott az Y célváltozó és nagy számú X1, X2,…, Xp magyarázó változó. Az elemzés kezdetekor azt sem tudjuk, melyek azok a változók, amik bekerülnek, és melyek azok, amik nem kerülnek majd be a modellbe. Ha minden lehetséges kombinációt ki akarnánk próbálni, akkor összesen Már 4 változó esetén 15 modellt kellene illesztenünk!
Tegyük fel, hogy bevontuk a p-edik magyarázó változót a modellbe. Ha az új változó magyarázó ereje elhanyagolható, akkor az alábbi statisztika 1, n-p-1 szabadságfokú Fisher-eloszlást követ: Fp =
R −R ⋅ (n − p − 1) 1− R2 2
2 0
R 2 az új p változós modell meghatározottsági együtthatója,
p
−1
Modell-építési technikák Automatikus modellépítési technikák: • • • •
STEPWISE FOREWARD BACKWARD REMOVE
A felhasználónak csak az indulási magyarázó változó listát kell specifikálnia, az SPSS program ebbıl választva állít elı „jó” modelleket, amik közül választhatunk „végsı” megoldást.
A többváltozós lineáris regresszió A parciális F-próba
A többváltozós lineáris regresszió
Modell-építési technikák
Alkalmazhatjuk az ENTER eljárást, amelyben azokat a magyarázó változókat vesszük be a változólistából a modellbe, amely változókat szeretnénk, hogy benne legyenek. Ezeket a modelleket utólag értékelni kell a meghatározottsági együttható nagysága, és a regressziós együtthatók szignifikancia szintje alapján. A módosításokkal újra el kell végezni az illesztést.
p
modellillesztést kellene elvégeznünk!
A többváltozós lineáris regresszió
Nyilván szőkítenünk kell kell az illesztendı modellek számát!
p
k =1
∑ k = 2
A többváltozós lineáris regresszió A parciális F-próba A p-edik változót akkor vonjuk be a modellbe, ha
(
)
Kε ⋅ 1 − R2 < R 2 − R02 (n − p − 1)
ahol Kε
olyan kritikus érték, hogy:
P(F1,n-p -1 < K ε ) = 1 − ε
p-1 változós modell meghatározottsági együtthatója,
R02 a régi
10
A többváltozós lineáris regresszió FOREWARD modell-építés Alulról építkezı modellépítési eljárás. Minden modellépítési lépésben a listából azt a változót vonjuk be, amely F-tesztjéhez a legkisebb ε szint tartozik. A bevonási folyamat addig tart, amíg ez a legkisebb ε szint egy beállított PIN korlát alatt marad. Elınye, hogy viszonylag kevés magyarázó változó lesz a modellben, így könnyebb a modellt értelmezni.
A többváltozós lineáris regresszió STEPWISE modell-építés A FOREWARD eljárást úgy módosítjuk, hogy minden lépésben ellenırizzük a modellbe korábban már bevont változókhoz tartozó ε szignifikancia-szintet, és azt elhagyjuk, ahol ez a szint nagyobb mint POUT. Nem kerülünk végtelen ciklusba, ha PIN
A többváltozós lineáris regresszió Multikollinearitás Multikollinearitáson a magyarázó változók között fellépı lineáris kapcsolat meglétét értjük. A multkollinearitás jelenléte rontja a modell értékelhetıségét. A multikollinearitás mérıszámai: • • • •
tolerancia variancia infláló faktor (VIF) kondíciós index (CI) variancia hányad
A többváltozós lineáris regresszió BACKWARD modell-építés Felülrıl lebontó eljárás. Kezdetben az összes változót berakjuk a modellbe. Minden lépésben azt a változót hagyjuk el a modellbıl, amelynél parciális F-próbánál a legnagyobb ε érték tartozik. Akkor állunk meg, ha az elıre beállított POUT küszöbérték alá megy ez az ε. A BACKWARD modellépítéssel viszonylag sok magyarázó változó marad benn a modellben.
A többváltozós lineáris regresszió REMOVE modell-építés A REMOVE eljárás az ENTER beállításából indul ki, egyszerre hagy el változókat a modellbıl, összehasonlításként csak a konstans tagot tartalmazó modell eredményeit közli.
A többváltozós lineáris regresszió A multikollinearitás mérıszámai 1. tolerancia azt méri, hogy az i-edik magyarázó változót az összes többi milyen szorosan határozza meg. A nullához közeli tolerancia jelenti azt, hogy közel függvényszerő kapcsolat van a magyarázó változók között. Értéke 1-Ri2, ahol Ri az i-edik változónak a többivel vett lineáris regressziójának a korrelációs együtthatója, a többszörös korrelációs együttható. A variancia infláló faktor (VIF) a tolerancia reciproka: VIF=1/(1-Ri2). Ezért, ha a magyarázó változók között szoros a kapcsolat, VIF végtelen nagy is lehet. Ha a magyarázó változók korrelálatlanok, a VIF értéke 1.
11
A többváltozós lineáris regresszió
A többváltozós lineáris regresszió
A multikollinearitás mérıszámai 2.
A becslést befolyásoló pontok feltárása
A kondíciós index (CI) a magyarázó változók korrelációs mátrixának sajátértékeibıl számolt statisztika. A legnagyobb és legkisebb sajátértékek hányadosának négyzetgyöke. A CI>15 esetében megállapítható az erıs kollinearitás. CI =
A lineáris regressziós modell értékelésének fontos lépése az egyes adatpontok fontosságának feltárása. Melyek azok az adatpontok, amelyek a végleges összefüggést legerısebben mutatják, erısítik, és melyek azok az ún. outlier pontok, melyek legkevésbé illeszkednek az adott regressziós összefüggésbe.
λ max λ min
Variancia hányad is utalhat multikollinearitásra. Ha egy-egy nagy kondíciós index sorában több regressziós együtthatónak van magas variancia hányada. A regressziós együtthatók varianciáit a sajátértékek között szétosztjuk.
A többváltozós lineáris regresszió
A többváltozós lineáris regresszió
A becslést befolyásoló pontok feltárása
A becslést befolyásoló pontok feltárása
A Y célváltozó és a lineáris becslés közötti kapcsolat:
(
~ T Y = X ⋅B = X ⋅ X X
)
−1
(
X ⋅Y = H ⋅Y
H =X⋅ X X
T
T
)
−1
X
(
H =X⋅ X X
T
SSE = Y ⋅ (E − H )Y T
SSR = Y H ⋅ Y − n ⋅ ( y n ) T
)
−1
X
T
a leverage (hatalom) vagy hat mátrix
A mátrix szimmetrikus, hii diagonális elemei azt mutatják, hogy az i-edik eset mekkora hatást fejt ki a regressziós becslésre.
A becslés hibavektora, maradékösszeg, regressziós összeg: ~ e = Y − Y = (E − H )Y
T
2
(
hii = x i X ⋅ X T
T
)
−1
x i , ahol n
∑h
ii
xi
az i-edik esetvektor 1 ≤ hii ≤ 1 n
= p +1
i =1
A többváltozós lineáris regresszió
A maradéktagok (reziduálisok) elemzése
A becslést befolyásoló pontok feltárása p +1 n
hii ≈esetek! Az i-edik eset befolyása átlagos, ha ezek a tipikus
Az i-edik eset befolyása jelentıs, ha Ha hii − Ha hii −
1 < 0, 2 n
0,2 ≤ hii −
A többváltozós lineáris regresszió
hii > 2 ⋅
p +1 n
az i-edik eset bevonható az elemzésbe
1 < 0,5 kockázatos az i-edik eset bevonása n
1 ≥ 0,5 az i-edik esetet ki kell hagyni, „outlier” pont n
A lineáris becslés elkészítésekor nem számolunk az i-edik esettel, „töröljük”.
Közönséges reziduális: e i = Yi − Yˆi
Törölt reziduális:
e ( i ) i = Yi − Yˆ( i ) i =
Standardizált reziduális:
zi =
ei 1 − hii
ei
n − p −1
n
∑e
2 i
i =1
Belsıleg studentizált reziduális:
ri =
n − p −1
ei n
∑e
2 i
1 − hii
i =1
12
A többváltozós lineáris regresszió
Példa kétváltozós lineáris regresszióra
A maradéktagok (reziduálisok) elemzése Heteroszkedaszticitás: A maradéktagok nulla szint körüli szóródásának lehetséges típusai a.) a szóródás megfelel a lineáris modellnek, b.) nem a lineáris modellhez tartoznak a maradéktagok, c.) a szóródások nem azonosak, d.) a hibatagok nem függetlenek egymástól.
Példa kétváltozós lineáris regresszióra
Példa kétváltozós lineáris regresszióra a maradéktagok
Keressünk lineáris összefüggést az employee data állományban a kezdıfizetés és a jelenlegi fizetés között!
Példa kétváltozós lineáris regresszióra
Példa kétparaméteres nemlineáris regresszióra Keressünk nemlineáris kapcsolatot Cars állományban a lóerı és a fogyasztás között!
Heteroszkedaszticitás jelensége megfigyelhetı: nagyobb X-hez nagyobb szórás tartozik!
13
Példa kétparaméteres nemlineáris regresszióra
Példa kétparaméteres nemlineáris regresszióra Model Summary and Parameter Estimates Dependent Variable: Miles per Gallon Equation Linear Logarithmic Inverse Power Exponential Logistic
R Square ,595 ,658 ,659 ,705 ,669 ,669
Model Summary F df1 572,709 1 751,882 1 754,263 1 933,576 1 788,834 1 788,834 1
df2 390 390 390 390 390 390
Sig. ,000 ,000 ,000 ,000 ,000 ,000
Parameter Estimates Constant b1 39,855 -,157 108,452 -18,536 3,963 1808,017 1023,877 -,836 47,300 -,007 ,021 1,007
The independent variable is Horsepower.
Példa kétparaméteres nemlineáris regresszióra
Példa kétparaméteres nemlineáris regresszióra Model Summary and Parameter Estimates Dependent Variable: Miles per Gallon Equation Power
R Square ,705
Model Summary F df1 933,576 1
df2 390
Sig. ,000
Parameter Estimates Constant b1 1023,877 -,836
The independent variable is Horsepower.
Példa többváltozós lineáris regresszióra Végezzünk lineáris elemzést az employee data állományon! A jelenlegi fizetés legyen a célváltozó, a magyarázó változók a kezdıfizetés, alkalmazás ideje (jobtime) és a dolgozó kora legyen!
Példa többváltozós lineáris regresszióra
A konstans szerepe elhanyagolható a modellben.
14