Regresszió Fő cél: jóslás Történhet: 1 változó – több változó segítségével Lépések: • Létezik-e valamilyen kapcsolat a 2 változó között? • Kapcsolat természetének leírása (mat. egy.) • A regressziós egyenlet alapján történt jóslás pontosságának meghatározása. • Több változós esetben: magyarázó változók relatív fontosságának meghatározása.
Függetlenség vizsgálat • Chi négyzet teszt • Korrelációs együttható:
r
( xi
x )( yi
( n 1) s x s y
y)
Lineáris regresszió Regressziós egyenes y’ = a + b*x, ahol y’ jelöli a függő változó jósolt értékét a független változó egy adott értéke mellett.
Regressziós egyenes A legjobban illeszkedő regressziós egyenes a legkisebb négyzetek módszerén alapszik, ahol
( yi
' 2 i
y)
minimalizálva van. Megoldás:
b
a
( xi
x)( yi ( xi
y bx
x)
y) 2
Regressziós modell feltételezései • A magyarázó változó (x) minden értékéhez létezik a cél változónak (y) egy valószínűségi eloszlása, ahol az értékek ebből az eloszlásból véletlenszerűen jönnek. • Az y ezen eloszlásainak szórása minden valószínűségi eloszlás esetében azonos. • Lineáris esetben +1 feltétel: y eloszlások várható értéke: y
x
Lineáris regressziós modell Ezen feltételezések alapján a célváltozó megfigyelése:
yi
x ei
ei az y értékek természetes szóródása a regressziós egyenes körül (véletlen rész)
Jóslás pontossága Alfa, béta a populáció regressziós egyeneséhez tartozik. a, b: minta regressziós egyeneséhez tartozik (b pl. az bétát becsli) A jósolt yi’ és a megfigyelt yi értékek eltéréséből adódó szórás: Becslés standard hibája:
sy
( yi x
yi' ) 2
n 2
Hibák 3 forrása 3 forrásból adódhat eltérés: a) az igazi regressziós egyenes körüli ingadozásból: sy*x b) alfa paraméter becslésének hibájából c) béta paraméter (meredekség) becslésének hibájából
Magyarázott variancia aránya
s s
2 y' 2 y
r
2
r2 determinációs együttható méri a magyarázott variancia arányát
Többváltozós regresszió számítás 1 cél változó és sok bemeneti változó. Többváltozós lineáris regressziós egyenlet: y’= a+b1x1+b2x2+…+bkxk minta megfigyelésére támaszkodó egyenlet y’ jósolt érték a, b regressziós együtthatók
Többszörös korrelációs együttható R megmutatja a korrelációt célváltozó és a súlyozott magyarázó változók között. R2 (többszörös determinációs együttható) megmutatja a variancia arányát a magyarázó változók és a célváltozó között.
Magyarázó változók kiválasztása Néhány esetben szükségünk lehet olyan regresszióra, ahol csak néhány magyarázó változó szerepel. Feladat: • Regressziós függvény legyen alkalmas becslési célokra. • Lehető legkevesebb magyarázó változó segítségével oldja meg adott megbízhatósági szinten belül.
Backward eliminációs eljárás • (Backward Elimination Procedure) • Összes magyarázó változóból indul ki. • F vagy t próba segítségével a regressziós együtthatókat szeparált módon teszteli. • Az előre megadott szignifikancia-szint miatt lesznek szignifikáns és nem szign. paraméterekkel rendelkező változók. • Nem szign. változók közül a legalacsonyabb F vagy t értékű változót elhagyjuk. • Regresszió függvényt újra számoljuk.
Forward szelekciós eljárás • (Forward Selection Procedure) • Üres halmazból indul ki. • F vagy t próba segítségével a regressziós együtthatókat szeparált módon teszteli. • Legnagyobb F vagy t értékű paraméterrel rendelkező szignifikáns változót berakja a regressziós egyenletbe. • Regresszió függvényt újra számolja.
Stepwise (regressziós) eljárás • Előző kettő kombinációja. • Lépésenként be- és kivesz. • Lehet üres halmazból indulva egyesével növelni a változók számát VAGY összes változóból egyenként kivenni. • Pl. üres halmazból indulva: legnagyobb F vagy t értékű bekerül. Minden további beválasztás után megvizsgáljuk, hogy a bent levők közül lehet-e valamelyiket kiszórni (F vagy t próba). • Eljárás üres halmazból addig folytatódik, míg R2 szignifikáns nem lesz. VAGY: Összes változóból a következő elhagyásával az R2 már nem lenne szignifikáns.
Multikollinearitás (kollinearitás) problémája
• Két vagy több magyarázó változó lineáris korrelációs kapcsolatát értjük. • Teljes vagy extrém multikollinearitás: egy változó kifejezhető a többi lineáris kombinációjaként. • Problémák: • Egyik változó változása együtt jár a másik változó értékének megváltozásával. Ezért a szeparált vizsgálat nehezen végezhető. • Y érték kis változására érzékenyek a regressziós függvény paraméterei
Logisztikus regresszió Logisztikus függvény 0 és 1 közötti értéket vesz fel. Pl: válaszadási valószínűség
ügyfelek
Logisztikus regresszió képlete • Csak 2 értékű célváltozónál használható
pi
Zi
B0
e
Zi
1 e
Zi
Bi X i1 B2 X i 2 ... BN X iN