Szent István Egyetem Gazdaság- és Társadalomtudományi Kar --------------------------------------------------------------------------------------------
Korreláció- és regresszió analízis
---------------------------------------------------------------------------------------------------------------------Boros Daniella Nappali tagozat Kereskedelem és marketing 2. évfolyam Gödöllő Neptun kód: OIPGB9
1. Célkitűzések megfogalmazása Ekkor dönti el a felhasználó, hogy milyen jelenséget próbál magyarázni és ehhez milyen adatbázis szükséges. Célom az, hogy röviden jellemezzem Magyarország 1997. évi kereskedelmi kapcsolatát az európai országokkal.
2. Adatbázis megteremtése Saját megfigyelésből, kikérdezés útján (pl.: kérdőíves felmérés),kísérlet beállítása alapján, statisztikai szolgálat Feltétel: Megbízhatóság Kellő számú megfigyelés szükséges Magyarország külkereskedelmi forgalmának értéke (milliárd Ft) a főbb európai országokkal 1997-ben Ország Ausztria Belgium Csehország Franciaország Hollandia Lengyelország Nagy-Britannia Németország Olaszország Oroszország Svájc Svédország Szlovákia Szlovénia Ukrajna
Export 406 87 60 134 100 95 119 219 181 41 27 49 54 47 1329
Import) 418 93 95 172 102 67 136 291 363 68 49 75 21 53 1068
Forrás: KSH: Magyar Statisztikai Évkönyv 1997.
1. táblázat 1500 1000 500 0 0
200
400
600
800
Korrrelogram 1. ábra 2
1000
1200
1400
3.
Függvény - specifikáció (függvény típusának kiválasztása)
Feladat: Olyan egyenes vagy görbe megállapítása, amelyek legjobban illeszkednek az eredeti pontokra. Ehhez meg kell vizsgálni a kapcsolat irányát és szorosságát (korreláció), majd fel kell tárni az ok-okozati összefüggéseket is (regresszió). Hipotézis: A korrelogram alapján egy lineáris kapcsolat feltételezhető a változók között. Valószínűsíthető, hogy egy monoton növekvő lineáris regressziós függvénnyel leírható a kapcsolat
Korreláció számítás Az export és az import összefüggése Export Import MFt ( x ) MFt ( y ) 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. Összesen Átlag
x2
y2
xx
yy
( x x) ( y y )
( x x )2
( y y )2
174724 8649 9025 29584 10404 4489 18496 84681 131769 4624 2401 5625 441 2809 1140624
209 -110 -137 -63 -97 -102 -78 22 -16 -156 -170 -148 -143 -150 1132
213 -112 -110 -33 -103 -138 -69 86 158 -137 -156 -130 -184 -152 863
44672 12239 14982 2047 9917 13985 5329 1938 -2458 21267 26402 19140 26188 22689 977621
43876 11998 18641 3910 9319 10309 6011 505 241 24191 28742 21766 20316 22360 1282481
45483 12484 12041 1071 10554 18970 4724 7442 25048 18696 24253 16831 33758 23023 745229
0 0
0 0
1195957 79730
1504666 100311
999609 66641
406 87 60 134 100 95 119 219 181 41 27 49 54 47 1329
418 93 95 172 102 67 136 291 363 68 49 75 21 53 1068
164836 7569 3600 17956 10000 9025 14161 47961 32761 1681 729 2401 2916 2209 1766241
2948 197
3071 205
2084046 1628345 138936 108556
Forrás: Saját számítás
2. táblázat
3
Kovariancia Az átlagtól való eltérések szorzatának átlaga. Előjele megadja a kapcsolat irányát. C
d d X
Y
n
dx x x
, ahol
dy y y
Korrelációs együttható számítása (2. táblázat): 1195957 = 79730,48 (>0) 15 Értelmezés: Az export és import közötti kapcsolat pozitív irányú
C=
Korrelációs együttható Két mennyiségi ismérv kapcsolatának szorosságát és irányát adja. Értéke -1 és 1 közé esik. C d x d y = ( x x) ( y y ) r r x y d x2 d y2 ( x x) 2 ( y y) 2
Korrelációs együttható számítása (2. táblázat): r=
1195957 1504666 999609
= 0,98
Értelmezés: Az export és az import között igen szoros (majd determinisztikus), pozitív kapcsolat áll fenn. A korrelációs együttható megbízhatóságának vizsgálata (t-próba) H0: r=0 (a két változó között nincs lineáris összefüggés) H1: r≠0 (a két változó között igazolható lineáris összefüggés) r Próbastatisztika: t emp Sr
Standart hiba:
t meghatározása:
1 r2 Sr = n2
r 1 r2
n2
H0 elfogadásra kerül, ha temp ≤ t / 2,n2 H1 elutasításra kerül, ha temp > t / 2,n2
4
t számítása: t=
0,98 1 0,98 2
15 2 =15,88
temp =2,16 - táblázatból
Értelmezés: Az eredmény azt mutatja, hogy 95% os megbízhatósági szinten a korrelációs együttható értelmezhető, hiszen a számított t-érték nagyobb, mint a táblázatbeli érték. Determináció-vizsgálat: A determinációs együttható (r2) megmutatja, hogy a magyarázóváltozó hány %-ban befolyásolja az eredményváltozó szóródását. A determinációs együttható jellemzi: A regressziós függvény illeszkedését, a modell magyarázó erejét. A determinációs együttható számítása: .
.
D = r2 100 = 0,982 100 = 95,1% Értelmezés: Az export 95,1%-ban befolyásolja az import szóródását.
5
Regresszió számítás 4-
A kiválasztott függvény paramétereinek számítása ()
A regresszió-számítás az összefüggésekben lévő tendenciát vizsgálja és a kapcsolat természetét valamilyen függvénnyel írja le. Kétváltozós lineáris regressziós modell: Y x , ahol az y tengely metszéspontja az egyenes meredekségét meghatározó iránytangens véletlen változó (hibatényező) A regressziós modell feltételrendszere 1. 2. 3. 4.
Az véletlen változó, melynek várható értéke 0. M ( )=0 Az varianciája, azonos x valamennyi értékére (ez a homoszkedaszticitási feltétel) Az értékei egymástól függetlenek. A hibatényező normális eloszlású véletlen változó. A becsült regressziós függvény
yˆ a bx
Legkisebb négyzetek módszere
yi yˆ i min 2
a regresszió függvényt behelyettesítve a célfüggvénybe
yi a bx min 2
eljutunk a normál egyenletekhez
yi an b xi xi yi a xi b xi2
vagy a normálegyenletek transzformálásával d x x x , d y y y eljutunk a paraméterek meghatározásához.
d d d
b
x
y
2 x
a y bx
Paraméterek meghatározása (2. táblázat): b
( x x) ( y y) = 1195957 0,795 150466 ( x x) 2
6
a y b x = 205 –0,795 197 = 48,522 REGRESSZIÓS FÜGGVÉNY:
yˆ a bx = 48,522 +0,795x 1250 y = 0,7948x + 48,522 R² = 0,951
1050 850 650 450 250 50 50
250
450
650
850
1050
1250
1450
Forrás: Adatbázis alapján
2. ábra
A regressziós értékek és eltérések kiszámítása Ország
Export MFt (x)
Import ˆ MFt (y) y 48,52 0,79 x yˆ
yˆ - y
( yˆ - y )2
y - yˆ
( y - yˆ )2
1.
Ausztria
406
418
371,2
166,5
27719,2
46,8
2188,0
2.
Belgium
87
93
117,7
-87,1
7579,6
-24,7
608,7
3.
Csehország
60
95
96,2
-108,5
11776,8
-1,2
1,5
4.
Franciaország
134
172
155,0
-49,7
2470,4
17,0
288,0
5.
Hollandia
100
102
128,0
-76,7
5887,2
-26,0
676,3
6.
Lengyelország
95
67
124,0
-80,7
6512,8
-57,0
3252,6
7.
Nagy-Britannia
119
136
143,1
-61,6
3797,8
-7,1
50,5
8.
Németország
219
291
222,6
17,9
318,9
68,4
4679,9
9.
Olaszország
181
363
192,4
-12,3
152,4
170,6
29108,8
10.
Oroszország
41
68
81,1
-123,6
15282,6
-13,1
171,9
11.
Svájc
27
49
70,0
-134,8
18157,7
-21,0
440,3
12.
Svédország
49
75
87,5
-117,3
13750,9
-12,5
155,5
13.
Szlovákia
54
21
91,4
-113,3
12834,7
-70,4
4962,2
14.
Szlovénia
47
53
85,9
-118,9
14126,3
-32,9
1081,1
15.
Ukrajna
1329
1068
1104,9
900,1
810218,2
-36,9
1358,3
Σ Átlag
2948 197
3071 205
3071 205
0 0
950586 63372
0 0
49023 3268
Forrás: Saját számítás
3. táblázat Regressziós értékek számítása a kiszámított paraméterek felhasználásával (3. táblázat). Az eredeti adatokat a következő regressziós függvénybe behelyettesítve:
7
5. Illeszkedésvizsgálat Ezzel mérjük azt, hogy az eredeti megfigyelések (y-ok) mennyire illeszkednek a regressziós értékekhez, vagyis yˆ -ekhez. Két mérőszáma is van, amely közül az egyik felveszi az eredeti adatok mértékegységét és nagyságrendjét, míg a második százalékosan jellemzi az illesztési hibát. Reziduális szórás (abszolút hiba): Kifejezi, hogy a regressziós becslések átlagosan mennyivel térnek el az y megfigyelt értékeitől. Se
( y yˆ )
2
n2
.
Relatív szórás (relatív hiba): Kkifejezi, hogy a regressziós becslések átlagosan hány %-al térnek el az y megfigyelt értékeitől. S VSe e 100 y Reziduális szórás számítása: Se
e
2
n2
( y yˆ )
2
n2
=
49023 = 61,41 milliárd Ft. 15 2
Az illesztés relatív hibája:
VSe
Se y
100 =
61,41 100 29,99% 205
Értelmezés: Vagyis az eredeti és a regressziós adatok átlagosan 61,41 milliárd Ft-tal és átlagosan 29.99 %-kal térnek el egymástól.
6. Szignifikancia-vizsgálatok (a modell és a paraméterek tesztelése), Ezekre a vizsgálatokra egyrészt a kapcsolatok sztochasztikus jellege miatt van szükség. Másrészt tulajdonképpen itt is mintákkal dolgozunk, mindig magában hordozza a hiba lehetőségé. Ezért, mind a regressziós modellt, mind a paramétereket le kell tesztelni, hogy a feladatra egyértelműen tudjak válaszolni.
A modell tesztelése variancia-analízissel (F-próba) DF
SS
MS
F
F szignifikanciája
Regresszió(R)
1
SSR ( yˆ i y) 2
MSR= SSR /DFR
MSR MSE
1%
Hiba(E)
n-2
SSE ( y i yˆ i )2
MSE= SSE /DFE
Összesen(T)
n-1
SST SSR SSE
Tényezők
4. táblázat 8
Az F-próba két sokaság (tényezők) szórásának összehasonlítására irányuló próba MSR Próbastatisztika: F MSE Az adatok meghatározása a táblázat szerinti képletekkel történik. A modell elfogadható, ha F 11 / 2, DF 2, DF1 < Femp ≤ F1 / 2, DF1, DF 2
, ellenkező esetben elutasításra
kerül. Számítások a 3. és 4. táblázat alapján Tényezők Regresszió(R) Maradék(E) Összesen(T)
DF
SS
MS
F
F szignifikanciája
1 13 14
950585,5 49023,4 999608,9
950585,5 3771,0
252,1
1%
Forrás: Saját számítás
5. táblázat Táblázatból: F 11 / 2, DF 2, DF1 F1 / 2, DF1, DF 2
= 9,07 =6157
Értelmezés: Látható, hogy regressziós modell helytálló, hiszen az F-érték szignifikanciája 1%-os. (9,07<252,1<6157)
Paraméterek tesztelése t-próbával H0: b=0 (a két változó között nincs lineáris összefüggés) H1: b≠0 (a két változó között igazolható lineáris összefüggés) H0 elfogadásra kerül, ha temp ≤ t / 2,n2 H1 elutasításra kerül, ha temp > t / 2,n2 Paraméterek tesztelése t-próbával Próbastatisztika:
ta
a Sa
tb
b Sb
x S . d .n 2
a paraméter becsült szórása (a standart hibája): S a
9
2 x
e
x n ( x x ) 2 i
i
2
Se .
b paraméter becsült szórása (b standart hibája):
Sb
Se
d
2 x
Számítások a 3. és 4. táblázat alapján
"a" paraméter "b" paraméter
Együtthatók
Standart hiba
t érték
p érték
Alsó határ (h1)
Felső határ (h2)
48,522 0,795
18,66 0,05
2,60 15,88
0,002 0,001
0,93 -0,64
97,97 10,75
Forrás: Saját számítás
6. táblázat
7. A regressziós értékek konfidencia határainak (h1, h2) a megállapítása A határok meghatározása:
együttható t1 2 s tan darthiba ahol
t1 2 a paraméterek táblázatbeli értékei a nekik megfelelő szignifika szinten
A konfidencia határainak (h1, h2) kiszámítása (6. táblázat): a paraméter táblázatbeli értéke:2,65 b paraméter táblázatbeli értéke:3,012
8. Elaszticitás (rugalmasság) meghatározása, A rugalmasság (elaszticitás) mérőszám arra ad választ, hogy ha X-et 1%-kal megnöveljük az hány %-os változást eredményez az Y változóban. Rugalmassági együttható lineáris regresszió esetén: b x E a b x A rugalmassági együttható értéke átlaghelyen: x E b y Ha, |E|<1, akkor y változó rugalmatlan az x változóval Ha, |E|>1, akkor y változó rugalmas az x változóval A rugalmasság kiszámítása sz átlaghelyen: 197 E 0,795 0,76 205 Értelmezés: A 197 milliárd Ft-os export 1%-os növekedésével 76 %-os lesz a behozatal mértéke.
10
Általános megállapítás: -
A modell szignifikánsnak tekinthető, hiszen a variancia-analízis 99%-os megbízhatóságot mutatott, hiszen a variancia-táblázatban 0,01 az „F” szignifikanciája.
-
A paraméterek szintén szignifikánsak, ugyanis az „a” paraméter szignifikanciája: 0,02, a ”b” paraméter szignifikanciája: 0,01.
-
a = 48,52: export nélkül 48,52 milliárd Ft behozatalra számíthatunk,(minimum 0,93 milliárd Ft, maximum 97,97 milliárd Ft).
-
b = 0,79: az export 1 milliárd Ft-os növekedésével átlagosan 0,79 millió Ft-os importnövekedésre számíthatunk (minimum -0,64 millió Ft, maximum 8,94 millió Ft).
-
A széles intervallumok megbízhatóak, viszont lehet, hogy kisebb megbízhatóságot választva még reálisabb kép alakult ki volna. Mégis valósnak tartom, mert az illesztés lazának mondható 29,99 % (az import adatok (y”-ok) és a függvény pontjai az úgynevezett regressziós értékek ( yˆ -tek) átlagosan távol állnak egymástól), és a két változó sem mutatott rugalmasságot egymással szemben (|E|<1). A b paraméter ezért mutat ilyen szélsőséges esetet (előfordulhat, hogy nincs szükség behozatalra, de az is előfordulhat a magyar gazdaságnak nagyon erős lesz az importigénye).
11