Statisztika I. 11. előadás Előadó: Dr. Ertsey Imre
Összefüggés vizsgálatok
A
társadalmi
gazdasági
élet
jelenségei
kölcsönhatásban állnak, összefüggnek egymással. Statisztika alapvető feladata: - tényszerűségek feltárása, szabályszerűségek számszerű jellemzése.
¾ A kapcsolat típusai lehetnek: 9 a jelenségek között oksági kapcsolat áll fenn, 9 funkcionális kapcsolat, 9 valószínűségi
korrelációs nevezzük).
vagy sztochasztikus kapcsolat (ezt vagy statisztikai összefüggésnek is
Sztochasztikus kapcsolatok típusai Asszociáció: két minőségi ismérv közötti
kapcsolat
nemek és iskolai végzettség, traktor típusa és szántás minősége
Rangkorreláció: sorba rendezett tényezők
közötti kapcsolat
borok minőségének megítélése
Korreláció: két mennyiségi ismérv közötti
kapcsolat
műtrágya és termés mennyiség
Vegyes kapcsolat: egy minőségi és egy
mennyiségi ismérv közötti kapcsolat
megyék és az egy főre jutó kereset
¾ Mennyiségi ismérvek közötti kapcsolatok: 9 y – okozat, 9 X1, X2,……,Xn, - okok,
9 általában sok ható tényező, 9 az
összefüggés vizsgálatba valószínűségi változók.
bevont
jellemzők
¾ Az összefüggések érzékeltetésének egyszerűbb
eszközei: 9 egymásmellé
helyezett
értékek
(statisztikai
sorok), 9 kombinációs tábla ( kontingencia tábla, két
mennyiségi ismérv kombinatív csoportosítása), 9 grafikus ábrázolás (pont diagram)
¾ Két változó összefüggése: először szakmailag
kell eldönteni, hogy van-e összefüggés. 9 egyenes vonalú (lineáris): ha az egyik változó
megváltozásának irányát a másik változó állandó mértékű, hasonló vagy ellentétes irányú változása követi 9 görbe
vonalú összefüggés (nem lineáris): az egymáshoz kapcsolódó ponthalmaz valamely függvénytípushoz hasonlít.
Az összefüggés szorosságát lineáris korreláció esetén: korrelációs koefficiens ⇒ korrelációs együttható
−1 ≤ r ≤ 1
Nem lineáris korreláció indexet számolunk:
esetén:
korrelációs
0 ≤ I ≤ 1 r
pozitív korreláció esetén 0-(+1)-ig negatív korreláció esetén 0-(-1)-ig
I
érték 0-(+1) közé esik (negatív értéket nem értelmezünk)
1.
Két változó lineáris korrelációjának mérése:
1.1. Előjel korreláció: ¾ az
átlagtól kiindulva,
való
eltérések
előjelpárjaiból
¾ az előjelek szorzási törvénye alapján határozzuk
meg az összefüggés erősségét,
p −q re = , ahol p +q p: egymáshoz tartozó eltéréspárok szerinti előjelbeli egyezés q: egymáshoz tartozó eltéréspárok szerinti előjelbeli különbözőség
1.2. Rangkorreláció:
¾ általában területi sorok adatai közötti kapcsolat
vizsgálatánál használjuk, ¾ nehezen, vagy egyáltalán nem mérhető változók
közötti kapcsolatok számszerűsítésére alkalmas.
Számítás menete: a vizsgált két változó értékeit nagyságuk sorrendjében rangszámokkal látjuk el. Ha a változók értékeit tekintve azonos értéknagyság fordul elő, akkor a logikailag egymás után következő rangszámok számtani átlagát használjuk az azonos értékek rangszámaként. A rangsorolás akkor helyes ha a rangszámok összege mindkét változónál egyenlő és megegyezik a vizsgálatba bevont változópárok sorszámának összegével.
6 ∑D 2 rr = 1 − n (n 2 − 1 ) Meghatározzuk a rangsorszámok különbségét (D) és
(
)
a különbségek négyzetösszegét ΣD 2 .
Szignifikanciájának megítélése táblázatból történik a számított D2 értéket hasonlítjuk össze a táblázat megfelelő
P%
és
szabadságfokánál
található
értékkel. Az összefüggés szignifikáns ha a számított D2 érték kisebb mint a táblázatbeli érték. Ha rr > r
akkor a két változó közötti kapcsolat
nem lineáris.
1.3. A legkisebb négyzetek elvén alapuló korreláció számítás ¾ szemben
az előző megbízhatóbb,
módszerekkel
pontosabb,
¾ az átlagtól való eltérések, illetve a szóródás
nagyságának vizsgálatán alapszik.
( )( )
r=
Σ x −x ⋅ y −y n
( )
2
( )
Σ x −x Σ y −y ⋅ n n
2
=
( )( ) Σ(x −x) ⋅Σ(y −y) Σ x −x ⋅ y −y 2
2
( )( )
Σ x −x ⋅ y −y r= n*σx *σy
kovariancia r = ____________________ a két változó varianciájának mértani átlaga
¾ az
átlagtól való eltérések szorzatösszegének előjele meghatározza a lineáris kapcsolat típusát és a változás jellegét,
¾ a
szorzatösszeget függetlenítenünk kell a megfigyelt adatpárok számától ezért osztjuk „n”-el. Ez az un. kovariancia,
¾ a
mértékegység megválasztásából eredő önkényességet (hibát) kizárjuk, ha a kovarianciát osztjuk a változók szórásával.
1.3.1. A korrelációs együttható megbízhatósága a) véletlen hiba (mr) b) korreláció biztosítottsága (t). 9
a korrelációs együttható is valószínűségi változó, úgy tekintendő mint az alapsokaság tényleges együtthatójának becslése (véletlen hibával terhelt). 1 −r2 mr = 3 mr < r n
meg kell állapítanunk, hogy a változók közötti kapcsolat a véletlennek tulajdonítható-e vagy pedig szignifikáns összefüggésnek tekinthető. -
Alaphipotézis: ¾ r értékének 0-tól való eltérése a véletlennek
köszönhető, ¾ a számított t értéket összehasonlítjuk a Student
táblázatban a megfelelő valószínűségi szinten (P5%) és n-2 szabadság foknál található „t” értékkel.
t =
r 1 −r
2
⋅ n −2
¾ ha a számított „t” érték a táblázatban lévő
értéknél nagyobb tsz> ttábl. a nullhipotézist elvetjük, azaz a korrelációs együttható 0-tól való eltérése nem a véletlennek köszönhető, tehát szignifikáns.
Az 1 főre jutó évi jövedelem és az élelmiszerre fordított kiadás alakulása Háztartások sorszáma
1 főre jutó évi
jövedelem
élelmiszer kiadás
x −x
y −y
(x − x ) 2 (y − y ) 2 (x − x ) * (y − y )
ezer Ft x
y
1.
72
24
-38,60
-14,80
1489,9
219,0
571,28
2.
96
36
-14,60
-2,80
213,1
7,8
40,88
3.
120
42
9,40
3,20
88,3
10,2
30,08
4.
130
44
19,40
5,20
376,3
27,0
100,88
5.
135
48
24,40
9,20
595,3
84,6
224,48
553
194
2763,2
348,8
967,60
110,60
38,80
Σ Átlag
a korrelációs együttható: r=
∑ (x − x )(y − y ) ∑ (x − x ) * ∑ (y − y ) 2
2
=
967,6 = 0,986 2763,2 * 348,8
Az ’r’ értéke 0,7-nél nagyobb így megállapítható, hogy az egy főre jutó jövedelem és az élelmiszerkiadás között igen szoros az összefüggés. A korrelációs együttható megbízhatósága:
1− r 2
1 − 0,986 2
1 − 0,9714 = = = 0,013 mr = 2,236 5 n Az ’mr’ értékének háromszorosa kisebb az ’r’ értékénél, azaz 0,013<0,986, így a korreláció biztosítottnak tekinthető
t próba: t =
r
1− r
2
⋅ n −2 =
t p 5% = 3,181
0,986 1 − 0,986
2
⋅ 3=
0,986 1 − 0,9714
⋅ 1,732 = 10,09
Szf=3
Nullhipotézisünk szerint az r=0, de mivel a számított ’t’ érték nagyobb, mint a kritikus ’t’, így a korrelációs együttható nullától való eltérése nem a véletlennek köszönhető, azaz a nullhipotézist elvetjük