Tartalomjegyzék
1. Bevezetés
2
2. Asszo iá ió
2
3. Rangkorrelá ió
3
4. Vegyes kap solat
4
5. Korrelá iószámítás
5
6. Regressziószámítás
6.1. Egyváltozós regresszió . . . . . . . . . . . . . . . 6.1.1. A legkisebb négyzetek módszere . . . . . 6.1.2. Logaritmikus regresszió . . . . . . . . . . 6.1.3. Exponen iális regresszió . . . . . . . . . . 6.1.4. Hiperbolikus regresszió . . . . . . . . . . . 6.2. A legjobban illeszked® függvénytípus kiválasztása 6.3. Többváltozós regresszió . . . . . . . . . . . . . . 6.3.1. A lineáris regresszió . . . . . . . . . . . . 6.3.2. A par iális korrelá ió . . . . . . . . . . . . 6.3.3. A többszörös korrelá ió . . . . . . . . . .
1
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
7
7 7 9 10 12 13 13 14 15 16
1.
Bevezetés
A statisztikai vizsgálatok során általában több ismérvet mérünk egyszerre. Felvet®dik a kérdés, hogy az egyes ismérvek között van-e oksági kap solat, befolyásolja-e az egyik ismérv megváltozása a másik ismérv megváltozását. Az ismérvek közti kap solat jellege többféle lehet. Amikor az egyik tényez® változása egyértelm¶en meghatározza a másik tényez® megváltozását függvényszer¶ kap solatról beszélünk. Amikor az egyik tényez® hat a másik alakulására, de az a hatás véletlenszer¶, akkor szto hasztikus kap solatról van szó. A harmadik eset, amikor nin s kap solat az ismérvek között. A szto hasztikus kap solatakat az alábbiak szerint soportosíthatjuk. Két min®ségi ismérv közötti kap solat az asszo iá ió. A rangkorrelá ió a sorba rendezett tényez®k közötti kap solat elemzésének eszköze. Vegyes kap solat egy min®ségi és egy mennyiségi ismérv között alakulhat ki. Két, vagy több magas mérési szint¶ ismérv együttes vizsgálatakor (ha nem függetlenek egymástól) általában két kérdés merül fel. Az egyik a két ismérv közötti kap solat szorosságának és irányának mérése. A másik fontos kérdés, hogy hogyan lehet következtetni az egyik változó értékéb®l a másik változó értékeire, vagyis az, hogy az egyik változónak milyen függvényével közelíthetjük "legjobban" a másikat. Az els® kérdésre a korrelá iószámítás a másodikra a regressziószámítás adja meg a választ. 2.
Asszo iá ió
A min®ségi ismérvek közötti kap solat szorosságát az asszo iá ió mutatószámaival mérjük. A min®ségi ismérveket ekkor több soportra bontjuk, illetve több szinten jelentkeznek az eltérések. (pl. iskolai végzettség szerinti megoszlás) A kapott adatokat egy ún. kontingen ia-táblázat ba rendezzük. A táblázat alapján a Cramer-féle asszo iá iós együttható jellemzi a szintek közötti eltérés mértékét: C=
s
χ2 ha s ≤ t, illetve n · (s − 1)
C=
s
χ2 ha s > t. n · (t − 1)
A fenti képletben s a sorok, t pedig az oszlopok számát jelenti, míg: χ2 =
X (fij − fij′ )2 ahol fij′ i,j fij′ =
fi. · f.j . n
Ha az együttható nullához közeli érték, akkor a sokaság egyes szintjei között nin s különbség, míg ha egyhez közeli értéket kapunk, akkor a sokaság egyes szintjei közötti eltérés szignikáns.
Példa. Megkérdeztek 197 fért és 153 n®t az üdít®fogyasztási szokásaikról. A válaszokat a következ® táblázat foglalja össze:
Nem Fanta Cola Sprite fér f11 = 49 f12 = 64 f13 = 84 f1. = 197 n® f21 = 33 f22 = 25 f23 = 95 f2. = 153 f.1 = 82 f.2 = 89 f.3 = 179 n = 350
Van-e különbség férak és n®k üdít®fogyasztási szokásaiban?
Megoldás. A részszámításokat egy táblázatban foglaljuk össze: ′ ′ ′ f11 = 46.15 f12 = 50.09 f13 = 100.75 ′ ′ ′ f21 = 35.84 f22 = 38.9 f23 = 78.24
A feladatbeli adatok és a fenti táblázat alapján a χ2 értéke: χ2 = 0.176 + 3.863 + 2.78 + 0.225 + 4.966 + 3.59 = 15.6.
Az asszo iá iós együttható: C=
s
χ2 = n · (s − 1)
s
15.6 = 0.211. 350 · (2 − 1)
Tehát nem igaz az, hogy a férak és n®k üdít®fogyasztási szokásai eltér®ek lennének. 3.
Rangkorrelá ió
Statisztikai mintavételnél el®fordul, hogy a változóknak sak valamilyen szempont szerinti sorrendje ismert, konkrét értékei viszont nem, vagy esetleg nin s is konkrét értéke a változónak. (pl. iskolai végzettség) Az ilyen ún. ordinális skálán mért változó közötti kap solatot rangkorrelá ó nak hívjuk. Mérésére a Spearman-féle rangkorrelá iós együttható és a Kendall-féle konkordan ia mutató használatos leggyakrabban. A Spearman-féle mutató kiszámítása az alábbiak alapján történik: p=1−
6·
Pn
2 i=1 (Rxi − Ryi ) . 2 n · (n − 1)
A képletben n a megvizsgált elemek számát, Rxi , illetve Ryi a rangszámokat jelenti. A Spearman-féle mutató értéke -1 és 1 közé esik. Ha az érték 1-hez közeli, akkor a kett® sorrend azonosnak tekinthet®, a -1-hez közeli érték a két sorrend fordítottságára utal. A 0 közeli eredmény azt mutatja, hogy nin s kap solat a két sorrend között.
Példa. A fejéskori viselkedés és az etetéskori nyugtalanság között van-e összefüggés a meggyelt öt állat esetén, ha a legnyugtalanabb állat az 1 értéket kapja stb...? i Fejés (Rx ) Etetés (Ry )
1. 2. 3. 4. 5.
1 2 3 4 5
2 1 3 5 4
Megoldás. Vegyük a megfelel® rangszámok különbségének négyzetét. Ezek rendre: 1, 1, 0, 1, 1. A meggyelt egyedek száma n = 5. Az együttható értéke: 3
p = 1−
6 · (1 + 1 + 0 + 1 + 1) = 0.96. 5 · (52 − 1)
Mivel 1-hez közeli értéket kaptunk, megállapíthatjuk, hogy amelyik állat etetéskor nyugtalanul viselkedik az fejéskor is hasonlóan nyugtalan. El®fordul, hogy nem két rangsort, hanem többet kell összehasonlítani. Ilyen típusú feladatok megoldására szolgál a Kendall-féle konkordan ia-, vagy egyetértési mutató: Pn W =
12 · i=1 (Ri − R)2 , m2 · (n3 − n)
melynek értéke 0 és 1 közé esik. Ha az érték 0.6-en felüli, akkor a felálított sorrendek azonosnak tekinthet®k. A fenti képlet adatai a következ®k: m a különböz® sorrendek száma, n az elemek száma, Ri az i. elem rangszámösszege és végül R az átlagos oszlopösszeg, vagyis R = m·(n+1) . 2
Példa. Egy borversenyen 5 bort bírál 4 bíró. Hasonlóan állapították-e meg a borok sorrendjét, ha a sorrendet az alábbi táblázat tartalmazza? Bíró 1. 2. 3. 4.
Borok 12345 23154 14235 31245
Megoldás. A fenti táblázatot kiegészítjük az egyes borok rangszámösszegével: Bíró 1. 2. 3. 4. Ri
Rangsorszámok 1 2 3 4 5 2 3 1 5 4 1 4 2 3 5 3 1 2 4 5 7 10 8 16 19
A többi adat a következ®: R = Kendall-féle mutató: W =
4 · (5 + 1) = 12, m = 4, illetve n = 5. A 2
12 · [(7 − 12)2 + (10 − 12)2 + (8 − 12)2 + (16 − 12)2 + (19 − 12)2 ] ≈ 0.69. 42 · (53 − 5)
Mivel 0.6-nél nagyobb értéket kaptunk elmondható, hogy a bírók hasonlóan ítélték meg a borok sorrendjét. 4.
Vegyes kap solat
A min®ségi és mennyiségi ismérvek közötti kap solatot vegyes kap solatnak hívjuk. A vegyes kap solat er®sségének mérésére az ún. varian ia-hányados t használjuk. H2 = 1 −
2 σB , ahol σ2
4
2 2 σ 2 = σB + σK .
Ha az egész sokaságot szintekre bontjuk, akkor az egész sokaságra jellemz® szórás két részb®l tev®dik össze. Az egyiket magyarázza a szintek közötti eltérés (σK ), míg a másik része a véletlent®l függ (σB ). Ha σK ≈ 0, akkor a szinteket elhatároló ismérv semmilyen hatással nin s az alapsokasági változóra. Ha viszont σB ≈ 0, akkor a szórás: σ ≈ σK , vagyis a szórás nagymértékben függ a szintekre bontástól.
Példa. Az átlagkereseteket szintere bontjuk az iskolai végzettség szerint. Van-e eltérés a zetésekben az iskolai végzettség alapján, ha a következ® adatok állnak rendelkezésre? Végzettség Alapfokú 13, 15, 20, Középfokú 40, 45, 50, Fels®fokú 70, 80, 80,
Fizetések (eFt) 22, 30, 40, 60, 65, 90, 100, 110, 120, 120, 150
Megoldás. A szórásnégyzet: 2
σ =
Pn
i=1 (yi
n
− y)2
=
1 · [(13 − 66)2 + (15 − 66)2 + . . . (150 − 66)2 ] = 1490.4, 20
míg a bels® szórás: 2 σB =
3 1 X 1 · nj · σj2 = · (6 · 9.232 + 5 · 9.272 + 9 · 23.932) = 304.73. n j=1 20
Ezek alapján:
H2 = 1 −
2 σB 304.73 =1− = 0.79, illetve H = 0.89. 2 σ 1490.4
Mivel a H értéke közel esik egyhez, ezért azt mondhatjuk, hogy a iskolai végzettség alapján a zetések közötti eltérés szignikáns. A H 2 érétkéb®l pedig azt állapíthatjuk meg, hogy az iskolai végzettség 79%-ban határozza meg a keresetet. 5.
Korrelá iószámítás
Bevezetünk egy mér®számot, amely a két ismérv közötti kap solat szorosságát és irányát fejezi ki. Ez a korrelá iós együttható. Dení ió. Az Pn (xi − x) · (yi − y) r = p Pn i=1 P [ i=1 (xi − x)2 ] · [ ni=1 (yi − y)2 ]
mennyiséget, P ahol (xi , yi ), i = 1, 2, P. . . , n az x-re és y -ra vonatkozó n elem¶ minta és x = n1 · ni=1 xi , illetve y = n1 · ni=1 yi , tapasztalati korrelá iós együttható nak hívjuk. Tétel. Az tapasztalati korrelá iós együttható tulajdonságai: 1. A két ismérv korrelá iós együtthatója mindig −1 és 1 közé esik. Az r akkor és sak akkor egyenl® 1-gyel, vagy −1-gyel, ha a két ismérv között lineáris kap solat áll fenn, azaz: y = a · x + b.
5
2. Ha a két ismérv egymástól független, akkor r = 0. 3. Ha x és y korrelálatlanok, vagyis r = 0, és együttes eloszlásuk normális eloszlás, akkor x és y függetlenek.
Megjegyzés. A gyakorlatban r értéke alapján a következ®t mondhatjuk: r = −1 vagy r=1 −1 < r ≤ −0.75 vagy 0.75 ≤ r < 1 −0.75 < r ≤ −0.5 vagy 0.5 ≤ r < 0.75 −0.5 < r ≤ −0.25 vagy 0.25 ≤ r < 0.5 −0.25 < r < 0.25
Dení ió. Az
: : : : :
a kap solat függvényszer¶ és lineáris er®s szto hasztikus kap solat közepes szto hasztikus kap solat gyenge szto hasztikus kap solat nin s kap solat x és y között
r2 értékét
determiná iós együttható nak hívjuk. Azt mutatja meg, hogy az x értékei hány százalékban magyarázzák y értékeit. Példa. Egy gazdaságban öt földterületen ugyanazt a növényt termelik. Jelentse xi az i. területre hektáronként kiszórt m¶trágya mennyiségét, míg yi az i. táblán az egy hektárra es® átlagtermést. Számítsuk ki, hogy milyen er®s és milyen irányú a kap solat a két ismérv között!
M¶trágya mennyisége (x) Termésátlag (y) (kg/ha)
(t/ha)
100 125 150 175 200
4.2 4.4 4.3 4.9 5.3
Megoldás. Kiszámítjuk a képletben szerepl® mennyiségeket és behelyettesítünk: 5 X i=1
(xi − x) · (yi − y) = 67.5, 5 X
i=1 5 X i=1
(xi − x) = 6250, 2
(yi − y) = 0.868. 2
Ezek alapján a korrelá iós együttható értéke: 67.5 r= √ ≈ 0.92. 6250 · 0.868
Az alkalmazott m¶trágya mennyisége és a termésátlag között pozitív irányú, er®s szto hasztikus kap solat áll fenn.
6
6.
Regressziószámítás
A regressziószámítás a két, vagy több magas mérési szint¶ változó közötti kap solat természetét függvényekkel írja le. Annak a függvénynek a képletét keressük, amely legjobban illeszkedik a mérési pontokra. A regressziós függvény hozzárendelési szabályát a legkisebb négyzetek módszere alkalmazásával adhatjuk meg. A következ® részben a legkisebb négyzetek módszerét tekintjük át részletesen, lineáris közelít® függvényre alkalmazva, míg a többi, regresszióval foglalkozó fejezetben a lineáris regresszióra vezetjük vissza a feladatot. 6.1.
Egyváltozós regresszió
6.1.1. A legkisebb négyzetek módszere Tekintsünk a síkon n számú pontot: (xi , yi ), ahol i = 1, 2, . . . n és n ∈ N, feltéve hogy xi 6= xj , ha i 6= j . Legyen továbbá f (x) = ax + b az x változón kívül az a és b paraméterekt®l függ® függvény. Arra törekszünk, hogy az a és b paramétereket úgy válasszuk, hogy az f (x) egyenes az adott pontokat a lehet® legjobban közelítse. Ez a legkisebb négyzetek módszere szerint azt jelenti, hogy az yi értékek, valamint az xi -hez tartozó f (xi ) értékek különbségének négyzetösszege minimális. Y 6
f (xn ) yn y2
f (x1 )
f (x2 ) y1 x1
x2
Q(a, b) =
n X i=1
xn 2
(f (xi ) − yi ) =
n X i=1
X
(axi + b − yi )2 −→ min.
A feladat tehát azon a (az egyenes meredeksége) és b (az egyenes tengelymetszete) értékek meghatározása, amelyekre a Q(a, b) kétváltozós függvény minimális értéket vesz fel. A lehetséges széls®értékhelyeket a Q(a, b) els®rend¶ par iális deriváltjaiból álló egyenletrendszerb®l számíthatjuk ki: n
X ∂Q (a, b) = 2xi · (axi + b − yi ) = 0 ∂a i=1 n
X ∂Q (a, b) = 2 · (axi + b − yi ) = 0. ∂b i=1
7
Mindkét egyenlet kett®vel egyszer¶síthet®. A zárójelek felbontása és egyenletrendezés után az ún. normálegyenletek hez jutunk: n X i=1
x2i
!
n X
·a+ n X
xi
i=1
i=1
!
xi
!
·b =
·a+n·b =
n X
i=1 n X
xi · yi yi .
i=1
Egy lineáris inhomogén egyenletrendszert kaptunk, melyb®l a lehetséges minimumhelyket Cramer-szabállyal határozzuk meg: P P xi yi xi P yi n a = P 2 P xi P xi xi n
P 2 P x P i Pxi yi xi yi b = P 2 P . xi P xi xi n
Példa. Egy gazdaságban öt földterületen ugyanazt a növényt termelik. Jelentse xi az i. területre hektáronként kiszórt m¶trágya mennyiségét, míg yi az i. táblán az egy hektárra es® átlagtermést. Írjuk fel annak az egyenesnek az egyenletét, amelyik legjobban közelíti a mérési pontokat. A regressziós egyenes kg ismeretében be süljük meg, hogy mekkora termésátlag tartozik 160 ha m¶trágya mennyiséghez. M¶trágya mennyisége (x) Termésátlag (y) (kg/ha)
(t/ha)
100 125 150 175 200
4.2 4.4 4.3 4.9 5.3
Megoldás. A mért értékeket legjobban közelít® függvény képletét y = a · x + b
alakban keressük. Az a és b értékét meghatározó képletekbe behelyettesítjük az alábbi mennyiségeket: 5 X i=1
xi · yi = 3532.5, 5 X
xi = 750,
i=1 5 X
i=1 5 X
yi = 23.1,
x2i = 118750.
i=1
8
A determinánsokat felírva a megoldás: 5 · 3532.5 − 23.1 · 750 = 0.0108, 118750 · 5 − 7502 118750 · 23.1 − 750 · 3532.5 = 3. b= 118750 · 5 − 7502
a=
A keresett egyenes egyenlete:
y = 0.0108 · x + 3.
Az adatokat derékszög¶ koordináta rendszerben ábrázolva: t Termés ( ha )
kg Trágya ( ha )
Ha az adott területre x = 160 be sült termésátlag:
kg ha
mennyiség¶ m¶trágyát szórnak ki, akkor a
y = 0.0108 · 160 + 3 = 4.728
t ha .
6.1.2. Logaritmikus regresszió Példa. Tekintsük az el®z® szakasz feladatát, azzal a különbséggel, hogy most a
pontokat legjobban közelít® függvényt y = a · ln x + b alakban keressük. Megoldás. Nin s szükség a legkisebb négyzetek módszerének újbóli levezetésére, ha a t = ln x új ismeretlent bevezetjük, és a pontokat legjobban közelít® függvényt y = a · t + b lineáris formában írjuk fel. Ekkor természetesen a táblázat az xi értékek logaritmusait kell, hogy tartalmazza: M¶trágya mennyisége (t = ln x) Termésátlag (y) 4.605 4.2 4.828 4.4 5.01 4.3 5.164 4.9 5.298 5.3
9
A számolás: 5 X i=1
ti · yi = 115.5102, 5 X
ti = 24.905,
i=1
5 X
yi = 23.1,
i=1
5 X
t2i = 124.35141.
i=1
A görbe paraméterei:
5 · 115.5102 − 24.905 · 23.1 = 1.4989, 124.35141 · 5 − 24.9052 124.35141 · 23.1 − 24.905 · 115.5102 = −2.846. b= 124.35141 · 5 − 24.9052
a=
A legjobban közelít® logaritmusos egyenlet:
y = 1.4989 · ln x − 2.846.
A be sült termésátlag x = 160
kg ha
m¶trágya esetén:
t y = 1.4989 · ln 160 − 2.846 = 4.76 ha .
A függvény és a mért pontok képe: t ) Termés ( ha
kg Trágya ( ha )
6.1.3. Exponen iális regresszió Példa. Számítsuk ki annak az exponen iális függvénynek a hozzárendelési sz-
abályát, ami legjobban közelíti a mérési pontokat.
Megoldás. A függvényt y = b · ea·x alakban keressük. Vegyük mindkét oldal logaritmusát és alkalmazzuk a logaritmus azonosságait: ln y = a · x + ln b. Bevezetve az Y = ln y és B = ln b új ismeretleneket és a legkisebb négyzetek módszerét az Y = a · x + B alakra alkalmazzuk. Ennek megfelel®en a táblázat adatai: 10
M¶trágya mennyisége (x) Termésátlag (Y = ln y) 100 1.435 125 1.481 150 1.458 175 1.589 200 1.667 A paraméterek értékeihez a következ® számolásokon keresztül jutunk: 5 X i=1
xi · Yi = 1158.8, 5 X
i=1 5 X
i=1 5 X
xi = 750, Yi = 7.63, x2i = 118750.
i=1
ezáltal: 1158.8 · 5 − 750 · 7.63 = 0.00228, 118750 · 5 − 7502 118750 · 7.63 − 750 · 1158.8 B= = 1.1828. 118750 · 5 − 7502 a=
Mivel B = ln b, ezért b = eB = e1.1828 = 3.263. A regressziós függvény: y = 3.263 · e0.00228·x .
A termésátlag be sült értéke 160
kg ha
alkalmazott m¶trágya mennyiség esetén:
y = 3.263 · e0.00228·160 = 4.699
t ha .
A mérési pontokat és a regressziós görbét ábrázolva a következ®t kapjuk: Termés (t/ha)
Trágya (kg/ha)
11
6.1.4. Hiperbolikus regresszió Mintapélda. Milyen regressziós görbét kapnánk a mérési pontkainkra, ha hiperbolikus regressziót szeretnénk alkalmazni?
Megoldás. A regressziós görbét az y = be az X =
1 x
1 · a + b alakban keressük. Vezessük x
új ismeretlent. Ekkor az görbe egyenlete már lineáris alakot ölt:
y = a · X + b. Ennek megfelel®en a táblázat adatai:
M¶trágya mennyisége (X = x1 ) Termésátlag (y) 0.01 4.2 0.008 4.4 0.006 4.3 0.0057 4.9 0.005 5.3 A paraméterek értékeihez a következ® számolásokon keresztül jutunk: 5 X i=1
Xi · yi = 0.16, 5 X
Xi = 0.0353,
i=1 5 X
yi = 23.1,
i=1 5 X
Xi2 = 0.0002659.
i=1
ezáltal: 0.16 · 5 − 0.0353 · 23.1 = −184.9, 5 · 0.0002659 − 0.03532 0.0002659 · 23.1 − 0.0353 · 0.16 b= = 5.926. 5 · 0.0002659 − 0.03532
a=
A regressziós görbe egyenlete:
y = −184.9 ·
A termésátlag be sült értéke 160 y = −184.9 ·
kg ha
1 + 5.926. x
alkalmazott m¶trágya mennyiség esetén:
1 + 5.926 = 4.77 160
A kapott görbe képe:
12
t ha .
Termés (t/ha)
Trágya (kg/ha) 6.2.
A legjobban illeszked® függvénytípus kiválasztása
Azt a függvénytípust keressük, amely az adott mintabeli ponthalmazhoz a legjobban illeszkedik. A függvénytípusok közötti illeszkedési sorrendet a függvény illeszkedés hibája alapján határozhatjuk meg: r Pn
− f (xi ))2 . n
Log. fv.
Exp. fv.
Hip. fv.
f (xi )
f (xi )
f (xi )
σe =
i=1 (yi
Amely függvényre ez az érték minimális, azt a függvényt fogadjuk el, mint legjobban közelít® függvény. A példában az alábbi táblázatból indulhatunk ki: yi Lineáris fv. f (xi )
4.2 4.4 4.3 4.9 5.3
4.08 4.35 4.62 4.89 5.16
4.056689592 4.391159461 4.664441242 4.895497696 5.095647901
4.098606417 4.077 4.339013498 4.4468 4.593521851 4.693333333 4.862958598 4.869428571 5.148199375 5.0015
A különbségek négyzetösszegeit osztjuk, a mi példánkban, 3-mal és gyököt vonunk. Az illesztés relatív hibáira a következ® értékeket kapjuk: σe
Lineáris fv. Log. fv. Exp. fv. Hip. fv. 0.16 0.19 0.15 0.23
Tehát a mintabeli ponthalmazt legjobban közelít® függvény az exponen iális t függvény. Megállapíthatjuk, hogy a termésmennyiség átlagosan 0.15 ha értékkel tér el a függvény számított értékeit®l. Kiszámítjuk az exponen iális függvényre a relatív hibát : Hr =
σe 0.15 · 100% = · 100% = 3.24%. y 4.62
Mivel Hr értéke 10% alatti, az illeszkedés jó. 6.3.
Többváltozós regresszió
Ebben a fejezetben sak a kétváltozós lineáris modellel foglalkozunk. 13
6.3.1. A lineáris regresszió A modell bevezetését szintén egy példával kezdjük. Az egyváltozós modellnél alkalmazott feladatot kiegészítjük a rendelkezésre álló sapadék adatokkal: Csapadékmennyiség (x) M¶trágya mennyisége (z) Termésátlag (y) (mm)
(kg/ha)
450 470 480 460 480
(t/ha)
100 125 150 175 200
4.2 4.4 4.3 4.9 5.3
A feladat az, hogy el®állítsuk annak a regressziós felületnek a képletét, amely legjobban közelíti a mérési pontokat. A modell a következ®: yi = β0 + β1 · xi + β2 · zi + εi ,
Vagy mátrixalakban:
ahol 1 ≤ i ≤ 5.
ε1 y1 1 x1 z1 y2 1 x2 z2 β 0 ε2 y3 = 1 x3 z3 · β1 + ε3 . y4 1 x4 z4 ε4 β2 y5 1 x5 z5 ε5 y1 1 x1 z1 y2 1 x2 z2 β0 ~ = β1 , valamint , X = 1 x3 z3 , illetve β y Ha bevezetjük az ~y = 3 y4 1 x4 z4 β2 y5 1 x5 z5 ε1 ε2 ~ε = ε3 jelöléseket, akkor a fenti modell vektoros alakja következ®: ε4 ε5 ~ + ε~. ~y = X · β
A feladat matematikai megfogalmazása: 5 X i=1
ε2i =
5 X i=1
(yi − (β0 + β1 · xi + β2 · zi )) −→ min. 2
A megoldást a következ® összefüggésb®l nyerjük: ~ = XT · X β
−1
· X T · ~y.
A konkrét adatok a következ® formában adottak:
14
4.2 4.4 ~y = 4.3 , 4.9 5.3
1 450 100 1 470 125 X = 1 480 150 . 1 460 175 1 480 200
A behelyettesítés, transzponált képzés, mátrixszorzás és invertálás után a végeredmény:
A regressziós sík ábrája:
7.38 ~ = −0.01 . β 0.0128
5.5 5 4.5 4 440
200 175 150 450 125
460 470
100
480 490
A regressziós felület képlete, ahol x a sapadékmennyiséget, z a m¶trágya mennyiségét jelöli: y = 7.388 − 0.01 · x + 0.0128 · z .
6.3.2. A par iális korrelá ió Egy többdimenziós mintánál, két változó korrelá ióját közvetetten befolyásoló harmadik változó hatását a két változó par iális korrelá iós együttható jának kiszámításával lehet kiküszöbölni. Ha z és y változók kap solatából szeretnénk az x hatását kiküszöbölni, úgy a par iális korrelá iós együttható az alábbi módon számolható ki: rzy − ryx · rzx rzy.x = q . 2 ) · 1 − r2 (1 − ryx zx
Ez a képlet a mi példánkban a m¶trágya mennyisége és a termésátlag közötti összefüggést adja meg, úgy hogy a sapadék hatását nem vesszük gyelembe: 0.9164 − 0.3786 · 0.6063 rzy.x = p = 0.933. (1 − 0.37862) · 1 − 0.60632
15
6.3.3. A többszörös korrelá ió Bizonyos esetekben szükségünk lehet arra is, hogy egy változó kap solatát ne egyetlen további változóval, hanem a változók összességével vizsgáljuk. Az ilyen kap solat kifejezésére szolgáló mér®számot többszörös korrelá iós együttható nak hívjuk. A mi példánkban vizsgáljuk a sapadék- és m¶trágya mennyiség termésátlagra tett együttes hatását. A többszörös korrelá ió kiszámítása többféle módon történhet. Az el®z® feladatban meghatározott par iális korrelá iós együtthatókat használjuk a korrelá iós mátrix felírásához:
Véve ennek inverzét: R−1
1 0.3786 0.9164 R = 0.3786 1 0.063 . 0.9164 0.6063 1
9.03638 2.52935 −9.81448 = 2.52935 2.28926 −3.70587 , −9.81448 −3.70587 12.2409
−1 index¶ eleme szüa többszörös korrelá iós együtthatóhoz ezen mátrix R11 kséges:
r=
s
1−
1 −1 = R11
r
1−
16
1 = 0.943. 9.03638