Esetelemzések az SPSS használatával 1.
Tekintsük az spearman.sav állományt, amely egy harminc tehenet számláló állomány etetés- és fejéskori nyugtalansági sorrendjét tartalmazza. Vizsgáljuk meg, hogy van-e kapcsolat a két nyugtalansági sorrend között.
Megoldás: Mivel két rangsort kell összehasonlítanunk, ezért a Spearman-féle korrelációs együtthatót számítjuk ki. Az adatbázis megnyitása után az ANALYZE / CORRELATE / BIVARIATE menüpontot választjuk. A megnyíló ablakban azon változókat, amelyek közötti sorrendet vizsgáljuk a VARIABLES listába tesszük, míg a felajánlott korrelációs együtthatók közül a SPEARMAN-t pipáljuk ki:
Az OK gombra kattintva megkapjuk a számolás eredményét:
Correlations Spearman's rho
FEJES
FEJES
ETETES
1.000
.917
Sig. (2-tailed)
.
.000
N
30
30
Correlation
.917
1.000
Sig. (2-tailed)
.000
.
N
30
30
Correlation Coefficient
ETETES
Coefficient
** Correlation is significant at the .01 level (2-tailed).
A fejes és etetes változók közötti 0,917 értékű korrelációs együttható erős sztochasztikus kapcsolatot mutat. Amelyről - a szignifikancia szintet figyelembe véve – azt mondhatjuk, hogy nem a véletlen műve. Azaz amelyik állat etetéskor nyugatalanul viselkedik, az fejéskor is hasonló viselkedést mutat. Előfordul, hogy nem csak kettő, hanem több sorrend egyezőségét kell megvizsgálnunk. Ilyenkor a Kendal-féle egyetértési mutatót határozzuk meg.
2.
A feladat legyen ugyan az, mint az elméleti bevezetőben. Az adatok megtalálhatók a Kendall.sav fájlban. Arra vagyunk tehát kíváncsiak, hogy a négy borász azonosan ítélte-e meg az öt bor sorrendjét.
Megoldás: Az adatbázis megnyitását követően az ANALYZE / NONPARAMTERIC TESTS / K RELATED SAMPLES... menüjét választjuk. Kijelöljük azokat a borokat, amelyeknek a sorrendjét össze kívánjuk hasonlítani (az összeset) és a változókat a TEST VARIABLES listában soroljuk fel, míg a teszt típusánál a KENDALL’S W módszert pipáluk ki:
A futási eredmény a következő: Test Statistics N
4
Kendall's W
.688
Chi-Square
11.000
df
4
Asymp. Sig.
.027
a Kendall's Coefficient of Concordance
(A program az egyes borok átlagos rangszámairól is tájékoztat, de ezt a táblázatot nem mellékeltük.) A Kendall-féle egyetértési mutató értékét a második sorban láthatjuk, ami nagyobb mint 0.6, így a sorrendek azonosnak tekinthetők. Az utolsó sorban lévő mutató a szignifikancia érték, amely 0.05-nál kisebb, így a borok sorrendjének egyezősége nem a véletlen műve.
3.
Mezőgazdasági előtanulmányaink során gyakran találkozhattunk a földminőség és a termésátlag kapcsolatának kérdésével. A növterm.sav fájl 57 különböző mezőgazdasági vállalkozás adatát tartalmazza a földminőség, a búza és a kukorica termésátlagára vonatkozóan. Első lépésben vizsgáljuk meg, hogy van-e kapcsolat a földminőség és a búza termésátlaga között? Ebben a vizsgálatban a többi környezeti hatást figyelmen kívül hagyjuk.
Megoldás: A probléma megoldására korrelációszámítást alkalmazunk. A vizsgálat elvégzéséhez az ANALYSE
/
CORRELATE
/
BIVARIATE
menüjét választjuk, ahol a Pearson-féle korrelációs
együtthatót számítjuk ki.
Az ábrán látható módon a
VARIABLES
(változók) ablakban a nyíl segítségével a
földminőség(AK/ha) és a búza(t/ha) változókat átvisszük, az alapbeállításokat nem változtatjuk meg. (Az ablakban a Pearson-féle korrelációs együtthatót válasszuk ki). (Ha a korrelációs együtthatón kívül egyéb információt is meg akarunk jeleníteni, akkor kattintsunk az OPTIONS gombra. Az ekkor megjelenő ablakban a DEVIATIONS
STATISTICS
részben kiválaszthatjuk a
MEANS AND STANDARD
opciót, amellyel a változók átlagát és szórását írathatjuk ki. A CONTINUE gombbal
visszatérhetünk a BIVARIATE CORRELATIONS ablakba.)
Az OK gomb lenyomásával a következő eredményeket kapjuk az output ablakban.
Correlations Földminőség (AK/ha)
Búza (t/ha)
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
Földminőség (AK/ha) 1.000 . 57 .658 .000 57
Búza (t/ha) .658 .000 57 1.000 . 57
A kapott táblázatot tekintve megállapítható, hogy a föld minősége és a búza termésátlaga között pozitív irányú, 0,658 értékű a korreláció, tehát közepesen erős sztochasztikus kapcsolat áll fenn. Annak eldöntésére, hogy ez az 57 adatból kapott 0,658-as korrelációs együttható kellően nagy érték-e ahhoz, hogy ezt az összefüggést általánosságban is nagy valószínűséggel bekövetkezőnek tekinthessük, meg kell vizsgálnunk a korrelációs együttható szignifikanciáját. Esetünkben a Sig(2-tailed) sorban szereplő 0,000 érték kisebb, mint 0,05 tehát elvetjük azt a nullhipotézist, hogy a két változó közötti kapcsolat a véletlennek köszönhető.
A korrelációszámítás segítségével megismertük a többdimenziós minták egyes változói közötti kapcsolat irányát és szorosságát. A szignifikanciaszint vizsgálatával azt is meg tudtuk határozni, hogy állításaink mekkora valószínűséggel általánosíthatóak. Eddigi számításaink során arra már nem tudtunk választ adni, hogy valamely változó ismert értékéből egy másik változó milyen értéke következik. Ezt az értékbecslést a regresszióanalízis segítségével számítjuk ki. 4.
A növterm.sav adatbázist használjuk a regresszióanalízis számítása és értelmezése során is. Vizsgáljuk meg, van-e függvényszerű összefüggés a búza termésátlaga és a földminőség között! Ábrázoljuk is a kapott eredményt!
Megoldás: A vizsgálathoz az ANALYSE / REGRESSION / LINEAR
REGRESSION
menüt válasszuk!
Az ábrán látható módon a változók közül a DEPENDENT (függő változó) cellába a Búza (t/ha), míg az INDEPENDENT(S) (független változók) közé a Földminőség ( AK/ha) változó kerül. A
METHOD
legördíthető menüben választhatunk a modellt lefuttató módszerek közül.
Alapesetben az
SPSS
változtatjuk. (Pl.: a adatainkról)
által felajánlott
STATISTICS
ENTER
módszert válasszuk. A többi opciót nem
lehulló menüben kérhetünk bővebb statisztikát a felvitt
Az
OK
gomb lenyomását követően több táblázatot kapunk eredményül. Az első táblázat
tájékoztat bennünket a korrelációs együttható (R) értékéről, továbbá az R Square a determinációs együttható értékét jelzi (0,433), mely arról informál, hogy a búza (t/ha) termésátlagának hány % -át sikerült megmagyaráznunk a földminőség (AK/ha) segítségével. Ez az érték 43 %. Az Adjusted R Square az előző mutató torzítatlan értéke (0,422). Az Std. Error of the Estimate bizonyos értelemben szintén a regressziós egyenes illeszkedését jelzi,
hiszen ez az érték a reziduálisok szórását jelenti.(Lehetőségünk nyílhat arra, hogy az R2 értékét növeljük. Ennek módja, hogy az adatsorunkat megtisztítjuk a szélsőségesen kiugró értékektől. Ekkor a magas szórású változók kiesnek, és így szorosabban illeszkedő egyenest kaphatunk. Ezzel az eljárással azonban torzítjuk az eredményt.)
Model Summary Model
R
1 .658 a Predictors: (Constant), Földminőség (AK/ha)
A következő táblázat egy
ANOVA
R Square
Adjusted R Square
.433
.422
Std. Error of the Estimate .6168
tábla, mely azt teszteli, hogy sikerült –e a regressziós
egyenes segítségével akkora részt megragadni a függő változó varianciájából, hogy a független változót
szignifikánsnak tekinthessük. A regresszió sorában szereplő F érték
szignikanciája csupa nullából áll, ami azt jelzi, hogy a földminőség (AK/ha) hatását az alapsokaságra is érvényesnek tekinthetjük.
ANOVA Model
Sum of Squares 1 Regression 15.958 Residual 20.925 Total 36.883 a Predictors: (Constant), Földminőség (AK/ha) b Dependent Variable: Búza (t/ha)
df Mean Square 1 55 56
15.958 .380
F
Sig.
41.943
.000
Az alábbi táblánkban találhatjuk meg a regressziós egyenes paramétereit, a konstans és az egyenes meredekségét jelző B értéket.
Coefficients Unstandardized Coefficients Model B 1 (Constant) 2.929 Földminőség 6.399E-02 (AK/ha) a Dependent Variable: Búza (t/ha)
Az egyenes egyenlete:
Standardized Coefficients Std. Error Beta .224 .010 .658
t
Sig.
13.091 6.476
.000 .000
y = 2,929+0,06399x
Ez azt jelzi, hogy egy aranykoronányi növekedés átlagosan 64 kg termésemelkedést eredményez. A B értékhez tartozó Std. Error (Standard hiba) arról ad tájékoztatást, hogy véletlen hibával terhelt a függvényünk. A Beta érték magyarázatára visszatérünk a többváltozós regresszió példája során. A táblázat utolsó sorában szereplő t érték és a hozzá tartozó szignifikancia azt jelzi, hogy a földminőség (AK/ha) változó hatása szignifikáns a búza (t/ha) termésátlagára.(0,05 alatti a Sig.) A következőkben szemléltetjük a már megmagyarázott és elfogadott regressziós egyenest. Ezt az
ANALYSE
/
REGRESSION
változóinkat a kipipáljuk a MODELS
LINEAR
MODELS
/
CURVE ESTIMATION
REGRESSION
opció alatt a
opciót is bejelöljük.
menü segítségével valósíthatjuk meg. Itt a
ablakban már ismertetett módon felvisszük, majd
LINEAR
szó melletti cellát, arra ügyelve, hogy a
PLOT
Az OK gombra kattintva a következő ábrát kapjuk: 7
6
5
Búza (t/ha)
4
3 Observed Linear
2 0
10
20
30
40
50
Földminőség (AK/ha)
A kapott egyenes a regressziós egyenes, míg a görbe az eredeti adatainkat összekötő függvény képe. A regressziós egyenes korábban felírt képletébe behelyettesítve egy földminőséget jelző adatot, megbecsülhető lesz a termésátlag értéke.
Most vizsgáljuk meg a kukorica termésátlaga és a kukorica alá kiadott NPK műtrágya közötti összefüggést. Korábbi tanulmányaink során emlékezhetünk a csökkenő hozadék törvényére, miszerint a túlzottan magas nitrogén műtrágya mennyiség már csökkentőleg hat a termésátlagra. Természetesen ezzel tisztában vannak gazdálkodóink is, és így igyekeznek elkerülni ezt a kedvezőtlen hatást.
5.
A továbbiakban is vizsgálatunk tárgyát képező növterm.sav adatbázisban dolgozunk. Első lépésben ábrázoljuk pontdiagram segítségével a fent említett összefüggést, majd olyan regressziós függvényt illesztünk a ponthalmazra, mely a legjobb illeszkedést biztosítja számunkra.
Megoldás: Az ábrázoláshoz lépjünk a majd nyomjuk meg a
GRAPH
DEFINE
/ SCATTER menübe, válasszuk a
SIMPLE
gombot. Az így megjelenő ablakban az
X
ábrázolási módot,
kategóriatengelyen a
kukorica (kg NPK/ha) változót, míg az Y tengelyen a kukorica (t/ha) változót tüntessük föl. Az OK gomb lenyomásával az alábbi ábrát kapjuk.
10
9
8
7
Kukorica (t/ha)
6
5
4 3 0
100
200
300
400
500
600
Kukorica (kg NPK/ha)
A pontok elhelyezkedéséből megállapítható, hogy lineáris függvény helyett valamilyen másodfokú függvénnyel érdemes közelíteni az alapadatokat.
Előző (4. számú) feladatunkkal ellentétben most ne vizsgáljuk meg külön a lineáris regressziót, mivel ezt az előző példa alapján már el tudjuk végezni. Ezen túllépve vizsgáljuk meg, hogy mi a teendő akkor, amikor nem feltétlenül egyenessel tudjuk legjobban közelíteni az adatpárjainkat, hanem valamilyen más típusú függvénnyel. Ennek vizsgálata során arra is választ kapunk, hogy mi alapján döntsünk az alapadatokra illesztett függvények közül. Lépjünk be az ANALYSE / REGRESSION / CURVE menübe. Az alábbi SPSS ablakot kapjuk.
Itt a már ismert módon a INDEPENDENT
DEPENDENT(S)
változónk a kukorica (t/ha) lesz, míg az
változónk a kukorica (kg NPK/ha). Pipáljuk ki a
(másodfokú) szó melletti kis cellát, illetve ügyeljünk rá, hogy a CONSTANT IN EQUATION
LINEAR
PLOT MODELS
melletti kis ablakok is aktívak legyenek. Az
követően a következő adatokat és ábrát kapjuk eredményül.
és a
OK
QUADRATIC
és az
INCLUDE
gomb lenyomását
10
9
8
7
Kukorica (t/ha)
6
5 Observed 4
Linear
3
Quadratic 0
100
200
300
400
500
600
Kukorica (kg NPK/ha)
Az ábra alapján az alapsokaságra illesztett másodfokú görbe jobban illeszkedik, mint a lineáris egyenes. Ennek eldöntésére és statisztikailag való igazolására az Rsq oszlopban lévő determinációs együtthatókat kell megvizsgálnunk, melyek közül a magasabb értékkel rendelkező kvadratikus függvényt választjuk, mivel ez az érték magasabb %-os arányban fogja magyarázni a függő változót a független függvényében. Ez az érték lineáris illesztés esetében 0,801, míg a kvadratikus függvény alkalmazásával 0,888. Mindkét esetben a szignifikancia csupa nullából áll, tehát értékeink megbízhatóak, nem a véletlennek köszönhetőek. Az utolsó három oszlop alapján pedig felírhatjuk a kapott egyenes és a másodfokú (kvadratikus) függvényeink képletét, miszerint:
y = 5,5217 + 0,0074x
lineáris függvény 2
y = 4,7153 + 0,0172x – 0,00002x
kvadratikus függvény
A korreláció, azaz az összefüggésvizsgálat nem csak két tényező között számítható, hanem akár több tényező együttes hatását is vizsgálhatjuk egyszerre. Ekkor az eredményváltozókra ható tényezők között is felléphet valamilyen erősségű és irányú kapcsolat, amely eltorzíthatja az eredményt. Ekkor két változó korrelációját közvetetten befolyásoló harmadik változó hatását a két változó parciális korrelációs együtthatójának kiszámításával lehet kiküszöbölni. 6.
Következő példánkban a már eddig is használt növterm.sav fájlt használjuk. A feladat a kukorica termésátlagának és a trágyázás hatásának összefüggés vizsgálata a szervestrágyázás hatásának figyelembevételével.
Megoldás: Első lépésben ki kell szűrnünk azokat a változókat az 57 vállalkozás adatai közül, melyek nem vonhatóak be a vizsgálatba. Leválogatjuk a szervestrágyázó vállalkozásokat, mivel csak azok vonhatóak be a modellbe, akik műtrágyáznak és szervestrágyáznak is egyidejüleg. Ezt a feltételt DATA / SELECT CASES menüre kattintva az IF gomb lenyomásával állíthatjuk be, a következőt begépelve: kukorica (t.szervestr./ha) ≠ 0. Ezt követően az
OK
gomb
lenyomásával a szűrés megtörtént. A továbbiakban a feltételünknek megfelelő vállalkozókkal dolgozunk tovább. Második lépésben az
ANALYSE
/
CORRELATE
/
BIVARIATE
menübe kattintva a lineáris
korrelációnál ismertetett módon vigyük fel a három változónkat a
VARIABLES
ablakba, majd
az OK gomb lenyomásával a következő eredménytáblát kapjuk: Correlations Kukorica (t/ha) Kukorica (t/ha) Pearson Correlation Sig. (2-tailed) N Kukorica (kg Pearson Correlation NPK/ha) Sig. (2-tailed) N Kukorica Pearson Correlation (t.szervestr./ha) Sig. (2-tailed) N ** Correlation is significant at the 0.01 level (2-tailed). Correlation is significant at the 0.05 level (2-tailed).
1.000 . 22 .894
Kukorica (kg NPK/ha) .894 .000 22 1.000
Kukorica (t.szervestr./ha) .476 .025 22 .564
.000 22 .476
. 22 .564
.006 22 1.000
.025 22
.006 22
. 22
A számunkra lényeges információ a kukorica (t/ha) és a kukorica (kg NPK/ha) metszetben látható 0,894 értékű korrelációs együttható. Megfigyelhető továbbá, hogy közepesnél gyengébb mértékű a korreláció a kukorica termésátlaga és a szervestrágyázás között is. Ennek az a magyarázata, hogy a szervestrágya hatása több évet is érint, így annak hatása gyengébb mértékű, mint a műtrágyáé. Szintén fontos a 0,564 érték, mely a kukorica (kg NPK/ha) és a kukorica (t. szervestr./ha) változók közötti kapcsolat szorosságát jelzi. A kapcsolatok szignifikánsak, melyet a szignifikanciaszitből tudunk megállapítani. (Természetesen az átlóban mindig 1 lesz a korrelációs együttható, azaz a változók önmagukkal tökéletesen korrelálnak.) Megvizsgáljuk, hogy ez a 0,894-es érték a kukorica termésátlaga és a műtrágyázás között tényleges kapcsolat – e, vagy ez az igen magas értékű együttható más változó hatásának is köszönhető? Példánkban a műtrágyázás és a szervestrágyázás közötti kapcsolatot elemezzük a parciális korrelációt felhasználva. Az
ANALYSE
/
CORRELATE
/
PARTIAL
menüt kiválasztva a korreláció számításhoz hasonló
ablak jelenik meg:
A
VARIABLES
ablakba azok a változók kerülnek, melyek között a korrelációt ki szeretnénk
számítani (esetünkban a kukorica (t/ha) és a kukorica (kg NPK/ha)). A ablakba pedig az a változó kerül, amely hatását ki szeretnénk küszöbölni.
CONTROLLING FOR
Esetünkben ez a kukorica (t.szervestr./ha) változó. Minden más opciót hagyjunk az ábra szerinti alapbeállításban. Az
OK
gomb lenyomására az output ablakban megjelenik a kért
statisztika.
Adott esetben a K24, a szervestrágyázást jelöli, a K22 a kukorica termésátlagot, míg a K23 a kiadagolt műtrágya mennyiségét. Az ábráról leolvasható, hogy a termésátlag és a műtrágyaadag között a szervestrágyázástól megtisztított korreláció értéke 0,8609. A szignifikanciaszint 0,000, azaz 99,99%-os valószínűséggel állíthatjuk, hogy a fenti korrelációs együttható értéke nem a véletlennek köszönhető. A korrelációs együttható értéke 0,894-ről 0,8609-es értékre csökkent, amely azt jelzi, hogy a kiszűrt változó is pozitívan korrelált a vizsgált változókkal.
7.
Vizsgáljuk meg, hogy a kukorica termésátlagára miként hat a műtrágyázás és a földminőség együttesen. Annak magyarázatát, hogy két független változó hogy veszi ki a részét egy harmadik magyarázatából, többváltozós regresszió számítás segítségével vizsgálhatjuk meg.
Megoldás: Az ANALYSE / REGRESSION / LINEAR menübe lépve a következő ablakot látjuk.
A
DEPENDENT
(függő) változó a kukorica (t/ha) lesz, az INDEPENDENT (független) változók
közé a kukorica (kg NPK/ha) és a földminőség (AK/ha) kerül. Az alapbeállításokon nem változtatva nyomjuk meg az
OK
gombot. A model lefuttatását követően az alábbi táblát
kapjuk. Model Summary Model
R
R Square Adjusted R Square
1 .902 .814 a Predictors: (Constant), Földminőség (AK/ha), Kukorica (kg NPK/ha)
.807
Std. Error of the Estimate .6664
A tábláról leolvashatjuk, hogy a magyarázóerő igen magas, mivel a műtrágyázás és a földminőség együttesen a függő változónak több, mint 80 %-át magyarázza (R. Square).
ANOVA Model
Sum of df Mean Square Squares Regression 104.898 2 52.449 Residual 23.980 54 .444 Total 128.878 56 a Predictors: (Constant), Földminőség (AK/ha), Kukorica (kg NPK/ha) b Dependent Variable: Kukorica (t/ha)
Az
ANOVA
F
Sig.
118.109
.000
tábla alapján megállapítható, hogy a regresszió a teljes heterogenitás szignifikáns
hányadát testesíti meg. Ezt az F próbához tartozó szignifikanciából olvashatjuk le. Coefficients Unstandardized Coefficients Model B (Constant) 5.133 Kukorica (kg 7.143E-03 NPK/ha) Földminőség 2.144E-02 (AK/ha) a Dependent Variable: Kukorica (t/ha)
Standardized Coefficients Std. Error Beta .250 .001 .864 .011
.118
t
Sig.
20.523 14.215
.000 .000
1.940
.058
A regressziós B értékekből felírhatjuk a regressziós kétdimenziós sík egyenletét: y = 5,133 + 0,007143x + 0,02144y A változókhoz tartozó t értékek melletti szignifikancia azt jelzi, hogy mindkét független változó hatása szignifikánsnak tekinthető. A regressziós együtthatók parciálisak, azaz egy – egy független változó hatása (B) úgy jelenik meg, hogy közben az összes többi független változó hatása kontroll alatt van. A magyarázó erő vizsgálatához a Beta értékeket kell tekintenünk, melyek azt jelzik, hogy melyik független változó hatása erősebb. Modellünk Beta - i azt mutatják, hogy a műtrágyázás hatása erősebb.