5. Regressziós eljárások, korrelációszámítás 5.1. Lineáris regresszió A feladat, hogy keressük az x (független változó) és y (függő változó) folytonos változók ^
között azt a modellt (becslő egyenletet), amely alkalmas az y érték meghatározására x függvényében. A modellkeresés során a két változó között a kapcsolat lineáris (az x változó csak az első hatványon szerepel!) és erősen korrelált, továbbá az y normális eloszlású. A keresett modell lehet egy és többváltozós, a modellben lévő x változók számától függően. Az orvosi problémák megoldására leggyakrabban alkotott modell, amely az összegződő hatásokat fejezi ki. 5.1.1. Egyváltozós lineáris regresszió A keresett egyenlet általános alakja: ^
y a bx
ahol a: az y-tengelymetszetének értéke b: az egyenes meredeksége. Az alábbi hipotéziseket vizsgáljuk: H0: nincs kapcsolat az x és y változók között vagy H0: b = 0. H1: van kapcsolat az x és y változók között vagy H 1: b 0 ^
Megjegyzés: regressziós vizsgálatoknál fontos szempont a reziduálisok (az y - y közötti ^
eltérések) vizsgálata. Minél kisebbek az eltérések a tényleges y érték és a becsült y érték között, annál jobban illeszkedik a model adatainkra. Feladat: egy vizsgálatban az IHR (intrinsic heart rate, belső szívritmus, beat/min) érték (y) életkortól (x) való függését vizsgálták egészséges egyének esetén szimultán szimpatikus és paraszimpatikus blokád mellett. Határozzuk meg a két változó közötti lineáris kapcsolatot leíró egyenlet alakját. *Forrás: Orvosibiometria, Budapest 1982, Medicina Kiadó Dr. Paksy András engedélyével. Lépések: a) Importáljuk be a REGRESSZIÓ/lin_IHR_adat.xls állományt. b) Normalitás ellenőrzés: y normális eloszlású (Shapiro-Wilk’s teszt = 0.1018) c) Lépjünk be az Analyze/Regression/Linear Regression menüpontba. Data: adjuk meg az ábra szerint a változókat:
1
5.1. ábra Regressziós változók
Model: válasszuk ki a használni kívánt modellt:
2
5.2. ábra Modell választási lehetőségek
Statistics: adjuk meg a becslés részleteit:
3
5.3. ábra Megjelenítendő statisztikák
Plot: válasszuk ki a megjelenítendő rajzot:
4
5.4. ábra Grafikonok lehetőségei
Predictions/: válasszuk az Original sample lehetőséget. Futás után kapott eredmények:
5
A regressziós modell szignifikáns (p <0.0001), tehát valós a kapcsolat az x és y változók között. Az adjusted (korrigált) determinációs együttható (illeszkedés jósága) értéke = 0.4755, ami közepes lineáris illeszkedést mutat. A t statisztikák jelentése: a tengelymetszet (intercept, t = 32.29 és p < 0.0001)) és az életkor (b, t = -6.03 és p < 0.0001) értékek valós értékek (H1: nem 0 az érték), mivel a p értékek szignifikánsak. A keresett becslő függvény: ^
y 120.45727 (0.56206 életkor)
Az egyenletben a b= -0.56206 érték negativ korrelációra utal (x értéke nő és y értéke csökken), továbbá az x egységnyi változásához az y változás mértékét is jelenti. A regressziós egyenlet segítségével a vizsgált életkor tartományon belül (17 és 69 év között) az egyenlettel megbízható becslést tudunk végezni, az 17 év alatti vagy 69 év feletti életkor érték esetén a becsléssel óvatosabban kell bánni. Legyen pl. x = 60 év, a hozzátartozó IHR érték az egyenlet segítségével könnyen meghatározható:
^
y 120.45727 0.56206 x 120.37948 0.56206 60 86.73 ütés / perc
6
5.5. ábra Regressziós egyenes
A grafikon az életkor és IHR közötti negativ korrelációt mutatja (növekvő x értékhez csökkenő IHR érték tartozik) az egyenes. 5.1.2. Többváltozós lineáris regresszió A keresett egyenlet általános alakja: ^
y b0 b1 x1 b2 x 2 ... bn x n
Az alábbi hipotéziseket vizsgáljuk: H0: nincs kapcsolat az xi és y változók között vagy H0: bi = 0. H1: van kapcsolat az xi és y változók között vagy H1: bi 0 Az eljárás arra is választ ad, hogy az xi változók közül melyek az y szempontjából fontos változók, melyek azok, amelyek tényleges befolyásolják az értékét. Ki lehet szűrni a fontos xi változókat. A módszer használatának feltétele: a) az xi változók és y között a kapcsolat lineáris b) xi változók legyenek függetlenek (kollinearitás vizsgálat)
7
Feladat: Exszikkált (kiszáradt) gyermekeket különböző volumenű elektrolit infúziókkal kezelték, a 90 perces kezelés után a javulás mértékét %-os formában adták meg (haematocrit %-ról van szó? Nem találtam meg az interneten a példát). Az adatfelvétel során rögzítették a gyermekek életkorát (év) és testsúlyát (lbs) is. Kérdés: milyen kapcsolat van a javulás mértéke (y), a dózis (x1), életkor (x2), testsúly (x3) között? *Forrás: *SAS Institute engedélyével: Common Statistical Methods for Clinical Research with SAS Examples: 185. oldal, Example 10.2. adatai
Lépések: a) Importáljuk be a REGRESSZIÓ/lin_kiszáradás.xls állományt. b) Normalitás ellenőrzés: y normális eloszlású (Shapiro-Wilk’s teszt = 0.8943) c) Lépjünk be az Analyze/Regression/Linear Regression menüpontba. Data: adjuk meg az ábra szerint a változókat:
5.5. ábra Változók megadása
Model: válasszuk ki a Full model fitted opciót. Statistics: adjuk meg az ábra szerint:
8
5.6. ábra Statisztikák megadása
Plot: válasszuk ki az Observed by Predicted values plot opciót: Predictions/: válasszuk az Original sample lehetőséget. Futás után kapott eredmények:
9
Az eredmények alapján a következtetéseink: a) Az illeszett modell szignifikáns (ANOVA tábla, p= 0.0002), ezért ezért a H1 hipotézist fogadjuk el: az y legalább egy független változóval kapcsolatban van. b) Az R2 = 0.4077 értéke nem magas, ami azt jelenti, hogy az y varianciájának kb. 41%-át magyarázzák az xi változók. c) A kapott lineáris egyenlet: ^
y 85.48 (6.17 Dózis ) (0.28 Életkor ) (0.54 Testsúly)
Életkor és Testsúly esetén a két változó értéke nem szignifikáns (p = 0.9043 illetve p = 0.1032), ami azt jelzi, hogy az illesztett modellel gond van. d) Független változók közötti összefüggés vizsgálata (kollinearitás vizsgálat). A VIF érték (Variance Inflation Factor) értéke Életkor és Testsúly esetén relatív magas értékek (8.16330 és 8.16745), ami a két változó közötti magas korrelációra utal. A Collinearity Diagnostics tábla legutolsó sorában a Sajátérték (Eigenvalue) oszlopban az érték igen alacsony (0.00558) és a Condition Index igen magas (25.85867) továbbá ugyanebben a sorban az Életkor és Testsúly Proportion of Variation értékei 0.96800 illetve 0.96697, ami
10
szintén azt mutatja, hogy a két változó korrelált, azaz nem függetlenek egymástól. Következésképpen: az Életkor és Testsúly változókat egyszerre a modellben nem szabad szerepeltetni!
5.7. ábra Residuális ábrája
A fentiek alapján válasszunk új modellt. a) A modellben csak a Dózis van:
11
Önmagában a Dózis gyenge illesztést ad: Adj R-Sq (illeszkedés jósága) = 0.1037, tehát mellé kell venni valamelyik magyarázó (explanatory variable) változót még. b) Dózis, Életkor szerepel a modellben:
12
Az illeszkedés jósága javult: Adj R-Sq (illeszkedés jósága) = 0.3751. A két változó becsült paraméterei szignifikánsak (0.0023 illetve 0.0004). b) Dózis, Testsúly szerepel a modellben:
Az illeszkedés jósága ennél a modellnél a legmagasabbt: Adj R-Sq (illeszkedés jósága) = 0.4254. A két változó becsült paraméterei szignifikánsak (0.0013 illetve <0.0001). A feladat megoldására ezt a modellt használjuk a gyakorlatban: ^
y 85.594 (6.175 Dózis ) (0.506 Testsúly)
Feladat: diabateses betegeket vizsgáltak. A vizsgálat célja, hogy megállapítsák összefügg-e az HDL (védő) koleszterin szint a testsúllyal vagy a testmagassággal, akkor, ha illesztünk a betegek nemére, a cukoranyagcsere állapotára (HbA1C) és egy gyulladásos markerre, a CRPre (C-reaktív protein). *Forrás: dr. Füst György engedélyével, Semmelweis Egyetem, 2012 Megjegyzés: megemlítendő, hogy a független változók (xi) bizonyos esetekben ordináris vagy nominális változók is lehetnek (dummy változó, például a nem” mint a jelen példában). Lépések: a) Importáljuk be a REGRESSZIÓ/lin_regr_crp.xls állományt. b) Lépjünk be az Analyze/Regression/Linear Regression menüpontba. Data: adjuk meg az ábra szerint a változókat:
13
5.8. ábra Változók megadása
Model: válasszuk ki a Full model fitted opciót. Statistics: adjuk meg az ábra szerint:
14
5.9. ábra Statisztikák megadása
Predictions/: válasszuk az Original sample lehetőséget. Futás után kapott eredmények:
15
A Parameter Estimates táblából látható, hogy a Se_chol, a Hb1AC, CRP változók nem szignifikánsak, vagyis nem szükségesek a modellben. A Variance Inflation oszlop alapján a Nem, a Tmagasság változók nem szerepelhetnek egy modellben, mert nem függetlenek egymástól. A Collinearity Diagnostics tábla ugyanezt tükrözi. Feladat a fentiek alapján, tovább kell keresni a legjobban illeszkedő modellt (a testsúly, testmagasság mellé tegyük be az egyes változókat). Végül a keresett modellünk:
16
Eredmény: a HDL a testsúllyal szignifikáns negatív korrelációt mutat (p < 0.0001), a nemmel pedig pozitív (p < 0.0001), a nők védő koleszterin szintje magasabb, mint a férfiak szintje. A becslő függvény: ^
y 1.62 (0.00624 Tsúly) (0.1372 Nem)
5.2. Nemlineáris regresszió Olyan esetekben, amikor a függő és független változók között a kapcsolat nem lineáris, az y becslésére a nemlineáris regressziós eljárást alkalmazzuk. Hangsúlyozni kell, hogy a probléma megoldása bonyolultabb a lineáris problémánál, és nagy segítség, ha a kapcsolat jellegéról van előzetes információnk pl. polinommal írható le a kapcsolat, ismerjük a polinom fokszámát stb. Mivel a becslő függvény bonyolult lehet, ezért arra kell törekedni: a) minél kevesebb paramétert tartalmazzon, b) jól illeszkedjen a modell c) a residuálisok kicsik legyenek. H0: nincs kapcsolat az x és y változók között. H1: van kapcsolat az x és y változók között.
17
A feladat megoldását különböző statisztikák segítik, de előzetesen mindig ajánlatos a scatterplot ábra tanulmányozása az analízis kezdetekor. A feladat megoldása során keressük a lehető legjobb modellt, de gyakran ennek megtalálásához több lépésben jutunk el: több modell illesztést kell elvégezni és értékelni. Feladat: insulin radioimmunassay vizsgálatot végeztek és keresték a kapcsolatot az insulin standard és a radioimmunassay mérési eredmény között (adatbázis érték * 10-3). Mivel a kapcsolat nem lineáris, ezért a megoldást a nemlineáris regresszió alkalmazásával szükséges megoldani. Itt tulajdonképpen kalibrációs feladatról van szó. Ha ismerjük a növekvő koncentrációjú standard insulin kalibrációs görbéjének regressziós egyenletét, akkor az ismeretlen minták mérési eredménye (counts) alapján számítani tudjuk annak insulin koncentrációját. *Forrás: Brown, M.B., M. Doron and A. Laron (1974): Approximate confidence limits for the concentration of insulin in radioimmunoassays. Diabetologia 10, 23-25. Lépések: a) Importáljuk be a REGRESSZIÓ/non_lin_insulin.xls állományt. b) Lépjünk be az Analyze/Regression/Nonlinear Regression menüpontba. Data: adjuk meg az ábra szerint a változókat:
5.8. ábra Változók megadása
18
Model: a modellt irodalmi adatok alapján ilyen formában keressük:
5.9. ábra Modell választás
Computation: válasszuk az egyenlet együtthatóinak meghatározására a következő számítási eljárást:
19
5.10. ábra Módszer választás
Plots: válasszuk ki a kívánt grafikont:
20
5.11. ábra Grafikonválasztás
Futás után kapott eredmények:
21
A hipotézisek tesztelését illetően az elemzésnél két fontos szempont van: a) A NOTE box-ban az üzenetet értelmezni kell: csak akkor mehetünk tovább, ha a fenti üzenet jelenik meg. Ellenkező esetben új modellt vagy számítási eljárást kell választani. b) Az ANOVA táblában a p legyen szignifikáns, mint a mostani helyzetben (p = 0.0440) , hogy a H1 hipotézist fogadhassuk el. Ha ez nem szignifikáns, akkor új modellt kell választani.
Az illesztett modell alakja: Count= 1/(1 + a·Insulin_standard) = 1/(1-0.00286·Insulin_standard)
22
5.12. ábra Mért és becsült értékek
A becsült és mért értékek eltérései igen jó modell illeszkedésre utalnak. Feladat: az enzim reakciósebesség és a szubsztrátum koncentráció közötti kapcsolatot tanulmányozták. *Forrás: SAS Institute engedélyével, SAS/STAT, NLIN Procedure, Estimating the Parameters in the Nonlinear Model Lépések: a) Importáljuk be a REGRESSZIÓ/non_lin_enzim.xls állományt. b) Lépjünk be az Analyze/Regression/Nonlinear Regression menüpontba. Data: adjuk meg az ábra szerint a változókat
23
5.13. ábra Változók megadása
Model: tanulmányaink alapján válasszuk az alkalmazott modellt:
24
5.14. ábra Modell kiválasztása
Computation: Gauss-Newton eljárás. Plots: válasszuk ki kívánt grafikont. Futás után kapott eredmények:
25
A keresett egyenlet: Sebesség = Koncentráció/(a + b·Koncentráció) = 1.0 / (1.0 - 0.7943·Koncentráció)
26
5.15. ábra Mért és becsült sebesség kapcsolata
5.3. Logisztikus regresszió Az eddigi regressziós vizsgálatok során a függő változó (y) mindig folytonos változó volt függetlenül attól, hogy normális eloszlású volt vagy sem. Gyakoriak az olyan vizsgálatok is, amikor az y diszkrét értéket vesz fel: két értékű (binomiális) vagy többértékű (polychotomus) lehet az y kimenetele. A lényeges különbség az eddigi technikákhoz képest, hogy itt logit transzformált skálát használunk és az odds ratio (OR) használatán alapszik. A predictor változók (rizikófaktorok) eloszlása tetszőleges lehet, számukat a kívánalmaknak megfelelően bővíthetjük. A kapott modell révén a rizikófaktor értékek ismeretében, egyénre vonatkozóan megtudjuk határozni a vizsgált esemény bekövetkezési valószínűségét. Az alábbi hipotéziseket vizsgáljuk: H0: nincs kapcsolat az x és y változók között. H1: van kapcsolat az x és y változók között.
A keresett egyenlet alakja:
27
P
(
1 e
1 b0 b1 x1b2 x2...bn xn )
Feladat: prosztata műtét után férfiak erekciós panaszait vizsgálták két kezelési csoportban: kontroll és egy új készítmény esetén. Rögzítették a beteg életkorát, a “sikerek” számát és az összes próbálkozás számát. Ahol az összes próbálkozás száma 0 volt, az a beteg törölve lett az adatbázisból, mivel az elemzéshez a (“sikerek” száma / összes próbálkozások száma) arány szükséges. Kérdés: van-e eltérés a két kezelési csoportban a “sikerek” arányait illetően? *Forrás: *SAS Institute engedélyével: Common Statistical Methods for Clinical Research with SAS Examples: 337. oldal, Example 20.3. adatai
Futtassuk le a SAS_programok könyvtárból a prosztata.sas programot. Futás után kapott eredmények:
28
A Williams módszer miatt ugyan nem szignifikáns az illeszkedés, ami jelen esetben nem befolyásolja az eredményt.
A Testing Global Null Hypothesis tábla azt teszteli, hogy van-e regresszió (a bi együtthatók egyenlők-e 0-val). Mivel az érték pl. a likelihood érték szignifikáns, ezért létezik becslő regressziós egyenlet. Az Analysis of Maximum Likelihood Estimates táblázatban a változók szignifikánsak, ezért mindegyiket megtartjuk a modellben. Új készítmény(1) esetén a valószínűség értéke, ha Kezelés = 1:
P
1 1 (1.8913 0.0271Életkor ) ( 1 e b0 b1 x1 b2 x2 1 e
Kontroll csoport (0) esetén a valószínűség értéke, ha Kezelés = 0:
29
P
(
1 e
1 1 ( 1 . 3384 0.0271Életkor ) b0 b1 x1 b2 x2 1 e
Odds Ratio Estimates táblában a Kezelés szignifikáns Point Estimate értéke 1.738, ugyanakkor a Likelihood táblában szignifikáns (p = 0.0291), ez azt jelenti, hogy az Életkorra korrigált “siker” esélye az új készítménnyel kezelt csoportban mintegy 73.8%-al növekszik a kontroll csoporthoz képest. Az Életkor szintén szignifikáns (p = 0.0124), az OR (odds ratio) értéke 0.973, ami azt jelenti, hogy a “siker” esélye mintegy 2.7%-al csökken évenként a kor előrehaladásával. Feladat: a klinikai vizsgálat során a kérdés az volt, hogy a C4B gén kópiaszáma herediter angiooedemás (HAE) betegekben kapcsolatban van-e a rohamszámmal (a HAE örökletes betegség, amely egy gén hiányzó működése következtében egy C1 inhibitor nevű fehérje csökkent aktivitásához vezet). A betegeség különféle (bőr alatt, hasban, felső légutakon) rohamokban jelentkező ödémás rohamok képében jelentkezik. A betegekben megmérték az ún. C4B gén (a C4 komplement fehérjét kódoló egyik gén) kópiaszámát (ez az ún. kópiaszám polimorfizmus). A C4B gén kópiaszám alapján a betegekeket két csoportba osztották (C4B_kópia változó): 0 = 0-2, 1= 3-4), továbbá a rohamszám szerint is két csoportba sorolták a betegeket (Tothil3 változó): 0 = évi 0-2, 1 = évi 3 vagy ennél több. *Forrás: dr. Füst György engedélyével, Semmelweis Egyetem, 2012 Lépések: a) Importáljuk be a REGRESSZIÓ/log_reg_kópia.xls állományt. b) Lépjünk be az Analyze/Regression/ Logistic Regression menüpontba. Data: adjuk meg az ábra szerint a változókat
30
5.16. ábra Változók megadása
Model/Response: hagyjuk meg az alapbeállításokat:
31
5.17. ábra Alapbeállítások
Effects: adjuk meg a főhatásokat:
32
5.18. ábra Főhatások megadása
Selection: hagyjuk meg az alapbeállításokat:
33
5.19. ábra Alapbeállítások
Options: válasszuk a következőket:
34
5.20. ábra Beállítások megadása
Plots: adjuk meg a kívánt grafikont. Predictions: válasszuk pl. az alábbiakat:
35
5.21. ábra Opciók megadása
36
Eredmény: a magas C4B kópiaszámú betegeknek szignifikánsan (p=0.0214) kevesebb rohama van (OR: 0,075 (0.008-0.682). Tehát a magas C4B kópiaszámú betegek kezelésekor enyhébb kórlefolyásra lehet számítani. Mivel csak a C4B_kópia szignifikáns, ezért csak ez a tag marad az egyenletben. Tothil3 (1) esetén a valószínűség értéke, ha C4B_kópia = 1:
P
(
1 e
1 1 2.5862 = 0.9299 C 4 B _ kópia ) b1 1 e
37
Tothil3 (0) esetén a valószínűség értéke, ha C4B_kópia = 0:
P
(
1 e
1 1 = 0.5 b1C 4 B _ kópia ) 1 0 e
5.4. Poisson regresszió Olyan esetekben, mikor a független változó (y) diszkrét adatokat vesz fel pl. megfigyelések számát vagy arányokat tartalmaz, és az adatok eloszlása Poisson eloszlást követ, akkor alkalmazzuk ezt a sajátságos regressziót az y becslésére. Az alábbi hipotéziseket vizsgáljuk: H0: nincs kapcsolat az x és y változók között. H1: van kapcsolat az x és y változók között.
A keresett egyenlet alakja: Megfigyelési adatokra a modell: g(μ) = β0 + β1x1 + β2x2 + ... + βkxk. ahol E(Y) = μ. Feladat megfigyelési adatokra *Forrásadatok: a vizsgálatban szereplő minden egyes, nőstény patkórákhoz tartozott egy him rák a fészkében. A vizsgálatban azokat a faktorokat tanulmányozták amelyek azt befolyásolják, hogy a fészekben lévő hímen kívül, hány más hím is van a nőstény közelében (ezek az ún. szatellit állatok). A magyarázó változók, amelyek a vizsgálat szerint ilyen hatást gyakorolnak a hímekre: a nőstény rák színe (C), a gerincoszlopának állapota (S), páncéljának szélessége (W, cm), a testsúly (Wt, kg) és a Szatellit rákok száma (Sa). A kimeneti válasz mindenegyes nőstény rákra számítva a szatellit hímek száma volt. *Forrás: Alan Agresti (2002): Categorical Data Analysis, Second Edition, John Wiley & Sons, 127. oldal Vizsgált változók: C (colour) : 1 = világos, 2 = közepes, 3 = közepesen sötét, 4 = sötét S (spine): 1 = rendben, 2 = elnyűtt vagy törött, 3 = elnyűtt és törött Készítsük el a scatter-plot diagrammot (Analyze/Multivariate/Correlations menüpontban)
38
5.22. ábra Scatter-plot diagramm
A diagramm alapján megállapítható, hogy a páncélméret (W) növekedésével a szatellit (Sa) hímrákok száma is nő. A modellbe először a W változót tegyük (a többi változót önmagában hasonlóan vizsgálhatjuk). Futtassuk le a SAS_programok könyvtárból a patkórák.sas programot. Futás után kapott eredmények:
39
A becsült szatellit rákok száma:
log( ˆ ) -3.3048+0.164W a modellben a β = 0.1640 (slope) pozitív, szignifikáns, az ASE (Asymptotical Standard Error) = 0.0200, amely kicsi, a modell jól illeszkedik. Azt jelenti, hogy a szélesebb nőstényrák várhatóan nagyobb számú hím rák kolóniát vonz magához, és exp(0.1640)=1.18 (multiplikatív hatás a ˆ -re). Egy cm-es szélesség növekedés a W-ben a becsült Sa számát 18%-al növeli (a szorzófaktor 1.18). Legyen pl. W = 26.3 cm:
ˆ exp 3.3048 0.164 (26.3) 2.74 Növeljük meg 1 cm-rel az előbbi W = 26.3 értéket, ami 27.3 lesz. Ennek megfelelően a becsült modell:
ˆ exp 3.3048 0.164 (27.3) 3.23 Ami pontosan egyenlő a következő szorzattal: 1.18·2.74 = 3.23.
40
Változtassuk meg a modellt és tegyük be a C=‘color’ mint minőségi prediktort: Proc Genmod; class c; Model Sa=w c / dist=pois link=log proc print; run;
scale=deviance;
Futás után kapott eredmény:
Becsült modell: log ( ˆ ) = -3.0974 + 0.1493W + 0.4474(C="1") + 0.2477(C="2") + 0.0110(C="3") A C szintjei közül a C = 1, 2 értékek a jelentősebb tényezők.
41
Megjegyzés: a különböző modell illeszkedéseknél próbáljunk korrigálni (adjusting) az overdispersion jelenségre. 5.5. Általánosított lineáris model A lineáris modell általánosításának (GLM) tekinthetjük (Generalized Linear Model, GLZ), amelyben közvetlenül nem magát a függő változót (dependent), hanem annak transzformált értékét becsüljük a magyarázó változók (predictors) lineáris / nemlineáris függvényével. A függő változó lehet diszkrét vagy folytonos eloszlású, a predictor változók pedig egyaránt lehetnek kategórikus vagy folytonos változók illetve ezek kombinációja. A GLZ a maximum likelihood (ML) módszert használja a model becslésére. Végezzük el az 5.4. feladatot GLZ segítségével is. Lépések: a) Importáljuk be a REGRESSZIÓ/glz_crabs.xls állományt. b) Lépjünk be az Analyze/Regression/Generalized Linerr Models menüpontba. Data: adjuk meg az ábra szerint a változókat
5.23. ábra Változók megadása
42
Model: adjuk meg az alábbiak szerint
5.24. ábra Modell választás
Model Options: adjuk meg a függő változó eloszlását az alábbiak szerint
43
5.25. ábra Eloszlás választás
Predictions: válasszuk az Original sample opciót
44
Futás után kapott eredmények:
Teljesen azonos az 5.4-ben kapott eredménnyel. Ha a modellbe az összes predictor változót betesszük (a többi beállítás változatlan hatása mellett), akkor a következő eredményt kapjuk:
45
Az Sa becslésre a C (colour, p = 0.0054) és a Wt (weight, p = 0.0041) van hatással. Az egyenlet alakja (a W és Wt között erős a korreláció, a Wt a domináns tag): log ( ˆ ) = -05238 - 0.1850C + 0.4732 Wt
5.6. Korrelációszámítás Minden olyan esetben, amikor feladatunk két vagy többváltozó között a kapcsolat erősségének a megállapítása, korreláció-analízist kell végeznünk. Ez két fajta lehet a változók eloszlásától függően: a) lineáris korreláció: a változók normális eloszlásúak, b) nemlineáris korreláció: a változók nem normális eloszlásúak.
46
A korrelációs együttható értéke [-1, +1] tartományban van, és -1 a maximális negatív, +1 a maximális pozitív korrelációs kapcsolatot, a 0 közeli érték a korrelálatlanságot (de nem függetlenséget) jelenti a változók között. A lineáris korrelációs együtthatók közül a Pearsonféle r együtthatót, a nemlineáris korrelációs együtthatók közül a Spearman-féle együtthatót használjuk leggyakrabban a kapcsolatok mérésére. A korreláció-számítás szoros kapcsolatban van a regressziós eljárással, gyakran együtt is használjuk őket. Általánosan az alábbi hipotéziseket vizsgáljuk: H0: nincs korrelációs kapcsolat az x és y változók között vagy H0: r = 0. H1: van kapcsolat az x és y változók között vagy H 1: r 0 Feladat: határozzuk meg az 5.1.2. feladatban az életkor az IHR változók között lineáris kapcsolat szorosságát kifejező lineáris korrelációs (r) együttható nagyságát. Lépések: a) Importáljuk be a REGRESSZIÓ/lin_IHR_adat.xls állományt. b) Normalitás ellenőrzés: mindkét változó elfogadható normális eloszlásúnak (ShapiroWilk’s teszt = 0.1018 illetve KS = 0.1500) c) Lépjünk be az Analyze/Multivariate/Correlations menüpontba. Data: adjuk meg az ábra szerint a változókat:
47
5.26. ábra Változók megadása
Options: adjuk meg a korrelációs együttható típusát:
48
5.27. ábra Korreláció típus kiválasztása
Results: adjuk meg a szükséges opciókat. A Hoeffding együttható egy nemparaméteres asszociációs együttható, amely a változók közötti függőséget méri. Minél közelebb van értéke az 1 értékhez, annál inkább szoros a függősség a két változó között.
49
5.28. ábra Megjelenítendő eremények kiválasztása
Futás után kapott eredmények:
A táblázatok a leíróstatisztikai adatokat és a korrelációs adatokat tartalmazza. A szimmetrikus korrelációs mátrixból kiolvasható, hogy a két változó között az r = -0.6993, ami negatív, erős
50
korrelációs kapcsolatra utal, összhangban a lineáris regressziónál tapasztalt eredményekkel. A korrelációs vizsgálatoknál nagyon fontos szempont, hogy az együtthatóra vonatkozó p < 0.05 vagyis szignifikáns legyen, mint jelen esetben (p<0.0001), mert csak ekkor fogadhatjuk el az r értékét valós kapcsolatot mutató értéknek.
5.29. ábra Scatter-plot ábra
Az ábra alapján az összetartozó mérési pontok burkológörbéje egy ellipszis, ami szintén a lineáris kapcsolatra utal. Ez egy fontos szempont a lineáris korreláció használhatóságához. Megjegyzés: az outlier értékek maximálisan befolyásolhatják az r értékét.
51