Voorbeeld regressie-analyse In dit voorbeeld wordt gebruik gemaakt van het SPSS data-bestand vb_regr.sav (dit bestand kan gedownload worden via de on-line helpdesk). We schatten een model waarin de afhankelijke variabele Arbeidssatisfactie (Y) wordt voorspeld op basis van Inkomen (X1), Inspraak (X2) en Werksfeer (X3). De regressievergelijking die we derhalve schatten is: Y' = a + b1X1 + b2X2 + b3X3 In de output kunnen we het volgende zien: b Variables Entered/Remove d
Model 1
Variables Entered INKOMEN, SFEER, a INSPRAAK
Variables Removed
Method .
Enter
a. All requested variables entered. b. Dependent Variable: SATISFAC
Deze tabel geeft een overzicht van de onafhankelijke variabelen die zijn opgenomen in het regressiemodel en welke procedure we gekozen hebben. In dit geval is dat Method=Enter, waarbij alle variabelen in 1 keer in het model worden opgenomen.
Model Sum mary
Model 1
R .303a
R Square .092
Adjusted R Square .079
Std. Error of the Estimate 2.4999
a. Predictors: (Constant), INKOMEN, SFEER, INSPRA AK
In deze tabel wordt zowel de multipele correlatie van de afhankelijke variabele met de set predictoren weergegeven (R). Het kwadraat van deze correlatie (‘R Square’) geeft aan hoeveel van de variantie in Y door de set predictoren wordt verklaard. Uit de uitvoer blijkt dat in de steekproef 9.2% van de variantie in arbeidssatisfactie wordt verklaard door de predictoren inkomen, sfeer en inspraak. De ‘Adjusted R Square’ geeft een zuiverder schatter van de populatiewaarde van R 2.
1
ANOVAb
Model 1
Regression Residual Total
Sum of Squares 136.315 1343.667 1479.982
Mean Square 45.438 6.250
df 3 215 218
F 7.271
Sig. .000a
a. Predictors: (Constant), INKOMEN, SFEER, INSPRAAK b. Dependent Variable: SATISFAC
De tabel ‘ANOVA’ geeft de resultaten van de modeltoets weer; de toets waarmee wordt nagegaan of het regressiemodel een significante proportie variantie verklaard. NB: Deze toets is eenzijdig. Bij deze data blijkt dat het geschatte regressiemodel een significante proportie variantie verklaard. De gevonden toetsingsgrootheid F=7.27. Het aantal vrijheidsgraden is 3,215. De kolom Sig. Geeft de overschrijdingskans weer van de gevonden F-waarde. Hier p< 0.001. Bij een significantieniveau van 1% is het gevonden toetsresultaat dus significant. Coefficientsa
Model 1
(Constant) SFEER INSPRAAK INKOMEN
Unstandardized Coef ficients B Std. Error 2.327 .506 .203 .069 .142 .062 3.679E-05 .000
Standardi zed Coef ficien ts Beta .207 .159 .020
t 4.597 2.970 2.280 .313
Sig. .000 .003 .024 .755
a. Dependent Variable: SATISFAC
In de tabel ‘Coefficients’ zijn zowel de ruwe regressiecoëfficienten opgenomen, als de gestandaardiseerde coëfficienten (‘Beta’). M.b.v. de gestandaardiseerde regressiecoëfficiënten kan worden bepaald welke predictoren het belangrijkst zijn in de voorspelling van de arbeidssatisfactie. In de steekproef blijkt sfeer de grootste gestandaardiseerde regressiecoëfficiënt te hebben (0.207) en dus de belangrijkste voorspeller te zijn. De tabel bevat tevens voor iedere predictor de resultaten van de ttoets voor afzonderlijke regressiecoëfficiënten. Deze toetst twee-zijdig of de gevonden regressiecoëfficiënt in de populatie significant afwijkt van 0.
Veronderstel dat de vooropleiding van werknemers mogelijk invloed heeft op de arbeidssatisfactie van werknemers. Een eerste indicatie m.b.t. de invloed van vooropleiding kan worden verkregen door de regressieanalyses apart uit te voeren voor de drie vooropleidingen m.b.v. <Split File>. De verkregen output bevat onder meer onderstaande tabel met regressiecoëfficiënten:
2
Coefficientsa
VOOROPL lager onderw ijs
middelbaar onderw ijs
hoger onderw ijs
Model 1
1
1
(Constant) SFEER INSPRAAK INKOMEN (Constant) SFEER INSPRAAK INKOMEN (Constant) SFEER INSPRAAK INKOMEN
Unstandardized Coef ficients B Std. Error 2.093 .586 .316 .079 .160 .074 -2.39E-05 .000 4.127 1.498 -.139 .177 .173 .155 -6.09E-05 .000 2.062 1.232 .161 .194 .133 .163 1.141E-04 .000
Standardi zed Coef ficien ts Beta .341 .186 -.015 -.136 .185 -.029 .145 .142 .052
t 3.570 3.990 2.176 -.181 2.755 -.783 1.118 -.181 1.674 .829 .817 .351
Sig. .001 .000 .031 .857 .009 .438 .270 .857 .101 .412 .418 .727
a. Dependent Variable: SATISFAC
Uit de output blijkt dat de regressieconstante (a) voor de drie vooropleidingen verschilt (2.093 voor mensen met die waarvan lager onderwijs de hoogst behaalde opleiding is; 4.127 voor mensen waarbij middelbaar onderwijs de hoogst behaalde opleiding is en 2.062 voor mensen die hoger onderwijs hebben genoten). Het lijkt er dus op dat vooropleiding inderdaad van invloed is op de afhankelijke variabele arbeidssatisfactie. Omdat vooropleiding een nominale variabele is, kan deze niet zonder meer in de regressie-vergelijking worden opgenomen. Eerst dienen we voor vooropleiding twee dummy-variabele aan te maken, zoals beschreven in de theoretische uitleg (een dummy-variabele is een dichtome variabele waarop 0 of 1 gescoord kan worden). We maken twee nieuwe variabelen: de variabele MO (middelbare opleiding) en de variabele HO (hogere opleiding). MO heeft de waarde 0 als VOOROPL=1 of 3 (d.w.z niet middelbaar) en de waarde 1 als VOOROPL=2 (d.w.z. middelbaar). HO heeft de waarde 0 als VOOROPL=1 of 2 (d.w.z. niet hoger) en de waarde 1 als VOOROPL=3 (d.w.z. hoger). Toevoeging van de dummyvariabelen MO (D1) en HO (D2) aan het regressiemodel geeft de volgende te schatten regressievergelijking: Y' = a + b1X1 + b2X2 + b3X3 +d1D1+d2D2 Coefficientsa
Model 1
(Constant) SFEER INSPRA AK INKOMEN MO HO
Unstandardized Coef ficients B Std. Error 2.337 .541 .198 .069 .146 .063 3.493E-05 .000 .210 .437 -.195 .431
Standardi zed Coef ficien ts Beta .202 .162 .019 .033 -.031
a. Dependent V ariable: SATISFAC
3
t 4.320 2.865 2.316 .294 .482 -.452
Sig. .000 .005 .022 .769 .630 .652
Opname van de dummy-variabelen in het regressiemodel laat zien dat beide dummyvariabelen voor vooropleiding geen significante regressiecoëfficiënt hebben (MO: t=0.482, p=0.630; HO: t=-0.452, p=0.652).
Aangezien we twee dummy-variabelen aan het regressiemodel hebben toegevoegd die de variabele vooropleiding representeren, dienen we met behulp van de F-toets voor modelvergelijking of het toevoegen van de twee predictoren (MO en HO) een significante verbetering te zien geeft in de proportie verklaarde variantie. Eerst specificeren we het kleine model:
, . Nu klikken we op ‘Block 1 of 1’ en specificeren we het grote model: , Independent = inkomen, sfeer, inspraak, MO, HO>. Vervolgens kiezen we <Statistics, R Change> om de F-toets voor model vergelijking uit te voeren. SPSS geeft nu de output voor de twee regressie-analyses (de kleine analyse en de grote analyse) in één keer. In de tabel ‘ANOVA’ staan de resultaten van de F-toets voor modelvergelijking.
4
Model Sum mary
Model 1 2
R .303a .308b
R Square .092 .095
Adjusted R Square .079 .073
Std. Error of the Estimate 2.4999 2.5081
Change Statistics R Square Change .092 .003
F Change 7.271 .300
df 1 3 2
df 2 215 213
Sig. F Change .000 .741
a. Predictors: (Constant), SFEER, INKOMEN, INSPRA AK b. Predictors: (Constant), SFEER, INKOMEN, INSPRA AK, HO, MO
De tabel geeft voor model 1 (kleine model) en model 2 (grote model) de verklaarde varianties weer (resp. 9.2% en 9.5%). Voor de F-toets voor modelvergelijking is het stukje ‘Change Statistics’ van belang. De rij ‘Model 1’ is hierbij minder interessant. Deze rij bevat informatie over de F-toets voor model vergelijking waarbij het kleine model wordt vergeleken met een ‘leeg’ model (een model zonder predictoren met verklaarde variantie 0%). De rij ‘Model 2’ geeft het verschil in verklaarde variantie tussen kleine en grote model (0.3%) en de F-waarde voor de F-toets voor modelvergelijking (0.300) met bijbehorende vrijheidsgraden (df=2,213) en overschrijdingskans (p=0.741). Hieruit kan geconcludeerd worden bij een significantieniveau van 5% dat het toevoegen van dummyvariabelen voor Vooropleiding niet leidt tot een significante verbetering van het regressiemodel.
Tot slot kunnen we nagaan of het effect van Sfeer op Arbeidssatisfactie verschilt voor de onderscheiden opleidingsgroepen. Uit de aparte regressie-analyses voor de drie vooropleidingsgroepen blijkt namelijk dat de regressiecoëfficiënt voor het effect van sfeer op arbeidssatisfactie verschilt tussen de drie vooropleidingsgroepen. Hiertoe maken we m.b.v. een produktvariabelen aan, waarbij we zowel MO als HO vermenigvuldigen met Sfeer. Deze worden resp. MOXSFEER (P 1) en HOXSFEER (P2) genoemd. Toevoegen van deze produkttermen aan de regressievergelijking geeft het volgende te schatten regressiemodel: Y' = a + b1X1 + b2X2 + b3X3 +d1D1 + d2D2 + p1P1 + p2 P2
5
Model Sum mary
Model 1 2
R .308a .352b
R Square .095 .124
Adjusted R Square .073 .095
Std. Error of the Estimate 2.5081 2.4787
Change Statistics R Square Change .095 .029
F Change 4.454 3.542
df 1 5 2
df 2 213 211
Sig. F Change .001 .031
a. Predictors: (Constant), HO, INSPRAAK, INKOMEN, MO, SFEER b. Predictors: (Constant), HO, INSPRAAK, INKOMEN, MO, SFEER, HOXSFEER, MOXSFEER
Met behulp van de F-toets voor modelvergelijking is getoetst of het zinvol is om regressiemodellen met verschillende regressiecoëfficienten voor het effect van sfeer te schatten, afhankelijk van de vooropleiding van mensen. Het kleine model bevat hierbij de predictoren inkomen, inspraak, sfeer, MO en HO. Het grote model bevat dezelfde predictoren en tevens MOXSFEER en HOXSFEER. Het verschil in verklaarde variantie (2.9%) blijkt significant te zijn (Fgevonden=3.542, df=2 ,211 p=0.031). Het effect van sfeer op arbeidssatisfactie is dus niet even groot voor de drie opleidingsgroepen.
6
Coefficientsa
Model 1
2
(Constant) SFEER INSPRA AK INKOMEN MO HO (Constant) SFEER INSPRA AK INKOMEN MO HO MOXSFEER HOXSFEER
Unstandardized Coef ficients B Std. Error 2.337 .541 .198 .069 .146 .063 3.493E-05 .000 .210 .437 -.195 .431 2.030 .564 .317 .085 .156 .063 -2.67E-06 .000 1.898 .773 .351 .699 -.439 .166 -.164 .163
Standardi zed Coef ficien ts Beta .202 .162 .019 .033 -.031 .322 .174 -.001 .297 .055 -.341 -.116
t 4.320 2.865 2.316 .294 .482 -.452 3.599 3.710 2.488 -.023 2.456 .501 -2.640 -1.007
Sig. .000 .005 .022 .769 .630 .652 .000 .000 .014 .982 .015 .617 .009 .315
a. Dependent V ariable: SATISFAC
Uit de regressiecoëfficiënten valt af te leiden dat het effect van sfeer op arbeidssatisfactie significant verschilt tussen de lager en middelbaar opgeleiden. Coëfficiënt p 1=-0.439 en significant (t=-2.640, p=0.009). De waarde van deze coëfficiënt is negatief, dit betekent dat voor middelbaar opgeleiden het effect van sfeer op arbeidssatisfactie lager/kleiner is dan voor lager opgeleiden. Coëfficiënt p2 is niet significant bij een significantieniveau van 5%. In de populatie verschilt de regressiecoëfficiënt van de variabele sfeer niet tussen hoger en lager opgeleiden (p 2=-0.164, t=-1.007, p=0.315).
7