Regressie-analyse Regressie-analyse is gericht op het voorspellen van één (numerieke) afhankelijke variabele met behulp van een of meerdere onafhankelijke variabelen (numerieke en/of dummy-variabelen). Wanneer de afhankelijke variabele voorspeld wordt op basis van één onafhankelijke variabele is er sprake van enkelvoudige regressie-analyse. Wanneer er meerdere onafhankelijke variabelen gebruikt worden om de afhankelijke variabele te voorspellen, spreken we van multipele regressie-analyse. Zo kunnen wij bijvoorbeeld de Arbeidssatisfactie van werknemers voorspellen op basis van Werkdruk. In dit geval is er sprake van enkelvoudige regressie. Bij de voorspelling van Arbeidssatisfactie op basis van Werkdruk, Opleiding en Inspraak, is er sprake van drie onafhankelijke variabelen en dus van multipele regressie-analyse. Van de regressieprocedure wordt hieronder het doel aangeduid, hoe de betreffende procedure wordt aangeroepen met behulp van het menu, waar de specifieke hulp gevonden kan worden, hoe de globale werkwijze is en enkele aandachtspunten die belangrijk zijn voor het gebruik. Doel: het zo goed mogelijk voorspellen van de scores op de afhankelijke variabele met behulp van de scores op een of meer onafhankelijke variabelen d.m.v. een lineair model. De afhankelijke variabele dient van interval- of rationiveau (scale) te zijn. De onafhankelijke variabelen zijn vaak van interval- of rationiveau, maar kunnen ook nominaal zijn (zgn. dummy variabelen). Zie daarvoor aandachtspunt 4. In een multipele regressie-analyse kunnen ook interacties opgenomen worden (zie aandachtspunt 4). Zelfs bepaalde niet-lineaire verbanden kunnen geanalyseerd worden (zie aandachtspunt 5). Voor de uitvoering in SPSS: Kies in het menu <Statistics>
Informatie over de procedure kan in SPSS verkregen worden m.b.v. ofwel in het venster "Linear Regression" (na kiezen van de procedure m.b.v. menu). Missing Values worden in de berekening buiten beschouwing gelaten, mits correct gedefinieerd of open gelaten (system missing). Met kan aangegeven worden hoe de missing values behandeld moeten worden: "exclude cases listwise" (dit is de standaard instelling), "exclude cases pairwise" ofwel "replace with mean". In dit laatste geval worden de missing values van een variabele vervangen door het gemiddelde van de non-missing values. Globale werkwijze Om een (multipele) regressie-analyse uit te voeren moet een afhankelijke variabele worden geselecteerd: "Dependent" en tevens een of meerdere onafhankelijke variabelen: "Independent(s)". Met behulp van de methode “Enter” worden de geselecteerde onafhankelijke variabelen alle tegelijkertijd in de analyse opgenomen. De overige methoden (Stepwise, Remove, Backward en Forward) worden hier niet behandeld. Ook het zgn. "gewogen kleinste-kwadraten model" dat d.m.v. "WLS>>" kan worden gekozen, wordt hier niet behandeld. Zie hiervoor de Helpfunctie in SPSS. Van: <Statistics>, , <Save> en worden hieronder slechts de mogelijkheden toegelicht die een functie hebben in de standaard regressie-analyse.
Statistics Klik op <Statistics> om een keuze te kunnen maken uit de uitvoermogelijkheden. "Estimates" staat standaard ingesteld en omvat de uitvoer van de regressiecoëfficiënten en daarmee samenhangende grootheden: regressiecoëfficiënten (B), de standard error van de B's (SE B), de gestandaardiseerde regressiecoëfficiënten (Beta), de toetsingsgrootheid t (T) en de overschrijdingskans daarvan (Sig T). Vermeld moet worden dat de waarden van deze grootheden afhankelijk zijn van de keuze van de onafhankelijke variabelen. Door toevoeging of weglating van variabelen kunnen de waarden zeer sterk veranderen. Bijzonderheden over het toetsen van regressiemodellen zijn te vinden onder aandachtspunt 2. Ook "Model fit" is standaard aangekruist. Tot de uitvoer behoort: de multipele correlatiecoëfficiënt (Multiple R), het kwadraat daarvan (R Square), de gecorrigeerde waarde van R2 (Adjusted R Square) en de standard error. In aandachtspunt 3 wordt nadere informatie gegeven over de gecorrigeerde waarde van R2. Bovendien wordt in de uitvoer een variantieanalysetabel gepresenteerd met kwadratensommen, vrijheidsgraden (DF), variantieschattingen (Mean Squares), de toetsingsgrootheid F en de overschrijdingskans van de gevonden Fwaarde (Signif F). Met behulp van deze variantie-analysetabel kan de berekende R2 op significantie worden getoetst. Verdere bijzonderheden over het toetsen van regressiemodellen zijn te vinden onder aandachtspunt 2. Door "Descriptives" aan te kruisen, worden van de geselecteerde variabelen (inclusief de afhankelijke variabele) de gemiddelden, de standaarddeviaties en de onderlinge correlaties berekend en gepresenteerd. Plots Enkele mogelijkheden van "Plots" worden beschreven bij de achterliggende theorie. "Plots" wordt met name gebruikt om de assumpties van lineariteit, normaliteit en homoscedasticiteit van het regressiemodel te controleren. Save Tijdens de uitvoering van een multipele regressie-analyse worden enkele "nieuwe" variabelen berekend, die normaliter niet in de datamatrix worden opgeslagen. Het gaat bijvoorbeeld om de voorspelde scores (Unstandardized Predicted Values), de voorspelde scores in standaardvorm (Standardized Predicted Values = voorspelde scores als z-scores), de residuen (Unstandardized Residuals) en de residuen in de vorm van z-scores (Standardized Residuals). Door de betreffende hokjes aan te kruisen, worden de bijbehorende variabelen wel in de datamatrix opgenomen, zodat ze voor later gebruik beschikbaar blijven (mits de datamatrix ook wordt bewaard!). SPSS zorgt zelf voor de naamgeving van deze variabelen. In de uitvoer worden de naam en inhoud van deze variabelen gepresenteerd.
De achterliggende theorie Het regressiemodel Het regressiemodel voor de populatie in termen van de variabelen kan als volgt worden geschreven: Y=
+
1X1
+
2X2
+ ... +
mXm
+
Op het niveau van de individuele onderzoekseenheden kan dit model als volgt worden geschreven: Yi =
+
1X1i
+
2X2i
+ ... +
mXmi
+
i
De parameters , 1, 2, ... zijn de regressiecoëfficiënten in de populatie. Voor iedere onderzoekseenheid zijn het dezelfde waarden. De variabelen X zijn de onafhankelijke variabelen. In totaal zijn er m onafhankelijke variabelen. Y is de afhankelijke variabele. De (hypothetische) variabele (met de bijbehorende scores i) is de zgn. toevalsfactor of errorterm. De score op de afhankelijke variabele wordt voor iedere onderzoekseenheid op dezelfde wijze bepaald door de scores op de onafhankelijke variabelen, plus of min een bepaalde waarde ( i) die specifiek is voor iedere onderzoekseenheid. De bovenstaande regressievergelijking wordt in het algemeen door middel van een (aselecte en representatieve) steekproef geschat: Y = a + b1X1 + b2X2 + ... + bmXm + e
(niveau van de variabelen)
Yi = a + b1X1i + b2X2i + ... + bmXmi + ei
(niveau van de onderzoekseenheden)
Vaak schrijft men: Y' = a + b1X1 + b2X2 + ... + bmXm
(niveau van de variabelen)
Y'i = a + b1X1i + b2X2i + ... + bmXmi
(niveau van de onderzoekseenheden)
waarbij Y'i de voorspelde score voorstelt. De modellen kunnen ook nog geschreven worden in termen van gestandaardiseerde variabelen: Zy =
(s) 1Z1
+
(s) 2Z2
+ ... +
(s) mZm
Zy = B1Z1 + B2Z2 + ... + BmZm +
+
(populatie) (steekproef)
De waarden van (s) en B zijn de gestandaardiseerde regressiecoëfficiënten voor resp. de populatie en de steekproef. Met behulp van de gestandaardiseerde regressiecoëfficiënten kan worden bepaald welke onafhankelijke variabele het meeste gewicht in de schaal legt bij de voorspelling van de afhankelijke variabele. Voorwaarden om een regressie-analyse uit te voeren Om op een correcte wijze te kunnen generaliseren van steekproef naar populatie, dient aan een aantal assumpties voldaan te zijn. De gangbare statistische toetsing in de regressie-analyse kan gevoelig zijn voor schending van een of meer van de hieronder vermelde assumpties. Regressie-analyses uitvoeren zonder dat men zich om de voorwaarden bekommert, kan gemakkelijk aanleiding geven tot moeilijk interpreteerbare resultaten. Het is daarom verstandig de residuen zorgvuldig te analyseren om eventuele schendingen van de assumpties op te sporen. We bespreken hieronder de assumpties en manieren om die te onderzoeken.
Assumptie 1: Lineariteit van de regressievergelijking De regressievergelijking in de populatie is in werkelijkheid lineair (zie boven). Controle op lineariteit en homoscedasticiteit Maak m.b.v. een plot van de gestandaardiseerde residuen (*ZRESID) op de Y-as tegen de gestandaardiseerde voorspelde waarden (*ZPRED) op de X-as. Als aan de assumpties van lineariteit en homoscedasticiteit is voldaan, zullen de punten in deze plot volstrekt willekeurig verdeeld zijn. De aanwezigheid van een bepaald patroon is een aanwijzing voor niet-lineaire regressie, voor heteroscedasticiteit of voor beide. NB:
Door het opnemen van kwadratische termen (en eventueel termen met een nog hogere macht) kunnen sommige vormen van niet-lineaire regressie worden geanalyseerd. Met behulp van COMPUTE opdrachten worden "nieuwe" variabelen X2, X3, enz. gemaakt, die vervolgens als onafhankelijke variabelen in de regressie-analyse worden opgenomen. Door geschikte transformaties is het soms mogelijk om verschillende vormen van nietlineariteit te "lineariseren". Bekend zijn logaritmische, reciproke en vierkantsworteltransformaties.
Assumptie 2: Normaliteit, gemiddelde en variantie van de errortermen Voor elke subgroep van onderzoekseenheden, gekenmerkt door een specifieke combinatie van scores op de onafhankelijke variabelen X, is de verdeling van de -scores een normale verdeling met gemiddelde 0 en constante variantie (homoscedasticiteit). Het gemiddelde van de residuen in de steekproef (e) is altijd exact gelijk aan 0 als gevolg van de schattingsprocedure. Controle op normaliteit Met behulp van kan een histogram verkregen worden van de gestandaardiseerde residuen door het betreffende hokje aan te kruisen. In het histogram is de theoretische normale verdeling ingetekend. Sterke afwijkingen van de geobserveerde frequencies (kolommen) en de theoretische normale verdeling zijn een aanwijzing voor non-normaliteit van de errortermen, misspecificatie van het model (b.v. er zijn relevante onafhankelijke variabelen vergeten) of heteroscedasticiteit. Assumptie 3: Onafhankelijkheid van de errortermen De waarden die aanneemt voor de diverse onderzoekseenheden zijn onafhankelijk van elkaar. Een voorbeeld van duidelijk afhankelijke errortermen (dan is dus aan de voorwaarde van onafhankelijkheid niet voldaan) wordt gevormd door zgn. repeated measurements (herhaalde metingen bij dezelfde onderzoekseenheden). Dit is bijvoorbeeld bij tijdreeksen het geval. Assumptie 4: Onafhankelijkheid van error en onafhankelijke variabelen De (hypothetische) toevalsfactor ( ) dient ongecorreleerd te zijn met de onafhankelijke variabelen X. Of aan deze voorwaarde is voldaan, is in de praktijk moeilijk te beoordelen. De steekproefcorrelatie tussen de onafhankelijke variabelen en de residuen is exact gelijk aan 0, als gevolg van de schattingsprocedure. Deze correlatiecoëfficiënten zeggen niets over de populatiewaarden ervan.
Localiseren van extreme waarden Hoewel dit niets te maken heeft met de schending van de assumpties, kan voor de interpretatie van een regressie-analyse het opsporen van extreem grote residuen van belang zijn. Het gaat daarbij immers om slecht voorspelbare scores op de afhankelijke variabele. Na het commando kan het keuzehokje "Casewise plot" aangekruist worden. Kies daarna voor "Outliers outside 3 std. deviations". In een tabel worden de cases vermeld waarvan het gestandaardiseerde residu groter is dan 3 of kleiner dan -3. Zoals bekend zijn z-scores (onder de assumptie van een normale verdeling) met een absolute waarde van 3 of meer uiterst zeldzaam. Deze kun je beter uit je analyse laten door de waarde te definiëren als een missing value of weg te halen.
Toetsen regressieparameters en regressiemodellen Met behulp van de t-toetsen in de uitvoer van SPSS kan worden nagegaan of de betreffende onafhankelijke variabele een significante extra bijdrage levert aan de verklaring van Y boven op de bijdrage van alle overige onafhankelijke variabelen samen. Het komt echter regelmatig voor dat er bij die overige onafhankelijke variabelen, variabelen voorkomen die zelf geen significante bijdrage leveren aan de verklaring van Y. In een dergelijke situatie heeft een individuele t-toets weinig waarde. De t-waarden en de bijbehorende overschrijdingskansen zijn niet geschikt om de onafhankelijke variabelen te selecteren die een significante bijdrage leveren aan de verklaring van de afhankelijke variabele. Een belangrijke toets in de regressie-analyse is de zgn. modeltoets (F-toets voor proportie verklaarde variantie). Hiermee wordt getoetst of het gehele regressiemodel een significante proportie variantie verklaart. De toets kent de volgende nulhypothese: H0: R2=0 met H1: R2>0. In de uitvoer van SPSS worden de resultaten van deze F-toets in de tabel ‘ANOVA’ weergegeven. Een andere belangrijke toets is de F-toets voor modelvergelijking (niet te verwarren met de vorige F-toets!). Met deze toets kan worden nagegaan of het toevoegen, resp. weglaten van onafhankelijke variabelen leidt tot een significante verbetering, resp. verslechtering van het regressiemodel. Stel, in regressie-analyse 1 (met N onderzoekseenheden) zijn p onafhankelijke variabelen opgenomen. Het kwadraat van de multipele correlatiecoëfficiënt wordt voorgesteld door R 21. In regressie-analyse 2 (met dezelfde N onderzoekseenheden) zijn dezelfde p onafhankelijke variabelen opgenomen en bovendien nog q andere (nog niet gebruikte) onafhankelijke variabelen. Het kwadraat van de multipele correlatiecoëfficiënt wordt nu voorgesteld door R22. Uiteraard geldt dat R22 R21. In SPSS kan de F-toets voor modelvergelijking worden uitgevoerd door te werken met ‘Blocks’. Specificeer eerst het ‘kleine’ regressiemodel. Door bij ‘Block 1 of 1’ op te klikken, wordt een nieuw ‘Block’ gemaakt. Het is nu mogelijk om het ‘grote’ model te specificeren. SPSS zal nu beide regressie-analyses (zowel voor het kleine als het grote regressiemodel) in 1x uitvoeren. Via <Statistics> worden de gegevens m.b.t. de F-toets voor modelvergelijking verkregen.
Dummy-variabelen Nominale (en dus ook ordinale) variabelen kunnen heel goed als onafhankelijke variabelen in een regressie-analyse worden opgenomen, mits zij getransformeerd zijn tot zgn. dummyvariabelen. Een nominale variabele met k elkaar uitsluitende categorieën wordt met behulp van COMPUTE en COMPUTE IF commando's omgezet in (k-1) dummy-variabelen. Elke categorie kan worden herkend aan het unieke patronen van nullen en enen op de k-1 dummy-variabelen. Een categorie heeft een patroon van allemaal nullen; deze categorie wordt de referentiecategorie genoemd. Je mag zelf bepalen welke categorie je kiest als referentiecategorie. Voorbeeld: kwalitatieve variabele met 3 categorieën (A,B,C) kun je met (3-1) dummies (D1 en D2 representeren. Categorie A B C
D1 1 0 0
D2 0 1 0
Hier: categorie C is de referentiecategorie. Stel dat de variabele VOOROPL bestaat uit drie categorieën, resp. L(ager), M(iddelbaar) en H(oger) met bijbehorende scores 1, 2 en 3. De variabele VOOROPL is kwalitatief en wordt dus niet zonder meer als onafhankelijke variabele in de regressie-analyse opgenomen. Eerst worden (met behulp van 2 COMPUTE en 2 COMPUTE IF commando's) de volgende datatransformaties uitgevoerd. We maken twee nieuwe variabelen: de variabele MO (middelbare opleiding) en de variabele HO (hogere opleiding). MO heeft de waarde 0 als VOOROPL=1 of 3 (d.w.z niet middelbaar) en de waarde 1 als VOOROPL=2 (d.w.z. middelbaar). HO heeft de waarde 0 als VOOROPL=1 of 2 (d.w.z. niet hoger) en de waarde 1 als VOOROPL=3 (d.w.z. hoger). Merk op dat er geen variabele LO nodig is! MO en HO zijn zgn. dummy-variabelen. Zij worden beide in de regressie-analyse opgenomen. Zij vertegenwoordigen resp. het extra effect van de middelbare en hogere vooropleiding. Nogmaals: VOOROPL wordt niet als onafhankelijke variabele opgenomen, MO en HO wel en er is geen dummy-variabele LO. Lager opgeleiden vormen de referentiecategorie, te herkennen aan hun scorepatroon met nullen op zowel MO als HO. Het opnemen van dummy-variabelen in de regressie-analyse op de hierboven omschreven manier heeft alleen zin als er geen sprake is van interacties. Anders geformuleerd: als afzonderlijke regressie-analyses (bijvoorbeeld uitgevoerd na het commando SPLIT FILE) voor de verschillende categorieën van de nominale onafhankelijke variabele (ongeveer) dezelfde regressie-coëfficiënten b (slope) opleveren, maar verschillende a's (intercepts), is het werken met dummy-variabelen gerechtvaardigd. Er is dan geen sprake van interactie. Als echter blijkt dat de b's in de afzonderlijke regressie-analyses voor de verschillende categorieën van de nominale onafhankelijke variabele duidelijk (significant) verschillend zijn, moeten niet alleen dummy-variabelen worden opgenomen, maar ook product-variabelen (=interactie tussen dummy en andere predictor). Door de toevoeging van product-variabelen wordt het model meestal aanzienlijk gecompliceerder; nu kunnen de regressie-coëfficienten verschillen voor de verschillende categorieën van de nominale variabele.
Selecteren predictoren Bij het selecteren van predictoren wordt vaak ten onrechte gedachte dat meer predictoren zullen leiden tot een betere voorspelling van de afhankelijke variabele. Dit is een onjuiste veronderstelling. Meestal zal na het opnemen van 5 à 6 predictoren de verklaarde variantie niet veel meer verbeteren. Verder is het van belang dat het aantal proefpersonen in een goede verhouding staat tot het aantal variabelen dat wordt meegenomen in de regressievergelijking. Stevens (1992) noemt als vuistregel dat in het algemeen minimaal 15 proefpersonen per predictor nodig zijn voor betrouwbare schattingen van de regressievergelijkingen. Let bij het selecteren van variabelen op de onderlinge samenhang tussen predictoren en de samenhang tussen individuele predictoren en de afhankelijke variabele. Het beste is om predictoren te selecteren die onderling laag correleren, maar die elk wel hoog correleren met de afhankelijke variabele. Deze predictoren zullen ieder een uniek stukje variantie in Y verklaren. Tevens wordt op deze manier multicollineariteit voorkomen; de situatie waarin de geschatte regressiecoëfficiënten onbetrouwbaar zijn (dit uit zich in gestandaardiseerde regressiecoëfficiënten groter dan 1 of kleiner dan –1). In geval van multicollineariteit kunnen variabelen die onderling hoog correleren beter worden samengevoegd. Ook kan er voor gekozen worden om slechts één van de twee hoog correlerende predictoren op te nemen in het regressiemodel. Tot slot is het mogelijk, wanneer er veel predictoren zijn, om eerst een datareductie toe te passen (principale componenten analyse) en de verkregen componenten op te nemen als predictoren in het regressiemodel. Inspectie van de correlatiematrix waarin alle correlaties tussen predictoren onderling en correlaties tussen de predictoren en de afhankelijke variabele zijn opgenomen geeft een indicatie of het verstandig is variabelen samen te voegen, niet in de analyse op te nemen of datareductie toe te passen. SPSS heeft verder onder de optie <Statistics> binnen de optie . De zogenaamde ‘Tolerance’ en ‘VIF’= Variance Inflation Factor, zijn daarbij indicatoren voor multicollineariteit. Meer informatie over deze diagnostics staat in de Help-functie van SPSS wanneer je zoekt naar de term ‘collinearity’.