Selectiebias en zelfselectie in sociaal-wetenschappelijk onderzoek
Jeroen Smits
Universiteit van Amsterdam
Werkdocument, september 1999
Scholar Project Economische Faculteit Universiteit van Amsterdam Roetersstraat 11 1018 WB Amsterdam Nederland Email:
[email protected] Homepage: http://home.planet.nl/~smits.jeroen
1
Selectiebias en zelfselectie in sociaal-wetenschappelijk onderzoek
1. Inleiding
Sociaal-wetenschappelijke onderzoekers worden regelmatig geconfronteerd met het probleem van selectiebias of zelfselectie in hun gegevens. Dit probleem, dat in de Engelstalige literatuur onder namen als selection bias, sample selection bias, self-selection, en self-selectivity bekend staat, kan optreden als de verdeling van respondenten over de groepen waar een onderzoek zich op richt niet random plaats heeft gevonden. Onderzoekers die geïnteresseerd zijn in de verschillen tussen die groepen weten dan niet of het om echte verschillen tussen de groepen gaat, of om verschillen die veroorzaakt worden door het toewijzingsproces. Bovendien kunnen analyses die op slechts één van de groepen betrekking hebben sterk vertekende resultaten opleveren. In de sociaal-wetenschappelijke onderzoeksliteratuur wordt slechts weinig aandacht aan dit probleem besteed. Als het aan bod komt, dan is het meestal bij de bespreking van de (gevolgen van) selectieve nonrespons bij steekproeftrekking. De meeste onderzoekers weten daardoor wel dat de weigering van (potentiële) respondenten om aan een enquête mee te doen, of om op bepaalde vragen antwoord te geven, de resultaten van een onderzoek kan vertekenen. Dat selectiebias een veel breder voorkomend probleem is, dat ook kan optreden als er representatieve gegevens van deelpopulaties of zelfs van de complete populatie gebruikt worden, is echter minder bekend. Een veel voorkomend misverstand is bijvoorbeeld dat het ontbreken (of niet gebruiken) van gegevens voor een deel van de populatie geen problemen oplevert als de uitspraken die op basis van het onderzoek gedaan worden beperkt blijven tot het deel van de populatie waarvoor wel representatieve gegevens beschikbaar zijn. Deze opvatting is echter onjuist.
2
Ook als gewerkt wordt met een representatieve steekproef van een deelpopulatie kan er sprake zijn van selectieve over- of ondervertegenwoordiging van bepaalde groepen, waardoor de onderzoeksresultaten die betrekking hebben op die deelpopulatie vertekend worden. Zo zullen in een random steekproef van werklozen de kansrijke werklozen ondervertegenwoordigd zijn omdat zij sneller een baan vinden. Ook zal er bij een random steekproef van gehuwde personen sprake zijn van een oververtegenwoordiging van de stabiele relaties omdat de minder stabiele relaties vaker in scheiding eindigen. In dit artikel wordt een eenvoudige beschrijving van het selectiebias probleem gegeven en wordt een methode aangereikt waarmee in een aantal gevallen dit probleem kan worden aangepakt. In de volgende paragrafen wordt nader uitgelegd wat selectiebias inhoudt. In paragraaf 2 en 3 gebeurt dat in eenvoudige bewoordingen en in paragraaf 4 op meer formele wijze. Daarbij wordt een onderscheid gemaakt tussen twee verschillende vormen van selectiebias. Dit onderscheid is gebaseerd op de mate waarin er gegevens beschikbaar zijn over de afhankelijke variabele waar het onderzoek zich op richt. Bij de vorm van selectiebias die het eerst wordt besproken, is deze afhankelijke variabele slechts voor een deel van de respondenten bekend. Daarom zal ik voor deze vorm de term partiële informatie bias gebruiken. Bij de andere vorm van selectiebias is de afhankelijke variabele voor alle respondenten bekend. Deze vorm zal ik complete informatie bias noemen. Bij beide vormen wordt aangenomen dat de onafhankelijke variabelen - behoudens incidentele missing values - voor alle respondenten bekend zijn. Op de zogenaamde “truncated samples”, waarbij voor een deel van de potentiële respondenten in het geheel geen gegevens bekend zijn, wordt in dit artikel niet ingegaan. Een verdere beperking is dat alleen aandacht wordt besteed aan de gevolgen van selectiebias bij de toepassing van multivariate analysetechnieken als lineaire regressieanalyse, logit- en probitanalyse. Na de bespreking van de twee vormen van selectiebias wordt in paragraaf 4 ingegaan op een veelgebruikte oplossing van het selectiebias probleem: de Heckman twee-staps procedure. In paragraaf 5 wordt de toepassing van deze methode gedemonstreerd aan de hand van twee voorbeelden. Daarbij wordt zowel gebruik gemaakt van een gespecialiseerd econometrisch programma (LIMDEP) als van een SPSS procedure die eenvoudig zelf te schrijven is.
3
2. Partiële informatie bias
Zoals hierboven werd vermeld, kunnen er twee vormen van selectiebias worden onderscheiden. Bij beide vormen is er sprake van een selectieproces waarbij gekozen wordt tussen twee (of meer) alternatieven. Bij de vorm van selectiebias die in deze paragraaf wordt besproken, de partiële informatie bias, is slechts voor één van die alternatieven volledige informatie over de afhankelijke variabele beschikbaar. Het (zelf)selectie mechanisme waar het hier om gaat is het proces dat er voor zorgt dat de afhankelijke variabele wel of niet waargenomen wordt. De centrale vraag bij deze vorm van selectiebias is of en in hoeverre de personen waarvoor de afhankelijke variabele wel is waargenomen verschillen van de personen waarbij dat niet het geval is. Als de respondenten waarvoor de afhankelijke variabele bekend is qua relevante kenmerken verschillen van de respondenten waarvoor deze variabele niet bekend is, dan kunnen analyses die zich beperken tot de respondenten waarvoor de afhankelijke variabele bekend is tot vertekende resultaten leiden. Een veel gebruikt voorbeeld van partiële informatie bias betreft het onderzoek naar de inkomens van werkende vrouwen (zie bijvoorbeeld Heckman, 1980). Omdat lang niet alle vrouwen betaalde arbeid verrichten, heeft een dergelijk onderzoek noodgedwongen slechts betrekking op een deel van de vrouwen. Dit is problematisch omdat er tussen werkende en niet-werkende vrouwen verschillen kunnen bestaan die met hun verdienvermogen kunnen samenhangen. Zo is het mogelijk dat vooral vrouwen die een hoog inkomen kunnen verwerven er voor kiezen om betaalde arbeid te verrichten. Een analyse die alleen betrekking heeft op deze werkende vrouwen kan dan tot foutieve conclusies komen over bijvoorbeeld het verband tussen opleiding en inkomen. ------------------------------------Figuur 1 ongeveer hier ------------------------------------Om dit te verduidelijken wordt in figuur 1 voor een (fictieve) steekproef van vrouwen het verband tussen opleiding en inkomen weergegeven. In deze figuur geven de vierkantjes het inkomen van de werkende vrouwen met een bepaald opleidingsniveau weer. De rondjes doen hetzelfde voor potentiële inkomen van de niet-werkende vrouwen. Omdat verondersteld wordt dat vrouwen met een hoger verdienvermogen vaker betaalde arbeid verrichten, zijn in het bovenste deel van de figuur de vierkantjes oververtegenwoordigd en
4
in het onderste deel de rondjes. De gestippelde lijn geeft de regressierechte weer zoals die geweest zou zijn als het inkomen van alle vrouwen zou zijn waargenomen. De doorlopende lijn geeft de regressierechte weer zoals die wordt waargenomen bij de werkende vrouwen. Figuur 1 laat zien dat de regressielijn zoals die wordt waargenomen bij de werkende vrouwen verschilt van de regressielijn voor alle vrouwen. Door het lagere potentiële inkomen van de niet-werkende vrouwen is het waargenomen verband tussen opleiding en inkomen zwakker dan het in werkelijkheid is. Een oververtegenwoordiging van vrouwen met een hoger verdienvermogen onder de werkenden leidt zodoende tot een onderschatting van het effect van opleiding op inkomen. Bij dit voorbeeld is het ontbreken van gegevens voor een deel van de populatie inherent aan het te onderzoeken probleem. Niet alle vrouwen hebben een baan en dus is er niet voor alle vrouwen een inkomen bekend. Het optreden van partiële informatie bias beperkt zich echter niet tot dit soort situaties. Het ontbreken van gegevens is binnen het sociaal wetenschappelijk onderzoek een wijd verbreid probleem waar de meeste kwantitatieve onderzoekers wel eens mee geconfronteerd worden. In de inleiding werd reeds het probleem van de nonrespons bij dataverzameling genoemd. Als deze nonrespons hoog is en de personen waarvoor geen gegevens bekend zijn voor wat betreft de afhankelijke variabele verschillen van degenen waarvoor dat wel het geval is, dan zullen analyses die op basis van het wel beschikbare materiaal verricht worden onder partiële informatie bias te lijden kunnen hebben. Andere voorbeelden van onderzoeksproblemen waarbij deze vorm van selectiebias een rol kan spelen zijn onderzoek naar stemgedrag (personen die niet gaan stemmen kunnen qua partijvoorkeur verschillen van degenen die dat wel doen), onderzoek naar gescheiden personen (die in allerlei opzichten van niet-gescheiden personen kunnen verschillen), onderzoek met een telepanel (ouderen of personen met een lage opleiding hebben misschien meer problemen met het gebruik van een computer), en onderzoek naar de effecten van risicofactoren als roken of slecht eten op de gezondheid (ongezonde personen sterven eerder en zijn dus ondervertegenwoordigd in de populatie).
5
3. Complete informatie bias
Ook bij de tweede vorm van selectiebias - die door economen wel endogeniteitsbias genoemd wordt - is er sprake van een (zelf)selectieproces waarbij een keuze wordt gemaakt tussen twee (of meer) alternatieven. Bij deze vorm is er echter voor ieder van de alternatieven volledige informatie over de afhankelijke variabele beschikbaar. De vraag waar het in deze situatie om gaat is of en in hoeverre een verschil tussen personen die een bepaalde keuze wel maken en personen die dat niet doen een gevolg is van verschillen die al van te voren tussen de betreffende personen bestonden. Als we bijvoorbeeld willen nagaan of verhuizen over lange afstand van invloed is op het inkomen dat iemand verdient, dan is het niet voldoende om de inkomens van personen die verhuisd zijn te vergelijken met de inkomens van personen die niet verhuisd zijn. Het is namelijk goed mogelijk dat de personen die er voor kiezen om te verhuizen al voor de verhuizing in bepaalde opzichten verschillen van degenen die daar niet voor kiezen. Als het bij deze verschillen om kenmerken gaat die ook van invloed zijn op het inkomen, dan kunnen de resultaten van een inkomensvergelijking tussen beide groepen vertekend worden. Verschillen in inkomen tussen verhuizers en niet-verhuizers die al voor de verhuizing bestonden, kunnen dan ten onrechte als een gevolg van de verhuizing beschouwd worden. De kern van het probleem is dat twee verschillende processen - het er al of niet voor kiezen om te verhuizen en het verwerven van een inkomen - aan dezelfde invloeden blootgesteld zijn. Zo is het mogelijk dat persoonskenmerken als intelligentie of motivatie zowel van invloed zijn op de beslissing om te verhuizen als op het bereikte inkomen. Hierdoor kan er een verband tussen het al of niet verhuizen en het inkomen ontstaan, zelfs als verhuizen op zich geen invloed op het inkomen heeft. Bij de bepaling van het effect van verhuizen op het inkomen dient met deze samenhang rekening gehouden te worden. Als dit niet gebeurt dan kan ze ten onrechte aan de verhuisvariabele worden toegeschreven. Het geschatte verband tussen verhuizen en het inkomen valt dan hoger of lager uit dan het in werkelijkheid is. Het risico op complete informatie bias is hoog bij allerlei vormen van evaluatieonderzoek; als groepen met elkaar worden vergeleken waaraan de respondenten niet random zijn toegewezen. Personen kiezen zelf of ze in een bepaalde regio gaan wonen, of ze een bepaalde cursus gaan volgen, naar welk type school ze gaan, of ze lid worden van
6
een vakbond, of ze een huis kopen of huren, of ze trouwen of gaan samenwonen, enzovoort. In al deze gevallen is het mogelijk dat (ongemeten) factoren die mede bepalen welk van de alternatieven gekozen wordt, ook van invloed zijn op de afhankelijke variabele waar het bij het betreffende onderzoek om gaat.
4. Formele specificatie van het probleem
In de voorgaande paragrafen werd aangegeven dat selectiebias problemen kan opleveren bij analyses die betrekking hebben op deelpopulaties (partiële informatie bias) en bij het bepalen van verschillen tussen groepen (complete informatie bias). Gangbare analysetechnieken als ordinary least squares (OLS) regressieanalyse en logit- en probitanalyse leveren bij het optreden van selectiebias vertekende resultaten op. In deze paragraaf zal ik dat demonstreren aan de hand van het OLS-regressiemodel. Aangezien deze demonstratie het makkelijkst te volgen is bij de variant waarbij gegevens voor alle respondenten beschikbaar zijn (complete informatie bias), zal ik daarmee beginnen.
4.1 Complete informatie bias Als voorbeeld neem ik weer het effect van verhuizen op het inkomen. Dit probleem kan worden weergegeven met de volgende regressievergelijking: (1) In deze vergelijking staat
voor het voorspelde inkomen van respondent i,
vector met de bekende kenmerken van de respondent, en
voor een vector met de
regressiecoëfficiënten die bij deze kenmerken horen. Verder is
een dummy variabele die
aangeeft of de respondent wel (1) of niet (0) recentelijk verhuisd is en staat deze dummy behorende regressiecoëfficiënt. Tenslotte is
voor een
voor de bij
een storingsterm die aangeeft
in hoeverre het door het model voorspelde inkomen van het werkelijke inkomen van de respondent afwijkt. De
vertegenwoordigen alle effecten op het inkomen die niet door de
bekende kenmerken gevangen worden. Bij OLS-regressieanalyse wordt in het algemeen van de
aangenomen dat ze een verwachte waarde van nul hebben, dat ze niet met
elkaar gecorreleerd zijn en dat ze een voor iedere respondent gelijke variantie
hebben.
7
Verder wordt aangenomen dat de
met geen van de onafhankelijke variabelen
gecorreleerd zijn. Vergelijking 1 is een normaal OLS regressiemodel. Het probleem zit hem echter in het feit dat de verdeling van de respondenten over de twee categorieën van
niet random
heeft plaatsgevonden maar tot stand is gekomen via zelfselectie. Ongemeten kenmerken van de respondent die van invloed zijn op de verhuisbeslissing kunnen ook van invloed zijn op het inkomen. Als dat zo is, dan komen ze in vergelijking 1 in de storingsterm
terecht.
Het gaat immers om ongemeten kenmerken, die niet als regressor opgenomen kunnen worden. Omdat deze kenmerken ook van invloed zijn op de verhuisbeslissing, leidt dit tot een correlatie tussen de storingsterm binnen de twee categorieën van
en de verhuisdummy
. Het gemiddelde van de
is dan niet meer gelijk aan nul. Zo zal bij een positief
effect van de ongemeten kenmerken op zowel de verhuisbeslissing als het inkomen het gemiddelde van de
bij de verhuizers groter dan nul zijn en bij de niet-verhuizers kleiner
dan nul. Zou de migratiedummy afwijkingen van de
niet in vergelijking 1 aanwezig zijn, dan zouden deze
tegen elkaar wegmiddelen en zou het gemiddelde van de
wel nul
zijn. Deze dummy is echter wel aanwezig en bij dit onderzoek is ze zelfs de variabele waar het om gaat. Vanwege het verband tussen de schattingen leiden van de coëfficiënt
en
zal OLS-regressieanalyse tot onjuiste
die het effect van verhuizen op het inkomen
weergeeft.
4.2 Partiële informatie bias Bij de versie van het selectiebias probleem waarbij de afhankelijke variabele slechts voor een deel van de respondenten bekend is (de partiële informatie bias), ziet het model er als volgt uit: (2) De betekenis van de termen in deze vergelijking is hetzelfde als bij vergelijking 1. Ook dit model is op zich een gewoon OLS regressiemodel. Het selectiebias probleem zit hem hier in het gegeven dat de afhankelijke variabele
slechts voor een deel van de respondenten
bekend is. Bij het voorbeeldprobleem gaat het er om, dat het inkomen
van vrouwen
alleen bekend is voor degenen onder hen met een betaalde baan. Stel nu dat vooral de vrouwen die een hoog inkomen kunnen verwerven ervoor kiezen om betaalde arbeid te
8
verrichten. Dan zullen de vrouwen met een laag opleidingsniveau en dus met een laag verdienvermogen onder de werkenden ondervertegenwoordigd zijn. De vrouwen met een laag opleidingsniveau die wel een baan hebben zullen dan waarschijnlijk vooral degenen zijn die vanwege andere kenmerken een relatief hoog verdienvermogen hebben, dus bijvoorbeeld de meer initiatiefrijken en ambitieuzen onder hen. Als dit zo is, dan zullen onder de werkende vrouwen degenen met een laag opleidingsniveau in doorsnee initiatiefrijker en ambitieuzer zijn dan degenen met een hoog opleidingsniveau. Er bestaat dan onder de werkenden een verband tussen opleidingsniveau en de mate van initiatief en ambitie. Als nu initiatief en ambitie ongemeten kenmerken zijn, die dus in de storingsterm terecht komen, dan heeft dit tot gevolg dat er een verband tussen opleidingsniveau en de storingsterm ontstaat. Hierdoor wordt de OLS assumptie dat verklarende variabelen niet met de storingsterm
gecorreleerd mogen zijn geschonden en levert toepassing van OLS
regressieanalyse onjuiste schattingen van de regressiecoëfficiënt van het opleidingsniveau op.
4.3 Overeenkomsten Uit het voorgaande volgt dat er bij beide vormen van selectiebias sprake is van een verband tussen de storingsterm van de regressievergelijking en één of meerdere van de onafhankelijke variabelen. Bij complete informatie bias gaat het om de dummy variabele die aangeeft tot welke van de twee groepen de respondent behoort en bij partiële informatie bias gaat het om de verklarende variabele(n) die binnen de geselecteerde groep samenhangen met ongemeten kenmerken die van invloed op de afhankelijke variabele zijn. Uit het voorgaande blijkt verder dat beide versies van het probleem sterk op elkaar lijken. In beide gevallen is er sprake van twee groepen die van elkaar verschillen in ongemeten kenmerken die op de afhankelijke variabelen van invloed zijn. Bij het verhuisprobleem zijn deze groepen de verhuizers en de niet-verhuizers. Bij het participatieprobleem betreft het de werkende en de niet-werkende vrouwen. Als bij het voorbeeld van het verhuizen de inkomensanalyse alleen zou worden uitgevoerd op het deel van de respondenten dat verhuisd is, dan zou dit vraagstuk hierdoor in de andere versie van het selectiebias probleem zijn omgezet.
9
5. Heckman’s twee-stap procedure
Het gemeenschappelijke in beide versies van het selectiebias probleem - het feit dat er in beide gevallen sprake is van een storingsterm waarvan het gemiddelde binnen de groepen van nul afwijkt - geeft tevens een mogelijkheid aan om dit probleem op te lossen. Dit kan namelijk gebeuren, door aan de regressievergelijking een correctiefactor toe te voegen, die voor iedere respondent een zodanige waarde heeft, dat het conditionele gemiddelde van storingsterm terug naar nul wordt gebracht. Deze oplossing is onder meer door Heckman (1976, 1979) voorgesteld. Heckman laat zien dat er bij het optreden van selectiebias in feite een verklarende variabele aan het regressiemodel ontbreekt en dat dit probleem dus kan worden opgelost door die ontbrekende variabele aan het regressiemodel toe te voegen. Heckman’s aanpak, die bekend staat als de Heckman twee-staps procedure, zal in dit paper nader worden uitgewerkt. Sinds haar introductie aan het einde van de zeventiger jaren is ze veelvuldig gebruikt in het sociaal-wetenschappelijk onderzoek. Het is bovendien een oplossing die in de praktijk vrij makkelijk is toe te passen. Zoals haar naam al zegt, bestaat ze uit twee onafhankelijke stappen. In de eerste stap wordt op basis van een analyse van het selectieproces voor iedere respondent een correctiefactor berekend, die als een extra variabele aan het databestand wordt toegevoegd. Bij de tweede stap, waarin de analyse wordt uitgevoerd waar het eigenlijk om gaat, wordt deze correctiefactor als een extra verklarende variabele meegenomen. Als er sprake is van selectiebias dan levert OLS regressieanalyse na toevoeging van deze correctiefactor (en als aan een aantal voorwaarden is voldaan) betere parameterschattingen op dan zonder deze factor.
5.1 De correctiefactor Om de waarde van de correctiefactor te bepalen dient het (zelf)selectiemechanisme dat de selectiebias veroorzaakt bij de analyse te worden betrokken. Dit selectiemechanisme kan worden weergegeven met de volgende vergelijking: (3) Dit model gaat uit van de veronderstelling dat er sprake is van een continue onderliggende variabele
die aangeeft in hoeverre een respondent geneigd is om te verhuizen of (bij de
vrouwen) te participeren in betaalde arbeid. Deze variabele wordt echter niet
10
waargenomen. We zien alleen dat sommige respondenten verhuisd zijn c.q. participeren en andere niet. In het eerste geval heeft In vergelijking 3 staat
de waarde ‘1' en in het tweede geval de waarde ‘0'.
voor een vector met verklarende variabelen die geacht worden
van invloed te zijn op de verhuis/participatiebeslissing en bijbehorende regressiecoëfficiënten. Verder is de voorspelde waarde van
voor de vector met de
een storingsterm die aangeeft in hoeverre
van de werkelijke waarde afwijkt. Omdat vergelijking 3 het
mechanisme weergeeft dat bepaalt of een respondent al of niet verhuist/participeert wordt ze de selectievergelijking genoemd. De vergelijkingen 1 en 2, waar het bij de analyses eigenlijk om gaat, worden substantiële vergelijking genoemd. Het feit dat er bij selectiebias sprake is van ongemeten variabelen die zowel het inkomen als de verhuis/participatiebeslissing beïnvloeden, maakt dat bij het optreden van selectiebias de storingstermen
en
van de selectie- en de substantiële vergelijking
gecorreleerd zijn. De sterkte van deze correlatie geeft aan hoe ernstig de selectiebias is. Is de correlatie gelijk aan nul, dan is er geen sprake van selectiebias. Wijkt ze substantieel van nul af, dan is er wel sprake van selectiebias en bestaan er verschillen tussen verhuizers en niet-verhuizers of tussen participerende en niet-participerende vrouwen in kenmerken die met het inkomen samenhangen. Bij het creëren van de correctiefactor speelt de storingsterm
van de selectievergelijking
een centrale rol. Deze storingsterm geeft voor iedere respondent aan wat het verschil is tussen de op basis van het selectiemodel voorspelde kans om te verhuizen/participeren en het waargenomen verhuis/participatiegedrag. Ze bevat het effect van alle factoren die op het verhuis/participatiegedrag van invloed zijn maar die niet in model 3 zijn opgenomen. Bij respondenten waarvan het gedrag sterk door deze ongemeten factoren beïnvloed wordt, kan een grote afwijking tussen gedrag en voorspelling - en dus een grote waarde van de - verwacht worden. Respondenten die weinig door de ongemeten factoren beïnvloed worden, zullen daarentegen kleine van de
vertonen. Vanwege deze eigenschap kan op basis
een variabele geconstrueerd worden die de effecten van de ongemeten factoren
weergeeft, ontdaan van de invloeden van de in het selectiemodel opgenomen factoren. Als deze variabele in de substantiële vergelijking wordt opgenomen - en als de storingstermen van de selectie- en substantiële vergelijking bivariaat normaal verdeeld zijn - dan zal de bijbehorende regressiecoëfficiënt het effect van de ongemeten variabelen op het inkomen weergeven. Het deel van de variatie in de ongemeten factoren dat niet met het inkomen
11
samenhangt, komt in de storingsterm
van de substantiële vergelijking terecht.
In de praktijk komt het bepalen van de correctiefactor er bij de in dit paper gebruikte voorbeelden op neer dat in eerste instantie voor iedere respondent de kans op verhuizen c.q. participeren geschat wordt. Dit komt overeen met de kans dat
in vergelijking 3.
Om deze kans te bepalen wordt meestal een probitanalyse (Aldrich & Nelson, 1984) uitgevoerd. Deze techniek heeft het voordeel dat ze voldoet aan de eis van normaliteit van de storingsterm. De kans dat
wordt bij een probitanalyse als volgt weergegeven: (4)
Hierbij is
of kortweg
geëvalueerd op het punt
de distributiefunctie van de standaard normaal verdeling . De bijbehorende standaardnormale dichtheidsfunctie
geëvalueerd op hetzelfde punt wordt
genoemd. Op basis van de distributie- en
dichtheidsfunctie wordt de selectiebias correctiefactor
geconstrueerd, die ook wel de
omgekeerde Mill’s ratio genoemd wordt. Ze komt overeen met de hazard rate. De score van de respondenten op deze correctiefactor geeft aan in welke mate hun werkelijke verhuisc.q. participatiegedrag afwijkt van het door het selectiemodel voorspelde gedrag. En dus in welke mate hun gedrag beïnvloed zou kunnen zijn door de onbekende factoren. Bij partiële informatie bias hoeft de groep met
alleen berekend te worden voor de respondenten in
. Voor deze groep is
informatie bias, dan moet . Voor deze groep is
gelijk aan
. Als er sprake is van complete
ook berekend worden voor de respondenten in de groep met gelijk aan
. Door dit verschil in berekening krijgen
verhuizers en niet-verhuizers -waarden met een tegengesteld teken. Dat is noodzakelijk omdat de afwijkingen van de storingstermen die gecorrigeerd moeten worden bij de ene groep positief en bij de andere groep negatief zijn.
5.2 De substantiële analyse Bij de tweede stap van de procedure wordt
toegevoegd aan de substantiële vergelijking.
Het model voor het effect van verhuizen met deze correctiefactor toegevoegd ziet er dan als volgt uit: (5)
12
In deze vergelijking is
de regressiecoefficiënt van de correctiefactor . Ze geeft het effect
weer van de ongemeten factoren op het inkomen. Deze coëfficiënt komt overeen met (Breen, 1996), waarbij
staat voor de correlatie tussen de storingstermen van de
selectie- en de substantiële vergelijking, selectievergelijking en
voor de variantie van de storingsterm van de
voor de variantie van de storingsterm van de substantiële
vergelijking. Omdat bij de probitanalyse wordt aangenomen dat
gelijk is aan 1.0, komt
overeen met de covariantie tussen de beide storingstermen. Als er geen sprake is van selectiebias dan is de correlatie tussen de storingstermen
gelijk aan nul. De term
verdwijnt dan uit vergelijking 5 en we krijgen een gewoon OLS regressiemodel. Als voldaan wordt aan de eis dat de storingstermen van de selectie- en de substantiële vergelijking bivariaat normaal verdeeld zijn, dan levert de twee-staps procedure consistente schattingen van de parameters van het regressiemodel op (Heckman, 1979). Dat wil zeggen, dat de verdelingen van de schattingen zich meer concentreren rond de werkelijke waarden in de populatie, naarmate de steekproef groter wordt. De standaardfouten berekend op basis van het OLS-regressiemodel met correctiefactor wijken echter wat af van hun werkelijke waarde. Heckman (1979) en Greene (1981) geven aan hoe een gecorrigeerde asymptotische covariantiemaxtrix kan worden berekend. Behalve via de twee-staps procedure kan de correctie voor selectiebias ook op basis van een maximum likelihood procedure uitgevoerd worden, waarbij de selectievergelijking en de substantiële vergelijking simultaan worden geschat. Deze methode wordt onder meer door Breen (1996) beschreven. Volgens Breen levert ze wat betere parameterschattingen op dan de twee-staps procedure. Een nadeel is echter dat deze methode een stuk complexer is dan de twee-staps procedure en dat er een gespecialiseerd programma voor nodig is. In het geval van complete informatie bias is het ook mogelijk om voor selectiebias te controleren met methoden die gebruik maken van instrumentele variabelen, zoals two-stage least squares (2SLS). Hierbij kunnen de op basis van het selectiemodel bepaalde probitscores als instrumentele variabele gebruikt worden (zie bijv. Greene, 1993; Heckman, 1997). Binnen het kader van dit paper kan op deze alternatieven echter niet worden ingegaan. Verdere informatie over de toepassing ervan kan bij de genoemde auteurs gevonden worden.
5.3 Uitbreidingen
13
Sinds haar introductie in de loop van de zeventiger jaren zijn er een aantal uitbreidingen van de twee-staps procedure ontwikkeld. Zo wordt door Lee (1983; zie ook Maddala, 1983) een flexibele methode gepresenteerd om voor het selectiemodel ook andere analysetechnieken dan probitanalyse te kunnen gebruiken. Voor probitanalyse werd meestal gekozen vanwege de eis dat de storingstermen van het selectiemodel normaal verdeeld moeten zijn. Probitanalyse voldoet aan deze eis, maar logitanalyse bijvoorbeeld niet. De methode van Lee komt er op neer dat het selectiemodel geschat wordt op basis van wat voor assumpties er ook over de verdeling van de storingsterm gemaakt worden. De uitkomsten van deze schatting worden gebruikt om voor alle respondenten de voorspelde kansen te berekenen. Deze voorspelde kansen worden vervolgens doormiddel van een probittransformatie (op basis van de omgekeerde cumulatieve distributiefunctie van de standaard normaalverdeling) omgezet in de vorm die ze gehad zouden hebben als ze met een probitanalyse geschat zouden zijn. Met de aldus verkregen ‘pseudo probitscores’ kan dan op de gebruikelijke wijze de correctiefactor
berekend worden.
Deze methode van Lee breidt de mogelijkheden van de twee-staps procedure sterk uit. Zo kan nu ook een multinomiaal logitmodel of een discreet keuzemodel als selectiemodel gebruikt worden. Hierdoor kan de procedure ook worden toegepast in situaties met meer dan twee selectie-alternatieven, bijvoorbeeld als er gekozen kan worden uit een aantal verschillende woonlokaties of tussen verschillende typen school. Een tweede generalisatie betreft de uitbreiding van de twee-staps procedure naar de situatie waar de afhankelijke variabele in de substantiële vergelijking dichotoom is. Deze situatie treedt bijvoorbeeld op als wordt onderzocht wat het effect van verhuizen op de arbeidsparticipatie is. Vanwege de assumptie van bivariaat normaal verdeelde storingstermen ligt het voor de hand om in deze situatie ook voor de substantiële vergelijking een probitmodel te gebruiken. Dit gebeurt in de praktijk dan ook meestal. Het complete model met de selectie- en substantiële vergelijkingen vormt dan een bivariaat probitmodel met selectiebias, dat door een gespecialiseerd programma als LIMDEP via een maximum likelihood procedure in een keer geschat kan worden. Het is ook mogelijk om voor zowel het selectiemodel als het substantiële model logitanalyse toe te passen. Nadere informatie over bivariate probit- en logitmodellen is te vinden in Dubin en Rivers (1990). Een uitbreiding van de twee-staps methode naar de situatie waarin er sprake is van meerdere selectieregels wordt besproken door Tunali (1986). De door Tunali beschreven methode wordt onder meer toegepast door Tienda en Wilson (1992), die bij hun onderzoek
14
naar de effecten van verhuizen op het inkomen zowel voor zelfselectie bij de verhuisbeslissing als voor zelfselectie bij de arbeidsparticipatiebeslissing controleren.
5.4 Identificatie Een belangrijke voorwaarde voor de toepassing van de Heckman procedure is dat het model voldoende geïdentificeerd is. Hiertoe dient de selectievergelijking op zijn minst één variabele te bevatten die niet in de substantiële vergelijking voorkomt. Zouden alle variabelen in de selectievergelijking ook in de uitkomstvergelijking voorkomen dan zou, bij een lineaire selectievergelijking, de schatting van
een lineaire functie van (een subset
van) de X-variabelen in de substantiële vergelijking zijn. De probit selectievergelijking is weliswaar niet lineair, zodat theoretisch gezien het model ook met dezelfde variabelen in beide vergelijkingen geïdentificeerd is. Maar in de praktijk kan vertrouwen op deze nonlineariteit om identificatie te bewerkstelligen tot aanzienlijke multicollineariteit en onstabiele parameterschattingen te leiden (Winship & Mare, 1992; Breen, 1996). Als de selectievergelijking weinig van de variatie in het selectieproces verklaart, dan kan er bovendien er ook collineariteit tussen de
en het intercept van de substantiële vergelijking
optreden (Berk en Ray, 1982). Het identificatieprobleem geeft aan waar de grenzen van de Heckman twee-staps procedure liggen: ze kan alleen worden toegepast als er voldoende informatie beschikbaar is om het selectieproces en de substantiële processen waarin we geïnteresseerd zijn van elkaar te scheiden. Er dient minstens één variabele beschikbaar te zijn die wel van invloed is op het selectieproces maar die niet van invloed is op de afhankelijke variabele waar het bij de substantiële analyse om gaat. Volgens Breen (1996) is het niet zo moeilijk om te bepalen of de methode in een bepaalde situatie wel of niet gebruikt kan worden. Er zijn in het verleden verschillende Monte Carlo studies uitgevoerd naar de effectiviteit en de mate van bias van de twee-staps procedure onder verschillende omstandigheden. Nelson (1984) vindt bijvoorbeeld dat als aan de assumptie voldaan is dat de storingstermen van de selectie- en de substantiële vergelijking bivariaat normaal verdeeld zijn, de effectiviteit vooral bepaald wordt door twee zaken: (1) de sterkte van de correlatie tussen de storingstermen in de beide vergelijkingen, en (2) de sterkte van de correlatie tussen de verklarende variabelen in de selectie- en de substantiële vergelijking. De correlatie tussen de storingstermen van de beide vergelijkingen geeft aan in hoeverre
15
er sprake is van selectiebias. Bij een substantiële correlatie tussen deze storingstermen is dat het geval en leveren zowel de twee-staps procedure als ML in het algemeen efficiëntere schattingen op dan OLS. Bij toename van het verband tussen de storingstermen blijft de effectiviteit van de twee-staps procedure redelijk stabiel en neemt de effectiviteit van de MLschatters toe. Aan de correlatie tussen de verklarende variabelen in de beide vergelijkingen valt af te lezen of er sprake is van multicollineariteit. Naarmate deze correlatie hoger wordt, neemt de effectiviteit van zowel de twee-staps procedure als van de ML-schattingen af. Deze afname van de effectiviteit is bij de twee-staps procedure echter sterker dan bij ML. Met name bij zeer hoge correlaties tussen de verklarende variabelen in de beide vergelijkingen (0.90 of hoger) is ML veel efficiënter dan de twee-staps procedure. Om na te gaan of de twee-staps procedure in een concrete situatie kan worden gebruikt is het daarom zinvol om deze correlatie te bepalen. Nelson raadt aan om hiertoe de verklaarde variantie R2 te bepalen van een regressie-analyse met de correctiefactor
als
afhankelijke variabele en de verklarende variabelen uit de substantiële vergelijking als onafhankelijke variabelen. Als de waarde van deze R2 erg laag is, verdient het de aanbeveling om OLS te gebruiken, omdat de selectiebias gering is. Is de waarde van R2 erg hoog (bijvoorbeeld groter dan 0.80 à 0.90), dan dient ML gebruikt te worden. In het tussengebied met middelmatig sterke correlaties, kan de twee-staps procedure gebruikt worden. Voor het gebruik van de twee-staps procedure dient de steekproef ook niet te klein te zijn. De procedure levert consistente schattingen op en consistentie is een eigenschap die pas in grote steekproeven naar voren komt. Bij een Monte Carlo studie van Nawata (1994) werden redelijke resultaten verkregen met steekproeven van 200 cases. Bij een dergelijk aantal kan de procedure dus al wel gebruikt worden. Een belangrijk punt is verder de bivariate normaliteit van de storingstermen. Volgens Breen (1996) zijn zowel de twee-staps procedure als ML gevoelig voor afwijkingen van de normaliteit. Het is daarom zinvol om bij toepassing van de methode te controleren of aan deze assumptie voldaan is. Vooral de normaliteit van de storingsterm van de selectievergelijking zou van belang zijn. Cherish en Irish (1987) bespreken tests die gebruikt kunnen worden om de normaliteit van storingstermen te controleren. In het kader van dit paper voert het echter te ver om daar op in te gaan.
16
6. Voorbeelden
In deze paragraaf wordt de toepassing van de Heckman twee-staps procedure geïllustreerd aan de hand van twee empirische voorbeelden. Ter illustratie van de toepassing bij de partiële informatie bias, wordt het voorbeeld van de participatieselectie bij de verklaring van het inkomen van vrouwen nader uitgewerkt. En ter illustratie van de toepassing bij complete informatie bias wordt een nadere uitwerking gegeven van het verhuisvoorbeeld uit dit paper. In beide gevallen wordt eerst een selectiemodel geschat. Op basis van de resultaten van deze selectie-analyses wordt de zelfselectie correctiefactor
bepaald. Daarna wordt als
substantiële analyse een OLS regressieanalyse uitgevoerd met de correctiefactor
als
extra verklarende variabele. Omdat de bij deze analyse berekende standaardfouten niet kloppen vanwege heteroscedasticiteit, worden vervolgens nog enige berekeningen uitgevoerd om de standaardfouten te corrigeren. De analyses worden zowel met een zelfgeschreven SPSS procedure (zie appendix A) als met het econometrisch programma LIMDEP uitgevoerd. Bovendien wordt zowel een probit- als een logit-selectiemodel gebruikt. Bij de logitanalyse wordt de door Lee (1983) voorgestelde transformatie toegepast, waarbij de op basis van deze analyse berekende individuele verhuiskansen worden omgezet in pseudo-probitscores (zie par. 5.3). Bij de analyses wordt gebruik gemaakt van Nederlandse gegevens afkomstig van het Woningbehoefte Onderzoek (WBO) uit 1993. Voor de duidelijkheid worden bij deze voorbeeldanalyses vereenvoudigde modellen gebruikt met slechts enkele verklarende variabelen. Inhoudelijke conclusies kunnen op basis van de resultaten dan ook niet getrokken worden. Een meer complete uitwerking van het verhuisvoorbeeld is in Smits (1998) te vinden. Tabel 1 presenteert de variabelen die bij de voorbeeldanalyses worden gebruikt. In beide gevallen bevat het selectiemodel als identificerende variabelen twee dummies voor de aanwezigheid en leeftijd van kinderen in het huishouden. Bij het participatiemodel is de veronderstelling dat kinderen de kans op participatie van de vrouw verminderen en bij het verhuismodel dat huishoudens met kinderen minder verhuizen. In beide gevallen wordt verondersteld dat de aanwezigheid en leeftijd van kinderen niet van invloed is op het inkomen.
6.1 Participatieselectie bij de analyse van het inkomen van vrouwen
17
Ter controle voor partiële informatie bias bij de verklaring van het uurloon van vrouwen wordt eerst een selectiemodel geschat. Tabel 2 presenteert de parameters van de probiten logitanalyses met de participatiedummy (PART) als afhankelijke variabele. De parameterschattingen en standaardfouten van deze analyses verschillen niet tussen SPSS en LIMDEP zodat ze slechts eenmaal gepresenteerd hoeven te worden. Het verschil in parameterwaarden tussen de probit- en logitanalyses is het gevolg van een schaalfactor van ongeveer 1.8 (zie Aldrich & Nelson, 1984). Uit tabel 1 blijkt dat alle verklarende variabelen op de participatiebeslissing van invloed zijn. ------------------------------Tabel 2 ongeveer hier ------------------------------Op basis van de modellen in tabel 2 worden twee zelfselectie correctiefactoren geconstrueerd, één op basis van de probitanalyse en één op basis van de logitanalyse. Dit gebeurt bij de LIMDEP-procedure SELECT automatisch. In SPSS moeten hiertoe wat berekeningen worden uitgevoerd. In Appendix A wordt aangegeven hoe dit kan worden gedaan. Het meest bewerkelijk is de output van de SPSS-procedure PROBIT. Hierbij moeten de berekende parameters met de hand in een formule worden ingetypt om de individuele probitscores te berekenen. Het is daarom makkelijker om een logitanalyse uit te voeren met de SPSS-procedure LOGISTIC REGRESSION. Deze procedure levert de individuele voorspelde kansen in de vorm van een variabele die rechtstreeks bij de volgende berekeningen gebruikt kan worden. Om na te gaan of de twee-staps procedure kan worden toegepast, wordt de in par. 5.4 besproken testanalyse uitgevoerd. Hierbij wordt de op basis van de probit-analyse berekende
geregresseerd op de verklarende variabelen van de substantiële vergelijking.
De verklaarde variantie R2 bij deze analyse is 0.69. Deze waarde ligt in het gebied waarbinnen de twee-staps procedure gebruikt kan worden. De op basis van de probit- en logitanalyses berekende ‘s worden als verklarende variabele toegevoegd aan het OLS-regressiemodel ter verklaring van het (log)uurloon van de vrouwen. Tabel 3 presenteert de resultaten van drie verschillende OLS-analyses: (1) zonder correctiefactor, (2) met correctiefactor berekend op basis van de probitanalyse, en (3) met correctiefactor berekend op basis van de logitanalyse. De coëfficiënt RHO, onderin de tabel, geeft de geschatte waarde van de correlatie tussen de storingstermen van de selectie- en de substantiële vergelijking weer. Deze correlatie geeft aan hoe sterk de
18
selectiebias is. Voor de gecorrigeerde modellen wordt daarnaast ook de geschatte standaardfout van de storingsterm weergegeven. Tenslotte wordt voor ieder model de verklaarde variantie R2 gepresenteerd. Tabel 3 laat zien dat - in dit geval - toevoeging van
aan de substantiële vergelijking
slechts tot zeer geringe veranderingen van de coëfficiënten van de verklarende variabelen leidt. De coëfficiënt van
is ook niet significant. Het lijkt er dus op dat er niet of nauwelijks
sprake is van selectiebias. Dit blijkt ook uit de waarde van de coëfficiënt RHO onder in tabel 3. De correlatie tussen de storingstermen van de selectie- en de substantiële vergelijking is praktisch nul. Op grond van deze bevindingen kan geconcludeerd worden dat er geen sprake is van selectiebias ten gevolge van ongemeten verschillen in verdienvermogen tussen de werkende en de niet-werkende vrouwen. Het gebruik van OLS regressie zonder controlefactor voor selectie bias verdient daarom in dit geval de voorkeur.
6.23 Het effect van verhuizen op het inkomen van mannen Om na te gaan of en in hoeverre personen die ten behoeve van hun carrière verhuizen een gunstiger carrièreverloop hebben dan personen die dit niet doen, worden de uurlonen van mannen die recentelijk over lange afstand verhuisd zijn vergeleken met de uurlonen van gehuwde mannen die niet, of over korte afstand, verhuisd zijn. Dit gebeurt door een dummyvariabele die aangeeft of men al (1) of niet (0) recentelijk verhuisd is toe te voegen aan een regressievergelijking ter verklaring van het (log)uurloon van werkende mannen. Zoals in paragraaf 3 werd aangegeven, kunnen de resultaten van een dergelijke regressieanalyse vertekend worden door complete informatie bias. Ter controle hiervoor wordt ook in dit geval de Heckman twee-staps procedure toegepast. ------------------------------Tabel 4 ongeveer hier ------------------------------Begonnen wordt met de analyse van de verhuisbeslissing. Tabel 4 presenteert de parameters van de probit- en logitanalyses met de verhuisdummy (VERH) als afhankelijke variabele. Op basis van de resultaten van deze analyse wordt de zelfselectie correctiefactor berekend. In appendix A is te zien dat deze berekening bij complete informatie bias wat complexer is dan bij partiële informatie bias. De correctiefactor moet voor de verhuizers en de niet-verhuizers afzonderlijk berekend worden met een verschillende formule. -------------------------------
19
Tabel 5 ongeveer hier ------------------------------De aldus berekende
wordt als verklarende variabele toegevoegd aan het OLS-
regressiemodel ter verklaring van het (log)uurloon van de mannen. De resultaten van de substantiële analyses worden in tabel 5 gepresenteerd. We zien dat in dit geval het toevoegen van de correctiefactor aan het OLS model wel veel uitmaakt. In de vergelijking zonder
is de coëfficiënt van de verhuisvariabele (“Recentelijk verhuisd”) significant
positief, wat duidt op een positief effect van verhuizen op het inkomen. In alle vergelijkingen met
is de coëfficiënt van de verhuisvariabele echter significant negatief. Na controle voor
zelfselectie blijken personen die verhuisd zijn dus een lager uurloon te hebben. Aangezien niet verwacht kan worden dat personen over lange afstand verhuizen zonder er op vooruit te gaan, zou dit kunnen betekenen dat het bij de verhuizers vooral gaat om personen die voor de verhuizing in een relatief slechte arbeidsmarktpositie verkeerden. De coëfficiënt van
geeft informatie over de aard van de zelfselectie. Deze coëfficiënt is
significant positief, wat aangeeft dat de er een positief verband bestaat tussen de storingstermen van de selectie- en de substantiële vergelijking. Dit geeft aan dat personen die verhuizen meer dan de niet-verhuizers over ongemeten kenmerken beschikken die hun verdienvermogen verhogen. Ze zouden bijvoorbeeld initiatiefrijker kunnen zijn of meer doorzettingsvermogen kunnen hebben dan de niet-verhuizers; eigenschappen die ook als ze niet verhuisd waren tot een hoger inkomen hadden kunnen leiden. De parameters van de regressieanalyses uitgevoerd met SPSS en LIMDEP blijken ook bij dit voorbeeld nauwelijks van elkaar te verschillen. Tussen de parameters op basis van het probit selectiemodel en de parameters op basis van het logit selectiemodel komen bij de verhuisvariabele en bij
wel wat verschillen voor. Deze verschillen zijn echter gering en
leiden niet tot substantieel andere conclusies.
Literatuur
Aldrich, J. H., and Nelson, F. D. (1984). Linear Probability, Logit and Probit Models. Beverly Hills, CA: Sage. Berk, Richard A., and Subhash C. Ray (1982). “Selection Bias in Sociological Data.” Social
20
Science Research, 11:301-40. Bowden, Roger J., en Darrell A.Turkington (1984). Instrumental Variables. Cambridge: Cambridge University press. Breen, Richard (1996). Regression Models: Censored, Sample Selected, or Truncated Data. Sage University Paper no. 111. Thousand Oaks: Sage. Chesher, Andrew, and Irish, Margaret (1987). “Residual Analysis in the Grouped and Censored Linear Model.” Journal of Econometrics, 34: 33-61. Dubin, Jeffrey A., en Douglas Rivers ( 1990). “Selection Bias in Linear Regression, Logit and Probit Models.” Pp.410-443 in Modern Methods of data Analysis, edited by J. Fox and J. Scott Long. Newbury Park: Sage. Greene, William H. (1981). “Sample Selection Bias as a Specification Error: A Comment.” Econometrica, 49:795-798. Greene, William H. (1993). Econometric Analysis. 2d ed. New York: Macmillan. Heckman, James J. (1976). “The Common Structure of Statistical Models of Truncation, Sample Selection and Limited Dependent Variables and a Simple Estimator for Such Models.” Annals of Economic and Social Measurement, 5: 475-492. Heckman, James J. (1979). “Sample Selection Bias as a Specification Error.” Econometrica, 47: 153-161. Heckman, James J (1980). “Sample Selection Bias as a Specification Error.” Pp. 206-248 in Female Labor Supply, edited by J. P. Smith. Princeton, NJ: Princeton University Press. Heckman, James J. (1997). “Instrumental Variables: A Study of Implicit Behavioral Assumptions Used in Making Program Evaluations.” Journal of Human Resources, 32: 441-62. Lee, Lung-Fei (1983). “Generalized Econometric Models With Selectivity.” Econometrica, 51:507-513. Little, Roderick J. A., and Nathaniel Schenker (1995). “Missing Data.” Pp. 39-75 in Handbook of Statistical Modeling for the Social and Behavioral Sciences, edited by Gerhard Arminger, Clifford C. Clogg, en Michael E. Sobel. New York: Plenum Press. Maddala, G. S. (1983). Limited Dependent and Qualitative Variables in Econometrics. Cambridge: Cambridge University Press. Nawata, Kazumitsu (1994). “Estimation of Sample Selection Bias Models by the Maximum Likelihood Estimator and Heckman’s Two-Step Estimator.” Economics Letters, 45: 33-40.
21
Nelson, Forrest D. (1984). “Efficiency of the Two-Step Estimator For Models With Endogenous Sample Selection.” Journal of Econometrics, 24: 181-96. Smits Jeroen (1998). “Gevolgen van Verhuizingen Over Lange Afstand voor het Inkomen van Gehuwde Mannen en Vrouwen in nederland, 1981-1993.” Tijdschrift Voor Arbeidsvraagstukken, 14. Tunali, Insan (1986). “A General Structure For Models of Double-Selection and an Application to a Joint Migration/Earnings Process With Remigration.” Research in Labor Economics, 8, Part B:235-282. Winship, Christopher, and Robert D. Mare (1992). “Models For Sample Selection Bias.” Annual Review of Sociology, 18:327-50
22
Appendix A. Toepassing van de Heckman twee-staps procedure met SPSS Om de Heckman twee-staps procedure toe te passen kunnen gespecialiseerde econometrische softwarepakketten zoals LIMDEP of STATA (alleen voor partiële informatie bias) worden gebruikt. Met enig rekenwerk is het echter ook mogelijk om de procedure toe te passen met het onder sociale wetenschappers meer gangbare pakket SPSS. In deze bijlage geef ik aan de hand van de in dit paper gebruikte voorbeelden weer hoe dit op basis van de procedures PROBIT, LOGISTIC REGRESSION en REGRESSION van SPSS kan gebeuren. A1. De participatiebeslissing A1.1 Berekening van LAMBDA met SPSS PROBIT De aansturing van het selectiemodel gaat als volgt: compute SUBJ=1. probit PART of SUBJ with LFTV OPLV KIND1 KIND2 /log=none /print=none.
In de output van deze procedure worden de parameterschattingen met hun standaardfouten gegeven. Op basis van deze parameterschattingen dient voor iedere respondent de door het model voorspelde probitscore bepaald te worden. Helaas is het niet mogelijk om deze probitscores door de procedure PROBIT te laten uitrekenen. Er moet daarom een extra tussenstap worden ingelast, waarin wat handwerk verricht moet worden. De door PROBIT berekende parameterschattingen (zie tabel 2) moeten in de volgende formule worden ingevuld: compute IPS = 0.35020-0.04691*LFTV+0.47745*OPLV+0.46660*KIND1-0.61857*KIND2.
Met dit COMPUTE commando worden de individuele probitscores (IPS) berekend en aan het (tijdelijke) databestand toegevoegd. Deze probitscores worden nu gebruikt om LAMBDA te berekenen: compute lambda = ((1/sqrt(2*3.141592654))*(exp(-ips*ips*0.5)))/cdfnorm(ips).
Voor het vervolg van de twee-staps procedure dienen respondenten die missing values hebben op de bij de substantiële analyse betrokken variabelen uit de active file weggefilterd worden, zodat alle volgende berekeningen op basis van dezelfde groep respondenten plaatsvinden. Bijvoorbeeld: select if (inkv>0 and oplv ne -9 and ....).
Nu dient de hulp- en controlefactor DELTA berekend te worden: compute delta = -lambda*ips-lambda*lambda.
De waarde van DELTA dient tussen -1 en 0 te liggen. Dit biedt de mogelijkheid om te testen of LAMBDA goed is berekend: descr delta /statistics = min max.
23
A1.2 Berekening van LAMBDA met SPSS LOGISTIC REGRESSION Een bezwaar van de procedure PROBIT is dat deze procedure geen voorspelde kansen kan berekenen. De procedure LOGISTIC REGRESSION kan dat wel. Aangezien de methode van Lee (1983) het mogelijk maakt om ook logitanalyse voor het selectiemodel te gebruiken, biedt LOGISTIC REGRESSION een wat minder bewerkelijk alternatief voor toepassing van de tweestaps procedure. De aansturing van het selectiemodel met LOGISTIC REGRESSION gaat als volgt: logistic regression PART with LFTV OPLV KIND1 KIND2 /save pred (IKL).
Met het commando /save pred (IKL) wordt ervoor gezorgd dat er een nieuwe variabele wordt aangemaakt met de naam IKL die de op basis van het logitmodel voorspelde individuele kansen bevat. Deze voorspelde kansen worden nu met behulp van de omgekeerde cumulatieve distributiefunctie van de normaalverdeling omgezet in de vorm die ze gehad zouden hebben als ze berekend waren doormiddel van een probitanalyse. compute ips = probit(IKL).
De variabele IPS bevat nu de pseudo-probitscores. Op basis van IPS kan nu op dezelfde wijze als bij het probit selectiemodel LAMBDA berekend worden: compute lambda = ((1/sqrt(2*3.141592654))*(exp(-ips*ips*0.5)))/cdfnorm(ips).
Ook nu dienen de cases die missing values hebben op de bij de substantiële analyse betrokken variabelen uit de active file weggefilterd te worden: select if (inkv>0 and oplv ne -9 and ....).
Berekening van de hulp- en controlefactor DELTA: compute delta = -lambda*ips-lambda*lambda.
Testen of de waarden van DELTA tussen -1 en 0 liggen: descr delta /statistics = min max.
A1.3 De substantiële analyse Nu LAMBDA bekend is kan de substantiële analyse met correctiefactor uitgevoerd worden. regression /dep=INKV /method=enter LFTV LFTV2 OPLV LAMBDA /save resid (res).
Deze analyse levert de voor selectiebias gecontroleerde regressiecoëfficiënten op. De standaardfouten van deze coëfficiënten kloppen echter niet omdat er sprake is van heteroscedasticiteit. De variantie van de storingsterm is niet voor iedere respondent gelijk. Om de juiste standaardfouten te berekenen dienen daarom nog een aantal berekeningen te worden uitgevoerd. Hiertoe zijn de residuen van de regressie-analyse als aparte variabele RES weggeschreven. Verder zijn twee hulpvariabelen nodig die uit de SPSS output moeten worden overgenomen. De eerste van deze hulpvariabelen is de coëfficiënt van LAMBDA berekend bij de substantiële analyse:
24 compute lamb = 0.002648.
De tweede hulpvariabele is het aantal cases gebruikt bij de substantiële analyse: compute n = 9024.
Verder dient de variabele RES te worden gekwadrateerd : compute res2 = res*res.
Nu moeten de variabelen DELTA en RES2 over alle cases te worden gesommeerd. Om dit in SPSS automatisch te doen, dient een wat omslachtige procedure gevolgd te worden, waarbij eerst de geaggregeerde totalen in een apart bestandje worden weggeschreven en ze vervolgens weer worden ingelezen: compute hulp = 1. aggregate /outfile=a /break=hulp /ress=sum(res2) /deltas=sum(delta). match files /table=a /file=* /by hulp.
Nu kan de gecorrigeerde waarde van de variantie (VARC) en de standaardfout (SEC) van de storingsterm van de substantiële vergelijking worden geschat : compute varc = ress/n-lamb*lamb*deltas/n. compute sec = sqrt(varc).
Berekening van RHO, de correlatie tussen de errortermen van de selectie- en de substantiële vergelijking: compute rho = sqrt(lamb*lamb/varc). If (lamb<0) rh0 = 0-rho.
Bekijken van VARC, SEC en RHO: report /variables=varc sec rho /break=(total) /summary=mean (varc(4) sec(4) rho(4)).
Berekening van de standaardfouten van de afzonderlijke observaties (RHOI) en omzetten van de standaardfouten in gewichten (WGT): compute rhoi = sqrt(varc+lamb*lamb*delta). compute wgt = 1/rhoi.
Nu kunnen de gecorrigeerde standaardfouten berekend worden door het opnieuw uitvoeren van de substantiële analyse, maar nu als Weighted Least Squares (WLS) regressie met WGT als gewicht: regression /dep=INKV /method=enter LFTV LFTV2 OPLV LAMBDA /regwgt=wgt.
Door de parameterschattingen van de substantiële analyse te combineren met de standaardfouten van deze WLS analyse wordt de Heckman procedure gecompleteerd. Als indicator van de verklaarde variantie dient de R2 van de substantiële analyse genomen te worden.
25
A2. De verhuisbeslissing A2.1 Berekening van LAMBDA met SPSS PROBIT De aansturing van het selectiemodel voor de verhuisbeslissing gaat als volgt: compute SUBJ=1. probit VERH of SUBJ with LFTM OPLM KIND1 KIND2 /log=none /print=none.
Ook in dit geval dienen de met PROBIT berekende parameterschattingen in de volgende formule te worden ingevuld: compute IPS = -2.2372-0.02059*LFTM+0.32067*OPLM +0.05907*KIND1+0.15140*KIND2.
De met dit COMPUTE commando berekende individuele probitscores (IPS) worden weer gebruikt om LAMBDA te berekenen. Bij complete informatie bias is deze berekening wat complexer dan bij partiële informatie bias. Omdat de correctiefactor bij de verhuizers en de niet-verhuizers een tegengesteld teken moet hebben, dient LAMBDA voor beide groepen apart berekend te worden. Eerst voor de verhuizers: If (verh=1) lambda = ((1/sqrt(2*3.141592654))*(exp(-ips*ips*0.5)))/cdfnorm(ips).
Dan voor de niet-verhuizers: If (verh=0) lambda = -((1/sqrt(2*3.141592654))*(exp(-ips*ips*0.5)))/(1-cdfnorm(ips)).
Vanaf dit punt gaat de analyse precies hetzelfde als bij het participatievoorbeeld. A2.2 Berekening van LAMBDA met SPSS LOGISTIC REGRESSION De aansturing van het selectiemodel voor de verhuisbeslissing met LOGISTIC REGRESSION gaat als volgt: logistic regression VERH with LFTM OPLM KIND1 KIND2 /save pred (IKL).
Deze op basis van het logitmodel geschatte individuele kansen worden weer met behulp van de omgekeerde cumulatieve distributiefunctie van de normaalverdeling omgezet in de vorm die ze gehad zouden hebben als ze berekend waren doormiddel van een probitanalyse. compute ips = probit(IKL).
Op basis van de pseudo-probitscores IPS kan weer op dezelfde wijze als bij het probit verhuismodel voor beide groepen apart LAMBDA worden berekend. Eerst voor de verhuizers: If (verh=1) lambda = ((1/sqrt(2*3.141592654))*(exp(-ips*ips*0.5)))/cdfnorm(ips).
Dan voor de niet-verhuizers: If (verh=0) lambda = -((1/sqrt(2*3.141592654))*(exp(-ips*ips*0.5)))/(1-cdfnorm(ips)).
Vanaf dit punt gaat de analyse precies hetzelfde als bij de eerdere voorbeelden.
26
A2.3 De substantiële analyse Nu voor het verhuismodel LAMBDA berekend is, kan ook voor dit geval de substantiële analyse met correctiefactor uitgevoerd worden: regression /dep=INKM /method=enter LFTM LFTM2 OPLM VERH LAMBDA /save resid (res).
Omdat het in dit geval gaat om complete informatie bias dient ook de verhuisdummy VERH in de analyse te worden opgenomen. De coëfficiënt van LAMBDA geeft aan of er sprake is van selectiebias en wat de richting van het selectie-effect is. Een significant positieve coëfficiënt betekent bijvoorbeeld dat de verhuizers in vergelijking tot de niet-verhuizers over ongemeten kenmerken beschikken die positief met het inkomen samenhangen. De coëfficiënt van de verhuisdummy geeft aan hoe groot - na controle voor de ongemeten verschillen tussen de beide groepen - het verschil in inkomen tussen verhuizers en niet-verhuizers is. Ook bij de verhuisanalyse dienen de standaardfouten van de regressiecoëfficiënten weer gecorrigeerd te worden vanwege heteroscedasticiteit. Hierbij kan dezelfde procedure gevolgd worden als bij het voorbeeld van de partiële informatie bias in A1.3.
27
Tabel 1. Beschrijving van de variabelen in de voorbeeldanalyses. De hier vermelde variabelenamen worden alleen in appendix A gebruikt. 1. Controle voor participatieselectie bij analyse van het inkomen van vrouwen: PART =
Dummy die aangeeft of de vrouw betaalde arbeid verricht (1) of niet (0).
LFTV =
Leeftijd vrouw in jaren
OPLV =
Opleidingsniveau vrouw (toegepast als intervalvariabele met categorieën: 1 Lager, 2 Uitgebreid lager, 3 Middelbaar, 4 Hoger beroepsonderwijs, 5 Universiteit)
KIND1 = Ook kinderen onder zes jaar in huishouden (referentiecategorie is “geen kinderen in huishouden”) KIND2 = alleen kinderen ouder dan vijf jaar in huishouden (referentiecategorie is “geen kinderen in huishouden”) INKV =
natuurlijke logaritme van het netto uurloon van de vrouw
2. Controle voor zelfselectie bij analyse van het effect van verhuizen over lange afstand op het uurloon van mannen: VERH = Dummy die aangeeft of de respondent recentelijk over lange afstand is verhuisd (1) of niet (0). Bij de substantiële analyse is ‘0' de referentiecategorie. LFTM =
leeftijd man in jaren
OPLM = opleidingsniveau man (toegepast als intervalvariabele met categorieën: 1 Lager, 2 Uitgebreid lager, 3 Middelbaar, 4 Hoger beroepsonderwijs, 5 Universiteit) KIND1=
alleen kinderen onder zes jaar in huishouden (referentiecategorie is “geen kinderen in huishouden”)
KIND2=
ook kinderen ouder dan vijf jaar in huishouden (referentiecategorie is “geen kinderen in huishouden”)
INKM =
natuurlijke logaritme van het netto uurloon van de man
28
Tabel 2. Probit en logit selectiemodel ter verklaring van de arbeidsparticipatie van vrouwen in Nederland in 1993. Tussen haakjes de standaardfouten. (N=15967)
PROBIT
LOGIT
Intercept
0.3502 (0.0618)
0.5494** (0.1025)
Leeftijd
-0.0469** (0.0013)
-0.0781** (0.0021)
Opleiding vrouw
0.4775** (0.0107)
0.8076** (0.0185)
Kinderen < 6
0.4666** (0.0217)
0.7885** (0.0365)
Kinderen >=6
-0.6186** (0.0256)
-1.0260** (0.0431)
Chi-kwadraat / VG
5118.9 / 4
5143.0 / 4
29
Tabel 3. OLS regressiemodel ter verklaring van het uurloon van Nederlandse vrouwen in 1993. (1) zonder correctiefactor, (2) met correctiefactor op basis van probitmodel, en (3) met correctiefactor op basis van logitmodel. (N=9024)
Selectiemodel:
Variabele
(1) GEEN
/
(2) PROBIT
(3) LOGIT
SPSS
SPSS
LIMDEP
SPSS
LIMDEP
Intercept
1.6560** (0.0701)
1.6572** (0.0704)
1.6583** (0.0704)
1.6552** (0.0704)
1.6563** (0.0704)
Leeftijd
0.0224** (0.0037)
0.0221** (0.0038)
0.0221** (0.0038)
0.0225** (0.0038)
0.0225** (0.0038)
Leeftijd2
-0.0002** (0.00005
-0.0002** (0.00005)
-0.0002** (0.00005)
-0.0002** (0.00005)
-0.0002** (0.00005)
Opleiding
0.1692** (0.0033)
0.1699** (0.0049)
0.1697** (0.0049)
0.1687** (0.0049)
0.1685** (0.0049)
&
---
0.0026 (0.0131)
0.0023 (0.0130)
-0.0016 (0.0129)
-0.0019 (0.0129)
R2
0.2260
0.2260
0.2257
0.2260
0.2257
Standaardfout storingsterm
---
0.2828
0.2827
0.2828
0.2827
Rho
---
0.0094
0.0080
-0.0057
-0.0069
Pakket:
30
Tabel 4. Probit en logit selectiemodel ter verklaring van de kans op verhuizen over lange afstand voor Nederlandse mannen in 1993. (N=16039) PROBIT
LOGIT
Intercept
-2.2372** (0.1504)
-4.3714** (0.3614)
Leeftijd man
-0.0206** (0.0032)
-0.0484** (0.0075)
Opleiding man
0.3207** (0.0228)
0.7583** (0.0527)
Kinderen < 6
0.0591 (0.0524)
0.1197 (0.1235)
Kinderen >=6
0.1514* (0.0629)
0.3442* (0.1417)
Chi-kwadraat / VG
301.5 / 4
305.3 / 4
31
Tabel 5. OLS regressiemodel ter verklaring van het effect van verhuizen over lange afstand op het uurloon van Nederlandse mannen in 1993, (1) zonder correctiefactor, (2) met correctiefactor op basis van probitmodel, en (3) met correctiefactor op basis van logitmodel. (N=16039) Selectiemodel: Variabele
(1) GEEN /
(2) PROBIT
(3) LOGIT
SPSS
SPSS
LIMDEP
SPSS
LIMDEP
Intercept
1.4571** (0.0482)
1.4999** (0.0487)
1.5006** (0.0493)
1.5025** (0.0487)
1.5041** (0.0500)
Leeftijd
0.0393** (0.0024)
0.0370** (0.0024)
0.0370** (0.0024)
0.0368** (0.0024)
0.0367** (0.0024)
Leeftijd2
-0.0004** (0.00003
-0.0003** (0.00003)
-0.0003** (0.00003)
-0.0003** (0.00003)
-0.0003** (0.00003)
Opleiding
0.1636** (0.0020)
0.1734** (0.0026)
0.1733** (0.0025)
0.1742** (0.0026)
0.1741** (0.0027)
Recentelijk verhuisd?
0.0615** (0.0125)
-0.4546** (0.0772)
-0.4541** (0.0742)
-0.4874** (0.0739)
-0.4868** (0.0806)
&
---
0.2275** (0.0336)
0.2272** (0.0322)
0.2423** (0.0321)
0.2420** (0.0352)
R2
0.3342
0.3355
0.3354
0.3358
0.3357
Standaardfout storingsterm
---
0.2622
0.2620
0.2638
0.2488
Rho
---
0.8679
0.8672
0.9185
0.9725
Pakket: