Van Evidentie Naar Impact Prof.dr. H.D. Webbink
oratie uitgesproken op 11 februari 2011
Mijnheer de Rector Magnificus, Leden van het College van Bestuur van de Erasmus Universiteit Rotterdam,
2 VAN EVIDENTIE NAAR IMPACT
Leden van het bestuur van de Vereniging Trustfonds, Zeer gewaardeerde toehoorders, Ik wil dit betoog beginnen met een merkwaardig feit. Over de Goede Doelen sector in Nederland en in Europa weten we veel. We weten hoeveel geld er om gaat, in Nederland ongeveer 4,5 miljard Euro, in Europa ongeveer 50 miljard Euro. We weten waar het geld vandaan komt, wie de gevers zijn, en ook waar het naar toe gaat. We weten ook veel over de Goede Doelen organisaties, vaak kennen we het salaris van de directeur of de directie, en soms weten we ook nog waar de directie gedineerd heeft en welke wijn ze heeft gedronken. Het merkwaardige feit is dat we nauwelijks weten of al die middelen van de Goede Doelen sector goed worden besteed of dat er veel geld over de balk wordt gegooid. Wat zijn eigenlijk de resultaten van de vele projecten / activiteiten die worden gefinancierd door de Goede Doelen sector? Het antwoord daarop is: we weten nog weinig. Daarom is in september 2009 het Erasmus Centre for Strategic Philanthropy (ECSP) opgericht. Het centrum doet (onder meer) onderzoek naar de effecten van de projecten / activiteiten van Goede Doelen organisaties met als doel het vergroten van de impact van de Goede Doelen sector. En daarmee heb ik het woord geïntroduceerd dat in de Goede Doelen sector momenteel heel veel aandacht trekt: impact. Sinds ik me ben gaan verdiepen in de Goede Doelen sector is me opgevallen dat aan het woord ‘impact’ een heleboel verschillende betekenissen wordt toegekend. Niet alleen door mensen Colofon
uit de Goede Doelen sector maar ook door consultants en wetenschappers
‘Van Evidentie Naar Impact’ Prof.dr. H.D. Webbink, 11 februari 2011
vanuit verschillende disciplines. Over impact worden veel vragen gesteld.
Vormgeving en druk: B&T Ontwerp en advies (www.b-en-t.nl)
de geldgever of de ontvanger? Zijn er ongewenste effecten of effecten op
Welke uitkomsten moet je meten? Wanneer moet je meten? Impact voor wie,
3 VAN EVIDENTIE NAAR IMPACT
Mijnheer de Decaan,
PROF.DR. H.D. WEBBINK
PROF.DR. H.D. WEBBINK
Van Evidentie Naar Impact
andere doelgroepen? Gaat het om de tevredenheid van de doelgroep? Enz.
1. Waarover gaat impactmeting?
enz.. In discussies komen ook regelmatig afbeeldingen voor zoals deze:
Het eerste antwoord van vanmiddag geef ik meteen. Impactmeting is voor
“Are we maximizing total performance while generating lasting impact?”
mij het vaststellen van het oorzakelijk effect van een bepaald project of van een bepaalde beleidsinterventie1. Het gaat om de vraag in hoeverre we bepaalde uitkomsten kunnen toeschrijven aan het gevoerde beleid (of aan
PROF.DR. H.D. WEBBINK
we deze kennis gebruiken om het beleid te versterken en daarmee meer impact te halen uit de ingezette middelen. Impactmeting / beleidsevaluatie zie ik daarom als een middel om evidentie te verzamelen, te leren en de prestaties te verbeteren. Het belangrijkste probleem bij impactmeting wil ik
4 VAN EVIDENTIE NAAR IMPACT
Enkele jaren geleden stelde de Europese Commissie een vraag aan het ministerie van Sociale Zaken en Werkgelegenheid over het werken van jeugdigen in Nederland. Op grond van artikel 7, lid 3 van het Europees Sociaal Handvest mogen leerplichtige jeugdigen geen zodanige arbeid verrichten dat zij niet ten volle het onderwijs kunnen volgen. In Nederland mogen 15-jarigen ’s morgens vanaf zes uur ochtendkranten bezorgen. Om te kunnen beoordelen of Nederland daarmee handelt in overeenstemming met het verdrag is Nederland gevraagd om te onderzoeken of het bezorgen van ochtendkranten van invloed is op de schoolprestaties van vijftienjarigen. Onderzoekers van de Universiteit Nijmegen hebben vervolgens een studie Deze afbeelding illustreert in mijn ogen de stand van de discussie over impact-
uitgevoerd naar de effecten van het bezorgen van ochtendkranten door
meting in de Goede Doelen sector. Er worden vooral vragen gesteld, en er
15-jarigen (Vrieze, et al. 2001) dat de titel kreeg ‘Vroege Vogels’. De onder-
worden hele moeilijke en wellicht onmogelijk opdrachten verbonden aan
zoekers concludeerden dat er geen aanwijzingen zijn ‘dat het bezorgen
impactmeting. Je zou het ook anders kunnen zeggen: er bestaat nogal wat
van ochtendkranten door 15-jarigen van negatieve invloed is op de school-
verwarring. U begrijpt dat ik me geen beter moment had kunnen wensen om
prestaties’. Bovendien vonden zij ‘geen aanwijzingen dat de lichamelijke en
me met impactmeting in de Goede Doelen sector te gaan bezig houden. In
psychische conditie van ochtendkrantenbezorgers negatief wordt beïnvloed
de komende veertig minuten zal ik uit de doeken doen hoe ik dat wil gaan
door het kranten bezorgen. Op alle aspecten komen de ochtendkrantbezorgers
aanpakken. Daarbij zal ik veel voorbeelden gebruiken van onderzoek dat ik
er positiever uit dan de niet-bezorgers. Krantenbezorgers voelen zich beter
de afgelopen jaren heb gedaan, vooral op het terrein van onderwijs. Impact-
uitgerust en ze kunnen zich beter concentreren. Krantenbezorgers gaan met
meting wordt daar meestal beleidsevaluatie genoemd. De komende jaren
meer plezier naar school dan de controlegroep. Krantenbezorgers willen nog
mag ik me met een veel breder terrein gaan bezighouden dan onderwijs. De
meer dan de controlegroep met hard werken veel bereiken in hun leven.’
methoden en ervaringen die ik ga bespreken zijn echter even zeer bruikbaar
Anders gezegd, het bezorgen van ochtendkranten leidt tot veel goeds.
voor de vele andere gebieden die bestreken worden door Goede Doelen organisaties en publieke overheden.
1
Deze definitie is niet door mij bedacht en wordt bijvoorbeeld ook gehanteerd door de Wereldbank (zie http://www.worldbank.org/oed/ie/) of door Howard White, de Excutive Director van het International Initiative for Impact Evaluation (3ie).
5 VAN EVIDENTIE NAAR IMPACT
introduceren met een voorbeeld.
PROF.DR. H.D. WEBBINK
bepaalde projecten). Als we weten wat het effect van bepaald beleid is kunnen
belangrijkste inzichten is dat de geloofwaardigheid van de controlegroep
Werkgelegenheid. Laten we alle middelbare scholieren een baantje geven
afhangt van de vraag of we begrijpen waarom een bepaalde groep wel de
vroeg in de ochtend dan slaan we twee vliegen in één klap. Met die baantjes
beleidsinterventie heeft gehad en de andere groep niet. In de literatuur over
kunnen we een hoop mooie dingen produceren en waarschijnlijk nog belang-
Program Evaluation wordt dit aangeduid als toewijzing aan de interventie
rijker, we geven een belangrijke bijdrage aan de vorming van 15-jarigen. Dat
(‘assignment to treatment’). Aan de hand van het voorbeeld van de studie
is pas effectief beleid. Ik heb de indruk dat u toch enige twijfels hebt over dit
naar de Vroege Vogels wil ik dit verduidelijken.
beleid. Of wellicht over het onderliggende onderzoek. Gelooft u de resultaten niet? Dat lijkt me helemaal terecht. De controlegroep die wordt gebruikt in
In het Vroege Vogels voorbeeld zijn we geïnteresseerd in het effect van een
het ‘Vroege Vogels onderzoek’ lijkt namelijk niet heel geloofwaardig. Ik kom
krantenwijk op de resultaten van scholieren. De onderzoekers hebben daarvoor
daar straks op terug.
6
Binnen de economische wetenschap is de afgelopen twintig jaar geweldig
daarbij is rekening gehouden met een aantal verschillen tussen de groepen
veel aandacht besteed aan het vaststellen van oorzakelijke effecten. Er zijn
zoals geslacht, leeftijd, etnische herkomst en schooltype. De aanname die
nieuwe methoden ontwikkeld en tal van toepassingen gevonden. Dit terrein
gemaakt wordt is dat de potentiële schoolresultaten van ‘de Vroege Vogels’
heeft de naam Program Evaluation gekregen. Het raamwerk waarbinnen dit
als ze geen krantenwijk zouden hebben gelijk zijn aan de schoolresultaten
onderzoek plaats vindt is verrassend eenvoudig en wordt aangeduid als het
van de leerlingen zonder krantenwijk, rekening houdend met de genoemde
Potentiële Uitkomsten Model (Rubin (1974, 1977) en Holland (1986)). De
verschillen. Is deze aanname geloofwaardig? Dat hangt af van de vraag welke
leidende vraag binnen dit model is: wat zou er gebeurd zijn als het beleid
leerlingen een krantenwijk hebben en welke leerlingen niet. Als de kranten-
niet was ingevoerd? Of op individueel niveau: wat zou de uitkomst voor het
wijk door loting wordt toegewezen aan bepaalde leerlingen zouden we geen
individu zijn als dit individu niet te maken had gehad met het beleid. Voor
verschillen verwachten tussen leerlingen met en leerlingen zonder krantenwijk.
een individu zijn er derhalve twee potentiële uitkomsten: een uitkomst in de
Als leerlingen echter bewust kiezen voor een krantenwijk kunnen er vele
situatie zonder het beleid en een uitkomst in de situatie met het beleid. Het
verschillen zijn tussen de twee groepen die niet zo gemakkelijk te observeren
oorzakelijk effect van het beleid voor dit individu is dan eenvoudig te bepalen,
zijn. ‘Vroege Vogels’ zijn wellicht energieke ambitieuze types die ook de eerste
namelijk het verschil tussen de twee potentiële uitkomsten. Voor de hele
uren van de dag goed willen besteden. De controlegroep bestaat wellicht uit
populatie kan het oorzakelijk effect dan bepaald worden door het gemiddelde
‘Late Vogels’ die vooral de late uurtjes goed willen besteden. Als deze
te nemen over alle individuen. Het probleem is echter dat we maar één uit-
verschillen tussen de groepen ook belangrijk zijn voor de schoolresultaten
komst waarnemen. Die andere uitkomst kunnen we nooit waarnemen en
zal een vergelijking van de uitkomsten van deze groepen niet het oorzakelijk
hiervoor zijn we aangewezen op een vergelijking met een andere groep, die
effect van de krantenwijk opleveren. Een onderzoeker die deze verschillen
het beleid niet heeft ondergaan. Voor het bepalen van het oorzakelijk effect
waarschijnlijk niet kan waarnemen zal dan de verkeerde conclusies trekken.
van het beleid maken we in dat geval de aanname dat de uitkomst voor die
U begrijpt inmiddels dat ik de aanname uit het Vroege Vogels onderzoek niet
andere groep gelijk is aan de potentiële uitkomst die we niet kunnen waar-
erg geloofwaardig vind. Maar is het dan ook belangrijk dat die aanname niet
nemen. We nemen aan dat de uitkomst voor die andere groep de uitkomst is
geloofwaardig is? Mijn antwoord daarop is ja. Als die aanname niet geloof-
die we hadden gekregen als het beleid niet was uitgevoerd. Deze aanname
waardig is kunnen bepaalde effecten geheel ten onrechte worden toegeschre-
speelt een cruciale rol in de evaluatie. In normaal Nederlands hebben we het
ven aan een beleidsinterventie.
dan over de geloofwaardigheid van de controlegroep. Bij welke aannamen krijgen we een geloofwaardige controlegroep en bij welke aannamen is er
Het probleem met ‘de Vroege Vogels studie’ is dat leerlingen zelf kiezen voor
reden tot twijfel? Het onderzoek op het terrein van Program Evaluation heeft
de krantenwijk; er is sprake van zelfselectie. In de sociale werkelijkheid is
hierover veel helderheid verschaft. De afgelopen jaren zijn we steeds beter
zelfselectie eerder regel dan uitzondering. Bij vrijwel alle beleidsinterventies
gaan begrijpen welke aannamen we maken bij verschillende technieken
of projecten is sprake van selectie van deelnemers. En dat is ook logisch, mensen
gericht op het bepalen van de effecten van beleid of interventies. Eén van de
verschillen immers in voorkeuren en mogelijkheden, en dat leidt tot verschillen
7 VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
de schoolresultaten van een groep leerlingen met een krantenwijk vergeleken met de schoolresultaten van een groep leerlingen zonder krantenwijk. En
PROF.DR. H.D. WEBBINK
PROF.DR. H.D. WEBBINK
Dat is goed nieuws voor de Ministers van Onderwijs en van Sociale Zaken en
in keuzes. Deze zelfselectie is het belangrijkste probleem uit de beleidsevaluatie. Hoe weten we bij een vergelijking tussen twee groepen of het verschil in
2. Hoe kunnen we de impact van beleid op een geloofwaardige manier vaststellen? Het onderzoek van de afgelopen jaren heeft veel inzicht opgeleverd voor
beleidsmaker wil weten wat het effect van een specifiek programma voor
het oplossen van het selectieprobleem. De meest overtuigende oplossingen
jongeren is, bijvoorbeeld het programma ‘Meedoen, Leren en Winnen’ van de
zijn gebaseerd op een experimentele of quasi-experimentele opzet. Cruciaal
Johan Cruijff Foundation, zal selectie een rol spelen bij de evaluatie. We mogen
daarbij is dat we inzicht hebben in de toewijzing van de beleidsinterventie.
immers verwachten dat jongeren die willen deelnemen een andere groep
We begrijpen waarom sommige individuen wel te maken hebben met de
zullen zijn dan jongeren die niet willen deelnemen aan het project. Inmiddels
beleidsinterventie en anderen niet. Dit wordt ook wel design-based onderzoek
weten we ook dat een schatting van het effect van een programma waarbij
genoemd2. De impact van beleid kan worden vastgesteld door gebruik te
alleen rekening wordt gehouden met geobserveerde verschillen tussen
maken van transparante onderzoeksdesigns.
deelnemers en niet-deelnemers vaak niet klopt. Zo laat een beroemde studie van de Amerikaan Robert Lalonde (1986) zien dat het bij de evaluatie van trainingsprogramma’s voor werklozen veel uitmaakt of je rekening kunt
2.1 Het gecontroleerde sociale experiment
houden met de zelfselectie. Selectie doet zich ook overal voor binnen het onderwijs en dat is belangrijk voor het bepalen van de effecten van bepaalde
De eerste oplossing voor het selectieprobleem is het gecontroleerde sociale
interventies. Er is bijvoorbeeld erg veel onderzoek gedaan naar de effecten van
experiment. Door loting wordt bepaald wie de beleidsinterventie wel of
klassenverkleining. Daarvoor vergelijkt men dan de resultaten van leerlingen in
niet krijgt. De loting zorgt ervoor dat elk individu evenveel kans heeft op
kleine klassen met die van leerlingen in grote klassen. De cruciale vraag is dan
het krijgen van de beleidsinterventie. We mogen daarom verwachten dat de
weer: hoe komen de leerlingen terecht in grote en in kleine klassen. Als dit
controlegroep zowel op geobserveerde als niet geobserveerde kenmerken
gebeurt door loting dan zal het verschil tussen de grote en kleine klassen ook
vergelijkbaar is met de experimentele groep. Het effect van de beleids-
daadwerkelijk het effect zijn van de klassengrootte. Meestal wordt de klassen-
interventie kan dan worden bepaald door de uitkomsten in de experimentele
grootte echter bepaald door beslissingen van scholen, docenten of ouders. In
groep te vergelijken met die in de controlegroep. Tot zover is het allemaal
dat geval weten we niet waarom sommige leerlingen in grote en andere in
heel eenvoudig. Waarom zien we dan nog weinig sociale experimenten in
kleine klassen zitten. Misschien omdat sterk gemotiveerde ouders erin slagen
Nederland? Ik denk dat daarvoor twee redenen zijn aan te wijzen. De eerste
om hun kinderen in kleine klassen te krijgen, maar het is ook mogelijk dat
reden gaat over tijd en middelen. Sociale experimenten kosten geld en vergen
docenten bij voorkeur lastige leerlingen in kleine klassen selecteren.
tijd, en beleidsmakers kunnen niet zo lang op antwoorden blijven wachten.
De Amerikaanse econoom Eric Hanushek heeft een beroemd overzicht gemaakt
De tweede reden, en dat geldt zeker voor de wereld van het onderwijsbeleid
van al dit onderzoek naar de effecten van de klassengrootte (Hanushek, 2003).
en die van Ontwikkelingssamenwerking, is dat beleidsmakers moeite hebben
En, het resultaat zal u nu misschien minder verrassen. Het overzicht geeft
met loting. Ik heb de indruk dat voor veel beleidsmakers het ‘L-woord’ nog
namelijk alle mogelijke effecten, variërend van positief significant tot negatief
steeds emotioneel beladen is. Ongelijke behandeling stuit velen tegen de
significant. Het grote probleem bij de interpretatie van deze onderzoeks-
borst. Het bezwaar blijkt dan meestal te zijn dat een bepaalde groep een
resultaten is echter dat alle resultaten vertekend kunnen zijn door selectie op
kansrijke interventie wordt onthouden. Het blijft echter altijd de vraag of
grond van niet waargenomen kenmerken. Een onderzoeker die geen rekening
deze interventie wel werkt. Hoewel de interventie vooraf kansrijk wordt
houdt met het selectieprobleem kan tot de conclusie komen dat een effect positief en statistisch significant is terwijl het ware effect negatief en statistisch significant is. Kortom, als we echt het effect van beleid willen weten zullen we een oplossing moeten vinden voor het selectieprobleem. Anders, zullen we nooit met zekerheid een bepaalde uitkomst kunnen toeschrijven aan een bepaalde beleidsinterventie.
2
De laatste jaren is ook kritiek gekomen op deze methoden. Deze methoden zouden vooral gericht zijn op het vergaren van zo hard mogelijk bewijs maar daarmee de grote vragen uit het oog verliezen: ‘Good answers instead of good questions’. Zie onder andere Heckman (2010), Deaton (2010), Imbens (2010), Angrist & Pischke (2010).
9 VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
8
is van andere niet geobserveerde verschillen tussen deze groepen? Als een
PROF.DR. H.D. WEBBINK
PROF.DR. H.D. WEBBINK
uitkomsten wordt veroorzaakt door de beleidsinterventie en niet het gevolg
geacht is nooit uit te sluiten dat het uiteindelijke effect nul of zelfs ongunstig
2.2 Natuurlijke experimenten Gecontroleerde experimenten ontstaan door de hand van de onderzoeker. Er
boer hierdoor juist een grotere schuldenlast krijgt. De keuze om niet te
ontstaan echter ook regelmatig experimenten door toevallige situaties in de
experimenteren betekent bovendien vaak dat nieuw beleid moet worden
werkelijkheid, dit worden natuurlijke experimenten genoemd. Natuurlijke
ingevoerd zonder goede onderbouwing. Liever experimenteren met de hele
experimenten bieden ook een oplossing voor het selectieprobleem.
populatie dan een deel van de populatie anders behandelen. Ik ben geen ethicus maar mijn indruk is dat de ethische bezwaren van dit alternatief
Bestaande lotingen benutten
minstens even groot zijn en waarschijnlijk groter dan die van het ‘L-woord’.
In verschillende situaties in de werkelijkheid wordt loting toegepast, bijvoorbeeld bij de toelating tot bepaalde populaire middelbare scholen of bij de
Ondanks deze bezwaren vinden wel degelijk sociale experimenten in
toelating tot studies zoals geneeskunde. Deze lotingen bieden vaak de
Nederland plaats, en het aantal experimenten neemt ook toe. Zo voer ik samen
mogelijkheid om oorzakelijke effecten vast te stellen, ook als de loting niet
met mijn CPB-collega’s Marc van der Steeg en Roel van Elk een experiment uit
werd geïnitieerd met als doel het uitvoeren van een gecontroleerd experiment4.
waarbij een coach wordt toegewezen aan leerlingen in het Middelbaar
Samen met Rob Luginbuhl en Inge de Wolf heb ik gebruik gemaakt van een
Beroepsonderwijs. De toewijzing van leerlingen aan de experimentele en
loting die door de Inspectie van het Onderwijs wordt toegepast (Luginbuhl et
controlegroepen en ook de toewijzing van de docent is door loting tot stand
al. 2009). De Inspectie van het Onderwijs trekt, in het kader van het Onderwijs-
gekomen. In dit experiment waren onvoldoende middelen beschikbaar voor
verslag, elk jaar een steekproef van scholen. Deze scholen worden bezocht
alle leerlingen. Door te loten kreeg elke leerling evenveel kans om tot de
door een Inspecteur. De steekproef van scholen wordt aselect getrokken,
experimentele groep te behoren. In dit geval kan ik helemaal geen ethische
eigenlijk net als bij een echt gecontroleerd experiment. Door de resultaten
bezwaren bedenken tegen loten. Dit soort situaties doet zich overigens veel
van deze steekproef van scholen te vergelijken met de resultaten van andere
vaker voor. Zo komt het vaak voor dat bij subsidiemaatregelen de aanvragen
scholen konden wij het effect van een schoolbezoek door een Inspecteur vast
het beschikbare budget overschrijden. Bij aanvragen van gelijke kwaliteit kan
stellen. Wij vonden een kleine verbetering van de leerprestaties na het bezoek
in dat geval worden geloot, met als nevenopbrengst dat het effect van de
van de Inspecteur.
subsidie na enige tijd kan worden vastgesteld. Ook bij Goede Doelen organisaties zullen de middelen vaak niet toereikend zijn voor alle aanvragers, en
Regressie discontinuïteiten
kan loting soms ook worden toegepast. Dit geeft dan niet alleen een eerlijke
Behalve loting zijn er in de werkelijkheid nog veel meer situaties te ontdekken
verdeling van middelen maar biedt bovendien een prachtige kans om impact
die sterk lijken op een gecontroleerd experiment. Eén van de meest prominente
te meten. De afgelopen jaren is ook een groot aantal experimenten gestart
situaties in de evaluatieliteratuur is de zogenoemde regressiediscontinuïteit.
binnen het kader van Onderwijsbewijs, een fonds voor experimenten in het
Deze techniek is al in de jaren zestig ontwikkeld binnen de psychologie maar
onderwijs. In de eerste ronde zijn achttien experimenten gefinancierd, in de
is de afgelopen tien jaar opnieuw uitgevonden binnen de economische weten-
tweede ronde zullen nog eens negentien experimenten worden gefinancierd.
schap en voorzien van een theoretisch fundament (Cook, 2008). Regressie
En natuurlijk worden binnen het Top Institute for Evidence Based Education
discontinuïteiten zijn situaties waarbij de toewijzing van de beleidsinterventie
Research (TIER) al enkele jaren sociale experimenten uitgevoerd. Internationaal is er de afgelopen jaren sprake van een toename van experimenten. Opvallend daarbij is dat veel gecontroleerde sociale experimenten plaatsvinden in ontwikkelingslanden. Zo zijn er onder de vlag van het zoge-
3
Zie www.povertyactionlab.org
4
In Nederland is de gewogen loting voor geneeskunde benut om het effect van deze opleiding op verschillende uitkomsten vast te stellen (Leuven, et al. 2009). Voor de VS is het effect van schoolkeuze op schoolprestaties vastgesteld door gebruik te maken van de loting bij toelating tot bepaalde scholen (Cullen et al. 2006).
noemde ‘Action Poverty Lab’ 245 gerandomiseerde evaluaties uitgevoerde in 43 landen en op veel verschillende thema’s zoals gezondheid, microfinanciering, landbouw, arbeidsmarkt, onderwijs, milieu en bestuur3.
11 VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
10
dit de start van een mooi bedrijf zijn, maar we kunnen niet uitsluiten dat deze
PROF.DR. H.D. WEBBINK
PROF.DR. H.D. WEBBINK
is. Als we een boer in een ontwikkelingsland microfinanciering aanbieden kan
bepaalde grenswaarde krijgen de beleidsinterventie, individuen net beneden
baar waren. De selectie van studenten werd steeds gedaan door een commissie
deze grenswaarde krijgen de beleidsinterventie niet. De belangrijkste aanname
die een ranking maakte van de studenten. Aan de hand van deze ranking
is dat individuen aan beide zijden van de grenswaarde goed vergelijkbaar zijn5.
konden wij studenten onderscheiden die net wel en net geen beurs gekregen
Aan de hand van enkele voorbeelden wil ik deze aanpak toelichten. Enkele
hadden. Studenten die geen beurs ontvingen bleken aanmerkelijk minder
jaren geleden heb ik samen met Hessel Oosterbeek, Edwin Leuven en Mikael
vaak in het buitenland te gaan studeren waardoor er variatie ontstond in het
Lindhal een onderzoek gedaan naar het effect van extra middelen voor scholen
studeren in het buitenland. Deze toevallige variatie hebben wij benut voor
in het primair onderwijs met veel achterstandsleerlingen (Leuven et al. 2007).
het vaststellen van het effect van studeren in het buitenland op de latere
De Tweede Kamer maakte zich zorgen over de prestaties van scholen met een
arbeidsmarktpositie. Onze belangrijkste bevinding gaf aanleiding tot zorg.
hoge concentratie achterstandsleerlingen en had daarom besloten om deze
De beurs, bestemd voor de meest getalenteerde studenten, bleek er vooral
scholen meer middelen toe te kennen. Scholen met meer dan 70% achterstands-
toe te leiden dat Nederlandse studenten zich in het buitenland gingen
leerlingen ontvingen ongeveer tien procent extra middelen. Het geld diende
vestigen.
te worden besteed aan leraren of aan ICT. Scholen met minder dan 70% achterstandsleerlingen ontvingen geen extra middelen. De afkapgrens van
Begin vorig jaar heb ik samen Marc van der Steeg en Roel van Elk gekeken naar
70% werd strikt gehanteerd. Scholen met 69,9% achterstandsleerlingen
het effect van de zogenoemde lerarenbeurs op het volgen van een opleiding in
ontvingen geen extra geld, scholen met 70,1% achterstands-leerlingen
het hoger onderwijs (Van der Steeg et al. 2010). Vanaf 2008 zijn door het
ontvingen wel extra geld. In ons onderzoek hebben we de scores op de
ministerie van OCW beurzen beschikbaar gesteld voor leraren. Deze beurzen
Cito-toets vergeleken van scholen die het geld kregen met de scores van
zijn bedoeld voor het verhogen en verbreden van kwalificaties van leraren. Het
scholen die het geld niet kregen. Daarbij hebben we vooral gekeken naar
is bijvoorbeeld mogelijk om een complete Bachelor of Masters studie te volgen
scholen rond de afkapgrens van 70%. Zo hebben we de prestaties van scholen
met deze beurs. Een belangrijke vraag is echter of het ontvangen van een beurs
vergeleken die tussen 65 en 70% achterstandsleerlingen hadden met de
ook daadwerkelijk tot extra deelname aan onderwijs leidt of dat de beurs
prestaties van scholen die tussen 70 en 75% achterstandsleerlingen hadden,
gebruikt wordt voor het financieren van een opleiding die men ook zonder
en daarbij hebben we ook rekening gehouden met het aandeel achterstands-
beurs wel was gaan volgen. De beurs vervangt dan de eigen middelen of de
leerlingen. Voor het beleid waren onze uitkomsten teleurstellend. We vonden
middelen vanuit de school. Voor het vaststellen van het effect van de beurs
geen effect van het extra geld, noch van het extra geld voor personeel noch
op de deelname aan hoger onderwijs hebben we gebruik gemaakt van een
van het extra geld voor ICT op school.
toevalligheid bij de toedeling van de beurs. In de eerste ronde waren er ongeveer 7500 leraren die een beurs wilden en er waren slechts 5000 beurzen
Een andere toepassing van deze techniek is een studie naar de opbrengsten
beschikbaar. De toewijzing van de beurs ging op basis van het moment van
van studeren in het buitenland die ik samen met Hessel Oosterbeek heb
aanmelding (First come, First serve). In figuur 1 is de kans op het krijgen van
uitgevoerd (Oosterbeek & Webbink, 2010). Het evaluatieprobleem hierbij is
een beurs afgezet tegen de dag van aanmelding.
dat studenten die in het buitenland gaan studeren sterk kunnen verschillen van studenten die in eigen land studeren. Om dit probleem te omzeilen hebben we gebruik gemaakt van een bijzondere groep studenten, namelijk studenten die zich hadden aangemeld voor de zogenoemde Talentenbeurs.
5
De veronderstelling is dat de relatie tussen de onderliggende toewijzingsvariabele en de potentiële uitkomsten continu is rond de grenswaarde van de toewijzingsvariabele.
13 VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
12
Ieder jaar bleken zich meer studenten aan te melden dan er beurzen beschik-
PROF.DR. H.D. WEBBINK
PROF.DR. H.D. WEBBINK
afhangt van een score op een bepaalde variabele. Individuen net boven een
Het belangrijkste verschil is nu dat ongeveer veertig procent van de leraren
Figuur 1. Kans op een beurs in de eerste ronde naar dag van aanmelding eerste ronde
die in de eerste ronde te laat waren met hun aanmelding, alsnog een beurs Day of application in first round 100
verschil in de kans op een beurs op de sluitingsdag van de eerste ronde (dag
90
36). De kans op een beurs daalt dan van 95% naar 40%. Deze discontinuïteit
40 30 20 10 0
0
verhoogt met 10%-punt. Dat betekent dat de overheid, bij deze opzet van de lerarenbeurs, 10 beurzen moet verstrekken om één leraar extra te verleiden tot deelname aan het hoger onderwijs. Eén beurs wordt niet gebruikt en acht beurzen worden gebruikt voor opleidingen die ook zonder beurs zouden zijn gevolgd. Economen noemen dit een hoge ‘dead weight loss’. 5
10
15
20
25
30
35
40
45
50
Difference-in-differences modellen Vanaf de eerste dag van de aanmelding is de kans op het toegewezen krijgen
Een derde prominente techniek voor het oplossen van het selectieprobleem is
van een beurs erg hoog, ongeveer 95%. Een klein deel van de aanmeldingen
het zogenoemde difference-in-differences model. In dit model wordt gebruik
is afgewezen omdat de aanvraag niet voldeed aan bepaalde criteria6. De kans
gemaakt van een experimentele en een controlegroep en is sprake van een
op een beurs blijft hoog tot en met dag 35. Dan zien we een plotseling daling
voor- en nameting. De belangrijkste aanname is dat de trend in de controle-
van de kans op een beurs tot nul procent. Deze daling is het gevolg van het
groep, dat is het verschil tussen de voor- en nameting, gelijk is aan de trend
feit dat het geld op was. In ons onderzoek gebruiken we deze plotselinge
in de experimentele groep als de beleidsinterventie niet zou hebben plaats-
daling van de kans op een beurs. Een complicerende factor in ons onderzoek
gevonden. In de Verenigde Staten zijn DD-modellen vaak toegepast door het
was dat er na de eerste ronde van de beurs ook nog een tweede en derde
beleid in een bepaalde gebied (staat, stad of deelgemeente) te analyseren
ronde was waarin beurzen werden toegekend. Als we die ronden meenemen
waarbij andere gebieden als controlegroep gebruikt worden7.
in onze figuur ontstaat het volgende beeld (figuur 2). Samen met Victoria Chorny (oud-CPB) heb ik deze techniek toegepast voor een analyse van het zogenoemde ‘accountability-beleid’ in het Amsterdamse
Figuur 2. Kans op een beurs na drie ronden naar dag van aanmelding eerste ronde
basisonderwijs vanaf het midden van de jaren negentig (Chorny and Webbink, Day of application in first round
2010). De gemeente Amsterdam bemoeide zich intensief met het basisonderwijs
100
en maakte afspraken over deelname aan en te behalen resultaten op de CITO-
90 80 70 60 50 40 30 20 10 0
6
0
toets. Scholen moesten plannen opstellen voor het behalen van schoolspecifieke doelen. Aan de uitvoering van de plannen en het behalen van de resultaten werden middelen gekoppeld. Aan de hand van een groot gegevensbestand van leerlingen in het basisonderwijs, het zogenoemde PRIMA-onderzoek, hebben we de ontwikkeling van de scores op de Cito-toets in Amsterdam geanalyseerd. We hebben de trend in Amsterdam vergeleken met die in heel
5
10
15
20
25
30
35
40
45
50
Zoals het aantal contacturen, de accreditatie van de aanbieder, en de bevoegdheid van de docent.
7
Zie bijvoorbeeld Card (1990), Jin and Leslie (2003), Meyer et al. (1995), Eissa and Liebman (1996).
15 VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
14
vonden dat de lerarenbeurs de kans op deelname aan het hoger onderwijs
% with voucher in any of three rounds
PROF.DR. H.D. WEBBINK
50
maakt het mogelijk om het effect van de lerarenbeurs vast te stellen. Wij PROF.DR. H.D. WEBBINK
60
% assigned voucher in first round
80 70
ontvangen hebben in de tweede en derde ronde. Er blijft echter een belangrijk
Nederland en ook met de trend in een specifieke steekproef met veel achter-
Figuur 4. Trend in PRIMA toetsen voor taal en rekenen in Amsterdam en in de lage SES steekproef vergeleken
standsleerlingen (en met de trend in de andere grote steden). Figuur 3 laat
met de rest van Nederland.
zien hoe de trend in Amsterdam (de blauwe lijn) en de trend in de steekproef landelijke trend (de x-as).
Adjusted trend PRIMA scores 0.4
0.3
PRIMA score
met veel achterstandsleerlingen (de paarse lijn) is gaan afwijken van de
0.6
0
0.5
1988
1990
1995
1997
1999
2001
2003
2005
-0.1
17
0.4
-0.2
0.3
Amsterdam PRIMA Math
Low SES PRIMA Math
Amsterdam PRIMA Languages
Low SES PRIMA Language
0.2
De resultaten op de taal- en rekentoetsen, die dus geen onderdeel uitmaken
0.1
van het Amsterdamse beleid, zijn vergelijkbaar met die op de CITO-toets. Ook 0 1995
1997
1999
2001
2003
2005
Low SES
Amsterdam
hier zien we een duidelijk vooruitgang van de prestaties van Amsterdamse leerlingen ten opzichte van leerlingen in de rest van Nederland. Een belangrijk verschil is echter dat de vooruitgang minder groot is, ongeveer 0,3 standaard-
We zien dat de trend in Amsterdam ten opzichte van de landelijk trend geheel
deviatie. Als we deze resultaten combineren met de eerdere resultaten komen
vlak is tot 1997, en daarna doet zich een spectaculaire stijging voor van de
we tot de conclusie dat ongeveer 60 procent van de totale vooruitgang in
Amsterdamse resultaten. De ontwikkeling in de steekproef met veel achter-
A’dam een daadwerkelijke verbetering is van de leerprestaties en dat 40% is
standsleerlingen is vlak. In onze schattingen vinden we een verbetering van
toe te schrijven aan ‘teaching to the test’.
de Amsterdamse toetsresultaten met ongeveer 0.5 standaard deviatie. Dat zijn ongeveer 5 punten op de CITO-toets en dat is een hele sterke stijging.
De DD-modellen heb ik samen met Marc van der Steeg en Roel van Elk ook
Het zal u waarschijnlijk niet zijn ontgaan dat er in de media ook veel aandacht
toegepast in ons onderzoek naar de effectiviteit van het beleid gericht op het
is besteed aan deze opvallende progressie. Er zijn veel manieren om de
verminderen van voortijdig schoolverlaten (Van der Steeg et al. 2008). Enkele
toetsresultaten te verbeteren. Zo gaan de scores fors omhoog als de zwakke
jaren geleden is ons land begonnen met het zogenoemde convenanten beleid.
leerlingen uit de toets worden gelaten, en veel oefenen op de toets helpt
Hiervoor werden afspraken gemaakt met 14 van de 39 regio’s in Nederland
ook. In ons onderzoek hebben we naar verschillende kanalen gekeken die
om het voortijdig schoolverlaten terug te dringen. Voor elke daling van het
zouden kunnen leiden tot een onbedoelde stijging van de toetsresultaten.
voortijdig schoolverlaten met één leerling kregen regio’s 2000 Euro. In ons
Zo hebben we gekeken naar het uitsluiten van leerlingen, verwijzing naar
onderzoek hebben we gekeken naar de ontwikkeling in het voortijdig
het speciaal onderwijs of zittenblijven.
schoolverlaten voor en na de introductie van het nieuwe beleid in zowel de
Deze analyses hebben geen aanwijzingen opgeleverd voor strategisch gedrag
14 geselecteerde regio’s als in de 25 niet geselecteerde regio’s. We vonden
van Amsterdamse scholen. Ook hebben we gekeken naar ‘teaching to the
een daling in de 14 geselecteerde regio’s maar een even grote daling in de
test’. Het PRIMA-bestand bevat namelijk naast de resultaten op de CITO-
25 niet-geselecteerde regio’s. In onze DD-benadering betekent dit dat het
toets ook scores op separate toetsen voor taal en rekenen. Als de progressie
beleid niet effectief is. De daling in de regio’s met het nieuwe beleid wijkt
van de resultaten in Amsterdam het gevolg is van uitgebreid oefenen op de
immers niet af van de trend in de regio’s zonder het nieuwe beleid. In dit
Cito-toets verwachten we geen vooruitgang op deze separate toetsen. De
onderzoek konden we de analyses nog verder aanscherpen doordat we ook
trends op deze toetsen staan afgebeeld in figuur 4.
de selectiecriteria voor de 14 regio’s kenden. Hierdoor konden we ook de
VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
16
0.1
Adjusted trend CITO
PROF.DR. H.D. WEBBINK
PROF.DR. H.D. WEBBINK
0.2
Figuur 3. Trend in Cito-score in Amsterdam en in de lage SES steekproef ten opzicht van de landelijke trend.
regio’s identificeren die net niet geselecteerd waren voor dit nieuwe beleid. Separate analyses waarbij we de ontwikkeling in de net wel en de net niet
3. Gebruik maken van evidentie: Evidence Based Beleid
geselecteerde regio’s vergeleken gaven hetzelfde resultaat als hierboven besproken.
Het doel van impactmeting/ beleidsevaluatie is tweeledig: het verantwoorden altijd de behoefte om vast te stellen of de middelen goed worden ingezet.
met het toepassen van DD-modellen voor het evalueren van de effecten van
Dit geldt voor de overheid en nog sterker voor Goede Doelen organisaties.
projecten rond de Johan Cruijff Courts. We kijken naar het effect van het
Zij zijn immers opgericht om ‘Goed te doen’, dus om impact te hebben. En
project ‘Meedoen, Leren en Winnen’. Daarvoor vergelijken we jongeren op
voor de gevers aan Goede Doelen organisaties is het ook weer belangrijk om
Courts die het project wel toepassen met jongeren op Courts die niet deel-
te zien dat de organisaties daadwerkelijk resultaten boeken. In de tweede
nemen aan het project. In een tweede project, waaraan ook Iolia Ossokina
plaats, en in mijn ogen het meest belangrijk, is het doel van beleidsevaluatie
deelneemt, willen we de invloed van de Johan Cruijff Courts op de buurt
om te leren over de effecten van beleid en deze kennis te gebruiken voor het
vaststellen. De uitkomstmaat die we daarvoor willen gebruiken is de huizen-
versterken van de effectiviteit van het beleid. Instrumenten die niet werken
prijs. Als de aantrekkelijkheid van de buurt is toegenomen of afgenomen
kunnen worden gestopt, beleid dat wel werkt kan worden uitgebreid. De
door de aanwezigheid van het Johan Cruijff Court zal dit immers tot
baten van beleid dat werkt kunnen geweldig hoog zijn. Neem het onderwijs.
uitdrukking moeten komen in de huizenprijs. We willen de ontwikkeling
Inmiddels weten we dat onderwijs grote opbrengsten levert voor zowel
van de huizenprijs in de buurt van een Johan Cruijf Court vergelijken met
individuen als landen. Hogere testscores zijn belangrijke voorspellers voor
de ontwikkeling van de huizenprijzen op lokaties die kandidaat waren voor
economische groei (Hanushek & Woesman, 2010). Beleid dat de Nederlandse
de vestiging van een Johan Cruijff Court.
onderwijsresultaten blijvend kan verhogen kan op termijn geweldige productiviteitseffecten opleveren. Dit betekent tegelijkertijd ook dat beleid
Deze methoden gebaseerd op experimentele of quasi-experimentele onder-
dat niet werkt geweldig hoge kosten heeft. Het goed gebruik maken van
zoeksdesign maken het mogelijk om oorzakelijke effecten van beleids-
de beschikbare evidentie is daarom heel belangrijk. Maar, in de praktijk is de
interventies of projecten vast te stellen. De toepassing van deze methoden
relatie tussen onderzoek en beleid verre van eenvoudig.
kan derhalve evidentie opleveren die beleidsmakers kan helpen om de effectiviteit van hun beleid te vergroten. Anders gezegd, dit type onderzoek kan het beleid ‘evidence based’ maken. Echter, het gebruik maken van
Spanning tussen onderzoek en beleid
onderzoeksresultaten in beleid is in de praktijk niet vanzelfsprekend. Beleid maken is niet eenvoudig. Er zijn veel belangen, er is weinig tijd, de politieke arena heeft een geweldige dynamiek, politici moeten scoren en journalisten moeten ook scoren. Alle beleidsproblemen hebben een hoge ‘sense of urgency’, beleidsmakers moeten ‘meters maken’ en ‘steden staan in brand’. Slecht nieuws lijkt in de media beter te scoren dan goed nieuws. Een aantal jaren geleden heb ik met een aantal CPB-collega’s een vergelijking uitgevoerd van de prestaties van het Nederlands onderwijs met die van het onderwijs in een aantal andere rijke landen (Antenbrink, et al. 2005). Wellicht anders dan de beeldvorming over het Nederlands onderwijs kwamen wij tot de conclusie dat het Nederlands onderwijs er niet slecht voor staat. De kop van ons persbericht was dan ook: ‘Nederlands onderwijs niet onder de maat’. De volgende dag stond echter in een vooraanstaand landelijk dagblad: ‘CPB: Nederlands onderwijs onder de maat’. De teneur van de berichtgeving over
19 VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
18
Het afgelopen jaar ben ik samen met Lara Hemmes en Karen Maas gestart
PROF.DR. H.D. WEBBINK
PROF.DR. H.D. WEBBINK
van de inzet van middelen en het leren over de effecten. Allereerst bestaat er
de Goede Doelen sector lijkt niet heel anders. In deze beleidsomgeving leidt
Beleid wordt onderbouwd met onderzoeksgegevens maar niet om er van te
nieuwe evidentie niet automatisch tot aanpassingen van beleid. Goed nieuws
leren. Dit type onderbouwing van beleid heeft niets te maken met ‘evidence
wordt omarmd, slecht nieuws over de resultaten van het beleid wordt bestre-
based’ beleid, sterker nog, dit soort onderzoek kunnen we beter achterwege
den. Als je een tijd in Den Haag hebt gewerkt herken je de beleidsreflexen bij
laten8.
Het onderzoek deugt niet;
Een ander voorbeeld is het onderzoek over het effect van de extra middelen
2.
Het onderzoek richt zich slechts op een deel van het beleid;
voor scholen met meer dan 70% achterstandsleerlingen, waarover ik u eerder
3.
De doelen van het beleid waren heel anders;
al vertelde. Al voordat wij op het idee kwamen om de discontinuïteit rond
4.
Het beleid is al bijgesteld, het onderzoek is achterhaald.
70% achterstandsleerlingen te benutten voor ons onderzoek was er, op
Al deze beleidsreflexen heb ik de afgelopen jaren gezien, en ze zijn ook heel
verzoek van het ministerie, een evaluatie uitgevoerd (Beerends en Van der
goed te begrijpen. Hoewel ik niet de illusie heb dat de relatie tussen onderzoek
Ploeg, 2001). In deze evaluatie waren directeuren van scholen die de middelen
en beleid ooit zonder problemen zal zijn denk ik dat er zeker mogelijkheden
gekregen hadden gebeld en gevraagd naar hun mening over dit nieuwe
zijn om het beleid verder te versterken met evidentie. In dat verband is de
beleid. Meer dan 80% van deze directeuren dacht dat de subsidie effectief
laatste jaren de term ‘evidence based beleid’ in zwang geraakt (en helaas ook
was. Verrassend vind ik dan dat ongeveer 20% van de directeuren dacht dat
aan inflatie onderhevig geraakt). Evidence based beleid is wel degelijk
de subsidie niet effectief was. Deze studie speelde later een rol in de beslissing
mogelijk. Maar laat ik eerst aangeven wat ‘evidence based’ beleid niet is.
om de subsidie te continueren. Echter, ook bij deze studie is geen sprake van een counterfactual, en deze studie geeft ons weinig inzicht in het effect van dit beleid. Toen wij met onze resultaten kwamen over het effect van de extra
Ongewenste ‘beleidsonderbouwing’
middelen werden we niet met gejuich ontvangen bij het Ministerie. U kent
Het onderbouwen van staand beleid met onderzoek teneinde sterker te
voor het verhogen van de Cito-scores en het beleid was al geëvalueerd.9 Ik
staan in het gevecht om de miljoenen / miljarden. Een voorbeeld. Nadat de
heb daaruit twee lessen getrokken. De eerste gaat over timing. Beleidsevaluatie
recessie in Nederland hard had toegeslagen nam het aantal studenten in het
is niet alleen een kwestie van geloofwaardige controlegroepen maar ook een
hoger onderwijs fors toe. In onderzoek naar de stijging van de deelname aan
kwestie van afstemming op het beleidsproces. Beleidsprocessen zijn rijdende
hoger onderwijs werd echter de conclusie getrokken dat de stijging niets te
treinen, als je beleid wilt helpen moet je op tijd instappen. De tweede les
maken had met de daling van de conjunctuur (Berger & Broek, 2010). Met
ging over extra middelen beschikbaar stellen voor scholen. Een beleidsreflex
als directe implicatie, de stijging van de deelname aan hoger onderwijs zou
binnen het onderwijsveld is dat problemen worden opgelost met extra geld.
wel eens structureel kunnen zijn en derhalve structureel meer middelen
We signaleren een probleem en dan wordt er ergens geld gevonden en
vereisen. Hoe hebben de onderzoekers het effect van de conjunctuur vast-
beschikbaar gesteld, echter zonder duidelijke afspraken over resultaten. Deze
gesteld? Dit hebben ze gedaan door studenten te vragen naar de motieven
reflex lijkt, sinds de commissie Dijsselbloem de autonomie van scholen en de
voor hun deelname. Het belangrijkste motief was dat studenten zichzelf
professionals binnen scholen heilig heeft verklaard, alleen nog maar sterker
de reflexen al. Het onderzoek deugde niet, het geld was helemaal niet bedoeld
wilden ontwikkelen en dat heeft niet te maken met de conjunctuur. Als we dit onderzoek bekijken vanuit het potentiële uitkomsten model dan moeten we echter constateren dat in dit onderzoek geen poging wordt gedaan om een counterfactual te vinden. Het onderzoek verschaft ons geen enkel inzicht in de vraag wat deze studenten zouden hebben gedaan als de conjunctuur
8
Overigens is in buitenlands onderzoek, waarin wel gebruik werd gemaakt van echte controlegroepen, wel degelijk gevonden dat een verslechtering van de conjunctuur leidt tot een stijging van de deelname aan onderwijs, zie bijvoorbeeld Rivkin (1995) of Black et al. (2005).
9
De resultaten leidden ook tot grote woede bij de toenmalige wethouder van onderwijs in Amsterdam Aboutaleb. Ook kreeg ons onderzoek veel kritiek vanuit de Stichting ICT op School omdat het niet zou voldoen aan de methodologische eisen van het What Works Clearing House. Dit was verrassende kritiek omdat ons onderzoek nu juist wel voldeed aan strenge methodologische eisen. Helaas konden we geen effect vaststellen van de extra gelden voor ICT.
veel beter was geweest. Anders gezegd, op basis van eenvoudige methodologische criteria kun je vaststellen dat dit onderzoek ons niets leert over het effect van de conjunctuur op de deelname aan hoger onderwijs. Dit onderzoek lijkt uitsluitend bedoeld om middelen te claimen van de Rijksbegroting.
21 VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
20
1.
PROF.DR. H.D. WEBBINK
PROF.DR. H.D. WEBBINK
‘slecht nieuws’:
PROF.DR. H.D. WEBBINK
middelen, zonder duidelijke doelen en zonder duidelijke afspraken over de
beoordeling van deze ervaringen zou ik het meeste gewicht toekennen aan
doelen, niet werkt. Dit resultaat is geheel in lijn met de klassieke conclusie
ervaringen die getoetst zijn met geloofwaardige onderzoeksdesigns.
van de Amerikaans onderwijseconoom Eric Hanushek: ‘There appears to be
Vervolgens komt de fase aan de orde dat de nieuwe instrumenten in de
no strong or systematic relationship between school expenditures and student
Nederlandse context getest worden. In het onderwijs zien we dan vaak allerlei
performance’ (Hanushek, 1986). Heldere afspraken over verwachtingen en
proefprojecten plaatsvinden. Dit is een periode die zich uitstekend leent voor
resultaten zijn in mijn ogen een onmisbaar element bij het beschikbaar stellen
het vergaren van kennis. Bijvoorbeeld, als ‘pilots’ worden uitgebreid met
van extra middelen.
controlegroepen kunnen eerste effecten worden vastgesteld. Deze controlegroepen kunnen worden gevormd door heldere toewijzingsregels te gebruiken, bij voorkeur loting, maar andere regels kunnen ook goed werken zoals moment
Hoe dan wel?
van aanmelding of een ranking naar kwaliteit. Na de testfase van het beleid komt de implementatiefase. Ook hier zijn kansen voor beleidsevaluatie. Het
Maar hoe zou ‘evidence based beleid’ er dan wel moeten uitzien? Hoe slagen
komt immers vaak voor dat beleid niet direct over de hele linie wordt inge-
we erin om beleid beter gebruik te laten maken van onderzoek. Uiteindelijk
voerd. Zo werd bij de introductie van de Tweede Fase in het voortgezet
hebben beleidsmakers en onderzoekers toch hetzelfde doel: het verbeteren
onderwijs gestart met ongeveer 25% van de scholen. Een ander voorbeeld is
van de impact van de ingezette middelen. ‘Evidence based beleid’ zou ik willen
het convenantenbeleid in Nederland gericht op de aanpak van voortijdig
definiëren als beleidskeuzen baseren op geloofwaardige wetenschappelijke
schoolverlaten, zoals ik hiervoor al heb besproken. Een gefaseerde invoering
evidentie. Serieus proberen vast te stellen wat wel of niet werkt, en deze
leidt ertoe dat sommige scholen al wel en sommige scholen nog niet te maken
informatie gebruiken bij beleidsbeslissingen. In de economische literatuur die
hebben met het nieuwe beleid, hetgeen kansen schept om goede controle-
zich bezig houdt met beleidsevaluatie / impactmeting hangt geloofwaardigheid
groepen te vormen. De kwaliteit van de evaluatie wordt nog beter als we ook
af van het onderzoeksdesign. Een difference-in-differences design is ongeveer
precies weten waarom sommige scholen eerder kunnen beginnen dan andere
de minimumnorm voor geloofwaardigheid. Deze norm heeft niet te maken
scholen. De recente economische literatuur biedt verschillende internationale
met academische ‘spielerei’ maar is ingegeven door de ervaring dat impact-
voorbeelden van studies die gebruik maken van een gefaseerde invoering om
meting gebaseerd op onderzoeksdesigns die nog sterkere aannamen maken
het oorzakelijk effect van beleid vast te stellen10. Ik denk dat we in deze fase
een grote kans geven op foutieve conclusies. Evidence based beleid betekent
van het beleidsproces veel kansen laten liggen om al te leren van het beleid.
niet alleen goed onderzoek doen maar vooral ook onderzoek beschikbaar
De kansen voor serieuze evaluatie, en daarmee voor het genereren van
hebben voor de beleidsbeslissingen. Om dit te bereiken is een goede afstem-
belangrijke beleidsinformatie, nemen toe als er meer tijd wordt genomen
ming tussen beleid en onderzoek noodzakelijk. Deze afstemming zou er al
voor de implementatiefase. Uiteraard zit hier een grote spanning met de
moeten zijn vanaf de start van het beleid. Ik wil ingaan op twee mogelijk-
beleidsdynamiek waar men resultaten wil zien of waar men geweldig
heden.
enthousiast is geraakt over een bepaald project.
Serieus werk maken van de eerste beleidsfase
Alleen projecten financieren die zicht geven op de resultaten
Beleidskeuzen kennen verschillende stadia: de keuze van thema’s en instru-
De tweede mogelijkheid om beleid meer ‘evidence based’ te maken is om
menten, implementatie, voortzetting, aanpassing of stopzetting van beleid.
gebruik te maken van de financiering. Dit kan door alleen projecten te
Bij al deze stadia kan wetenschappelijke evidentie gebruikt worden. Op
financieren die zicht geven op de resultaten. Een mooi voorbeeld hiervan
grond van mijn eerdere ervaringen denk ik dat de eerste stadia van het beleidsproces de meeste mogelijkheden bieden om gebruik te maken van wetenschappelijke kennis. Bij de keuze van beleidsinstrumenten kan gekeken
10
Zie bijvoorbeeld Dearden et al. (2009) voor de evaluatie van de Educational Maintenance Allowance in het Verenigd Koninkrijk.
23 VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
worden naar de internationale ervaringen met deze instrumenten. Bij de
PROF.DR. H.D. WEBBINK
22
geworden. Ons onderzoek leerde dat het beschikbaar stellen van extra
PROF.DR. H.D. WEBBINK
projecten die bijdragen aan sociale innovatie op het terrein van gezondheid,
verbonden zijn aan de opzet van het beleid. Ik ben ook erg benieuwd of
werkgelegenheid of jeugd11. Projecten komen alleen voor financiering in
deze ontwerpen stand zullen houden in het geweld van de dagelijkse beleids-
aanmerking als ze gericht zijn op meetbare uitkomsten en de effecten op een
dynamiek. Ook de aanpak bij de zogenoemde Wijkscholen in Rotterdam
geloofwaardige manier zichtbaar maken. Daarmee wordt bereikt dat de
verdient lof. De beslissing over voortzetting van de financiering is bij dit
middelen impact kunnen hebben voor veel mensen en tegelijkertijd wordt een
project afhankelijk gemaakt van de resultaten die worden vastgesteld met
catalogus verkregen van ‘benaderingen die werken’. Ook interessant aan dit
een serieuze evaluatie.
initiatief is dat het fonds wordt gevuld met zowel publieke middelen als met private middelen afkomstig uit de Goede Doelen sector. Door het Amerikaanse
Uiteraard zijn evaluaties niet gratis en zal bij de keuze van de evaluaties een
Institute of Education Science wordt een vergelijkbare benadering gekozen,
kosten-baten afweging gemaakt moeten worden. Middelen die besteed
met als doel evidentie te verkrijgen over wat wel en niet werkt in het onderwijs.
worden aan evaluaties kunnen niet besteed worden aan andere, mooie doelen.
Alleen projecten met een geloofwaardig evaluatiedesign worden gefinancierd.
Daar staat tegenover dat beleid dat niet werkt of projecten die niets toevoegen
Deze aanpak lijkt nu ook navolging te krijgen binnen de Nederlandse Ontwik-
erg kostbaar zijn. Ik denk dat de kosten van evaluaties omlaag gaan als vanaf
kelingssamenwerking, en dat vind ik een hele goede zaak. Binnen deze sector
de start van het beleid wordt nagedacht over de toekomstige evaluaties. Vaak
is de roep om resultaten te tonen de afgelopen jaren steeds luider geworden.
zijn gegevens al beschikbaar en soms zijn controlegroepen ook gewoon voor-
Het beschikbaar stellen van middelen voor Ontwikkelingssamenwerking lijkt
handen. Het is vooral zaak om de kansen voor evaluatie te herkennen en
momenteel veel minder vanzelfsprekend dan in het verleden. Ontwikkelings-
deze in te bouwen in de opzet van het project. Aan een controlegroep hoef
organisaties in Nederland wordt steeds vaker gevraagd om hun resultaten te
je immers in principe niets aan te bieden. Hoeveel middelen een evaluatie
laten zien. Dit heeft in de afgelopen jaren geleid tot vele ‘evaluatierapporten’
mag vergen heeft natuurlijk ook te maken met het belang van het project
maar de focus lag daarin nog niet op het vaststellen van de oorzakelijke
of beleidsinstrument voor de organisatie. Bij echte sleutelprojecten liggen
effecten van projecten of programma’s. De komende jaren is het echter te
serieuze evaluaties meer voor de hand.
bedoeling om bij belangrijke evaluaties de focus te verleggen en gebruik te maken van een counterfactual en een nulmeting. Daarmee wordt de
Serieus werk maken van beleidsevaluaties leidt onvermijdelijk tot ‘slecht
financiering van Ontwikkelingsorganisaties verbonden aan de zichtbaarheid
nieuws’ voor verschillende dossiers. Evaluaties zullen laten zien dat sommige
van de resultaten, in lijn met het fonds van Obama. Deze benadering maakt
beleidsinstrumenten slecht werken of helemaal niet werken. Hoe goed het
het mogelijk om antwoord te krijgen op de cruciale vraag welke vormen van
beleid ook is voorbereid, er is nooit een garantie dat dit beleid daadwerkelijk
ontwikkelingshulp daadwerkelijk impact hebben. En dat is toch uiteindelijk
effectief is in een nieuwe context. Echter, als tijdig kan worden vastgesteld
wat we willen weten.
dat de resultaten tegenvallen, kan grote schade worden vermeden. Een goede opzet geeft dus ook een ‘early warning’ systeem. Ministers of bestuurders van
Ik ben ook erg blij met een aantal nieuwe inspanningen die recent zijn
Goede Doelen organisaties die zorgen voor zicht op de effectiviteit van beleid
geïnitieerd en die zicht geven op de effecten van beleid. Allereerst natuurlijk
verdienen daarvoor in mijn ogen applaus.
Onderwijsbewijs, dat ik hiervoor al heb genoemd. Een tweede inspanning die ik bijzonder vind is een project dat ik zelf de afgelopen maanden heb mogen doen samen met Marc van der Steeg, Roel van Elk en Frans-Bauke van der Meer. Wij hebben meegedacht over de opzet van een aantal nieuwe beleidsmaatregelen op het terrein van onderwijs. Het doel daarvan is het beleid zodanig vorm te geven dat we evidentie kunnen genereren over de effecten.
11
Zie www.nationalservice.gov/about/programs/innovation.asp
25 VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
Het project moet uitmonden in een aantal evaluatieontwerpen die direct
PROF.DR. H.D. WEBBINK
24
is het Social Innovation Fund van president Obama. Dit fonds financiert
4. Onderzoeksagenda De onderzoeksagenda die ik de komende jaren wil uitvoeren bestaat uit het
Woorden van dank
toepassen van moderne econometrische evaluatietechnieken voor beleid en projecten op het terrein van filantropie, gezondheid en onderwijs. Voor elk
Deze effecten betreffen niet alleen de doelgroep maar ook anderen dan de doelgroep. Met deze technieken zijn de afgelopen jaren ervaringen opgedaan op terreinen zoals onderwijs, arbeidsmarkt en ontwikkelingseconomie. Samen
Tot slot wil ik deze rede beëindigen met enige woorden van dank12.
met Karen Maas, Kellie Liket, Frank Hubers, Job Harms en Lara Hemmes en
27
ondersteund door de VFI hebben we het afgelopen jaar een start gemaakt
Geachte leden van het College van Bestuur van de Erasmus Universiteit,
met diverse evaluaties waaronder projecten rond de Johan Cruijff Courts,
geachte decanen Professor Franses en Professor Yip, De Vereniging Trustfonds
micro-financiering, trainingsprogramma’s voor jongeren en maatschappelijke
Zonder uw inspanningen en vertrouwen was deze leerstoel niet mogelijk
dienstplicht. Ik zie dit als een prachtig begin dat smaakt naar veel meer. Ik
geweest. Ik wil u allen hartelijk danken voor het in mij gestelde vertrouwen
wil evaluaties uitvoeren die daadwerkelijk inzicht bieden in de effecten van
en ik zal mijn best doen om van deze leerstoel een succes te maken.
beleidsinterventies of projecten en die bruikbaar zijn voor beleidsmakers. Om dit te kunnen bereiken zoek ik naar afstemming tussen beleid en
Geachte mensen van Adessium
onderzoek. Als bij nieuwe projecten of beleidsinstrumenten vanaf de start
Door jullie inspanningen en enthousiasme is het ECSP opgericht en is
de insteek wordt gekozen om te leren over de effecten kunnen evaluaties
deze leerstoel mogelijk geworden. Ik ben geweldig blij met jullie steun
van hoge kwaliteit tot stand komen. Deze lerende houding maakt het dan
en aanhoudende belangstelling. Daarvoor wil ik jullie hartelijk danken.
ook mogelijk om met deze evidentie de impact van de ingezette middelen te vergroten. In het beleid lijkt het tonen van acties of actieplannen vaak
Collega’s van het ECSP
belangrijker dan het vaststellen van de daadwerkelijke resultaten van beleid.
Sinds april vorig jaar maak ik deel uit van het ECSP-team. Vanaf de eerste dag
Ik denk dat het beleid gebaat is bij een verschuiving van actieplannen en
hebben Manuela Ettekoven en Charles Erkelens ervoor gezorgd dat ik me
monitoring naar serieuze evaluaties. Het gaat uiteindelijk niet om de acties
thuis voel, en ze hebben me de mooiste kamer heb van het hele H-gebouw
maar om de echte resultaten van het beleid.
gegeven. Ik geniet elke dag van de energie, de pluriformiteit en de vele discussies binnen het ECSP. Toen Lucas Meijs een jaar geleden zijn prachtige
Aan het begin van dit betoog stelde ik vast dat we nog weinig weten over
oratie uitsprak kon hij alle medewerkers nog noemen. Onder de bezielende
de resultaten van de inspanningen van de Goede Doelen sector. Dat gaan
leiding van Charles Erkelens is het ECSP inmiddels zo gegroeid dat ik dat maar
we de komende jaren veranderen.
achterwege laat. Ik ben blij dat ik lid ben van deze club en ik wil alle ECSP’ers bedanken.
12
Charles Erkelens, Frank Hubers, Rinke Perizonius en Bas ter Weel dank ik hartelijk voor commentaar op een eerdere versie van deze oratie. Li Riemersma dank ik voor zijn suggesties voor de titel van deze oratie.
VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
26
we de effecten vast aan de hand van een geloofwaardig evaluatiedesign.
PROF.DR. H.D. WEBBINK
PROF.DR. H.D. WEBBINK
project of beleidsinstrument worden doelen vastgesteld. Vervolgens stellen
PROF.DR. H.D. WEBBINK
Vanaf 2000 heb ik bij het CPB mogen werken en ik ben altijd blij geweest dat
Ik geef weleens het verkeerde voorbeeld. Jullie zijn voor Ajax, ik ben voor
George (Gelauff) en Marc (Pomp) mij hebben aangenomen. Het CPB heeft
Twente. Toen Twente vorig jaar Ajax weer eens alle hoeken van het veld had
mijn liefde voor het economisch onderzoek aangeblazen. Ik heb veel geleerd
laten zien rende ik juichend de tuin in. Jullie waren toen heel boos op me
van al die collega’s, ik heb veel kansen gekregen en ik heb er ook enorm veel
en jullie hadden gelijk. Zo’n bejaarde moet zich kunnen beheersen. Ik ben
plezier gehad. Ik ben het CPB daarvoor heel dankbaar. Hetzelfde geldt voor
ontzettend gelukkig dat ik jullie heb hoewel jullie me wel erg pesten met dat
de groep in Amsterdam rond mijn promotor Professor Joop Hartog, en de
woord ‘bejaarde’.
unieke initiatieven TIER, en SCHOLAR, die door Professor Henriette Maassen van den Brink en Professor Wim Groot tot stand zijn gebracht. Alle mensen
Lieve Rinke
die hierbij betrokken zijn wil ik hartelijk danken. Mijn nieuwe collega’s van
De laatste die ik bedank is de belangrijkste. Ik ben blij dat je met mij het
de Erasmus School of Economics wil ik bedanken voor de manier waarop ik
experiment bent aangegaan. Jouw impact kun je misschien moeilijk meten
ben ontvangen: professioneel en warm. Ik loop hier nog niet zo lang rond
maar ik voel het elke dag. Ik vind je de liefste vrouw.
maar het bevalt uitstekend. De voortvarende wijze waarop Philip Hans Franses mij benaderde heeft op mij grote indruk gemaakt. Ik ben er trots op dat ik bij deze professionele organisatie mag horen en verheug me op de komende jaren. Hooggeleerden Oosterbeek en Visscher, beste Hessel en Peter Om stappen vooruit te kunnen maken in het leven moet je het geluk hebben dat je speciale mensen tegenkomt die je helpen, adviseren en uitdagen. Ik heb veel van jullie geleerd en het helpt als iemand tegen je zegt ‘you are the worst collaborator I have ever had’. Ik prijs me gelukkig dat ik jullie ben tegengekomen. Hooggewaardeerde co-auteurs en promovendi De afgelopen jaren heb ik met veel mensen artikelen kunnen schrijven. Zonder anderen tekort te doen wil ik Marc van der Steeg, Roel van Elk en Pierre Koning met name noemen. Ik heb veel plezier beleefd aan de samenwerking in de afgelopen jaren en wil die graag voortzetten. Ik ben ook erg blij met promotieplannen van Marc, Roel, Sander Gerritsen en Ted Reininga, en die van mijn ECSP-collega’s Frank Hubers en Job Harms. Ik verheug me zeer op al ons nieuw onderzoek. Lieve ouders Ik beschouw het als een voorrecht dat jullie hier vanmiddag zijn. Jullie zijn er altijd voor mij geweest en hebben me altijd gesteund. Toen ik studeerde kreeg ik altijd een pakketje mee met kaas, worst en een pak koffie. Als ik nu weer zou gaan studeren zouden jullie precies hetzelfde doen. Jullie zijn voor mij een voorbeeld en daar ben ik jullie heel dankbaar voor.
Ik heb gezegd.
29 VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
Lieve Sofie en Sanne
PROF.DR. H.D. WEBBINK
28
Collega’s van CPB, TIER, Erasmus School of Economics
Referenties
Dearden, L., C. Emmerson, C. Frayne and C. Meghir, 2009, Conditional Cash Transfers and School Dropout Rates, Journal of Human Resources. Deaton, Angus. 2010. Instruments, Randomization, and Learning about
Tax Credit, Quarterly Journal of Economics, 111(2), 605-37. Angrist, J.D and J Pischke, 2010, The credibility revolution in empirical
Hanushek, E.A., 1986, ‘The economics of schooling: production and efficiency
economics: How better research design is taking the con of out econometrics,
in public schools’, Journal of Economic Literature, vol. 24 (3) (September), pp.
Journal of Economic Perspectives, 24 (2), 3-30.
1141–77.
Antenbrink, P., K. Burger, M. Cornet, M. Rensman en D. Webbink, 2005,
Hanushek, E.A., 2003, The failure of input-based schooling policies, The
Nederlands onderwijs en onderzoek in internationaal perspectief, CPB
Economic Journal, 113 (February), F64–F98.
Document 88. Hanushek, E.A. and L. Woessmann, 2010, The Economics of International Beerends, H., and S. van der Ploeg, 2001, “Onderzoek vergoeding school-
Differences in Educational Achievement, NBER Working Paper 15949, 2010.
specifieke knelpunten,” Regioplan, Report OA-230. Heckman, James J.. 2010. “Building Bridges between Structural and Program Berger, J.H.J. en Broek, 2010, Aanmeldingsgolf door crisis?, Analyse van
Evaluation Approaches to Evaluating Policy.” Journal of Economic Literature,
studentenaantallen en studiemotieven 2009-2010, Research voor Beleid.
48(2): 356–98.
Black, D.A., McKinnish, T.G., Sanders S.G., 2005, Tight labor markets and the
Holland, P, 1986, Statistics and causal inference (with discussion and
demand for education: Evidence from the Coal Boom and Bust, Industrial and
rejoinder). Journal of the American Statistical Association, 81, 945–970.
labor relations review, 59 (1), 3-16.
Imbens, Guido W., 2010. “Better LATE Than Nothing: Some Comments on Deaton (2009) and Heckman and Urzua (2009).” Journal of Economic
Card, D., 1990, The Impact of the Mariel boatlift on the Miami Labor Market,
Literature, 48(2): 399–423.
Industrial and Labor Relations Review, 43(2): 245-257. Jin, G., & Leslie, P., 2003, The effect of information on product quality: Chorny, V. and D. Webbink, 2010, The effect of accountability policies in
Evidence from restaurant hygiene grade cards, Quarterly Journal of
primary education in Amsterdam, CPB Discussion paper no. 144.
Economics, 118(2), 409-51.
Cook, T. D., 2008, Waiting for Life to Arrive: A History of the Regression-
Lalonde, 1986, Evaluating the econometric evaluations of training programs
Discontinuity Design in Psychology, Statistics and Economics, Journal of
with experimental data, American Economic Review, 604-620.
Econometrics 142, 636–654. Leuven, E., M. Lindahl, H. Oosterbeek and D. Webbink, 2007, The effect of extra Cullen, J.B., B.A. Jacob and S. Levitt, 2006, The effect of school choice on
funding for disadvantaged students on achievement, Review of Economics
participants: evidence from randomized lotteries, Econometrica, 74, 1191-
and Statistics, 89 (4), 721-736.
1230.
31 VAN EVIDENTIE NAAR IMPACT
VAN EVIDENTIE NAAR IMPACT
30
Eissa, N. and Liebman, J., 1996, Labor Supply Response to the Earned Income
PROF.DR. H.D. WEBBINK
PROF.DR. H.D. WEBBINK
Development, Journal of Economic Literature, 48(2): 424–55.
Leuven, E., Oosterbeek, H. & De Wolf, I., 2009, The effects of health education on health outcomes: Evidence from a natural randomized experiment, in mimeo. Luginbuhl, R., D. Webbink and I. De Wolf, 2009, Do inspections improve
PROF.DR. H.D. WEBBINK
primary school performance? Educational Evaluation and Policy Analysis,
VAN EVIDENTIE NAAR IMPACT
32
31 (3), 221-237. Meyer, Viscusi, Durbin, 1995, Workers’ Compensation and Injury Duration : Evidence from a Natural Experiment, American Economic Review, vol 85(3), 322 - 40. Oosterbeek, H. and D. Webbink, 2010, Does studying abroad induce a brain drain? Economica, forthcoming. Rivkin, S.G., 1995, Black/White differences in Schooling and Employment, Journal of Human Resources, 30 (4), 826-852. Rubin, D. B., 1974, Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66, 688–701. Rubin, D. B., 1977, Assignment to treatment group on the basis of a covariate. Journal of . Educational Statistics, 2, 1–26. Steeg, M.W.van der, R. van Elk en D. Webbink, 2010, Het effect van de lerarenbeurs op scholingsdeelname docenten, CPB Document no. 205. Steeg, M.W.van der, R. van Elk en D. Webbink, 2008, Did the 2006 covenant program reduce school dropout in the Netherlands? CPB Document no. 177. Vrieze, G., R. Kloosterman en N. van Kessel, 2001, Vroege Vogels, Onderzoek naar de gevolgen van het ‘s ochtends kranten bezorgen voor de schoolprestaties en schoolbeleving van 15-jarige ochtendkrantbezorgers, ITS Nijmegen.