Zicht op Effectiviteit van Beleid CPB Achtergronddocument Studie naar evaluatieontwerpen voor onderwijs- en wetenschapsmaatregelen
Juni 2011
Roel van Elk (CPB) Frans-Bauke van der Meer (Erasmus Universiteit Rotterdam) Marc van der Steeg (CPB) Dinand Webbink (Erasmus Universiteit Rotterdam, CPB)
1
1
Introductie
Het ministerie van Onderwijs, Cultuur en Wetenschappen (OCW) wil de kennis over de effectiviteit van beleid verbreden. Dit levert noodzakelijke informatie om de kwaliteit van beleid te verbeteren en kan ook van belang zijn voor de keuzes van politieke partijen op het terrein van onderwijs in hun verkiezingsprogramma‟s. Kennis over de effectiviteit van beleid kan ook bijdragen aan bredere discussies met andere departementen. Voor een groot aantal nieuwe beleidsinterventies/instrumenten is nauwelijks kennis beschikbaar over de effectiviteit. De internationale literatuur levert weinig inzicht over de effecten van deze instrumenten. Deze kennis zal daarom verkregen moeten worden door het evalueren van de ervaringen binnen het Nederlands onderwijs. Veel beleid in Nederland wordt achteraf geëvalueerd. Vaak is het dan lastig om een geloofwaardige controlegroep te vinden omdat de nieuwe beleidsinstrumenten meestal niet worden toegepast bij aselect gekozen groepen, maar bij specifieke groepen die zichzelf hebben aangemeld of al actief waren met het voorgenomen beleid. Ook is het dan soms lastig om de begincondities te meten. Om beleid goed te kunnen evalueren is het daarom belangrijk om al direct bij de beleidsontwikkeling na te denken over het evaluatieontwerp, en de beleidsontwikkeling en het evaluatieontwerp op elkaar te laten aansluiten. De evaluatie is bedoeld om te leren over de effecten van het beleid en dient informatie op te leveren voor toekomstige beleidsbeslissingen. In die zin is de evaluatie onderdeel van de beleidsontwikkeling. Tegen deze achtergrond heeft het ministerie van OCW gevraagd om een onderzoek waarin evaluatieontwerpen worden ontwikkeld voor negen (clusters van) nieuwe beleidsinterventies. Het onderzoek diende zich te richten op twee centrale vragen:
De beschikbare wetenschappelijke kennis over de effectiviteit van de geselecteerde interventies zo volledig mogelijk te verzamelen. Deze kennis dient te voldoen aan de wetenschappelijke eisen die gesteld worden aan goed evaluatieonderzoek. Per interventie/beleid een onderzoeksontwerp te maken dat zicht biedt op een robuuste evaluatie naar (1) enerzijds effecten en (2) anderzijds de achterliggende mechanismen. Het beschikbare wetenschappelijk onderzoek voor deze interventies biedt hiervoor mogelijk ook aanknopingspunten. De resultaten van dit onderzoek zullen in een later stadium gebruikt kunnen worden voor de daadwerkelijke evaluaties van het nieuwe beleid. Dit rapport doet verslag van de resultaten van het onderzoek.
2
2
Aanpak Door het ministerie van OCW is een lijst met beleidsinterventies opgesteld waaruit uiteindelijk negen (clusters van) interventies zijn geselecteerd. Voor elk van deze negen interventies zijn de twee centrale onderzoeksvragen onderzocht. Onderzoeksvraag 1. Per geselecteerde interventie is de wetenschappelijke kennis verzameld en samengevat. Daarbij is voortgebouwd op het materiaal dat door het CPB is verzameld voor de analyse van onderwijsvoorstellen van de politieke partijen bij de meest recente verkiezingen (CPB, 2010). Voor de selectie van de literatuur worden methodologische criteria gebruikt. Vooral studies die gebruik maken van geloofwaardige controlegroepen zijn geselecteerd. De geloofwaardigheid van een controlegroep hangt af van de mate waarin selectie op grond van niet geobserveerde kenmerken een rol kan spelen. In studies waarin controlegroepen door toeval zijn ontstaan, bijvoorbeeld gecontroleerde experimenten of natuurlijke experimenten op grond van regressiediscontinuïteiten, mag verwacht worden dat deze verstorende factoren niet belangrijk zijn. Onderzoeksvraag 2. Onderzoeksvraag 2 richt zich op het ontwikkelen van evaluatieontwerpen voor de geselecteerde nieuwe interventies. Bij het uitwerken van de evaluatieontwerpen is zoveel mogelijk aangesloten op de beleidsontwikkeling. Daarbij is de medewerking van de betrokken beleidsdirecties gevraagd. Het vertrekpunt bij het onderzoek naar onderzoeksvraag 2 is de reguliere beleidsontwikkeling. Met elk van de betrokken beleidsdirectie is bij de start van het onderzoek gesproken over de volgende zaken: Wat is precies de beleidsinterventie? Wat zijn de belangrijkste doelen en hoe kunnen die worden gemeten? Wat zijn de voornemens voor de beleidsontwikkeling rond deze interventies, of hoe is dit in het verleden bij soortgelijke instrumenten aangepakt? Zijn er al plannen voor „pilots‟ of andere beleidsverkenningen? Hoe groot is de beleidsruimte voor aanpassingen binnen de beleidsvoornemens? Vervolgens is door de onderzoekers, uitgaande van de voornemens voor beleidsontwikkeling, het meest kansrijke evaluatieontwerp opgesteld en zijn soms voorstellen voor aanpassingen in de beleidsinterventie ontwikkeld. De aanpassingen waren erop gericht om het mogelijk te maken de effecten van het beleid op een geloofwaardige manier vast te stellen. Deze voorstellen zijn vervolgens met de betrokken beleidsdirecties besproken en de meest kansrijke zijn in het eindrapport opgenomen.
3
Verklarende evaluatie en effectevaluatie Op verzoek van het ministerie zijn voor alle interventies zowel ontwerpen gemaakt voor een verklarende evaluatie als voor een effect evaluatie. De verklarende evaluatie richt zich op de factoren die het succes of het ontbreken van het succes van de interventie bepalen (zie bijlage voor een nadere toelichting op de verklarende evaluatie). Anders gezegd, wat gebeurt er precies binnen scholen als gevolg van de interventie. Wat is „The Theory of Change‟ en welke intermediaire uitkomsten bieden hiervoor inzicht? De ontwerpen voor de effectevaluatie richten zich op het zo overtuigend mogelijk vaststellen van de effecten van de nieuwe beleidsinterventies. Begeleiding en uitvoering van het onderzoek Alle betrokken beleidsdirecties hebben meegewerkt bij de uitvoering van het onderzoek waarbij de directie Kennis heeft gezorgd voor de coördinatie. Door het ministerie is een externe begeleidingscommissie ingesteld bestaande uit: dhr. A.de Jong (voorzitter), dhr. L. Borghans, dhr. P. Leseman, dhr. R. Bosker, dhr. S. Karsten, dhr. B. van der Meulen en dhr. K. van Eijck. Daarnaast is door het ministerie een interne begeleidingscommissie ingesteld. Voor de verklarende evaluatie zijn oriënterende gesprekken gevoerd met: Dhr. J.W. Bos, voorzitter College van Bestuur Rijnstreek Dhr. R. Dekker, NWO Mw. L. Jillisen, Erasmus Universiteit Rotterdam Dhr. R. Lammers, Personeelsadviseur SKPO Eindhoven e.o Mw. Y. Moerman, Koning Willem I College ‟s-Hertogenbosch Dhr J. Nagtzaam, Erasmus Universiteit Rotterdam De ontwerpen voor de verklarende evaluatie zijn opgesteld door dr. Frans-Bauke van der Meer. De ontwerpen voor de effectevaluatie alsmede de weergave van de wetenschappelijke evidentie zijn opgesteld door drs. Roel van Elk, drs. Marc van der Steeg en prof. dr. Dinand Webbink. Opzet van het rapport Hieronder worden per interventie de resultaten van het onderzoek gegevens. Daarbij is steeds dezelfde opbouw gebruikt. Allereerst wordt een beschrijving gegeven van de interventie. Deze beschrijving is gebaseerd op bijdragen van de betrokken beleidsdirectie van het ministerie. Vervolgens wordt de wetenschappelijke kennis samengevat. Daarna worden de ontwerpen voor de verklarende evaluatie en voor de effectevaluatie gegeven.
4
3
Langstudeerders
3.1
De beleidsinterventie In het regeerakkoord is aangekondigd dat om het studierendement te verhogen van langstudeerders een hoger collegegeld zal worden gevraagd. Het collegegeld voor studenten, die langer dan 1 jaar uitlopen in hun studie wordt verhoogd met € 3000,-. De verhoging van de collegegelden voor de langstudeerders en een aanvullende efficiencykorting zal in mindering wordt gebracht op het instellingsbudget. Per saldo gaat het om een bezuiniging van 370 miljoen per jaar via studenten en instellingen. Dit wordt vertaald in: Studenten krijgen een jaar uitloop na bachelor én master. Een student die zijn bachelor en zijn master doet krijgt de nominale studieduur en in totaal twee jaar extra de tijd om te studeren tegen het lage collegegeld. Doet hij er langer over, dan betaalt hij bij het huidige tarief 4713 euro collegegeld (het wettelijk collegegeld van 1713 euro plus 3000 euro opslag). De langstudeerder heeft dan nog wel recht op het collegegeldkrediet (op dit moment maximaal 8565 euro), dat ruim voldoende is om de verhoging van het collegegeld op te vangen. Studenten met een functiebeperking die recht hebben op een extra jaar prestatiebeurs, krijgen daarbovenop een extra uitloopjaar. Zij hebben dus een uitloop van maximaal drie jaar. Voor studenten die voor een tweede studie in de gezondheidszorg of het onderwijs kiezen en daarvoor het wettelijk collegegeld verschuldigd zijn, geldt dat de teller bij aanvang van deze studie weer op nul staat. Zij krijgen dus een uitloopjaar voor de bachelor én voor de master. Wat zijn de belangrijkste doelen? Hoe kunnen die worden gemeten? Het wetsvoorstel houdt rechtstreeks verband met de huidige financiële situatie van het land. De regering treft ingrijpende maatregelen om de overheidsfinanciën op orde te brengen. Deze raken ook de studenten en de instellingen. Studenten die te lang studeren leggen een groot beslag op de publieke middelen en dit rechtvaardigt een hogere bijdrage van langstudeerders. Met een hogere bijdrage worden studenten gestimuleerd het studietempo en studierendement te verhogen. Tevens zal het terugdringen van het aantal langstudeerders de doelmatigheid van het hoger onderwijs ten goede komen. Samengevat gaat het om de volgende doelen: -
terugdringen aantal langstudeerders moet studierendement verhogen. Voor het berekenen van het studierendement wordt de definitie gehanteerd die DUO gebruikt, obv 1-cijfer HO.
-
terugdringen aantal langstudeerders moet de doelmatigheid instellingen verbeteren.
5
Wat zijn de voornemens voor de beleidsontwikkeling rond deze interventie? Wat is het tijdpad? Wordt de interventie getest, en hoe gebeurt dit dan? Hoe werd dit in het verleden aangepakt met een soortgelijk interventie? De collegegeldverhoging voor langstudeerders moet ingaan per 1 september 2012 en dit betekent dat het onderhavige wetsvoorstel, waar dit onderdeel van deze maatregel uit het regeerakkoord wordt uitgewerkt, ruim voor het studiejaar 2011-2012 kracht van wet moet krijgen. Omdat voor het wetgevingstraject een spoedprocedure vereist is, kan de reguliere planning voor een wetswijziging niet worden gevolgd. De interventie wordt dus niet getest en gaat gelijk voor alle zittende studenten in. Collegegeldverhoging gaan altijd per direct in, alleen waren deze voorheen veel lager (inflatie of hooguit € 50 erbij). Bestaat er beleidsruimte in deze fase van de beleidsontwikkeling? Heel weinig. 3.2
Wat leert de literatuur? De maatregel gericht op „de langstudeerders‟ betekent een verhoging van de prijs van hoger onderwijs voor studenten die „lang‟ studeren. Deze prijsverhoging kan studenten stimuleren om sneller te studeren, maar kan ook van invloed zijn het studiekeuzegedrag, bijvoorbeeld de beslissing om al of niet te gaan studeren, om te zwaaien of welke opleiding te volgen. De meeste studies in de literatuur richten zich op de invloed van de prijs van studeren op de beslissing om in te stromen. Het aantal studies dat zich richt op het studeergedrag en andere studiebeslissingen, is beperkt. Ook zijn recent enkele studies verschenen over leenaversie. Prijsgevoeligheid en leenaversie Hogere private bijdragen aan hoger onderwijs, hetzij door een verhoging van de collegegelden, hetzij door veranderingen in de studiefinanciering, komen neer op een hogere prijs voor studeren. Net als bij veel andere goederen zal een hogere prijs leiden tot een daling van de vraag. Een belangrijke vraag is dan in welke mate studenten gevoelig zijn voor veranderingen in de prijs van het hoger onderwijs, en of er verschillen zijn tussen studenten met een bepaalde sociaal-economische achtergrond. De meeste empirische studies hebben betrekking op prijsveranderingen in de Verenigde Staten. In enkele studies is gevonden dat een verlaging (verhoging) van de collegegelden met 1000 dollar leidt tot 3 tot 4 procentpunt meer (minder) deelname aan hoger onderwijs (Dynarski, 2003, zie overzicht in Kane, 2003). Een belangrijke kanttekening bij bovenstaande schattingen voor de VS is dat het hier steeds gaat om de effecten van het al of niet aanbieden van studiebeurzen, en niet om het aanbieden van leningen in plaats van beurzen. Daardoor zijn deze studies waarschijnlijk minder relevant voor de Nederlandse context. 6
Nederlandse studies naar prijsgevoeligheid van de deelname aan hoger onderwijs vinden dat de totale instroom in het hoger onderwijs nauwelijks verandert bij prijsverhogingen1. Ook de ontwikkelingen in de jaren negentig duiden op een geringe prijsgevoeligheid. In deze periode zijn de private bijdragen aan hoger onderwijs substantieel toegenomen: de collegegelden zijn verhoogd en het recht op studiefinanciering is beperkt van 6 jaar naar 4 jaar. De beperking van het recht op studiefinanciering betekent een aanzienlijke verhoging van de private bijdragen en heeft betrekking op de eindfase van de opleiding. Ondanks deze prijsverhogingen is de deelname aan hoger onderwijs in deze jaren gestegen. In Australië is in 1989 een sociaal leenstelsel geïntroduceerd in de vorm van het zogenoemde Higher Education Contribution Scheme (HECS). Voor de introductie van het HECS kende Australië geen private bijdragen aan hoger onderwijs. Door de introductie steeg de private bijdrage in de gemiddelde kosten van hoger onderwijsprogramma‟s naar 23%. Verschillende evaluaties laten zien dat de trendmatige ontwikkeling van de deelname aan het hoger onderwijs in Australië niet is veranderd na de introductie van het HECS (Barr, 2004). In het Verenigd Koninkrijk hebben universiteiten recent de mogelijkheid gekregen om de collegegelden te vragen van maximaal 3000 pond. Daarnaast zijn de leenmogelijkheden voor studenten verhoogd. Na de daaropvolgende prijsverhogingen is de deelname aan hoger onderwijs in het Verenigd Koninkrijk niet gedaald (OECD, 2009). Deze aanpassingen gingen gepaard met flankerend beleid voor lagere inkomensgroepen. In Canada zijn in het begin van de jaren negentig de collegegelden verhoogd zonder verruiming van de leenmogelijkheden. Dit leidde tot een daling van de deelname en een grotere samenhang tussen het inkomen van de ouders en de kans op deelname. Na een verruiming van de leenmogelijkheden in het midden van de jaren negentig nam de deelname toe en werd de samenhang tussen het ouderlijk inkomen en de kans op deelname kleiner (Barr, 2004). Een hogere prijs kan leiden tot minder deelname vanwege de financiële kosten, maar ook vanwege „psychologische kosten‟ verbonden aan het hebben van een schuld (zie bijv. Loewenstein en Thaler, 1989). Deze psychologische kosten kunnen tot uitdrukking komen in leenaversie en daarmee een belemmering vormen voor deelname aan het onderwijs. De literatuur geeft enkele aanwijzingen voor het bestaan van leenaversie, maar de kennis over de effecten van leenaversie is nog beperkt (zie bijvoorbeeld Field, 2009, Oosterbeek en Van den Broek, 2009). De meeste studies in de literatuur maken geen onderscheid tussen financiële en psychologische kosten van hoger onderwijs en onderzoeken het totale effect van veranderingen in de prijs op de deelname aan hoger onderwijs. De empirische literatuur laat zien dat de zogenoemde prijselasticiteit van studeren klein is, maar niet nul hoeft te zijn. Naar verwachting zal een verhoging van private bijdragen in Nederland tot enige daling van de deelname aan hoger onderwijs kunnen leiden. De vraag is dan welke studenten niet meer instromen. De economische theorie geeft twee mogelijke effecten voor de invloed van de veranderingen in de hoogte van het collegegeld op het studiesucces. Dit effect hangt af van de groep 1
Voor een overzicht van de literatuur zie CPB (2002), De Pijlers onder de Kenniseconomie, opties voor institutionele vernieuwing, Den Haag, p. 98. of Jacobs (2002), op cit. 7
die wordt beïnvloed door de verandering. Allereerst kunnen hogere collegegelden ertoe leiden dat studenten met relatief lage verwachtingen over hun slaagkansen in het hoger onderwijs en waarschijnlijk ook een relatief lage geschiktheid besluiten om niet meer deel te nemen. Dit kan leiden tot een lagere studie-uitval. Als echter de hogere collegegelden leiden tot financiële obstakels voor de financiering van een studie, vanwege gebrek aan leenmogelijkheden, is het mogelijk dat getalenteerde studenten met een lagere sociaal-economische achtergrond niet meer zullen gaan studeren. Dit zal dan leiden tot een mogelijk grotere studie-uitval. Enkele studies voor de VS (Dynarski,2003, Bettinger, 2004, Dynarski, 2005) vinden dat het toekennen van beurzen leidt tot meer deelname en succes in het hoger onderwijs. Dit zou dan in lijn kunnen zijn met het tweede hierboven genoemde effect. In de Nederlandse situatie waarin alle studenten een lening kunnen krijgen, is het niet waarschijnlijk dat juist de getalenteerde studenten niet meer zullen deelnemen omdat zij hoge verwachtingen mogen hebben over de opbrengsten van studeren. Voor Nederland vinden Belot et al. (2007) dat hogere private bijdragen als gevolg van de invoering van de prestatiebeurs geleid hebben tot minder omzwaaien en betere studieprestaties. In een recent studie voor Italië is ook gevonden dat hogere collegegelden (in het vierde jaar van de studie) leiden tot sneller afstuderen (Garibaldi et al, 2007). Een belangrijke vraag is ook in hoeverre het verhogen van private bijdragen gekoppeld aan het verruimen van de leenmogelijkheden tot sterkere effecten zal leiden bij studenten met een lagere sociaal-economische achtergrond. Verschillende studies vinden inderdaad dat prijsverhogingen een groter effect hebben voor studenten met een lagere sociaal-economische achtergrond (voor een overzicht, zie Usher, 2006 of OECD, 2008). Echter, deze bevindingen zijn niet bevestigd in enkele andere studies (Kane, 2003, Dynarski, 2000, Stanley, 2000). Ook blijkt de introductie van een sociaal leenstelsel in Australië de deelname aan hoger onderwijs niet te hebben ontmoedigd voor studenten uit lagere inkomensgroepen (Barr, 2004). 3.3
Ontwerp verklarende evaluatie Inzicht in de feitelijke werking van het beleid is van belang omdat op basis daarvan kan worden bijgestuurd en effectiever kan worden gereageerd op het uitblijven van beoogde effecten of het optreden van onbedoeld/ongewenste effecten. Het gaat daarbij om de vraag hoe de langstudeerdersmaatregel tot gedragsverandering bij (potentiële) studenten en instellingen leidt en van welke andere factoren (ander beleid, maatschappelijke ontwikkelingen, arbeidsmarkt) die gedragsverandering afhankelijk is. Op basis van een analyse van de voorgenomen interventies, de toelichting daarop vanuit de beleidsdirectie en enkele gesprekken met functionarissen van een universiteit kan een aantal mogelijke mechanismen worden geïdentificeerd waarvan in de evaluatie zou moeten worden nagegaan in hoeverre ze daadwerkelijk optreden. Het is verstandig om voorafgaand aan de uitvoering van de verklarende evaluatie nog meer systematisch in kaart te brengen wat verschillende categorieën betrokkenen als mogelijke mechanismen zien, zodat het feitelijk optreden van de meest genoemde mechanismen kan worden 8
onderzocht. Gerichte interviews liggen hierbij voor de hand. Vervolgens kan worden nagegaan of er uit eerder onderzoek evidentie is die het optreden van de voorgenomen of verwacht gedragsreacties meer of minder waarschijnlijk maakt. Ook kunnen die gedragsreacties (deels) al worden waargenomen vlak voor of na het van kracht worden van de maatregel, maar voor dat de uiteindelijk beoogde effecten in termen van rendement en besparing kunnen worden gemeten. Studiekeuze Om te beginnen ligt aan het beleid de veronderstelling ten grondslag dat de keuze voor een opleiding wordt beïnvloed door de kosten en de financiële risico‟s voor de student. De collegegeldverhoging voor langstudeerders verhoogt die financiële risico‟s zodanig dat relatief zwakke potentiële studenten vaker een lagere opleiding zullen kiezen (of van vervolgonderwijs zullen afzien). Anderen veronderstellen dat de langstudeerdersmaatregel geen invloed op studiekeuze zal hebben, omdat „studenten aan de voorkant altijd optimistisch zijn‟. Eerder onderzoek (zie par. 3.2) suggereert dat het effect van een (mogelijke) prijsverhoging (als de studie uitloopt) niet erg hoog zal zijn. Over de validiteit van deze veronderstellingen en de sterkte van het effect bij het in concreto voorgenomen beleid kan ex ante in kwalitatieve zin iets worden gezegd door in een aselecte steekproef van leerlingen van de hoogste klassen van het VWO en/of hun ouders in interviews2 te vragen of zij een vervolgstudie overwegen en waarom. Ook kan bij aspirant studenten die reeds een keuze hebben gemaakt, worden nagegaan wat hun overwegingen daarbij zijn. Door de interviews niet in het teken van de langstudeerdersmaatregel, maar in het kader van onderzoek naar studiekeuze te presenteren en door met open vragen over de studiekeuze en overwegingen daarbij te vragen, kan om te beginnen blijken of (verwachte) kosten daarbij een rol spelen. Als kosten niet spontaan worden genoemd, kan daar later in het interview nog expliciet naar worden gevraagd. Daaraan voorafgaand zijn specifieke vragen over redenen voor de keuze voor HBO of WO en voor een specifieke studie (α of β? technisch? privaat rendement?) zinvol. Worden hierbij (verwachte) kosten en/of risico op studievertraging als overweging genoemd? Aan een steekproef van huidige 1e-jaarsstudenten kan worden gevraagd hoe zij inmiddels tegen hun studiekeuze aankijken. Als daarbij twijfels naar voren komen, is de vraag van belang waar die vandaan komen. Worden kosten of vertragingsrisico‟s daarbij genoemd? Ook aan studenten die recent van studie zijn veranderd, kunnen dergelijke vragen worden gesteld. Erg betrouwbaar en valide zullen de uitkomsten van dergelijke onderzoeken niet zijn, maar het kan niettemin een indicatie geven van de mate waarin de beleidsinterventies meespelen in de besluitvorming aan de voorkant van de studie. Bovendien zal de betrouwbaarheid en validiteit ongetwijfeld groter zijn dan wanneer een dergelijk onderzoek bijv. een jaar na invoering van de maatregel(en) zou worden gedaan, omdat het dan gaat om keuzes door mensen die niet of nauwelijks in een andere setting over hun keuze hebben nagedacht. Voor een verklaring van verschuivingen in keuzegedrag en het inschatten van de mate waarin dat aan de beleidsinterventie kan worden toegeschreven, is dergelijk inzicht nuttig. 2
Omdat het bij verklarende evaluatie gaat om het achterhalen van de mechanismen zal vaak – naast gegevens uit de studentenmonitor en eventuele andere enquêtes gebruik moeten worden gemaakt van interviews om de motieven, overwegingen en afwegingen te achterhalen die een rol spelen. 9
Reactie op vertraging Het voorgenomen beleid veronderstelt ook dat studenten door de maatregel harder zullen studeren, zeker als zij al substantiële vertraging hebben opgelopen en het einde van de nominale studieduur naderen of al zijn overschreden. Tevens wordt verondersteld dat harder studeren tot een beter studieresultaat leidt. Die laatste veronderstelling wordt door veel onderzoek ondersteund: time on task is een belangrijke determinant van studiesucces. Niettemin zou van belang zijn om ex post na te gaan of er voor vertragende en vertraagde studenten een verband bestaat tussen aan de studie bestede tijd en studieresultaten. Dat kan wellicht op basis van gegevens uit de studentenmonitor. Als er weinig verband blijkt te zijn, terwijl het rendement wel toeneemt, moeten er andere verklaringen zijn. De veronderstelling dat de interventie sterker werkt naarmate de opgelopen vertraging groter is en/of het punt c+1 dichter benaderd (of meer overschreden) wordt (althans tot een zeker sociaal of psychologisch maximum), kan ook reeds ex ante worden onderzocht. Nagegaan zou moeten worden of studenten meer tijd aan hun studie besteden (en/of meer begeleiding zoeken) naarmate hun vertraging groter en/of de deadline meer nabij (of meer overschreden) is en waarom wel of niet. Door in interviews aan een steekproeven van studenten met een verschillende mate van vertraging/resterende tijd open vragen hieromtrent te stellen kan blijken of de aangekondigde financiële interventies daarbij, althans op belevingsniveau, een rol spelen. Specifiek interessant in dit verband lijkt de groep huidige studenten die zozeer zijn vertraagd dat het hogere collegegeld alleen nog met veel extra inspanning, of zelfs in het geheel niet meer kan worden voorkomen. In deze groep kan het effect van de prikkel en de verhouding/wisselwerking met andere mechanismen en motieven wellicht in zijn meest pure vorm worden vastgesteld. Andere gedragsverandering studenten Andere mogelijke gedragsveranderingen die genoemd worden, zijn dat studenten zich minder met nevenactiviteiten zullen bezighouden, meer thuis zullen blijven wonen, minder mobiliteit tussen instelling zullen vertonen en minder vaak een periode naar een buitenlandse instelling zullen gaan (gegevens Studentenmonitor). Op deze punten zou op korte termijn een nulmeting moeten worden gehouden om deze gegevens voor de huidige situatie in beeld te brengen. Daarbij zou een steekproef van studenten in interviews naar hun overwegingen m.b.t. wonen, nevenactiviteiten, mobiliteit en buitenland wordt gevraagd. Een jaar na het van kracht worden van de maatregel zou dit kunnen worden herhaald, waarbij voor de huidige studenten ook in interviews opnieuw de motieven voor hun keuzes en eventuele gedragsverandering kan worden ingegaan. Daarnaast wordt mogelijk ontwijkgedrag gesignaleerd. Studenten zouden zich bijvoorbeeld kunnen gaan uitschrijven als zij de vakken hebben afgerond, maar nog een scriptie moeten schrijven. Als de scriptie af is, schrijven ze zich weer in …. Ook zou er meer beroep op „persoonlijke omstandigheden‟ kunnen worden gedaan, of meer gevraagd worden om specifieke ondersteuning door de instelling. Op dergelijke punten lijkt een nulmeting op korte termijn gewenst, al is het daar eigenlijk al te laat voor omdat studenten wellicht al op het nieuwe beleid anticiperen. Neemt dergelijk handelen het komende 10
jaar toe (observatie, gegevens studentenadministraties, studentendecanen, examencommissies)? Welke motieven/oorzaken geven studenten (en instellingen) daarvoor aan (interviews)? Studiefinanciering De meeste van de hiervoor besproken mogelijke gedragsreacties kunnen ook worden beïnvloed (versterkt) door de vrijwel gelijktijdige verandering van de studiefinanciering in de masterfase. Het relatieve gewicht van de ene en de andere maatregel kan enigszins in beeld worden gebracht in ex ante evaluaties waarin met een open vraag wordt gevraagd naar motieven voor studiekeuze, studiegedrag en het (niet of niet meer) kiezen voor bepaalde nevenactiviteiten e.d. In welke mate wordt de studielening die voor de masterfase moet worden aangegaan daarbij genoemd? Ex post kan bij voortijdige studiebeëindiging (blijkt uit gegevens van de instellingen dat dat toeneemt?) naar de motieven daarvoor worden gevraagd. Gedragsreacties instellingen Veel instellingen en opleidingen hebben de afgelopen jaren veel geïnvesteerd in rendementsverhogende maatregelen. Een belangrijke vraag lijkt wat zij nog meer kunnen doen. Daarnaast is de vraag of het beleid m.b.t. langstudeerders hen daartoe stimuleert, of juist afremt. En welke neveneffecten treden er voor instellingen op en tot welke gedragsreacties geven die aanleiding? Om te beginnen kan nu reeds worden nagegaan welke soorten verandering in curricula en studiebegeleiding in de afgelopen jaren zijn doorgevoerd en met welke rendementseffecten. Op basis van de ervaringen tot nu toe kan betrokkenen in interviews voorts een inschatting worden gevraagd van verdere mogelijkheden de studeerbaarheid te vergroten en een oordeel over de aard (verschoolsing?, kwaliteit, toetsing) van de programma‟s die daarvoor nodig zouden zijn. Daarnaast zou instellingen, opleidingsdirecteuren en docenten in de interviews kunnen worden gevraagd of zij verdere maatregelen tot rendementsverbetering nastreven (en zo ja, welke) en waarom wel of niet. Zeker nu de korting op het budget die instellingen tegemoet kunnen zien, niet meer gekoppeld is aan het aantal langstudeerders, is de vraag interessant welke andere motieven instellingen hebben voor rendementsverhogende maatregelen (financiële overwegingen, capaciteitsoverwegingen, marketing, studentenbelangen, anticipatie op toekomstig beleid). Ex post kan worden nagegaan welke rendementsverhogende maatregelen instellingen sinds de invoering van het nieuwe beleid hebben genomen en waarom. In dit verband kan ook de reactie van de minister op de feitelijke ontwikkeling van de rendementen een rol gaan spelen. Als de rendementen zouden stijgen, neemt de opbrengst van de collegegelden af. Er wordt dan naar rato meer op het budget van de instellingen bezuinigd. Dan zou een pervers effect op kunnen treden omdat instellingen een financieel belang bij veel langstudeerders kunnen krijgen. Of maken instellingen dan toch andere afwegingen? Ten slotte is van belang wat de maatregel administratief voor de instelling gaat betekenen. Met name de vraag hoe de feitelijke studieduur moet worden vastgesteld en hoe kan en zal worden omgegaan met eventueel ontwijkgedrag van studenten, is in dit verband van belang. Naast ex ante inschattingen 11
is op dit punt ex post evaluatie gewenst. Daarvoor is een nulmeting op korte termijn, bijv. m.b.t. huidig ontwijkgedrag, nodig. 3.4
Ontwerp effectevaluatie Het voornemen is om dit nieuwe beleid in te voeren per 1 september 2011 voor alle studenten in het hoger onderwijs. Het beleid zal niet vooraf worden getest door pilots of experimenten. Dit betekent dat vanaf 1 september alle studenten in het hoger onderwijs te maken hebben met het nieuwe beleid. Er zijn dus geen groepen nieuwe studenten die niet te maken hebben met het beleid en die als controlegroep zouden kunnen worden gebruikt. Voor de evaluatie van de effecten van het beleid zijn er verschillende mogelijkheden. 1. Een vergelijking voor en na de invoering van het nieuwe beleid De meest voor de hand liggende evaluatieopzet is het vergelijken van het gedrag van eindexamenkandidaten en studenten voor en na de invoering van het nieuwe beleid. Dit geeft een schatting van het effect van het beleid. Een belangrijk probleem is echter dat er nog veel meer zaken kunnen zijn veranderd voor en na de invoering van het beleid. Het is bijvoorbeeld mogelijk dat er nog meer nieuw beleid is, denk bijvoorbeeld aan de recente voorstellen van de commissie Veerman, of dat de cohorten studenten verschillen. Al deze verschillen slaan neer in de schatting die wordt verkregen uit de vergelijking van het gedrag voor en na de invoering van het nieuwe beleid. Het is dan de vraag of het verschil in gedrag voor en na de invoering toegeschreven kan worden aan de beleidsinterventie „langstudeerders‟ of aan andere zaken die in de tijd zijn veranderd. 2. Gebruik maken van variatie in de intensiteit van het nieuwe beleid Het nieuwe beleid wordt weliswaar voor iedereen ingevoerd, maar zal niet voor alle studenten en instellingen even relevant zijn. Zo verandert er weinig voor studenten met geringe studievertraging. Voor deze groepen studenten geeft het nieuwe beleid geen aanleiding om het gedrag te veranderen. Anders gezegd, we verwachten geen effect van het nieuwe beleid voor deze groepen. Voor de evaluatie kunnen deze groepen worden benut als controlegroep. De experimentele groep bestaat uit studenten voor wie het nieuwe beleid wel relevant is, dat zijn bijvoorbeeld studenten met een grote kans op lang studeren. Het effect van het beleid kan dan worden bepaald op basis van een voor- en nameting voor zowel de experimentele als de controlegroep. De schatting van het beleidseffect wordt verkregen door het verschil tussen de na- en voormeting in de experimentele groep te verminderen met het verschil in de controlegroep. Dit heeft een difference-in-differencesmodel. Het verschil in de controlegroep wordt veroorzaakt door de andere factoren die in de tijd veranderen. Door dit verschil af te trekken van het verschil in de experimentele groep blijft het effect van het beleid over.
12
Dus, studenten met een hoge kans op lang studeren vormen de experimentele groep (L=1) en studenten met een lage kans op lang studeren vormen de controle groep (L=0) en Y is uitkomst. Het effect van beleid kan dan worden bepaald op basis van twee verschillen:
[ E (Yt
1
L 1) E (Yt L 1)] [ E (Yt
1
L 0) E (Yt L 0)]
De belangrijkste aanname in dit model is dat de trend in de controlegroep gelijk is aan de trend die in de experimentele groep zou hebben plaatsgevonden als het beleid ongewijzigd was geweest. Dit betekent dat de controle en experimentele groep bij de nulmeting niet gelijk hoeven te zijn. Wel dient de trend door de factoren die in de tijd veranderen gelijk te zijn voor de beide groepen. Welke groepen zijn het meest geschikt als experimentele en als controlegroep? Vervolgens komt de vraag aan de orde welke groepen het meest geschikt zijn als experimentele en als controlegroep. Hiervoor zijn verschillende mogelijkheden, bijvoorbeeld een vergelijking van opleidingsniveau‟s (WO versus HBO), of een vergelijking van opleidingen of een vergelijking van bepaalde typen studenten. Zoals hiervoor al is opgemerkt, hoeven de experimentele en controlegroep in een DD-aanpak niet gelijk te zijn. De cruciale assumptie is of de tijdstrend in de controlegroep gelijk is aan de tijdstrend in de experimentele groep als het beleid niet was ingevoerd. Een aandachtspunt bij het zoeken naar een controlegroep is dat de introductie van ander beleid verstorend kan werken. Vooral de introductie van het sociaal leenstelsel in de masterfase kan verstorend werken, omdat de effecten mogelijk samenhangen met de duur van de opleiding. Het sociaal leenstelsel verhoogt de private kosten van studeren en deze stijging hangt samen met de duur van de opleiding. Deze verstoring speelt niet bij bachelorstudenten, hetgeen een argument is om bij deze evaluatie de focus te leggen op de bacheloropleidingen. Dit betekent niet dat de langstudeerdersmaatregel niet relevant is voor de masterfase, maar een evaluatie voor deze groep is lastiger vanwege de genoemde extra maatregel. WO versus HBO In de HBO BA-opleiding is ongeveer 8 % van de studenten langstudeerder tegen ongeveer 17 % in de WO BA-opleiding. We mogen daarom verwachten dat de maatregel een sterker effect zal hebben in het WO dan in het HBO. Maar ook in het HBO kan de maatregel effect hebben. Dat betekent dat een DD-model waarin studenten in het HBO als controlegroep worden genomen waarschijnlijk een onderschatting oplevert van het werkelijke effect. De DD-aanpak is waarschijnlijk het meest informatief als deze in twee stappen wordt gedaan. In de eerste stap kan gekeken worden naar het verschil tussen de voor- en nameting van de WO-studenten. Dit verschil geeft het effect van het beleid plus het effect van de tijdstrend. In de tweede stap wordt getracht de tijdstrend te elimineren met behulp van de tijdstrend van de controlegroep. De tijdstrend in de controlegroep is waarschijnlijk te sterk, omdat de controlegroep ook te maken heeft met het nieuwe beleid. Bij deze aanpak wordt tevens de aanname gemaakt dat er geen specifiek beleid is voor het WO of voor het HBO. Mocht dat wel het 13
geval zijn, dan kan een vergelijking binnen onderwijsniveaus een betere schatting geven van het effect. Een vergelijking tussen opleidingen Een andere mogelijkheid is om opleidingen te vergelijken. Bijvoorbeeld in het WO ligt het percentage langstudeerder in de BA-opleidingen techniek, recht en taal & cultuur rond 20 %, terwijl dit bij gezondheidszorg, economie en gedrag & maatschappij rond 10 % is. Studenten in de laatste groep opleidingen zouden als controlegroep kunnen worden genomen. Ook dit zal waarschijnlijk een onderschatting opleveren van het werkelijke effect omdat de controlegroep ook beïnvloed wordt door het beleid hetgeen tot gedragveranderingen kan leiden. Een vergelijking tussen instellingen Tussen instellingen bestaan er ook aanzienlijke verschillen in percentage langstudeerders. Zo heeft de Universiteit Maastricht ongeveer 7 % langstudeerders tegen 14 % aan de Universiteit van Amsterdam. Op vergelijkbare wijze kunnen deze verschillen worden benut in de evaluatie. We mogen immers verwachten dat het beleid een sterker effect zal hebben voor studenten in Amsterdam dan in Maastricht. Bij deze aanpak is van belang om te controleren voor verschillen in het aanbod van opleidingen tussen instellingen. Op voorhand is moeilijk aan te geven welk van de drie hierboven beschreven vergelijkingen de voorkeur verdient. Het zou goed zijn om meerdere vergelijkingen uit te voeren en te bezien hoe robuust de resultaten zijn voor de keuze van de vergelijkingsgroepen. Welke uitkomsten zijn relevant? De maatregel kan van invloed zijn op verschillende uitkomsten zoals het studeer- en keuzegedrag van de student en op het gedrag van de instellingen. Het kan daarbij zowel om bedoelde als om onbedoelde effecten gaan. Zonder uitputtend te zijn staan hieronder een aantal mogelijke effecten. Bedoelde effecten Studeergedrag van studenten: Studievoortgang, studie-uitval, studieduur, cijfers, herkansingsgedrag (herkansingen om cijfer te verhogen), studie-inspanning (hoeveel uur studeren per week) Instellingsgedrag ter bevordering van snel studeren Onbedoelde effecten Studiekeuzegedrag studenten: deelname hoger onderwijs, keuze van niveau (Hbo of WO), keuze van opleiding, uitwijkgedrag Activiteiten naast de studie (bestuursactiviteiten, baantjes) Strategisch instellingsgedrag: weren van bepaalde studenten, studie-eisen aanpassen.
14
Beleid kan zowel instroom als gedrag beïnvloeden: compositie-effecten Een aandachtspunt bij de analyse is dat het beleid zowel de instroom als het gedrag kan beïnvloeden. Dit betekent dat de compositie van de experimentele en controlegroep kunnen veranderen, waardoor een vergelijking van bepaalde uitkomsten, bijvoorbeeld het studierendement minder informatief wordt. Dit kan worden tegengegaan door groepen te vergelijken waarvan naar verwachting de compositie niet sterk zal veranderen, zoals studenten die al flink gevorderd zijn in de studie. De instroomeffecten kunnen direct worden waargenomen bij de eerstejaars groepen, maar ook door te kijken naar de uitval van studenten aan het eind van het eerste of tweede jaar. Welke gegevens zijn beschikbaar? Studentenmonitor
15
4
Sociaal leenstelsel voor masterfase
4.1
De beleidsinterventie Het kabinet wil een sociaal leenstelsel invoeren in de masterfase. Dat betekent dat de basisbeurs niet meer wordt verstrekt. De overheid verstrekt vanaf september 2012 wel een aanvullende beurs ingeval ouders niet kunnen bijdragen, of specifieke toeslagen voor studenten met kinderen. Alle masterstudenten kunnen een flexibele, gunstige en veilige studielening bij de overheid opnemen. Vanaf de invoering op 1 september 2012 gaat de basisbeursmaatregel gelden voor alle studenten die dan een masteropleiding volgen, inclusief de studenten die al met een masteropleiding bezig zijn. Studieleningen mogen straks in 20 jaar worden afbetaald in plaats van 15 jaar. Dit wordt gecombineerd met „ maatwerk aan de achterkant‟ als integraal onderdeel van een ruimer sociaal leenstelsel. Door deze verlenging van de terugbetaalperiode daalt het maandbedrag dat na de studie moet worden voldaan vergeleken met de situatie dat afbetaald moet worden in 15 jaar. Oogmerk daarvan is dat de toegankelijkheid niet vermindert. De belangrijkste doelen van deze maatregelen zijn het realiseren van een bezuiniging en het elimineren van een inefficiency uit het huidige stelsel. Het lijkt namelijk aannemelijk dat veel van de huidige masterstudenten de basisbeurs niet echt nodig hebben om (te gaan) studeren.
4.2
Wat leert de literatuur? De invoering van een sociaal leenstelsel komt neer op een verhoging van de prijs van studeren. De literatuur over de effecten van prijsveranderingen op het studiekeuzegedrag en studeergedrag is samengevat bij de interventie „Langstudeerders‟.
4.3
Ontwerp verklarende evaluatie In dit deel van de evaluatieopzet gaat het om de vraag welke mechanismen de gedragseffecten van (potentiële) studenten verklaren. Wel of geen masterstudie? Een eerste mechanisme dat verwacht zou kunnen worden, is als volgt. De gepercipieerde kosten van een masterstudie worden hoger door de beleidsinterventie en wellicht ook door de langstudeerdersinterventie, waardoor minder studenten, vooral als zij zichzelf als zwakker zien, of als zij minder draagkrachtig zijn, een masterstudie gaan doen. Bovendien zouden naar verhouding minder studenten, vooral uit genoemde groepen, voor een twee- of driejarige master kiezen. Daar staat tegenover de verwachting dat studenten aan de voorkant optimistisch zijn en een masterstudie, als zij eenmaal een (universitair) bachelors hebben behaald, als een vanzelfsprekende en onvermijdelijke keuze en als een investering in de toekomst zullen zien. Een derde verwachting is dat het geleidelijk
16
normaler zal worden om na een bacheloropleiding te gaan werken en eventueel op een later moment een post-experience master te doen. Er kan meer inzicht worden gekregen in de daadwerkelijk spelende mechanismen door verschillende groepen studenten te interviewen/enquêteren: huidige masterstudenten over hun overwegingen om een masterstudie te doen (open vraag, zodat het relatieve gewicht van mogelijke overwegingen tot uiting kan komen) en vervolgens over hun keuze voor de specifieke master. Welke rol spelen duur, kosten en privaat rendement daarbij? studenten die in 2012 met een master beginnen met dezelfde vragen. Hierbij kan een indicatie worden verkregen van of en hoe zwaar de langstudeerdersmaatregel meespeelt; kiezen zij vaker dan hun voorgangers voor korte masters, masters „in de buurt‟ (zelfde instelling als bachelor, eigen woonplaats), masters die bekend staan om hun hoge rendement of masters met een groot privaat rendement? studenten die in 2013 met een master beginnen met dezelfde vragen om het additionele effect van de introductie van het sociale leenstelsel indicatief in beeld te brengen; studenten die recent een bachelor hebben afgerond en niet aan een master zijn begonnen met de vraag waarom niet; studenten die in 2012 een bachelor afronden en niet aan een master beginnen met dezelfde vraag; studenten die in 2013 een bachelor afronden met dezelfde vraag; studenten die over enige jaren met een post-experience- of parttime-masteropleiding beginnen met de vraag op grond van welke overwegingen zij dat niet eerder hebben gedaan. Bij de verschillende groepen zal ook moeten worden nagegaan wat het niveau en tempo van hun eerdere studieprestaties was, wat hun sociaal-economische klasse, hun (gepercipieerde) arbeidsmarktperspectief en wellicht nog andere kenmerken, maar pas aan het eind van interviews/enquête, zodat eerder gebleken kan zijn in hoeverre deze factoren expliciet een rol hebben gespeeld. Studietempo/rendement master Door het sociale leenstelsel en in tweede instantie door de langstudeerdersmaatregel nemen de kosten bij vertraging in de masterstudie toe. Heeft dat invloed op het studeergedrag, nevenactiviteiten, keuze voor stages/studieonderdelen in het buitenland enz.? Daartoe zou, zoals bij de langstudeersmaatregel uitgewerkt, van huidige studenten en de komende cohorten moeten worden nagegaan wat hun keuzes en hun overwegingen daarbij zijn (geweest). Gedragsreacties instellingen Door vergelijking van de verwachtingen/eisen van huidige studenten m.b.t. de instelling/opleiding met die van toekomstige cohorten kan in beeld worden gebracht in welke mate studenten zich meer als klanten op gaan stellen. Als dit in zekere mate het geval is, zou verwacht kunnen worden dat instellingen ook meer om die klant gaan concurreren. Ex ante kan worden onderzocht hoe zij (denken 17
te) proberen aantrekkelijker te worden voor studenten (onderwijskundige aanpak, alternatieve financiering door private beurzen e.d., hoogte van instellingstarieven voor specifieke mastersopleidingen, meer duale masteropleidingen enz.) en waarom ze een bepaalde keuze ze maken. Ex post kan worden onderzocht tot welke verschuivingen in studentenaantallen en in rendementen de door instellingen genomen maatregelen (kunnen) hebben bijgedragen. Het is bijvoorbeeld denkbaar dat instellingen zich gaan inspannen om de bacheloropleiding maatschappelijk meer als arbeidsmarktkwalificatie geaccepteerd te krijgen en meer gaan inzetten op post-experience masteropleidingen. Wordt dat overwogen of gebeurt dat al en zo ja, waarom precies? Ten slotte is denkbaar dat instellingen of opleidingen zelf gunstige leenfaciliteiten creëren. Wordt dat overwogen? Waarom? 4.4
Ontwerp effectevaluatie Het voornemen is om dit nieuwe beleid in te voeren per 1 september 2012 voor alle studenten in de masterfase van het hoger onderwijs. Het beleid zal niet vooraf worden getest door pilots of experimenten. Dit betekent dat vanaf 1 september 2012 alle studenten in de masterfase van het hoger onderwijs te maken hebben met het nieuwe beleid. De introductie van een sociaal leenstelsel betekent een hogere private bijdrage van studenten in de masterfase van het hoger onderwijs. Het sociaal leenstelsel biedt de mogelijkheid om de benodigde middelen te lenen van de overheid. Voor de evaluatie van de effecten van het beleid zijn er verschillende mogelijkheden. 1. Een vergelijking voor en na de invoering van het nieuwe beleid De meest voor de hand liggende evaluatieopzet is het vergelijken van het gedrag van studenten voor en na de invoering van het nieuwe beleid. Dit geeft een schatting van het effect van het beleid. Net als bij de beleidsinterventie „Langstudeerders‟ kunnen er echter nog meer zaken zijn veranderd voor en na de invoering van het beleid, zoals nieuw beleid of verschillen tussen cohorten studenten. Het verschil in uitkomsten van de voor- en nameting geeft het saldo van de effecten van alle factoren die in de tijd veranderd, waaronder de introductie van het sociaal leenstelsel. Het is dan de vraag in hoeverre het verschil in gedrag voor en na de invoering toegeschreven kan worden aan de introductie van het sociaal leenstelsel, of aan de andere zaken die in de tijd zijn veranderd. Een verschil met de beleidsinterventie „Langstudeerders‟ is dat de introductie van het Sociaal Leenstelsel relevant is voor alle studenten in de masterfase. Bovendien gaat het, vergeleken met de huidige private bijdrage, om een substantiële verhoging van de private bijdragen per student (bijvoorbeeld 3000 Euro per jaar voor uitwonende studenten). Andere zaken die in de tijd zijn veranderd, zullen wellicht minder gewicht in de schaal leggen. Een voor- en nameting kunnen in dat geval wel informatief zijn, omdat het hier gaat om een relatief grote beleidsverandering. Wel vindt daarnaast ook de interventie gericht op de langstudeerders plaats.
18
2. Een vergelijking van master- en bachelorstudenten De opzet van een voor- en nameting kan worden uitgebreid met een controlegroep die niet of in minder mate te maken heeft met de introductie van het Sociaal Leenstelsel. Door ook een voor- en nameting te doen bij de controlegroep kunnen veranderingen in de tijd worden opgepikt (zie het ontwerp Langstudeerders). Een mogelijkheid is om de studenten in de bachelorfase als controlegroep te gebruiken. Het evaluatie-ontwerp bestaat dan uit een vergelijking van het gedrag van studenten in de masterfase voor en na de introductie van het sociaal leenstelsel verminderd met het verschil in gedrag van bachelorstudenten voor en na de introductie van het nieuwe beleid (een difference-in-differencesmodel). Aandachtspunt daarbij is dat het gedrag van bachelorstudenten ook kan veranderen door de introductie van een sociaal leenstelsel in de masterfase. Het is bijvoorbeeld niet uitgesloten dat minder studenten zullen instromen in de bachelor vanwege de hogere kosten van de masteropleiding. Bij de DD-aanpak hoeven de experimentele en controlegroep niet gelijk te zijn. De assumptie is dat de tijdstrend in de controlegroep, in dit geval de bachelorstudenten gelijk is aan de tijdstrend voor de masterstudenten als het sociaal leenstelsel niet was ingevoerd. Een mogelijkheid voor een controlegroep vormt ook de groep HBO‟ers die na een 4-jarige bacheloropleiding doorstroomt naar een 1-jarige masteropleiding. Deze groep heeft, bij doorstroom naar een masteropleiding, in de huidige situatie geen recht op een basisbeurs (of aanvullende beurs), maar kan wel lenen. De introductie van een sociaal leenstelsel verandert daarom niets aan hun situatie. HBO‟ers die doorstromen naar een 2-jarige masteropleiding hebben momenteel nog 1 jaar recht op een beurs. Voor hen verandert er in dat geval ook minder dan voor studenten die de gehele nominale duur van de masteropleiding recht hebben op een beurs. Relevante uitkomsten Bedoelde effecten De maatregel beoogt een verhoging van de private bijdragen aan hoger onderwijs te realiseren. De maatregel heeft geen specifieke doelen gericht op het keuze- of studeergedrag van studenten of het gedrag van instellingen. Onbedoelde effecten De maatregel kan van invloed zijn op het studeergedrag gemeten op basis van studievoortgang, studieduur, cijfers, herkansingsgedrag, nevenactiviteiten tijdens de studie, werken naast de studie, leengedrag. Daarnaast kan de maatregel ook van invloed zijn op het keuzegedrag van studenten: wel of niet instromen, welk niveau (WO of HBO), welke opleiding. De introductie van een sociaal leenstelsel kan mogelijk ook gedragreacties uitlokken bij instellingen of bij werkgevers. Instellingen kunnen inspelen op andere wensen van studenten door bijvoorbeeld andere opleidingen aan te bieden vanwege de hogere prijs die studenten moeten gaan betalen voor
19
onderwijs. Werkgevers kunnen mogelijk ook proberen om studenten eerder in traineetrajecten te krijgen als alternatief voor duurdere opleidingen. Beleid kan zowel de instroom als het gedrag beïnvloeden: compositie-effecten Evenals bij de beleidsinterventie „langstudeerders‟ kan het beleid zowel de instroom als het gedrag beïnvloeden. Bij de analyse dient hiermee rekening te worden gehouden, door bijvoorbeeld groepen studenten te onderscheiden waarbij verwacht mag worden dat alleen het gedrag wordt beïnvloed en niet de instroom. (zie ook de passage bij de beleidsinterventie Langstudeerders). Gegevens Om deze analyses te kunnen uitvoeren zijn micro-gegevens nodig voor en na de introductie van het beleid voor zowel bachelor- als mastersstudenten. Deze kunnen mogelijk worden ontleend aan de Studentenmonitor.
20
5
Centrale toetsing en zeer zwakke scholen
5.1
De beleidsinterventie Centrale toetsing Het gaat hier om een samenstel van maatregelen voor het gehele primair onderwijs d.w.z. basisonderwijs, speciaal basisonderwijs en speciaal onderwijs, aangekondigd in het regeerakkoord. De maatregelen zijn: verplichte eindtoets in het regulier basisonderwijs met ingang van schooljaar 2012-2013, voor speciaal basisonderwijs en speciaal onderwijs is de invoering later; verplicht leerlingvolgsysteem met ingang van schooljaar 2012-2013 teneinde gebruik te bevorderen; absolute kwaliteitsnorm voor scholen (ondergrens) vanaf (op z‟n vroegst) het schooljaar 20142015; invoering begintoets (met oog op toegevoegde waarde)vanaf (op z‟n vroegst) het schooljaar 2014-2015. De verplichting in deze concrete vorm is nieuw, maar bouwt voort op de praktijk in het onderwijs, m.n. die in het basisonderwijs. 85% van de basisscholen gebruikt de Cito-eindtoets, 90/95% gebruikt een of meer onderdelen van het Cito-leerlingvolgsysteem en de inspectie beoordeelt scholen op een benadering van toegevoegde waarde (d.w.z. rekening houdend met de leerlingenpopulatie van een school). De situatie in het speciaal basisonderwijs en het speciaal onderwijs is minder ver ontwikkeld. Inspectie, Cito en onderzoeksinstituten rapporteren regelmatig over de verschillende aspecten van toetsing. Voor de invoering van centrale toetsing is structureel € 80 mln beschikbaar voor PO, VO (verplichte toetsen onderbouw) en MBO (verplichte toetsen). Wat zijn de belangrijkste doelen en hoe kunnen die worden gemeten? Het beleidsprogramma toetsing heeft vier doelen: 1. scholen stimuleren systematisch te werken aan onderwijsverbetering (opbrengstgericht werken); 2. introduceren van een absolute kwaliteitsnorm: een ondergrens voor de gemiddelde leerresultaten van scholen, gecorrigeerd voor kenmerken van de leerlingenpopulatie; 3. bepalen van de toegevoegde waarde van scholen o.b.v. de leerwinst van de leerlingen (begintoets – eindtoets). 4. verbetering advisering en overdracht van leerlingen naar voortgezet onderwijs, gericht op het realiseren van een doorlopende leerlijn;
21
Voor onderzoek naar het eerste doel zijn inspectiedata beschikbaar (indicatoren van opbrengstgericht werken) alsmede jaarlijkse peilingen van Cito in verschillende groepen. Voor onderzoek naar het tweede en derde doel zijn ook inspectiegegevens beschikbaar: in welke mate treden er veranderingen op door de gewijzigde beoordeling van scholen (aantallen excellente, zwakke en zeer zwakke scholen). Voor het vierde doel zijn onderwijsnummer- gegevens en cohortgegevens (COOL) beschikbaar over ontwikkelingen in schoolloopbanen. Wat zijn de voornemens rond deze interventies, wat is het tijdpad? Begin 2011 wordt een conceptwetsvoorstel Toetsing openbaar. Daarin staat dat de verplichte eindtoets en het verplichte leerlingvolgsysteem worden ingevoerd in het schooljaar 2012-2013. De begintoets (voor meting toegevoegde waarde) en de gefaseerde ontwikkeling van een absolute kwaliteitsnorm zullen na pilots met verschillende varianten op z‟n vroegst in het schooljaar 2014-2015 worden ingevoerd. Wat is de beleidsruimte voor verdere ontwikkeling van de interventie? Op het punt van de verplichte eindtoets en het verplichte leerlingvolgsysteem staat de hoofdlijn vast, maar op onderdelen is er nog ruimte (omvang toets, domeinen e.d.). Wat de begintoets en de absolute kwaliteitsnorm betreft, ligt de intentie duidelijk op tafel, maar er is ruimte om beleidsvarianten te bedenken en voor te leggen aan de minister. Vanaf begin 2011 volgt veldconsultatie over het conceptwetsvoorstel waarin het beleid is uitgewerkt. Zeer zwakke scholen Het regeerakkoord geeft aan dat zeer zwakke scholen in het primair onderwijs binnen één jaar hun onderwijsleerproces weer op orde moeten hebben, waardoor ze niet langer zeer zwak zijn. Lukt dat niet, dan wordt – volgens het regeerakkoord - de school gesloten. Daarbij worden islamitische en radicale vernieuwingsscholen apart genoemd. De minister heeft in een brief aan de Tweede Kamer aangegeven dat ze de wet wijzigt om de sluitingsregel juridisch goed te verankeren. Daarnaast wordt er in overleg met de inspectie nagedacht over mogelijk flankerend beleid (bijvoorbeeld in termen van vroegsignalering en ondersteuning). Het staande beleid is dat zeer zwakke scholen een verbeterperiode van twee jaar krijgen. Is de school dan nog steeds zeer zwak en heeft de inspectie geen vertrouwen in spoedige verbetering, dan meldt zij die scholen aan voor een bestuurlijk natraject. Dat heeft een enkele keer geleid tot het sluiten van scholen door het eigen bestuur. In de afgelopen jaren zijn verschillende ondersteuningsmaatregelen voor zeer zwakke scholen ingesteld (bijvoorbeeld analyseteams, „vliegende brigades‟, kwaliteitsakkoorden met de noordelijke provincies). Daarnaast zijn er in het toezicht verschillende maatregelen getroffen (bijvoorbeeld aanscherping toezicht op zwakke scholen, werken met een toezichtsplan). In de nieuwe Wet op het onderwijstoezicht krijgt de inspectie meer bevoegdheden om te interveniëren. Bovendien is de WPO sinds 1/8/10 gewijzigd, waardoor sluiting of stopzetten van bekostiging van een school op basis van langdurig onvoldoende leerresultaten mogelijk is. 22
De onderwijsinspectie rapporteert regelmatig over zeer zwakke scholen. Wat zijn de belangrijkste doelen en hoe kunnen die worden gemeten? Het beleid voor zeer zwakke scholen is een uitwerking van de garantiefunctie die de centrale overheid heeft ten aanzien van de minimumkwaliteit van het onderwijs. Die uitwerking wordt nu aangescherpt: scholen krijgen één jaar de tijd om hun kwaliteit op orde te krijgen en anders dreigt intrekking bekostiging. Wat is de beleidsruimte voor verder ontwikkeling van de interventie? De tekst uit het Regeerakkoord is helder; daarin zit weinig ruimte. In het flankerend beleid zullen maatregelen genomen moeten worden. De Minister heeft in de brief aan de Kamer aangekondigd het ondersteuningsaanbod voor zeer zwakke scholen voor een periode van vier jaar te blijven financieren. 5.2
Wat leert de literatuur? Centrale eindexamens Centrale examens kunnen zorgen voor transparantie en verantwoording. Dit geeft het schoolpersoneel prikkels om zich te concentreren op het verbeteren van prestaties van leerlingen. Zonder de juiste prikkels zouden leraren mogelijk een voorkeur kunnen hebben voor de meest gemakkelijke lesmethoden in plaats van de meest veelbelovende. Centrale examens geven ook prikkels voor leerlingen om te leren. Wanneer absolute normen ontbreken en er alleen sprake is van relatieve prestatiemeting, kunnen leerlingen baat hebben bij een gezamenlijk afspraak om niet te studeren. Empirische studies bevestigen deze theoretische verwachtingen. Het onderzoek betreft vooral studies waarin de prestaties van leerlingen in landen met een centraal examen worden vergeleken met de prestaties van leerlingen in landen zonder een centraal examen. Bishop (1997) vergelijkt de internationale TIMMS en IAEP (International Assessment of Educational Progress) toetsscores tussen landen met en zonder centraal examen.3 Regressieanalyses op landenniveau laten zien dat TIMMS toetsscores op wiskunde en natuurkunde (science) significant hoger zijn in landen met een centraal examen. Op de IAEP toetsscores wordt een groot positief statistisch significant effect gevonden op wiskunde en een wat minder groot, niet significant effect op natuurkunde ( science). Naast deze internationale analyses presenteert Bishop (1997) ook een analyse waarin hij gebruik maakt van variatie tussen verschillende provincies in Canada. Canada heeft een gemengd systeem, waarin sommige provincies centrale examens kennen en sommige niet. Regressies op schoolniveau laten zien dat scholen met een centraal examen significant beter presteren op zowel wiskunde als science. Deze resultaten suggereren dat onderwijsprestaties aanzienlijk kunnen worden verbeterd door de disciplinerende werking van centrale examens. Woessman (2003) analyseert individuele leerlingprestaties op de TIMMS. Individuele toetsscores worden geregresseerd op persoonlijke achtergrondkenmerken, inzet van middelen, en instituties, 3
De internationale TIMMS data bevatten testresultaten van 13-jarige leerlingen op wiskunde en science. De internationale standaardfout is 100 punten en een klasniveau is ongeveer gelijk aan 40 punten. 23
waaronder de aanwezigheid van centraal examens. Hij vindt statistisch significante positieve effecten van centrale examens op de toetsscores op wiskunde en science. De grootte van het gevonden effect is respectievelijk 0.16 en 0.10 standaarddeviatie. Een vergelijkbare analyse is uitgevoerde op de PISAtoetsen (Fuchs en Woessman, 2007). In deze studie worden positieve effecten van centrale examens gevonden op alle toetsen. Jürges et al. (2005) maken gebruik van regionale variatie in schoolwetgeving in het Duitse voortgezet onderwijs om het effect van centrale examens op onderwijsprestatie te identificeren.4 Hiervoor kijken ze naar de effecten op de TIMMS toetsscores op wiskunde en science. In alle Duitse provincies zijn centrale examens voor wiskunde, maar in de meeste provincies is geen centraal examen voor science. Zij vinden significant positieve effecten van centrale examens op toetsscores. Afhankelijk van de precieze steekproefdefinitie en specificatie varieert de grootte van het effect van een vijfde tot tweederde van een grade level equivalent. Deze empirische studies laten een eenduidig beeld zien wat betreft de effecten van centrale examens op de kwaliteit van het onderwijs. Centrale examens kunnen onderwijsprestaties aanzienlijk verbeteren en lijken een relatief kosteneffectieve maatregel. Woessman (2003) laat zien dat een centraal examen veel kosteneffectiever is dan klassenverkleining. In het Nederlandse voortgezet onderwijs wordt het centraal examen gebruikt in combinatie met schoolexamens. Dronkers en De Lange (2006) hebben discrepanties in de becijfering van deze twee soorten examens geanalyseerd tussen 1998 en 2005 en concluderen dat de prestaties op deze beide typen examens meer uiteen zijn gaan lopen. Het gebruik van ‘school accountability’-systemen De invloed van systemen voor het beoordelen van de prestaties van scholen zijn vooral onderzocht in de Verenigde Staten, maar er is ook enige evidentie uit landenstudies. In een vergelijking van de prestaties van leerlingen op internationale toetsen vinden Woessman et al. (2009) dat de prestaties hoger zijn in landen waarin beoordelingen van individuele scholen worden vergeleken met prestaties in het district of op landelijk niveau. Openbaarheid van prestatiegegevens blijkt een positief effect te hebben op de prestaties van scholen. Twee studies (Hanushek and Raymond (2005) en Jacob (2005)) wijzen erop dat de invoering van het „school accountability‟systeem in the VS, het „No Child Left Behind Act‟, een positief effect heeft op leerprestaties. Hierbij maken ze gebruik van toevallige variatie tussen staten in het jaar waarin ze verschillende onderdelen van dit accountabilitybeleid hebben geïntroduceerd. Ook hanteren ze aanvullende statistische methoden om beleidseffecten van andere effecten te onderscheiden. Beide studies tonen aan dat de introductie van het accountabilitybeleid heeft geresulteerd in een toename in toetsscores. Interessante verschillen tussen subgroepen kwamen ook aan het licht; „hispanic and white students gain much more than black students‟ (Hanushek & Raymond, 2005). Ze concludeerden hierbij dat het accountabilitysysteem tot betere leerresultaten leidt, maar tegelijkertijd de verschillen tussen groepen
4
Jürges et al. (2005) maken evenals Bishop (1997) gebruik van regionale variatie. Zij stellen zich de vraag of de analyse van Bishop daadwerkelijk een causaal effect oppikt. Zo is het in de analyse op Canadese scholen bijvoorbeeld denkbaar dat zowel een centraal examen als hogere toetsscores het gevolg zijn van de grotere waarde die in bepaalde provincies gehecht wordt aan onderwijsprestaties. 24
studenten (de „black–white gap‟) vergroot. Beide studies onderzochten ook welke causale mechanismen verantwoordelijk waren voor de effectiviteit van het accountabilitysysteem. Hanushek and Raymond (2005) onderzochten of de introductie van de publieke „school report cards‟ hiervoor verantwoordelijk was, maar vonden geen afzonderlijk significant effect op leerprestaties. Een uitgebreidere bespreking van deze en andere studies naar effecten van accountabilitysystemen is te vinden in De Wolf en Janssens (2007). School-accountabilitysystemen kunnen ook strategisch gedrag in de hand werken. Jacob (2002) onderzoekt het accountabilitybeleid dat in 1996-1997 in publieke scholen in Chicago is ingevoerd. Scholen werden onder toezicht geplaatst als minder dan 15 procent van de leerlingen de nationale standaarden haalde. Als zich vervolgens geen verbetering voordeed, werden docenten en schoolleiders herplaatst of ontslagen. Hij vindt een aanzienlijke verbetering van testscores in wiskunde en lezen. Echter, er lijkt sprake van „teaching-to-the-test‟. Er was geen verbetering op toetsen die geen deel uitmaakten van het accountabilitybeleid. Daarnaast werden meer leerlingen verwezen naar trajecten die niet getest werden, bijvoorbeeld naar het speciaal onderwijs. Figlio & Getzler (2002) onderzochten de effecten van een nieuw toetsingssysteem dat in 1996/1997 werd geïntroduceerd in Florida. Zij vinden dat de introductie van het nieuwe accountabilitysysteem geleid heeft tot het vaker classificeren van leerlingen als gehandicapt, en dat dit zich vooral voordeed in scholen met grote aandelen leerlingen uit lagere inkomensgroepen. Jacob & Levitt (2003) ontdekten dat accountabilitysystemen leidden tot fraude door docenten. Om fraude te ontdekken maakten ze gebruik van een algoritme dat ongebruikelijke antwoordpatronen op testen kon opsporen. Fraude bleek zich jaarlijks voor te doen in 4 tot 5 procent van de basisscholen. Ze tonen ook aan dat dit de scholen zijn waar de fluctuatie in toetsscores over de jaren heen groter is dan gemiddeld. Figlio (2005) vindt bewijs dat scholen schorsingen strategisch inzetten. Gedurende de afname van toetsen in het kader van accountabilitysystemen zijn laag presterende leerlingen vaker geschorst dan gedurende de rest van het jaar. Dit verschil treedt alleen op voor laag presterende leerlingen in de groepen die getest worden. Burgess et al. (2005) onderzoeken de effecten van accountabilitybeleid in het Verenigd Koninkrijk. Dit beleid zet scholen aan om zich vooral in te spannen voor leerlingen die zich in de marge bevinden van het halen van de standaard. Zij vinden dat de prestaties van leerlingen met een lage geschiktheid slechter waren na de introductie van het nieuwe beleid. Recent is gekeken naar accountabilitybeleid in Amsterdam waarbij scholen verplicht werden mee te doen aan de CITO-eindtoets (Chorny et al., 2010). Het Amsterdamse beleid bleek te leiden tot betere leerresultaten. Er werden geen aanwijzingen gevonden voor strategisch gedrag van scholen. Inspectietoezicht De effecten van toezicht door de Inspectie zijn vooral onderzocht in Engeland en recent ook in Nederland. Het onderzoek kijkt naar het effect van een belangrijk instrument van het toezicht, namelijk het effect van schoolbezoeken. Slechts één studie tracht de invloed van het bestaan van een Onderwijs Inspectie als onderdeel van een onderwijsstelsel te onderzoeken. Ladd (2009) vergelijkt het accountabilitysysteem in de Verenigde Staten met het inspectiesysteem in Nederland en Nieuw Zeeland. Ze vindt dat de prestaties in deze laatste twee (inspectie)landen hoger zijn dan in de 25
Verenigde Staten. Het blijft evenwel de vraag in hoeverre deze verschillen het gevolg zijn van het bestaan van de Onderwijsinspectie. Enkele studies hebben het effect van schoolbezoeken door inspecteurs op de leerlingprestaties onderzocht. Drie studies onderzoeken de invloed van bezoeken door de Engelse Onderwijsinspectie op de resultaten van scholen in het voortgezet onderwijs (Cullingford et al. 1999, Wilcox and Gray 1996, and Shaw et al. 2003). Alle drie studies vinden een negatief effect van deze bezoeken. Deze studies kunnen echter vertekend zijn door selectie van scholen door de inspecteurs, zij hebben mogelijk een voorkeur voor het bezoeken van zwakkere scholen. Een studie van Rosenthal (2004) maakt gebruik van panelgegevens van Engelse scholen in het voortgezet onderwijs. Ook deze studie vindt een negatief effect van inspectiebezoeken. Luginbuhl et al (2009) onderzoeken de invloed van bezoeken van onderwijsinspecteurs in het Nederlandse basisonderwijs. Zij maken daarbij gebruik van een natuurlijk experiment. In het kader van het jaarlijkse onderwijsverslag trekt de Inspectie van het onderwijs een random steekproef van scholen die worden bezocht. De invloed van deze random bezoeken op de prestaties van scholen op de CITOeindtoets is onderzocht. Daarnaast zijn fixed-effectmodellen geschat voor alle inspectiebezoeken. Voor de random bezoeken worden geen effecten gevonden, voor de fixed-effectschattingen worden kleine positieve effecten van schoolbezoeken gevonden. Enkele studies richten zich ook op de effecten van toezicht op schoolbeleid en schoolverbetering. Geen van deze studies hanteert een (quasi-)experimenteel design (zie voor een overzicht, De Wolf en Janssens (2007) en Ehren (2007). De meeste studies laten een positief effect zien. Zo blijkt toezicht op 50 tot 70% van de scholen tot gedragsbeïnvloeding en beleidsveranderingen leidt. De omvang van de gevonden effecten is echter sterk afhankelijk van het onderzoeksdesign. Aanpak van falende of slecht presterende scholen Over een effectieve aanpak van falende of slecht presterende scholen bestaat nog weinig harde evidentie. Zowel in Engeland (Matthews & Sammons, 2004) als in Nederland (Janssens en De Wolf, 2008; Inspectie van het Onderwijs, 2007) bestaan studies die aantonen dat zeer zwakke scholen in staat zijn zich te verbeteren. Over wat deze verbetering precies heeft veroorzaakt, is weinig hard bewijs. Deze studies hanteren geen quasi-experimentele onderzoeksdesigns. De aanpak van falende of slecht presterende scholen verschilt sterk tussen landen. Engeland kent een uitgebreid beleid op dit terrein. Op alle scholen die onderpresteren, wordt het toezicht geïntensiveerd. Daarnaast wordt onderscheid gemaakt tussen scholen waarvan verwacht wordt dat ze verbeteringen zelf kunnen doorvoeren en scholen waar dit niet het geval is. Scholen die zelf geacht worden er bovenop te komen, krijgen een zogenaamde „notice to improve‟. Van de gemeente wordt verwacht dat ze de school hierbij ondersteunen. Bij negen van de tien falende scholen blijkt een verbetering op te treden. De Engelse inspectie van het onderwijs (Ofsted) onderscheidt daarnaast een groep falende scholen waarvan de leiding niet de capaciteiten heeft om de nodige verbeteringen door te voeren. Voor deze scholen geldt speciaal beleid. De „local authority‟ wordt hier om een verbeterplan gevraagd. Dit laatste kan bijvoorbeeld inhouden dat de gemeente de school extra middelen verstrekt, een nieuw schoolhoofd en/of nieuw personeel aanstelt of succesvolle scholen de falende school laat
26
ondersteunen. Met intensieve en frequente inspecties wordt het verbeterproces gemonitord. Als een school na 2 jaar nog steeds onderpresteert, zijn er drie verschillende opties: de school wordt gesloten; er wordt een nieuwe school geopend, met een nieuw hoofd en niet personeel; er wordt een zogenaamde „Academy‟ geopend, veelal moderne brede scholen die opgezet worden door sponsors met verschillende achtergronden (colleges, universiteiten, bedrijven, etc.). De toezichthouder speelt een belangrijke rol in het Engelse model. Dit is minder het geval in de meeste Amerikaanse staten. Daar bepalen leerprestaties sinds de „No Child Left Behind‟-Act of een school wel of niet onderpresteert. Prikkels en sancties zijn veelal financieel van aard. In een aantal gevallen worden ouders ook in de gelegenheid gesteld alternatieve scholen te bezoeken wanneer de school van hun kind onderpresteert. In een beperkt aantal staten is men begonnen met het instellen van inspecties voor scholen die zwak presteren. Over de effectiviteit van de verschillende aanpakken is weinig bekend. Over het algemeen wordt verondersteld dat sterke consequenties effectiever zijn (Ayres & Braithwaite, 1992). Ook de eerste voorzichtige resultaten van het International Project for the study of Educational Accountability wijst in deze richting. Maar ook andere factoren kunnen een rol spelen. Zo blijkt uit diverse experimenten dat de manier waarop gehandhaafd wordt (onder andere de communicatie, zie Van Erp, 2008) en ook beloning (zie van der Pligt, 2008) effectieve interventiemechanismen zijn. Intern gebruik van assessmentresultaten / opbrengstgericht werken Het in scholen en klassen gebruiken van assessment- en toetsresultaten blijkt de kwaliteit van het onderwijs te vergroten. Het gaat hier weliswaar niet om een formeel stelselkenmerk, maar opbrengstgericht werken draagt bij aan een effectief stelsel. De conclusie mogen we trekken op basis van drie belangrijke overzichtsartikelen; Kluger & DeNisi (1996), Black & William (1998) en Hattie en Imperley (2007). De auteurs komen alle op basis van meta-analyses en literatuurstudies tot de bevinding dat feedback en gebruik van assessment- en toetsresultaten op klasniveau leiden tot effectiever onderwijs. Hoe opbrengstgericht werken het beste op stelselniveau gestimuleerd kan worden, is niet bekend. In recent onderzoek is geen effect gevonden van de latere afname van de CITO-toets op de Citoeindtoets basisonderwijs (Roeleveld et al. 2011). 5.3
Ontwerp verklarende evaluatie In het onderhavige beleid kunnen drie elementen worden onderscheiden: centrale toetsing (verplichte eindtoets en in een later stadium een begintoets), een verplicht leerlingvolgsysteem en de mogelijkheid om zeer zwakke scholen te sluiten die na verloop van tijd en ondanks geboden ondersteuning nog steeds zeer zwak zijn. 27
Oogmerk van dit beleid is primair om de kwaliteit van het onderwijs te verbeteren en in tweede instantie om de kwaliteit van scholen (toegevoegde waarde, leerwinst) in beeld te brengen en daarmee te stimuleren. De gedachte dat van centrale toetsing een impuls uitgaat tot verhoging van de onderwijskwaliteit lijkt gebaseerd op een of beide van de volgende sets veronderstellingen: centrale toetsing brengt beter in beeld wat sterke en zwakke punten van leerlingen zijn en laat beter zien op welke punten wel of geen leerwinst wordt geboekt dan decentrale toetsing, waardoor leerkrachten beter zich krijgen op waar in het onderwijsproces per leerling aan gewerkt moet worden om tot een hogere of bredere leerwinst te komen en dat dit hen zal stimuleren zich daarvoor in te spannen; centrale toetsing maakt vergelijking tussen scholen mogelijk; scholen willen graag „goed‟ zijn; als zij als relatief minder goed uit de bus komen, zal dat tot meer inspanning (opbrengstgericht werken) leiden; scholen hebben mogelijkheden meer opbrengstgericht werken te realiseren; als dat lukt, leidt dat tot beter onderwijs; beter onderwijs leidt tot meer leerwinst. Voor een verklarende evaluatie is het van belang na te gaan a. welke evidentie er is op basis van onderzoek en ervaring van leerkrachten, schoolleiders, besturen, inspectie en deskundigen voor de afzonderlijke veronderstellingen in deze sets; b. hoe scholen en leerkrachten op centrale toetsing verwachten te reageren (en waarom) in de wijze van onderwijs geven, de accenten in het lesprogramma, de mate van differentiëren tussen leerlingen, de wijze van toetsen, enz. (ex ante) c. hoe zij feitelijk reageren en waarom (pilots, ex post) d. of en hoe leerkrachten, schoolleiders, besturen, inspectie en deskundigen na enkele jaren toe- of afgenomen leerwinst verklaren (in hoeverre is de centrale toetsing en in hoeverre zijn andere veranderingen daar debet aan). Visies van leerkrachten en deskundigen op deze punten kunnen deels op basis van beschikbare data worden getoetst. De beoogde centrale toetsing focust op taal en rekenen. Hieraan kan het (normatieve) uitgangspunt ten grondslag liggen dat deze leerdomeinen belangrijker zijn dan andere. Een andere veronderstelling zou zijn dat de score op taal en rekenen een goede indicator/voorspeller is voor succes in andere leerdomeinen. Dat laatste kan goed worden onderzocht op basis van resultaten uit verschillende vakken in het verleden . Daarnaast wordt hier dan verondersteld dat de invoering van de centrale toetsing op deze onderdelen en het mede beoordelen van scholen daarop niet leidt tot een verschuiving van aandacht in het lesprogramma naar meer taal en rekenen ten koste van andere vakken. Ex ante kunnen verwachtingen/voornemens van scholen en leerkrachten op dit punt door interviews in kaart worden gebracht. Daarnaast kan bij scholen die thans nog niet aan centrale toetsing deelnemen een nulmeting worden verricht m.b.t. de verdeling van tijd over de verschillende vakken. Deze kan ex post worden vergeleken met de na invoering van het beleid ontstane verdeling.
28
Voorts is het van belang (mogelijke) onbedoelde effecten na te gaan die nog niet bij de bovenstaande vragen aan de orde zijn gekomen. Dergelijke effecten kunnen ex ante en ex post bij de eerder genoemde respondentgroepen worden geïnventariseerd. Daarbij kan dan tevens naar (mogelijke) verklaringen voor het optreden daarvan worden gevraagd. Enkele mogelijke onbedoelde effecten die daarbij in beschouwing kunnen worden genomen zijn: meer focus in het onderwijsprogramma op wat en hoe er in de centrale toetsing getoetst wordt ten koste van andere onderdelen van het basisonderwijs vergroting van de incentives om „zwakke‟ leerlingen naar elders te verwijzen (interferentie met beleid Passend Onderwijs?) meer mobiliteit van leerlingen richting „betere‟ scholen, met als mogelijk gevolg dat die daardoor „zwakker‟ worden reorganisaties, fusies, verzelfstandiging of andere maatregelen van scholen/besturen om „beter‟ uit de toetsing naar voren te komen …. Genoemde (mogelijke) bedoelde en onbedoelde mechanismen effecten kunnen, bijvoorbeeld in een aantal case studies in pilots of na implementatie meer gedetailleerd en op basis van „hardere‟ gegevens worden gecheckt. Bij de introductie van een leerlingvolgsysteem wordt verondersteld dat dit helpt om de vorderingen van leerlingen te monitoren, zodat leerkrachten voortdurend beter zicht hebben op waar bijgestuurd, geïnvesteerd of verwezen moet worden, wat de uiteindelijke leerwinst ten goede zou komen. Een verklarende evaluatie zou om te beginnen ervaringen die veel scholen reeds met dergelijke systemen hebben in beeld kunnen brengen: wat wordt er door leerkrachten en instellingen feitelijk gedaan met gegevens uit dit systeem en wat zien zij als de toegevoegde waarde en wat als de nadelen daarvan. Daarnaast zou de introductie van een leerlingvolgsysteem in een aantal scholen die dat nu nog niet hebben, systematisch gemonitord kunnen worden. Door middel van interviews en analyse van het feitelijke systeemgebruik kan worden nagegaan welke informatie wordt gebruikt en wat ermee wordt gedaan. Ook kan worden nagegaan of en hoe hier binnen de instellingen leerprocessen optreden m.b.t. het benutten van leerlingvolgsystemen. Hieruit resulterend inzicht over de effecten op het onderwijsproces kan helpen de resultaten ervan te verklaren. Gebruik van onder meer toetsgegevens om de prestaties van scholen in beeld te brengen en de mogelijkheid blijvend zeer zwakke scholen te sluiten gaat uit van de veronderstelling dat deze transparantie en potentiële dreiging scholen stimuleren tot meer/effectiever opbrengstgericht werken. Verondersteld wordt ook dat er daartoe feitelijk mogelijkheden bestaan. In een ex ante verklarende evaluatie kan worden nagegaan hoe (zeer zwakke) scholen op het aangekondigde beleid (denken te) reageren en welke mogelijkheden zij zien. Naast een inschatting van de mogelijke beleidseffecten kan 29
een dergelijke verkenning aanknopingspunten bieden voor flankerend beleid. Ex post kan bij scholen die enkele jaren achtereen het predicaat „zeer zwak‟ krijgen in case studies worden nagegaan wat daarvan de oorzaken waren, of en hoe is geprobeerd verbeteringen tot stand te brengen. 5.4
Ontwerp effectevaluatie Het beleid gericht op centrale toetsing bestaat grofweg uit vier componenten: Verplichte eindtoets Verplicht leerlingvolgsysteem Absolute kwaliteitsnorm voor scholen Invoering begintoets Het beleid gericht op zeer zwakke scholen komt neer op een verkorting van de verbeterperiode voor zeer zwakke scholen. Ten aanzien van componenten „verplichte eindtoets‟, „verplicht leerlingvolgsysteem‟ en „zeer zwakke scholen‟ bestaat er weinig ruimte voor het uittesten van het nieuwe beleid. Het voornemen is om deze componenten in te voeren met ingang van het schooljaar 2012-2013. Voor de componenten „absolute kwaliteitsnorm‟ en „invoering begintoets‟ bestaat ruimte om beleidsvarianten te bedenken en te testen. Deze twee componenten zullen op zijn vroegst in 2014-2015 worden ingevoerd. Voor de evaluatie van de effecten van het beleid zijn er verschillende mogelijkheden. Deze mogelijkheden hangen af van de ruimte die beschikbaar is voor het uittesten van het nieuwe beleid. Verplichte eindtoets en verplicht leerlingvolgsysteem Een eerste mogelijkheid voor evaluatie is het analyseren van bestaande gegevens. Op dit moment gebruikt ongeveer 85 % van de scholen de Cito-eindtoets en 90 tot 95 % van de scholen gebruikt één of meer onderdelen van het Cito-leerlingvolgsysteem. Een mogelijkheid is om scholen te zoeken die de afgelopen jaren zijn gestart met één van beide of beide componenten van centrale toetsing en de resultaten van deze scholen te analyseren voor en na de start van het werken met deze componenten. Aangezien er nog veel meer factoren in de tijd kunnen zijn veranderd is het goed om bij deze analyse ook een controlegroep te gebruiken. Dat zou de groep scholen kunnen zijn die al werkte met de genoemde componenten van centrale toetsing. Een mogelijkheid is om hiervoor gebruik te maken van de gegevens uit het PRIMA-onderzoek. In het PRIMA-onderzoek wordt gemeten of scholen een leerlingvolgsysteem gebruiken en of ze deelnemen aan de CITO-toets. Onderzocht kan worden of er scholen zijn die eerst niet deelnamen aan de CITO-eindtoets en later wel, of scholen die eerst geen leerlingvolgsysteem gebruikten en later wel. Basisscholen moesten al een leerlingvolgsysteem hebben voor hun zorgleerlingen. Het PRIMA-onderzoek bevat echter ook gegevens over het gebruik van het leerlingvolgsysteem. Voor de scholen die één van beide componenten (anders) zijn gaan gebruiken kunnen de resultaten op de PRIMA-toetsen voor en na het gebruik van deze componenten worden 30
vergeleken en kunnen difference-in-differencesmodellen worden geschat waarbij scholen die altijd al deelnamen aan de Cito-eindtoets als controlegroep worden gebruikt. Ook kan, analoog aan het onderzoek naar het Amsterdamse beleid (Chorny et al. 2010) gekeken worden of er in meer steden of regio‟s al beleid is ingevoerd dat leidde tot verplichte deelname aan de CITO-eindtoets. Als de PRIMA-bestanden hiervoor onvoldoende mogelijkheden bieden, kan gezocht worden binnen het totale bestand van basisscholen naar scholen die de afgelopen jaren zijn gestart met het gebruik maken van één van beide of beide componenten. Voor deze scholen zou dan gekeken kunnen worden naar de doorstroom van leerlingen naar het vervolgonderwijs of ook naar de doorstroom binnen het basisonderwijs (zittenblijven, verwijzing naar speciaal onderwijs). Om het effect van deze componenten te schatten zou dan een difference-in-differencesmodel kunnen worden geschat. Een tweede mogelijkheid betreft een vergelijking van een voor- en nameting. Voor de invoering van de verplichte eindtoets is dit echter niet goed mogelijk, omdat er geen vergelijkbare toetsgegevens zijn bij de voormeting (scholen doen immers nog niet mee aan de eindtoets). Deze aanpak kan echter wel worden gebruikt voor het vaststellen van het effect van de invoering van een leerlingvolgsysteem. De voor- en nameting zouden dan nog kunnen worden uitgebreid met een controlegroep van scholen die al wel een leerlingvolgsysteem gebruiken waardoor een difference-in-differencesopzet ontstaat. Verschuiven van de eindtoets De effecten van het verschuiven van de eindtoets kunnen niet worden bepaald op basis van bestaande gegevens omdat deze situatie zich in het verleden nog niet voordeed. In een recente pilot is gekeken naar het effect op de CITO-eindtoets (Kohnstamm/ ITS, 2011). In dit onderzoek is geen effect gevonden op de hoogte van de CITO-eindtoets. Een andere mogelijkheid is om de resultaten op de afgenomen toetsen in het PRIMA-project als ijkpunt te gebruiken. Als van een bepaalde groep studenten zowel de scores op de PRIMA-toetsen als de scores op de CITO-toets bekend zijn kan een vergelijking worden gemaakt voor en na de invoering van het beleid. Als na de verschuiving van de eindtoets het verschil tussen de CITO-score en de PRIMA-score is toegenomen is het aannemelijk dat dit veroorzaakt wordt door de verschuiving. Uit deze analyse, en ook uit de recente pilot, kan evenwel niet worden afgeleid in hoeverre het effect veroorzaakt wordt door de extra onderwijstijd voor de afname van de toets of door een betere benutting (kwaliteit) van de extra onderwijstijd. Voor de beoordeling van het beleid gaat het om het laatste effect. Om dit wel te kunnen beoordelen zijn vergelijkbare uitkomsten nodig voor vroeg getoetste leerlingen en voor laat getoetste leerlingen, bijvoorbeeld hun prestaties in het voortgezet onderwijs of toetsscores aan het begin van het voortgezet onderwijs. Zeer zwakke scholen Ook voor de aanscherping van de verbeterperiode voor zeer zwakke scholen bestaat weinig ruimte voor het uittesten van het nieuwe beleid. Het nieuwe beleid zou op soortgelijke wijze als hiervoor beschreven geëvalueerd kunnen worden met een difference-in-differencesopzet. Daarin worden zeer 31
zwakke scholen voor de invoering van de maatregel vergeleken met zeer zwakke scholen na de invoering van de maatregel. Om ook te corrigeren voor tijdseffecten zou een controlegroep gevormd kunnen worden van zwakke scholen die tegen de grens van zeer zwak aan zitten. Voor beide groepen kunnen voor- en nametingen worden gedaan op indicatoren van onderwijskwaliteit, bij voorkeur resultaten van leerlingen. Maar ook het keuzegedrag van leerlingen (ouders) en leraren is van belang. Leidt een verkorting van het verbetertraject tot minder uitstroom van leerlingen (ongeruste ouders) en minder vertrek van docenten? Absolute kwaliteitsnorm voor scholen en invoering begintoets Pilots uitbreiden met een controlegroep Voor de absolute kwaliteitsnorm en de invoering van een begintoets bestaat meer ruimte om beleidsvarianten te bedenken en pilots uit te voeren. De pilots bieden directe aanknopingspunten voor de evaluatie omdat in dat geval een groep scholen te maken krijgt met het nieuwe beleid (de „pilotgroep‟) en een groep scholen niet te maken krijgt met het nieuwe beleid. Het is voor de evaluatie van belang ook een deel van deze laatste groep te betrekken bij de pilot. Voor een betrouwbare evaluatie is het immers noodzakelijk om een vergelijkbare controlegroep te vinden die niet met het nieuwe beleid te maken krijgt. Pilots vinden meestal plaats bij scholen die daar belangstelling voor hebben of die zich daarvoor hebben aangemeld. Dat betekent dat de groep van pilotscholen vaak een selectieve groep is. Op voorhand is moeilijk in te schatten welke scholen belangstelling zouden hebben voor deze specifieke pilot. Om een controlegroep van scholen te verkrijgen zijn verschillende mogelijkheden. Allereerst kunnen alle scholen worden uitgenodigd met de vraag of men eventueel bereid zou zijn om mee te doen aan de pilot. Vervolgens kan worden geloot onder de scholen die hier positief op hebben gereageerd. De ingelote scholen nemen deel aan de pilot, de uitgelote scholen vormen de controlegroep. Een tweede optie is om vooraf te loten welke groep scholen wel en niet te benaderen. De ingelote groep scholen wordt benaderd met het verzoek of men wil deelnemen aan de pilot. De uitgelote groep wordt niet benaderd. Daarna kunnen de resultaten van beide groepen worden vergeleken. In deze opzet zal binnen de groep scholen die is ingeloot en vervolgens is benaderd, een deel positief en een deel negatief reageren. Het is echter wel degelijk mogelijk om het effect te bepalen voor de groep scholen die positief heeft gereageerd. Vanwege de loting bij de start van deze opzet kan dit effect worden bepaald door het verschil in uitkomsten tussen de benaderde en niet-benaderde scholen te delen door het percentage deelnemende scholen. Dit wordt het „treatment on the treated‟-effect genoemd (de bepaling van dit effect staat bekend als het Bloom-result). Essentieel in deze aanpak is dat de groep scholen die het verzoek tot deelname heeft ontvangen, aselect is bepaald. Bij beide opzetten wordt echter alleen het effect bepaald voor de scholen die bereid zijn om mee te doen aan de pilot. Het onderzoek geeft geen inzicht in de resultaten voor scholen die niet willen meedoen aan de pilot. Beide benaderingen geven wel inzicht in de belangstelling voor en bereidheid van scholen om mee te werken aan het nieuwe beleid. 32
De eerste optie geeft een grotere steekproefpower maar heeft als nadeel dat scholen die zich voor deelname hebben aangemeld toch niet mogen meedoen aan de pilot. Gefaseerde invoering van het nieuwe beleid Een andere optie voor de evaluatie van de absolute kwaliteitsnorm en de begintoets is het gefaseerd invoeren van het nieuwe beleid. Als ervoor gekozen wordt om het beleid gedurende enkele jaren geleidelijk in te voeren en er bijvoorbeeld gestart zou worden in de Noordelijke provincies, gevolgd door de Zuidelijke provincies en daarna de rest van Nederland, ontstaan mogelijkheden om eerste effecten vast te stellen. Hiervoor kunnen weer difference-in-differencesmodellen gebruikt worden waarbij een voor- en nameting wordt gedaan in zowel de experimentele als in de controlegroep. Welke uitkomsten zijn relevant? Bedoelde effecten Het primaire doel van het beleid is het verbeteren van de kwaliteit van het onderwijs. Dit kan worden gemeten door te kijken naar de resultaten van leerlingen, zoals de scores op de CITO-eindtoets, de PRIMA-toetsen, doorstroming van leerlingen binnen het basisonderwijs en naar het vervolgonderwijs, verwijzing naar het speciaal onderwijs. Het beleid beoogt ook bij te dragen aan het opbrengstgericht werken in het onderwijs. Dit opbrengstgericht onderwijs is echter een intermediair doel en niet een einddoel. Aan de hand van indicatoren van opbrengstgericht werken van de Inspectie kan worden bekeken of het beleid heeft bijgedragen aan dit intermediaire doel. Ook interessant is om te kijken naar het keuzegedrag van leerlingen/ouders en van leraren. Leidt een verkorting van het verbetertraject tot minder vertrek van leerlingen en leraren wanneer een school als zeer zwak wordt aangeduid. Onbedoelde effecten Onbedoelde effecten van beleid zouden kunnen bestaan uit het selecteren van leerlingen, bijvoorbeeld het weren van zwakke leerlingen. Aandachtspunt is ook strategisch gedrag van scholen bij de begintoets. Scholen kunnen immers belang hebben bij relatief lage scores op de begintoets. Welke gegevens zijn beschikbaar? PRIMA en COOL-gegevens Bron-data CITO-gegevens
33
6
Prestatiebeloning
6.1
De beleidsinterventie Het kabinet trekt vanaf 2016 structureel jaarlijks 250 miljoen euro uit voor prestatiebeloning op basis van objectief gemeten leerwinst. Deze extra middelen zijn beschikbaar voor de sectoren primair onderwijs, voortgezet onderwijs en het MBO.5 In de eerste jaren is een oploop voorzien, van 10 miljoen in 2012, tot 20 miljoen in 2013, tot 40 mln in 2014 en 200 mln in 2015. Het doel van de invoeren van prestatiebeloning is het verbeteren van de kwaliteit van het onderwijs. In de eerste fase is het de bedoeling van OCW om een aantal verschillende varianten van prestatiebeloning te onderzoeken. De precieze uitwerking van de vorm(en) van prestatiebeloning is nog niet bekend. Bij de uitwerking van deze beleidsinterventie is het verzoek gedaan om speciale aandacht te besteden aan de inzichten vanuit de literatuur over verschillende varianten van prestatiebeloning. Ten aanzien van het ontwerp van de effectevaluatie heeft het ministerie aangegeven om te gaan experimenteren met een aantal varianten van prestatiebeloning.
6.2
Wat leert de literatuur over verschillende varianten van prestatiebeloning? Prestatiebeloning voor leraren kan leiden tot betere onderwijsprestaties van leerlingen via betere prikkels. De beloning kan gekoppeld zijn aan de individuele prestaties (individuele prestatiebeloning) of aan de prestaties van een groep leraren, zoals een afdeling of school (teambeloning). De prestatiebeloning zorgt er in het laatste geval voor dat managers en werknemers dezelfde doelen nastreven. Prestatiebeloning in het onderwijs is een controversieel onderwerp. Problemen rond het meten van de „output‟ van scholen of individuele docenten maken het gebruik van prestatiebeloning lastiger dan in sommige andere sectoren. Zo is het moeilijk om de bijdrage van de leraar of school aan de onderwijsprestaties precies vast te stellen, aangezien de toegevoegde waarde (het verschil in toetsresultaten tussen twee meetmomenten) ook wordt bepaald door inputs van het gezin en de klasgenoten. Door de toegevoegde waarde alleen aan de school toe te schrijven, kunnen prestaties van scholen verkeerd ingeschat worden (Todd en Wolpin, 2003). Daarnaast zijn er complicaties bij het objectief meten van leerwinsten (Lang, 2010). Ook kunnen onderwijsprestaties worden gemanipuleerd door bijvoorbeeld zwakke leerlingen buiten de tests te houden (Ladd en Walsh, 2002; Jacob, 2002; Figlio en Getzler, 2002) of door teaching-to-the-test (Jacob, 2002). Naast problemen met het meten van onderwijsprestaties zitten er ook in algemene zin risico‟s verbonden aan het gebruik van prestatiebeloning. Zo kan individuele prestatiebeloning ertoe leiden dat collega‟s minder goed gaan samenwerken, of elkaar zelfs gaan tegenwerken (Lazear en Rosen, 1981). Teambeloning kan dit 1. De exacte toelichting uit het regeerakkoord is: “geobjectiveerd goede prestaties van docenten worden sterker beloond door het introduceren van opbrengstgerichte financiële beloningen voor (teams van) leraren.”
34
probleem van non-coöperatief gedrag verhelpen, maar daar staat tegenover dat een beloning gebaseerd op een groepsprestatie kan leiden tot liftersgedrag (Lazear, 1999). Er bestaat bovendien enige evidentie dat prestatiebeloning nadelig kan uitpakken wanneer werknemers intrinsiek gemotiveerd zijn (Kreps, 2007; Frey en Jegen, 2001). De afgelopen jaren zijn vele ervaringen met prestatiebeloning opgedaan, met name in de VS en de UK. Daarbij werden verschillende varianten van prestatiebeloning toegepast. Deze varianten kunnen getypeerd worden op basis van de volgende variabelen: de doelgroep, de prestatiemaat, de beloningsmethodiek en de hoogte van de beloning. Wat betreft de doelgroep kan er een onderscheid worden gemaakt tussen individuele prestatiebeloning en teambeloning. Bij het meten van de prestaties kan gekeken worden naar een objectieve prestatiemaat (zoals absolute toetsscores of value-added), een subjectieve prestatiemaat (zoals het oordeel van de schoolleider) of een combinatie van beide. De beloningsmethodiek geeft aan bij welke prestaties een beloning wordt toegekend. Hierbij kan onderscheid gemaakt worden tussen een absolute en relatieve beloningsmethodiek. Bij een absolute beloningsmethodiek wordt de beloning uitgekeerd aan iedereen die een vooraf gesteld prestatieniveau weet te realiseren. In theorie zou de beloning dan aan iedere leraar of school uitgekeerd kunnen worden. Bij een relatieve beloningsmethodiek wordt de beloning toegekend aan een vooraf bepaald percentage van leraren of scholen met de beste scores op de prestatiemaat (zoals een beloning voor de 20% best presterende leraren). Bij een dergelijke methodiek, ook wel „rank-order tournaments‟ genoemd, staan de totale kosten van het programma vooraf vast. Tot slot kunnen de beloningsprogramma‟s verschillen in de hoogte van de in het vooruitzicht gestelde beloning. Onderstaande tabel classificeert de empirische studies naar de effectiviteit van prestatiebeloning op basis van de genoemde dimensies.
35
Studie Eberts et al. (2002)
Doelgroep individueel
Prestatiemaat objectief en subjectief (schooluitval en score op evaluatie door leerlingen)
Beloningsmethodiek relatief
Hoogte beloning ongeveer 12,5% van het jaarsalaris
Resultaat -lagere uitvalpercentages -geen effecten op toetsscores en slagingspercentages
Atkinson et al. (2004)
individueel
relatief
tussen 1000-5000 dollar per leraar.
-positieve effecten op toetsscores, grootte erg afhankelijk van de specificatie
Lavy (2009)
individueel
relatief
tussen 1750-7500 dollar per leraar
-positieve effecten op toetsscores (+7%) -positieve effecten op slagingspercentages (+6%)
Muralidharan en Sandararaman (2009)
individueel en team
objectief (vooruitgang in leerlingprestaties) objectief (toetsscores en slagingspercentages op „matriculation exams‟) objectief (vooruitgang in leerlingprestaties)
relatief
gemiddeld 3% van het jaarsalaris
Springer et al. (2010)
individueel
objectief (vooruitgang in toetsscores bij rekenen)
absoluut
15000, 10000 of 5000 dollar, afhankelijk van grootte vooruitgang
-positieve effecten op toetsscores (+0.28 SD en +0.16 SD op resp. wiskunde en taaltoetsen) - in het eerste jaar dezelfde effecten voor team als voor individuele prikkels, maar in het tweede jaar betere prestaties voor individuele prikkels. - geen effecten op overall test scores (gepoold over jaren en klassen) - positief effect voor laagste deelnemende klasniveau -over het geheel genomen geen effecten op gedrag van leraren in de klas. - 2/3e docenten was niet van mening dat systeem effectieve leraren identificeerde. - wel meer gebruik toetsspecifieke voorbereidingsmaterialen, meer afstemming instructie op de standaarden, 36
meer samenwerking met andere docenten. Glazerman & Seifulla (2010)
individueel
Objectief (vooruitgang in toetsscores bij lezen en rekenen)
4000 dollar voor reguliere docenten, 7000 dollar voor mentordocenten en 15000 dollar voor “lead teachers”. Ook bonussen voor schoolleiders (5000 dollar) op basis van schoolbrede vooruitgang Per leraar 1000 dollar
-Geen bewijs voor effecten op toetsscores. -Geen bewijs voor effect op behoud van docenten -Aandachtspunt bij deze studie is dat meeste analyses gebaseerd zijn op matching en geringe hoeveelheid deelnemende scholen. Bovendien zijn 3 van de 8 deelnemende experimentele scholen uitgevallen.
Ladd (1999)
Team (schoolniveau)
relatief
Lavy (2002)
Team (schoolniveau)
objectief (meerdere maten van vooruitgang in studentuitkomsten, gecorrigeerd voor sociaal economische status) objectief (schooluitval, gemiddeld aantal credits per student en slagingspercentage)
relatief
Tussen 13.000 en 130.000 dollar per school (per leraar ca 13 procent van een jaarsalaris
absoluut (2 tresholds, 1 voor gemiddelde vooruitgang, 1 voor grote vooruitgang)
750 dollar per docent als school gemiddelde treshold bereikt heeft, 1500 dollar voor bereiken hoge vooruitgang.
-0.7 meer credits -hogere deelname aan „matriculation exam‟ - hogere scores en slagingspercentages in „matriculation exams‟ - grootste effecten op zwakke studenten - 23 % van scholen kreeg geen bonus, 35 procent een bonus van 750 dollar per docent en 42 procent een bonus van 1500 dollar per docent. - enig bewijs voor vooruitgang in scores in rekenen. Bij lezen wel vooruitgang op high
Vigdor (2009)
team (school)
objectief (vooruitgang in toetsscores)
- positieve effecten op slagingspercentages (=10% voor lezen en rekenen) en vermindering van uitval.
37
Glewwe et al. (2010)
Team (schoolniveau)
objectief (toetsscores)
relatief (NB: zowel bonussen voor top scorende scholen als scholen met meeste vooruitgang
ca 2-4 % van een jaarsalaris.
Fryer et al. (2011)
Team
Objectief (toetsscores) en subjectief (survey onder leraren, ouders, leerlingen)
Absoluut: halen van vooraf gestelde doelen
1500-3000 $ afhankelijk van mate van doelbereik
stakes toetsen, maar niet op low stakes toetsen. - lijkt ertoe te hebben geleid dat docenten op slecht presterende scholen vaker deze scholen verlaten hebben (om op betere scholen te gaan werken). - eerste jaar niet significant - tweede jaar positief effect op toetsscores (+0.14 SD) - derde jaar (post-treatment) niet significant - geen effect op uitvalpercentages, wel hogere deelname aan toetsen. - geen effecten op “low stakes” examens Geen effect
38
De tabel laat zien dat het bewijs over de effecten van prestatiebeloning gemengd is: sommige studies vinden positieve effecten, andere studies vinden geen (of uitdovende) effecten. Dit geldt zowel voor varianten van teambeloning als voor varianten van individuele beloning. Daarnaast laten veel studies zien dat prestatiebeloning ook strategisch gedrag van scholen of docenten kan uitlokken, bijvoorbeeld teaching to the test of selectie van leerlingen. In het algemeen wordt het ontwerp van de variant van prestatiebeloning niet door de scholen zelf gedaan, maar door externe instanties. In een recente studie (Neal, 2010) is onderzocht in hoeverre de variatie in uitkomsten gerelateerd is aan het ontwerp van het prestatiebeloningssysteem. Anders gezegd, waarom werken bepaalde systemen van prestatiebeloning niet en hoe kan het ontwerp van een prestatiebeloningssysteem worden verbeterd. Volgens Neal is het ontwerp van de meeste prestatiebeloningssystemen tot dusver tamelijk ad-hoc, en niet gebaseerd op theoretische overwegingen. Hij bekijkt de werking van de verschillende prestatiebeloningmodellen vanuit een Multi-tasking model van Holmstrom and Milgrom (1991). Als uitkomst van de studie worden de volgende lessen geformuleerd: 1. Subjectieve bonussystemen werken niet in het onderwijs (of bij de overheid). Ervaringen in Engeland en Portugal laten zien dat bij subjectieve bonussystemen vrijwel iedereen de bonus krijgt. Dit komt waarschijnlijk doordat er in het onderwijs, vergeleken met de private sector, een veel minder sterke relatiebestaat tussen de kwaliteit van het personeelsbeleid van een schoolleider of directeur, en de beloning van deze principaal.Scherpe keuzes bij de toekenning van bonussen worden mogelijk daardoor vermeden. 2. De hoogte van de norm is belangrijk Als de norm voor toekenning van de bonus te hoog is gesteld, zullen docenten zich niet extra gaan inspannen of zich anders gaan gedragen. Dit is volgens Neal een mogelijke verklaring voor de teleurstellende effecten bij het POINT-project in Nashville. Andersom zal een te gemakkelijk te halen norm naar verwachting niet tot wezenlijk ander gedrag van docenten gaan leiden. 3. Een relatieve beloningsmethodiek vermindert de kans op manipulatie en de kans op te hoge (of te lage) standaarden Bij een relatieve beloningsmethodiek is het onmogelijk om het systeem zodanig te manipuleren dat iedereen de bonus krijgt. Ook zijn relatieve beloningsmethodieken ongevoelig voor algemene tijdstrends, zoals een opwaartse verschuiving van het totale prestatieniveau, die ertoe kunnen leiden dat iedereen de bonus ontvangt. 4. Teambeloning bevordert samenwerking en zet niet aan tot tegenwerking Individuele prestatiebeloning kan prikkel geven tot pervers gedrag ten opzichte van collega‟s. Daarentegen bevordert teambeloning de samenwerking. Waarschijnlijk kunnen docenten op een bepaalde school ook het meest leren van hun nabije collega‟s. Daarnaast zijn er statistisch gezien voordelen aan teambeloning. Selectie binnen scholen speelt geen rol meer bij vergelijking van 39
prestaties. Nadeel van teambeloning is dat de mogelijkheid bestaat tot free-riding. Ahn en Vigdor (2010) wijzen er in dit kader op dat verwacht mag worden dat de prikkel van teamprestatiebeloning groter is voor kleinere dan voor grotere scholen/teams. De omvang van het team is derhalve een aandachtspunt bij het ontwerp van een systeem voor prestatiebeloning. 5. Het ontwerp van de test is belangrijk Ook bij relatieve beloningsmethodieken bestaat kans op strategische gedrag van scholen of docenten. Er zou een test ontworpen moeten worden waarbij strategisch gedrag, zoals teaching to the test of coaching, niet loont en goed lesgeven (to teach in ways that build true mastery of the intended domain) wel loont. Dit zouden tests kunnen zijn waar de specifieke inhoud van een item en het format van de beoordeling niet voorspelbaar zijn. Anders gezegd, dit zouden tests kunnen zijn die steeds betrekking hebben op een specifiek deel van het curriculum, maar die aanzienlijk variëren qua inhoud en format van de items. 6. Een systeem gebaseerd op percentielscores maakt het mogelijk om te variëren in de beoordeling van prestaties. Veel van de huidige systemen van prestatiebeloning zijn gerelateerd aan specifieke psychometrische tests. Dit beperkt de mogelijkheden om te variëren qua inhoud en format van de items. Neal (2010) stelt daarom voor om de prestatiemeting te baseren op percentielen. Alle leerlingen worden vooraf ingedeeld in groepen van gelijkwaardige leerlingen. Op basis van de toetsscores worden percentielen gemaakt voor deze groepen en wordt vastgesteld in welk percentiel een bepaalde leerling is geëindigd. Van alle leerlingen in de klas of school wordt vervolgens het gemiddelde percentiel bepaald en dit gemiddelde vormt de basis voor de vergelijking van de prestaties tussen docenten of scholen. Deze methode is alleen gebaseerd op ordinale gegevens en is daarmee onafhankelijk van de specifieke test waarop de prestaties worden gemeten. Een dergelijke systeem maakt het mogelijk om te variëren met verschillende typen beoordelingen en daarmee de kans op teaching to the test of ander strategisch gedrag te verminderen. 7. Voor het vaststellen van de prestaties van het onderwijssysteem over de tijd is het beter een andere toets te kiezen dan de toets die wordt gebruikt voor de prestatiebeloning. Beleidsmakers hebben vaak behoefte aan het vergelijken van de prestaties van het onderwijssysteem over de tijd. Voor een vergelijking over de tijd is het beter om vergelijkbare toetsen te gebruiken. In een systeem van prestatiebeloning is het echter onverstandig om steeds dezelfde test te gebruiken omdat dit allerlei strategisch gedrag uitlokt zoals teaching to the test. Het is daarom belangrijk om voor een vergelijking van de prestaties van het systeem een andere test te gebruiken dan voor de prestatiebeloning. Een vergelijking tussen de twee toetsen kan inzicht bieden in mogelijk strategisch gedrag van scholen of docenten.
40
8. Systemen van prestatiebeloning richten zich alleen op cognitieve uitkomsten en niet op nietcognitieve uitkomsten. De focus van systemen van prestatiebeloning ligt op cognitieve uitkomsten. Om ervoor te zorgen dat niet-cognitieve uitkomsten niet worden verwaarloosd is het van belang om een breder systeem te hebben van prikkels voor scholen en docenten, b.v. schoolkeuze (stemmen met de voeten) of inspectietoezicht. Deze lessen suggereren een voorkeur voor systemen van prestatiebeloning die getypeerd worden door: Teambeloning Objectieve prestatiemeting Relatieve beloningsmethodiek. Gebruik maken van „ pay for percentile modellen‟. Lavy (2007) is minder uitgesproken over het design van het systeem van prestatiebeloning dat de voorkeur verdient6. Hij onderschrijft dat werken in het onderwijs een zekere mate van teamwerk is, maar is ook beducht voor „free-riding‟ (meeliftersgedrag). Hij vindt dat „incentives should balance individual rewards with school incentives‟. Hij meent verder dat een combinatie van subjectieve en objectieve beoordeling van prestaties goed zou kunnen werken, omdat aan zowel objectieve als subjectieve prestatiematen nadelen zitten. Ook acht hij het tegengaan van „gaming‟ van groot belang. Dat kan door goede supervisie en door verschillende toetsen te gebruiken, b.v. centrale examens en schoolexamens. Ten aanzien van de prestatiemaat acht hij transparantie belangrijk. Het is belangrijk dat de prestatiemaat kan corrigeren voor verschillende factoren, zoals de sociaal-economische achtergrond van leerlingen, maar de maat moet niet te complex worden. Daarnaast moeten de gestelde doelen haalbaar zijn en niet te ambitieus. De conclusie op basis van dit recente werk is dat er op dit moment nog geen blauwdruk beschikbaar is voor het optimale ontwerp van een systeem van prestatiebeloning. Wel zijn er op basis van theorie en empirie lessen en suggesties geformuleerd die kunnen worden gebruikt bij het nieuw ontwerpen van systemen van prestatiebeloning voor het Nederlands onderwijs. 6.3
Ontwerp verklarende evaluatie beleidsdoelen Het oogmerk van de introductie van prestatiebeloning (individueel of voor teams/scholen) is primair het verbeteren van de leerresultaten (betere prestaties, meer leerwinst, minder uitval en goede aansluiting op vervolgonderwijs). Veronderstelling daarbij is dat extrinsieke motivatie in het onderwijs werkt en tot meer inzet en kwaliteit van de kant van onderwijsgevenden leidt. Bij 6
Volgens Lavy moet er de komende tijd vooral veel geëxperimenteerd worden met verschillende vormen van prestatiebeloning (mondelinge mededeling n.a.v. vraag bij conferentie in Zurich, november 2010). 41
teamprestatiebeloning wordt ook verondersteld dat er binnen het team beter wordt samengewerkt en dat dat een synergie-effect heeft. Ten slotte wordt soms genoemd dat de introductie van prestatiebeloning tot een beter personeelsbeleid zou leiden omdat bij selectie en beoordeling de prestaties een duidelijker rol gaan spelen. toetsen veronderstellingen In een verklarende evaluatie, gericht op het verwerven van inzicht in de werkzame mechanismen teneinde mede op basis daarvan beleid waar nodig bij te stellen, zou om te beginnen moeten worden nagegaan in hoeverre de veronderstellingen onder het beleid gefundeerd zijn. Uit onderzoek (zie par. 6.2) blijkt dat individuele en teamprestatiebeloning beide vaak (maar niet altijd) gepaard gaan met toenemende leerprestaties. Maar wat zijn de onderliggende mechanismen die dit resultaat (of het uitblijven daarvan) verklaren? Neemt de inzet van leerkrachten daadwerkelijk toe? Op welke punten (niet)? En om welke redenen? Wordt er bij teamprestatiebeloning inderdaad beter samengewerkt? Op welke punten wel/niet en waarom? En leidt dat inderdaad tot synergie? Door bij experimenten met verschillende vormen van prestatiebeloning kwalitatieve analyse van individuele en collectieve werkprocessen te maken en de daarbij door betrokkenen gehanteerde overwegingen en motieven als verklaringsgrond te benutten, kan meer inzicht in de feitelijk werkzame mechanismen worden verworven. Veronderstelling bij de verschillende vormen van prestatiebeloning is ook dat in de inzet en samenwerking van leraren winst te boeken is. In een verklarende evaluatie is het van belang ook deze veronderstelling te toetsen, bijvoorbeeld door ex ante de open vraag te stellen aan schoolleiders/leraren wat zij als belemmeringen zien voor beter en effectiever onderwijs (hoe pregnant komen daar zaken als motivatie, inzet, samenwerking, waardering naar voren in vergelijking tot andere factoren, zoals regeldruk, administratieve lasten, onderbezettingen e.d.). Vervolgens wordt de vraag gesteld of (vormen van) prestatiebeloning daarop effect zou(den) hebben en hoe en waarom. Ex post kan worden nagegaan in hoeverre inzet en/of samenwerking daadwerkelijk zijn toegenomen en hoe sterk dat samenhangt met leerresultaten. vormen van prestatiebeloning Voor een verklaring van de uitwerking van prestatiebeloning op het gedrag van instellingen en leerkrachten is de vorm van prestatiebeloning van belang. Zij kan op individuen gericht zijn, of op teams (scholen). In het beleid is daartussen nog geen keuze gemaakt. In de fase van experimenten zullen de scholen die willen deelnemen, hierin zelf een keuze kunnen maken. Het is van belang de overwegingen daarvoor te kennen. Behalve potentiële effectiviteit is immers de realiseerbaarheid van en eventuele weerstand tegen bepaalde vormen waarin het beleid in de toekomst kan worden gegoten, van belang om de haalbaarheid en de mogelijke bedoelde en onbedoelde effecten goed te kunnen inschatten. Evenzeer dienen ervaringen van instellingen die met deze verschillende vormen experimenteren, in beeld te worden gebracht, niet alleen in termen van effect op leerprestaties, maar ook wat betreft eventuele andere positieve of negatieve effecten.
42
Een ander belangrijk onderscheid betreft de vraag welke normen voor prestaties worden gehanteerd en wie die formuleert. Vanuit het perspectief van beleidsmakers en uit het oogpunt van verantwoording zijn uniforme criteria wellicht aantrekkelijk. Anderzijds komen vanuit het veld geluiden dat prestaties zouden moeten worden afgemeten aan door scholen/teams zelf geformuleerde ambities, enerzijds omdat dat beter maatwerk garandeert (en dus per saldo tot de grootste „winst‟) en anderzijds omdat dat waarschijnlijk tot meer intrinsiek gemotiveerde teams leidt. Ook hier dienen verschillende arrangementen ook kwalitatief op hun werking (processen) te worden geëvalueerd. Als het om „objectieve‟ indicatoren voor toegevoegde waarde voor het leerproces gaat, wat maakt het dan voor het effect van het instrument uit of het om absolute resultaten, leerwinst, of groei t.o.v. een vorige periode gaat? risico’s, knelpunten en onbedoelde effecten Ten slotte is het in een verklarende evaluatie van belang dat niet alleen de mechanismen in kaart worden gebracht die beoogde effecten (of het uitblijven daarvan) verklaren, maar ook welke mechanismen risico‟s, knelpunten en/of onbedoelde effecten met zich mee kunnen brengen. In de evaluatie zouden daarom potentiële mechanismen moeten worden geïnventariseerd (door uiteenlopende betrokkenen naar hun ervaringen, inschattingen en verwachtingen te vragen) en op hun aanwezigheid en werking worden onderzocht. Gedacht kan worden aan mogelijke mechanismen als de volgende: individuele prestatiebeloning, zeker als die relatief wordt vormgegeven, kan samenwerking tussen leerkrachten verminderen omdat men elkaar als concurrenten gaat zien; dat vermindert mogelijk de synergie. In evaluaties van experimenten met individuele prestatiebeloning dient daarom te worden nagegaan hoe de samenwerking is, of daarin verandering is opgetreden sinds de introductie van prestatiebeloning en in welke (gebrek aan) samenwerking het gezamenlijke en het individuele resultaat beïnvloedt. individuele prestatiebeloning leidt tot verstoring van onderlinge relaties en/of tot vermindering van motivatie, bijvoorbeeld omdat het lastig is individuele prestaties op een niet-omstreden wijze vast te stellen (bijvoorbeeld omdat „leerwinst‟ van een leerling aan de inspanning van meerdere leerkrachten kan worden toegeschreven) , of omdat er jaloezie en/of gebrek aan waardering wordt gevoeld. In verklarende evaluaties zal daarom de vraag naar sfeer, informatie-uitwisseling en samenwerking (zie vorige punt) moeten worden meegenomen. bij teamprestatiebeloning is er het risico van meeliftgedrag. Wordt dit in eerste instantie spontaan of in tweede instantie desgevraagd genoemd bij kwalitatieve ex post evaluatie? Welke verklaring geven respondenten daarvoor? Maakt het iets uit of om extern of intern geformuleerde prestatiecriteria gaat (zou uit kunnen maken voor de mate van betrokkenheid of de mate van elkaar aanspreken)? team/schoolprestatiebeloning kan, zeker als daar gestandaardiseerde criteria voor worden gebruikt, leiden tot ranglijstjes van „beste‟ scholen en leiden tot (volgens sommigen oneigenlijke) concurrentie tussen scholen, ander keuzegedrag van ouders/leerlingen. In welke mate treden 43
dergelijke verschuivingen op en hoe worden die vanuit verschillende perspectieven beoordeeld? En tot welke gedragsreacties geven zij aanleiding? prestatiebeloning kan ertoe leiden dat extrinsieke motivatie versterkt en/of intrinsieke motivatie verzwakt wordt. Worden deze effecten spontaan of desgevraagd genoemd? Maakt het daarbij iets uit of het om extern of intern bepaalde prestatiecriteria gaat? prestatiebeloning trekt veel aandacht naar scoren op gehanteerde criteria ten koste van andere aspecten. Treden dergelijke verschuivingen daadwerkelijk op? Hoe worden die vanuit verschillende perspectieven beoordeeld? bij subjectieve beoordeling en/of bij het hanteren van „eigen‟ beoordelingscriteria door bijv. de schoolleiding is de druk tot of de kans op positieve beoordelingen wellicht groot. Wordt er bij subjectieve beoordeling en/of bij het afmeten van prestaties aan intern geformuleerde criteria vaker een prestatiebeloning toegekend dan bij objectieve en/of extern bepaalde criteria? Welke overwegingen en ervaringen/effecten gaan daarmee gepaard? prestaties worden meer door scholing, intrinsieke uitdaging, goede ondersteuning, minder regels en minder administratieve lasten bevorderd dan door beloning. Bij „goed‟ presterende leraren/teams kan worden onderzocht waar dat van komt, zeker als er verbetering is opgetreden. Welke rol blijkt de (mogelijke) extra beloning daarbij te spelen in vergelijking tot de andere factoren? Bovenstaande mogelijke effecten zullen vaak vanuit een normatieve positie worden beoordeeld. In termen van de opzet van een verklarende evaluatie gaat het er echter om de (onbedoelde) effecten zichtbaar te maken en te verklaren (analytisch). Een volgende vraag is dan of die al of niet tot beleidswijzigingen aanleiding zouden moeten geven (normatief). 6.4
Ontwerp effectevaluatie Experimenten met varianten van prestatiebeloning ontworpen door scholen Op dit moment is een aantal experimenten in voorbereiding waarbij de vormgeving van prestatiebeloning door de scholen zelf wordt gedaan. Deze experimenten worden begeleid door prof. Dur van de Erasmus Universiteit Rotterdam. Experimenteren met varianten van prestatiebeloning die zijn ontwikkeld door het departement De directie leraren heeft aangegeven te willen gaan experimenteren met meerdere varianten van prestatiebeloning. Welke varianten dat precies zullen zijn, is op dit moment nog niet duidelijk. De ontwikkeling van deze varianten zal plaatsvinden in een separaat project dat zal worden uitgevoerd door het CPB. Bij deze varianten is het echter op voorhand niet duidelijk in hoeverre scholen bereid zullen zijn om hieraan mee te werken. Als het departement de wens heeft om deze zelf ontwikkelde varianten te testen kan de volgende aanpak gekozen worden. 1. Ontwerp enkele transparante varianten, bijvoorbeeld 3 varianten. 44
2. Stuur een verzoek naar een steekproef van scholen of men bereid is om een bepaalde variant toe te passen. De steekproef van scholen die wordt benaderd met dit verzoek, kan door loting worden bepaald. Daarnaast wordt een controlegroep van scholen gevormd die niet wordt benaderd. Vervolgens zal een deel van de scholen positief en een deel van de scholen negatief reageren op het verzoek om prestatiebeloning toe te passen. Door de resultaten in de experimentele en controlegroep te vergelijken kunnen vervolgens twee effecten worden bepaald: Het effect van het bieden van de mogelijkheid om een variant van prestatiebeloning toe te passen (intention to treat effect), dit is vergelijkbaar met het effect van het aanbieden van een voucher om te gebruiken voor prestatiebeloning; Het effect van prestatiebeloning voor de scholen die het verzoek tot deelname hebben geaccepteerd (treatment effect on the treated). Dit effect is het intention to treat effect gedeeld door het percentage scholen dat bereid is om mee te doen. (in de literatuur wordt dit het Bloom-result genoemd). Een andere optie is om een groep scholen te benaderen met het verzoek om deel te nemen aan een bepaalde variant van prestatiebeloning en vervolgens te loten onder de groep scholen die bereid is om mee te doen. Het nadeel van deze optie is dat sommige bereidwillige scholen niet kunnen meedoen. Een belangrijk aandachtspunt bij de experimenten is de uitvoeringscondities van het beleid, anders gezegd wordt het beleid uitgevoerd zoals bedoeld.
45
7
Hervormingen passend onderwijs
7.1
De beleidsinterventie Het gaat om een combinatie van een behoorlijke reeks interventies: 1. Er wordt in totaal 300 miljoen euro bezuinigd op het budget voor passend onderwijs. Dit komt overeen met ca 25% van het totale budget voor zware zorg, en ca 8 procent van het totale zorgbudget van 3,7 miljard euro. 2. Er worden nieuwe geografisch afgebakende samenwerkingsverbanden opgericht van scholen op sectorniveau. In totaal moet het gaan om circa 75 samenwerkingsverbanden in PO en 75 in VO. In het primair onderwijs gaat het om een samenwerking van reguliere basisscholen, scholen voor speciaal basisonderwijs (sbao) en scholen voor speciaal onderwijs (so). In het voortgezet onderwijs gaat het reguliere scholen voor voortgezet onderwijs (waaronder ook leerwegondersteunend onderwijs), voortgezet speciaal onderwijs (vso) en scholen voor praktijkonderwijs (pro). Deze nieuwe samenwerkingsverbanden komen in de plaats van de bestaande 234 samenwerkingsverbanden “Weer samen naar school” (WSNS) in het primair onderwijs en 83 VO-netwerken in het voortgezet onderwijs die verantwoordelijk waren voor de zogenoemde lichte zorg, en de 34 regionale expertisecentra die verantwoordelijk waren voor zware zorg. 3. De landelijke indicatiecriteria voor zware zorg (rugzak en speciaal onderwijs en voortgezet speciaal onderwijs) komen te vervallen. Nu is het nog zo dat er een commissie van indicatiestelling is die volgens landelijke criteria bepaalt of iemand een positieve beschikking krijgt of niet. Bij een positieve beschikking krijgt de leerling een rugzak voor het volgen van regulier onderwijs (een bepaald bedrag waarvoor zorg kan worden ingezet), of hij kan naar een school voor het (voortgezet) speciaal onderwijs. 4. Daarvoor in de plaats komt een zorgplicht op het niveau van de school in het regulier onderwijs.. Ouders die hun kind aanmelden bij een school hebben recht op een passend onderwijsaanbod bij de school of bij een andere school in het reguliere of speciaal onderwijs binnen het samenwerkingsverband. Dit veronderstelt een niet vrijblijvende samenwerking tussen scholen en besturen. 5. De nieuw op te richten samenwerkingsverbanden krijgen alle middelen, zowel voor lichte zorg als voor zware zorg (met uitzondering van de middelen voor lwoo-pro, hiervoor blijft een aparte financiële stroom bestaan). De bestaande samenwerkingsverbanden hadden alleen de beschikking over de middelen voor lichte zorg. Het samenwerkingsverband is zelf verantwoordelijk voor het opstellen van een procedure voor toewijzing van de middelen. 6. Er komt op het niveau van het samenwerkingsverband een budgetfinanciering voor het totaal aantal middelen voor zowel lichte als zware zorg. Dit is gebaseerd op een vast percentage zorgleerlingen en een vaste gemiddelde prijs per zorgleerling. Dit betekent dat de openeindefinanciering die tot op heden gold voor het speciaal onderwijs komt te vervallen. 46
Voor de lichte zorg in het basisonderwijs gold overigens al een budgetfinanciering (van circa 5 % van het totale aantal leerlingen in het WSNS samenwerkingsverband). De bekostiging voor cluster 1 (visueel beperkte leerlingen) en 2 (doven en slechthorenden en ernstige spraaken/of taalproblematiek) onderwijs blijft overigens buiten de te vormen samenwerkingsverbanden (maar wordt wel gebudgetteerd). Het Lwoo/pro zal ook worden gebudgetteerd, maar deze bekostiging blijft vooralsnog wel plaatsvinden middels een landelijke indicatiesystematiek. 7. Er vindt een regionale verevening plaats vanaf 2016-2017. Regionale verevening vindt plaats in 6 jaar. Het blijkt dat er nu in het oosten van het land meer indicaties worden afgegeven dan in het westen, terwijl uit onderzoek van de Evaluatie Commissie Passend Onderwijs (ECPO)zou blijken dat hier geen legitimatie voor bestaat. De beschikbaarheid van de middelen voor een regionaal samenwerkingsverband wordt gebaseerd op een vast percentage van het aantal leerlingen in de betreffende regio. 8. Parallel aan de taakstelling op passend onderwijs vindt een extra investering in professionaliteit docenten plaats. Hiervoor is in 2012 100 miljoen euro en vanaf 2013 150 miljoen euro extra beschikbaar. Een „substantieel deel‟ hiervan wordt ingezet om leraren en schoolleiders toe te rusten in de omgang met zorgleerlingen. 9. Invoering verplichte toetsen, leerlingvolgsystemen en ontwikkelperspectief. Voor het primair, voortgezet, (voortgezet) speciaal en middelbaar beroepsonderwijs komt een stelsel van uniforme toetsing (en voor primair en voortgezet onderwijs ook verplichte leerlingvolgsystemen). Zorgleerlingen doen gewoon mee aan de toetsing, maar worden op hun eigen niveau beoordeeld. Het door scholen opgestelde ontwikkelperspectief van zorgleerlingen helpt daarbij. Specifiek voor het (voortgezet) speciaal onderwijs was al het wetsvoorstel over de kwaliteit van het (voortgezet) speciaal onderwijs dat erop gericht is de kwaliteitsontwikkeling te bevorderen (ontwikkelingsperspectief en meerdere uitstroomprofielen). Ook zijn er referentieniveaus taal en rekenen opgesteld voor het (v)so. 10. Het Inspectietoezicht wordt verbreed naar samenwerkingsverbanden. De inspectie zal niet alleen toezicht houden op het niveau van de school, maar ook op het niveau van het samenwerkingsverband voor wat betreft de taken die samenwerkingsverbanden krijgen. Daarbij worden ook de prestaties van samenwerkingsverbanden onderling vergeleken. Als de prestaties van een samenwerkingsverband achterblijven, kan dat aanleiding zijn voor vervolgacties. 11. De Inspectie beoordeelt de samenwerkingsverbanden onder meer op: het aantal thuiszitters (al dan niet ingeschreven); de opbrengsten, in relatie tot de toegevoegde waarde van alle scholen in het verband die op basis van de leerlingpopulatie zou mogen worden verwacht; en spreiding en doorstroom in het onderwijs. De doelen van de beleidswijzigingen zijn (zie brief “Naar passend onderwijs” van 31 januari 2011 aan de TK):
47
Leerlingen krijgen zo goed mogelijk onderwijs. Scholen krijgen een zorgplicht waardoor leerlingen een zo goed mogelijk passend onderwijsaanbod krijgen op de school van aanmelding of een andere school in de regio. Het ontwikkelperspectief helpt hier ook bij (naast ook professionalisering van docenten). Minder labeling en meer maatwerk De landelijke indicatiestelling voor zware zorg in combinatie met openeinde financiering (sinds 2008 gebudgetteerd op macroniveau) zorgt voor labeling van leerlingen. Het afstappen van de landelijke indicatiestelling beperkt dit mechanisme. Door de indicatiestelling en de beheersing van het budget beide op het niveau van het samenwerkingsverband te leggen is de verwachting dat meer maatwerk zal plaatshebben. Minder thuiszitters. Nog steeds zitten veel leerlingen thuis. Ondanks de toename van de capaciteit van het (v)so zijn de wachtlijsten voor het (v)so niet verdwenen en zitten er nog steeds tussen de 2500 en 3000 kinderen jaarlijks langer dan vier weken thuis. De zorgplicht op het niveau van de school is gericht op het voorkomen van thuiszitters. Verbeteren kwaliteit (voortgezet) speciaal onderwijs. De kwaliteit van het (v)so is nog vaak onder de maat. Verplichte toetsen, verplichte leerlingvolgstemen en ontwikkelperspectief zijn gericht op het verbeteren van de kwaliteit van het onderwijs. Van de scholen voor (voortgezet) speciaal onderwijs staat bijna 30 procent onder verscherpt toezicht, omdat zij niet aan de kwaliteitseisen voldoen. Dat is in verhouding tot andere onderwijssectoren een zeer hoog percentage, hoewel het voor deze sector een verbetering is ten opzichte van een nog hoger percentage enkele jaren geleden. Docenten voldoende toerusten. Investeringen in de professionalisering van docenten zijn erop gericht dat docenten zich beter in staat voelen om om te gaan met verschillen tussen leerlingen. Docenten zijn nu onvoldoende in staat om leerlingen met een extra zorgbehoefte op te vangen, zonder dat het afbreuk doet aan het onderwijsniveau. De helft van de leraren in het basisonderwijs en het voortgezet onderwijs lukt het niet om het onderwijs goed af te stemmen op verschillen tussen leerlingen. Budgetbeheersing. Door te budgetteren op het niveau van de samenwerkingsverbanden komt een rem op de groei van het budget. Het aantal kinderen met een indicatie voor zware zorg en het bijbehorende recht op begeleiding is fors gestegen. Sinds de invoering in 2003 steeg het aantal “rugzakkers” spectaculair: van 11.000 naar 39.000 leerlingen . Ook het aantal leerlingen in het speciaal onderwijs groeide aanzienlijk: van 54.000 naar 68.000 leerlingen .Het budget is gestegen met een half miljard euro naar 3,7 miljard euro vanaf 2003 (inclusief basisbekostiging). Het totale budget wordt nu vastgelegd op een bekostigingsniveau voor zorg dat vergelijkbaar is met dat van 2005. Meer transparantie. De samenwerkingsverbanden zullen jaarlijks verantwoording afleggen over de inzet van de middelen en de resultaten. Er is nu te weinig zicht op de effectiviteit van de inzet van geld voor leerlingenzorg. De Onderwijsinspectie en de Algemene Rekenkamer hebben hier al op gewezen. Onduidelijkheid over de besteding van middelen is ook een veelgehoorde klacht van leraren.
48
De belangrijkste wijzigingen staan hieronder nog een schematisch samengevat:
Het tijdpad voor invoering van de wijzigingen is als volgt: Inzet is om publicatie van de wet uiterlijk 1 juni 2012 te realiseren. Het wettelijk kader passend onderwijs treedt dan per 1 augustus 2012 in werking. 7.2
Wat leert de literatuur? De empirische kennis omtrent de effecten van het speciaal onderwijs is beperkt. De literatuur geeft alleen enige aanwijzingen dat de vraag naar speciaal onderwijs gevoelig is voor de financieringssystematiek (Cullin, 1999; Sack, 1998; Monk, 1990). Onderzoek naar de effectiviteit van beleid voor het onderwijs aan zorgleerlingen wordt bemoeilijkt door verschillen tussen stelsels van het speciaal onderwijs en het regulier onderwijs enerzijds en moeilijk waarneembare verschillen in capaciteiten tussen zorgleerlingen en gewone leerlingen anderzijds. Daarnaast is er een schaarse beschikbaarheid van cijfers over de deelname aan en kosten van het onderwijs aan zorgleerlingen. Ook blijkt dat de stelsels voor het speciaal onderwijs internationaal zo sterk verschillen dat de gegevens moeilijk internationaal vergelijkbaar zijn. Er zijn dan ook geen internationaal vergelijkende studies naar de effectiviteit van speciaal onderwijs beschikbaar.
7.3
Ontwerp verklarende evaluatie Aanleiding beleidsherziening Aan de kant van de centrale overheid bestaat er een gevoel van urgentie om tot een herziening te komen van het beleid m.b.t. onderwijs aan kinderen met fysieke of geestelijke beperkingen of sociale of gedragsstoornissen. De kosten van bestaande openeinderegelingen rijzen de pan uit, wat zeker in het licht van noodzakelijke overheidsbezuinigingen problematisch is. Daarnaast zijn er veel klachten over de huidige arrangementen, zitten er relatief veel kinderen thuis waarschijnlijk door gebrek aan plaatsingsmogelijkheden en komen veel mensen in de Wajong terecht. Een eerste vraag voor een verklarende evaluatie is dan ook in welke mate deze urgentie herkend en erkend wordt door betrokken 49
actoren (scholen voor regulier en speciaal onderwijs, docenten, Jeugdzorg, ouders en hun organisaties, uitkeringsinstanties, gemeenten enz.), waarop dat urgentiebesef vooral betrekking heeft (de kosten of de kwaliteit van zorg en onderwijs) en in welke mate en op welke wijze de problemen (mede) worden veroorzaakt door het systeem, de regelgeving en de financiering m.b.t. onderwijs aan deze groep. Het antwoord op deze vraag – dat reeds door interviews voorafgaand aan de effectuering van het beleid kan worden gegeven – kan helpen bij de verklaring van de wijze waarop bedoelde actoren op de beleidsinterventies reageren en daarmee het resultaat ervan beïnvloeden. Bij een verklarende evaluatie achteraf kunnen deze vooraf bestaande (en ook op later momenten7 gepeilde) percepties en visies van actoren dan ook worden benut. Beleidstheorie achter het nieuwe beleid Een tweede set van zaken die in een verklarende evaluatie zou moeten worden onderzocht, betreft de veronderstellingen waarop het nieuwe beleid is gebaseerd, met de vraag hoe geldig die veronderstellingen zijn. Enkele centrale veronderstellingen lijken te zijn: Door de indicatiestelling af te schaffen, de zorgplicht bij reguliere scholen neer te leggen en een belangrijk deel van de (gebudgetteerde) middelen bij de (op te richten) samenwerkingsverbanden, zal beter maatwerk worden geleverd, en minder onnodig dure zorg worden geregeld, waardoor leerlingen meer passend onderwijs krijgen en de kosten beperkt kunnen blijven. Reguliere scholen, ondersteund door andere deelnemers in samenwerkingsverbanden zijn goed in staat om ontwikkelingsperspectieven en passend onderwijs voor individuele leerlingen te bepalen. In de (te creëren) samenwerkingsverbanden kan tot betere afstemming worden gekomen dan in de thans bestaande arrangementen. De reële zorgbehoefte betreft overal in Nederland een ongeveer gelijk percentage van de leerlingen. De prestaties van scholen en samenwerkingsverbanden kunnen worden gemeten en vergeleken. Daarvan gaat een prikkel uit om tot betere samenwerking en meer passend onderwijs te komen. De beleidsdoelstellingen (zie boven) kunnen met een beperkter budget (300 mln bezuinigen) worden gerealiseerd. In het kader van een verklarende evaluatie zou gedetailleerder in beeld moeten worden gebracht welke veronderstelde mechanismen er achter deze en eventuele andere veronderstellingen liggen. Welke actoren gaan wat om welke reden anders doen? Dat kan de mogelijkheid bieden al voorafgaand aan de effectuering van het beleid iets te zeggen over geldigheid van de veronderstellingen. Zo kan bij reguliere scholen en andere betrokken actoren door middel van interviews worden nagegaan: Wat zij als tekortkomingen zien van het huidige systeem en of en hoe het nieuwe beleid daar in hun ogen oplossingen voor biedt
7
Op latere momenten zijn ook de samenwerkingsverbanden relevante actoren. 50
Wat zij anders verwachten te gaan doen als gevolg van het nieuwe beleid en waarom Welke steun en middelen zij van nodig denken te hebben om de hun toebedachte rol goed te kunnen vervullen en waar zij die denken te vinden Welke andere effecten zij van het beleid en de afzonderlijke componenten daarvan verwachten en waarom8 Enige tijd na implementatie kan in beeld worden gebracht hoe reguliere scholen (en andere actoren) feitelijk met het gewijzigde beleid omgaan en op grond van welke overwegingen. Onbedoelde effecten Ten derde dient een verklarende evaluatie mogelijke onbedoelde effecten van het beleid en interfererende factoren in kaart te brengen en daarvoor verklaringen te geven. (Mogelijke) onbedoelde effecten kunnen worden geïnventariseerd door betrokken actoren en deskundigen daarnaar te vragen. Dat kan ex ante (verwachtingen) of ex post (ervaringen/waarnemingen). Dezelfde respondenten kunnen wellicht ook verklaringen voor het optreden van de (mogelijke) onbedoelde effecten geven, die vervolgens wellicht op basis van „hardere‟ gegevens te checken zijn. Bij onbedoelde effecten kan bijvoorbeeld gedacht worden aan: negatieve effecten op opbrengstgericht werken landelijke maatstaven verdwijnen, daardoor kan ongelijkheid in beoordeling optreden in de zorg die kinderen nodig hebben; ook kan de transparantie/vergelijkbaarheid van prestaties daarmee worden verminderd moeilijkheden bij oprichten of functioneren van samenwerkingsverbanden (verschillen in belangen, visie, e.d.) lastiger monitoring omdat er minder labeling plaatsvindt: leerlingen die in het regulier onderwijs blijven zijn wellicht moeilijker te volgen (maar dat wordt mogelijk door het formuleren van ontwikkelingsperspectieven gecompenseerd). administratieve lasten en bureaucratie in het kader van samenwerking en/of verantwoording Andere invloeden Ten slotte is het in het kader van een verklarende evaluatie van belang zicht te krijgen op andere factoren die de beoogde effecten kunnen beïnvloeden, zoals interferentie met ander beleid. Zo zou de introductie van centrale toetsing of die van prestatiebeloning invloed kunnen hebben op hoe docenten en scholen met zorgleerlingen omgaan
8
Deze vraag is ook relevant in het kader van het hierna volgende blokje over onbedoelde effecten. De redeneringen die hier naar voren komen kunnen echter ook iets zeggen over de validiteit van de veronderstellingen achter het beleid. 51
arbeidsmarktontwikkelingen die van invloed kunnen zijn op de mate waarin en de snelheid waarmee zorgleerlingen een baan verwerven Dergelijke factoren kunnen verklaren waarom niet-effectief beleid soms wel met beoogde maatschappelijke ontwikkelingen gepaard gaat en omgekeerd waarom effectief beleid niet altijd tot het gewenste resultaat leidt. 7.4
Ontwerp effectevaluatie Er zijn weinig mogelijkheden voor een overtuigende effectevaluatie. Dit komt door een breed palet aan beleidswijzigingen dat in 1 keer wordt ingevoerd. Er lijkt weinig beleidsruimte te bestaan in het traject van invoering, bijvoorbeeld in de zin van het aanbrengen van een fasering. Een andere belangrijke belemmering voor een goede evaluatie is de relatief gebrekkige beschikbaarheid van data over het speciaal onderwijs, met name op het vlak van prestaties/kwaliteit. Het meest haalbare design is een voor- en een nameting. Aan dit design kleven wel beperkingen, afhankelijk van het specifieke effect dat je wilt meten. Een tweede mogelijkheid is het vergelijken van een groep met oude rechten met een vergelijkbare groep die met het nieuwe regime te maken krijgt. Dit stelt wel hoge eisen aan het construeren van een goede vergelijkingsgroep, waarvoor extra inspanningen dienen te worden verricht. 1. Vergelijking situatie voor en na invoering pakket maatregelen Het meest haalbare evaluatieontwerp komt neer op het vergelijken van de situatie voor en na invoering van de beleidswijzigingen. Er zitten wel duidelijke beperkingen aan welke effecten in een voor- en nameting gemeten kunnen worden. Effecten op instroom in het (voortgezet) speciaal onderwijs, lwoo, pro en sbao kunnen goed worden onderzocht. Bij de vraag naar de effecten op instroom gaat het specifiek om het effect op de kans op verwijzing naar speciaal onderwijs. Voor het primair onderwijs gaat het dan om speciaal onderwijs en speciaal basisonderwijs. Voor het voortgezet onderwijs gaat het om ontwikkelingen in aandelen lwooleerlingen en aandelen leerlingen in voortgezet speciaal onderwijs. Cijfers hierover zijn goed te monitoren. Ook kunnen cijfers rondom thuiszitten worden vergeleken; een van doelstellingen van het passend onderwijs is een vermindering van het aantal thuiszitters. Samenhangend met de effecten op instroom in het speciaal onderwijs kunnen de budgettaire consequenties worden gemeten door rekening te houden met het verschil in gemiddelde kostprijs per leerling tussen het reguliere onderwijs en de verschillende vormen van speciaal onderwijs. Dit geeft zicht op de orde van grootte van bezuinigingen die geboekt worden in het nieuwe regime. Veel lastiger is het om de effecten op de onderwijskwaliteit (prestaties van leerlingen) te meten op basis van een voor- en nameting. Het belangrijkste argument is dat het niet aannemelijk is dat de groep leerlingen in het speciaal onderwijs voor en na invoering van het beleid vergelijkbaar zal zijn. Vanwege de mogelijkheid van het hanteren van andere criteria dan de landelijke criteria die op dit 52
moment gehanteerd worden, is het denkbaar dat minder of een ander type leerlingen naar het speciaal onderwijs verwezen worden, bijvoorbeeld alleen nog de leerlingen met de zwaarste problematiek. Anders gezegd, er is dan sprake van samenstellingseffecten. Het ontbreken van data over bijvoorbeeld ernst van problematiek van leerlingen maakt het moeilijk om hiervoor te controleren, terwijl dit wel noodzakelijk is voor een betrouwbare effectmeting.9 Wel zou gezocht kunnen worden naar vergelijkbare leerlingen onder de oude en de nieuwe situatie. Dit zouden bijvoorbeeld leerlingen kunnen zijn met een grote kans om deel te nemen aan het speciaal onderwijs, onafhankelijk van de veranderingen in het beleid. Een tweede argument waarom het lastig is om de effecten op onderwijskwaliteit te meten zijn is dat dit betrouwbare data over onderwijskwaliteit vergt. Die data zijn nu niet (gestandaardiseerd) beschikbaar voor het speciaal onderwijs, zoals dat wel het geval is in het reguliere onderwijs via centrale eindtoetsen en leerlingvolgsystemen.10 Het alternatief om het hele cohort (dus de gecombineerde totale groep deelnemers aan regulier onderwijs en speciaal onderwijs) voor en na te vergelijken is niet aantrekkelijk, omdat dan het hele basisonderwijs wordt meegenomen, waar ook allerlei veranderingen optreden. Hierdoor weet je niet meer van welke beleidsmaatregelen je het effect nu aan het meten bent. Een ander mogelijk effect dat door een voor- en nameting kan worden onderzocht, is het effect op klassengrootte in het speciaal onderwijs (en het reguliere onderwijs). Het is denkbaar dat deze klassengrootte toeneemt door de voorgestelde bezuinigingen. In de literatuur worden overigens over het algemeen bescheiden effecten gevonden van klassengrootte op onderwijskwaliteit in het reguliere onderwijs. 2. Vergelijking groep met oude rechten met vergelijkbare groep met nieuwe rechten Een alternatief evaluatieontwerp kan mogelijk gebruik maken van indicaties die zijn toegekend voorafgaand aan 2013 en die (mogelijkerwijs, dat wordt nog bekeken met juristen) blijven bestaan na de invoering van passend onderwijs in 2013 (bestaande gevallen ontzien).11 Het idee is dan dat de onderwijsloopbaan/prestaties van een groep leerlingen vergeleken wordt die nog recht blijft houden op de oude financiering met een vergelijkbare groep leerlingen die onder de nieuwe financiering en criteria een ander (qua intensiteit of type) of wellicht zelfs helemaal geen extra zorgaanbod krijgen. Op deze manier kunnen effecten van een verschillende intensiteit en/of type zorgaanbod worden onderzocht. Deze aanpak vereist wel dat: 9
Het is wellicht mogelijk om via COOL speciaal een beeld te krijgen van de samenstelling en het aanvangsniveau van leerlingen in het speciaal onderwijs onder het huidige regime. Als extra inspanningen worden ingezet om hetzelfde te doen voor cohorten in het speciaal onderwijs na invoering van de beleidswijzigingen, kunnen effecten op de samenstelling van de instroom worden onderzocht. 10 Indirectere maatstaven die iets zouden kunnen zeggen over de kwaliteit zijn wel beschikbaar, zoals het al dan niet behalen van een diploma, doorstroom naar vervolgonderwijs, doorstroom naar arbeid, doorstroom naar uitkering. Het eerder genoemde zorgpunt van het risico van samenstellingseffecten blijft echter ook bij deze indicatoren een belangrijk punt van aandacht. Ook kan het een behoorlijke tijd duren voordat deze gegevens beschikbaar zijn voor cohorten die met het nieuwe regime worden geconfronteerd. 11 OCW heeft aangegeven dat de intentie is dat een indicatie voor zware zorg maximaal 2 jaar blijft staan. Na 2 jaar moet het samenwerkingsverband alle leerlingen opnieuw geïndiceerd hebben. 53
1. Ten behoeve van de samenstelling van een geloofwaardige controlegroep ook na invoering van de beleidswijziging nog wordt bekeken of de leerlingen die onder het nieuwe regime vallen en een bepaald zorgaanbod krijgen onder het oude regime nog in aanmerking zouden zijn gekomen voor een indicatie voor zware zorg, conform de (oude) landelijke indicatiecriteria. 2. Het label zorgleerling (en type: sbao, speciaal onderwijs of rugzakleerling) zowel in de oude als de nieuwe situatie op individueel niveau wordt geregistreerd, tenminste voor de te vergelijken groepen. 3. De onderwijsloopbanen en prestaties van een voldoende grote groep met oude rechten en een vergelijkbare groep onder het nieuwe regime enige jaren worden gevolgd. De vraag is in hoeverre aan deze eisen kan worden voldaan. Een laatste evaluatiemogelijkheid die besproken is, is om gebruik te maken van de regionale verevening in budgetten die gaat plaatsvinden. Deze verevening leidt tot toevallige variatie tussen regio‟s in de hoogte van de zorgbudgetten over de tijd: sommige regio‟s zullen erop vooruitgaan, sommige regio‟s gaan erop achteruit. Dit zou mogelijkheden kunnen bieden voor een evaluatie van de invloed van de hoogte van budgetten op allerlei uitkomstindicatoren. Van OCW hebben we echter begrepen dat deze verevening stapsgewijs gaat plaatsvinden. De verwachting is daarom dat de schokken in financiering over de tijd te gering zullen zijn om hiervan effecten te kunnen meten. Effectindicatoren Er kunnen zowel bedoelde als onbedoelde effecten optreden. Beide type uitkomsten zijn van belang om te monitoren. Bedoelde uitkomsten: Afgaande op de beschreven doelen zijn de volgende indicatoren van belang: Ontwikkeling totaal budget voor passend onderwijs. Ook het apart geregelde budget voor lwoo financiering dient hier onderdeel van te zijn. Aandeel gelabelde zorgleerlingen. Aantal thuiszitters Aandeel zwakke en zeer zwakke scholen(v)so12 (kan iets zeggen over ontwikkeling kwaliteit speciaal onderwijs) Voor onderwijskwaliteit is het minder duidelijk welke overige betrouwbare indicatoren hier iets over zouden kunnen zeggen. Mogelijk kan de cohortstudie COOL-speciaal hier nog uitkomst bieden, waarin toetsen worden afgenomen alsook een uitgebreide set achtergrondindicatoren van kinderen. Dit
12
Er moet bij een voor- en nameting wel bekeken worden in hoeverre criteria voor het bepalen van deze labels niet over de tijd veranderen. 54
vereist wel dat voor een vergelijkingsgroep na invoering van de beleidswijzigingen dezelfde gegevens worden verzameld en dezelfde toetsen worden afgenomen. Onbedoelde uitkomsten Verlaging van prestaties van zorgleerlingen. De bezuinigingen kunnen mogelijk leiden tot een beperkter zorgaanbod voor zorgleerlingen. De vraag is in hoeverre dit de prestaties/onderwijsloopbanen van deze leerlingen negatief beïnvloedt. Meer zittenblijven van zorgleerlingen in het regulier onderwijs. In hoeverre leidt dit juist tot extra kosten in verband met de bekostiging vanuit OCW per kind per jaar? Slechtere prestaties van niet-zorgleerlingen leerlingen in het reguliere onderwijs. Het is denkbaar dat er door de beleidsmaatregelen meer zorgleerlingen in het reguliere onderwijs zullen worden opgevangen dan nu het geval is. De vraag wat dit betekent voor prestaties van reguliere leerlingen is een beleidsrelevante vraag. Lavy et al (2009, NBER WP 14415) en Figlio (2005, NBER WP 11277) geven aanwijzingen dat het aandeel laag presterende leerlingen of aandeel leerlingen met gedragsproblemen negatieve effecten heeft op de prestaties van de overige leerlingen. Meer kinderen die thuis komen te zitten vanwege het mogelijk ontstaan/oplopen van wachtlijsten als gevolg van de korting op budgetten voor zware zorg?
55
8
Beter Presteren
8.1
De beleidsinterventie Het Kabinet wil in 2011 starten met het Actieplan Beter Presteren in het VO. Naast aandacht voor de kwaliteit van leraren en excellente leerlingen speelt focus in het onderwijsprogramma hierbij een belangrijke rol. In dit kader bevat het actieplan de volgende elementen: • In het basiscurriculum in het primair en voortgezet onderwijs (zowel de onderbouw als de bovenbouwprogramma‟s van vmbo, havo en vwo) komt meer nadruk te liggen op de zogenoemde „doorstroomrelevante‟ vakken Nederlands, Engels en wiskunde. • Er wordt een tussentijdse toets geïntroduceerd aan het eind van de onderbouw, waarin de voortgang en leerwinst van leerlingen op deze vakken wordt getoetst. Op deze manier krijgen leraren inzicht in de achterstanden van leerlingen en krijgen leerlingen meer toetservaring. • De complexiteit van de onderwijsstructuur wordt beperkt, door een vermindering van het aantal profielen in de bovenbouw van het havo/vwo. Doel van dit actieplan is om de onderwijstijd effectief en efficiënt in te zetten met nadruk op de vakken die het meest relevant zijn voor de latere doorstroom. Een beperking van de complexiteit van de onderwijsstructuur moeten bijdragen aan een sterkere focus voor leerlingen, de organiseerbaarheid voor scholen en een doelmatige inzet van middelen. Dit moet tot lagere kosten leiden onder de randvoorwaarde dat er geen ongewenste effecten optreden in het onderwijsproces.13
Wat zijn de voornemens voor de beleidsontwikkeling rond deze interventie? Wat is het tijdpad? Wordt de interventie getest, en hoe gebeurt dit dan? Hoe werd dit in het verleden aangepakt met een soortgelijk interventie?
Eén van de aanleidingen voor het actieplan vormt het in december 2010 verschenen OESO-rapport over PISA 2009. Hieruit blijkt dat Nederland op toetsresultaten voor lezen, wiskunde en science tot de subtop van de wereld behoort en dat er sprake is van een dalende trend in onze relatieve positie voor de vakken science en wiskunde. Met het actieplan Beter Presteren wordt beoogd de onderwijsprestaties van leerlingen te verbeteren. Dit past in de ambitie van het kabinet om tot de top 5 van sterkste kenniseconomieën te behoren. 13
Voorbeelden van genoemde ongewenste effecten in dit kader zijn o.a. een afname van de doorstroom naar het hoger onderwijs, een toename van het aantal switchers of uitvallers bij vervolgstudies en een lager percentage vrouwen dat voor techniek kiest. 56
Eind februari heeft de Onderwijsraad op verzoek van de Minister een advies uitgebracht over het actieplan. Hieruit komt onder andere naar voren dat de onderbouwtoets elk jaar door 20% van de scholen gemaakt zou moeten worden. Elke school zou dan eens in de vijf jaar aan de toets worden onderworpen. Door te toetsen op referentieniveaus zal er vanzelf meer focus op het kerncurriculum komen. De Onderwijsraad denkt niet direct aan het uitbreiden van het aantal lesuren om meer focus aan te brengen. Wat betreft de beperking van het aantal profielen wordt aan meerdere varianten gedacht. Naast het oorspronkelijke plan het aantal profielen te beperken van vier tot twee bredere uitstroomprofielen (alfa en bèta), noemt de Onderwijsraad ook een variant waarin terug wordt gegaan naar 0 profielen waarbij alleen de vakken Nederlands, Engels en wiskunde verplicht zijn. Deze optie biedt, naast de genoemde kernvakken, juist meer keuzeruimte voor leerlingen en meer flexibiliteit aan scholen wat betreft vakaanbod. 8.2
Wat leert de literatuur? Bij de selectie van relevante studies beperken wij ons tot de (quasi-)experimentele literatuur (zie algemene inleiding voor de methodologische criteria). Wat betreft de introductie van een onderbouwtoets is er experimentele literatuur die positieve effecten vindt van het gebruik van interne assessment- en toetsresultaten op de kwaliteit van het onderwijs (Kluger en DeNisi, 1996; Black and William, 1997; Hattie en Imperley, 2007). De auteurs concluderen op basis van meta-analyses en literatuurstudies dat feedback en het gebruik van toetsresultaten op klasniveau kunnen bijdragen aan effectiever onderwijs. Relevante literatuur die raakt aan de intensivering op het gebied van de doorstroomrelevante vakken, betreft empirische studies over de effecten van extra onderwijstijd. Enkele studies die zich richten op extra lesdagen of extra uren voor rekenen en taal (Loeb en Bound, 1996; Link en Mulligan, 1986; Lavy, 1998) vinden positieve effecten op de toetsscores van leerlingen. De focus op het kerncurriculum wordt door de Onderwijsraad echter niet direct gekoppeld aan een uitbreiding van de urennorm.
8.3
Ontwerp verklarende evaluatie De werking van de afzonderlijke maatregelen en van de combinatie daarvan wordt bepaald door de directe en indirecte gedragsveranderingen die zij bij scholen en leerlingen teweegbrengen en door hoe die gedragsveranderingen de aard en effectiviteit van het leren beïnvloeden. Dit gedrag en de effecten daarvan kan via allerlei verwachte en onverwachte mechanismen tot stand komen. Het is van belang om deze mechanismen te kennen en te verklaren. Op basis daarvan kan het beleid, de implementatie ervan en de monitoring ervan worden aangepast en verbeterd. Om in een verklarende evaluatie de feitelijk of mogelijk optredende mechanismen goed in kaart te brengen kunnen zowel ex ante als ex post twee stappen worden gezet. In de eerste stap wordt door interviews met een aantal betrokkenen op verschillende posities (schoolleiders, leraren, leerlingen, wetenschappelijk deskundigen) geïnventariseerde welke mechanismen zij verwachten of waarnemen. Vervolgens wordt meer 57
systematisch op basis van beschikbaar cijfermateriaal, enquêtes en andere gegevens getoetst of en in welke mate de verwachtingen/waarnemingen van de respondenten zich daadwerkelijk voordoen. Ex ante kunnen uiteraard geen feitelijke effecten worden vastgesteld, maar geïnformeerde inschattingen kunnen in dit stadium bijdragen aan adequate monitoring en eventueel bijgesteld of aanvullend beleid. Ex post in beeld gebrachte verklaringen zijn, naar mag worden aangenomen mede op ervaring met het beleid gebaseerd en zijn daardoor betrouwbaarder en meer valide. Zij kunnen bovendien met getalsmatige verschuivingen worden geconfronteerd. In de verklarende evaluatie zou als eerste stap onder meer op de volgende punten moeten worden ingegaan. Wat zien schoolleiders/leraren/leerlingen als voor- en nadelen van meer focus op kernvakken, minder profielen en een toets aan het einde van de onderbouw? Met deze open vraag kan inzicht worden gekregen in de belangrijkste effecten die betrokkenen verwachten (of ex post ervaren) en in hoe zij die verklaren en waarderen. Verwachtingen, percepties en waarderingen die ex ante bestaan zijn nog om een andere reden interessant. Zij kunnen als zodanig het feitelijke gedrag beïnvloeden en mede verklaren. Welke effecten op motivatie en leerwinst zien leraren/leerlingen bij meer focus op kernvakken? Welke andere effecten zien zij, bijvoorbeeld m.b.t. aandacht voor niet-kernvakken, profiel/competenties/employability/vervolgopleidingen/maatschappelijk functioneren aan het einde van opleiding? Tot welke gedragreacties (bijvoorbeeld aanpassing van niet-kernvakken) leidt dat? Wat zijn de verwachtingen c.q. ervaringen van vervolgopleidingen m.b.t. de kwaliteiten van hun instroom? Welke overwegingen hebben leerlingen die binnenkort een profiel moeten kiezen, of recent hebben gekozen, voor hun keuze? Veranderen die overwegingen door vermindering van het aantal profielen? Tot welke verschuivingen in profielkeuze leidt dat? Welke effecten ziet men bij leerlingen, leraren en scholen als gevolg van de introductie van de onderbouwtoets, waarom en hoe denkt men daarop te reageren/reageert men daarop? Welke gedragsveranderingen, voor- en nadelen zien leraren/leerlingen/schoolleiding/vervolgopleidingen m.b.t. de combinatie van genoemde maatregelen? Leiden die bijv. per saldo tot meer of tot minder focus/coherentie/aansluiting op vervolgonderwijs/enz. Leiden ze per saldo tot beter maatwerk, resultaatgericht werken en waarom? Hoe reageren zij daarop en waarom? Ex post kan worden getoetst of de verwachte effecten daadwerkelijk optreden. Verklaringen daarvoor kunnen soms ook reeds ex ante of tijdens de implementatie worden getoetst. Als bijvoorbeeld de verwachting is dat een curriculum met minder vakken (waarvoor in het kader van de concentratie op kernvakken zou kunnen worden gekozen) tot minder gemotiveerde leerlingen zou leiden omdat het programma als saaier wordt ervaren, kan daarover onder leerlingen een enquête worden gehouden, of 58
worden nagegaan of er al overigens vergelijkbare programma‟s met een verschillend aantal vakken bestaan, om vervolgens de verschillen in motivatie tussen die programma‟s te onderzoeken. De beelden die uit deze onderzoekingen naar voren komen, kunnen bijdragen aan een inschatting (ex ante) en verklaring (ex post) van gedragsveranderingen en mede daarop gebaseerde effecten. 8.4
Ontwerp effectevaluatie Het actieplan bevat verschillende elementen, die mogelijk met elkaar interacteren. Evaluatie kan zich richten op het actieplan als geheel, of op afzonderlijke (combinaties van) elementen. Een evaluatie van het actieplan als geheel zal inzicht geven in de effectiviteit van het totale pakket en de te verwachten effecten bij landelijke opschaling van het beleid, maar biedt geen inzicht in de werking van de individuele elementen of mogelijke interacties. Een evaluatie van de elementen afzonderlijk geeft inzicht in hun individuele effectiviteit. Bij een dergelijke evaluatie is van belang dat de (operationele) doelen van de verschillende elementen duidelijk geformuleerd zijn. Is de onderbouwtoets bijvoorbeeld primair bedoeld om de leerlingen te stimuleren, om ze te laten wennen aan het maken van toetsen, om te diagnosticeren ten behoeve van de docenten, of om de gerealiseerde leerwinsten van scholen inzichtelijk te maken? Een helder afgebakend doel draagt bij aan de uitvoerbaarheid van een effectevaluatie. 14 De verschillende beleidselementen zullen vermoedelijk gefaseerd worden ingevoerd. De precieze implementatiestrategie is op dit moment nog onbekend. Onderstaande evaluatieontwerpen bieden handvatten om te leren van de implementatie van het nieuwe beleid. Er zijn verschillende mogelijkheden om de effectiviteit van (de elementen van) het actieplan te evalueren. Allereerst kan er gestart worden met pilots, waarbij het beleid eerst bij een beperkte groep scholen wordt ingevoerd. Daarnaast kan gebruik worden gemaakt van zogenoemde „cross-over designs‟, of van een vergelijking tussen verschillende vakken. Elk van deze opties zal hieronder besproken worden.
Pilots Dit evaluatieontwerp gaat uit van een pilootperiode waarin het beleid bij een beperkte groep scholen wordt ingevoerd. In deze eerste fase is er dus zowel een groep scholen die met het beleid te maken krijgt (de „pilotgroep‟) als een groep scholen die (nog) niet met het beleid te maken krijgt. Het is voor de evaluatie van belang ook een deel van deze laatste groep te betrekken bij het experiment. Voor een betrouwbare evaluatie is het immers noodzakelijk om een vergelijkbare controlegroep te vinden die 14
De Onderwijsraad ziet de onderbouwtoets met name in het kader van opbrengstgericht werken: docenten zouden, gebruikmakend van de informatie uit de toetsresultaten, hun onderwijs kunnen aanpassen om prestaties van leerlingen te verbeteren. 59
niet met het nieuwe beleid te maken krijgt. Pilots vinden meestal plaats bij scholen die daar belangstelling voor hebben of die zich daarvoor hebben aangemeld. Dat betekent dat de groep van pilotscholen vaak een selectieve groep scholen is. Bij de opzet van de pilot zou ervoor gekozen kunnen worden om een bepaalde groep scholen wel te benaderen met de vraag of men wil deelnemen aan de pilot en een andere groep scholen niet te benaderen met dit verzoek. De eerste groep scholen vormt de experimentele groep en de tweede groep scholen vormt de controlegroep. Welke scholen benaderd worden kan vooraf bepaald worden door loting. In principe hoeven scholen niet te weten dat ze zijn inof uitgeloot voor het verzoek tot deelname aan de pilot. Maar dit kan ook worden gecommuniceerd naar scholen. Vervolgens zal een deel van de scholen die het verzoek hebben ontvangen, wel bereid zijn om mee te doen en een deel van de scholen zal niet willen deelnemen. Door uitkomstmaten te vergelijken tussen de experimentgroep en controlegroep kunnen twee beleidseffecten betrouwbaar bepaald worden. Een vergelijking tussen de totale experimentgroep en de controlegroep geeft het effect van „het aanbieden van de pilot‟. Dit heet het „intention to treat‟-effect. Daarnaast kan het effect worden bepaald voor de groep scholen die heeft deelgenomen aan de pilot. Dit kan worden bepaald door het „intention to treat‟-effect te delen door het percentage scholen uit de experimentele groep dat heeft deelgenomen aan de pilot. Dit wordt het „treatment on the treated‟-effect genoemd (de bepaling van dit effect staat bekend als het Bloom-result). Essentieel in deze aanpak is dat de groep scholen die het verzoek tot deelname heeft ontvangen, aselect is bepaald. Een alternatief voor de aselecte toewijzing van scholen aan de experimentgroep en controlegroep is de invoering van de pilot in bepaalde regio‟s. Scholen in de „pilotregio‟s‟ worden uitgenodigd voor deelname aan het experiment en scholen in andere regio‟s kunnen worden gebruikt als controlegroep. Nadeel hiervan is dat de beide groepen mogelijk minder vergelijkbaar zullen zijn. In deze opzet kan de effectiviteit worden bepaald door gebruik te maken van zowel voormetingen (toetscores in beide groepen voor de invoering van het beleid) als nametingen in een „difference-in-differences‟-analyse. Het beleidseffect wordt dan bepaald door het verschil tussen de na- en voormeting in de experimentele groep te verminderen met het verschil in de controlegroep. Zoals gezegd, bevat het actieplan verschillende elementen. De effectiviteit van de individuele componenten kan worden geëvalueerd door het aantal pilots uit te breiden. Afhankelijk van de precieze invoeringsstrategie zou dit concreet kunnen worden vormgegeven door te werken met meerdere pilotgroepen. Zo kan bijvoorbeeld een groep worden uitgenodigd voor deelname aan een pilot met meer focus op het kerncurriculum en een groep voor een pilot met vermindering van het aantal profielen. Dit zijn eigenlijk twee verschillende experimenten voor twee afzonderlijke componenten waarbij gebruik kan worden gemaakt van dezelfde controlegroep waarin de beleidsomgeving niet verandert. Op deze manier wordt inzicht verschaft in de werking van de verschillende elementen en daarmee ook van hun relatieve effectiviteit. Dit evaluatieontwerp kan desgewenst nog verder worden uitgebreid wanneer men ook inzicht wil in combinaties van elementen 60
(zoals de invoering van meer focus op het kerncurriculum in combinatie met de invoering van de onderbouwtoets). Dit verschaft ook informatie over mogelijke interacties zoals synergie-effecten. Bij het opzetten van meerdere pilots is het van belang ervoor te blijven zorgen dat er voldoende deelnemers per experiment betrokken zijn. Bij het gebruik van pilots is er vaak maar een jaar ruimte voordat een wet voor de hele sector gaat gelden. In dat geval kunnen de effecten na één jaar geëvalueerd worden. Vanuit het oogpunt van de evaluatie is die periode te kort om alle effecten goed te kunnen vaststellen en zou meer experimenteertijd goed zijn. Wel kan worden vastgesteld of de kwaliteit van het onderwijs in het eerste jaar van de pilot is verbeterd door het hele pakket aan maatregelen of door specifieke maatregelen. Voor bepaalde interventies of uitkomstmaten zou een langere tijdshorizon gewenst kunnen zijn. Zo zullen de effecten van een vermindering van het aantal profielen op de deelname aan het hoger onderwijs pas na enkele jaren zichtbaar worden. Hier kan rekening mee gehouden worden bij de keuze voor uitvoering van bepaalde pilots of de opzet van deze pilots. Cross-over designs Een tweede evaluatiedesign betreft het zogenoemde „cross-over design‟. Dit evaluatieontwerp is enkel geschikt voor het evalueren van de losse elementen van het actieplan, en niet voor het actieplan als geheel. Bij een dergelijk design is de ene school experimentgroep voor een eerste element en controlegroep voor een tweede element, terwijl de andere school controlegroep is voor het eerste en experimentgroep voor het tweede element. Zo zou bijvoorbeeld in het havo op school A de onderbouwtoets kunnen worden geïntroduceerd, terwijl in het vwo op school A niets gebeurt. Tegelijkertijd zou in het vwo op school B de beperking van de profielen kunnen worden geïntroduceerd, terwijl in het havo van school B niets gebeurt. Voor de evaluatie van de effectiviteit van de introductie van de onderbouwtoets vormt het havo op school A de experimentgroep en het havo op school B de controlegroep. Voor de evaluatie van de beperking van het aantal profielen vormt het vwo van school B de experimentgroep en het vwo van school A de controlegroep. Dit design vereist dus dat elke deelnemende school experimentgroep is voor een bepaalde interventie en controlegroep voor een andere interventie. Dit design heeft als mogelijk voordeel dat ook van de „controlegroepen‟ een zekere betrokkenheid en inspanning verwacht mag worden, aangezien iedere school ook altijd in minimaal één van de experimenten als experimentgroep participeert. Dit maakt het wellicht eenvoudiger om toegang te krijgen tot interne schoolinformatie, zoals toetsscores. Vergelijking tussen vakken Een derde mogelijkheid betreft een vergelijking tussen toetsscores op de doorstroomrelevante vakken en overige vakken. Dit design is alleen geschikt voor een evaluatie van de elementen gericht op het kerncurriculum (meer focus en de introductie van de onderbouwtoets). De doorstroomrelevante vakken, waarbij nieuw beleid wordt geïntroduceerd, vormen de experimentgroep. Overige vakken, 61
waar geen nieuw beleid wordt geïntroduceerd, vormen de controlegroep. Vervolgens kan het beleidseffect worden bepaald in een „difference-in-differences‟-analyse, door het verschil tussen prestaties na en voor de invoering van het beleid in de experimentgroep te vergelijken met het verschil in prestaties in de controlegroep. Aangezien de controlegroep gevormd wordt door een verzameling van andere vakken, kunnen experimentgroep en controlegroep vergeleken worden binnen scholen. Hierdoor is het niet nodig om extra scholen te vinden die als controlegroep kunnen fungeren. Dit design kan in principe ook worden toegepast wanneer het beleid meteen landelijk ingevoerd zou worden. In deze opzet is het van belang dat er geen beleidsveranderingen plaatsvinden bij de vakken die de controlegroep vormen. De sterkere focus op het kerncurriculum mag dus niet ten koste gaan van de aandacht of onderwijstijd voor de vakken die worden opgenomen in de controlegroep. Aangezien de totale onderwijstijd niet verlengd wordt, is dit een sterke conditie die vooraf goed getoetst zal moeten worden. Welke uitkomsten zijn relevant? Bedoelde effecten Wat betreft meer focus op het kerncurriculum is het beleid is gericht op het verbeteren van onderwijsprestaties op de doorstroomrelevante vakken. De meest relevante uitkomstmaten vormen dan ook toetsscores van leerlingen. Deze scores kunnen periodiek worden gemeten, bijvoorbeeld na een half jaar of na een jaar. Meer focus op het kerncurriculum zal mogelijk al op korter termijn effect kunnen hebben op de leerprestaties. Dit kan worden onderzocht door gebruik te maken van centrale eindexamens of schooltoetsen. De beperking van het aantal profielen beoogt een betere organiseerbaarheid voor scholen te realiseren. Dit zou moeten leiden tot een kostenbesparing onder de randvoorwaarde dat de onderwijskwaliteit niet verslechtert en dat geen ongewenste effecten optreden in de keuzeprocessen.
Onbedoelde effecten Ter toetsing van de randvoorwaarden kan gekeken worden naar keuzeprocessen van zowel scholen als leerlingen en naar de gevolgen voor de aansluiting op het vervolgonderwijs. Welke effecten heeft een beperking van het aantal profielen op het vakaanbod van scholen? En welke profielen worden gekozen door de leerlingen: is er wellicht sprake van een verschuiving naar lichtere of zwaardere profielen? Deze uitkomsten zijn op relatief korte termijn beschikbaar. Op langere termijn kan ook gekeken worden naar bijvoorbeeld de deelname aan het hoger onderwijs. Welke gegevens zijn beschikbaar? 62
Voor de evaluatie zou in ieder geval gebruik kunnen worden gemaakt van de centrale examens. Het feit dat deze examens per opleidingsniveau hetzelfde zijn voor alle scholen binnen Nederland, maakt ze zeer geschikt om resultaten te vergelijken tussen experimentele en controlegroepen. Mogelijk kan ook gebruik worden gemaakt van andere (gestandaardiseerde) toetsen in andere klassen van het voortgezet onderwijs. Bij het evaluatieontwerp waarin verschillende vakken met elkaar vergeleken worden, is het minder van belang dat er gebruik wordt gemaakt van gestandaardiseerde toetsen. Ook schoolspecifieke vaktoetsen (mits voldoende genormeerd) kunnen hier goed gebruikt worden, aangezien de vergelijking tussen controlegroep en experimentgroep hier plaats kan vinden binnen een school. Voor informatie over deelname aan het hoger onderwijs kan gebruik worden gemaakt van BRON-data.
63
9
Sleutelexperimenten
9.1
De beleidsinterventie Binnen het project sleutelexperimenten wordt aan een aantal geselecteerde onderwijsinstellingen in PO, VO, MBO en HO regelruimte geboden om sectoroverstijgend te experimenteren met de doorlopende leerlijn. Het experiment biedt instellingen derhalve de mogelijkheid af te wijken van de huidige wettelijke regelgeving om de aansluiting tussen onderwijssectoren te verbeteren. De voorstellen voor de specifieke interventies zullen vanuit de onderwijsinstellingen zelf komen. Mogelijke voorbeelden van initiatieven waarbij wordt afgeweken van de huidige regelgeving, betreffen de inzet van docenten in meerdere sectoren, voet-en kopklassen, of pre-universityklassen. Ook is reeds ervaring opgedaan met de zogenoemde VM2-trajecten, gericht op het snijvlak tussen vmbo en mbo. De experimenten zullen plaatsvinden in specifieke krimp- en groeiregio‟s (Zeeuws-Vlaanderen, ZuidLimburg, Noordoost-Groningen en de G4). Zowel in krimp- als in groeiregio‟s staat het onderwijs door extreme toe- of afname van het aantal leerlingen onder druk. Dit veroorzaakt problemen met de voorzieningenplanning (fusies, schoolsluiting, nieuwbouw) en onderwijskwaliteit (opleiding- en vakkenaanbod, inhoudelijke aansluiting). Door juist in demografische krimp- en groeiregio‟s de mogelijkheid te bieden te experimenteren op het gebied van aansluiting tussen onderwijssectoren worden beoogd „twee vliegen in één klap‟ te slaan. In beginsel kunnen onderwijsinstellingen uit alle sectoren (PO, VO, MBO en HO) in een regio aan een experiment deelnemen. In elk geval zal het VO steeds vertegenwoordigd zijn. Er wordt regelruimte geboden, maar er is bewust géén budget voor de sleutelexperimenten beschikbaar, vanuit het idee dat dan alleen experimenten worden gestart waarvoor „het veld‟ intrinsiek gemotiveerd is. Wat zijn de belangrijkste doelen? Hoe kunnen die worden gemeten? De doelen zijn tweeledig. Allereerst richten de experimenten zich op het in stand houden en verbeteren van de aansluiting tussen onderwijssectoren. Uitkomsten van de experimenten kunnen mogelijk leiden tot een heroriëntatie op de wet- en regelgeving. Een tweede doel betreft het garanderen van een kwalitatief goed en divers onderwijsaanbod in krimp- en groeiregio‟s. De experimenten bieden deze regio‟s mogelijk handvatten voor structurele oplossingen om een kwalitatief goed en divers onderwijsaanbod in stand te houden. De doelen en resultaten per experiment zijn afhankelijk van de specifieke interventies waarmee wordt gestart en kunnen nu dus nog niet specifiek geconcretiseerd worden.
64
Wat zijn de voornemens voor de beleidsontwikkeling rond deze interventie? Wat is het tijdpad? Wordt de interventie getest, en hoe gebeurt dit dan? Hoe werd dit in het verleden aangepakt met een soortgelijk interventie? De voorstellen voor de experimenten zullen vanuit de onderwijsinstellingen zelf komen. Ten behoeve hiervan wordt in april 2011 een systematische inventarisatie uitgevoerd naar de aansluitingsproblemen zoals de onderwijsinstellingen in krimp- en groeigebieden deze ervaren en de oplossingsrichtingen die zij daarvoor zelf zien. Dit wordt concreet vormgegeven door de organisatie van miniconferenties voor onderwijsinstellingen door het Platform Bèta Techniek. Aan de hand van deze inventarisatie wordt een aantal experimenten geselecteerd en verder uitgewerkt, waarmee instellingen vanaf het schooljaar 2012/2013 aan de slag kunnen. Om in krimp- en groeigebieden scholen juridisch de mogelijkheid te bieden om, buiten het huidige regelkader, sectoroverstijgende oplossingen toe te passen, is er tegelijkertijd een algemeen experimenteerartikel in de wet- en regelgeving ontwikkeld, waarmee de bestaande wettelijke ruimte voor innovatie „op de snijvlakken tussen onderwijssectoren‟ wordt vergroot. Beoogde inwerkingtreding hiervan is 01/01/12. Dit tijdspad maakt dat het nu eigenlijk nog te vroeg is om effect-evaluatieontwerpen voor de verschillende interventies te ontwikkelen: die interventies moeten immers uit de inventarisatie naar voren komen. Wel kan bij of in aansluiting op de bovengenoemde inventarisatie een ex ante verkenning worden gedaan om inzicht te krijgen in de mate waarin en wijze waarop regelruimte kan bijdragen aan (beter) doorlopende leerlijnen. 9.2
Wat leert de literatuur? Voor zover ons bekend is niet eerder, op basis van een experimentele opzet, beleid geëvalueerd dat zich richt op de aansluiting tussen onderwijssectoren.
9.3
Ontwerp verklarende evaluatie De voorgestelde ruimte voor sleutelexperimenten veronderstelt dat door het wegnemen van regels problemen met aansluiting, doorlopende leerlijnen en/of het voorzieningenniveau in krimp- en groeiregio‟s beter kunnen worden aangepakt. Zowel bij de initiatoren van de experimenten, als bij de beoordelaars ervan zal er daarom behoefte zijn aan inzicht in welke problemen met welke oplossingen er zijn en hoe vermindering van welke regelregiems daarbij behulpzaam kan zijn. Voor de beoordeling van de resultaten en het beantwoorden van de vraag of en hoe generieke aanpassing van de regelgeving gewenst is, is dergelijk inzicht ook onontbeerlijk.
65
Ex ante is het daartoe gewenst bestaande inzichten en ervaringen aan elkaar te koppelen. Dat kan in de krimpregio‟s door in de reeds geplande knelpunteninventarisaties de volgende vragen aan bestuurders en schoolleidingen voor te leggen: Welke bedreigingen ziet u voor het voortbestaan van verschillende vormen van onderwijs in de regio en hoe zijn die gerelateerd aan de specifieke regionale situatie? Welke knelpunten ziet u m.b.t. het niveau/de kwaliteit van de verschillende onderwijsvormen en hoe zijn die knelpunten gerelateerd aan de specifieke regionale situatie? Welke knelpunten ziet u m.b.t. de diversiteit en de breedheid van het onderwijsaanbod in de regio en hoe zijn die gerelateerd aan de specifieke regionale situatie? Welke knelpunten ziet u m.b.t. de aansluiting tussen verschillende onderwijsfasen en –sectoren (problemen m.b.t. doorlopende leerlijnen) en hoe hangen die samen met de specifieke regionale situatie? Wat ziet u als mogelijke/wenselijke oplossingen voor de besproken problemen en knelpunten? In hoeverre en op welke wijze vormt bestaande wet- en regelgeving een belemmering voor het realiseren van die oplossingen? In hoeverre en op welke wijze kunnen sleutelprojecten hierbij behulpzaam zijn? En hoe zien die projecten er dan uit? Op verschillende punten kunnen de op deze wijze geïnventariseerde veronderstelde mechanismen worden getoetst. Als bijvoorbeeld zou worden geponeerd dat doorstroom van VO naar HBO wordt bemoeilijkt doordat er regionaal weinig HBO aanwezig is, kan een vergelijking worden gemaakt met andere regio‟s waar een groter HBO-aanbod is. Ook is denkbaar om bij een cohort dat net heeft gekozen om wel/niet een HBO-opleiding te gaan doen naar de daarbij gehanteerde overwegingen te vragen. In de G4 zou een soortgelijke exercitie kunnen worden uitgevoerd. Ex post dient, naast het vaststellen van effecten (zie par. 4) op basis van ervaringen van betrokkenen in combinatie met vastgestelde resultaten te worden nagegaan welke stimulerende en feitelijke rol vrijstelling van welke regels daarbij heeft gespeeld. Ook is van belang na te gaan welke andere bevorderende of remmende factoren naar de indruk van betrokkenen een rol (kunnen) hebben gespeeld. Interviews vormen hierbij de aangewezen methode. Opnieuw kan voor de naar voren gekomen veronderstelde mechanismen meer „objectieve‟ evidentie worden gezocht. In ex post interviews kan voorts naar mogelijke onbedoelde effecten worden gevraagd. 9.4
Ontwerp effectevaluatie Op dit moment is de voorgestelde interventie nog tamelijk ongericht. Er wordt regelruimte geboden aan instellingen uit alle sectoren, en de specifieke experimenten zijn nog niet bekend. Ook wordt de interventie enerzijds gericht op de doorlopende leerlijn in het algemeen en anderzijds specifiek toegespitst op de voorzieningenproblematiek in de krimpgebieden. Dit maakt het moeilijk om het 66
optreden van beoogde effecten vast te stellen. Een effectevaluatie is beter uitvoerbaar naarmate de interventie en de doelgroep beter zijn afgebakend. Voor de effectevaluatie zou het daarom helpen als er meer focus zou zijn op één van de sectoren en één hoofddoel. Gezien de huidige stand van zaken, zullen ook de gepresenteerde evaluatieontwerpen nog wat algemeen van aard zijn. Een evaluatie van de effectiviteit van de sleutelexperimenten kan op twee niveaus plaatsvinden. Evaluatie van het aanbieden van regelruimte Allereerst kan het aanbieden van regelruimte (mits dat op een eenduidige wijze gebeurt) op zichzelf als experiment worden gezien. In bepaalde regio‟s wordt de mogelijkheid geboden af te wijken van de bestaande regelgeving, terwijl dat in andere regio‟s niet het geval is. Regio‟s die geen regelruimte geboden wordt, kunnen als controlegroep dienen. Door de gewenste uitkomstmaten voor en na invoering van het experiment te vergelijken tussen de experimentele- en controlegroep regio‟s kan met een „difference-in-differences-analyse‟ de effectiviteit van het aanbieden van regelruimte worden bepaald. Een dergelijke analyse geeft informatie over de effecten van het verruimen van de regelgeving. Aandachtspunt bij het vormen van de controlegroep is de vergelijkbaarheid met de experimentele groep. Door de specifieke keuze voor krimp- en groei regio‟s in de experimentgroep, bestaat het risico van onvergelijkbaarheid met de regio‟s in de controlegroep. Dit risico zou op de volgende manier kunnen worden ondervangen. Allereerst zou bij de keuze voor de regio‟s in de controlegroep gekeken kunnen worden naar de mate waarin hier ook sprake is van krimp. Als krimpregio‟s geselecteerd worden op basis van een onderliggende maat, kan hier gebruik van worden gemaakt bij de selectie van de controlegroep. Het idee is om die regio‟s te kiezen die op basis van de onderliggende maat „net niet‟ als krimpregio zijn geselecteerd. Dit zijn de regio‟s die wat betreft krimp het meest vergelijkbaar zijn met de regio‟s in de experimentgroep. Concreet zou dit kunnen worden vormgegeven door de „topkrimpregio‟s‟ (de zogenoemde K1-K3 regio‟s) in de experimentgroep te vergelijken met de „anticipeerregio‟s‟ (de zogenoemde K4-K6 regio‟s) in de controlegroep. Alternatieven om tot een vergelijkbare controlegroep te komen zijn het aanwijzen van enkele van de krimp- en groeiregio‟s als controlegroep, of uitbreiding van het experiment naar overige regio‟s. Bij de eerste optie wordt gekozen voor een specifieke evaluatie van de effectiviteit binnen krimp- en groeiregio‟s. Een deel van de krimp- en groeiregio‟s wordt gebruikt als experimentgroep en een deel als controlegroep. Bij de tweede optie worden ook overige regio‟s bij het experiment betrokken. Dit biedt als voordeel dat de uitkomsten van het experiment naar verwachting meer in lijn zullen zijn met de effecten bij landelijke opschaling van het beleid, aangezien de geselecteerde regio‟s in het experiment dan meer representatief zullen zijn voor Nederland als geheel.
67
Evaluatie van specifieke interventies Ten tweede kan de effectiviteit van de door de instellingen voorgestelde experimenten worden geëvalueerd. Hiertoe dient er naast een groep deelnemende scholen aan een experiment een controlegroep gevormd te worden van instellingen die niet deelnemen aan het experiment. Een essentieel aspect bij het vinden van een goede controlegroep is de vergelijkbaarheid met de experimentgroep. Aangezien instellingen die zich aanmelden voor een experiment verschillen van instellingen die geen belangstelling hebben voor het betreffende experiment, zal een vergelijking van de uitkomstmaten tussen deelnemende instellingen en niet-deelnemende instellingen tot een vertekend beleidseffect leiden. Om dit te voorkomen zou de controlegroep dan ook bij voorkeur moeten bestaan uit instellingen die zich ook hebben aangemeld voor de betreffende interventie. Om tot deze gewenste opzet te komen, zal slechts een deel van de aangemelde instellingen moeten worden geselecteerd voor deelname aan het experiment. De overige, niet-geselecteerde instellingen, zullen dan dienen als controlegroep. De selectie van geïnteresseerde scholen voor deelname aan een experiment kan geschieden op basis van aselecte toewijzing (loting), of op basis van een bepaalde regel (zoals op basis van de datum van aanmelding, waarbij alleen de eerste aanmeldingen worden geselecteerd voor deelname). Wanneer instellingen in de controlegroep uit dezelfde regio komen als instellingen uit de experimentgroep is het van belang te waken voor mogelijke spillovereffecten tussen experiment- en controlegroep wanneer de instellingen dermate dicht bij elkaar liggen dat zij „in dezelfde vijver vissen‟. Dit zou de schattingsresultaten kunnen vertekenen. Ook in dit evaluatieontwerp geldt dat een uitbreiding van het experiment met andere (geen krimp- of groei)regio‟s kan bijdragen aan de externe validiteit van de uiteindelijke analyseresultaten. Aangezien krimp- of groeiregio‟s specifieke karakteristieken hebben, kunnen resultaten voor deze groep immers niet direct worden vertaald naar resultaten bij landelijke opschaling van het beleid. Welke uitkomsten zijn relevant? Relevante uitkomstmaten kunnen zowel het voorzieningenniveau als de onderwijskwaliteit betreffen. Op dit moment is de meest relevante uitkomstmaat nog onduidelijk. Dit heeft twee oorzaken. Allereerst hinkt het experiment thans op twee gedachten: het beoogt enerzijds de aansluiting tussen onderwijssectoren in zijn algemeenheid te verbeteren, terwijl het zich anderzijds specifiek richt op de problematiek wat betreft voorzieningen in de krimp- en groeiregio‟s. Een betere aansluiting zal zich in zijn algemeenheid vertalen in betere onderwijsuitkomsten (zoals meer deelname aan bepaalde onderwijsniveaus of minder schooluitval) terwijl men vanuit de focus op de krimp- en groei regio‟s vooral geïnteresseerd lijkt in het voorzieningenniveau. Hoewel vanuit beleidsmatig oogpunt op deze manier mogelijk „twee vliegen in een klap‟ kunnen worden geslagen, bemoeilijkt dit de opzet van een evaluatiedesign. Dit betreft zowel de keuze voor de meest relevante uitkomstmaat, als de complicaties 68
die de selectie van de groei- en krimpregio‟s veroorzaakt voor het vinden van geschikte controlegroepen en voor de externe validiteit van het experiment (zie hierboven). Ten tweede geldt wat betreft de evaluatie van de specifieke interventies, dat de meest relevante uitkomstmaten nog onbekend zijn, omdat deze afhankelijk zijn van de experimenten waarmee wordt gestart. Deze kunnen nu dus nog niet specifiek geconcretiseerd worden. Het is daarmee momenteel nog onduidelijk of de effecten gemeten zullen moeten worden op basis van het voorzieningenniveau (zoals het aantal opleidingsniveaus dat in de regio wordt aangeboden) of op indicatoren van de onderwijskwaliteit, zoals voortijdig schoolverlaten. Welke gegevens zijn beschikbaar? Informatie over schooluitval en deelname aan bepaalde opleidingsniveaus kan verkregen worden uit de BRON-data.
69
10
Verkorting en intensivering MBO-opleidingen
10.1
De beleidsinterventie Het gaat om een combinatie van interventies: 1. Het verkorten van de studieduur van mbo-opleidingen middels een bekostigingsprikkel voor instellingen en aanscherping prestatiebeurs studenten. 2. Het intensiveren van mbo-opleidingen middels aanscherping van de urennorm. 3. Begrenzing beroepspraktijkvorming. Het verkorten van de studieduur van mbo-opleidingen gebeurt door middel van een bekostigingsprikkel voor onderwijsinstellingen. Het idee is om deelnemers een afnemend gewicht mee te geven per leerjaar, aflopend naar 0 als een student na zes jaar nog steeds staat ingeschreven in het MBO. Bij studievertraging ontvangt de instelling dan steeds minder bekostiging. Dit zou een prikkel moeten zijn voor instellingen om opleidingen korter te programmeren en ervoor te zorgen dat studenten in kortere tijd hun diploma halen.15 Ook aan studenten wordt een grotere prikkel gegeven om sneller het diploma te halen. Nieuw is invoering van de prestatiebeurs op niveau 2 (voor 2 jaar), en inkorting van de prestatiebeurs met een half jaar voor niveau 3 en 4 (naar respectievelijk 2,5 en 3,5 jaar). Het intensiveren van mbo-opleidingen gebeurt middels een aanscherping van de urennorm van 850 uur per jaar naar 1000 uur per jaar. Daarnaast zal het aandeel lessen ten opzichte van het aandeel beroepspraktijkvorming begrensd worden door gemiddeld over alle leerjaren en in het eerste jaar minimaal 650 uur aan begeleide lessen als norm te stellen.16 De achtergrond van deze maatregel is een geconstateerde trend richting een toenemend aandeel van beroepspraktijkvorming en een afnemend aandeel van lessen binnen de opleidingen (mogelijk als verkapte bezuinigingsmaatregel). Het doel van de interventies is verhoging van de kwaliteit van MBO-onderwijs en minder schooluitval. Met kwaliteit doelt OCW op de „studeerbaarheid‟ van de onderwijsprogramma‟s. De omvang van de bezuinigingen door het verkorten van de opleidingen is vanaf 2015 ongeveer even groot als de omvang van de investeringen in intensiever onderwijs. Het tijdpad met bezuinigingen en intensiveringen ziet er als volgt uit: 2013
2014
2015
2016 (en verder)
Bezuiniging
-30
-50
-140
-160
Intensivering
+150
+150
+150
+150
Saldo
+120
+100
+10
-10
15
Een conceptvoorstel voor de gewichten per jaar is terug te vinden in de beleidsnota van Directie BVE, maar is op het moment van het opstellen van dit evaluatieontwerp nog niet definitief. 16 Dit is de voorkeursoptie, zie startnota besluitvorming (versie 26 november 2010). 70
Met name in 2013 en 2014 gaat het nog om een forse netto intensivering (de effecten van het inkorten vertalen zich met enige vertraging). In 2016 en verder dient een geringe netto bezuiniging van 10 miljoen euro gerealiseerd te worden met de combinatie van inkorten en intensiveren. Het is vooralsnog de intentie om de maatregelen uit te voeren door een plus (2013-2015) of een korting (vanaf 2016) op de lumpsum van MBO-instellingen. Bestaat er beleidsruimte in deze fase van de beleidsontwikkeling? Het plan is nog in beweging, voor sommige onderdelen worden verschillende opties nog verkend. De startnota is in februari 2011 afgestemd met doelgroep en uitvoerders. De ontwerpfase dient eind maart te zijn afgerond. De maatregel treedt volgens planning op 1 januari 2013 in werking. 10.2
Wat leert de literatuur? Over de effecten van het tegelijkertijd intensiveren en inkorten van opleidingen is naar ons weten geen evidentie beschikbaar in de literatuur. Over de effecten van een efficiencyprikkel voor studenten is een studie beschikbaar van Belot et al. (2004). Deze studie onderzoekt de effecten van een inkorting van het recht op studiefinanciering voor studenten in het hoger onderwijs met 1 jaar tot de nominale studieduur. Gevonden wordt dat de studenten efficiënter gaan studeren (meer vakken halen) en minder uitvallen. Daarbij zijn studenten vaker voor een lager onderwijsniveau gaan kiezen (hbo in plaats van universiteit). Over het effect van een efficiencykorting op het gedrag van instellingen zijn geen studies beschikbaar. Er bestaat wel een redelijk uitgebreide literatuur over de effecten van meer onderwijstijd op prestaties van leerlingen. De beschikbare empirie over extra onderwijstijd laat over het algemeen positieve effecten zien op toetsscores (zie o.a. Loeb en Bound, 1996; Link en Mulligan, 1986; Lavy, 1998, Leuven et al., 2010, Lavy, 2010). Naar de effecten op uitval is in deze studies niet gekeken. Voor een uitgebreidere bespreking van deze literatuur wordt verwezen naar Van Elk et al. (2011, nog te verschijnen). Het is overigens onduidelijk of het nieuwe beleid per saldo zal leiden tot meer of minder totale geprogrammeerde onderwijstijd per opleiding, dat zal afhangen van de gedragsreacties van de instellingen.
10.3
Ontwerp verklarende evaluatie Mede op basis van eerder onderzoek (intensivering van opleidingen en meer „time on task‟ werken positief uit op leerresultaten) en signalen uit het veld („weinig les‟, bpv te omvangrijk en te weinig effectief) is het beleid gebaseerd op de veronderstelling dat verkorting en intensivering van MBOopleidingen mogelijk is en tot een verhoging van kwaliteit en vermindering van uitval zal leiden. Bij intensivering gaat het om meer klokuren in totaal, meer klokuren les (begeleid leren), en minder klokuren bpv. Daarnaast zijn er financiële prikkels voorzien voor zowel instellingen (afnemende
71
gewichten bij langere verblijfsduur leerlingen) als leerlingen (prestatiebeurs) voorzien in de veronderstelling dat dat tot een gedragsverandering leidt die de beoogde doelen zal realiseren. In de verklarende evaluatie staat de vraag centraal of deze veronderstellingen kloppen, onder welke condities en door welke mechanismes dat het geval is en welke niet beoogde mechanismes en effecten door het (voorgenomen) beleid worden veroorzaakt. Op basis van meer inzicht in het antwoord op deze vraagpunten kan het beleid worden verantwoord en zo nodig bijgestuurd. Een ontwerp van een verklarende evaluatie kan voor drie stadia worden doordacht: ex ante, tijdens experimenten of implementatie, ex post. Ex ante Voorafgaand aan de beleidsimplementatie kan reeds enig inzicht worden verworven m.b.t. gedragsreacties van instellingen, leraren, ouders, leerlingen en werkgevers. Om te beginnen is er, zoals gezegd, op een aantal punten eerder onderzoek over effecten van deels vergelijkbare interventies. Ten tweede kunnen met name leraren, instellingen en werkgevers worden bevraagd op bijvoorbeeld de volgende punten: wat zien zij in het huidige MBO als de belangrijkste tekortkomingen en verbetermogelijkheden? Uit hun antwoorden van de professionals kan blijken in welke mate de (lage) intensiteit en de (relatief weinige) aantallen contacturen (les) als knelpunt worden gezien en welke aan andere tekortkomingen zij meer of minder gewicht toekennen. Werkgevers kunnen een beeld geven van de punten waarop zij verbetering van de competenties en kwaliteiten van leerlingen met een afgeronde MBO-opleiding mogelijk en wenselijk achten. In welke mate valt te verwachten dat het voorgenomen beleid aan dergelijke verbeteringen zal bijdragen? welke voor- en nadelen zien leraren, instellingen en professionals in concreto aan de voorgestelde beleidsinterventies? Aan de instellingen kan voorts worden gevraagd: welke gedragsreacties zij van ouders en leerlingen verwachten m.b.t. studiekeuze, studietempo en voortijdige studiebeëindiging welke niet aan het beleid gerelateerde factoren zij zien die deze gedragingen beïnvloeden. Belangrijk aandachtspunt lijkt hierbij ook te (regionale) context te zijn (alternatieve en vervolgopleidingen, arbeidsmarkt) welke organisatorische en andere problemen zij voor de instellingen voorzien om verkorting en intensivering van opleidingen te realiseren? welke speelruimte zien en wensen zij daarbij en waarom? Tijdens experimenten/implementatie Enkele instellingen hebben reeds met verkorting en intensivering geëxperimenteerd. Wellicht is er ruimte om voorafgaand aan landelijke invoering van het beleid nog (op onderdelen) andere 72
experimenten te laten plaatsvinden. Ook als de uiteindelijke effecten op kwaliteit, studietempo en uitval niet op voldoende korte termijn kunnen worden vastgesteld, kan evaluatieonderzoek in deze fase erg zinvol zijn om uitvoeringsproblemen en eerste feitelijke gedragsreacties in beeld te brengen. Het zal daarbij primair gaan om gegevens en ervaringen van de instellingen die experimenteren. Ook als geen (verdere) experimenten mogelijk zijn, is deze vraagstelling in de eerste periode na de invoering van de maatregelen zinvol. Ex post Al vrij kort na de invoering van de beleidsmaatregelen kan nader onderzoek naar feitelijke gedragsreacties van betrokken actoren worden gedaan. In deze fase kan niet alleen aan instellingen, maar ook aan ouders en leerlingen de vraag worden gesteld welke keuzes en afwegingen zij hebben gemaakt en welke overwegingen daarbij van belang zijn. Juist gedragsverandering en bijbehorende overwegingen van mensen die ook de „oude‟ situatie kenden, kunnen veel inzicht geven in hoe en waarom het beleid bedoelde of onbedoelde gedragsreacties teweegbrengt. In deze fase of kort daarna kunnen dergelijke kwalitatieve bevindingen met meer getalsmatige effectgegevens worden geconfronteerd, wat tot een betere wederzijdse duiding kan leiden. Onbedoelde effecten en interfererende processen In het kader van verklarende evaluaties in de hierboven besproken stadia is het verhelderend te onderscheiden tussen bedoelde en onbedoelde effecten van het beleid en om aandacht te besteden aan interferende processen. Bedoelde effecten zijn verhoging van kwaliteit van de opleidingen en vermindering van uitval. Een voorbeeld van een niet (expliciet) bedoeld effect zou kunnen zijn dat zwakke leerlingen als gevolg van de intensivering sneller afvallen. Het is van belang ex ante onderbouwde verwachtingen hierover in beeld te brengen en achter ook getalsmatig na te gaan of dit het geval is. Of een dergelijk eventueel optredend effect als ongewenst moet worden beschouwd, is uiteraard een normatieve kwestie. Behalve door de besproken beleidsmaatregelen op zichzelf, zou het gedrag van instellingen en leerlingen – en dus de uiteindelijke resultaten – mede beïnvloed kunnen worden door bijvoorbeeld: weerstand bij professionals tegen de voorgestelde veranderingen; organisatorische complicaties bij het realiseren ervan de speelruimte die instellingen hebben bij het invullen van de maatregelen ontwikkelingen op de (regionale) arbeidsmarkt alternatieve opleidingsmogelijkheden in de regio Het is daarom van belang om in interviews met betrokkenen inschattingen (ex ante) en ervaringen (ex post) op deze punten in beeld te brengen.
73
10.4
Ontwerp effectevaluatie Voor de evaluatie van het beleid zijn verschillende mogelijkheden. 1. Een vergelijking voor en na invoering van het nieuwe beleid Een eerste voor de hand liggende mogelijkheid is het simpelweg vergelijken van het gedrag van instellingen en studenten voor en na invoering van het beleid. Een probleem hierbij is dat naast het beleid ook andere factoren in de tussentijd kunnen veranderen. Voor zover deze andere factoren ook invloed hebben op de te onderzoeken effectvariabelen, kan dit het geschatte effect vertekenen. Hierbij kan bijvoorbeeld gedacht worden aan een verandering van de conjunctuur of ander beleid dat gelijktijdig met dit beleid wordt ingevoerd (bijvoorbeeld beleid om taal en rekenprestaties te verbeteren of beleid om voortijdig schoolverlaten tegen te gaan). Aan deze mogelijkheid kleven derhalve nogal wat bezwaren. 2. Gebruik maken van variatie in de sterkte van de prikkels tussen opleidingsdomeinen Een tweede mogelijkheid is om gebruik te maken van de variatie in de mate waarin de interventie verschillende opleidingen raakt. Vanwege variatie in de gemiddelde studieduur worden sommige opleidingen (cq instellingen) harder geraakt door het nieuwe beleid dan andere. Onderstaande tabel laat dat duidelijk zien. Het verschil in gemiddelde studieduur tussen het domein economie en het domein techniek is 0,86 jaar op niveau 3 en 0,53 jaar op niveau 4. Niveau 3
Niveau 4
Economie
3,43
4,02
Techniek
4,29
4,55
Zorg en Welzijn
3,69
4,21
Groen
3,53
4,34
De experimentele groep zou kunnen bestaan uit opleidingen in de sector techniek, de controlegroep uit opleidingen in de sector economie. Of er een effect uitgaat van de versterkte prikkel voor techniekopleidingen op bijvoorbeeld gemiddelde studieduur kan dan worden bepaald op basis van een vergelijking van de ontwikkeling in de gemiddelde studieduur voor en na invoering van het beleid tussen de techniek- en de economieopleidingen. Deze evaluatiemogelijkheid veronderstelt wel dat MBO-instellingen die opleidingen in meerdere domeinen aanbieden niet het budget voor de techniekopleidingen in sterkere mate aanpassen dan voor de economieopleidingen in reactie op de beleidswijziging. Om dit risico te voorkomen zou ook alleen een vergelijking kunnen worden gemaakt tussen instellingen die alleen techniekopleidingen aanbieden en instellingen die alleen economie-opleidingen aanbieden. Merk op dat de prikkel voor de student om sneller te studeren door de generieke inkorting van de prestatiebeurs in ieder geval groter zal zijn voor de techniekstudenten dan voor de economiestudenten. 74
Ten slotte veronderstelt dit evaluatieontwerp dat er geen uitzonderingen worden gemaakt op de voorgestelde afloop in de bekostiging voor bepaalde type opleidingen en inkorting van de studieduur. De startnota van 17 februari 2011geeft over deze mogelijkheid nog geen uitsluitsel. 3. Een experiment met de nieuwe bekostigingsprikkel instellingen en verhoogde urennorm Uitgaande van het budgettaire kader zouden de maatregelen in 2013 moeten ingaan en de eerste budgettaire consequenties zich openbaren. Dit tijdpad leek in eerste instantie enige ruimte te bieden om in het schooljaar 2011-12 en 2012-2013 reeds te starten met een experiment bij enkele instellingen / opleidingen met de nieuwe interventies. De directie BVE heeft inmiddels aangegeven dat er toch geen ruimte is voor een experiment. Het idee was dat een experimentele groep van een aantal opleidingen/instellingen zich te committeren aan de hogere urennorm en de aanscherping van de BPV, en tegelijkertijd een afnemende bekostiging naar leerjaar. Er dient dan tevens een controlegroep bepaald te worden van opleidingen/instellingen die nog met de oude normen en bekostiging blijven werken. Het effect wordt dan bepaald op basis van een voor- en nameting voor zowel de experimentele groep als de controlegroep. Wanneer de experimentele groep aselect wordt toegewezen en het aantal betrokken experimentele opleidingen voldoende groot is, dan kan een goede schatting van het beleidseffect wordt verkregen door het verschil tussen de voor- en nameting in de experimentele groep te verminderen met hetzelfde verschil in de controlegroep. Dit heet een difference-in-differencesmodel. Het verschil in de controlegroep wordt veroorzaakt door andere factoren die in de tijd veranderen (bijvoorbeeld conjunctuur, overig beleid). Door dit verschil af te trekken van het verschil in de experimentele groep resteert het effect van het beleid dat we hier willen evalueren. Welke uitkomsten zijn relevant? We zijn geïnteresseerd in veranderingen in het gedrag van studenten en instellingen. Dit kan aan verschillende indicatoren worden afgemeten. Het kan dan gaan om zowel bedoelde als onbedoelde effecten. Bedoelde effecten Studenten 1. kortere gemiddelde duur tot aan diploma 2. lager % studenten die er langer dan de nominale duur over doet. 3. behoud cq lager % voortijdig schoolverlaten 4. behoud cq lager % opleidingsuitval (na 1 jaar, na 2 jaar, na 3 jaar) 5. behoud cq betere behaalde resultaten taal en rekenen (NB: betrouwbare nulmeting nodig, invoering centrale examens pas in 2014 en 2015) 6. hoger % doorstroom naar hbo en prestaties doorstromers naar hbo (voor beoordelen effecten op beroepskolom) 7. grotere tevredenheid studenten over „studeerbaarheid‟ opleidingen (studentenmonitor?) 75
Instellingen 8. positiever/behoud inspectieoordeel kwaliteit opleidingen (diploma-inflatie?) 9. betere cq behoud aansluiting arbeidsmarkt (tevredenheid werkgevers over niveau uitstromers) 10. groter aantal geprogrammeerde lesuren per jaar. 11. verlaging nominale studieduur. Onbedoelde effecten Behalve bedoelde effecten zijn er mogelijk ook onbedoelde effecten. Het is belangrijk deze te monitoren. Te denken valt aan: Niveauverlaging / lagere diploma-eisen Strengere selectie aan de poort Opgeven lesuren die geen echte lesuren zijn om nieuwe urennorm te halen. Stijging aandeel lessen gegeven door onbevoegde docenten Verlaging gekozen niveau studenten of verschuiving keuzes richting minder zware studies (bijvoorbeeld minder vaak keuze voor techniek opleidingen). Dit soort effecten is overigens van belang om rekening mee te houden bij het uitvoeren en interpreteren van de effectschattingen, omdat de samenstelling van de te onderzoeken studentenpopulaties voor en na invoering van het beleid daarmee kan veranderen (compositie-effecten).17 Welke gegevens zijn beschikbaar? Onderwijsnummergegevens (DUO) voor uitkomsten 1 t/m 4 en 6 Inspectieoordelen ? (voor uitkomst 8) Gegevens over tevredenheid van studenten en werkgevers, aantal geprogrammeerde lesuren en aanpassingen van de nominale studieduur zullen waarschijnlijk apart moeten worden verzameld, te beginnen in 2012 voor de nulmeting. Ook zal er een nulmeting moeten worden verricht voor het kunnen bepalen van de effecten op prestaties op taal en rekenen, waarvoor vanaf 2014 centrale examens worden ingevoerd (op niveau 4). Hierbij kan mogelijk gebruik gemaakt worden van de pilotexamens die momenteel ontwikkeld worden.
17
Stel bijvoorbeeld dat het instroomniveau in MBO-4 opleidingen stijgt (omdat de relatief zwakkere studenten na invoering van de prikkels in grotere mate voor MBO-3 opleidingen kiezen dan ze voor invoering van het beleid doen), dan dient hiervoor gecontroleerd te worden bij de effectschatting, bijvoorbeeld door te controleren voor vooropleiding. Als deze controle niet zou plaatsvinden, dan zou mogelijk onterecht de conclusie kunnen worden getrokken dat het beleid een positieve invloed heeft gehad op studie-uitval op niveau 4, terwijl dat in werkelijkheid helemaal niet het geval hoeft te zijn geweest en dit alleen veroorzaakt wordt door een bij aanvang betere studentenpopulatie. 76
11
Wetenschap: korting op NWO Vanwege de huidige onzekerheid omtrent de nieuw te evalueren beleidsinterventie is in samenspraak met de directie OWB besloten ons te richten op de mogelijkheden van een ex-post evaluatie van de korting op NWO in 2006. Deze kan mede de basis vormen voor een ex ante verklarende evaluatie van een mogelijke bezuiniging in de toekomst.
11.1
De beleidsinterventie Het vorige kabinet heeft in 2006 een generieke korting van 6% opgelegd aan NWO, KNAW en TNO. Deze korting is gradueel, in vier stappen van 1,5% ingevoerd. In totaal bedroeg de korting ongeveer 30 mln, waarvan ongeveer 20 mln de NWO-begroting betrof. NWO richt zich met name op excellent onderzoek met als doel de Nederlandse wetenschap te versterken en de huidige sterke positie in de wereld te verbeteren. De totale begroting van NWO bedraagt ongeveer 400 mln (in 2006 476 mln euro).18 De begroting van NWO kan worden onderverdeeld in een deel voor „subsidies/granting‟ en een deel voor de NWO-instituten. Het grootste deel van de middelen wordt door NWO ingezet voor programma‟s binnen enkele veelbelovende thema‟s (zoals de inzet voor „Genomics‟), beurzen voor onderzoekstalent (zoals de Vernieuwingsimpuls) en het stimuleren van nieuw onderzoek door „open competitie‟, waarbij subsidieaanvragen voor onderzoeksprojecten op basis van de kwaliteit van het onderzoeksvoorstel en de onderzoeker worden gehonoreerd. Daarnaast is ongeveer 80 mln beschikbaar voor de verschillende NWO-instituten (zoals ASTRON, CWI, FOM, NIOZ en SRON). De korting in 2006 betrof een ongeoormerkte, algemene korting. Hierbij heeft OCW niet gestuurd op specifieke bestemmingen voor de kortingen. De korting is dan ook door NWO zelf vertaald binnen de organisatie. Wat zijn de belangrijkste doelen? Hoe kunnen die worden gemeten? Het primaire doel was een efficiencykorting. De directie OWB heeft aangegeven het meest geïnteresseerd te zijn in een evaluatie die zich richt op mogelijke gevolgen van de korting voor het wetenschappelijk onderzoek. Dit zou bijvoorbeeld kunnen worden gemeten door te kijken naar effecten op aantallen publicaties of citaties.
18
Dit betreft de basisfinanciering door OCW. 77
11.2
Wat leert de literatuur? Voor zover ons bekend bestaat er geen experimentele literatuur over de effecten van kortingen op wetenschapsprestaties. Empirisch onderzoek op het gebied van wetenschap is nog een tamelijk onontgonnen gebied. Een studie van Jacob en Lefgren (2007) richt zich op de effecten van het toekennen van onderzoeksbeurzen. De auteurs vinden dat het ontvangen van een beurs de productiviteit in termen van aantallen publicaties met tussen de 7 en 20 procent doet toenemen.
11.3
Ontwerp effectevaluatie Het is moeilijk om de effecten van een korting op het NWO betrouwbaar te evalueren. Allereerst is het noodzakelijk dat er een vergelijkbare „controlegroep‟ gevormd wordt waar de korting niet voor geldt. Daarnaast is het niet eenvoudig om een uitkomstmaat te bepalen die zowel relevant als praktisch bruikbaar is. Ten slotte wordt de analyse gecompliceerd doordat de effecten van kortingen op wetenschapsgelden pas na enige jaren zichtbaar worden. Hieronder zal op elk van deze factoren worden ingegaan. Vorming van geschikte controlegroep Een evaluatie van de effecten van een korting bestaat in de kern uit een vergelijking tussen uitkomsten van een „experimentgroep‟ die te maken krijgt met de korting en een „controlegroep‟ die niet te maken krijgt met de korting. Voor het vinden van een geschikte controlegroep biedt de implementatie van de korting binnen NWO mogelijk aanknopingspunten. Wanneer bepaalde deelgebieden binnen NWO ontzien zouden zijn van de korting, kunnen deze mogelijk als controlegroep dienen. Hieronder worden drie mogelijke evaluatieontwerpen langs deze lijn beknopt besproken. Vergelijk van onderzoeksthema’s Wanneer bij de implementatie van de korting specifieke onderzoekthema‟s werden getroffen, terwijl andere onderzoeksthema‟s ontzien zijn, biedt dit aanknopingspunten voor evaluatie. De laatste groep zou kunnen dienen als controlegroep en uitkomsten zouden vergeleken kunnen worden met de uitkomsten van de experimentgroep. Hierbij kan mogelijk ook nog gebruik worden gemaakt van voor- en nametingen. Vergelijk van instellingen Een andere mogelijkheid doet zich voor wanneer bepaalde instellingen gekort werden, terwijl dit niet voor andere instellingen gold. Dan zouden uitkomsten van de „gekorte‟ instellingen vergeleken kunnen worden met uitkomsten van de overige instellingen. Hierbij kan mogelijk ook gebruik worden gemaakt van voor- en nametingen.
78
Veranderingen in beurstoekenning Wanneer de kortingen tot uiting zijn gekomen in de subsidie-instrumenten in de vorm van bijvoorbeeld een verlaging van de honoreringspercentages van beursaanvragen of het volledig laten vervallen van bepaalde aanvraagrondes, biedt dit ook de mogelijkheid om een experimentgroep en controlegroep te vormen. De betreffende subsidieregeling kan dan vergeleken worden met een subsidieregeling waar niets is veranderd. Ook hierbij zou gebruik kunnen worden gemaakt van een voor- en nameting. Voor het gebruik van één van bovenstaande designs is het nodig dat bij de vertaling van de korting strikte keuzes zijn gemaakt voor bepaalde onderzoeksgebieden, instituten of beurzen. In 2006 betrof het een algemene korting waarbij het ministerie van OCW ook niet via het strategisch overleg heeft gestuurd op specifieke bestemmingen van de korting. Er was dus geen sprake van opgelegde kortingen op specifieke deelgebieden. Deze korting is door NWO dan ook zelf naar eigen inzicht doorvertaald naar de organisatie. Hierbij zijn, voor zover op te maken uit de NWO-begroting, binnen de organisatie geen duidelijke keuzes gemaakt voor specifieke onderzoeksgebieden of instellingen.19 Vanwege de relatief beperkte omvang van de korting en de graduele invoering, ligt dit ook in de lijn der verwachting. Hierdoor wordt bovenstaande aanpak onbruikbaar voor een evaluatie van de korting van 2006. Vanuit evaluatieperspectief was het beter geweest als specifieke keuzes waren gemaakt voor bepaalde terreinen of instituten die ontzien waren terwijl op andere terreinen was bezuinigd. Dit zou betere kansen hebben geboden op een evaluatie van het beleid door middel van een vergelijking van uitkomsten tussen het deelgebied dat gekort is en het deelgebied dat niet gekort is. Overigens dient hierbij te worden opgemerkt dat een dergelijke keuze door NWO zelf ook problemen met zich meebrengt voor de evaluatie: het ligt in de rede dat NWO de minst veelbelovende gebieden zal kiezen om te korten, waardoor een vergelijking van deze gebieden met de (veelbelovende) „controlegebieden‟ tot een vertekening van het beleidseffect kan leiden. Een opgelegde korting op specifieke deelgebieden van bovenaf zou voor een evaluatie het beste zijn, maar dit is in de praktijk niet mogelijk aangezien NWO een zelfstandig bestuursorgaan is.
19
Bezuinigingen hebben voornamelijk plaatsgevonden op het eigen apparaat en voor een deel op open competitie. 79
Relevante uitkomstmaten Het is niet op voorhand duidelijk wat de meest relevante en praktisch bruikbare uitkomstmaten zijn voor het evalueren van kortingen op wetenschapsgelden. Het lijkt praktisch goed realiseerbaar een evaluatie te richten op variabelen zoals het aantal publicaties of citaties. Het is echter de vraag wat de waarde van deze uitkomsten is. Wat zijn de gevolgen van meer of minder publicaties? In de literatuur bestaat vooralsnog weinig duidelijkheid over de waarde en welvaartseffecten van dergelijke indicatoren. Wat betreft relevantie bestaat er een voorkeur te kijken naar toepassingsgerichte indicatoren (zoals het aantal patenten) die wat zeggen over de economische output. In de praktijk is het echter erg moeilijk betrouwbare indicatoren te vinden die op een goede manier gelinkt kunnen worden aan de interventie. Hier speelt ook het probleem dat wetenschapsgelden pas over lange tijd tot uitdrukking zullen komen in de vorm van toepassingsgerichte indicatoren, wat een analyse zeer complex maakt. Tijdsduur Zelfs wanneer gekozen wordt voor intermediaire uitkomstmaten als publicaties of citaties zal het enige jaren duren voordat (kortingen op) middelen voor wetenschap tot uitdrukking kunnen komen in termen van publicaties of citaties. Wetenschappers werken vaak enige jaren aan een studie voordat deze gepubliceerd wordt. Wanneer in jaar t een korting plaatsvindt, zal een vergelijking tussen het aantal publicaties op jaar t-1 en jaar t+1 (nog even afgezien van overige veranderende factoren over de tijd) geen goed beeld geven van de effecten van de korting. Meer algemeen is het dus lastig om periodes vast te stellen die gebruikt kunnen worden bij voor-en nametingen.
80
Welke uitkomsten zijn relevant? Onbedoelde effecten Voor een evaluatie van mogelijk ongewenste effecten van een korting op het NWO zijn op lange termijn toepassingsgerichte indicatoren (zoals het aantal patenten) relevant die iets kunnen zeggen over de economische waarde. Op de middellange termijn kan gekeken worden naar aantallen publicaties en citaties. Hierbij is echter onbekend wat de waarde hiervan is in termen van welvaartseffecten. In beide gevallen zal het enkele jaren duren voordat effecten zichtbaar worden. Op kortere termijn zou ook kunnen worden gekeken naar inputs, zoals aantal mensen in dienst bij bepaalde instellingen of vakgroepen. Dit zou inzicht kunnen bieden in de gedragseffecten van gekorte instellingen. Gaan er ook daadwerkelijk minder mensen werken of trekt men bijvoorbeeld meer extern geld aan? Welke gegevens zijn beschikbaar? Er zijn uitgebreide data beschikbaar van het Rathenau Instituut en CBTS betreffende het aantal publicaties, citaties en hun impact per instelling en vakgroep. Conclusie en alternatief Gezien de besproken moeilijkheden bij de opzet van een evaluatie betreffende het vinden van een geschikte controlegroep, een geschikte uitkomstmaat en de complicaties van de lange tijdshorizon, lijkt een evaluatie van een korting op de NWO-gelden in 2006 vooraf weinig vruchtbaar. Een alternatief dat beter uitvoerbaar lijkt om de effecten van middelen voor wetenschap inzichtelijk te maken is om te kijken naar specifieke instrumenten, waarbij onderzoeksmiddelen worden toegekend aan een selecte groep van onderzoekers. De productiviteit van deze onderzoekers kan dan vergeleken worden met onderzoekers die deze middelen niet hebben ontvangen.
11.4
Ontwerp verklarende evaluatie Doel van overwogen bezuiniging op NWO is om te beginnen een bijdrage te leveren aan het op orde krijgen van de rijksfinanciën. In relatie tot deze doelstelling lijkt een verklarende evaluatie niet nodig. Door de aard van de maatregel zal de geplande bezuiniging op zichzelf zonder meer gerealiseerd kunnen worden. Interessant voor verklarende evaluatie is wel het antwoord op de vraag welke andere doelstellingen of te realiseren randvoorwaarden het beleid kenmerken, bijv. met betrekking tot de wetenschappelijke kwaliteit van het onderzoek, de economische relevantie ervan, enz. Als dergelijke effecten worden beoogd, is het optreden daarvan niet zonder meer vanzelfsprekend. Daarom moeten veronderstellingen 81
over de werking van het beleid op deze punten in een verklarende evaluatie worden getoetst, bijvoorbeeld door naar (overwogen) gedragsverandering bij NWO te kijken. Daarnaast is verklarende evaluatie van belang om onbedoelde effecten in kaart te brengen. Ex ante kunnen mogelijke effecten in kaart worden gebracht door te kijken naar hoe door NWO en instellingen is omgegaan met vorige kortingen (zie paragraaf over ontwerp effectevaluatie) en door betrokkenen (bij NWO en subsidieontvangende instellingen) en deskundigen te consulteren over de nieuwe bezuiniging. Welke gedragsreacties overwegen zij of verwachten zij in het huidige tijdsgewricht en in het licht van eerdere bezuinigingen. Denkbaar is bijvoorbeeld dat door eerdere bezuinigingen bepaalde manieren om die op te vangen voor een belangrijk deel zijn uitgeput, zodat nu andere keuzes moeten worden gemaakt. Op basis van aldus verworven inzichten kan onderstaand lijstje met mogelijke (intermediaire) effecten worden gecorrigeerd en/of aangevuld: Mogelijke (onbedoelde) effecten: minder (promotie)onderzoek, omdat er minder geld beschikbaar is gedragseffect onderzoekers: verschuiving van aanvragen bij NWO/KNAW naar andere instanties/financiers, mogelijk met mede als gevolg dat de kwaliteit van de aanvragen daalt (of juist stijgt, omdat alleen de besten blijven proberen) gedragseffect instellingen/onderzoekers: meer opdrachtonderzoek, met mogelijk mede als gevolg minder publicaties/promoties en meer interne rapporten gedragseffect NWO: inhoudelijke concentratie (op welke criteria/thema‟s/soorten onderzoek?) Vervolgens kan ex ante worden nagegaan of opnieuw op basis van eerdere evaluaties van bezuinigingen iets over (de kans op) het optreden van dergelijke mechanismen te zeggen is. Ex post kan het feitelijk optreden van de genoemde effecten m.b.v. getalsmatige gegevens (vergelijking vooren nameting) in kaart worden gebracht. Het is interessant daarbij de overwegingen van de betrokken actoren door middel van interviews en/of een enquête na te gaan. Dit kan immers aanknopingspunten bieden voor verklaring van de beleidseffecten en daarmee voor bijgesteld of aanvullend beleid.
82
12
Aandachtspunten voor beleid
Aandacht voor tijdige nulmetingen is van groot belang. Voor de evaluatie van effecten en ook voor onderdelen van verklarende evaluatie is een vergelijking met de situatie voor de introductie (en soms ook voor de aankondiging) van nieuwe beleid gewenst is. Vooral waar het gaat om gedrag en overwegingen zijn dergelijke gegevens op een later moment vaak moeilijk nog te achterhalen. Bij verschillende van de voorgaande evaluatieontwerpen gaat het om clusters van maatregelen. Als de onderdelen van zo‟n cluster generiek en gelijktijdig worden geïntroduceerd, wordt het vaststellen van de effecten van de afzonderlijke maatregels bemoeilijkt. Soms, maar niet altijd, kan verklarende evaluatie hierbij enig soulaas bieden. De mogelijkheden voor evaluatie zijn groter bij beleidsmaatregelen waarbij experimenten of pilots plaatsvinden of waarbij sprake is van gedifferentieerde of gefaseerde invoering van beleid. Waar dat niet mogelijk is, is een nauwkeurige schatting van effecten moeilijk. Verklarende evaluatie kan dan enig soulaas bieden. Door effectevaluatie en verklarende evaluatie te combineren, wordt meer inzicht geboden in de mechanismen die bedoelde of onbedoelde effecten produceren en daarmee meer aanknopingspunten voor leren en effectiever of aanvullend beleid. Bij verschillende (clusters van) beleidsmaatregelen is de precieze vorm van de maatregel en de wijze van introductie ervan nog niet uitgekristalliseerd. Dat biedt enerzijds de ruimte om gebruik te maken van de besproken ex ante evaluatieopties voor de uiteindelijke vormgeving van het beleid. Anderzijds zijn de evaluatieontwerpen scherper te formuleren op het moment dat de uitwerking van het beleid is geconcretiseerd.
83
Literatuur Atkinson, A., S. Burgess, B. Croxson, P. Gregg, C. Propper, H. Slater, D. Wilson, 2004, Evaluating the Impact of Performance-related Pay for Teachers in England, CMPO Working Paper 04/113, Bristol: Centre for Market and Public Organisation. Ayres, I. en J. Braithwaite, 1992, Responsive Regulation: Transcending the Deregulation Debate, New York: Oxford University Press, 1992. Barr, N., 2004, Higher education funding, Oxford Review of Economic Policy, 20 (2), 264-283. Belot, M., E. Canton and D. Webbink, 2007, Does reducing student support affect scholastic performance? Evidence from a Dutch reform, Empirical Economics, 2007,32 (2), 261-275. Bettinger, E., 2004, How financial aid affects persistence, NBER Working Paper 10242. Bishop, J.H., 1997, The Effect of National Standards and Curriculum-Based Examinations on Achievement, American Economic Review, 87, 260-264. Black, P. en D. William, 1998, Inside the black box: Raising standards through classroom assessment, Phi Delta Kappan, 80, 139-148. CPB, 2003, Een sociaal leenstelsel: studiefinanciering volgens het boekje, Macro Economische Verkenning 2004, Den Haag. Chorny, V. and D. Webbink, 2010, The effect of accountability policies in primary education in Amsterdam, CPB Discussion Paper, no. 144. Cullin, J.B., 1999, The impact of fiscal incentives on student disability rates, NBER Working Paper 7173, June. Cullingford, C. I., Daniels, S., & Brown, J. (1999). The effects of Ofsted inspection on school performance. School Leadership and Management, 19, 323–526. Dynarski, S., 2000, Hope for whom? Financial aid for the middle class and its impact on college attendance, NBER working paper 7756. Dynarski, S., 2003, Does Aid Matter? Measuring the effect of student aid on college attendance and completion, American Economic Review, 93 (1). 84
Dynarski, S., 2005, Building the stock of college-educated labor, NBER working paper no. 11604. Eberts, R., K. Hollenbeck and J. Stone, 2002, Teacher performance incentives and student outcomes, Journal of Human Resources, 37(4), 913-927. Elk, R. van, M. van der Steeg, D. Webbink, 2011, Does the timing of tracking affect higher education completion, Economics of Education Review, forthcoming. Field, E., 2006, Educational debt burden and career choice: Evidence from a financial aid experiment at NYU Law School, NBER Working Paper No. 12282. Figlio, D.N. and L.S. Getzler, 2002, Accountability, ability and disability: Gaming the system, NBER Working Paper 9307. Figlio, D., 2006, Testing. Crime and Punishment,, Journal of Public Economics 90(4-5): 837-51. Fuchs, T. and L. Wößmann, 2007, What Accounts for International Differences in Student Performance? A Re-examination using PISA Data, Empirical Economics, 32, 433-464. Fuchs, T. and L. Woessman, 2005, The determinants of differences in primary school learning across countries, mimeo, IFO Institute for Economic Research at the University of Munich. Fryer, R.G., 2011, Teacher incentives and student achievement: evidence from New York City Public Schools, NBER Working Paper no. 16850. Garibaldi, P., F. Giavazzi, A. Ichino, E. Rettore, 2007, College Cost and time to complete a degree: Evidence form tuition discontinuities, NBER working paper 12863. Glewwe, P., N. Ilias and M. Kremer, 2003, Teacher incentives, NBER Working Paper 9671. Hanushek, E.A. and M.E. Raymond, 2005, Does school accountability lead to improved student performance?, Journal of Policy Analysis and Management 24(2), 297-327. Hattie, J. and H. Timperley, 2007, The power of feedback, In: Review of Educational Research, Vol. 77, No. 1, 81-112. Jacob, B.A., 2005, Accountability, Incentives and Behavior: Evidence from School Reform in Chicago, Journal of Public Economics, 89(5-6): 761-796.
85
Jacob, B., L. Lefgren, 2007, The impact of research grant funding on scientific productivity, NBER Working Paper 13519. Jacob,B.A. and S.D. Levitt, 2003, Rotten Apples: An Investigation of the Prevalence and Predictors of Teacher Cheating, Quarterly Journal of Economics, 118(3), 843-877. Jacobs, B. en E. Canton, 2003, Effecten van invoering van een sociaal leenstelsel in het Nederlands hoger onderwijs, CPB Document no. 39. Jürges, H., K. Schneider and F. Büchel, 2005, The Effect of Central Exit Examinations on Student Achievement: Quasi-Experimental Evidence from TIMSS Germany, Journal of the European Economic Association, 3, 1134-1155. Kane, T.J., 2003, A quasi-experimental estimate of the impact of financial aid on college-going, NBER working paper 9703. Kluger, A.N. en A. DeNisi, 1996, The Effects of Feedback Interventions on Performance: Historical Review, a Meta-Analysis and a Preliminary Feedback, In: Psychological Bulletin, 119, 254-284. Ladd, H.F., 1999, The Dallas school accountability and incentive program: An evaluation of its impacts on student outcomes, Economics of Education Review, 18, 1-16. Ladd, H.F. and R.P. Walsh, 2002, Implementing value-added measures of school effectiveness: Getting the incentives right, Economics of Education Review, 21, 1-17. Lavy, V., 1998, Using quasi-experimental designs to evaluate the effect of school hours and class size on student achievement, mimeo, Jerusalem: Hebrew University of Jerusalem, Department of Economics. Lavy, V., 2002a, Evaluating the effect of teachers‟ group performance incentives on pupil achievement, Journal of Political Economy, 110(6), 1286-1317. Lavy, V., 2002b, Paying for performance: The effect of teachers ‟financial incentives on students‟ scholastic outcomes, Mimeo, Universiteit van Jerusalem. Lavy, V., 2010, Do Differences in School's Instruction Time Explain International Achievement Gaps in Math, Science, and Reading? Evidence from Developed and Developing Countries, NBER Working Paper no. 16227.
86
Lazear, E.P. and S. Rosen, 1981, Rank-order tournaments as optimum labor contracts, Journal of Political Economy, 89(5), 841-864. Leuven, E., M. Lindahl, H. Oosterbeek en D. Webbink, 2010, Expanding schooling opportunities for 4-year-olds, Economics of Education Review, vol. 29, pag. 319–328. Link, C.R. en J.G. Mulligan, 1986, The merits of a longer school day, Economics of Education Review, vol. 5, nr. 4, pag. 373–381. Loeb, S. en J. Bound, 1996, The effect of measured school inputs on academic achievement: Evidence from the 1920s, 1930s and 1940s birth cohorts, The Review of Economics and Statistics, vol. 78, nr. 4, pag. 653–664. Loewenstein, G., R. Thaler, 1989, Anomalies: Intertemporal Choice, Journal of Economic Perspectives, 3, 181-193. Muralidharan, K., V. Sundararaman, 2008, Teacher Performance Pay: Experimental Evidence from India, University of California, San Diego. Neal, D., 2011, The design of performance pay in education, NBER Working paper no. 16710. OECD, 2008, Tertiairy education for the knowledge society, Volume 1, Special Features: Governance, Furnding, Quality. Oosterbeek, H., A. van den Broek, 2009, An empirical analysis of borrowing behaviour of higher education students in the Netherland, Economics of Education Review, 28, 170-177. Usher, A., 2006, Grants for Students, What they do, why they work, Canadian Education Report Series, Educational Policy Institute Canada. Roeleveld, J., L. Mulder en T. Paas, 2011, De gevolgen van een latere afname van de Cito Eindtoets Basisonderwijs, Kohnstamm/ ITS. Rosenthal, L. (2004). Do school inspections improve school quality? Ofsted inspections and school examination results in the UK. Economics of Education Review, 23, 143–151. Shaw, I., Newton, D. P., Aitkin, M., & Darnell, R.(2003). Do Ofsted inspections of secondary schools make a difference to GCSE results? British Educational Research Journal, 29, 63–75.
87
Todd, P.E. and K.I. Wolpin, 2003, On the specification and estimation of the production function for cognitive achievement, Economic Journal, 113(485), F3-F33. Wilcox, B., & Gray, J. (1996). Inspecting schools: Holding schools to account and helping schools to improve. Buckingham, UK: Open University Press. Woessman, L., 2001, Why students in some countries do better: international evidence on the importance of education policy, Education Matters, 1(2), 67-74. Woessman, L., 2003, Schooling resources, educational institutions and student performance: The international evidence, Oxford Bulletin of Economics and Statistics, 65 (2), 117-170. Woessman, L., 2008, Fundamental Determinants of school efficiency an equity: German States as a microcosm for OECD countries, Harvard University, Program on education policy and governance research paper PEPG 07-02, Cambridge, MA: Harvard University. Wolf, I.F. de en F.J.G. Janssens, 2007, Effects and side effects of school inspections and accountability in education: a review of empirical studies, In: Oxford Review of Education, 33, 3, 379396.
88
Bijlage Verklarende evaluatie: algemene aandachtspunten Oogmerk van het onderhavige deelproject is om in de te maken omvattende evaluatieontwerpen voor een aantal (combinaties van) nieuwe beleidsmaatregelen m.b.t. onderwijs en wetenschappen een (kwalitatieve) component in te bouwen gericht op het ex ante en/of ex post in kaart brengen van mechanismen achter de beleidseffecten teneinde mede op basis daarvan het beleid, de implementatie en/of de monitoring ervan bij te kunnen sturen. De vraagstelling voor dit deelproject kan op twee niveaus worden geformuleerd; 1. Wat zijn de belangrijkste aandachtspunten en methodes voor het verwerven van inzicht in de achterliggende mechanismes waardoor beleidseffecten tot stand komen? Hierop wordt in deze notitie ingegaan. 2. Hoe kan in de specifieke evaluaties van de afzonderlijke (combinaties van) beleidsmaatregelen vorm worden gegeven aan onderzoek naar de achterliggende mechanismen (verklarend onderzoek)? De uitwerking hiervan wordt geïntegreerd in de evaluatieontwerpen die per beleidsmaatregel worden gemaak Vanuit de vraagstelling van het deelproject „verklarende evaluatie‟ dient in de evaluatieontwerpen voorzien te worden in het stellen en beantwoorden van onder meer de volgende vragen: –
Hoe komen bedoelde/gewenste effecten tot stand?
–
Hoe komen onbedoelde/ongewenste effecten tot stand?
–
Waardoor worden bedoelde/gewenste effecten belemmerd?
–
Wat zijn manieren om bedoelde/gewenste effecten te bevorderen en onbedoelde/ongewenste effecten tegen te gaan? Deze vragen kunnen zowel ex ante, tijdens de implementatie, als ex post aan de orde worden gesteld. Ex ante Ex ante kunnen uiteraard geen feitelijke effecten worden vastgesteld. Wel kunnen verwachtingen over de effecten en veronderstellingen over en inzichten in de mechanismen waardoor ze geproduceerd worden, in kaart worden gebracht. Dat kan op basis van: wetenschappelijke literatuur waarin relevante theorie is ontwikkeld en/of getoetst; evaluaties van interventies met verwante karakteristieken of evaluaties van interventies in verwante contexten; de beleidstheorie van de beleidsmakers; 89
theorieën/verwachtingen over beleidsdynamiek van deskundingen en/of sleutelactoren m.b.t. het betreffende beleidsveld. Een combinatie van een aantal van deze ingangen om te komen tot onderbouwde verwachtingen en redeneringen over mechanismen en effecten strekt tot aanbeveling. Dit kan op zichzelf een nuttige input zijn voor de verdere uitwerking van het beleid, de ontwikkeling van flankerend beleid en/of van implementatie- en monitoringstrategieën. Vervolgens kan worden nagegaan hoe veronderstellingen en delen van theoretische redeneringen in de ex-antesituatie kunnen worden getoetst. Zo zouden verwachtingen over beleidseffecten gebaseerd kunnen zijn op veronderstellingen over de oorzaken van bijv. achterblijvende leerprestaties. Hoewel de beleidseffecten nog niet te meten zijn, is wellicht wel onderzoek mogelijk naar de juistheid van bedoelde veronderstellingen. De eerste twee bronnen van inzicht betreffen bestaande rapporten en wetenschappelijke publicaties. De laatste twee betreffen visies, ervaringen en inzichten van betrokkenen. Om deze onderzoekbaar te maken dienen ze zo expliciet mogelijk te worden geformuleerd. Onderdeel van een (ex ante) evaluatiestrategie is daarom ook een methodiek om respondenten hiertoe te prikkelen en te faciliteren. Hier kan gedacht worden aan interviewtechnieken en/of aan gestructureerde discussies tussen bedoelde betrokkenen. Tijdens implementatie Ook voor evaluatie tijdens (en na) de implementatie is het inventariseren van mogelijk werkzame mechanismen een belangrijk startpunt. In deze fase doen zich, afhankelijk van de gehanteerde implementatieaanpak, nieuwe manieren van toetsing van veronderstellingen en verwachtingen daarover voor. Pilots of eerste tranches bieden daarvoor de mogelijkheden. Het gaat in dit verband niet alleen om de uiteindelijke (korte-termijn)effecten, maar met name ook om beschrijving en toetsing van de werkzame mechanismen. Naast deze deductieve aanpak is er in deze fase ook een inductieve aanpak mogelijk: actief monitoren en in beeld brengen welke onbedoelde of onverwachte mechanismen optreden. Bronnen van veronderstellingen en verwachtingen zijn dezelfde als bij ex-ante-evaluatie. Toetsing kan plaatsvinden op grond van eerste resultaten in pilots en eerste tranches, observaties door externen, of ervaringen van betrokkenen. Het signaleren van onbedoelde/onverwachte effecten kan door betrokkenen of buitenstaanders worden gedaan. Hierbij is een essentiële vraag in hoeverre waargenomen effecten met de beschouwde interventie van doen hebben. Positief beantwoorden van die vraag vergt de ontwikkeling van een robuuste theoretische redenering die het totstandkomen van de effecten verklaart. Het kan daarbij gaan om toepassen van bestaande (maar niet eerder geactiveerde) inzichten, of om nieuwe theorievorming. In beide gevallen kan aanvullende toetsing als bij de deductieve variant worden nagestreefd. Om evaluatie tijdens de implementatie zo veel mogelijk toegevoegde waarde te laten hebben, en te kunnen laten functioneren als basis voor bijsturing van het beleid en/of de 90
implementatieaanpak, is zorgvuldig en weloverwogen plannen van pilots, implementatievolgordes van belang, evenals het zorgvuldig interpreteren (en generaliseren) van de bevindingen. Overwegingen daarbij zijn: representativiteit van de pilots/eerste tranche variatie op factoren/condities die van groot belang worden geacht voor de beleidseffecten bereidwilligheid (eerst alleen vrijwilligers of ook andere gevallen?) verwachte moeilijkheidsgraad (eerst alleen makkelijke of ook moeilijke gevallen?) Ex post Enige tijd na implementatie kunnen de effecten breder en op langere termijn in beeld worden gebracht. Om de mogelijke werkzame mechanismen te identificeren en te toetsen kan dezelfde aanpak van tijdens de implementatie worden gehanteerd, met dien verstande dat de kring van „betrokkenen‟ groter kan zijn en de range van mechanismen en (bedoelde en onbedoelde) effecten ook. Participatieve evaluatie In de verschillende hiervoor besproken modi van verklarende evaluatie spelen „betrokkenen‟ een belangrijke rol als bron van hypothesen, verwachtingen, veronderstellingen en ervaringen. Daar zijn nog twee overwegingen aan toe te voegen waarom betrokkenheid van betrokkenen bij evaluatie in het veld van onderwijs en wetenschappen essentieel is. Ten eerste gaat het om beleidsinterventies in een complexe context. Enerzijds kan er interferentie optreden tussen verschillende beleidsinterventies van OCW en van andere ministeries en overheden. Anderzijds kunnen algemene maatschappelijke ontwikkelingen of specifieke regionale of lokale omstandigheden een rol spelen . Een en ander kan onmogelijk vanuit een punt goed worden overzien. Door meerdere actoren te consulteren en in het evaluatieproces te betrekken kan het risico dat relevante factoren, condities of mechanismen worden gemist, worden gereduceerd. Ten tweede is het van belang te bedenken dat op leren gerichte evaluaties vooral doorwerken als betrokkenen van de resultaten en inzichten kennisnemen en er in hun handelen en onderlinge interactie mee werken. Betrokkenheid bij het evaluatieproces kan de kans dat men kennis neemt van de resultaten versterken, evenals de kans op onderling gesprek over de betekenis ervan. Dat kan innovatieve ideeën opleveren en ook draagvlak en motivatie voor het in de praktijk brengen daarvan. Daarmee kan de effectiviteit van de evaluatie in de zin van doorwerking worden versterkt.
91
92