notitie Datum
Bureau van het CvTE Muntstraat 7 3512 ET Utrecht Postbus 315 3500 AH Utrecht Nederland www.hetcvte.nl
Opbrengsten onderzoeken naar aanleiding van advies van commissie Bosker
10 juni 2015
AANLEIDING In 2014 bracht de commissie Bosker advies uit over de vraag in hoeverre de vertaling van de referentieniveaus in rekentoetsen en -examens had plaatsgevonden. De commissie Bosker adviseerde vier onderzoeken uit te voeren. De Tweede Kamer is over deze onderzoeken – en de andere acties naar aanleiding van het advies van commissie Bosker – geïnformeerd in een notitie bij de brief aan de Tweede Kamer van 17 december 2014. De vier onderzoeksvragen die de commissie Bosker stelde, zijn: A. Onderzoek de discrepantie tussen de resultaten op wiskunde-examens en op de rekentoets 2F voor leerlingen in vmbo bb en vmbo kb. B. Onderzoek de mogelijkheden en de consequenties van verschillende vormen van afname van de rekentoets. C. Onderzoek de mogelijkheden en de consequenties van het werken met deelscores. D. Onderzoek de mogelijkheden van het werken met meerdere vragen bij één context. In deze notitie worden de opbrengsten van de onderzoeken A, B en C samengevat en worden tussenresultaten van onderzoek D beschreven. De eindresultaten van onderzoek D zijn na de zomer van 2015 beschikbaar (zie brief 17 december 2014). Deze worden meegenomen in deel 2 van de voortgangsrapportage taal en rekenen. Voor alle onderzoeken geldt dat de onderzoeksrapporten via de website van het CvTE beschikbaar worden gesteld (www.hetcvte.nl). ALGEMEEN De vier onderzoeken zijn uitgevoerd door onderzoekers van Stichting Cito. Er is een uitgebreide literatuurstudie gedaan om in beeld te brengen wat uit bestaand onderzoek bekend is in relatie tot de verschillende onderzoeksvragen. De resultaten uit dit literatuuronderzoek onderbouwen de bevindingen in met name onderzoeken B en C. In deze notitie wordt bij de beschrijving van de uitkomsten van de vier onderzoeken steeds dezelfde opzet gehanteerd: aanpak, opbrengsten, conclusie. Daarbij wordt steeds teruggegrepen op de betreffende onderzoeksvraag van de commissie Bosker.
Opbrengsten Bosker onderzoeken
Pagina 1 van 8
A: ONDERZOEK
NAAR DE DISCREPANTIE TUSSEN DE RESULTATEN OP WISKUNDE -
EXAMENS EN DE REKENTOETS
2F
VOOR LEERLINGEN IN VMBO BB EN KB .
AANPAK Onderzoek A betreft een analyse van de verschillen en overeenkomsten van inhoud, vorm en afnamecondities van de digitale wiskunde-examens vmbo-bb/kb en de rekentoets 2F. Daarnaast worden de verschillen in scores van leerlingen in vmbo bb of kb die zowel de rekentoets 2F als het digitale centrale examen wiskunde hebben gemaakt, geanalyseerd. Tot slot is onderzocht of de geconstateerde verschillen in scores verklaard kunnen worden door de gevonden verschillen tussen wiskunde-examen en rekentoets. OPBRENGSTEN Het onderzoek is gericht op rekenopgaven in de centrale examens wiskunde vmbo bb en kb en de rekentoetsen 2F uit de schooljaren 2012-2013 en 2013-2014. Alle onderwerpen uit de rekentoetswijzer 2F komen ook voor in de syllabi van de wiskunde-examens van vmbo bb en kb. Wel bevatten de syllabi onderwerpen die niet in de rekentoetswijzer 2F voorkomen. Afgezien van de contextloze opgaven zouden alle vragen van de rekentoets 2F ook in de centrale examens wiskunde van vmbo bb en kb kunnen voorkomen. Andersom bevatten de wiskunde-examens, met name vmbo bb, vrij veel opgaven die ook in de rekentoets 2F zouden kunnen voorkomen. Het centrale examen wiskunde in vmbo bb en kb verschilt van de rekentoets 2F op de volgende vorm- en afname-aspecten: de toetsduur, het aantal opgaven, het gebruik van contexten, de wijze van scoring en het gebruik van de rekenmachine. Voor de rekentoets is minder tijd beschikbaar, zijn er meer kleinere opgaven en contexten, en mag bij een deel van de toets de rekenmachine niet gebruikt worden. Tot en met 2014 kon in de rekentoets niet worden terug gebladerd. Vanaf 2015 is dat wel mogelijk. Wanneer gekeken wordt naar de contextopgaven van de rekentoets 2F en de opgaven van de centrale examens wiskunde vmbo bb en kb die ook bij de rekentoets 2F zouden kunnen voorkomen, dan blijkt dat de rekentoets 2F significant slechter is gemaakt dan de centrale examens wiskunde vmbo bb en kb in 2013 en 2014. Overigens, dit verschil is in absolute zin erg klein. Er is een matige samenhang (een correlatie van gemiddeld rond de 0,65) tussen de scores op de rekentoets en de scores op de centrale examens (zie voor toelichting en verklaring ook onderzoek C). Verklaringen voor de gevonden scoreverschillen op grond van de vastgestelde verschillen tussen de rekentoets en de wiskunde-examens zijn onder andere: o De contextopgaven in de rekentoets 2F zijn inhoudelijk complexer – in termen van het aantal benodigde rekenstappen – dan de rekenopgaven in de centrale examens wiskunde vmbo bb in 2013 en 2014 en vmbo kb in 2013. Het centrale examen wiskunde vmbo kb in 2014 is inhoudelijk vrijwel even complex als de rekentoets 2F. o Als de methode van goed-foutscoring van het eindantwoord die bij de rekentoets 2F wordt gebruikt, ook bij de wiskunde-examens zou worden toegepast, dan worden de verschillen in gemiddelde score tussen de rekentoets en de centrale examens wiskunde kleiner. Het centrale examen wiskunde vmbo kb 2014 blijkt dan moeilijker dan de rekentoets 2F.
Opbrengsten Bosker onderzoeken
Pagina 2 van 8
o Experts schatten de inhoudelijke complexiteit van opgaven van de rekentoets 2F en de centrale examens wiskunde vmbo bb in 2013 en 2014 die even goed worden gemaakt, even hoog in. De experts schatten de inhoudelijke complexiteit van de opgaven van het CE wiskunde vmbo kb hoger in dan die van opgaven die even goed gemaakt zijn op de rekentoets 2F. o Opgaven van de rekentoets 2F en de centrale examens wiskunde vmbo bb en kb die inhoudelijk even complex zijn, worden in 2013 even goed gemaakt. In 2014 geldt dat de opgaven van de centrale examens wiskunde vmbo bb en kb beter worden gemaakt dan de vergelijkbare opgaven van de rekentoets 2F. Hierbij valt echter op dat opgaven met veel rekenstappen in de rekentoets 2F zowel in 2013 als 2014 beter worden gemaakt dan opgaven met evenveel rekenstappen in de centrale examens wiskunde vmbo bb en kb. o Voor vmbo bb en kb is er een indicatie dat prestatieverschillen van leerlingen op de beide toetsen mede verklaard kunnen worden door verschillen in motivatie. o Op basis van een kleinschalige analyse blijkt dat de opgaven van de rekentoets 2F minder talig zijn dan de opgaven van de centrale examens wiskunde vmbo bb en kb. o Voor de centrale examens wiskunde vormt een referentie-examen het uitgangspunt voor de zak-slaaggrens. Voor de rekentoetsen is de zakslaaggrens bepaald door het te behalen referentieniveau. De eisen voor rekenvaardigheid van het referentieniveau liggen hoger dan die van het referentie-examen wiskunde. Hoewel het centrale examen wiskunde vmbo kb moeilijker is, is het daardoor toch eenvoudiger om een voldoende te behalen. CONCLUSIE Inhoudelijk gezien is er een grote overlap tussen de rekentoets en het wiskundeexamen, maar er zijn ook verschillen Op de rekenbasisvaardigheden na kunnen alle onderwerpen uit de rekentoets 2F in het wiskunde-examen voorkomen. Maar met de rekentoets 2F wordt juist de rekenvaardigheid getoetst en ook op een hoger niveau getoetst dan met het wiskunde-examen. De rekentoets toetst of leerlingen een vraagstuk kunnen oplossen, in het wiskunde-examen ligt in de toetsing de nadruk ook op hoe leerlingen dat doen. Op basis van een vergelijking van resultaten blijkt dat leerlingen slechter scoren op de contextvragen in de rekentoets dan op inhoudelijke vergelijkbare vragen in het wiskunde-examen. De taligheid van de rekentoets is geen verklaring voor deze verschillen, want de opgaven in het wiskunde-examen zijn taliger. Tijdnood is wellicht in 2013 een factor maar daarna niet meer. Motivatie lijkt wel een bepalende factor, die mede samenhangt met de complexiteit van de opgaven. De opgaven in de rekentoets zijn complexer – bevatten een groter aantal benodigde rekenstappen – en daardoor moelijker dan de rekenopgaven in het wiskundeexamen. De verschillen in doelstelling en inhoud tussen rekentoets en wiskunde-examen zijn argumenten om de twee vooralsnog naast elkaar te laten bestaan.
Opbrengsten Bosker onderzoeken
Pagina 3 van 8
B: ONDERZOEK
NAAR DE MOGELIJKHEDEN EN CONSEQUENTIES VAN VERSCHILLENDE
VORMEN VAN AFNAME VAN DE REKENTOETS .
AANPAK In onderzoek B is in kaart gebracht wat de mogelijkheden en de consequenties zijn van een papieren afname van de rekentoets in vergelijking met de digitale afname. Daarnaast is op basis van data uit het project referentiesets onderzoek gedaan naar de vraag hoe leerlingen scoren op papieren en digitale rekenopgaven. OPBRENGSTEN Het onderzoek heeft geleid tot de volgende antwoorden en opbrengsten. Een vergelijking van de mogelijkheden van papieren en digitale toetsen leidt tot het volgende beeld: o automatische scoring van antwoorden (in plaats van met de hand) leidt tot een grotere objectiviteit en biedt de mogelijkheid van een directe uitslag. o automatische scoring kan tegen lagere kosten dan papieren scoring en leidt tot minder tijdsinvestering van docenten. o met digitale toetsen zijn er meer mogelijkheden voor gebruik van beeld en verschillende itemtypen dan op papier. o het gebruik van itembanken leidt tot een nauwkeurige meting van het rekenniveau van de kandidaat en een betrouwbare vergelijking tussen verschillende toetsen en tussen jaren van afname. Met itembanken is adaptieve toetsing mogelijk waarmee het niveau van de kandidaat preciezer in beeld gebracht kan worden. o Het kost tijd om een itembank met voldoende items te vullen; direct (algehele) openbaarmaking van de itembank is daarom niet gewenst. o met digitale afname is een meer flexibele planning en uitvoering van afnames mogelijk dan met papieren toetsen/examens. o digitale afname vraagt een robuuste infrastructuur van de school met betrekking tot de benodigde ICT-omgeving. Grootschalig internationaal onderzoek naar prestaties van leerlingen en studenten op ofwel de papieren ofwel de digitale afname van toetsen laat zien dat er geen tot zeer kleine verschillen in prestaties zijn. Kandidaten die geen kladpapier gebruiken, behalen gemiddeld lagere rekenwiskundeprestaties dan degenen die dat wel doen. Dit geldt voor zowel de digitale als de papieren afname. Ten aanzien van de vraag of de kandidaten bij digitale toetsen meer of minder kladpapier gebruiken laat de literatuur tegenstrijdige uitkomsten zien. Hoe dan ook is belangrijk dat docenten hun leerlingen en studenten trainen op het gebruik van kladpapier. Uit vergelijkend onderzoek tussen papieren en digitale afname van de rekentoets in de context van de referentiesets blijkt: o De rekenvaardigheid wordt met digitale en papieren afname ongeveer even goed gemeten. o Leerlingen presteren op de papieren toets niet beter dan op digitale variant, of andersom. In de enquêtes die na de rekentoetsen in het voorjaar van 2015 door 583 docenten in het vo zijn ingevuld, geeft 49% van de docenten aan een voorkeur te hebben voor digitale afnames en 25% voor papieren afnames.
Opbrengsten Bosker onderzoeken
Pagina 4 van 8
CONCLUSIE Met digitale toetsen kunnen rekenkennis en -vaardigheden net zo goed gemeten worden als met papieren toetsen. Er is inmiddels veel kennis en ervaring met de digitale rekentoets opgedaan en die neemt elk jaar toe. De voordelen van digitale afname afwegende tegen de nadelen leidt tot de conclusie dat het verstandig is om de digitale afname van de rekentoets te handhaven.
Opbrengsten Bosker onderzoeken
Pagina 5 van 8
C: ONDERZOEK DEELSCORES .
NAAR DE MOGELIJKHEDEN EN CONSEQUENTIES VAN HET WERKEN MET
AANPAK De rekentoets bestaat uit opgaven waarvan alleen het eindantwoord automatisch wordt gescoord met ‘goed’ of ‘fout’. Er is onderzocht of het mogelijk en wenselijk is om in de context van de digitale rekentoets te werken met automatische scoring van deelscores (partial credit genoemd) en wat daar de consequenties van zijn. o In februari 2015 is een internationale expertmeeting georganiseerd om de technische mogelijkheden van het automatisch scoren van open vragen in het kader van de Diagnostische Tussentijdse Toets te onderzoeken. Het werken met deelscores in een digitale toetsomgeving, zoals bij de rekentoets, is hierin meegenomen. o Daarnaast heeft literatuuronderzoek en aanvullend onderzoek in de context van de rekentoets en centrale examens wiskunde inzicht opgeleverd in de verschillen in prestaties van leerlingen op toetsen waarbij gewerkt wordt met deelscores en met toetsen waarbij alleen het eindantwoord goed of fout wordt gescoord. OPBRENGSTEN Het toetsdoel van de rekentoets is om vast te kunnen stellen of een kandidaat een opgave kan oplossen of niet. Het gaat bij de rekentoets niet om inzicht te krijgen in hoe een kandidaat een opgave oplost. Het onderzoek heeft geleid tot de volgende antwoorden en opbrengsten. Voor het betrouwbaar kunnen beslissen of een leerling een toets heeft gehaald, maakt het niet of met deelscores of met eindscores wordt gewerkt. . Het automatisch scoren van tussenstappen in de context van de rekentoets is technisch erg lastig te realiseren: o Een belangrijke beperking van het scoren van tussenstappen is dat niet van te voren duidelijk is welke tussenstappen kandidaten mogelijk zullen zetten bij het beantwoorden van de vraag. o Automatische scoring kan alleen bij van te voren expliciet gevraagde tussenstappen. Dit zou de kandidaten al informatie geven over de te volgen rekenstrategie, terwijl het zelf bedenken van de rekenstrategie een belangrijk aspect is van de rekentoets. Dit is ook een rekendoel zoals genoemd in het referentiekader. Mede op basis van bovenstaande punten zijn de meeste geraadpleegde experts het erover eens dat het niet wenselijk is om scoretoekenning bij de rekentoetsen te baseren op deelscores voor correct uitgevoerde tussenstappen (partial credit). Uit onderzoek waarbij een goed-foutscoring is vergeleken met scoring met gebruik van deelscores, blijkt: o Bij een toets waarbij een goed-foutscoring van alleen het eindantwoord wordt toegepast, halen kandidaten verhoudingsgewijs minder scorepunten dan bij een toets waarbij deelscores mogen worden toegekend.De zak-slaaggrens houdt hier rekening mee; bij partial credit ligt de grens hoger. Het netto effect is hetzelfde. o Normering met goed-foutscoring van alleen het eindantwoord leidt bij 97,1% van de kandidaten die de rekentoets maakten tot dezelfde beslissing over zakken en slagen als bij gebruik van deelscores. Van
Opbrengsten Bosker onderzoeken
Pagina 6 van 8
o
de resterende kandidaten zou ongeveer de helft slagen en de andere helft zakken. De betrouwbaarheid van een examen met goed-foutscoring van alleen het eindantwoord is nagenoeg even groot als de betrouwbaarheid van een examen met gebruik van deelscores. Beide wijzen van scoring leiden tot een vergelijkbaar nauwkeurige rangordening van de kandidaten op basis van hun rekenvaardigheid (correlatie van 0,94).
CONCLUSIE Voor de ordening van de prestaties van de leerlingen en studenten en voor de beslissing over het wel of niet behalen van de toets, maakt het nauwelijks verschil of met goed-foutscoring van het eindantwoord of met deelscores wordt gewerkt. Het automatisch scoren van deelscores op een wijze die passend is bij de rekentoets, is bovendien (technisch) lastig te realiseren. Dit geeft geen aanleiding om af te stappen van de huidige methode van automatisch scoren van het eindantwoord.
Opbrengsten Bosker onderzoeken
Pagina 7 van 8
D: ONDERZOEK
NAAR DE MOGELIJKHEDEN VAN HET WERKEN MET MEERDERE VRAGEN
BIJ ÉÉN DEZELFDE CONTEXT .
AANPAK Onderzoek D bestaat uit twee delen. o Ten behoeve van het eerste deel is in de rekentoets vo van 2014-2015 en in het rekenexamen mbo in afnameperiode 4 van 2014-2015 per toets één context opgenomen waarover drie vragen (clustervragen) worden gesteld. Er is onderzocht hoe kandidaten scoren op de clustervragen en wat de antwoordtijden zijn in vergelijking met de tijden bij niet-clustervragen. o voor het tweede deel van het onderzoek wordt met een beperkt aantal scholen in mei en juni 2015 een aanvullend onderzoek uitgevoerd. Op deze scholen worden speciaal samengestelde korte toetsen met en zonder clustervragen afgenomen. Direct na de afname wordt de deelnemende kandidaten een vragenlijst voorgelegd om de ervaren cognitieve belasting te evalueren. VOORLOPIGE OPBRENGSTEN Het eerste deel van het onderzoek heeft geleid tot de volgende voorlopige antwoorden en opbrengsten: Clustervragen worden niet beter of slechter gemaakt: er is geen verschil tussen gemiddelde scores op reguliere vragen en clustervragen. Van de drie opeenvolgende vragen bij één en dezelfde context worden de tweede en derde vraag niet beter gemaakt dan de voorgaande vraag/vragen. Het aantal niet-beantwoorde vragen loopt op binnen een cluster. Dit duidt er mogelijk op dat kandidaten tijdens het beantwoorden van de clustervragen minder geneigd zijn om de vragen te beantwoorden vanwege de complexiteit van het cluster of vanwege een gebrek aan affiniteit met de inhoud. Clustering van vragen lijkt weinig tot geen tijdwinst op te leveren. De samenhang van de score op de geclusterde vragen met de score op de toets is ongeveer even sterk als de samenhang van de score op de reguliere vragen met de score op de toets. In de enquêtes die na de rekentoetsen in het voorjaar van 2015 zijn afgenomen, geven kandidaten en docenten aan geen voorkeur of afkeur voor clustervragen te hebben. VOORLOPIGE CONCLUSIE
De eerste bevindingen tonen aan dat clustervragen niet beter of sneller gemaakt worden. Resultaten uit het tweede deel van het onderzoek zullen meer inzicht moeten geven in hoeverre leerlingen baat hebben bij clustervragen. Op basis van de uitkomsten kan worden bepaald of clustervragen wel of niet in de rekentoets zouden moeten worden gehandhaafd.
Opbrengsten Bosker onderzoeken
Pagina 8 van 8