De praktijk van de eerste en tweede correctie. Samenvatting van onderzoek naar het functioneren van het CSE

De praktijk van de eerste en tweede correctie Samenvatting van onderzoek naar het functioneren van het CSE

Hans Kuhlemeier en Ed Kremers Cito, Arnhem Versie juli 2012

Inhoud 1.

Inleiding ........................................................................................................................................... 3

2.

Het Onderzoek Tweede Correctie (O2C) ........................................................................................ 5

3.

4.

2.1

Verschillen tussen eerste en derde correctoren ...................................................................... 5

2.2

De invloed van de tweede correctie ........................................................................................ 7

2.3

Verschillen tussen scholen ...................................................................................................... 7

Het Panelonderzoek Vierde Correctie (P4C) ................................................................................ 10 3.1

Check op de resultaten van het O2C-onderzoek .................................................................. 10

3.2

Examenkenmerken en verschillen in soepelheid .................................................................. 14

Het vragenlijstonderzoek naar de praktijk van de eerste en tweede correctie.............................. 19 4.1

Tijdbesteding aan de eerste en tweede correctie.................................................................. 19

4.2

Randvoorwaarden van de eerste en tweede correctie .......................................................... 21

4.3

Volledigheid van de tweede correctie .................................................................................... 22

4.4

Zorgvuldigheid en objectiviteit van de eerste en tweede correctie........................................ 24

4.5

Het overleg tussen de eerste en tweede corrector................................................................ 27

4.6

De invloed van de tweede correctie op de uiteindelijke examenscores ................................ 28

5.

Samenvatting ................................................................................................................................. 30

6.

Aanbevelingen ............................................................................................................................... 32

Literatuur................................................................................................................................................ 36

2

1.

Inleiding

Aan het einde van het voortgezet onderwijs leggen de leerlingen een examen af. Een examen is een door een bevoegde instantie ingestelde toetsing van leerresultaten waaraan de kandidaat bepaalde rechten of bevoegdheden kan ontlenen. Het diploma voortgezet onderwijs heeft nog steeds een grote persoonlijke, maatschappelijke en economische waarde. Dat wordt door vervolgopleidingen, werkgevers, docenten, ouders en kandidaten ook als zodanig erkend. Het examen beschermt leerlingen tegen ondeugdelijk onderwijs en geeft de samenleving zekerheid over wat er is geleerd. Het is dan ook van groot belang dat het functioneren van het examensysteem regelmatig onderzocht en geëvalueerd wordt. De Nederlandse examens bewegen zich in het spanningsveld tussen de verantwoordelijkheid van de overheid en de vrijheid van de school. Van de ene kant stelt de overheid vanuit het oogpunt van kwaliteitsbewaking eisen aan de inhoud en organisatie van de examens. Van de andere kant krijgen scholen binnen deze eisen ruimte om het examen naar eigen onderwijsinhoudelijke en levensbeschouwelijke inzichten in te richten. De huidige examens in het voortgezet onderwijs bestaan uit een centraal examen (CE) en een schoolexamen (SE). De verantwoordelijkheid voor de afname en beoordeling van het CE en het SE heeft de wetgever in handen van de school gelegd. Zo is de correctie van het examenwerk in handen van de ‘eigen’ docent die de kandidaten heeft opgeleid. Hiermee geeft de overheid aan veel vertrouwen te hebben in de professionaliteit en integriteit van de school en de examinatoren. In dit opzicht nemen de Nederlandse examens in de wereld een unieke plaats in. Hoe uitzonderlijk het Nederlandse examensysteem is, wordt duidelijk als men het aan buitenlandse toetsdeskundigen probeert uit te leggen. De eerste reacties zijn altijd die van onbegrip en ongeloof. Kenmerkende reacties zijn ‘Nou, dat zou bij ons niet werken’, ‘Weet je wel zeker dat het werkt?’ en ‘En hoe weet je dat het werkt?’. Bij gebrek aan harde onderzoeksgegevens is een antwoord op deze vragen moeilijk te geven. In deze publicatie doen we verslag van drie studies die tot doel hebben hierover meer te weten te komen. Examens in het voortgezet onderwijs zijn een grootschalig gebeuren (Alberts & Erens, 2012). Voor het voortgezet onderwijs maakt het Cito jaarlijks meer dan vijfhonderd examens. In 2011 namen er in het vmbo ongeveer 103.000 kandidaten deel, in het havo waren het er circa 56.700 en in het vwo bijna 40.000. In het Nederlandse voortgezet onderwijs is de correctie van het examenwerk in handen van de eigen docent. Kandidaten hebben recht op een professionele, objectieve en rechtvaardige beoordeling. Idealiter zou het niet mogen uitmaken wie het examen nakijkt. In de praktijk blijkt de ene docent echter soepeler te beoordelen dan de andere docent. Om ertoe bij te dragen dat iedere kandidaat het cijfer krijgt dat hij verdient, heeft de overheid de tweede correctie in het leven geroepen. Het examenwerk wordt daarom nog een keer nagekeken door een corrector van een andere school, de tweede corrector. Verschillen tussen eerste en tweede correctoren horen onvermijdelijk bij het correctiewerk en hebben een belangrijke functie: ze leiden niet alleen tot een meer evenwichtige beoordeling, maar ook tot intervisie (Algra, 2004). Het systeem van eerste en een tweede correctie biedt geen garantie dat twee kandidaten met hetzelfde werk ook hetzelfde cijfer krijgen. Het zou er echter wel voor moeten zorgen dat de eigen docent bij de correctie niet zomaar zijn gang kan gaan (Algra, 2004). Over de vraag naar de grootte van de verschillen tussen docenten in soepelheid zijn geen recente gegevens beschikbaar. Evenmin is bekend welke invloed de tweede correctie heeft op de uiteindelijke scores van de kandidaten. In deze publicatie geven we een antwoord op deze twee vragen. Het is gebaseerd op drie studies waarbij correctoren een steekproef van examenwerken uit de ‘echte’ examens opnieuw hebben nagekeken (Kuhlemeier, Van Rijn & Kremers, 2012; Kuhlemeier, Gitsels, Boom, Van de Kerkhof & Sinkeldam, 2012; Gitsels & Kuhlemeier, 2012). Voor de uitvoering van de eerste en tweede correctie heeft de overheid regels opgesteld. Tweede correctoren moeten het werk van de kandidaten integraal nakijken. Dit wil zeggen dat de tweede 3

corrector alle werken nakijkt en per kandidaat het volledige examenwerk met alle vragen. Daarnaast zijn er regels voor de wijze waarop de uiteindelijke score in het overleg tussen eerste en tweede corrector tot stand moet komen. Als de tweede corrector vindt dat er sprake is van grote onzorgvuldigheid, aperte fouten of verkeerde interpretatie van de correctievoorschriften dient hij of zij er eerst in overleg met de eerste corrector uit te komen. Als dat niet lukt, kan het scoreverschil worden gemiddeld. De Inspectie van het onderwijs ziet middelen echter als een zwaktebod dat niet past bij professioneel handelende vakdeskundigen (Inspectie van het Onderwijs, 2006). Als de eerste en/of tweede corrector niet willen middelen, kan de tweede corrector zich tegenwoordig melden bij zijn eigen bevoegd gezag die dan contact kan opnemen met het bevoegd gezag van de eerste corrector. Als beiden het niet eens kunnen worden, melden zij dit bij de Inspectie en deze kan vanuit haar toezichthoudende taak bij de examens optreden. Dit kan betekenen dat de Inspectie besluit tot de inzet van een derde onafhankelijke corrector. Uiteraard kan deze procedure ook worden toegepast bij klachten over het werk van de tweede corrector. In deze publicatie doen we ook verslag van een inventariserend onderzoek naar de volledigheid van de tweede correctie en de wijze waarop het overleg tussen eerste en tweede correctoren plaatsvindt (Kuhlemeier & Kremers, 2012). Daarbij besteden we ook aandacht aan de randvoorwaarden waaronder docenten de correctie uitvoeren. De inventarisatie is een vervolg op een soortgelijk onderzoek naar de praktijk van de Centraal Schriftelijke en Praktische Examens (CSPE) in het vmbo (Kuhlemeier & Dietvorst, 2009).

4

2.

H Het Onderzoek Tw weede Co orrectie (O2C)

In het On nderzoek Tw weede Correc ctie (O2C) he ebben onafh hankelijke ‘de erde’ correctooren ruim zeshond derd examenwerken van zes examen nvakken opnieuw nagekeken (Kuhlem meier, Van Rijn & Kremerss, 2012). De examens wa aren Nederla ands vwo, En ngels vmbo, wiskunde w vm mbo, biologie vwo, geschied denis havo en e tehatex ha avo. Naast de e scores van n de eigen do ocent beschi kten we ook over de met de tw weede corre ector overeen ngekomen sccores. Per ex xamen zijn vijf zogehetenn derde corre ectoren in het on nderzoek bettrokken. Elk examenwerk e k is door een steekproef van v telkens ttwee van dez ze vijf correctoren twee kee er nagekeken n. Van elk exxamenwerk is zowel een geannoteerdde als een blanco versie na agekeken (w waarbij elke versie v telkenss aan een an ndere correcttor is voorgeelegd). De bla anco versie w was identiek aan a de geann noteerde verrsie, met dien n verstande dat de punteen en aantek keningen eerste correcctor digitaal verwijderd v wa aren.1 De derde correctoren hadden dde opdracht de van de e examenw werken zorgvvuldig en objjectief na te kijken overeenkomstig het correctievvoorschrift. Allen A waren errvaren docen nten met ervaring als eerrste en tweed de corrector. Zij kregen rruim de tijd en een redelijke e vergoeding. In het O2C--onderzoek zzijn de score es van de ‘eig gen’ docent vvergeleken met m die van de ‘o onafhankelijkke’ derde corrrectoren. Da aarnaast is gekeken g naar het verschi l tussen de scores s van de e eerste correcctor en de sco ores zoals va astgesteld in n het overleg tussen eersste en tweede e corrector.

2.1 Verschillen n tussen eerste en d derde corrrectoren 2C-onderzoe ek zijn de sco ores van de eerste correctoren verge eleken met diie van de derde In het O2 correctoren. Figuur 1 toont de ge emiddelde exxamenscores s per examen n (voor het eeerste tijdvak k). Het s varieert afh hankelijk van n het examen n van één tott ruim negen verschil tussen de exxamenscores nten. Telkens zijn de sco ores van de e eerste correc ctie gemiddeld hoger dann die van de derde scorepun correctoren.

Figuur 1 G Gemiddelde examenscore e voor v de eerste e en derde corrrectie per exa amen

1

In het O2C‐onderzoek is o ook vastgesteld da at derde correctooren zich laten be eïnvloeden door de aantekeninge n die de eerste corrector op het examen nwerk aanbrengt. Omdat deze con nclusie voor dezee publicatie van o onderschikt belang is, gaan we hieer verder niet op iin.

5

Het versschil in soepe elheid tussen n de eerste e en derde corrrectoren zien n we ook teruug in de examenccijfers (zie Fiiguur 2). De eerste corre ctie leidt bij alle a zes exam mens tot hoggere cijfers dan de derde co orrectie. Bij Engels E gaat het h om een vvijfde punt, bij wiskunde om o een kwarrt punt, bij Nederlan nds en biolog gie om een half h punt, bij ttehatex om vier v vijfde punt en bij gesschiedenis om m een vol cijferrpunt.

Figuur 2 G Gemiddeld cijffer voor de ee erste en derde e correctie per examen

entage onvold doendes waa artoe de eers ste en derdee correctie ge eleid Figuur 3 geeft inzichtt in de perce hebben (op basis b van ee erste tijdvak).. Stel dat we de eerste co orrectoren zoouden vervan ngen zouden h door de derde correcctoren, dan stijgt s het perccentage onvo oldoendes bij wiskunde vvan 23% naa ar 29%, n 35%, bijj biologie van n 15% naar 24%, 2 bij Ned derlands van 20% naar 31%, bij bij Engels van 27% naar denis van 23 3% naar 53% % en bij tehate ex van 22% naar 54%. geschied

Figuur 3 P Percentage on nvoldoendes voor v de eerste e en derde corrrectie per exa amen

6

weede corrrectie 2.2 De invloed van de tw In het O2 2C-onderzoe ek zijn de sco ores van de eerste correctoren verge eleken met dee gezamenlijjk tussen eerste en tweede corrector overe eengekomen n scores (zie Figuur 4). De gezamenlijijke scores blijken niet noem menswaard af te wijken van v die van d de eerste correctoren. Affhankelijk va n het exame en varieert het gemidde elde verschil van een tien nde tot een derde scorepu unt. Ook vooor de rangord dening m het zee er weinig uit of dat gebeu urt op basis van v de eerstee dan wel de e van de kkandidaten maakt gezamen nlijke correcttie. Dat de ve erschillen tusssen eerste en e gezamenlijke correctiee gering zijn, komt ook tot u uiting in het percentage p onvoldoendes o s. Bij Engels en wiskunde e stijgt het peercentage onvoldoe endes ten ge evolge van de tweede co rrectie met drie d percenta agepunten enn bij de overige examenss is het verscchil nul of ho ooguit een pe ercentagepun nt. Al met al kunnen we nniet anders dan d conclude eren dat de eerste e en gez zamenlijke ccorrectie in sttatistisch opz zicht niet of nnauwelijks ondersch heidbaar zijn n. Kennelijk heeft h de twee ede correctie e weinig direc cte invloed oop de eerste correctie e.

Figuur 4 G Gemiddelde examenscore e voor v de eerste e en gezamen nlijke correctie per examen

2.3 Verschillen n tussen scholen den we dat de eerste corrrectoren gem middeld aanz zienlijk lageree scores toek kennen Hiervoorr constateerd dan de d derde correcttoren. Een overwegend tte soepele be eoordeling is s niet zo erg aals alle doce enten even soe epel zouden beoordelen en kandidate en niet bevoor- of benadeeld wordenn. Dit roept de e vraag op in hoe everre leerlin ngen op de ene e school m meer profitere en van de ge econstateerdee soepelheid d van de eigen do ocent dan op de andere school. s De da ataset van het O2C-onde erzoek bevatt de examenscores van de e eerste, gezam menlijke en derde d correcttie van in totaal 803 exam menkandidatten voor zes examenss van in totaa al 127 schole en. De gemid ddelden per school zijn gebaseerd g opp de oordelen van vijf derde co orrectoren. Een E probleem m is dat exam mens verschillende maxim mumscores hhebben en de e scores daardoor moeilijk verrgelijkbaar zijn. Daarom zzijn de score es per vak om mgezet naar het gemidde elde age goed in de d volledige dataset. Hett gemiddelde e percentage goed beantw woorde vrag gen percenta bedraagt voor de eerrste correctie e 59.6%, voo or de gezame enlijke correc ctie 59.3% e n voor de de erde e 53.7%. Een nvoudig rekenwerk laat z ien dat het gemiddelde g verschil v tusseen de eerste en correctie gezamen nlijk correctie e zeer klein is en slechts .3% van de maximumsc core bedraaggt. Het overeenkomstige verrschil tussen n de eerste e n derde corrrectie is daarrentegen aannzienlijk en bedraagt b umscore. Nagegaan is in n hoeverre de e verschillen tussen de d rie vormen van v 6.4% van de maximu 7

correctie e op de ene school s groterr zijn dan op de andere school. s De an nalyse is uitggevoerd met behulp van mee erniveau analyse volgens s het zogehetten multivariate model vo oor afwijkingssscores (Van n den Bergh & Kuhlemeier,, 1997). De belangrijkste b z gevisualis seerd in Figuuur 5 en 6. resultaten zijn n op de ene school soep peler beoorrdeeld dan op o de anderee school? Worden kandidaten ent gemiddeld d 6.4% hoge ere examensccores toeken nt dan de Eerder cconstateerden we dat de ‘eigen’ doce ‘onafhan nkelijke’ derd de correctoren. Figuur 5 la aat zien in hoeverre dit verschil v op dee ene school groter of kleine er is dan op de d andere sc chool. Daarbijij zijn de scho olen georden nd van soepeel naar minder soepel (m met de derde e correctie als vergelijkin ngscriterium). De horizonttale stippellij n represente eert het gemidde elde verschil tussen de ee erste en derd de correctie dat gelijk is aan a nul. De ddriehoekjes geven g het gemiddelde van de school we eer in vergel ijking met da at van de tota ale groep vann 127 schole en. De e lijnen tonen n het 95%-be etrouwbaarhe eidsinterval rond r de scho oolgemiddeldden. Een school verticale verschiltt significant van v het gemiddelde (op 5 5%-niveau) als a het betrou uwbaarheids interval geen n overlap et nul (Goldsttein & Healy, 1995). heeft me De betro ouwbaarheidsintervallen rond r de scho oolgemiddeld den raken de e nullijn in veeel gevallen niet. n Links on nder in Figuur 5 bevindt zich een grote e groep scho olen waar he et gemiddeld verschil tuss sen de cant groter is dan 6.4% va an de maxim mumscore (enn waar de ee erste eerste en derde correctie signific de dan het ge emiddelde). Rechts boveen in de figuu ur zien corrector dus significcant soepelerr beoordeeld grote groep scholen s waar het gemidd deld verschil tussen de ee erste en derdde correctie we een g significant kleiner is dan d 6.4% (en n waar de ei gen docent dus d significant minder sooepel beoordeelde middeld). Al met m al moeten we conclud deren dat ka andidaten op de ene schoool sterker prrofiteren dan gem van de ssoepelheid va an de eigen docent dan o op de andere e school. Deze resultatenn staan op gespann nen voet mett het uitgangs spunt dat kan ndidaten me et dezelfde va aardigheid onnafhankelijk van de school dezelfde slaagkans zoude en moeten he ebben.

Figuur 5 V Verschillen tusssen scholen in het verschill tussen de ee erste en derde e correctie

8

Heeft de e tweede correctie op de d ene schoo ol meer invloed dan op de andere sschool? Hiervoorr constateerd den we dat het gemiddeld de van de ge ezamenlijke correctie c .3% % lager is dan n dat van de eerste e correctie. Figuur F 6 laat zien in hoevverre dit gem middeld versc chil op de enee school groter is dan op d de andere scchool. Daarbiij zijn de scho olen georden nd van soepe el naar mindder soepel (m met de gezamen nlijke correcttie als vergellijkingscriteriu um). De horiizontale stipp pellijn repressenteert nu het gemidde elde verschil tussen de ee erste en gez amenlijke co orrectie dat gelijk is aan nnul. De driehoekjes geven he et gemiddeld de van de school weer in vergelijking met dat van de totale grooep van 127 7 scholen. De betrouw wbaarheidsinttervallen van n de schoolge emiddelden in Figuur 6 raaken de nullijn vrijwel et verschil tusssen het gem middelde van n de eerste en e gezamenlijke correctiee is dus voor altijd. He nagenoe eg alle schole en gelijk. Toc ch is er een kkleine groep scholen die afwijkt van hhet gemiddelde. Helemaa al links bevin nden zich enk kele scholen n waar de eerrste correcto or in vergelijkking met de tw weede corrector significant soepeler s was s (dan het ge emiddelde ve erschil van .3 3%) en helem maal rechts zien z we orrector stren nger was. enkele sscholen waarr de eerste co

Figuur 6 V Verschillen tusssen scholen in het verschill tussen de ee erste en gezam menlijke correcctie

9

3.

Het Panelonderzoek Vierde Correctie (P4C)

3.1 Check op de resultaten van het O2C-onderzoek De resultaten van het O2C-onderzoek zijn besproken in een breed samengestelde resonansgroep. Die bestond uit vertegenwoordigers van het ministerie van OCW, werkgevers, werknemers, vakverenigingen, Inspectie, College voor Examens (CvE) en Cito. Binnen deze begeleidingscommissie werd over mogelijke verklaringen van de geconstateerde verschillen tussen de eerste en derde correctie verschillend gedacht. Een belangrijke vraag was in hoeverre de eerste correctoren te soepel hadden beoordeeld dan wel dat de derde correctoren te streng waren geweest. De resonansgroep concludeerde dat de opzet van het onderzoek geen eenduidig antwoord op deze vraag toeliet. De argumentatie was dat het via overleg tot stand gekomen oordeel van de eerste en tweede corrector evenveel gewicht in de schaal legt als het gemiddelde oordeel van de derde correctoren. Alvorens de resultaten te publiceren, wilde de resonansgroep meer zekerheid dat de conclusies juist waren. Er was met andere woorden behoefte aan een hard criterium waartegen de scores van de eerste en derde correctoren konden worden afgezet. Daarom werd besloten een vervolgonderzoek uit te voeren (Kuhlemeier, Gitsels, Boom, Van de Kerkhof & Sinkeldam, 2012). In het zogeheten Panelonderzoek Vierde Correctie (P4C) hebben panels van getrainde ‘vierde’ correctoren een selectie van vragen en examenwerken uit de examens geschiedenis, tehatex en Nederlands nogmaals nagekeken en vergeleken met de eerste, gezamenlijke en derde correcties uit het hoofdonderzoek. Anders dan in het O2C-onderzoek ontvingen de panelleden een training in het gebruik van het correctievoorschrift. Bovendien kregen zij volop de ruimte om met elkaar te discussiëren over de vraag, het beoordelingsmodel en de toegekende scores. Het panelonderzoek had tot doel een antwoord te geven op de vraag: ‘In hoeverre hebben (sommige) eerste correctoren inderdaad overwegend (te) soepel nagekeken (en heeft de tweede correctie ten onrechte geen directe invloed op de uiteindelijke score)?’ Anders gezegd gaat het erom in hoeverre de eerste corrector het correctievoorschrift bij deze kandidaten correct heeft toegepast dan wel dat eventuele beoordelingsfouten bij de derde correctoren liggen. De panels geschiedenis, tehatex en Nederlands hebben ieder vijftien examenwerken opnieuw beoordeeld. Deze vijftien werken vormden geen willekeurige steekproef uit alle examenwerken van het hoofdonderzoek. Gekozen zijn de vijftien werken waarbij het verschil tussen de eerste en derde correctie het grootst was. De achterliggende gedachte was dat juist bij deze werken de kans op het vinden van te soepele of te strenge beoordelingen het grootst is. Naderhand zijn de scores van de eerste en derde correctoren vergeleken met die van het panel van vierde correctoren. Zo probeerden we erachter te komen in hoeverre de eerste correctoren te soepel hadden beoordeeld dan wel dat de derde correctoren te streng waren geweest. Check op de resultaten geschiedenis Bij geschiedenis blijkt de gemiddelde score van het panel veel dichter bij de derde dan de eerste correctie te liggen (zie Figuur 7). Kennelijk zijn de eerste (en tweede) correctoren geschiedenis te soepel geweest en waren de derde correctoren slechts in beperkte mate te streng. Uitgedrukt in cijfers op het CSE geschiedenis komt het verschil tussen de eerste, derde en vierde correctie overeen met de cijfers 7.1, 5.1 en 5.4.

10

Figuur 7 G Gemiddelde to otaalscores va an de eerste, g gezamenlijke, derde en vierrde correctie ggeschiedenis

Check o op de resulta aten tehatex x Bij tehate ex blijkt de gemiddelde g score s van hett panel nog onder o het ge emiddelde vaan de derde correctoren te liggen n (zie Figuur 8). Kennelijkk hebben de eerste (en tw weede) correectoren te soepel beoordeeld en waren n de derde correctoren n iet onredelijk k streng. Uitg gedrukt in cijffers op het CSE C tehatex kkomt het verrschil tussen de eerste, d derde en vierde correctie overeen mett de cijfers 7.6, 5.7 en 5.3. In een ander vervolgonde erzoek hebbe en vijf correc ctoren ongeveer de helft vvan de examenw werken uit he et O2C-onde erzoek nogm maals beoordeeld (Gitsels s & Kuhlemeiier, in voorbe ereiding). De vijf co orrectoren blleken nog strrenger te heb deeld dan de derde correectoren uit he et O2Cbben beoord onderzoe ek.

Figuur 8 G Gemiddeld tottaalscores van n de eerste, ge ezamenlijke, derde d en vierd de correctie te hatex

11

Check o op de resulta aten Nederlands De bevin ndingen van het panel Ne ederlands wijijken af van die d bij geschiedenis en teehatex (zie Figuur F 9). Bij Nede erlands ligt de e gemiddelde e score van het panel dic chter bij de eerste e dan dee derde corre ectie. De eerste co orrectoren Nederlands ziijn dus niet o onredelijk soe epel geweest is en de deerde correcto oren waren te e streng. Uitg gedrukt in cijffers op het C CSE Nederlands komt het verschil tusssen de eers ste, derde en vierde e correctie overeen met de d cijfers 7.1 1, 5.7 en 6.7.. In de paneldiscussies s peelde het verlag v van de e examenbespreking uit Levende Talen n een belangrijke rol. De panelleden vvonden dat verslag v een nuttig hulpmidde el bij de beoo ordeling. De vvergelijking van v de versc chillen tussenn de scores van v de eoordeling vóór v discussie e en de twee ede beoordeling na discu ussie laat zie n dat het geb bruik van eerste be de exam menbesprekin ngen over he et algemeen ttot hogere sc cores leidt. Het H veelvuldigg gebruik va an de examenb besprekingen verklaart wellicht w mede e waarom he et verschil tus ssen de eersste en derde correctie bij Nederlands kleine er is dan bij geschiedenis g s en tehatex.

Figuur 9 G Gemiddeld tottaalscores van n de eerste, ge ezamenlijke, derde d en vierd de correctie Neederlands

Check o op de toepas ssing van het correctiev voorschrift De pane elleden hebbe en ook beoordeeld in hoe everre de ee erste correcto or het correct ctievoorschrifft bij deze vijftien examenwerke en juist heeftt toegepast. V Voor elke be eoordeelde vraag maakteen zij een keu uze uit ende vier antw woordmogelijkheden: a) de eerste co orrector heeftt het correctiievoorschrift correct de volge toegepasst, b) er is tw wijfel of de ee erste correcto or te soepel beoordeelde e, c) de eerstte corrector heeft h met zekerheiid te soepel beoordeeld b en e d) de eersste correctorr heeft te stre eng beoordeeeld. De resulltaten zijn weergegeven in Figuur 10.

12

Figuur 10 0 De mate waa arin eerste corrrectoren het ccorrectievoors schrift correct toepassen t pe r examen

n het panel geschiedenis g s heeft de eerste correcto or het correcttievoorschriftt bij 66% Naar hett oordeel van van de n nagekeken antwoorden ju uist toegepasst. Bij 14% van de antwoorden staan de vierde correctoren in dubio of de eerste corrector de e kandidaat te t soepel beo oordeelde enn de kandida aat eld is. Bij 19% % van de anttwoorden is h het panel van mening da at de eerste ccorrector de benadee kandidaa at op een voor hen onverrklaarbare w wijze bevoordeeld heeft. De D eerste corrrectoren beoordeelden hier biijvoorbeeld volgens v het p principe ‘alles s wat niet echt fout is, is ggoed’ of reke enden ord goed. Daar staat tege enover dat de e kandidaat bij b 1% van dee beoordelin ngen evident ffoute antwoo benadee eld is. Naar hett oordeel van n het panel te ehatex heeftt de eerste co orrector het correctievoor c rschrift bij 56 6% van de nagekeken antwo oorden correc ct toegepastt, bij 17% bes stond twijfel of de kandiddaat te soepe el % was met zekerheid te ssoepel beoorrdeeld en 1% % was te streeng beoordee eld. beoordeeld was, 26% dragen de ov vereenkomsttige percenta ages 85% (co orrect), 5% ((mogelijk te soepel), s Voor Nederlands bed er te soepel)) en 3% (te streng). s 7% (zeke els geschiede enis, tehatex x en Nederlan nds conclude eren verder dat d er eerstee correctoren zijn die De pane een aanzzienlijk deel van de antw woorden onve erklaarbaar to oegeeflijk be eoordelen. Diit wil zeggen n dat de soepelhe eid niet kan worden w toegeschreven a aan een gebrrek aan vakkennis, onvolkkomenheden n in het examen,, de wijze wa aarop de kan ndidaat het a ntwoord gefo ormuleerd he eeft en dergeelijke. Bij Ned derlands doet de o onverklaarba aar soepele beoordeling b zich voornam melijk voor bij het toekennnen van aftrekpunten vanweg ge incorrecte e formulering en en onjuist taalgebruik k in de samennvattingsopd dracht. m hier welhaast sprake e zijn van op pportunistisch h-strategischh beoordeling gsgedrag Volgens de panels moet gebrek aan professionalit p teit en/of inte egriteit. en een g Al met al bevestigt het P4C-onde erzoek dat de e eerste corrrectoren gesc chiedenis enn tehatex de ‘eigen’ en te soepel beoordelen b en e dat de de rde correctoren niet onre edelijk strengg zijn gewees st. Bij leerlinge Nederlan nds waren de e eerste corrrectoren volg gens het pan nel doorgaans niet te soe pel. Wel zijn er ook bij Nederlands eerste e correctoren n die opportu unistisch-stra ategisch beoordelingsgeddrag vertonen. De e omvang van het beoord delaarsonderrzoek laat he et echter niet toe om de ggrootte van deze d beperkte groep prrecies te bep palen.

13

xamenken nmerken en e verschiillen in so oepelheid 3.2 Ex Aan versschillen tusse en correctore en kunnen ve erschillende oorzaken ten grondslag liggen. Een daarvan is gelege en in het exa amen zelf. Do ocenten moe eten hun leerrlingen beoorrdelen volge ns het correctie evoorschrift. Dat bestaat onder meer uit algemene e en vakspec cifieke regelss voor de beo oordeling en een b beoordelingsmodel. In he et P4C-onderrzoek is ook nagegaan in n hoeverre dee verschillen n tussen correctoren samenha angen met kenmerken va an de vraag en het beoorrdelingsmodeel. Daartoe hebben h de drie p panels een selectie van vijf v vragen uitt hun examen nogmaals nagekeken. Geselecteerrd zijn de vijf vrage en waarbij he et gemiddeld de verschil tu ussen de sco ores van de eerste e minus de derde co orrectie het sterkkst positief is. De vierde correctoren c h hebben van deze d vijf vrag gen niet alle beschikbare e antwoord den nogmaa als nagekeken. Per vraag g is volstaan met een sele ectie van de antwoorden van twaalf ka andidaten. Geselecteerd G zijn die antw woorden waa arbij het versc chil tussen dde eerste en derde correctie es gemiddeld d het grootste e is. De vero onderstelling is dat de kan ns op het vinnden van aanwijzin ngen voor ve erbetering va an het exame en bij deze antwoorden a het h grootst is . Hieronder bespreke en we eerste e twee examenvragen die e zeer lastig te beoordele en bleken. Daaarna gaan we w in op kenmerkken van het beoordelings b smodel die aa anleiding gav ven tot grote e verschillen ttussen corre ectoren. Voor een n uitgebreide ere besprekin ng dan in hett bestek van deze publica atie mogelijkk is, wordt ve erwezen naar Kuh hlemeier, Gittsels, Boom, Van de Kerkkhof en Sink keldam (2012 2). Eerste v voorbeeld va an een lastige examenv vraag Bij het be eoordelen va an de antwoo orden op ope en vragen zijjn verschillen n tussen corrrectoren niett volledig te vermijjden. Hoe lasstig de beoorrdeling van o open vragen kan zijn, illustreren we aaan de hand van een voorbeeld uit het exa amen geschiedenis havo 2009. De ge epresenteerd de antwoordeen van kandidaten elijke formule ering en spelling intact geelaten zijn. zijn ‘echtte’ antwoorden waarbij de oorspronke 0 uit het exam men geschie edenis havo 2 2009 is een zogeheten noemvraag. n D De kandidaat wordt Vraag 20 gevraagd d drie voorde elen te noem men van de S Spaanse vero overing van Antwerpen A vvoor de Holla andse nijverheiid. De inleidin ng op de vra aag vermeldt dat de Holla andse nijverh heid en handdel profiteerden van ntwerpen door het Spaan nse leger. De e precieze fo ormulering is als volgt: de verovvering van An

ordelingsmod del bij vraag 20 is van he et type ‘Een voorbeeld v va an een juist aantwoord is’. De Het beoo corrector kan 0, 1, 2 of 3 punten toekennen. H Het beoordelingsmodel geeft g vier vooorbeelden va an juiste en waarbij de e kandidaat per p juist voorrdeel één pun nt krijgt met een maximuum van 3 pun nten. Het voordele beoordelingsmodel iss hieronder onverkort o we eergegeven:

14

Overeenkomstig de vraagstelling moet de kandidaat drie voordelen opnoemen van de Spaanse verovering van Antwerpen voor de Hollandse nijverheid. Antwoorden die niet specifiek over nijverheid gaan, moeten volgens de maker van het examen fout gerekend worden. Kandidaten blijken bij deze vraag regelmatig voordelen voor de handel te noemen in plaats van voor de nijverheid (zie onderstaande voorbeelden van ‘echte’ antwoorden van kandidaten die deelnamen aan het examen geschiedenis havo 2009). De Hollandse nijverheid profiteerde van de Spaanse verovering van Antwerpen omdat ze nu minder concurrentie hadden, de handelspositie van Antwerpen nu naar Holland verschoof en dus beter werd en omdat veel mensen naar Holland trokken waardoor het dichter bevolkt werd en door die redenen dus het middelpunt van de handel werd. Drie voordelen voor de Hollandse nijverheid van de Spaanse verovering van Antwerpen zijn: De val van Antwerpen. Hierdoor kwam de handel naar Amsterdam Rijke kooplieden-regenten vertrokken uit Antwerpen naar Holland en namen daarbij hun kapitaal en kennis mee De Schelde werd afgesloten waardoor er geen schepen meer naar Antwerpen konden gaan en de handel nog meer in Holland gevestigd werd De kooplieden en handelaren uit Antwerpen kwamen naar Holland, daardoor nam de kennis toe in Holland. Door de afsluiting van de Schelde vestigde zich in Holland een stapelmarkt Doordat de Schelde was afgesloten en hier meer handel kwam, namen de arbeidsplaatsen toe. Dat was een voordeel. De Antwerpse haven was niet veilig dus gingen ze naar Hollandse havens voor nijverheid producten. Door de verovering van Antwerpen vluchtte veel mensen naar Holland. Deze mensen gingen verder hun werk doen in Holland dus er was een overvloed aan werknemers. Er waren ook mensen die vluchtte, omdat ze heel rijk waren en veel kennis hadden deze hielpen mee aan de financiering en vernieuwing van de nijverheid.

Strengere correctoren kennen aan voordelen voor de handel terecht geen punten toe, terwijl hun soepelere collega’s dat wel doen. Laatstgenoemden beargumenteren de toegekende punten door erop te wijzen dat nijverheid en handel sterk met elkaar verbonden zijn en dat voordelen voor de nijverheid ook ten goede komen aan de handel. Overigens had dit beoordelingsprobleem wellicht verminderd kunnen worden door het woordje handel uit de inleiding op de vraag te schrappen en aan het beoordelingsmodel een opmerking toe te voegen dat voordelen voor de handel fout gerekend moeten worden. Tweede voorbeeld van een lastige examenvraag Het tweede voorbeeld betreft vraag 1 uit het examen geschiedenis havo uit 2009. De inleiding op deze vraag vermeldt dat de Franse regering in de Coalitieoorlogen de dienstplicht invoerde. De vraag is een zogeheten uitlegvraag en luidt “Leg uit dat zij hiermee de betrokkenheid van de Franse burgers bij de staat kon vergroten”. De maximumscore bij deze vraag is 2 punten. Het beoordelingsmodel beschrijft een voorbeeld van een juist antwoord dat uit twee varianten bestaat. Volgens de eerste variant is de juiste uitleg van het gegeven dat de Franse regering door de dienstplicht in te voeren de betrokkenheid van de burgers bij de staat kon vergroten dat een groot aantal (jonge) mannen meer in aanraking kwam met de idealen van de Franse revolutie of het Franse nationalisme. Bij de tweede variant is de juiste uitleg dat een groot aantal (jonge) mannen meer onder invloed van politieke commissarissen kwam. Deze tweede

15

variant iss op verzoekk van het CvE E aan het be eoordelingsm model toegevoegd. Het beeoordelingsm model is hieronde er integraal opgenomen. o

er staan vijf voorbeelden v van ‘echte’ a antwoorden van kandida aten die in dee praktijk aan nleiding Hieronde gaven to ot grote score everschillen tussen eerstte correctoren. De diens nstplicht houd udt in dat allle mannen ttussen de 18 en 25 jaar (of ( ouder) in n het leger moesten n dienen. Doo oordat deze mannen m hett leger in mo oesten kregen n ze meer me mee van de oorlogen n in de tijd & leerden ze e vechten voo or hun vader erland. De be etrokkenheid d van de bur rgers werd ver rgroot doord dat mannen n hun vrouwe en en kinder eren en ouder ers achter liet eten. Deze leefden met de oorlo og mee omda at een gelieffde van hen het leger in ging en oorrlog ging voe eren. De diens nstplicht was ingesteld vo oor mannen van 18-25 ja aar. De betro okkenheid va an de franse e burgers wordt hierd door vergroot ot doordat de e burgers nu u zelf ten strij ijd moeten ga gaan Door de e dienstplicht ht was iederee en vanaf een n bepaalde leeftijd l verpli licht mee te vvechten in de d oorlog. H Hierbij werd den dus de bu urgers betrok okken bij de beslissingen b die d de staatt nam (bij de eze dus een oorlog). Bijn na alle man nnen van een n bepaalde leeftijd l (mee estal vanaf 1 8) werden opgeroep epen dat ze moesten m vech hten en wel e elke vrouw ha ad een vade er, broer, ma an of zoon diie ging vec chten. De burg ger werd betr trokkener bij de staat om mdat er de ka ans was dat die in het leeger moest en n dus afha ankelijk wass van de besllissingen van n de staat op p bv. militair r gebied. Ook ok kende iedereen n wel iemand nd die in het leger zat off zou gaan. Ze Z trokken het he lot van diie mensen aa an en ginge gen dus ook de d beslissinge gen van de sttaat volgen, hierdoor we erden de burrgers meer betrokke en tot de sta aat. Vrijwel a alle mannen n in Frankrij ijk die oud ge genoeg waren n gingen in dienstplichtt. Hierdoor was w een enor orm deel van n de bevolkin ng direct bij o oorlogen bettrokken.

m zijn deze vijjf antwoorden zo verschi llende beoorrdeeld? Een eerste redenn is dat de Waarom antwoord den op geen n enkele wijze e zijn terug te e vinden in het h beoordelingsmodel. Z Zo verwijst ge een van de kandiidaten in zijn n of haar uitle eg naar de id dealen van de e Franse rev volutie, het F ranse nation nalisme of de invvloed van pollitieke comm missarissen d ie in het beo oordelingsmo odel genoemdd worden. Voor zover ka andidaten andere historische verklarin ngen geven, zijn deze me eestal niet (ddoor docente en) terug te vinden n in gezaghe ebbende wetenschappelijjke publicatie es. ede reden he eeft te maken met de aarrd van het be eoordelingsm model. Het beestaat uit een Een twee beoordelingsschaaltjje met de toe egestane sco ores 0, 1 en 2. 2 Het beoorrdelingsmodeel geeft allee en een a Om mdat alleen de maximum mscore aan dde hand van een voorbeeld van een volledig juist antwoord. h beoordeliingsmodel de e corrector weinig w houvaast bij het toe ekennen voorbeeld omschreven is, biedt het n en waarde ren van half en geheel fo oute antwoorrden wordt met m van 1 of 0 punten. Het herkennen woorden aan n de vakinhou udelijke deskkundigheid van v de correc ctor overgelaaten. andere w de reden is dat d kandidate en vaak zuive er psycholog gische verkla aringen geve n die op zich h niet Een derd onlogisch zijn, maar die niet doorr gezaghebb bende wetens schappelijke publicaties ggestaafd worrden (en 16

dus fout gerekend zouden moeten worden). Zo verwijzen veel kandidaten ernaar dat de Franse overheid de burgers bij de staat wist te betrekken doordat iedere soldaat wel een familielid heeft dat met hem meeleeft. Verschillen in soepelheid ontstaan waar strenge correctoren een verwijzing naar termen uit het beoordelingsmodel of de vakliteratuur eisen en soepele correctoren genoegen nemen met een niet-historisch antwoord. Examenkenmerken en verschillen in soepelheid De panels hebben ieder zestig antwoorden op vijf vragen uit het desbetreffende examen opnieuw nagekeken en vervolgens besproken. De bespreking was gericht op het vinden van verklaringen voor de geconstateerde verschillen tussen correctoren in soepelheid. Verschillen in soepelheid blijken vooral voor te komen in de volgende situaties:  Het beoordelingsmodel is onvolledig en kandidaten geven veelvuldig antwoorden die niet in het beoordelingsmodel voorkomen. De corrector is dan aangewezen op algemene regel 3.3 (d.w.z.: indien een antwoord op een open vraag niet in het beoordelingsmodel voorkomt en dit antwoord op grond van aantoonbare, vakinhoudelijke argumenten als juist of gedeeltelijk juist aangemerkt kan worden, moeten scorepunten worden toegekend naar analogie of in de geest van het beoordelingsmodel) en de vakspecifieke regel dat vakinhoudelijke argumenten afkomstig moeten zijn uit gezaghebbende, wetenschappelijke publicaties. Het onderzoek maakt aannemelijk dat de scores van de correctoren verder uiteenlopen naarmate zij vaker een beroep moeten doen op algemene regel 3.3 en de vakspecifieke regel.  Het beoordelingsmodel geeft alleen een voorbeeld van een volledig juist antwoord en biedt geen steun bij het herkennen van en het toekennen van punten aan minder goede of foute antwoorden. Daardoor moet de corrector een beroep doen op algemene regel 3.2 (d.w.z. de regel voor het zelfstandig toekennen van scorepunten aan gedeeltelijk juiste antwoorden). Uit de panelbeoordelingen komt naar voren dat algemene regel 3.2 vaak aanleiding geeft tot verschillen tussen correctoren in soepelheid.  Een inconsistentie tussen vraag en beoordelingsmodel geeft aanleiding tot verschillen tussen correctoren in soepelheid. Bijvoorbeeld: a. de examenvraag gaat over burgers terwijl in het beoordelingsmodel mannen i.c. dienstplichten centraal staan; b. Er wordt een kort en bondig antwoord gevraagd, maar het beoordelingsmodel bestaat uit lange en complexe zinnen.  De kandidaat geeft meer antwoorden dan volgens de vraagstelling is toegestaan. De corrector moet dan algemene regel 3.5 toepassen (d.w.z. de regel waarbij antwoorden boven het gevraagde aantal niet in de beoordeling betrokken mogen worden). De ene corrector past deze algemene regel zoals het hoort wel toe en de ander doet dat ten onrechte niet en geeft de kandidaat ook punten voor antwoorden boven het toegestane aantal.  Het aantal te beoordelen inhoudselementen is groter dan de maximumscore. Om één punt te verdienen moet de kandidaat bijvoorbeeld zowel een juiste uitleg geven als een juiste bron noemen. De ene corrector kent zoals het hoort 0 punten toe, maar de andere corrector kent dat éne punt ook toe als de kandidaat alleen een juiste uitleg geeft of alleen een juiste bron noemt.  De kandidaat geeft een foute toelichting bij een goed antwoord of een goede toelichting bij een fout antwoord zonder dat in de vraagstelling om verduidelijking of uitleg gevraagd wordt. Verschillen in soepelheid ontstaan als de ene corrector de toelichting wel in de beoordeling betrekt en de ander dat niet doet.  Het voorschrift van een als 0-1 te scoren vraag beschrijft meerdere kenmerken van een goed antwoord (element) zonder dat volledig duidelijk is hoeveel en welke kenmerken in het antwoord van de kandidaat aanwezig moeten zijn om dat ene punt te mogen toekennen. De ene corrector is al blij met één van de kenmerken, terwijl de ander eist dat alle kenmerken in het antwoord aanwezig zijn.  Het beoordelingsmodel is geformuleerd in academische vaktaal/jargon, terwijl kandidaten hun antwoorden in alledaags Nederlands formuleren. Een voorbeeld is de omschrijving van een juist 17





antwoord ‘Het is een enorme ‘blow-up’ van een (klein) gebruiksvoorwerp’ uit het correctievoorschrift tehatex. De ene corrector eist een expliciete verwijzing naar een blow-up of een enorme uitvergroting van een gebruiksvoorwerp, terwijl de ander genoegen neemt met ieder antwoord waarin iets van grootte naar voren komt. Een beoordelingsmodel laat alleen de scores 0 en 2 toe, waarbij gedeeltelijk juiste antwoorden de score 0 moeten krijgen. Verschillen tussen correctoren ontstaan als de ene corrector voor een gedeeltelijk juist antwoord 0 punten toekent en de ander dat antwoord in strijd met het beoordelingsmodel toch met één scorepunt honoreert. Bij lastig te beoordelen antwoorden baseert de ene corrector de puntentoekenning op het verslag van examenbesprekingen terwijl de andere corrector dat niet doet en zelfstandig de algemene scoringsregels probeert toe te passen. De ervaringen van het panel Nederlands laten zien dat het gebruik van de examenbesprekingen doorgaans tot hogere scores leidt.

Bij de interpretatie van deze resultaten moet men bedenken dat de onderzochte examens, kandidaten en examenvragen geen representatieve steekproef vormen uit de totale verzameling van examens, kandidaten en examenvragen. De drie examens uit het P4C-onderzoek zijn vooral gekozen vanwege het grote aantal open vragen. Hadden we bijvoorbeeld voor examens zonder open vragen gekozen, dan waren de resultaten ongetwijfeld gunstiger geweest (maar had het onderzoek ook minder verbeteringssuggesties opgeleverd). Daarnaast hebben de panels alleen vragen en examenwerken beoordeeld waarbij het verschil tussen de eerste minus de derde correctie sterk positief was. De kans op het aantreffen van problematische vragen is daardoor veel groter dan wanneer we de panels een representatieve steekproef van vragen hadden voorgelegd. De resultaten van het P4C-onderzoek zijn derhalve niet geldig voor het gemiddelde examen, de gemiddelde examenvraag of de gemiddelde corrector.

18

4.

Het vragenlijstonderzoek naar de praktijk van de eerste en tweede correctie

In het schooljaar 2011-2012 heeft Cito een vragenlijstonderzoek uitgevoerd naar de praktijk van de eerste en tweede correctie. Van deze inventarisatie is verslag gedaan in Kuhlemeier en Kremers (2012). Het onderzoek had tot doel een antwoord te geven op de volgende vragen:  Hoeveel tijd kost de eerste en tweede correctie?  Onder welke omstandigheden worden de eerste en tweede correctie uitgevoerd?  In hoeverre voeren docenten de tweede correctie integraal uit?  Hoe denken eerste en tweede correctoren over de zorgvuldigheid en objectiviteit van elkaars beoordelingen?  Hoe vindt het overleg tussen eerste en tweede corrector plaats en hoe komen de uiteindelijke scores tot stand? In het onderzoek zijn twaalf examens betrokken, te weten Nederlands vwo, Biologie vwo, Aardrijkskunde vwo, Muziek vwo (regulier en cbt), Duits havo, Scheikunde havo, Geschiedenis havo, Tehatex havo, Engels gt , Wiskunde gt, Techniek gt en Beeldende vakken gt. Van de 6000 verzonden vragenlijsten kwamen er 3695 (62%) ingevuld retour. Alle respondenten hadden als eerste en/of tweede corrector aan het centraal schriftelijk examen deelgenomen. De relatief hoge respons betekent niet noodzakelijkerwijs dat de gegevens representatief zijn voor de examenpraktijk in Nederland. Zo zouden docenten die de correctie niet volgens de wettelijke voorschriften uitvoeren in de responsgroep ondervertegenwoordigd kunnen zijn.

4.1 Tijdbesteding aan de eerste en tweede correctie Het Platform VVVO (2008a,b) heeft erop gewezen dat de correctie voor veel docenten een hoge taakbelasting met zich meebrengt. In het vragenlijstonderzoek is getracht meer te weten te komen over de tijdbesteding en de randvoorwaarden waaronder de eerste en tweede correctie worden uitgevoerd. Als eerste corrector kijkt de gemiddelde docent het werk van 38 kandidaten na en als tweede corrector beoordeelt hij of zij veertig kandidaten. Hoewel het aantal te beoordelen kandidaten ongeveer gelijk is, kost de eerste correctie docenten veel meer tijd dan de tweede correctie, respectievelijk 22 en 12 uur. Dit verschil zien we ook terug in het gemiddeld aantal dagen: vier dagen voor de eerste correctie en drie dagen voor de tweede correctie. Figuur 11 laat zien dat docenten veel meer tijd aan de eerste correctie besteden dan aan de tweede correctie.

19

Figuur 11 Tijdbesteding g aan de eerste en tweede correctie per examen e

a de eerstte en tweede e correctie sa amen? De geemiddelde do ocent Hoeveel tijd besteden docenten aan v 79 exame enkandidaten n en besteed dt daar 35 klo okuren aan iin zeven dag gen. De corrigeert het werk van elast is voor het h ene exam men veel hog ger dan voorr het andere examen. Datt valt op te maken m uit correctie Figuur 12. Daarin is voor v elk examen het gem middeld aantal uren voor de eerste enn tweede corrrectie weergegeven n. De verticalle lijnen tone en het 95%-b betrouwbaarh heidsintervall rond het samen w gemidde elde. Examen ns hebben ee en significan nt verschillende correctielast als de betrouwb baarheidsintervallen elka aar niet overllappen. Te zien is onder meer dat gesschiedenisdo ocenten bijna drie e keer zovee el tijd in de co orrectie steke en als docen nten Duits.

Figuur 12 2 Gemiddelde correctietijd voor v de eerste en tweede co orrectie in uren n per examen

20

De corre ectietijd blijkt zeer ongelijk k verdeeld ovver de docen nten. De tien n procent meet de lichtste correctie elast kijkt hett werk van ho ooguit 33 kan ndidaten na en besteedt daar tot tien klokuren aa an in hooguit vvier dagen. De D tien proce ent met de zw waarste corrrectielast corrigeert het w werk van miniimaal 140 kand didaten en besteedt daarr ten minste zeventig uurr aan in twaa alf dagen of m meer. en die lesgevven in de gem mengde en th heoretische leerweg l bestteden als grooep minder tiijd aan Docente de correctie dan vwo o- en havo-do ocenten (27 versus 40 en n 38 uur). Ga ammadocentten steken meer m tijd n (respectieve elijk 42 versu us 34 uur) die daar op huun beurt mee er tijd in de corrrectie dan bètadocenten aan bestteden dan ta alendocenten n (31 uur) en kunstdocenten (29 uur). w opgeme erkt dat allee en gevraagd is naar de tijdbesteding aaan het nakijjken als Bij de intterpretatie wordt zodanig.. Docenten besteden b daa arnaast nog ttijd aan ande ere zaken die e met de corrrectie samen nhangen, zoals inttercollegiaal overleg overr de toepassiing van het correctievoor c rschrift, raadpplegen van de d an de vakverenigingen en n de adminis stratieve afha andeling. De hier gerappo orteerde examenvverslagen va correctie etijd vormt da an ook een onderschattin o ng van de tottale tijdbesteding aan de eerste en tw weede correctie e.

4.2 R Randvoorw waarden va an de eers ste en twe eede corre ectie en scholen om m docenten in staat te ste ellen de eers ste en tweede correctie nnaar behoren n uit te Wat doe voeren? Figuur 13 la aat zien hoe scholen s de e eerste correc ctie faciliteren n. Van 13% vvan de docenten zijn ak (bijvoorbe eeld in de opsslagfactor), 8% 8 krijgt de uren voor de eersste correctie opgenomen in de jaartaa nkosten declareren (bijvo oorbeeld teleefoonkosten), 1% een vastt bedrag per examenwerk, 2% kan on ontvangtt een kleine attentie a (bijv. een boeken nbon) en bij 3% 3 wordt de e eerste correectie op een andere, niet nade er omschrevven manier ge efaciliteerd.

Figuur 13 3 De wijzen wa aarop scholen n de eerste corrrectie faciliterren

erste correctie e. De verschhillen zitten hem h Scholen faciliteren de tweede correctie anderrs dan de ee n het jaartaakkbeleid en he et stukloon. D De uren voorr de tweede correctie zijnn bij 5% van de vooral in docenten n opgenome en in de jaarta aak tegen 13 3% voor de eerste e correc ctie. Voor de tweede corrrectie krijgt 39% % van de docenten een vast v bedrag per examenw werk tegen 9% 9 voor de eeerste correc ctie. 21

Hoe tevreden zijn docenten over het schoolbeleid? Driekwart is van mening dat de eerste correctie op school niet gefaciliteerd wordt en bij de tweede correctie gaat het om bijna de helft. Met het schoolbeleid ten aanzien van de eerste en tweede correctie is respectievelijk 39% en 49% ontevreden of zeer ontevreden. Veel docenten ervaren de eerste en tweede correctie als een zware belasting. Zo ervaart 39% de eerste correctie als belastend of zeer belastend en voor de tweede correctie bedraagt dit percentage 56%. Overigens is in de vragenlijst alleen gevraagd naar expliciete faciliteringsmaatregelen. Veel scholen kennen de stilzwijgende afspraak dat docenten de correctie uitvoeren in de tijd die vrijkomt doordat de ingeroosterde lessen in examenklassen bij aanvang van het CSE niet meer gegeven worden. In het onderzoek is niet nagegaan in hoeverre de vrijgekomen tijd toereikend is en daadwerkelijk aan de correctie besteed kan worden.

4.3 Volledigheid van de tweede correctie Volgens het Examenbesluit moeten tweede correctoren het werk van de kandidaten integraal nakijken. Dit wil zeggen dat de tweede corrector alle werken nakijkt en per kandidaat het volledige examenwerk met alle vragen. Volgens opgave van de eerste correctoren komt het nauwelijks voor dat de tweede correctie achterwege blijft. Slechts van één procent van de kandidaten is het werk niet door een tweede corrector nagekeken. Het verhaal van de eerste corrector die een aantal pagina’s dichtplakte met lijm en het examenwerk enkele dagen later in dezelfde staat weer terugkreeg, lijkt dus vooral een mooi verhaal. Gevraagd naar de volledigheid waarmee de tweede correctie is uitgevoerd, zegt 9% van de eerste correctoren hier geen zicht op te hebben, 31% vindt dat de tweede correctie zeer volledig gedaan is, 39% volledig, 18% min of meer volledig, 2% onvolledig en 1% zeer onvolledig. Aan de hand van vijf stellingen is geïnventariseerd welke strategieën docenten bij de tweede correctie hanteren. De eerste stelling beschrijft de situatie waarin de tweede corrector het examenwerk integraal nakijkt. De letterlijke formulering is ‘Ik heb het examenwerk van alle kandidaten helemaal nagekeken (als ware het een eerste correctie)’. De docenten is gevraagd in hoeverre deze uitspraak op hen van toepassing is. Zij konden daarbij kiezen uit de antwoordmogelijkheden ‘Klopt helemaal’, ‘Klopt’, ‘Klopt niet’ en ‘Klopt helemaal niet’. Van de tweede correctoren heeft 44% het examenwerk van alle kandidaten helemaal nagekeken, als ware het een eerste correctie. Van hen mag worden aangenomen dat zij de tweede correctie overeenkomstig het overheidsbeleid uitvoeren. Bijna één derde (32%) van de tweede correctoren koos voor de antwoordmogelijkheid ‘Klopt’, 20% voor ‘Klopt niet’ en 4% voor ‘Klopt helemaal niet’. Zij voeren de tweede correctie niet helemaal of helemaal niet volgens de wettelijke voorschriften uit. Figuur 14 toont de verdeling van de antwoorden per examen. Bijna de helft van de geschiedenisdocenten herkent zichzelf helemaal niet in de stelling. Waarschijnlijk niet toevallig is geschiedenis ook het examen met de zwaarste correctielast (zie ook Figuur 12). Tweede correctoren muziek, Duits, Engels, wiskunde, economie en beeldende vakken kijken naar eigen zeggen vaak integraal na. Niet onverwacht zijn dit examenvakken met een relatief lichte correctielast (zie ook Figuur 12).

22

Figuur 14 4 De mate waa arin tweede co orrectoren inte egraal nakijken n per examen

E procent vvan de tweed de De overiige vier stellingen beschrrijven niet-inttegrale correctiewijzen. Eén didaten steek kproefsgewijss nagekeken n en is correctoren heeft eerrst het examenwerk van enkele kand gestopt. Deze docenten voeren v de tw weede correc ctie niet volge ens de wetteelijke voorsch hriften uit. daarna g Hetzelfde geldt voor de 1% die eerst e enkele vragen nake eek waarover discussie tee verwachten n valt en p van de tweede ccorrectoren corrigeerde c in n eerste instaantie een ste eekproef daarna sstopte. Acht procent van kand didaten en beoordeelde daarna d nog m meer kandidaten. Negen procent keeek eerst enke ele vragen n na waarover discussie te verwachten valt en beoo ordeelde daa arna nog anddere vragen. De beide laa atstgenoemd de strategieë ën sluiten inte egrale correc ctie niet uit. Het H is mogeliijk dat de twe eede corrector na de steekkproef van vrragen of exa amenwerken volledig te hebben h beooordeeld de ov verige en examenwerken alsnog g volledig na kijkt. Het ond derzoek maa akt echter aaannemelijk da at het vragen e percenta age docenten n dat eerst stteekproefsge ewijs nakijkt en uiteindelijjk toch nog aalle vragen en e kandidatten corrigeerrt niet hoger is dan één p procent. den we dat 44% van de d docenten hett examenwerrk naar eigenn zeggen hellemaal Hiervoorr constateerd heeft nag gekeken, alss ware het ee en eerste corrrectie. Nage egaan is hoeveel docenteen zich volled dig herkenne en in de eersste stelling over integrale e correctie en n zich daarna aast helemaaal niet herkennen in de vier sstellingen die e niet-integrale correctiew wijzen beschrrijven. Van alle tweede coorrectoren vo oldoet bijna één n derde (31% %) aan dit samengestelde e criterium. Van V hen mag g met een groote mate van n zekerheiid worden aa angenomen dat d zij de twe eede correctie volledig ov vereenkomsttig de wetteliijke richtlijnen uitvoeren. Figuur 15 laat zien dat tw weede docen nten die integ graal nakijkeen meer tijd in de esteren dan docenten die e niet alle ka andidaten en//of vragen naakijken (met tweede ccorrectie inve uitzonde ering van tehatex).

23

Figuur 15 5 Tijdbesteding g aan de twee ede correctie vvoor integrale en niet-integra ale tweede coorrectie

De vijf sttellingen gevven geen uitp puttende besschrijving van n de strategie eën die doceenten bij de tweede t correctie e kunnen toepassen. De docenten is daarom de ruimte r gebod den om hun ccorrectiestrattegie toe te lichten n. Hieronder vatten we de e belangrijksste toelichting gen kort sam men:  Doce enten die na aar eigen zeg ggen steekprroefsgewijs nakijken, n kijke en de open vvragen vaak wel volle edig na, maa ar de meerkeuzevragen n niet. Een dee el van hen kijkt de meerkeeuzevragen helemaal niet na en een ander deel be eperkt zich to ot een steekp proef uit de meerkeuzevra m ragen.  Een deel van de docenten die steekproeffsgewijs nakijken, corrige eert alleen off vooral het werk w van didaten op de e grens tusse en voldoend e en onvoldo oende voor het h CE en/of het SE. kand  Een van de rede enen waarom m de tweede correctie nie et integraal wordt w uitgevoeerd is dat de e eerste ectie goed iss uitgevoerd. De tweede ccorrector vindt integrale correctie c dann niet nodig. Ook corre komt het voor da at de eerste correctie c zo sslecht is uitgevoerd dat de d tweede coorrector het menwerk na dat gedeelte elijk te hebbe en nagekeken terugstuurtt naar de eerrste correcto or. exam

4.4 Zo orgvuldigheid en ob bjectivitei t van de eerste e en tweede t co orrectie atoren worde en geacht het werk van d e kandidaten n niet alleen volledig maaar ook zorgvu uldig na Examina te kijken. c past p 5% van de eerste co orrectoren he et correctievooorschrift volledig Volgens de tweede correctoren oe, 53% doe et dat correctt, 31% min off meer correct, 9% niet correct c en 3% % helemaal niet n correct to correct. Figuur 16 too ont de verde eling van de a antwoorden per examen.. Docenten teehatex passe en het evoorschrift volgens v de co ollega’s het m minst correctt toe. correctie

24

Figuur 16 6 De correcte toepassing t va an het correctie evoorschrift

nken eerste en e tweede co orrectoren ovver de zorgvu uldigheid van n elkaars beooordelingen? ? Hoe den Tweede correctoren zijn kritische er over de zo orgvuldigheid d van de eers ste correctie dan eerste z eid van tweed de correctie. Zo vindt 24% % van de eeerste correcto oren dat correctoren over de zorgvuldighe de corrector zeer zorgvulldig nakeek, terwijl slechtts 10% van de d tweede coorrectoren va an de tweed mening iis dat de eerrste correctie e zeer zorgvu uldig is uitgev voerd. z moet m de corre ectie ook obje ectief zijn. Co orrectoren m mogen kandid daten Behalve volledig en zorgvuldig oordelen of benadelen b do oor een te so oepele of te strenge s beoo ordeling. Mett betrekking tot de niet bevo objectivitteit van de beoordeling is s eerste en tw weede corre ectoren gevra aagd naar dee soepelheid van elkaars b beoordelinge en. Daarbij ko onden zij kie ezen uit de an ntwoordmogelijkheden ‘T Te soepel (d..w.z. kandidatten zijn bevo oordeeld)’, ‘Soepel’, ‘Noch h te soepel noch n te streng’, ‘Streng’ een ‘Te streng g (d.w.z. kandidatten zijn bena adeeld)’. Figu uur 17 laat ziien hoe de antwoorden van de eerstee en tweede correctoren verdeeld d zijn over de e vier antwoo ordmogelijkhe eden. De bovenste balk bbetreft de me ening eerste correcctor over de soepelheid s vvan de tweed de corrector en e de ondersste balk de mening m van de e van de tw weede corrector over de soepelheid vvan de eerstte corrector.

25

Figuur 17 7 Mening van eerste e en twee ede correctore en over de soe epelheid van elkaars e beoord rdelen

elen van de eerste en tw weede correcttoren over de e soepelheid d van elkaarss beoordeling gen De oorde lopen ve er uiteen. Tien procent va an de tweede e correctoren n vindt dat de e eerste correector te soep pel beoordeeld heeft in de d zin dat ka andidaten bevvoordeeld zijjn. Daarentegen vindt vrijijwel geen en nkele orrector (0%) de tweede corrector te soepel. Het omgekeerde e patroon zieen we bij de eerste co percenta ages strenge e en te streng ge beoordelin ngen. Slechtts negen proc cent van de ttweede corre ectoren vindt de eerste corre ector streng of o te streng. D Daarentegen n is 26% van de eerste coorrectoren va an dat de tweed de corrector streng s of te sstreng was. Een E mogelijk ke verklaring veronderste elt dat mening d docenten n kritischer staan s tegenover de objecctiviteit van het werk van een onbekennde collega dan d tegenove er hun eigen n werk. Een andere a verkla aring stelt da at docenten als a eerste coorrector minder objectieff beoordelen dan als twee ede correcto or. Als eerste e correctoren beoordelen docenten im mmers hun ‘eige en’ kandidate en terwijl zij met de kand didaten die zijj als tweede corrector beeoordelen ge een persoonlijke band he ebben. c vvan de twaalff examens de enken over dde soepelheid van de Figuur 18 laat zien hoe tweede correctoren orrector. Volgens de tweede correcto oren is de neiging tot het geven van tee soepele oo ordelen eerste co bij docen nten tehatex het sterkst ontwikkeld. o W Waarschijnlijk k niet toevallig is tehatex in het O2Conderzoe ek ook het examen waarrbij de eerste e correctoren n in vergelijking met de deerde correcto oren het meest so oepel beoord deelden.

26

Figuur 18 8 Soepelheid van v de eerste corrector per examen

4.5 Het overleg g tussen de d eerste e en tweede e correctorr ndelijke score es moeten in n overleg tusssen eerste en e tweede co orrector wordden vastgeste eld. Aan De uitein deze we ettelijke eis wordt w vrijwel altijd a voldaan n. Slechts éé én procent va an de eerste correctoren rapporte eert dat er ge een overleg met m de tweed de corrector heeft plaatsg gevonden. m van het ov verleg De vorm De weten regelgeviing stelt geen n eisen aan de vorm van n het gezame enlijke overleeg. Dat wordtt aan de aten. Het gez zamenlijk ovverleg wordt in i 96% van de d gevallen vvia de telefoo on scholen zelf overgela mail of vergeliijkbaar en 1% % via een pe ersoonlijke on ntmoeting opp afspraak. Van V gevoerd, 5% via e-m nicatiemiddellen zoals SK KYPE en vide eo conferenc cing wordt nog nauwelijkss gebruik gem maakt, commun net als vvan schriftelijk overleg en andere, niett nader omsc chreven vorm men van oveerleg. erleg De duurr van het ove Het geza amenlijk overleg vergt ge emiddeld ong geveer vijftig minuten. De e gespreksduuur loopt sterrk uiteen. De tien p procent doce enten met de e kortste gesp preksduur ov verlegde tot een e kwartierr en de tien procent p met de la angste gespreksduur min nimaal twee uur. verleg De sfeerr van het ov De sfeerr van het ove erleg is doorg gaans goed. Vijf procent van de doce enten vond dee sfeer onple ezierig en slech hts één proce ent zeer onplezierig. sverschillen n Menings De overh heid heeft vo oorschriften opgesteld o vo oor de wijze waarop w de uiteindelijke sccores tot stand moeten komen. Als de d tweede co orrector vindtt dat er sprake is van gro ote onzorgvuuldigheid, ape erte i van de corre ectievoorschrriften dient hij of zij er ee rst in overleg g met de fouten off verkeerde interpretatie eerste co orrector uit te e komen. In 8% van de g gesprekken verschillen v ee erste en tweeede correcto or geen enkele kkeer van men ning over de toegekende scores, in 76% is dat af en toe het geeval, in 13% % regelmattig, in 2% vaak en in 1% zeer vaak. T Tweede corre ectoren rapp porteren meeer meningsve erschillen dan eersste correctore en. 27

In het geval van meningsverschillen moeten de eerste en tweede corrector eerst proberen er samen uit te komen. Vrijwel alle eerste en tweede correctoren rapporteren dat zij er altijd samen uitgekomen zijn, dit wil zeggen dat er een oplossing gevonden is waarmee beiden kunnen leven. Middelen van scores Als eerste en tweede corrector het niet eens kunnen worden, kan het verschil tussen de beide scores worden gemiddeld. Zowel eerste als tweede corrector kunnen middelen echter weigeren. Negen procent van de eerste correctoren heeft nooit een scoreverschil gemiddeld omdat zij het altijd met de tweede corrector eens waren. Van de eerste correctoren rapporteert 43% dat er wel scoreverschillen waren, maar dat er nooit het gemiddelde van beide scores genomen is. Bij 42% is er af en toe een scoreverschil gemiddeld, bij 5% regelmatig, bij 1% vaak en bij 0% zeer vaak. Inroepen hulp van derden Als eerste en tweede corrector er samen niet uitkomen, kan de hulp van derden worden ingeroepen. Dat kan een vakcollega zijn, maar ook een lid van de directie of in laatste instantie de Inspectie. Die kan besluiten tot de inzet van een onafhankelijke derde corrector. In 97% van het gezamenlijk overleg is er geen hulp van derden ingeroepen, bij 2% is een collega van de ‘eigen’ school geraadpleegd, bij 1% is dat een collega van de andere school, bij 1% de directie van de ‘eigen’ school, bij 1% de directie van de andere school en bij 0% kwam de Inspectie tussenbeide. De eerste correctoren rapporteren vier gevallen waarin de Inspectie is ingeschakeld en de tweede correctoren zeven gevallen. Eén docent viel twee keer in de prijzen en kreeg zowel als eerste als tweede corrector met de Inspectie te maken. Van de overige negen gevallen waarin de Inspectie bemiddelde waren in acht gevallen beide directies betrokken en in één geval slechts één van beide directies.

4.6 De invloed van de tweede correctie op de uiteindelijke examenscores Hoe beoordelen eerste correctoren de invloed van de tweede correctie op de uiteindelijke scores? Van de eerste correctoren beoordeelt 1% deze invloed als zeer groot, 4% als groot, een kwart (26%) als noch groot noch klein, 31% als klein, 30% als zeer klein en 7% als nihil. Figuur 19 geeft inzicht in de verschillen tussen examens. Bij het examen scheikunde en geschiedenis is de invloed van de tweede corrector het kleinst en bij muziek en beeldende vakken het grootst. Kennelijk wordt de directe bijdrage van de tweede correctie aan de totstandkoming van de uiteindelijke scores als vrij marginaal ervaren. Deze uitkomst komt overeen met de geringe directe invloed van de tweede correctie zoals vastgesteld in het O2C-onderzoek (Kuhlemeier, Van Rijn & Kremers, 2012).

28

Figuur 19 9 De invloed va an de tweede correctie op d e uiteindelijke e examenscorres

29

5.

Samenvatting

In deze publicatie is verslag gedaan van drie studies naar het functioneren van de eerste en tweede correctie van de centraal schriftelijke examens in het voortgezet onderwijs. In het hoofdonderzoek hebben in totaal dertig onafhankelijke correctoren het examenwerk van 803 examenkandidaten van 127 scholen opnieuw nagekeken. Daarbij zijn de scores van de derde correctoren vergeleken met die van de ‘eigen’ docent. In het tweede onderzoek hebben panels van getrainde correctoren een selectie van vragen en examenwerken nog een keer nagekeken. Het panelonderzoek was bedoeld als check op de resultaten van het hoofdonderzoek. Daarnaast is nagegaan in hoeverre verschillen tussen correctoren in soepelheid samenhangen met de aard van de vraag en het beoordelingsmodel. Het derde onderzoek was een schriftelijke enquête naar de praktijk van de eerste en tweede correctie waaraan in totaal 3695 docenten hebben meegedaan (respons: 62%). De conclusies kunnen als volgt worden samengevat:  Eerste correctoren kennen gemiddeld zes procent hogere scores toe dan ‘onafhankelijke’ derde correctoren (voor het eerste tijdvak). Het verschil tussen de eerste en derde correctie is niet voor elk examen gelijk. Stel dat we de eerste correctoren zouden vervangen door de derde correctoren, dan stijgt het percentage onvoldoendes bij wiskunde van 23% naar 28%, bij Engels van 27% naar 35%, bij biologie van 15% naar 25%, bij Nederlands van 20% naar 30%, bij geschiedenis van 23% naar 53% en bij tehatex van 22% naar 54%.  Een toegeeflijke beoordeling leidt niet tot ongelijkheid als alle kandidaten in dezelfde mate bevoordeeld worden. Er zijn echter grote verschillen tussen scholen in de soepelheid van de beoordeling. Op de ene school profiteren leerlingen daar veel meer van dan op de andere school. Zoals Sanders dat al in 1983 treffend formuleerde, kan “het voor leerlingen bijzonder veel uitmaken wanneer zij niet door een milde beoordelaar, maar door een strenge beoordelaar beoordeeld worden. Jammer genoeg (of gelukkig maar) weten zij, noch hun beoordelaars, niet of zij bevoordeeld of benadeeld worden” (pag. 171). De geconstateerde verschillen in soepelheid betekenen dat kandidaten met eenzelfde vaardigheidsniveau op de ene school gemakkelijker een voldoende behalen dan op de andere school.  Bij geschiedenis, tehatex en Nederlands blijken er docenten te zijn die hun kandidaten onverklaarbaar toegeeflijk beoordelen zonder dat de tweede correctie dat corrigeert. Het vermoeden bestaat dat deze docenten hun rol als examinator niet kunnen en/of willen scheiden van hun rol als opleider. Hoewel begrijpelijk vanuit het standpunt van de examinator die de kandidaten heeft opgeleid, is dit een punt van zorg. Docenten die strategisch-opportunistisch beoordelen, realiseren zich wellicht onvoldoende dat zij hun leerlingen er niet mee helpen als zij te soepel beoordelen en dat zij leerlingen van andere scholen benadelen. De beperkte omvang van het beoordelaarsonderzoek laat het niet toe om de grootte van deze groep precies te bepalen. Wel kan op basis van het vragenlijstonderzoek een eerste voorlopige schatting worden gedaan. Volgens de tweede correctoren beoordeelt tien procent van de eerste correctoren te soepel in de zin dat kandidaten bevoordeeld worden. Over de motieven van de eerste correctoren tasten we hier in het duister. We weten bijvoorbeeld niet in welke mate hier sprake is geweest van welbewuste bevoordeling dan wel van een onbewuste neiging om het voor ‘eigen’ leerling op te nemen.  De directe invloed van de tweede corrector op de uiteindelijke scores blijkt klein. De huidige procedure waarbij de ene docent de ander adviseert en controleert, biedt geen afdoende oplossing voor mogelijke bevoordeling of benadeling. Dit resultaat komt overeen met de bevinding van het vragenlijstonderzoek dat docenten de invloed van de tweede correctie op de uiteindelijke scores doorgaans als klein ervaren.  Blijkens het vragenlijstonderzoek corrigeert de gemiddelde docent het werk van 79 kandidaten en besteedt daar 35 klokuren aan in zeven dagen. De correctielast is echter zeer ongelijk over docenten verdeeld. Geschiedenisdocenten besteden bijvoorbeeld bijna drie keer zoveel tijd aan de correctie als docenten Duits en muziek. Veel docenten ervaren de eerste en tweede correctie als een zware belasting. 30

 Wat doen scholen om docenten in staat te stellen de eerste en tweede correctie naar behoren uit te voeren? Van 13% van de docenten zijn de uren voor de eerste correctie opgenomen in de jaartaak (bijvoorbeeld in de opslagfactor), 8% krijgt een vast bedrag per examenwerk, 2% kan onkosten declareren (bijvoorbeeld telefoonkosten), 1% ontvangt een kleine attentie (bijv. een boekenbon) en bij 3% wordt de eerste correctie op een andere, niet nader omschreven manier gefaciliteerd. Scholen faciliteren de tweede correctie anders dan de eerste correctie. De verschillen zitten hem vooral in het jaartaakbeleid en het stukloon. Voor de tweede correctie zijn de uren minder vaak in de jaartaak opgenomen, maar daar staat tegenover dat de docenten vaker een vast bedrag per examenwerk krijgen dan voor de eerste correctie. Overigens is in de vragenlijst alleen gevraagd naar expliciete faciliteringsmaatregelen. Veel scholen kennen de stilzwijgende afspraak dat docenten de correctie uitvoeren in de tijd die vrijkomt doordat de ingeroosterde lessen in examenklassen bij aanvang van het CSE komen te vervallen. In het onderzoek is niet nagegaan in hoeverre deze vrijgekomen tijd toereikend is en daadwerkelijk aan de correctie besteed kan worden.  Hoe tevreden zijn docenten over het schoolbeleid? Driekwart is van mening dat de eerste correctie op school niet gefaciliteerd wordt en bij de tweede correctie gaat het om bijna de helft. Met het schoolbeleid ten aanzien van de eerste en tweede correctie is respectievelijk 39% en 49% ontevreden of zeer ontevreden.  De tweede correctie blijft vrijwel nooit achterwege, maar slechts een derde corrigeert integraal overeenkomstig de wettelijke voorschriften. Twee derde van de tweede correctoren kijkt niet alle werken na en/of per kandidaat niet alle vragen. Alhoewel het aantal beoordeelde kandidaten vrijwel gelijk is, steken docenten bijna twee keer zoveel tijd in de eerste correctie als in de tweede correctie.  Docenten noemen onder meer de volgende redenen waarom de tweede correctie sneller gaat dan de eerste correctie: o De tweede correctie wordt minder zorgvuldig uitgevoerd; o Men heeft meer ervaring met de toepassing van het correctievoorschrift; o De eerste corrector stuurde het examenwerk pas laat op; o Men moet te veel examens nakijken; o Men beschikt over de puntentoekenning en aantekeningen van de eerste corrector; o Als de leerling het antwoord onduidelijk geformuleerd heeft of als de examenvraag slecht geformuleerd is, gaat men sneller akkoord met het voorstel van de eerste corrector.  Begrijpelijkerwijs voeren correctoren van examens met een zware correctielast de tweede correctie minder volledig, minder zorgvuldig en minder objectief uit dan collega’s met een lichte correctielast. Als men de tweede correctie in overeenstemming zou willen brengen met de wettelijke voorschriften, lijken maatregelen nodig.  Het gezamenlijk overleg tussen eerste en tweede corrector vergt gemiddeld ongeveer vijftig minuten en vindt vrijwel altijd via de telefoon plaats. De sfeer van het overleg is doorgaans goed, er zijn relatief weinig meningsverschillen, er wordt vrijwel altijd een oplossing gevonden waarmee beiden kunnen leven en er wordt zelden de hulp van derden ingeroepen.  Verschillen in soepelheid tussen correctoren blijken ook samen te hangen met kenmerken van het examen. De onderzochte beoordelingsmodellen bieden de corrector vaak onvoldoende steun en dragen daarmee bij aan verschillen tussen correctoren. Verschillen in soepelheid doen zich onder meer voor als het beoordelingsmodel de antwoorden van de leerlingen niet goed dekt en alleen de maximumscore in het beoordelingsmodel omschreven is. De panels hebben een groot aantal aanbevelingen gedaan voor aanpassing van de beoordelingsmodellen. Nader ontwikkelingsonderzoek zal moeten uitwijzen in hoeverre deze suggesties tot de beoogde verbeteringen leiden.

31

6.

Aanbevelingen

De bevindingen van de drie studies staan op gespannen voet met het uitgangspunt dat kandidaten met dezelfde vaardigheid ongeacht de school waarop zij zitten een gelijke kans hebben om voor het examen te slagen (De Groot & Wijnen, 1983). De bevinding dat het directe effect van de tweede correctie op de uiteindelijke scores klein is, betekent niet dat de tweede correctie zinloos is en afgeschaft zou moeten worden. Behalve een direct effect heeft de tweede correctie immers ook een indirect effect. Het zorgt ervoor, aldus Algra (2004), dat de eerste corrector ‘niet zo maar zijn gang kan gaan’ (p. 1). De wetenschap dat er een tweede correctie plaatsvindt, kan naar soepelheid neigende docenten ervan weerhouden hun kandidaten al te zeer te bevoordelen. We pleiten er dan ook niet voor om de correctie bij de ‘eigen’ docent weg te halen. De ervaringen in het Verenigd Koninkrijk laten zien dat aan ‘onafhankelijke’ correctie door externe correctoren vele nadelen verbonden zijn. Wel kunnen op grond van ons onderzoek binnen de huidige examensystematiek verbeteringssuggesties worden gedaan. Hieronder doen we aanbevelingen voor de regelgeving en examenprocedures, het schoolbeleid, de opleiding en training van docenten en het ontwerp en de constructie van het examen. Regelgeving en examenprocedures Voor de uitvoering van de eerste en tweede correctie bestaan wettelijke regels en uitvoeringsprotocollen (o.a. Ministerie van OCW, 2012; VO-raad, 2012). Op basis van de drie studies kunnen de volgende verbeteringssuggesties worden gedaan:  In de huidige procedure vindt de tweede correctie na de eerste correctie plaats. Een alternatief is de examenwerken eerst digitaal te scannen en de kopie vervolgens naar de eerste en tweede correctoren te verzenden. De eerste en tweede correctie kunnen dan ‘tegelijkertijd’ plaatsvinden. De tweede corrector hoeft niet meer te wachten tot de ‘eigen’ docent klaar is. Overigens is het de vraag hoe groot deze tijdwinst in de praktijk zal zijn. Vrijwel alle eerste correctoren zijn immers ook tweede corrector. Wel voorkomt het gelijktijdig nakijken de tijdsklem die optreedt als de eerste corrector het werk pas zeer laat naar de tweede corrector opstuurt. Een tweede voordeel is dat alle correctoren het examenwerk integraal moeten nakijken, dus ook de tweede correctoren. Ook op dit voordeel valt wat af te dingen. De tweede corrector moet het examenwerk namelijk ook integraal nakijken als de ‘eigen’ docent het werk zeer zorgvuldig en objectief heef nagekeken en een steekproefsgewijze controle voldoende garantie zou hebben geboden. Omdat integrale tweede correctie tegenwoordig wettelijk verplicht is, is dit tegenargument formeel gezien niet erg sterk en alleen van praktische importantie. Een derde voordeel van gelijktijdige eerste en tweede correctie is dat alle correctoren een blanco examen onder ogen krijgen. Daardoor wordt de tweede corrector niet beïnvloed door de scores en aantekeningen van eerste corrector. Over de vraag of het wenselijk is dat de tweede corrector niet meer kan beschikken over annotaties van de eerste corrector zijn de meningen echter verdeeld. De aantekeningen van de eerste corrector op het examenwerk laten zien hoe de score tot stand is gekomen. Deze informatie biedt de tweede corrector steun bij het beoordelen; bovendien kan het goed van pas komen in het overleg tussen eerste en tweede corrector waarin de uiteindelijke score wordt vastgesteld. Het lijkt dan ook begrijpelijk dat tweede correctoren de annotaties van de eerste corrector over het algemeen sterk op prijs stellen.  Voorgesteld wordt het scannen en vervolgens gelijktijdig corrigeren van examenwerk in de praktijk uit te proberen. Het ligt voor de hand deze proef uit te voeren bij de kernvakken Nederlands, Engels en wiskunde. De logistieke uitdagingen van gelijktijdige digitale correctie van gescande examenwerken zullen niet gering zijn. Vanwege het kleinere aantal kandidaten zou met het tweede tijdvak begonnen kunnen worden. Een aanvullende reden is dat het tweede tijdvak wellicht meer uitnodigt tot soepel beoordelen dan het eerste tijdvak. Er staat voor de kandidaten immers meer op het spel.  Het toezicht op de uitvoering van de eerste en tweede correctie is in handen van de Inspectie van het Onderwijs. Het huidige toezicht biedt correctoren weinig steun. Te overwegen valt het Inspectietoezicht te intensiveren. Een voor de hand liggend middel is steekproefsgewijze controle 32

van nagekeken examenwerk tijdens en kort na de examencampagne. Vanwege het arbeidsintensieve en tijdrovende karakter zal de herbeoordeling van het examenwerk voor de kandidaten te laat komen.  Het ene examen kent een veel grotere correctielast dan het andere examen. Arbeidsintensieve vakken zoals geschiedenis en Nederlands zouden altijd aan het begin van het examenrooster geplaatst kunnen worden, zodat correctoren een langere periode hebben voor de correctie.  Overeenkomstig algemene scoringsregel 7 mogen correctoren niet zelfstandig afwijken van het beoordelingsmodel. In het geval van onvolkomenheden of fouten in het examen moet de corrector het werk beoordelen alsof het examen juist is, waarbij de corrector de vermeende fout aan het CvE kan melden. In de praktijk blijken zelfstandig afwijkende correctoren dat maar zelden te doen. Te overwegen valt de bestaande regelgeving op dit punt te verhelderen en aan te scherpen. Algemene scoringsregel 7 zou zo veranderd kunnen worden dat correctoren die zelfstandig afwijken, verplicht worden dat aan het CvE te melden (met vermelding van de vermeende onvolkomenheid of fout in de vraag of het beoordelingsmodel). Daartoe zal de meldingsprocedure eenvoudiger en toegankelijker gemaakt moeten worden. Een voor de hand liggende mogelijkheid is het toevoegen van een module aan WOLF waarmee correctoren vermeende onvolkomenheden in het beoordelingsmodel kunnen doorgeven.  Tijdens de paneldiscussies speelden de verslagen van de regionale en landelijke examenbesprekingen een belangrijke rol. Deze verslagen bestaan grotendeels uit een opsomming van lastig te beoordelen antwoorden die goed te rekenen zijn (en veel minder vaak uit antwoorden die fout gerekend moeten worden). Naar de mening van de panels leidt het gebruik van de examenbesprekingen over het algemeen tot een versoepeling van de beoordeling. Verschillen tussen correctoren in soepelheid ontstaan waar de ene corrector de examenbesprekingen wel gebruikt en de ander dat niet doet. Dit pleit voor een proactieve, integrale en centrale regievoering over de examenbesprekingen, bij voorkeur uit te voeren onder de gezamenlijke verantwoordelijkheid van het CvE, Cito en de vakverenigingen. Overigens kan men zich afvragen in hoeverre bespreking van het examen achteraf nog nodig is als de examenconstructie meer gebaseerd zou worden op analyse van feitelijke antwoorden van kandidaten tijdens de constructieen testfase. Ook hier lijkt te gelden dat voorkomen beter is dan genezen. Het schoolbeleid Het vragenlijstonderzoek bevestigt dat de eerste en tweede correctie vaak onder tijdsdruk worden uitgevoerd. Mede daardoor wordt de tweede correctie lang niet altijd volledig en zorgvuldig uitgevoerd. De volgende vier aanbevelingen zijn gericht op het schoolbeleid:  In het advies ‘Examinering: Draagvlak en toegankelijkheid’ vraagt de Onderwijsraad (2006) de scholen om in het taak- en vergoedingenbeleid rekening te houden met het werk dat de correctie met zich meebrengt. Een voor de hand liggende maatregel is de docenten hiervoor vrij te roosteren. Het Platform VVVO (2008b) adviseert de voor de correctie benodigde tijd “zichtbaar en geoormerkt in de taakbelasting van de betrokken docenten op te nemen” (p. 1).  Vastgesteld is dat de correctielast van het ene examen veel groter is dan van het andere. Voor zover scholen de correctie al via expliciete maatregelen faciliteren, lijkt er sprake van een voor iedereen geldende aanpak. Te overwegen valt het huidige ‘one-size-fits-all’-beleid te vervangen door een gedifferentieerde aanpak afhankelijk van de omvang van de correctielast.  In de huidige situatie hebben schoolleiders weinig zicht op de correctie van de examens. Te overwegen valt een module aan WOLF toe te voegen die schoolleiders inzicht geeft in de uitvoering en kwaliteit van de eerste en tweede correctie. Zo kunnen schoolleiders eventuele problemen vroegtijdig signaleren en zo nodig oplossen.  Examencijfers vervullen tegenwoordig allerlei functies waarvoor ze oorspronkelijk niet bedoeld waren. Een voorbeeld is het gebruik van examenresultaten voor publieke verantwoording van de kwaliteit van de school (denk aan de ranglijsten van scholen). Een andere voorbeeld is het gebruik van examencijfers voor personeelsbeoordeling, ook wel prestatiedifferentiatie of ‘loon naar lesgeven’ genoemd. Deze nieuwe examenfuncties kunnen strategisch-opportunistisch 33

beoordelingsgedrag in de hand werken en de neiging tot lankmoedig beoordelen versterken. Docenten die welbewust te soepel nakijken, bevoordelen hun eigen school en leerlingen (en wellicht zichzelf), maar duperen leerlingen van scholen waar wel integer beoordeeld wordt. Deze ongewenste neveneffecten kunnen de nu nog hoge waarde van het diploma op termijn aantasten. Te overwegen valt schoolleiders voor te lichten over de voor- en nadelen van het sturen op examencijfers. Opleiding en training van docenten Docenten zijn doorgaans niet geschoold in het examineren en beoordelen van kandidaten. Zij kunnen zich bijvoorbeeld nog niet als examinator laten certificeren. Enkele mogelijke maatregelen zijn:  Het opnemen van een module ‘examineren’ in de initiële opleiding voor docenten die mede gericht is op de correctie van het CSE en waarbij het accent ligt op ‘Wat betekent het voor mij als docent dat ik ook examinator ben?’  Het aanbieden van vergelijkbare modules in de postinitiële opleidingen.  Het trainen van docenten in het gebruik van het beoordelingsmodel en de algemene scoringsregels (onder meer met gebruikmaking van materiaal uit het O2C- en P4C-project). Het ontwerp en de constructie van het examen De geconstateerde verschillen tussen correctoren en de overwegend te soepele beoordeling kunnen gedeeltelijk verklaard worden vanuit kenmerken van het examen. Een aandachtspunt is aanpassing van de beoordelingsmodellen bij de open vragen, zodat correctoren meer steun krijgen bij het nakijken en minder vaak zelfstandig een beroep op de algemene scoringsregels hoeven te doen. In het panelonderzoek is een groot aantal aanbevelingen gedaan die verschillen tussen correctoren en de verleiding tot te soepel beoordelen kunnen tegengaan (zie Kuhlemeier e.a., 2012). De twee belangrijkste aanbevelingen zijn:  Verschillen tussen correctoren in soepelheid doen zich vooral voor als het beoordelingsmodel de verzameling van feitelijke antwoorden niet goed dekt en alleen de maximumscore in het beoordelingsmodel omschreven is. De belangrijkste aanbeveling is het verzamelen van antwoorden van kandidaten tijdens de ontwerp- en testfase van het examen. Momenteel gebeurt het slechts op beperkte schaal dat Cito open vragen aan een kleine groep studenten onder gecontroleerde omstandigheden voorlegt. Door de antwoorden vervolgens na te kijken krijgt de examenmaker kwalitatieve informatie ter verdere verbetering van het beoordelingsmodel. Dit draagt ertoe bij dat correctoren minder vaak een beroep hoeven te doen op de verslagen van de examenbesprekingen en de algemene en vakspecifieke scoringsregels. Verdere verbetering van het beoordelingsmodel is mogelijk door het toevoegen van uitleg en voorbeelden voor het beoordelen van veel voorkomende antwoorden die geheel of gedeeltelijk fout zijn en die de ‘eigen’ docent ten onrechte goed zou kunnen rekenen.  De onderzochte examens geschiedenis, tehatex en Nederlands bevatten relatief veel open vragen. De beoordelingsmodellen van deze examens zijn vaak principieel onvolledig. Voorbeelden zijn: ‘Een voorbeeld van een juist antwoord is’, ‘Een goed antwoord moet de volgende strekking hebben’, ‘De kern van een juist antwoord is’ en ‘Uit het antwoord moet blijken dat’. Te overwegen valt volledig af te zien van dit type open vragen of een deel ervan te vervangen door objectief scoorbare gesloten vragen of door in- of aanvulvragen waarbij een kort antwoord volstaat. Een bijkomend voordeel is een aanzienlijke reductie van de correctielast. Vervolgonderzoek  Voor het onderzoek naar verschillen tussen docenten in soepelheid en naar de invloed van de tweede correctie op de uiteindelijke scores is alleen examenwerk van het eerste tijdvak gebruikt. Het tweede tijdvak is met name bedoeld als herkansing voor kandidaten die op basis van het eerste tijdvak gezakt zouden zijn. Omdat het de laatste kans is, staat er meer op het spel dan bij het eerste tijdvak. Voor naar soepelheid neigende docenten zou de verleiding om kandidaten te bevoordelen bij het tweede tijdvak wellicht nog groter kunnen zijn dan bij het eerste tijdvak. Mocht 34

het onderzoek naar de verschillen tussen eerste, tweede en derde correctie over enige tijd herhaald worden, lijkt het zinvol daarbij ook het tweede tijdvak te betrekken.  Op basis van het panelonderzoek zijn aanbevelingen gedaan voor de aanpassing van de vraagstelling en de beoordelingsmodellen van toekomstige examens. Nader ontwikkelingswerk en onderzoek zal moeten uitwijzen in hoeverre deze aanpassingen leiden tot een vermindering van de verschillen tussen correctoren. Bij gebleken effectiviteit zal Cito deze wijzigingen doorvoeren in de reguliere examenproductie.  De docentenpanels concluderen dat er eerste correctoren zijn die een aanzienlijk deel van de antwoorden onverklaarbaar toegeeflijk beoordelen (zonder dat dit kan worden toegeschreven aan een gebrek aan vakkennis, onvolkomenheden in het examen of de wijze waarop de kandidaat het antwoord geformuleerd heeft en dergelijke). De beperkte omvang van het beoordelaarsonderzoek laat het doen van een uitspraak over het exacte percentage strategisch-opportunistische beoordelingen niet toe. Daartoe is vervolgonderzoek nodig met meer examenwerken en correctoren.

35

Literatuur Alberts, R., & Erens, B. (2012). Verslag van de examencampagne 2011 voortgezet onderwijs. Arnhem: Cito. Algra, A. (2004). Eerste en tweede correctie examens: problemen en regels. Schoolmanagers_VO #6, 8-10. Bergh, H. van den & Kuhlemeier, H. (1997). Multiniveau modellen voor de analyse van leerwinst vergeleken. Tijdschrift voor Onderwijsresearch, 22, 2, 54-75. Ministerie van OCW (2012). Examenbesluit. Online beschikbaar via www.examenblad.nl. Gitsels, H., & Kuhlemeier, H. (in voorbereiding). Arnhem: Cito. Groot, A.D. de, & Wijnen, W.H.F.W. (1983) Vijven en zessen, Groningen: Wolters-Noordhoff. Kuhlemeier, H., & Dietvorst, P. (2009). De praktijk van de beroepsgerichte examens voor het vmbo. Resultaten van een onderzoek naar de voorbereiding, afname, beoordeling, tweede correctie en herkansing van vier beroepsgerichte examens. Arnhem: Cito. http://www.onderwijsinspectie.nl/binaries/content/assets/Actueel_publicaties/2009/Praktijk+beroepsger ichte+examens+vmbo+-+printversie.pdf Kuhlemeier, H., Gitsels, H., Boom, S., Kerkhof, A. van de, & Sinkeldam, R. (2012). Relaties tussen examenkenmerken en verschillen tussen correctoren in soepelheid bij het CSE geschiedenis, tehatex en Nederlands. Arnhem: Cito. Kuhlemeier, H., & Kremers, E. (2012). De praktijk van de eerste en tweede correctie van de centraal schriftelijke examens. Arnhem: Cito. Kuhlemeier, H., Rijn, P. van, & Kremers, E. (2012). Eerste, tweede en derde correctie van geannoteerde en blanco examenwerken in de centraal schriftelijke examens: Wat is het verschil? Arnhem: Cito. Onderwijsraad (2006). Examinering: Draagvlak en toegankelijkheid. Den Haag: Onderwijsraad. Online beschikbaar via: http://www.onderwijsraad.nl/upload/publicaties/316/documenten/examinering__draagvlak_en_toegank elijkheid.pdf Platform VVVO (2008a). Tweede correctie is gekkenwerk geworden (persbericht van 29 mei 2008). Online beschikbaar via: http://www.platformvvvo.nl/brieven-archief/198-persbericht-integrale-tweede-correctie.html Platform VVVO (2008b). Tijd nodig voor tweede correctie. Online beschikbaar via: http://www.platformvvvo.nl/brieven-archief/233-tijd-nodig-voor-integrale-tweede-correctie.html Sanders, P. (1983). Objectieve beoordeling van open-vragen examens. In P. Weeda (red.). Examens in discussie: Een bundel opstellen voor J.W. Solberg (pp. 163-172). Groningen: Wolters-Noordhoff. VO-raad (2011). Protocol eerste en tweede correctie centrale examens vmbo, havo en vwo. Online beschikbaar via www.vo-raad.nl

36

De praktijk van de eerste en tweede correctie. Samenvatting van onderzoek naar het functioneren van het CSE

Recommend Documents