Normering met een vaardigheidsschaal, zoals bij Rekentoets VO en COE December 2012
1. Doel van normering met een vaardigheidsschaal Zoals gebruikelijk bij examens, worden bij de rekentoetsen VO en de centraal ontwikkelde examens taal en rekenen in het MBO (COE) cijfers toegekend. De manier waarop deze cijfers bepaald worden, wordt in deze notitie uitgelegd. Deze manier noemen we ‘normering met een vaardigheidsschaal’. Het gebruik van een vaardigheidsschaal is vooral geschikt als er meerdere varianten van een examen zijn. Dit is het geval bij COE en Rekentoets VO. De ene variant kan net iets makkelijkere opgaven hebben dan de andere variant. Dit kan gebeuren omdat de moeilijkheid van een opgave niet heel precies ingeschat kan worden voordat deze is voorgelegd aan examenkandidaten. Bij het toekennen van cijfers moet daar rekening mee gehouden worden. Op de makkelijkere varianten moet een kandidaat dan iets meer vragen goed beantwoord hebben om een 6 te krijgen. We kunnen ook zeggen: een kandidaat moet eenzelfde vaardigheid aantonen voor een 6, ongeacht de variant die hij of zij maakt. En dit moet ook gelden voor ieder ander cijfer. Ongeacht de variant die gemaakt wordt, moet eenzelfde aangetoonde vaardigheid steeds beloond worden met eenzelfde cijfer.
2. Verschil normering centrale examens VO en normering met vaardigheidsschaal Bij de centrale examens in het voortgezet onderwijs (VO) wordt er genormeerd met een zogenaamde N‐term. Als een examen moeilijk is uitgevallen, wordt een hogere N‐term gehanteerd dan als een examen makkelijker is uitgevallen. De toegekende cijfers zijn direct gerelateerd aan het behaalde aantal punten of score. Daarbij is de hoofdregel1: Cijfer = 9 * (Score/Maximale score) + N Bij cijfers dicht bij 1,0 of 10,0 worden andere formules gebruikt, maar ook in deze gevallen is er een directe relatie tussen score en Cijfer. Bij normering met een vaardigheidsschaal, komt er een stap tussen score en cijfer, namelijk de geschatte vaardigheid. De schatting van de vaardigheid vanuit de score is geen simpele formule meer, maar één waarin de moeilijkheden van de gemaakte items worden meegenomen. De omzetting van vaardigheid naar cijfer is te beschrijven met twee rechtlijnige relaties. Beide stappen worden hieronder uitgelegd, zie de secties Van score naar vaardigheid en Van vaardigheid naar cijfer. Het nadeel van normering met een vaardigheidsschaal is dat het ingewikkelder is. Het voordeel is echter dat er niet alleen voor het cijfer 6 een gelijke vaardigheid op elke variant vereist is, maar ook voor alle andere cijfers.
1
Klik hier voor meer informatie over de normering van examens in het VO
1
3. M Meten van vaardig gheid Het cijfer dat toegekkend wordt, w wordt dus beepaald door de vaardigheid die een kkandidaat he eeft. antonen doo r opgaven vaan een exam men goed te m maken. Het e examen Deze vaaardigheid kan hij of zij aa is daarm mee een meetinstrument geworden vvan de vaardigheid van de kandidaat.. En net zoalss een thermom meter een meetinstrume ent is van de temperatuu ur, op de Celssius‐ of Fahreenheit‐schaa al, zo spreken we ook van een vaardigheidsschaal. De lengtte van menseen meten we e normaal geesproken me et een meetla at. Stel dat ddie niet uitgevonden was, dan n zouden we de hoogte vvan muurtjess kunnen geb bruiken om d de lengte vann mensen te meten: wie erovver heen kijkt, is langer dan degene ddie dat niet kkan. Op analo oge wijze kunnnen we opggaven gebruikeen om de vaaardigheid van n kandidatenn te meten: w wie de opgavve goed maaakt, is vaardiger dan degene d die dat niet kkan. In Figuu ur 1 is een vaaardigheidsscchaal afgebeeld. De vaarrdigheden va an de kandidatten en de mo oeilijkheden van de opgaaven zijn stre eepjes op eenzelfde meeetlat ofwel scchaal. Kandidatten met een hoge vaardiigheid hebbeen een grote ere kans om o opgaven goeed te maken dan kandidatten met een lagere vaard digheid. Omggekeerd, opggaven met ee en hoge moeeilijkheid wo orden minder vvaak goed geemaakt dan o opgaven mett een lage m moeilijkheid.
Figuur 1. A Afbeelding van personen en o opgaven op éénn vaardigheidssschaal
Een opgaave heeft alttijd dezelfde moeilijkheidd; een exame envariant kan bestaan ui t makkelijke ere of moeilijkeere opgaven. Een mini‐exxamenvariannt met alleen n opgave 6 en opgave 3 uuit bovenstaand voorbeeeld, is bijvoorrbeeld makke elijker dan eeen mini‐exam menvariant m met alleen oopgave 3 en o opgave 28. Uit h het antwoord dgedrag van voldoende leeerlingen op p de makkelijjke variant, kkunnen we a afleiden hoeveel makkelijker opgave 6 is dan opgave 3. Uit het an ntwoordgedrrag van andeere leerlingen n op de moeilijkee variant, kunnen we afle eiden hoeve el moeilijkerr opgave 28 is dan opgavve 3. Door ee en koppelin ng van deze ttwee verschillen, kunnenn we afleiden n hoeveel mo oeilijker opgaave 28 is dan n opgave 6. Op deeze manier ku unnen de mo oeilijkheden van alle opggaven op dezzelfde schaall worden afggebeeld. Meer deetails over dee schatting va an itemmoeiilijkheden staan in de secctie Schattinngsmethode.
2
4. R Rapporta age van re esultaten
Figuur 2. V Voorbeeld van een geanonimiseerde COE‐raapportage
De rappo ortage van d de prestaties van kandidaaten heeft altijd een aanttal kenmerkeen. Ten eerstte moet duidelijkk zijn welke eexamenvariant een kandiidaat heeft ggemaakt. Dit kan achter dde naam van n de kandidaaat staan, of zzoals in Figuu ur 2, in de koop achter ‘Exxamen’. Bij de COE’s worddt er namelijk een overzicht per examenvariant aan n de school cc.q. instellingg toegestuurd d. Overigenss worden er o ook er groep leer lingen binne en de school. In het MBO O wordt deze groep aparte raapportages vverstuurd pe bepaald door het creebonummer. Ten tweedee vertoont de rapportage e altijd het bbehaalde aan ntal op de gemaaakte variant, ofwel de scoore per kand didaat. De vaardigheid diee bij deze score op punten o deze varriant hoort, is het derde b belangrijke kkenmerk dat in de rapportage te vindden is. In Figu uur 2 staat dit onder het kkopje ‘Schaalscore’. En teenslotte staat het cijfer dat bij de vaaardigheid hoo ort, vermeld. Lijsten van kandidaat‐resultaten worden versstrekt per scchool en per groep. De geemiddelde vaardigh heid van de kkandidaten w wordt daarbijj bij COE ookk afgedrukt, zodat de schhool deze kan n vergelijkken met het llandelijk gem middelde.
5. G Getallen b bij de vaa ardigheidssschaal De schatttingen van p punten op de e vaardigheiddsschaal ligggen vast op e een lineaire ttransformatie na. We mogen b bij alle punteen dus een w willekeurig aaantal optellen n, of alle pun nten met eenn willekeurigge constantte vermenigvvuldigen. Een n vaardighei dsschaal wordt geschat o om scores opp verschillen nde examenvvarianten meet elkaar te vvergelijken. D De precieze getallen die eraan hangeen, zijn in we ezen keuzes. H Het nulpunt komt vrij willekeurig erggens te liggen n. Negatieve e vaardigheiddsscores zijn lager dan vaarrdigheidsscore 0. Dit hee eft geen inhooudelijke betekenis. We h hadden bij allle scores oo ok 100 punten o op kunnen teellen. In tech hnische term men: de vaard digheidsschaal is van inteerval‐niveau.. Vergelijkk met een temperatuur‐sschaal: het n ulpunt op de e Fahrenheitt‐schaal ligt eergens anderrs dan op de Celsiu us‐schaal, maaar voor beid de geldt: hoee hoger, hoe e warmer. 3
Je kunt bij temperatuur niet spreken van ‘het is vandaag twee keer zo warm als gisteren’, want voor zo’n uitspraak is een absoluut nulpunt nodig. Dat is er op de Fahrenheit‐ en Celsiusschaal niet. Zo kun je dus ook niet zeggen dat een kandidaat twee keer zo vaardig is als een andere kandidaat. Er is wel een inhoudelijke betekenis van negatieve graden op de Celsius‐schaal (het vriest), maar op de Fahrenheit‐schaal vriest het al onder 32 graden en is deze inhoudelijke betekenis van negatieve temperaturen er dus niet. Zo’n inhoudelijke betekenis van het nulpunt is er bij de vaardigheidsschaal ook niet. Om nog technischer te worden: de ratio van twee verschillen is bij een interval‐schaal wel interpreteerbaar. Dus als Jan, Paul, Maaike en Melissa respectievelijk 80, 90, 100 en 120 als vaardigheidsscores hebben, dan kun je wel zeggen dat het verschil in vaardigheid tussen de meisjes Maaike en Melissa (20 punten) twee keer zo groot is als het verschil tussen de jongens Jan en Paul (10 punten).
6. Van score naar vaardigheid Als de moeilijkheden van alle opgaven of items in een examenperiode geschat zijn, wordt een beste schatting van de vaardigheid van een kandidaat gemaakt2 aan de hand van de items die de kandidaat daadwerkelijk zijn voorgelegd. Van alle antwoorden die een kandidaat geeft, wordt eerst de ruwe score berekend, ofwel het aantal behaalde punten. In het geval een digitale toets met uitsluitend automatisch scoorbare vragen wordt de ruwe score door de examensoftware bepaald. In combinatie met de itemkenmerken waarop deze ruwe score behaald is, wordt de vaardigheid geschat. Dit gebeurt per examenvariant voor iedere ruwe score apart, zie bijvoorbeeld Tabel 1 voor een gedeelte van de omzettingstabel van score naar vaardigheid bij COE Nederlands 2F 2012, versie 2. De relatie tussen score en vaardigheid hoeft niet rechtlijnig te zijn. Dit hangt af van de onderlinge verschillen in moeilijkheid tussen de opgaven. Tabel 1. Voorbeeld van een omzettingstabel score naar vaardigheid
Variant … V2 V2 V2 V2 V2 V2 V2 …
Score … 30 31 32 33 34 35 36 …
Vaardigheid 66.5 70.0 73.7 77.8 82.3 87.3 93.0
Deze methode levert dus per examenvariant een tabel op met achter iedere mogelijke ruwe score een vaardigheidsschatting. De ruwe score loopt van 0 tot en met de maximale score. De vaardigheidsschatting is niet overal even nauwkeurig. Bij de allerlaagste en allerhoogste scores is de 2
De gebruikte schatting is een weighted maximum likelihood (WML) schatter bij de ongewogen score. Verhelst en Engelen (1999) tonen aan dat dit een veralgemenisering is van de WML‐schatter bij gewogen scores (Warm, 1989).
4
meetnauwkeurigheid lager dan ergens in het midden van de scores. De exacte score waarbij de meetnauwkeurigheid is het hoogst is, hangt af van de moeilijkheid van de opgaven in de examenvariant. Als er opgaven in een examenvariant zitten, waarover de normeringsvergadering beslist dat zij niet mee mogen tellen bij de beoordeling van een kandidaat, dan noemen we dit geneutraliseerde items. Dit is een technische term om deze items te onderscheiden van de items die wel meetellen. Alle kandidaten krijgen voor een geneutraliseerde item het maximale aantal punten dat behaald kan worden. Bij de schatting van de itemparameters doen de geneutraliseerde items niet mee, alleen de antwoorden op de overige items worden gebruikt voor het vaststellen van de vaardigheidsschaal. We doen dus bij de schatting net of de geneutraliseerde items niet bestaan. De vaardigheid van de kandidaat wordt dus eigenlijk geschat aan de hand van de antwoorden op een verkorte examenvariant, waarin de geneutraliseerde items niet opgenomen zijn. In Tabel 2 staat een voorbeeld van de omzettingtabel van score naar vaardigheid als er in een variant, waarop maximaal 54 punten behaald kunnen worden, drie geneutraliseerde items van ieder maximaal 1 punt zijn. De schatting van de vaardigheid gaat uitsluitend over de verkorte variant, met scores 0 tot en met 51. De rapportage gaat over de gehele range 0 tot en met 54. De geneutraliseerde punten worden bij de verkorte score opgeteld om tot de score op de volledige variant te komen. In de rapportage‐tabel staat achter de scores 0, 1 en 2 dezelfde vaardigheid als bij de laagst mogelijke score 3, namelijk vaardigheid 75. Echter, in praktijk komen deze scores niet voor omdat iedere kandidaat minimaal 3 punten scoort, namelijk op de geneutraliseerde items. Tabel 2. Vaardigheidsscores bij een examenvariant met 3 geneutraliseerde items van ieder 1 punt
Schatting Rapportage Score verkorte variant Vaardigheid Score volledige variant Vaardigheid nvt nvt 0 75 nvt nvt 1 75 nvt nvt 2 75 0 75 3 75 1 83 4 83 2 86 5 86 .. .. 51 212 54 212 Noot. Gerapporteerde scores 0,1 en 2 komen niet voor, vanwege de geneutraliseerde items.
7. Van vaardigheid naar cijfer Alle kandidaten en opgaven worden dus op dezelfde vaardigheidsschaal afgebeeld. Cijfers reflecteren de waardering voor behaalde vaardigheid. Het belangrijkste punt op de vaardigheidsschaal is de cesuur: vanaf de cesuur‐vaardigheid wordt de vaardigheid van kandidaten als voldoende beoordeeld. Een vaardigheid onder de cesuur wordt als onvoldoende beoordeeld. Het precieze cijfer dat wordt toegekend bij de cesuur‐vaardigheid is afhankelijk van het aantal gerapporteerde decimalen. Als hele cijfers gerapporteerd worden, zoals bij de Rekentoets VO of het 5
COE Rekenen, is het cijfer bij de cesuur een 5,5. Dit cesuur‐cijfer heeft één decimaal meer dan er gerapporteerd wordt om afrondingsproblemen te voorkomen. Als cijfers met één decimaal worden gerapporteerd, zoals bij het COE Taal, is het cijfer bij de cesuur gelijk aan 5,45. In Figuur 3 is dit bij vaardigheid 83,0.
Van vaardigheid naar cijfer 10 9 8 7
Cijfer
6 5 4 3 2 1 0 0,0
20,0
40,0
60,0
80,0
100,0
120,0
140,0
Vaardigheid
Figuur 3. Voorbeeld van omzetting van vaardigheidsscores naar cijfers
De omzetting van vaardigheid naar cijfer is lineair met een knik. Dat wil zeggen dat er een rechtlijnig verband is tussen cijfer en vaardigheid boven de cesuur, en dat er een ander rechtlijnig verband is onder de cesuur. Om de relaties exact vast te leggen, worden door de normeringsvergadering nog twee cijferpunten op de vaardigheidsschaal vastgelegd: één boven de cesuur en één onder de cesuur. Boven de cesuur is dit punt het cijfer 7,5, waarmee het cijfer 8 of hoger wordt toegekend aan kandidaten met een goede vaardigheid. Onder de cesuur wordt het cijfer 4,5 of 3,5 vastgesteld. Een vaardigheid die resulteert in het cijfer 4 of lager is zodanig laag dat de kandidaat geen diploma waardig is. De drie punten op de vaardigheidsschaal die de omzetting van vaardigheid naar cijfer bepalen, noemen we ook wel standaarden. De rechte lijnen die door de drie punten bepaald worden, worden naar boven en beneden afgekapt. Cijfer boven 10,0 en onder 1,0 worden immers niet toegekend. Het bepalen van de waarden van standaarden wordt Standaardsetting genoemd. Bij COE en Rekentoets VO worden daarvoor de oordelen van zo’n 15 experts gebruikt. Deze experts zijn niet betrokken zijn bij de constructie van het examen of de toets. Er zijn diverse methodes waarbij deze experts
6
oordelen per opgave moeten geven, of waarbij zij oordelen over sets van opgaven moeten geven. De experts baseren zich voor het vereiste niveau op de Syllabi COE en Toetswijzers Rekentoets VO .
8. Toekomstperspectief: itembanken Na een aantal jaren van examenontwikkeling en ‐afnames kan een groot aantal opgaven op dezelfde schaal worden afgebeeld. We spreken dan van een itembank. Uit deze itembank kunnen dan varianten worden samengesteld, waarbij de normering vóór afname vastgesteld kan worden. De itemparameters en de standaarden zijn immers al bekend. Een voordeel van het werken met itembanken is dat de standaarden of cesuren die bij diverse afnames gehanteerd worden goed met elkaar vergeleken kunnen worden. We kunnen dan binnen referentieniveaus diverse toetsen en de prestaties daarop vergelijken, bijvoorbeeld de Rekentoets VO 2F vergelijken met de COE 2F rekenen. Maar ook de verticale vergelijking tussen niveaus is dan mogelijk, bijvoorbeeld tussen de Rekentoets VO 2F en de Rekentoets VO 3F. Dergelijke vergelijkingen bieden perspectief voor de verdere ontwikkeling van doorlopende toetslijnen. In het meest geavanceerde geval kan in de toekomst het examen of de toets op elk gewenst tijdstip en elke locatie worden afgenomen. Niet iedereen maakt meer hetzelfde examen. Mogelijk maakt iedere kandidaat een ander examen, dat wil zeggen een examen met andere opgaven. Mogelijk wordt het examen zelfs als adaptieve toets afgenomen. Dit laatste betekent dat de moeilijkheid van de opgaven in de loop van het examen wordt aangepast aan het niveau van de kandidaat. De exacte samenstelling van de examenvariant wordt dan dus gedurende de afname bepaald, in plaats van vooraf. Een voordeel van adaptieve toetsing is dat er een nauwkeuriger meting van de vaardigheid van een kandidaat kan plaatsvinden. Een voorwaarde is wel dat de opgaven niet algemeen bekend zijn, zodat een kandidaat steeds voor hem/haar nieuwe opgaven maakt. Om de geheimhouding van opgaven te waarborgen, is het inzagerecht bij COE en Rekentoets VO bijvoorbeeld beperkt.
7
Schattingsmethode Om de moeilijkheid van de opgaven precies te schatten, wordt gebruik gemaakt van item respons theorie (IRT). Opgaven worden binnen deze theorie items genoemd. De antwoorden van leerlingen worden responsen genoemd. De kans dat een bepaalde kandidaat een bepaald item goed beantwoordt, is afhankelijk van de vaardigheid van de persoon en van kenmerken van het item, zoals de moeilijkheid ervan. De vaardigheid van een kandidaat wordt met de Griekse letter θ aangeduid. De kans dat een kandidaat met een vaardigheid θ een item goed maakt, wordt omschreven met een wiskundige formule of functie. Van de familie van modellen die binnen de IRT vallen, wordt in dit geval het one parameter logistic model (OPLM, Glas & Verhelst, 1989, Verhelst & Glas, 1993; Verhelst, Glas & Verstralen, 1993; Verhelst & Eggen, 2011) gebruikt. De itemresponsfunctie van het OPLM is gegeven door
f i ( )=
exp [ ai ( - i ) ] , 1 + exp [ ai ( - i )]
waarin ai de zogenaamde discriminatie‐index van het item is, en βi de moeilijkheidsparameter van item i is. In Figuur 4 zijn de itemresponscurven weergegeven van twee items i en j, die even moeilijk zijn maar verschillend discrimineren. Als de vaardigheid van de kandidaat gelijk is aan de moeilijkheid van een opgave, dan heeft hij/zij een kans van 50% om de opgave goed te maken. Opgaven met een hoge discriminatie‐index onderscheiden beter tussen hoog‐ en laag‐vaardige kandidaten, ofwel de kans om een opgave goed te maken neemt hierbij snel toe met θ. Merk op dat discriminatie hier dus niets met geslacht of afkomst te maken heeft. De index ai wordt ook wel de hellingsparameter genoemd.
Figuur 4. Twee itemresponscurven in het OPLM: zelfde moeilijkheid, verschillende discriminatie‐index
Een vaak toegepaste schattingsmethode voor de moeilijkheidsparameters βi is de ‘conditionele grootste aannemelijkheidsmethode’ (in het Engels: Conditional Maximum Likelihood, verder aangeduid als CML). Die maakt gebruik van het feit dat in het model een afdoende 8
steekproefgrootheid ('sufficient statistic') bestaat voor de latente variabele θ, namelijk de ruwe score of het aantal correct beantwoorde items. Dat betekent grofweg dat, indien de itemparameters bekend zijn, alle informatie die het antwoordpatroon over de vaardigheid bevat, kan worden samengevat in de ruwe score; het doet er dan verder niet meer toe welke opgaven goed en welke fout zijn gemaakt. Hieruit vloeit voort dat de conditionele kans op een juist antwoord op item i, gegeven de ruwe score, een functie is die alleen afhankelijk is van de itemparameters en onafhankelijk van de waarde van θ3. De CML‐schattingsmethode maakt van deze functie gebruik. Deze methode maakt geen enkele vooronderstelling over de verdeling van de vaardigheid in de populatie, en is ook onafhankelijk van de wijze waarop de steekproef is getrokken. Door de indices ai te beperken tot (positieve) gehele getallen, en door ze a priori als constanten in te voeren, is het mogelijk CML‐schattingen van de itemparameters βi te maken.
3 Een gedetailleerde uiteenzetting hierover kan men vinden in Verhelst, 1992. 9
S Standaardsetting Bij een sstandaardsettting wordt e een punt op dde vaardighe eidsschaal be epaalt (Figuuur 1). Voor het daarden zijn meerdere s oorten procedures besch hikbaar. Eenn eerste onde erscheid bepalen van de stand kan gem maakt worden n tussen procedures waaarbij beoorde elaars of exp perts gebruikkt worden en n procedures waarbij sstandaarden uit voorgaa nd onderzoe ek toegepastt worden op nieuwe exam men‐ Ankering. Bijj de standaa rsetting‐procedures afnamess. Dit laatste wordt besprroken onder het kopje A met beo oordelaars zijjn er twee su ubtypen te o nderscheide en: procedures waarbij dee experts kandidaten beoordeelen en proceedures waarbij de expertts opgaven b beoordelen. B Bij de COEs een Rekentoets VO wordt alleen van pro ocedures geb bruik gemaakkt waarbij op pgaven beoo ordeeld wordden. Dit kan w weer op worden tweee gebruikte p procedures m met beoordeelaars van op pgaven meerderre manieren.. Hieronder w besprokeen (Angoff‐p procedure en Bookmaark‐procedure). Merk o op dat deze m methoden niet beperkt hoeven te ziijn tot de cessuur voor ee n voldoende e, maar ook ttoegepast kuunnen worde en voor het cijfer 5 of 8.
Figuur 5. SStandaard (125 5) op een vaard digheidsschaal
Ankerin ng Een ankeer is een set van opgaven n die uit voo rgaand onde erzoek stamtt. Dit kunnenn opgaven uit eenzelfd de examen vaan een eerde er tijdstip zijnn, of opgave en uit andere e examens. W Wel is nodig d dat de vaardigh heid die in heet voorgaand de onderzoekk gemeten w werd, dezelfd de vaardigheeid is die mett het huidige eexamen gem meten wordt.. Dus in een Rekentoets V VO kunnen a ankeropgaveen van vorig jjaar zitten, off ankeropgavven uit de CO OEs Rekenenn, of uit de Referentiesetts rekenen. Een voorrdeel van heet opnemen vvan ankers inn een exame en‐periode is dat standaaarden die bij voorgaand onderzoeek door expe erts al zijn va stgesteld, direct gehante eerd kunnen worden bij de emen we sta ndaardsettin ng via ankering. nieuwe eexamens. Ditt laatste noe 10
Toetsen of examenvarianten die via ankers aan elkaar gekoppeld zijn, kunnen afgebeeld worden op dezelfde schaal. Meestal worden de itemparameters van de ankeropgaven gefixeerd, waarmee de vaardigheidsschaal van het voorgaande onderzoek ook gehanteerd wordt voor de afbeelding van de nieuwe opgaven en vaardigheden van nieuwe kandidaten. Het kan voorkomen dat de itemparameters van het anker niet passen bij de populatie die deelneemt aan de nieuwe examenperiode. Dit kan bijvoorbeeld doordat het een andere populatie betreft (VO versus MBO), of omdat er gerichte training heeft plaatsgevonden tussen de oude en nieuwe periode. In dergelijke gevallen, horen bij het anker twee sets parameters: één op de oude vaardigheidsschaal en één op de nieuwe. Als het anker uit minstens 40 opgaven bestaat, is een standaard op de oude schaal toch te vertalen naar een standaard op de nieuwe schaal. De standaard op de oude schaal wordt namelijk eerst vertaald naar een ruwe score op het anker, en deze wordt vervolgens weer vertaald in een positie op de nieuwe schaal. Als er zowel een standaardsetting via ankering heeft plaatsgevonden, als een standaardsetting met experts, dan kunnen de verkregen cesuren van elkaar afwijken. Bij zo’n afwijking moet eerst gekeken worden of het verschil te wijten valt aan toeval. Indien er structureel afwijkingen geconstateerd worden, moet er wellicht een herziening van de oude standaard plaatsvinden. Angoff‐procedure Bij een Angoff‐procedure moeten de experts een grenskandidaat in gedachten nemen. Een grenskandidaat is een kandidaat die het vereiste niveau net beheerst. De experts geven per item aan of een grenskandidaat deze goed maakt of niet. Bij een gemodificeerde Angoff‐procedure wordt per item door de experts de kans ingeschat dat een grenskandidaat de opgave goed maakt. Dit is hetzelfde als inschatten hoeveel van 100 grenskandidaten de opgave goed maken. Optellen van de kansen van alle opgaven van een bepaald examen of toets geeft de grensscore die gehaald moet worden op het betreffende examen of toets om te voldoen aan minimale eisen: de cesuur. Deze cesuur wordt vervolgens afgebeeld op de vaardigheidsschaal, waarmee de standaard bepaald is. Bookmark‐procedure Als er ook afnamegegevens beschikbaar zijn, kan ook gewerkt worden met een Bookmark‐procedure, waarbij gebruik gemaakt wordt van de empirische ordening van de items naar moeilijkheid (Van der Schoot, 2001, 2008). Deze procedure voor het vaststellen van een standaard voor een bepaald niveau maakt gebruik van een reeks opgaven die naar moeilijkheid zijn gerangschikt. Deskundigen geven aan welke opgave nog wel en welke niet meer beheerst zouden moeten worden door een grenskandidaat. In de reeks opgaven plaatsen zij een ‘bookmark’. Experts geven dus aan hoeveel items van een set opgaven beheerst moeten worden op een bepaald niveau. Dit oordeel wordt weer omgezet in een punt op de vaardigheidsschaal.
11
Syllabi COE en Toetswijzers Rekentoets VO Regelgeving door OCW De totstandbrenging van examens begint met regelgeving vanuit het ministerie van OCW. Voor de referentieniveaus is dit in de eerste plaats het Besluit referentieniveaus Nederlandse taal en rekenen, waarin de inhoud van de referentieniveaus is bepaald en waarin geregeld is welk referentieniveau geldt voor welk schooltype. Het ministerie heeft ook geregeld hoe de toetsing/examinering van de referentieniveaus plaats gaat vinden. Voor rekenen in het VO gaat dit gebeuren door een centrale rekentoets die deel uitmaakt van het eindexamen. Voor het mbo komen er centraal ontwikkelde examens (COE’s) rekenen en taal. Het College voor Examens (CvE) heeft als opdracht om namens de Nederlandse overheid de kwaliteit van de centrale toetsen en examens in Nederland te waarborgen én om de voorwaarden te scheppen voor een goed verloop van de afname van de examens op de onderwijsinstellingen. Het ministerie heeft toetswijzers vastgesteld waarin beschreven is wat er in een rekentoets VO wel en niet gevraagd kan worden. Het CvE voor de COE’s in het mbo syllabi vastgesteld. Het CvE doet dit overigens ook voor de centrale examens in het VO. De syllabi en de rekentoetswijzers zijn beschrijvingen van de examenstof. Relevante syllabi of toetswijzers In Tabel 3 staat voor rekenen per opleidingsniveau welk examen gemaakt moet worden en welke syllabus of rekentoetswijzer daarbij betrokken is. De syllabus rekenen 2F MBO is inhoudelijk afgestemd met de rekentoetswijzer 2F VO, net als de syllabus rekenen 3F MBO met de rekentoetswijzer 3F VO. In het VO en het MBO worden alle domeinen van de referentieniveaus getoetst. Tabel 3. Examenvorm en syllabus of toetswijzer rekenen per opleidingsniveau
VMBO‐BB
rekentoets VO 2F examenvorm: digitale centrale toets / examenstof: rekentoetswijzer 2F VMBO‐KB rekentoets VO 2F examenvorm: digitale centrale toets / examenstof: rekentoetswijzer 2F VMBO‐ rekentoets VO 2F GL/TL examenvorm: digitale centrale toets / examenstof: rekentoetswijzer 2F Havo rekentoets VO 3F examenvorm: digitale centrale toets / examenstof: rekentoetswijzer 3F VWO rekentoets VO 3F examenvorm: digitale centrale toets / examenstof: rekentoetswijzer 3F *) MBO‐2 COE rekenen 2F examenvorm: digitaal centraal examen / examenstof: syllabus rekenen 2F mbo MBO‐3 COE rekenen 2F examenvorm: digitaal centraal examen / examenstof: syllabus rekenen 2F mbo MBO‐4 COE rekenen 3F examenvorm: digitaal centraal examen / examenstof: syllabus rekenen 3F mbo *) In tegenstelling tot taal kent rekenen geen referentieniveau 4F, wel een referentieniveau 3S. In opdracht van OCW wordt onderzocht of het referentieniveau 3S beter past bij het vwo dan 3F.
12
In Tabel 4 staat voor Nederlandse taal per opleidingsniveau welk examen gemaakt moet worden en welke syllabus daarbij betrokken is. Alleen de vaardigheden lezen en luisteren worden getoetst in de COE’s. Tabel 4. Examenvorm en syllabus Nederlandse taal per opleidingsniveau
MBO‐2 MBO‐3 MBO‐4
COE taal 2F examenvorm: digitaal centraal examen / examenstof: syllabus taal 2F mbo COE taal 2F examenvorm: digitaal centraal examen / examenstof: syllabus taal 2F mbo COE taal3F examenvorm: digitaal centraal examen / examenstof: syllabus taal 3F mbo
Wijze van samenstelling van syllabus of toetswijzer Bij het schrijven van syllabi en toetswijzers waren veel deskundigen op het gebied van taal en rekenen betrokken. Zowel medewerkers uit expertisecentra als docenten. Expertisecentra zowel op het gebied van taal en rekenen als op het gebied van toetsing en examinering. Docenten zowel uit de onderwijssector waarvoor het referentieniveau bedoeld is als, als het vervolgonderwijs daarop. Betrokken expertisecentra waren onder meer het Nederlands‐Vlaams Platform Taalbeleid hoger Onderwijs , ITTA en het Freudenthal Instituut. Leden van syllabus‐ en toetswijzercommissies waren voorgedragen door onder meer de MBO Raad, de AOC Raad, de HBO Raad, NRTO, de onderwijsbonden, de Nederlandse Vereniging van Wiskunde Leraren en VECON. Over de conceptversies zijn raadplegingen gehouden in de vorm van enquêtes en resonansbijeenkomsten. Op basis van de raadplegingen zijn de conceptversies aangepast en vervolgens vastgesteld. Constructie van een examen op basis van syllabus of toetswijzer Het CvE draagt verantwoordelijkheid voor de centrale examens en toetsen. De centrale toetsen en examens worden geconstrueerd door Cito, in opdracht van CvE. Cito heeft constructiegroepen ingericht die – onder meer – bestaan uit docenten die lesgeven aan de kandidaten voor wie het examen of de toets bedoeld is. Iedere constructiegroep wordt geleid door een toetsdeskundige. De toetsdeskundige is een expert op het gebied van examinering in het desbetreffende vak. Het CvE heeft vaststellingscommissies ingesteld. Net als bij de constructiegroepen van Cito, maken docenten die les geven aan de doelgroep deel uit van de vaststellingscommissies van het CvE. Het CvE benoemt die docenten meestal op voordracht van onderwijsorganisaties, zoals de Vereniging van Levende Talen, de Nederlandse Vereniging van Wiskundeleraren, de MBO Raad, de NRTO en de onderwijsbonden. De voorzitter van een vaststellingscommissie is meestal een leidinggevende die werkzaam is in het vakgebied in het vervolgonderwijs en/of beschikt over inzicht in en overzicht op het terrein van het vak. Op die manier wil het CvE bereiken dat de toetsen en examens aansluiten op het onderwijs en relevant zijn voor het vervolgonderwijs. De toetsdeskundige en de constructiegroepen gaan in opdracht van het CvE aan het werk om een examen te construeren. In de syllabus of toetswijzer staat wat wel en niet gevraagd mag worden in
13
het examen of de toets. De syllabus of toetswijzer is dan ook het kader waarbinnen de toetsdeskundigen en de constructiegroepen hun werk doen. De toetsdeskundige legt vervolgens de concept‐ opgaven en samenstelling van het examen voor aan de vaststellingscommissie van het CvE. De vaststellingscommissie controleert dan of het concept‐ examen aan de syllabus of toetswijzer voldoet en of er geen onvolkomenheden in de opgaven zitten en stelt het examen dan vast.
14
Literatuur Eggen, T. J. H. M., & Verhelst, N. D. (2011). Item calibration in incomplete testing designs. Psicologica: International Journal of Methodology and Experimental Psychology, 32, 107‐132. Glas, C. A. W., & Verhelst, N.D. (1989). Extensions of the partial credit model, Psychometrika , 54, 635‐659. Van der Schoot, F. (2001). Standaarden voor kerndoelen basisonderwijs. De ontwikkeling van standaarden voor kerndoelen basisonderwijs op basis van resultaten uit peilingsonderzoek. (Proefschrift Universiteit van Amsterdam). Arnhem, Cito. Van der Schoot, F. (2008). Onderwijs op peil? Een samenvattend overzicht van 20 jaar PPON. Arnhem, Cito. Verhelst, N.D., & Engelen, R.J.H. (1999). An ability estimator in the two parameter logistic model based on raw scores. Research memorandum. Arnhem: Cito. Verhelst, N.D., & Glas, C.A.W. (1993). A dynamic generalization of the Rasch model. Psychometrika, 58, 395‐415. Verhelst, N.D., Glas, C.A.W., & Verstralen, H.H.F.M. (1993). OPLM: One parameter logistic model. Computer program and manual. Arnhem: Cito. Warm, T.A. (1989). Weighted likelihood estimation of ability in item response theory. Psychometrika, 54, 427‐450.
15