RCEC BEOORDELINGSSYSTEEM VOOR DE KWALITEIT VAN STUDIETOETSEN EN EXAMENS
© RCEC Concept, juni 2015
Inleiding Voor de beoordeling van de kwaliteit van toetsen en examens worden in Nederland momenteel drie beoordelingssystemen gebruikt. Het eerste beoordelingssysteem is het ‘Beoordelingssysteem voor de kwaliteit van tests’ van de Commissie Testaangelegenheden Nederland (COTAN). De COTAN gebruikt dit systeem om psychologische tests en studietoetsen te beoordelen die door testuitgeverijen op de markt worden gebracht. Het tweede beoordelingssysteem betreft de ‘Regeling standaarden examenkwaliteit mbo 2012’. De Inspectie van het Onderwijs beoordeelt hiermee de examens van het middelbaar beroepsonderwijs. Het derde beoordelingssysteem is het NVAO accreditatiekader. Hiermee wordt de toetsing en examinering in het hoger onderwijs beoordeeld. De resultaten van de beoordelingen met deze beoordelingssystemen hebben consequenties voor organisaties die toetsen en examens gebruiken. Zo mag doorverwijzing van kandidaten naar het leerwegondersteunende onderwijs en het praktijkonderwijs volgens voorschrijving van het Ministerie van OCW alleen gebeuren met behulp van toetsen die op door de COTAN onderscheiden zeven beoordelingscriteria als voldoende zijn beoordeeld. Voor het middelbaar beroepsonderwijs geldt dat opleidingen hun examenlicentie kunnen kwijtraken indien de examens van onvoldoende kwaliteit zijn volgens de standaarden die de Inspectie van het Onderwijs voor examenkwaliteit hanteert. Voor het hoger onderwijs geldt dat opleidingen hun accreditatie kunnen verliezen als de toetsing of examinering van onvoldoende kwaliteit is. Hoewel er grote overeenkomsten tussen toetsen en examens bestaan, zijn er ook verschillen. Die verschillen worden verwoord door de definities ontleend aan de ‘Toetstechnische begrippenlijst’ van Cito. De definitie van (studie)toets luidt: ‘Een toets is een instrument voor het meten van iemands kennis en vaardigheden (praktische vaardigheden en houdingen) die door middel van studie en/of onderwijs op een of ander vakgebied zijn verworven.’ Het is belangrijk op te merken dat met studietoetsen niet psychologische tests of beroepeninteressetests bedoeld worden. De definitie van examen luidt: ‘Een examen is een door een daartoe bevoegde instantie ingesteld onderzoek naar kennis, inzicht, houding en vaardigheden van een kandidaat, die over een samenhangend geheel van leergebieden, aan de hand van hem verstrekte opdrachten een aantal prestaties moet leveren, op grond waarvan hem met inachtneming van bepaalde prestatie-eisen en beslissingsregels een bewijs kan worden uitgereikt waaraan bepaalde rechten of bevoegdheden kunnen worden ontleend.’ Het ‘RCEC beoordelingssysteem voor de kwaliteit van studietoetsen en examens’ is ontwikkeld om zowel de kwaliteit van studietoetsen, examens als van praktijkexamens te kunnen beoordelen. RCEC staat voor Research Center voor Examinering en Certificering. Het RCEC beoordelingssysteem verschilt van het beoordelingssysteem van de COTAN dat bedoeld is voor het beoordelen van de kwaliteit van psychologische tests en studietoetsen, maar niet voor het beoordelen van de kwaliteit van examens. Het verschilt van de ‘Regeling standaarden examenkwaliteit mbo 2012’, omdat dat beoordelingssysteem specifiek ontwikkeld is voor het beoordelen van de kwaliteit van (praktijk)examens die afgenomen worden in het middelbaar beroepsonderwijs. Het verschilt ook van het NVAO accreditatiekader, omdat dat specifiek ontwikkeld is voor de beoordeling van toetsing en examinering in het hoger onderwijs. Het RCEC beoordelingssysteem sluit qua opzet en inhoud aan bij het beoordelingssysteem van de COTAN. Dit betekent dat ook het RCEC beoordelingssysteem een opzet heeft, waarbij onderscheiden beoordelingscriteria op basis van de antwoorden op vragen als goed, voldoende of onvoldoende beoordeeld worden. Wat betreft de inhoud geldt dat een aantal criteria en de bijbehorende aanwijzingen bij de vragen (soms nagenoeg letterlijk) zijn overgenomen. In de aanwijzingen bij deze vragen wordt echter in voorkomende gevallen ook ingegaan op zaken die met name bij examens een rol spelen. Het RCEC beoordelingssysteem is in de eerste plaats bedoeld om de kwaliteit van studietoetsen en examens te beoordelen met door het RCEC gecertificeerde auditoren. Daarnaast kan het RCEC beoordelingssysteem betrokkenen bij toetsing en examinering helpen bij het construeren van toetsen en examens die voldoen aan de eisen die aan studietoetsen en examens gesteld worden. Bovendien kan het gebruikers van studietoetsen en examens, zoals docenten, schoolorganisaties en examencommissies, helpen bij het beoordelen en selecteren van studietoetsen en examens die van goede kwaliteit zijn.
2
Het RCEC beoordelingssysteem hanteert zes criteria voor de beoordeling van de kwaliteit van een toets of examen: Criterium 1: Doel en gebruik. Criterium 2: Toets- en examenmateriaal. Criterium 3: Representativiteit. Criterium 4: Betrouwbaarheid. Criterium 5: Standaardbepaling en normhandhaving. Criterium 6: Afname en beveiliging. Elk criterium wordt beoordeeld door middel van (basis)vragen die als ‘goed’ (score 3), ‘voldoende’ (score 2) en ‘onvoldoende’ (score 1) beoordeeld en gescoord worden. Op basis van de scores op de onderscheiden vragen wordt een criterium als ‘goed’, ‘voldoende’ of ‘onvoldoende’ beoordeeld. Een onvoldoende score op een basisvraag betekent dat het criterium als onvoldoende beoordeeld wordt en dat men de resterende vragen bij dit criterium kan overslaan. Wat betreft het gebruik van het RCEC beoordelingssysteem, is het RCEC van mening dat alleen door het RCEC gecertificeerde auditoren een verantwoord oordeel over de kwaliteit van toetsen en examens kunnen geven. De beoordelingsprocedure verloopt als volgt: twee onafhankelijk auditoren zullen met behulp van de ter beschikking gestelde documentatie een oordeel geven over de zes criteria uit het beoordelingssysteem. Per onderdeel zal een rapportage plaatsvinden met een eindoordeel op de criteria. Eventuele negatieve oordelen zullen worden gemotiveerd. De beoordeling is vervolgens vijf jaar geldig, mits de opzet van de toets of het examen niet verandert. De auteur van het RCEC beoordelingssysteem is Piet Sanders, werkzaam bij het RCEC. De oorspronkelijke tekst is door diverse personen voorzien van commentaar dat de auteur in de huidige tekst verwerkt heeft, met name Peter van Dijk, werkzaam bij eX:plain, Theo Eggen, Dorien den Otter en Bernard Veldkamp, werkzaam bij het RCEC. Opmerkingen over het beoordelingssysteem kunt u sturen naar het secretariaat van het RCEC, www.rcec.nl. Ontwikkelingen op het gebied van studietoetsen en examens gaan snel. Dit betekent dat het onderhavige beoordelingssysteem regelmatig aangepast zal en moet worden
3
1
DOEL EN GEBRUIK
Bij dit criterium wordt beoordeeld of het doel en het gebruik van de toets is aangegeven. Met andere woorden, is duidelijk ‘wat’ we toetsen en ‘waarom’ we dat doen? Het doel van toetsen en examens is te beoordelen of kandidaten over de vereiste kennis, vaardigheden of houdingen beschikken. Het gebruik van toetsen en examens betreft de beslissingen die genomen worden op basis van de door de kandidaten behaalde resultaten op toetsen en examens.
CRITERIUM 1: DOEL EN GEBRUIK 1.1 Is aangegeven wat de doelgroep(en) van de toets of het examen is (zijn)? Bij onvoldoende beoordeling kan men de twee andere vragen van dit criterium overslaan en doorgaan met criterium 2. 1.2 Is aangegeven wat het meetdoel van de toets of het examen is? Bij onvoldoende beoordeling kan men basisvraag 3 van dit criterium overslaan en doorgaan met criterium 2. 1.3 Is aangegeven wat het gebruiksdoel van de toets of het examen is?
O
V
G
1
2
3
1
2
3
1
3
Aanwijzingen bij basisvraag 1.1: Is aangegeven wat de doelgroep(en) van de toets of het examen is (zijn)? Het aangeven van de doelgroep kan beperkt blijven tot het benoemen van de opleiding waarvoor de toets wordt ingezet. Daarnaast zal in voorkomende gevallen ook het aangeven van de leeftijd, het beroep, het opleidingsniveau of de relevante voorkennis van kandidaten van belang zijn om de doelgroep te definiëren. Deze informatie kan onder andere van belang zijn bij het beoordelen van de inhoud van de toets of het examen zoals het taalgebruik en de gehanteerde normen of cesuren. Beoordeling van basisvraag 1.1: Onvoldoende Voldoende Goed
De (opleiding van de) doelgroep is niet vermeld. De opleiding waarvoor de toets wordt ingezet, is vermeld. Naast de opleiding is ook andere mogelijk relevante informatie over de kandidaten vermeld zoals hun leeftijd, beroep, opleidingsniveau of relevante voorkennis.
Aanwijzingen bij basisvraag 1.2: Is aangegeven wat het meetdoel van de toets of het examen is? Een toets of examen moet vaststellen wat kandidaten na afloop van een onderwijstraject of een EVCtraject wel en niet beheersen. Wat de kandidaten geacht worden te beheersen, kan onder andere aangegeven worden als: De beheersing van een bepaald construct (bijvoorbeeld ‘leesvaardigheid’). De beheersing van een exameneenheid van een examenprogramma (bijvoorbeeld de exameneenheid‘ havo-examen wiskunde’). De beheersing van een kerntaak, beroepstaak of werkproces (bijvoorbeeld uit een mbokwalificatiedossier). De beheersing van een competentie (bijvoorbeeld de competentie ‘analyseren’ van een assistent-drogist). Bij deze vraag is het van belang dat de relevantie van de inhoud van de toets of het examen voor het beoogde meetdoel aannemelijk is gemaakt. Daarbij kan bijvoorbeeld een toetsmatrijs van de toets of het examen goede diensten bewijzen.
4
Beoordeling basisvraag 1.2: Onvoldoende Voldoende Goed
Het meetdoel is niet vermeld. Het meetdoel is vermeld. Het meetdoel is vermeld, waarbij zaken zoals een gedetailleerde beschrijving van constructen/ competenties /kerntaken/exameneenheden, een toetsmatrijs of een verwijzing naar relevante brondocumenten is toegevoegd.
Aanwijzingen bij basisvraag 1.3: Is aangegeven wat het gebruiksdoel van de toets of het examen is? Een toets of examen kan gebruikt worden voor: Selectie: Afhankelijk van het toets- of examenresultaat wordt een leerling wel of niet toegelaten tot een opleiding. Classificatie: Afhankelijk van het toets- of examenresultaat volgen leerlingen verschillende onderwijsprogramma’s die tot verschillende diploma’s of certificaten leiden (bijvoorbeeld de Eindtoets voor het basisonderwijs van Cito). Plaatsing: Afhankelijk van het toets- of examenresultaat volgen leerlingen verschillende onderwijsprogramma’s die tot hetzelfde certificaat of diploma leiden (bijvoorbeeld een zelfbeoordeling t.b.v. BOL- of BBL-leerweg bij het mbo-onderwijs). Certificering of diplomering: Afhankelijk van het toets- of examenresultaat wordt wel of niet een diploma of certificaat verstrekt. Een ander gebruiksdoel van toetsen dat in de onderwijskundige literatuur opgang doet, betreft de drie benaderingen van formatief assessment: data-based decision making (DBDM, in de Nederlandse literatuur opbrengstgericht werken (OWG) genoemd, assessment for learning (AfL; in de Nederlandse literatuur ook wel toetsing of evaluatie van het leren genoemd) en diagnostische toetsen (DT). Ook deze toetsen kunnen met het RCEC beoordelingsmodel beoordeeld worden. Voor meer informatie over formatief assessment, zie het proefschrift van Van der Kleij (2013). Dit proefschrift kan via de website van het RCEC gedownload worden (www.rcec.nl). Beoordeling basisvraag 1.3: Onvoldoende Het gebruiksdoel is niet genoemd. Goed Het gebruiksdoel is genoemd. EINDOORDEEL CRITERIUM 1: DOEL EN GEBRUIK Somscore basisvragen 1.1 t/m 1.3 = 8 of 9 Somscore basisvragen 1.1 t/m 1.3 = 7 Somscore basisvragen 1.1 t/m 1.3 ≤ 6 * Score ‘1’ voor één van de basisvragen is niet toegestaan.
Goed Voldoende* Onvoldoende
5
2
TOETS- OF EXAMENMATERIAAL
Bij dit criterium gaat het om de kwaliteit van het toetsmateriaal: de opgaven of opdrachten, de instructies voor de kandidaten en beoordelaars en het beoordelaarsinstrumentarium. Voor een zinvolle interpretatie van de scores dient een toets zo afgenomen en gescoord te worden, dat er geen onbedoelde factoren invloed uitoefenen op de scores. Daarom moeten bijvoorbeeld de afname en instructie gestandaardiseerd zijn. Dit criterium heeft betrekking op schriftelijke en digitale toetsen met gesloten en/of open vragen en op (praktijk)opdrachten. Bij gesloten of (meervoudige) meerkeuzevragen moet de kandidaat het goede antwoord (of de goede antwoorden) selecteren, bij open vragen het goede antwoord (of de goede antwoorden) formuleren en bij een (praktijk)examen de praktijkopdrachten uitvoeren. Voor de beoordeling van een schriftelijke toets of examen, dient men te beginnen bij vraag 2.1. Voor de beoordeling van een computertoets of examen dient men te beginnen bij vraag 2.8. Indien er van de toets zowel een schriftelijke als digitale versie bestaat, dient de kwaliteit van het toetsmateriaal van beide versies te worden beoordeeld. In dat geval zijn de vragen en de instructies van beide versies identiek. Bij ongelijke vragen of instructies heeft men in feite met twee verschillende toetsen of examens te maken en dienen beide apart beoordeeld te worden. CRITERIUM 2: TOETS - OF EXAMENMATERIAAL SCHRIFTELIJKE TOETS OF EXAMEN
O
2.1
1
2.2
2.3
2.4 2.5 2.6 2.7
Zijn de vragen of opdrachten gestandaardiseerd? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 3. a. Is er sprake van een geautomatiseerd of objectief scoringssysteem, en/of b. als de scoring door beoordelaars gebeurt, is dan het beoordelingsvoorschrift volledig en duidelijk? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 3. Zijn de vragen of praktijkopdrachten, het toets- of examenboekje, de antwoordschalen en/of het antwoordformulier zodanig ontworpen dat fouten bij de invulling voorkomen worden? Is het scoringssysteem zodanig ontworpen en beschreven dat fouten bij de scoring voorkomen worden? Is de instructie voor de kandidaat volledig en duidelijk? Zijn de vragen of opdrachten correct geformuleerd? Hoe is de kwaliteit van de lay-out en vormgeving van de toets of het examen?
V
G 3
1
2
3
1
2
3
1
3
1
3
1 1 1
2 2 2
3 3 3
CRITERIUM 2: TOETS - OF EXAMENMATERIAAL COMPUTERTOETS OF COMPUTEREXAMEN
O
V
G
2.8
1
2.9
2.10 2.11 2.12
Zijn de vragen gestandaardiseerd? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 3. Is er sprake van een geautomatiseerd of objectief scoringssysteem? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 3. Is de software zodanig ontworpen dat fouten door onjuist gebruik voorkomen worden ? Is de instructie voor de kandidaat volledig en duidelijk? Zijn de vragen correct geformuleerd?
3
1
2
3
1
2
3
1 1
2 2
3 3
6
2.13
Hoe is de kwaliteit van de vormgeving van de gebruikersinterface?
1
3
AFNAME VIA SCHRIFTELIJK(E) TOETS/EXAMEN OF PRAKTIJKTOETS/EXAMEN Aanwijzingen bij basisvraag 2.1: Zijn de vragen of praktijkopdrachten gestandaardiseerd? Vragen of (praktijk)opdrachten zijn gestandaardiseerd wanneer de vragen of opdrachten voor wat betreft inhoud en vorm voor iedereen hetzelfde zijn. Dit is belangrijk om scores te interpreteren en te vergelijken. Daarom moet men bij meerkeuzevragen de volgorde van de alternatieven niet variëren. Uit onderzoek is namelijk gebleken dat dit invloed heeft op de scores van de kandidaten. Bij praktijktoetsen zal volledige standaardisatie van de opdrachten niet mogelijk zijn. In dergelijke gevallen is het van belang dat de randvoorwaarden duidelijk aangeven waaraan de opdrachten moeten voldoen zodat verschillen in complexiteit en inhoud van opdrachten worden voorkomen. Als in de toets gebruik wordt gemaakt van rolspelers moet de dialoog en/of interactie tussen kandidaat en rolspeler zo volledig en eenduidig als mogelijk zijn vastgelegd. Beoordeling basisvraag 2.1: Onvoldoende Goed
De vragen zijn niet voor iedereen hetzelfde wat betreft vorm en inhoud. De vragen zijn voor iedereen hetzelfde wat betreft vorm en inhoud.
Aanwijzingen bij basisvraag 2.2a: Is er sprake van een objectief scoringssysteem? Onder een ‘scoringssysteem’ verstaan we het toekennen van scores aan de responsen (zoals antwoorden op vragen, resultaten van opdrachten en/of de getoonde attitude), het sommeren van de scores en het omzetten van deze somscores in waarderingen of cijfers. Bij een objectief scoringssysteem zijn de scores voor alle mogelijke responsen van kandidaten zodanig vastgelegd dat elke beoordelaar, afgezien van mogelijke administratieve fouten, tot dezelfde score zal komen. Het scoringssysteem is per definitie objectief indien de scoring volledig is geautomatiseerd. Voor een handmatige objectieve scoring is de aanwezigheid van een antwoordmodel, een scoringsvoorschrift, een beoordelaarsinstructie en een omzettingstabel van scores naar waarderingen of cijfers noodzakelijk. Voor objectieve scoring bij open vragen moet verder ook sprake zijn van eenduidige antwoorden en eenduidige informatie over de deelscores die aan gedeeltelijk goede antwoorden gegeven moeten worden. Om mogelijke fouten in de handmatige scoring te voorkomen, is het aan te raden om gebruik te maken van een apart antwoordformulier. Beoordeling basisvraag 2.2a: Onvoldoende Voldoende Goed
Er is geen sprake van een (objectief) scoringssysteem. Er is een (objectief) scoringssysteem aanwezig. Er is een (objectief) scoringssysteem aanwezig en een verantwoording van de verdeling van de toe te kennen scores is bijgevoegd.
Aanwijzingen bij basisvraag 2.2b: Als de scoring door beoordelaars gebeurt, is dan het beoordelingsvoorschrift volledig en eenduidig? Indien er geen sprake is van een objectief scoringssysteem is een eenduidige beoordelingsprocedure noodzakelijk om de objectiviteit en standaardisatie van de beoordelingen te waarborgen. Dit is bijvoorbeeld het geval bij (praktijk)toetsen. Hier beoordeelt en scoort een beoordelaar de praktijkobservaties of de resultaten op opdrachten of essayvragen. De beoordelaars moeten beschikken over duidelijke beoordelingscriteria, beoordelaarsinstructies, ‘modelantwoorden’ en bijbehorende scorings- en wegingsvoorschriften. Dit moet duidelijkheid verschaffen over de uitvoering van de beoordeling en over de score of waardering die een bepaalde respons krijgt. Daarnaast moet zijn vastgelegd hoe de waarderingen of scores op (deel)opdrachten
7
leiden tot een eindoordeel. Verder moet zijn aangegeven hoe met verschillen tussen beoordelaars wordt omgegaan indien de beoordeling door meer beoordelaars wordt uitgevoerd. Als objectieve beoordeling niet mogelijk is, zullen beoordelaars geselecteerd en getraind moeten worden. Vandaar dat voor een positieve beoordeling op dit aspect ook de selectiecriteria en de aard en de inhoud van de training voor de beoordelaars dient te zijn omschreven. Beoordeling basisvraag 2.2b: Onvoldoende Voldoende
Goed
Er is geen sprake van een (objectief) scoringssysteem. Er is een (objectief) scoringssysteem aanwezig, waarbij (indien relevant) de beoordelingscriteria, de beoordelaarsinstructies, ‘modelantwoorden’ , bijbehorende scorings- en wegingsvoorschriften en de procedure om te komen tot het eindoordeel zijn beschreven. Er is een (objectief) scoringssysteem aanwezig, waarbij (indien relevant) de beoordelingscriteria, de beoordelaarsinstructies, ‘modelantwoorden’ , bijbehorende scorings- en wegingsvoorschriften en de procedure om te komen tot het eindoordeel zijn beschreven. Daarnaast is er omschreven hoe er wordt omgegaan met verschillen tussen beoordelaars en hoe de beoordelaars worden getraind.
Aanwijzingen bij vraag 2.3: Zijn de vragen, het toets- of het examenboekje, de antwoordschalen en het antwoordformulier zodanig ontworpen dat fouten bij de invulling kunnen worden vermeden? Wanneer van aparte antwoordformulieren gebruik wordt gemaakt, dienen deze zo te zijn ontworpen dat vergissingen, zoals een vraag overslaan, worden voorkomen en snel door de kandidaat worden ontdekt. Beoordeling vraag 2.3: Onvoldoende
Goed
De vragen, het toets- of het examenboekje, de antwoordschalen of het antwoordformulier geven onduidelijkheid en kunnen snel tot fouten leiden. De vragen, het toets- of het examenboekje, de antwoordschalen en het antwoordformulier zijn helder. Fouten bij invulling worden vermeden.
Aanwijzingen bij vraag 2.4: Is het scoringssysteem zodanig ontworpen en beschreven dat fouten bij de scoring voorkomen worden? Bij deze vraag moet onder andere worden gelet op de volgende punten: De scoringsprocedure dient duidelijk te zijn omschreven. Indien van scoringsmallen gebruik wordt gemaakt, moet zijn aangegeven hoe deze op de antwoordformulieren moeten worden gelegd. De mallen moeten bovendien goed passen op de antwoordformulieren. Indien van scoringsmallen gebruik wordt gemaakt, moet op de mallen zijn aangegeven bij welke versie van de toets of het examen ze horen. Vermeld moet worden welke score aan overgeslagen vragen of praktijkopdrachten moet worden toegekend. Indien de toets of het examen van beoordelaars gebruikmaakt, moet zijn aangegeven hoe men met verschillen tussen beoordelaars moet omgaan. De voorkeur gaat naar een apart antwoordformulier boven het scoren van verschillende bladzijden in een examenboekje. Een apart antwoordformulier voorkomt eerder mogelijke fouten in de scoring. Bij examens die schriftelijk worden afgenomen maar op een computer worden gescoord, dient de auditor de scoring te kunnen controleren (zie vraag 2.10).
8
Beoordeling vraag 2.4: Onvoldoende Goed
Er is geen (volledige) beschrijving van de scoringsprocedure. Er is een beschrijving van de scoringsprocedure, waarin de relevante punten zijn vermeld.
Aanwijzingen bij vraag 2.5: Is de instructie voor de kandidaat volledig en duidelijk? Instructie kan onderscheiden worden in instructie voor de kandidaat en instructie voor de surveillant (voor functieprofiel surveillant zie www.nvexamens.nl). De kwaliteit van de instructies voor de kandidaat wordt in deze vraag beoordeeld, over de kwaliteit van de instructies voor de surveillant wordt in vraag 6.1.a een oordeel gevraagd. De instructies of aanwijzingen voor de kandidaat zijn een onderdeel van het toets- of examenmateriaal en vormen in het algemeen de eerste bladzijde(n) van het toets- of examenboekje. De instructie dient te zijn gestandaardiseerd en in gangbaar Nederlands te zijn opgesteld. De volgende informatie dient minimaal in de instructie te zijn opgenomen: het aantal vragen of opdrachten; de wijze waarop antwoorden gegeven of genoteerd moeten worden en welke responses op (deel)opdrachten verwacht worden; de (deel)score per vraag of opdracht, de maximaal te behalen score en de cesuur; de toegestane en beschikbare hulpmiddelen; de beschikbare tijd en wat ingeleverd moet worden bij afronding van de toets of het examen; de beoordelingspunten bij open vragen of opdrachten; de uitvoerings- en beoordelingsprocedure bij praktijktoetsen. Beoordeling vraag 2.5: Onvoldoende Voldoende Goed
Er is geen (gestandaardiseerde) instructie voor de kandidaat. Er is een in gangbaar Nederlands opgestelde gestandaardiseerde instructie voor de kandidaat. De in gangbaar Nederlands opgestelde gestandaardiseerde instructie bevat alle onderstaande informatie: het aantal vragen of opdrachten de wijze waarop antwoorden gegeven of genoteerd moeten worden en welke responses op (deel)opdrachten verwacht worden de (deel)score per vraag of opdracht, de maximaal te behalen score en de cesuur de toegestane en beschikbare hulpmiddelen de beschikbare tijd en wat ingeleverd moet worden bij afronding van de toets of het examen de beoordelingspunten bij open vragen of opdrachten de uitvoerings- en beoordelingsprocedure bij praktijktoetsen
Aanwijzingen bij vraag 2.6: Zijn de vragen of praktijkopdrachten correct geformuleerd? In de literatuur met betrekking tot de constructie van gesloten en open vragen treft men velerlei voorschriften aan voor de formulering van de vragen. De voorschriften voor open vragen gelden in het algemeen ook voor praktijkopdrachten die kandidaten veelal in schriftelijke vorm ontvangen. Hieronder volgt een - overigens niet-uitputtende - opsomming van regels waarop men bij de formulering van vragen dient te letten. Deze regels zijn grotendeels ontleend aan de hoofdstukken 6 en 7 uit Toetsen op School, zie www.toetsenopschool.nl. Waar van toepassing, gelden onderstaande voorschriften ook voor computerexamens - zie vraag 2.12.
9
Gesloten vragen De stam: bevat maar één vraag; bevat alle benodigde/relevante informatie voor beantwoording van de vraag; bevat geen overbodige informatie (behalve als selectie van informatie het doel is); is niet voor meerdere interpretaties vatbaar; bestaat niet uit meerdere stellingen; bevat geen dummyvraag of ‘wat is juist’ vraag; bevat geen aanvulzin of invulzin (uitgezonderd bij bijvoorbeeld een cloze-toets); vraagt niet naar een mening (zoals ‘Wat vind jij … ?’of ‘Wat zou je doen als …?’); bevat geen strikvraag; is positief geformuleerd, eventuele ontkenningen zijn duidelijk gemarkeerd; bevat geen (taalkundige) aanwijzingen richting het goede antwoord; (of alternatieven) zijn vrij van racistische, etnocentrische, seksistische en voor bepaalde bevolkingsgroepen kwetsende inhoud; (of alternatieven) bevatten geen absolute of vage formuleringen (zoals ‘altijd,’nooit’, ‘soms’). De alternatieven: geven allemaal een antwoord op de vraag; één alternatief is duidelijk het juiste antwoord en de afleiders misleiden niet; bevatten geen dummy alternatieven (zoals ‘alle of geen van bovenstaande alternatieven zijn juist’); overlappen elkaar niet en sluiten elkaar uit; zijn allemaal plausibel; sluiten qua grammatica en inhoud aan op de vraag uit de stam; zijn qua lengte en specificiteit ongeveer gelijk; zijn qua woordgebruik, grammaticale constructie en formulering onderling vergelijkbaar ; zijn positief geformuleerd, eventuele ontkenningen zijn duidelijk gemarkeerd. staan in een logische volgorde; drie alternatieven hebben de voorkeur. Gesloten en open vragen/opdrachten Taalgebruik Het taalniveau is afgestemd op de doelgroep. De zinnen zijn grammaticaal juist met de juiste interpunctie en een correcte spelling. De zinnen zijn zo kort als mogelijk en tussenzinnen en samengestelde zinnen (hoofdzin + bijzin) zijn indien mogelijk vermeden. Eén aanspreektitel (u of je/jij) is consequent gebruikt. Niet vaak voorkomende woorden en formele taal zijn vermeden. Grappig bedoelde persoonsnamen, merk- of bedrijfsnamen zijn niet gebruikt. Afkortingen (behalve als het om relevant jargon gaat of algemeen bekende afkortingen) zijn niet gebruikt Open vragen De vraag: is vrij van racistische, etnocentrische, seksistische en voor bepaalde bevolkingsgroepen kwetsende inhoud; is duidelijk gesteld en leidt niet tot misverstanden; is niet negatief gesteld; bevat voldoende informatie om het goede antwoord te kunnen geven; geeft duidelijk aan of de kandidaat het antwoord moet motiveren; geeft, indien noodzakelijk, voldoende informatie over de gewenste lengte en vorm van het antwoord. Beoordeling vraag 2.6: Onvoldoende
Het merendeel van de vragen bevat incorrecte formuleringen.
10
Voldoende Goed
Bijna alle vragen zijn correct geformuleerd. Alle vragen zijn correct geformuleerd.
Aanwijzingen bij vraag 2.7: Hoe is de kwaliteit van de lay-out en vormgeving van de toets of het examen? Bij deze vraag gaat het om zaken die men niet bij een van de andere vragen van dit criterium kan beoordelen, zoals: Is de tekst goed leesbaar? Is het toets- of examenboekje overzichtelijk (niet teveel tekst en/of plaatjes, één lettertype)? Is duidelijk waar het antwoord gegeven moet worden? Zijn eventuele andere materialen (blokjes, apparaten, etc.) hanteerbaar en functioneel? Zijn kleuren of symbolen (indien van toepassing) goed van elkaar te onderscheiden (met name van belang voor kleurenblinden)? Is het kleurgebruik functioneel (zie vraag 2.13, vierde aandachtspunt?) Is het toets- of examenmateriaal duurzaam? Beoordeling vraag 2.7: Onvoldoende
Voldoende
Goed
Eén van de volgende punten is van toepassing: De tekst is niet goed leesbaar. Het boekje is niet overzichtelijk De andere materialen zijn moeilijk hanteerbaar en niet functioneel. De kleuren/symbolen zijn niet goed van elkaar te onderscheiden. De tekst is goed leesbaar, het boekje is overzichtelijk, de andere materialen zijn hanteerbaar en functioneel en de kleuren/symbolen zijn goed van elkaar te onderscheiden. In aanvulling op de voldoende scoring: Het kleurgebruik is functioneel en het toets-of examenmateriaal is duurzaam.
AFNAME VIA COMPUTER Aanwijzingen bij basisvraag 2.8: Zijn de vragen gestandaardiseerd? Voor computertoetsen gelden nog een aantal extra aandachtspunten naast de genoemde eisen bij basisvraag 2.1. Zo verdient de standaardisatie van de afnametijd extra aandacht omdat het van belang is dat de beschikbare tijd voor een vraag of de gehele toets niet afhankelijk is van het systeem waarop de applicatie draait. Voor de eis van standaardisatie van iteminhoud en itemvolgorde wordt een uitzondering gemaakt voor toetsen die uit een vragenbank samengesteld worden. Om dit aspect te beoordelen moeten voor dergelijke toetsen wel de beslisregels of de algoritmes voor de samenstelling van de toetsen zijn geëxpliciteerd. Hier is bijvoorbeeld sprake van bij adaptieve toetsen of on the fly gegenereerde toetsen. Beoordeling basisvraag 2.8: Onvoldoende Goed
De afnametijd, iteminhoud of itemvolgorde is niet gestandaardiseerd. De afnametijd, iteminhoud en itemvolgorde is gestandaardiseerd. Bij toetsen uit een vragenbank zijn de algoritmes of beslisregels vermeld en verantwoord.
Aanwijzingen bij basisvraag 2.9: Is er sprake van een geautomatiseerd of objectief scoringssysteem? Onder een objectief scoringssysteem wordt verstaan dat waarden die aan alle mogelijke antwoorden van personen worden toegekend bij voorbaat zodanig vastliggen, dat elke examinator (zie
11
functieprofiel examinator op www.nvexamens.nl), afgezien van administratieve fouten die bij de scoring kunnen worden gemaakt, tot dezelfde score zal komen. Onder ‘scoring’ wordt in dit geval verstaan: het toekennen van een score aan de vragen, het sommeren van de scores en het omzetten van deze somscores in beoordelingen of cijfers. Beoordeling basisvraag 2.9: Onvoldoende
Voldoende Goed
Er is geen sprake van een scoringsvoorschrift of de automatisch gegenereerde scores zijn niet meegeleverd of opvraagbaar om de juistheid te controleren. Er is een scoringsvoorschrift beschikbaar of de automatisch gegenereerde scores zijn meegeleverd. Het scoringssysteem is volledig en eenduidig, dat wil zeggen dat er een algoritme voor de scoring is meegeleverd en dat dit algoritme is verantwoord. Bij handmatige scoring is het volgende meegeleverd: de antwoordmodellen, de beoordelaarsinstructie en het scoringsvoorschrift met daarin het toekennen van een score aan de vragen, het sommeren van de scores en het omzetten van de somscores in beoordelingen of cijfers.
Aanwijzingen bij vraag 2.10: Is de software zodanig ontworpen dat fouten door onjuist gebruik kunnen worden vermeden? Het mag niet kunnen gebeuren dat toets- of examenresultaten (negatief) worden beïnvloed doordat een kandidaat de computersoftware onjuist gebruikt. Naast het aanbieden van een begrijpelijke instructie, zijn er diverse manieren om ‘fouten’ door onjuist gebruik van de computersoftware te vermijden. De instantie/organisatie die de toets of het examen afneemt moet voldoende ondernemen om de kans op fouten door onjuist gebruik te minimaliseren. Hierbij kunnen diverse voorzorgsmaatregelen belangrijk zijn: het uitschakelen van overbodige functies en sneltoetsen; het afsluiten van de toegang tot de harde schijf of externe opslag media; het onmogelijk maken om andere (niet bedoelde) software op te starten; het moeilijk maken om de computersoftware voortijdig of zonder opslaan te verlaten. Bij toetsen of examens die via Internet worden afgenomen en waarbij gebruik gemaakt wordt van een browser (Internet Explorer, Firefox, Safari, etc.) die de vragen aanbiedt en de antwoorden doorgeeft aan de server, is het veelal niet mogelijk de computer van de kandidaat op bovengenoemde punten te beïnvloeden. In dat geval dient te zijn aangegeven welke voorzorgsmaatregelen genomen moeten worden door de instantie die de toets of het examen afneemt. De vormgeving van de interface is van invloed op de kans om fouten te maken. Bij deze vraag wordt niet gevraagd om te beoordelen of de gebruikersinterface naar behoren is vormgegeven, maar de vormgeving mag wel in overweging worden genomen. Bij een computertoets– of examen, of dit nu een standalone-, een netwerk- of een internetapplicatie is, kan het overigens altijd voorkomen dat de afname van de toets of het examen wordt onderbroken door een technische oorzaak waar noch de kandidaat noch de computersoftware debet aan zijn. In een dergelijk geval moet een doorstart mogelijk zijn, waarbij de applicatie na een identificatie en een eventuele herhaling van de instructie het examen bij de juiste vraag vervolgt met, indien van toepassing, inachtneming van de nog beschikbare examentijd. Van de auditor van de toets of het examen wordt niet verwacht een uitputtende controle op bovenstaande aspecten uit te voeren. Wel dient de auditor te beoordelen of de instantie die de toets of het examen afneemt verantwoording heeft afgelegd over de getroffen voorzorgen en over de wijze waarop deze in de praktijk zijn getoetst. Voor de beoordeling van voorgaande zaken zou de auditor kunnen overwegen ‘mystery guests’ in te zetten. Beoordeling vraag 2.10:
12
Onvoldoende
Voldoende
Goed
Eén van de volgende punten is van toepassing: Bij de toets (via het Internet) zijn geen voorzorgsmaatregelen beschreven die de instantie moet uitvoeren. Er is geen doorstart mogelijk na een technische storing. De vormgeving van de interface is zeer onduidelijk, d.w.z. extreem veel navigatiemogelijkheden, nagenoeg onleesbare teksten of een niet te begrijpen indeling. De volgende punten zijn van toepassing: Bij de toets (via het Internet) zijn voorzorgsmaatregelen beschreven die de instantie moet uitvoeren. Tijdens het testen treden er geen onoverkomelijke problemen op en de software reageert zoals verwacht. Er is een doorstart mogelijk na een technische storing, waarbij de applicatie na een identificatie en een eventuele herhaling van de instructie het examen bij de juiste vraag vervolgt met inachtneming van de nog beschikbare examentijd. De vormgeving van de interface is duidelijk, d.w.z. duidelijke navigatiemogelijkheden, leesbare teksten en een te begrijpen indeling. In aanvulling op de voldoende scoring: Het is niet mogelijk om andere (niet bedoelde) software op te starten, niet-bedoelde toetsen of toets combinaties te gebruiken of de computersoftware zonder opslaan te verlaten.
Aanwijzingen bij vraag 2.11: Is de instructie voor de kandidaat volledig en duidelijk? Een duidelijke en volledige instructie is belangrijk, zodat de kandidaat geen ‘fouten’ maakt door onbekendheid met de werking van de computersoftware. De volgende aspecten dienen in de instructie te zijn opgenomen: voorbeeldvragen; de werking van de software (waaronder de wijze van antwoord geven); de te volgen strategie bij het niet-weten van het goede antwoord of bij alternatieven die even (on)aantrekkelijk of in gelijke mate van toepassing zijn; de beschikbare tijd, per vraag of per toets of examen. Beoordeling vraag 2.11: Onvoldoende
Voldoende
Goed
Er is geen instructie voor de kandidaat of de instructie is onvolledig/onduidelijk, d.w.z. er missen een aantal van de genoemde onderdelen. Er is voor de kandidaat een in gangbaar Nederlands opgestelde, gestandaardiseerde instructie. De instructie is volledig, d.w.z. alle genoemde onderdelen worden vermeld. In aanvulling op de voldoende beoordeling: De instructie kan tijdens het maken van de toets door de kandidaten worden geraadpleegd.
Aanwijzingen bij vraag 2.12: Zijn de vragen correct geformuleerd? De bij vraag 2.6 genoemde punten gelden ook voor de computertoetsen. Daarnaast is van belang op te merken dat ook voor computertoetsen of - examens geldt dat de auditor van de toets of het examen
13
alle vragen moet kunnen bekijken. Dit kan betekenen dat de instantie die de toets of het examen afneemt – alleen ten behoeve van de beoordeling – een overzicht van alle vragen dient aan te leveren. Beoordeling vraag 2.12: Onvoldoende
Voldoende Goed
Er is geen overzicht van alle vragen meegeleverd of het merendeel van de vragen bevat incorrecte formuleringen. Het merendeel van de vragen bevat correcte formuleringen. Alle vragen zijn correct geformuleerd.
Aanwijzingen bij vraag 2.13: Hoe is de kwaliteit van de gebruikersinterface? Hieronder worden aspecten genoemd waarop bij het beoordelen van de gebruikersinterface moet worden gelet. Deze aspecten moeten worden beoordeeld voor de aanbevolen standaardinstallatie en computeromgeving. Onvoldoende beoordeling van één van de genoemde aspecten kan leiden tot het oordeel ‘onvoldoende’ (score 1) op deze vraag. Is de informatie op het scherm leesbaar? De leesbaarheid wordt bevorderd indien: - niet meer dan twee lettertypes worden gebruikt; - niet meer dan drie puntgroottes worden gebruikt; - woorden niet cursief worden afgebeeld; - woorden niet worden onderstreept als er geen sprake is van een hyperlink. Is de schermindeling overzichtelijk? De overzichtelijkheid van een scherm wordt onder andere bepaald door: - het duidelijk van elkaar kunnen onderscheiden van de verschillende typen informatie (instructie, vraag, antwoordveld, etc.); - het duidelijk kunnen herkennen van de buttons en hun functie. Wordt bijvoorbeeld bij de button
de toets of het examen afgesloten of alleen de instructie? - de leesbaarheid van de vragen en de instructie zonder te scrollen; - het gemakkelijk kunnen vinden van bepaalde informatie (bijvoorbeeld instructie); - duidelijkheid van waar men zich bevindt of welke handeling men moet verrichten om te komen waar men wil. Er dient bij dit aspect te worden gecontroleerd of de bediening van de toets of het examen zo vanzelfsprekend is dat iemand met geen enkele computerervaring in staat is om de toets of het examen te maken. Is de schermvormgeving consistent? Het gaat om de volgende kenmerken van de schermomgeving: symbolen dienen steeds dezelfde functie te hebben; kleuren dienen consistent gebruikt te worden en dienen steeds dezelfde functie te hebben; informatie (vragen, instructie, antwoordveld, etc.) dient steeds op dezelfde locatie weergegeven te worden of er dient steeds op dezelfde manier onderscheid te zijn gemaakt tussen soorten informatie; er dient consistent gebruik te zijn gemaakt van lettertypes en –groottes. Is het kleurgebruik ‘prettig’ en functioneel? Van belang is dat kleur op een dusdanige manier is toegepast dat het de overzichtelijkheid en leesbaarheid van het beeldscherm bevordert. Functioneel kleurgebruik betekent dat kleuren een bepaalde betekenis hebben of dat het scherm overzichtelijker wordt, door bijvoorbeeld de vragen of het antwoordveld een afwijkende kleur te geven. Het is zeker niet wenselijk om een groot aantal kleuren te gebruiken of om kleuren zonder enige reden toe te passen. Met ‘prettig’ kleurgebruik wordt de keuze voor bepaalde kleurencombinaties of het contrast tussen kleurnuances bedoeld. Bepaalde kleurencombinaties en slecht contrasterende kleuren zijn bijvoorbeeld moeilijk te onderscheiden. Bij het gebruik van kleuren dient er tevens rekening mee te zijn gehouden dat het examen in het algemeen ook geschikt moet zijn voor kleurenblinden en dat het kleurgebruik voor deze groep geen nadelige gevolgen mag opleveren. Is het beeld- en geluidsmateriaal functioneel? Onder ‘beeldmateriaal’ wordt in dit verband al het mogelijke beeldmateriaal zoals animaties, filmfragmenten en statische afbeeldingen verstaan. Van belang is dat zowel het beeldmateriaal als de geluidsfragmenten een duidelijke functie hebben en dat ze niet zijn opgenomen om de computersoftware te ‘verfraaien’. Hierbij dient aangetekend te
14
worden dat de functionaliteit van het beeld- en geluidsmateriaal al in het geding is als het slecht leesbaar of verstaanbaar is. Beoordeling vraag 2.13: Onvoldoende Goed
De informatie op het scherm is niet goed leesbaar, onoverzichtelijk en/of niet consistent. Aan alle bovengenoemde punten wordt voldaan.
EINDOORDEEL CRITERIUM 2: TOETS- OF EXAMENMATERIAAL (SCHRIFTELIJKE TOETS/EXAMEN) Somscore basisvragen 2.1 en 2.2 = 6* Somscore 2.3 t/m 2.7 > 13 Goed** Somscore 2.3 t/m 2.7 = 13 Voldoende** Somscore basisvragen 2.1 en 2.2 = 5 Somscore 2.3 t/m 2.7 ≥ 12 Voldoende** Somscore 2.3 t/m 2.7 < 12 Onvoldoende Somscore basisvragen 2.1 en 2.2 ≤ 4 Onvoldoende * Bij basisvraag 2.2 kunnen beide subvragen van toepassing zijn; in dat geval geldt de laagste beoordeling ** Score ‘1’ voor 2.3, 2.4, 2.5, 2.6 of 2.7 niet toegestaan EINDOORDEEL CRITERIUM 2: TOETS - OF EXAMENMATERIAAL (COMPUTERTOETS/EXAMEN) Somscore basisvragen 2.8 en 2.9 = 6* Somscore 2.10 t/m 2.13 ≥ 10 Goed* Somscore 2.10 t/m 2.13 = 9 Voldoende* Somscore basisvragen 2.8 en 2.9 = 5 Somscore 2.10 t/m 2.13 ≥ 9 Voldoende* Somscore 2.10 t/m 2.13 < 9 Onvoldoende Somscore basisvragen 2.8 en 2.9 ≤ 4 Onvoldoende * Score ‘1’ voor 2.10, 2.11, 2.12 of 2.13 niet toegestaan
15
3
REPRESENTATIVITEIT
Bij dit criterium wordt de representativiteit van de toets of het examen beoordeeld. Representativiteit heeft betrekking op zowel de inhoud, de samenstelling als de moeilijkheidsgraad van de toets of het examen. De inhoud van toetsen en examens is gebaseerd op wat een kandidaat wordt onderwezen. Deze leerdoelen worden, afhankelijk van de onderwijssector, geformuleerd als kerndoelen, eindtermen, basiskwalificaties, kerntaken of competenties. Omdat deze doelen nog te algemeen zijn om er toetsen of examens op te kunnen baseren, dienen ze uitgewerkt te worden tot toetsbare leerdoelen. Indelingsschema’s of taxonomieën voor menselijk presteren, meestal aangeduid met toetsmatrijzen, vormen hierbij een nuttig hulpmiddel om de beoogde leerdoelen uit te werken tot toetsbare leerdoelen Zie hierover ook hoofdstuk 2 uit Toetsen op School, te downloaden via www.toetsenopschool.nl. Omdat de meeste toetsen en examens eerder directe metingen van menselijk gedrag zijn, dan metingen van constructen of competenties, wordt bij dit criterium prioriteit gegeven aan de inhoud van de toets of het examen. Mochten bij sommige toetsen of examens wel constructen of competenties worden gemeten en mochten hiervoor bewijzen worden aangevoerd, dan zal de auditor zijn beoordeling op die bewijzen baseren. Zie hierover ook hoofdstuk 4 van Toetsen op School, te downloaden via www.toetsenopschool.nl. Behalve dat de inhoud van de toets of het examen de leerdoelen dient te representeren, dient de moeilijkheidsgraad van de vragen of praktijkopdrachten, en dus de toets of het examen, ook afgestemd te zijn op de beoogde doelgroep. CRITERIUM 3: REPRESENTATIVITEIT 3.1 Is de toetsmatrijs, het examenprogramma, examenplan, competentieprofiel of de operationalisatie van het construct een adequate representatie van het meetdoel? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 4. 3.2 Is de moeilijkheidsgraad van de vragen of de praktijkopdrachten afgestemd op de beoogde doelgroep?
O
V
G
1
2
3
1
2
3
Aanwijzingen bij basisvraag 3.1: Is de toetsmatrijs, het examenprogramma, examenplan, competentieprofiel of de operationalisatie een adequate representatie van het meetdoel? Voor de centrale examens in het voortgezet onderwijs en middelbaar beroepsonderwijs draagt de minister van Onderwijs, Cultuur en Wetenschap de eindverantwoordelijkheid en stelt per vak de examenprogramma's vast. Daarin staat wat in het centraal examen en in het schoolexamen getoetst moet worden. De stof voor de examens is door het College voor Toetsen en Examens (www.hetcvte.nl) vastgelegd in syllabi. Cito ontvangt van het College voor Toetsen en Examens voor elk vak een constructieopdracht (examenmodel), waarin voor elk examen het volgende wordt vermeld: de lengte van het examen, de onderwerpen, het aantal vragen, de soort vragen (bijvoorbeeld gesloten of open vragen en de toegestane hulpmiddelen. Voor onderwijsinstellingen in het middelbaar beroepsonderwijs zijn kwalificatiedossiers opgesteld die goedgekeurd moeten worden door vertegenwoordigers van het onderwijs en het bedrijfsleven. Een kwalificatiedossier beschrijft het volgende voor een beroep of beroepsgroep: de inhoud van het beroep, de benodigde competenties voor een beginnende beroepsbeoefenaar en de benodigde kennis en vaardigheden voor een beginnende beroepsbeoefenaars. De kwalificatiedossiers geven de onderwijsinstellingen niet alleen informatie over wat zij moeten onderwijzen maar ook over wat zij moeten examineren. Het laatste wordt geoperationaliseerd in examenplannen met kerntaken, werkprocessen en competenties. Volgens de ‘Regeling standaarden examenkwaliteit mbo 2012’ geldt voor opleidingen gericht op de beroepsgerichte kwalificatiestructuur dat meer dan driekwart van de werkprocessen per kerntaak wordt geëxamineerd. Dit is voor eindtermgerichte opleidingen meer dan driekwart van de eindtermen per deelkwalificatie. Bij praktijkexamens moet de auditor bij de beoordeling van deze vraag uitdrukkelijk de authenticiteit van de praktijkexamens bij de beoordeling betrekken. Authenticiteit houdt in dat de werkomstandigheden en de sociale context van het praktijkexamen zo veel mogelijk lijken op die in
16
het toekomstig beroep en dat onderdelen van het praktijkexamen in de beroepspraktijk plaatsvinden. Voor een toelichting van authenticiteit wordt verwezen naar de publicatie ‘Kwaliteit van beoordeling in de praktijk’ die men kan downloaden via www.rcec.nl. Bij de beoordeling van deze vraag spelen onder andere de volgende zaken een rol: Representeren de eind- en toetstermen het meetdoel? Sluiten de eind - en toetstermen aan op de inhoud en het vereiste beheersingsniveau (i.c. kennen, kunnen, toepassen, begrijpen e.d.) van het betreffende meetdoel? Om het beheersingsniveau aan te geven kan het gebruik van een taxonomie (bijvoorbeeld van Bloom of Romiszowsky) goede diensten bewijzen. Van belang is dat het werkwoordgebruik in de eind - en toetstermen eenduidig is en goed aansluit bij de taxonomie. Bevat de toetsmatrijs de volgende specificaties? o het aantal vragen of opdrachten met bijbehorende scorepunten; o toetsvorm en/of het soort vragen (bijvoorbeeld gesloten en/of open vragen of praktijkopdrachten in gesimuleerde context of de beroepspraktijk); o toegestane hulpmiddelen; o toetsduur. Geeft het aantal vragen en/of opdrachten een voldoende dekking van het meetdoel? Zijn de praktijkexamens voldoende authentiek? Beoordeling basisvraag 3.1: Onvoldoende
Voldoende
Goed
Eén van de volgende punten is van toepassing: Er is geen toetsmatrijs, examenprogramma, examenplan, competentieprofiel of een operationalisatie van het construct De toetsmatrijs, het examenprogramma, examenplan, competentieprofiel of de operationalisatie van het construct is geen adequate representatie van het meetdoel. De toetsmatrijs, het examenprogramma, examenplan, het competentieprofiel of de operationalisatie van het construct is een adequate representatie van het meetdoel. De toetsmatrijs, het examenprogramma, examenplan, het competentieprofiel of de operationalisatie van het construct is een adequate representatie van het meetdoel. Er is bovendien een gedetailleerde beschrijving beschikbaar van de relatie tussen het meetdoel en de toetsmatrijs, het examenprogramma, examenplan, het competentieprofiel of de operationalisatie van het construct.
Aanwijzingen bij basisvraag 3.2: Is de moeilijkheidsgraad van de vragen of praktijkopdrachten afgestemd op de doelgroep? Met een kwalitatieve of kwantitatieve evaluatie kan men nagaan of de vragen of praktijkopdrachten afgestemd zijn op de doelgroep. Indien men de vragen of praktijkopdrachten kan pretesten, dan kan informatie over de moeilijkheidsgraad verkregen worden met een kwantitatieve evaluatie. Indien de vragen of praktijkopdrachten uit de toets juist zijn afgestemd op de doelgroep, dan zal het merendeel (≥ 90%) van de vragen of praktijkopdrachten niet te moeilijk (p-waarde < 0,20) of te makkelijk (p-waarde > 0,80) zijn. Als men voor de samenstelling van toetsen gebruik maakt van een vragenbank moet men er rekening mee houden dat de moeilijkheidsgraad in de loop van de tijd kan veranderen. Onderhoud is dus altijd nodig.
17
Indien men niet kan pretesten, kan men een kwalitatieve evaluatie uitvoeren. Dan worden voorafgaand aan de afname van de toets de vragen of praktijkopdrachten door deskundigen beoordeeld. Hierbij wordt aan een groot aantal inhoudelijk deskundigen gevraagd wat zij verwachten van de scores die honderd zesjeskandidaten op de betreffende vragen of praktijkopdrachten zullen krijgen. Indien uit de oordelen van de deskundigen blijkt dat te veel vragen of opdrachten van de bedoelde toets te moeilijk en/of te makkelijk zijn, kan men de vragen of praktijkopdrachten vervangen of eventueel aanpassen. Onvoldoende Voldoende Goed
Meer dan 20% van het aantal vragen of opdrachten is te makkelijk en/of te moeilijk. Meer dan 10%, maar minder dan 20% van het aantal vragen of opdrachten is te makkelijk en/of te moeilijk. Minder dan 10% van het aantal vragen of praktijkopdrachten is te makkelijk en/of te moeilijk, d.w.z. dat minimaal 90% de juiste moeilijkheid heeft.
EINDOORDEEL CRITERIUM 3: REPRESENTATIVITEIT Somscore basisvragen 3.1 en 3.2 = 6 Somscore basisvragen 3.1 en 3.2 = 4 of 5 Somscore basisvragen 3.1 en 3.2 < 4
Goed Voldoende Onvoldoende
18
4
BETROUWBAARHEID
Bij dit criterium wordt de betrouwbaarheid van (de scores van) een toets of examen beoordeeld. Bij betrouwbaarheid gaat het om de vraag of we vertrouwen kunnen hebben in de scores die kandidaten op een toets of examen behalen. De betrouwbaarheid is te kwantificeren met een betrouwbaarheidscoëfficiënt, het percentage misclassificaties en de standaardmeetfout. De betrouwbaarheidscoëfficiënt heeft een ondergrens van 0,0 en een bovengrens van 1,0. Een hoge betrouwbaarheidscoëfficiënt geeft aan dat we vertrouwen hebben in de betrouwbaarheid van het examen. We mogen dan verwachten dat indien de kandidaten twee keer hetzelfde examen zouden maken, een vergelijkbare score zouden behalen. Onder misclassificaties verstaan we het aantal kandidaten dat als gevolg van de onbetrouwbaarheid van de toets of het examen ten onrechte gezakt en ten onrechte geslaagd is. Bij een hoge betrouwbaarheid is het aantal misclassificaties gering. Met de standaardmeetfout kunnen we de vraag naar de betrouwbaarheid van de scores van individuele kandidaten beantwoorden, oftewel welke andere score had een kandidaat ook op de toets of het examen kunnen behalen. Bij een hoge betrouwbaarheid ligt de score van het eerste examen erg dicht bij de score op het tweede examen. Voor meer informatie over hoe de betrouwbaarheid van een examen berekend en geïnterpreteerd moet worden, zie hoofdstuk 3 van Toetsen op School, www.toetsenopschool.nl. CRITERIUM 4: BETROUWBAARHEID 4.1 Zijn of worden betrouwbaarheidsgegevens verstrekt? Bij onvoldoende beoordeling van deze vraag kan men doorgaan naar criterium 5. 4.2 Zijn of worden de betrouwbaarheidsgegevens correct berekend? 4.3 Zijn de betrouwbaarheidsgegevens voldoende gezien de beslissingen die met de toets of het examen genomen worden?
O
V
G
1
2
3
1
2
3
1
2
3
Aanwijzingen bij basisvraag 4.1: Zijn of worden betrouwbaarheidgegevens verstrekt? Er kan hierbij gedacht worden aan de volgende soorten betrouwbaarheidsgegevens: Betrouwbaarheidscoëfficiënten zoals coëfficiënt alfa, Guttman’s lambda2 en de GLB (greatest lower bound = grootste ondergrens). Generaliseerbaarheidscoëfficiënten. Informatiefuncties. Standaardmeetfouten. Misclassificaties. In bovenstaande opsomming ontbreekt de beoordelaarsbetrouwbaarheid (i.c. mate van consistentie van beoordelaars) en beoordelaarsovereenstemming (i.c. mate van overeenkomst tussen beoordelaars). Hoewel een hoge beoordelaarsbetrouwbaarheid en beoordelaarsovereenstemming wel noodzakelijke voorwaarden zijn voor een hoge betrouwbaarheid, zijn ze geen substituut voor de betrouwbaarheid van een toets. Bij toetsen waarbij een objectief scoringssysteem ontbreekt, dienen bij voorkeur twee of meer beoordelaars ingezet te worden. Indien de beoordelaarsovereenstemming zeer hoog is, zou in geval van veel vragen of opdrachten, volstaan kunnen worden met één beoordelaar. Beoordelaarsbetrouwbaarheid en beoordelaarsovereenstemming zijn overigens alleen relevant als er geen objectief scoringssysteem is (zie ook 2.2). Bij praktijktoetsen die van beoordelaars holistische oordelen verlangen, is het niet mogelijk om voornoemde betrouwbaarheidsgegevens te genereren. Bij dit soort toetsen of examens kan volstaan worden met het verstrekken van de beoordelaarsbetrouwbaarheid en beoordelaarsovereenstemming plus de gemiddelde scores en standaardafwijkingen van de beoordelaars. Idealiter zijn de betrouwbaarheidsgegevens voor afname van de toets bekend. Hoewel het niet de gewenste situatie is, worden de betrouwbaarheidsgegevens bij examens vaak na afname van het examen berekend. Dit betekent niet dat we voor de afname van het examen niets over dat examen zouden weten. Verwacht mag worden dat (praktijk)examens die elk jaar één of meerdere keren worden afgenomen qua inhoud en moeilijkheidsgraad vergelijkbaar zullen zijn. Ook mag verwacht
19
worden dat de capaciteiten van de kandidaten die aan de verschillende examens deelnemen niet wezenlijk zullen verschillen. Dit betekent dat verwacht mag worden dat ook de betrouwbaarheidsgegevens van de verschillende examens niet veel zullen verschillen. Indien we dus de betrouwbaarheidsgegevens van het ‘eerste’ examen berekend hebben, mag verwacht worden dat de betrouwbaarheidsgegevens van het volgende examen vergelijkbaar zullen zijn. Dat we hiervoor vaak het werkwoord ‘verwacht’ gebruiken, is om aan te geven dat het om verwachtingen gaat en dat altijd nog zal moeten blijken of de verwachtingen ook daadwerkelijk uitkomen. Beoordeling basisvraag 4.1: Onvoldoende Voldoende
Goed
Er zijn geen betrouwbaarheidsgegevens voor of na het examen verstrekt. De betrouwbaarheidsgegevens worden niet altijd, maar wel ter controle op gezette tijden berekend. Er is een verwachte betrouwbaarheid gegeven op basis van voorgaande jaren en deze verwachting is beargumenteerd. De betrouwbaarheidsgegevens zijn voor of na het examen verstrekt.
Aanwijzingen bij vraag 4.2: Zijn of worden de betrouwbaarheidsgegevens correct berekend? Behalve de aanwezigheid van betrouwbaarheidsgegevens is het ook van belang dat de procedures voor het berekenen van de betrouwbaarheid correct zijn uitgevoerd. Hierbij moet gedacht worden aan berekeningen op basis van minimaal 200 kandidaten (Feldt, 1965) en het correcte gebruik van de juiste psychometrische modellen. Zo wordt bij toetsen met open vragen of (praktijk)opdrachten vaak geen rekening gehouden met eventuele verschillen tussen beoordelaars waardoor de berekende betrouwbaarheid een overschatting is. In het laatste geval zou een juiste schatting van de betrouwbaarheid verkregen kunnen worden door het uitvoeren van een generaliseerbaarheidsstudie (zie Psychometrie in de Praktijk, H3). Is dat niet mogelijk dan kan een onderzoek naar de betrouwbaarheid of overeenstemming tussen beoordelaars een indicatie geven van hoe groot die overschatting is. Beoordeling vraag 4.2: Onvoldoende
Voldoende
Goed
De betrouwbaarheidsgegevens zijn niet correct berekend en/of er zijn minder dan 200 kandidaten voor de berekening gebruikt. Er zijn minimaal 200 kandidaten voor de berekening gebruikt en de berekening is correct uitgevoerd. Er is geen generaliseerbaarheidsstudie gedaan m.b.t. mogelijke overschatting. Er zijn minimaal 200 kandidaten voor de berekening gebruikt, de berekening is correct uitgevoerd en de resultaten van een generaliseerbaarheidsstudie geven de juiste schatting.
Aanwijzingen bij vraag 4.3: Zijn de betrouwbaarheidsgegevens voldoende gezien de beslissingen die met de toets of het examen genomen worden? Over de gewenste hoogte van een betrouwbaarheidscoëfficiënt of vergelijkbare maten zoals genoemd bij vraag 4.1 kan geen algemene uitspraak worden gedaan. Voor examens waarmee belangrijke beslissingen over kandidaten genomen worden, heeft de COTAN de regels opgesteld zoals in het onderstaand schema zijn opgenomen. Aangeraden wordt om naast de betrouwbaarheidscoëfficiënt ook het aantal misclassificaties bij het oordeel te betrekken. Voor meer informatie hierover zie hoofdstuk 3 van Toetsen op School, te downloaden via www.toetsenopschool.nl. Beoordeling vraag 4.3:
20
Onvoldoende Voldoende Goed
De betrouwbaarheid is ≤0,80 De betrouwbaarheid is ≥ 0,80 en ≤0,90 De betrouwbaarheid is ≥ 0,90
EINDOORDEEL CRITERIUM 4: BETROUWBAARHEID Basisvraag 4.1 = 3 Somscore 4.2 en 4.3 = 6 Somscore 4.2 en 4.3 ≥ 4 Somscore 4.2 en 4.3 < 4 Basisvraag 4.1 = 2 Somscore 4.2 en 4.3 ≥ 4 Somscore 4.2 en 4.3 < 4 Basisvraag 4.1 = 1
Goed Voldoende* Onvoldoende Voldoende* Onvoldoende Onvoldoende
* Score ‘1’ voor 4.2 en 4.3 niet toegestaan
21
5
STANDAARDBEPALING EN NORMHANDHAVING
Bij dit criterium wordt beoordeeld hoe de norm (of standaard) van de toets is bepaald en gehandhaafd. Standaardbepaling is het bepalen van de regels om toetsprestaties in cijfers of waarderingen om te zetten. Een belangrijk onderdeel hierbij is het vaststellen van de cesuur, zoals de grens tussen ‘geslaagd of voldoende’ en ‘gezakt of onvoldoende’. Er is onderscheid te maken tussen absoluut en relatief normeren. Kenmerkend voor absoluut normeren is dat de norm voor afname van de toets wordt bepaald. De absolute norm is gebaseerd op een minimaal acceptabel beheersingsniveau. Bij relatief normeren wordt de norm na afname van de toets bepaald. De relatieve norm is gebaseerd op een onderlinge vergelijking van de toetsprestaties van de kandidaten. Methoden voor standaardbepaling kunnen onderscheiden worden in methoden die gebaseerd zijn op de beoordeling van vragen/opgaven/opdrachten van een toets of examen, bijvoorbeeld de methode van Angoff, en methoden die gebaseerd zijn op de beoordeling van kandidaten die een examen maken, bijvoorbeeld de methode van contrasterende groepen. Voor meer informatie zie hoofdstuk 9 van Toetsen op School, www.toetsenopschool.nl. Naast standaardbepaling gaat het ook om het handhaven van eenmaal bepaalde standaarden. De methoden om standaarden/normen te handhaven worden meestal met normhandhaving aangeduid. Voor informatie over normhandhaving zie de toetsspecial over de normering centrale examens voortgezet onderwijs op www.toetswijzer.nl. CRITERIUM 5: STANDAARDBEPALING EN NORMHANDHAVING 5.1 Worden normen/standaarden/cesuren/verstrekt? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 6. TOETS OF EXAMEN MET ABSOLUTE NORMEN Is de standaardbepaling correct bepaald? a. Is de standaardbepalingsmethode op de juiste wijze uitgevoerd? b. Zijn de beoordelaars/vakdeskundigen/experts naar behoren geselecteerd en getraind? c. Is er voldoende overeenstemming tussen de beoordelaars? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 6. TOETS OF EXAMEN MET RELATIEVE NORMEN 5.3 Wat is de kwaliteit van de verstrekte normen? a. Zijn de normgroepen groot genoeg? b. Zijn de normgroepen representatief? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan en doorgaan met criterium 6. 5.4 Worden de betekenis en de beperkingen van de normschaal duidelijk gemaakt voor de gebruiker en is het type normschaal in overeenstemming met het doel van de toets/examen? 5.5 Worden er gegevens verstrekt over: a. gemiddelden, standaardafwijkingen van de scoreverdeling b. de nauwkeurigheid van de meting en de daarbij behorende intervallen (standaardmeetfout, standaardschattingsfout, testinformatiefunctie/standaardfout)?
O
V
1
G 3
5.2
1
2
3
1
2
3
1
2
3
1 1
2 2
3 3
1
2
3
1 1
3 3
22
VOOR ABSOLUTE EN RELATIEVE NORMEN 5.6 Worden normen/standaarden/cesuren gehandhaafd? Bij onvoldoende beoordeling (1) van deze vraag kan men doorgaan met criterium 6. 5.6a Is de methode op grond waarvan de norm(en) is (zijn) gehandhaafd correct?
1
1
3
2
3
Aanwijzingen bij basisvraag 5.1: Worden normen/standaarden/cesuren verstrekt? Beoordeling basisvraag 5.1: Onvoldoende
Er zijn geen normen/standaarden/cesuren verstrekt
Goed
Er zijn normen/standaarden/cesuren verstrekt
TOETS OF EXAMEN MET ABSOLUTE NORMEN Aanwijzingen bij basisvraag 5.2a: Is de standaardbepalingsmethode op de juiste wijze uitgevoerd? Er zijn verschillende standaardbepalingsmethoden om te komen tot een absolute norm. Een veelgebruikte methode is de methode van Angoff. Kern van deze methode is dat door een panel van experts ingeschat wordt wat de kandidaten, die net voldoende kennis of vaardigheden bezitten om een voldoende score te halen, zullen scoren op de verschillende vragen of opdrachten. Een andere methode is die waarbij vooraf geen bepaalde score als cesuur wordt aangemerkt maar een bandbreedte van scores wordt vastgesteld. Na afname van een toets of examen wordt een cesuur gekozen. Alle standaardbepalingsmethoden hebben voor- en nadelen die onder andere te maken hebben met het soort vragen of praktijkopdrachten dat beoordeeld moet worden, de uitvoerbaarheid van de methoden of de beschikbaarheid van vakdeskundigen. Hoewel voornoemde methodes voor de meeste toetsen of examens adequate standaardbepalingsmethodes blijken, kunnen in voorkomende gevallen ook andere methoden die in de literatuur beschreven worden geschikt zijn. Beoordeling basisvraag 5.2a: Onvoldoende
Voldoende
Goed
De standaardbepalingsmethode en/of de uitvoering van de methode laat ernstig te wensen over, bijvoorbeeld door de veelgebruikte methode om 5560% van de maximale score (eventueel bijgesteld voor de gokkans) als cesuur te nemen. Uit bijgevoegde documentatie blijkt dat de kwaliteit van de gekozen standaardbepalingsmethode niet hoog maar wel acceptabel is en dat de methode goed is uitgevoerd. Uit de documenten blijkt dat de kwaliteit van de gekozen standaardbepalingsmethode hoog is en dat de methode goed is uitgevoerd.
Aanwijzingen bij basisvraag 5.2b: Zijn de beoordelaars/vakdeskundigen/experts naar behoren geselecteerd en getraind? Als (externe) deskundigen of experts als beoordelaars worden ingezet voor het bepalen van de standaard dienen ze aan een aantal eisen te voldoen. Zo dienen ze ten minste kennis te hebben van het vakgebied (of beroep) en de eisen waaraan kandidaten moeten voldoen. Verder is het noodzakelijk dat ze getraind zijn in het uitvoeren van de standaardbepalingsmethode en het beoordelen van vragen of opdrachten. Om de auditor van een toets of examen in staat te stellen om te kunnen beoordelen of men de vakdeskundigen zorgvuldig gekozen heeft, is een beschrijving van de selectieprocedure en de aangeboden trainingen aan de vakdeskundigen noodzakelijk. Ook informatie over hoe accuraat de beoordelingen van de vakdeskundigen zijn is belangrijk, dat wil zeggen de mate waarin zij afwijken
23
van de empirisch vastgestelde moeilijkheidsgraad van vragen of praktijkopdrachten. Voor examens die in het middelbaar beroepsonderwijs en het hoger onderwijs afgenomen worden, dienen beoordelaars afkomstig uit het beroepenveld betrokken te worden bij het bepalen van de standaard of standaarden. De vragen of opdrachten dienen door een voldoende aantal beoordelaars beoordeeld te worden. Het RCEC beveelt aan om minstens 4 beoordelaars in te zetten, maar in voorkomende gevallen zijn meer beoordelaars gewenst. Beoordeling basisvraag 5.2b: Onvoldoende
Voldoende
Goed
Eén van de volgende punten is van toepassing: Er is geen beschrijving van de selectieprocedure en de aangeboden trainingen Er zijn onvoldoende beoordelaars geselecteerd (<4) De selectie is niet duidelijk en er heeft geen training plaatsgevonden. Er zijn voldoende beoordelaars geselecteerd (≥4) en de beoordelaars hebben een gedocumenteerde training gevolgd, maar de selectieprocedure is niet geheel duidelijk beschreven. Uit de documenten blijkt dat er een voldoende en representatieve selectie van beoordelaars heeft plaatsgevonden en dat de beoordelaars een gedocumenteerde training hebben gevolgd.
Aanwijzingen bij basisvraag 5.2c: Is er voldoende overeenstemming tussen de beoordelaars? Alleen op basis van een hoge beoordelaarsovereenstemming tussen de beoordelaars die meedoen aan de standaardbepaling kan de verkregen norm worden gelegitimeerd. Bij het beoordelen van deze vraag dient erop gelet te worden of de beoordelaarsovereenstemming en niet de beoordelaarsbetrouwbaarheid is vermeld. Beoordelaarsovereenstemming heeft betrekking op identieke oordelen van verschillende beoordelaars terwijl de beoordelaarsbetrouwbaarheid betrekking heeft op relatief identieke oordelen van verschillende beoordelaars waarbij het absolute niveau van de beoordelingen dus niet gelijk hoeft te zijn. De beoordelaarsovereenstemmingscoëfficiënt heeft een ondergrens van 0,0 en een bovengrens van 1,0. Beoordeling basisvraag 5.2c: Onvoldoende
Voldoende Goed
Er zijn geen normen/standaarden/cesuren verstrekt of de beoordelaarsovereenstemmingscoëfficiënt is ≤ 0,60 De beoordelaarsovereenstemmingscoëfficiënt is ≥ 0,60 en ≤0,80 De beoordelaarsovereenstemmingscoëfficiënt is ≥ 0,80
TOETS OF EXAMEN MET RELATIEVE NORMEN Aanwijzingen bij basisvraag 5.3: Wat is de kwaliteit van de verstrekte normgroepen? Voor elk genoemd gebruiksdoel (zie vraag 1.3) moeten in principe normen worden verstrekt. Wil een normgroep goed aan zijn doel kunnen beantwoorden (namelijk het vormen van een betrouwbare reeks van referentiepunten), dan moet de normgroep én van voldoende omvang te zijn én representatief zijn voor de bedoelde groep. Voor de beoordeling van beide aspecten worden hieronder aanwijzingen gegeven. Aanwijzingen bij basisvraag 5.3a: Zijn de normgroepen groot genoeg? Normgroepen moeten minimaal uit een steekproef van 300 personen bestaan. Dit aantal geldt per normgroep waarvoor wordt genormeerd. Bij toetsen die voor verschillende leeftijdsgroepen worden
24
genormeerd, kan dit verwarring geven. Als de normering afzonderlijk per leerjaar, schooltype of leeftijdsgroep wordt uitgevoerd, dan is de steekproefgrootte van elke subgroep afzonderlijk van belang. Als echter continue normering of fit-procedures worden toegepast, waarbij gelijktijdig van de informatie van alle leeftijdsgroepen gebruik wordt gemaakt, kan de grootte per leeftijdsgroep kleiner zijn, omdat deze procedure efficiëntere schatters oplevert dan klassieke normering. Voor meer informatie over continue normering zie het COTAN beoordelingssysteem, p. 22-23. Beoordeling basisvraag 5.3a: Onvoldoende Voldoende Goed
Grootte van de normgroep < 300 personen. Grootte van de normgroep 300 ≤ personen ≤ 400. Grootte van normgroep > 400 personen.
Aanwijzingen bij vraag 5.3b: Zijn de normgroepen representatief? Representatieve normgroepen bevatten een aantal kenmerken die overeenkomen met de kenmerken van de populatie waar de toets of het examen voor is bedoeld. De normgroep wordt verkregen met behulp van een aselect steekproefmodel. Dit betekent dat elk individu een even grote kans heeft om in de steekproef te worden opgenomen. Beoordeling vraag 5.3b: Onvoldoende
Voldoende
Goed
Een beschrijving van de samenstelling van de normgroep met betrekking tot de variabelen leeftijd, opleiding, sekse, etniciteit en regio ontbreekt. Een beschrijving van de samenstelling van de normgroep met betrekking tot in ieder geval de variabelen leeftijd, opleiding, sekse, etniciteit en regio is beschikbaar, maar er is gebruikgemaakt van ‘regionale normen’ of ‘samples of convenience’ (gelegenheidssteekproeven). Een beschrijving van de samenstelling van de normgroep met betrekking tot in ieder geval de variabelen leeftijd, opleiding, sekse, etniciteit en regio is beschikbaar en er is gebruikgemaakt van een aselect steekproefmodel.
Aanwijzingen bij vraag 5.4: Worden de betekenis en de beperkingen van de normschaal duidelijk gemaakt voor de gebruiker en is het type normschaal in overeenstemming met het doel van de toets? Bij de omzetting van ruwe scores in afgeleide scores kan er een keuze worden gemaakt uit drie typen normen (Drenth & Sijtsma, 2006): verhoudingsnormen (DLE), normen gebaseerd op rangorde (bijv. het A t/m E systeem van Cito) en normen gebaseerd op gemiddelde en spreiding (bijvoorbeeld Cscores). Het is van belang dat de keuze voor de normschaal overeenkomt met het doel van de toets. Als een toets alleen is bedoeld voor gebruik in een bepaalde periode van het leerjaar (zoals geldt voor sommige Cito-toetsen), dan moet dit duidelijk worden aangegeven en moeten de normgegevens in de overeenkomstige periode zijn verzameld. Beoordeling vraag 5.4: Onvoldoende
Voldoende
Er is geen beschrijving van de betekenis en beperkingen van de normschaal of het type normschaal is niet in overeenstemming met het doel dan de toets. Toetsen die alleen in termen van DLE’s rapporteren, krijgen een onvoldoende beoordeling. Er is geen beschrijving van de betekenis en beperkingen van de normschaal, maar het type normschaal is wel in overeenstemming met het doel van de toets.
25
Goed
Er is een heldere beschrijving van de betekenis en beperkingen van de normschaal en het type normschaal is in overeenstemming met het doel van de toets.
Aanwijzingen bij vraag 5.5a: Worden er gegevens verstrekt over gemiddelden, standaardafwijkingen en de scoreverdeling? In de rapportage moeten voor elke normgroep gemiddelden, standaardafwijkingen en gegevens over de scoreverdeling worden vermeld. Van de verdeling zijn bijvoorbeeld scheefheid, kurtosis, eventueel bimodaliteit relevant, evenals het gegeven of een aantal van deze kenmerken verschillen per normgroep. Beoordeling vraag 5.5a: Onvoldoende Goed
Er worden geen gemiddelden, standaardafwijkingen en gegevens over de scoreverdeling vermeld. Er worden wel gemiddelden, standaardafwijkingen en gegevens over de scoreverdeling vermeld.
Aanwijzingen bij vraag 5.5b: Worden er gegevens verstrekt over de nauwkeurigheid van de meting en de daarbij behorende intervallen (standaardmeetfout, standaardschattingsfout, testinformatiefunctie/standaardfout)? Voor de interpretatie van toetsscores is informatie over de nauwkeurigheid van de meting en de daarbij horende betrouwbaarheidsintervallen van belang. Maten die informatie verschaffen over de nauwkeurigheid van de meting zijn de standaardmeetfout, de standaardschattingsfout en (wanneer het toetsen geconstrueerd volgens een itemresponsmodel betreft) en de testinformatiefunctie/standaardfout (Drenth & Sijtsma, 2006; Eggen & Sanders,1993). Beoordeling vraag 5.5b: Onvoldoende
Goed
Er worden geen gegevens verstrekt over de nauwkeurigheid van de meting en de daarbij behorende betrouwbaarheidsintervallen Er wordt minimaal één van de volgende gegevens verstrekt: - Standaardmeetfout - Standaardschattingsfout - Testinformatiefunctie/standaardfout Bovendien is er een afdoende uitleg voor de toetsgebruiker over het gebruik van betrouwbaarheidsintervallen.
Aanwijzingen bij basisvraag 5.6: Worden normen/standaarden/cesuren gehandhaafd? Beoordeling basisvraag 5.6: Onvoldoende Goed
Er zijn geen normen/standaarden/cesuren gehandhaafd Er zijn normen/standaarden/cesuren gehandhaafd
Aanwijzingen bij vraag 5.6a: Is de methode op grond waarvan de norm(en) gehandhaafd is (zijn) correct? Idealiter worden aan kandidaten die een toets of examen doen dezelfde eisen gesteld. Dat betekent dat toetsen of examens inhoudelijk gelijkwaardig moeten zijn door de jaren heen en ook dat de ene toets of examen niet moeilijker of gemakkelijker mag zijn dan het andere. Met andere woorden, een bepaald beheersingsniveau moet bij verschillende toetsen of examens tot dezelfde uitslag leiden. Door bijvoorbeeld bij de centrale examens voortgezet onderwijs uit te gaan van hetzelfde examenprogramma of examenplan wordt bewerkstelligd dat de verschillende examens door de jaren heen inhoudelijk zoveel mogelijk gelijkwaardig zijn. Voor studietoetsen die voor een aantal jaren
26
geconstrueerd worden, zoals bij toetsen van leerlingvolgsystemen, kunnen de normen echter om verschillende redenen aan slijtage onderhevig zijn. Daarom moet er van tijd tot tijd hernormering van de toets plaatsvinden, of moet er onderbouwd worden dat hernormering van de toets niet nodig is. Gezien de veranderingen in het onderwijs lijkt het wenselijk om de normen voor studietoetsen binnen tien jaar opnieuw te bepalen. Dat de verschillende toetsen of examens inhoudelijk zoveel mogelijk gelijkwaardig zijn, heeft echter niet automatisch tot gevolg heeft dat de examens ook even moeilijk zijn. Het blijkt op voorhand erg lastig te zijn om precies in te schatten hoe moeilijk de vragen zijn en hoe moeilijk het examen dus is. Er zijn wel verschillende methoden om toetsen te corrigeren voor verschillen in moeilijkheidsgraad maar die zijn in de praktijk vaak moeilijk uitvoerbaar omdat vragen of opdrachten geheim gehouden moeten worden (zie ook Psychometrie in de Praktijk, H8). Als de toetsen of examens worden samengesteld uit vragenbanken waarvan de statistische eigenschappen zoals de moeilijkheidsgraad bekend zijn, is er aanzienlijk meer mogelijkheid om toetsen of examens van gelijke moeilijkheidsgraad samen te stellen. Aan vragenbanken dienen dan wel bepaalde eisen gesteld te worden zoals de omvang, de mate van gebruik en de geheimhouding van de vragenbank. Wat betreft de omvang is een vuistregel dat de vragenbank uit minstens 10 keer het aantal vragen van één toets of examen dient te bestaan wat bij een toets of examen van 60 vragen neerkomt op een vragenbank van minstens 600 vragen. Indien vragen random uit een vragenbank worden getrokken en er bij de trekking wordt geen rekening gehouden met de moeilijkheidsgraad van de vragen, dan zullen er altijd kandidaten zijn die te makkelijke of te moeilijke toetsen voorgelegd krijgen. Een voorbeeld van normhandhaving op grote schaal betreft de centrale examens van het voortgezet onderwijs. Ook bij de centrale examens dient normhandhaving er zorg voor te dragen dat in opeenvolgende jaren aan kandidaten bij eenzelfde examenvak in hetzelfde schooltype dezelfde eisen worden gesteld. Bij het cijfer 5,5 in het ene jaar hoort dezelfde prestatie van een kandidaat als bij een 5,5 in een ander jaar. Omdat het gegeven de randvoorwaarden waaronder examens geconstrueerd moeten worden, niet mogelijk is gebleken de centrale examens van jaar op jaar precies even moeilijk te maken, heeft men de normeringsterm of Nterm geïntroduceerd. De normeringsterm wordt in de volgende formule voor de omzetting van scores in cijfers bij de centrale examens voortgezet onderwijs gebruikt: C = (9/L)S + N. In deze formule staat C voor cijfer, L (L = lengte van de toets) voor de maximumscore, S voor de score behaald op het examen en N voor de normeringsterm. De normeringsterm is een getal dat meestal tussen 0 en +2 ligt en dat door het College voor Toetsen en Examens (CVE) vastgesteld wordt om te corrigeren voor een te makkelijk of te moeilijk examen (zie ook de toetsspecial over de normering centrale examens voortgezet onderwijs op www.toetswijzer.nl). De normeringsterm is gelijk aan 1,0 als het examen van de juiste moeilijkheid beschouwd wordt. Indien de normeringsterm ongelijk aan 1,0 is, dan zijn de begrenzingen zodanig dat een score van 0,0 gelijk is aan het cijfer 1,0 en de maximaal te behalen score gelijk is aan het cijfer 10,0. Het bij de centrale examens toekennen van cijfers van 1,0 tot en met 10,0 betekent dat hier sprake is van meerdere standaarden of cesuren. Behalve de keuze van de cesuur voor de zak/slaag beslissing is de keuze van de andere standaarden niet altijd vakinhoudelijk onderbouwd. Voor meer informatie over hoe aan scores cijfers toegekend worden zie hoofdstuk 9 van Toetsen op School dat te downloaden is via www.toetsenopschool.nl. Beoordeling vraag 5.6a: Onvoldoende
Voldoende
Goed
Eén van de volgende punten is van toepassing: De gekozen normhandhavingsmethode en/of de uitvoering van de methode laat ernstig te wensen over. Bij studietoetsen is het jaar (of de periode) van gegevensverzameling niet vermeld of de normen zijn ouder dan 10 jaar. Uit bijgevoegde documentatie blijkt dat de kwaliteit van de gekozen normhandhavingsmethode niet hoog maar wel acceptabel is en dat de methode goed is uitgevoerd. Eén van de volgende punten is van toepassing:
27
Uit de documenten blijkt dat de kwaliteit van de gekozen normhandhavingsmethode hoog is en dat de methode goed is uitgevoerd. Bij studietoetsen zijn de normen niet ouder dan 10 jaar.
EINDOORDEEL CRITERIUM 5: STANDAARDBEPALING EN NORMHANDHAVING (ABSOLUTE NORMERING) Somscore basisvragen 5.1, 5,2a, b, c en 5.3 = Vraag 5.3.a = 3 15 Vraag 5.3.a = 2 Vraag 5.3.a = 1 Somscore basisvragen 5.1, 5,2a, b, c en 5.3 ≥ Vraag 5.3.a = 2 of 3 12* Vraag 5.3.a = 1 Somscore basisvragen 5.1, 5,2a, b, c en 5.3 < 12 * Score ‘1’ voor basisvragen niet toegestaan EINDOORDEEL CRITERIUM 5: STANDAARDBEPALING EN NORMHANDHAVING (RELATIEVE NORMERING) Somscore basisvragen 5.1, 5.3a, 5.3b en 5.6 Somscore 5.4 en 5.5 = 9 = 12 Somscore 5.4 en 5.5 = 8 Somscore 5.4 en 5.5 < 8 Somscore basisvragen 5.1, 5.3a, 5.3b en 5.6 * Somscore 5.4 en 5.5 ≥ 8 ≥ 10* Somscore 5.4 en 5.5 < 8 Somscore basisvragen 5.1, 5.3a, 5.3b en 5.6 ≤9
Goed Voldoende Onvoldoende Voldoende Onvoldoende Onvoldoende
Goed Voldoende Onvoldoende Voldoende Onvoldoende Onvoldoende
* Score ‘1’ voor basisvragen niet toegestaan.
28
6
AFNAME EN BEVEILIGING
Om de afname van een toets of examen goed te doen verlopen, moet er informatie beschikbaar zijn voor de surveillant. Deze informatie dient in overzichtelijke vorm op papier of digitaal beschikbaar te zijn. Voor toetsen of examens die via de computer worden afgenomen, geldt eveneens dat er specifieke aanwijzingen gegeven moeten worden met betrekking tot de installatie en/of het opstarten en het gebruik van de toets of het examen. Soms is deze informatie gebundeld in een aparte installatiehandleiding. Een toets of examen dient ook ‘goed’ beveiligd te zijn, dat wil zeggen dat al het mogelijke gedaan moet worden om de toegang tot de toets of het examen, het toets- of examenmateriaal en de toets- of examenresultaten te beveiligen. Voor de beveiliging van computertoetsen geldt nog een aantal extra aandachtspunten. CRITERIUM 6: AFNAME EN BEVEILIGING 6.1 Is er voor de surveillant voldoende informatie over de afname van de toets of het examen beschikbaar? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan. 6.1a Is de informatie (voor de surveillant) volledig en eenduidig? 6.1b Wordt de mate van deskundigheid die vereist is om de toets of het examen af te nemen vermeld? 6.2 Is de toets of het examen voldoende beveiligd? Bij onvoldoende beoordeling (1) van deze vraag kan men de rest van de vragen van dit criterium overslaan. Extra vragen voor afname via computer: 6.3 Wordt er informatie gegeven over de installatie van de computer software? 6.4 Wordt er informatie gegeven over de bediening en mogelijkheden van de software? 6.5 Zijn er voldoende mogelijkheden voor technische ondersteuning?
O
V
1
G 3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Aanwijzingen bij basisvraag 6.1: Is er voor de surveillant voldoende informatie over de afname van de toets of het examen beschikbaar? Beoordeling basisvraag 6.1: Onvoldoende Goed
Er is geen of onvoldoende informatie over de afname van de toets of het examen beschikbaar. Er is voldoende informatie over de afname van de toets of het examen beschikbaar.
Aanwijzingen bij vraag 6.1.a: Is de informatie voor de surveillant volledig en duidelijk? De informatie voor de surveillant heeft als belangrijkste doel ervoor te zorgen dat de toets- of examenafname gestandaardiseerd plaatsvindt. De afname van de toets moet zoveel mogelijk letterlijk zijn voorgeschreven. Denk hierbij onder andere aan wat de surveillant wel en niet mag zeggen, welke handelingen de surveillant moet uitvoeren, hoe de surveillant op vragen moet ingaan (er kunnen bijvoorbeeld standaardteksten worden gegeven voor antwoorden op veel voorkomende vragen), welke mate van ondersteuning mag worden geboden en welke hulpmiddelen de kandidaten mogen gebruiken. Speciale aandacht verdienen toetsen waarin rolspelers bepaald gedrag aan een kandidaat moeten ontlokken. De uit te voeren rollen moeten zodanig zijn omschreven dat identieke uitvoering door verschillende rolspelers gegarandeerd is.
29
Indien de afname via de computer plaatsvindt, moet er informatie zijn over welke computervaardigheden de kandidaat moet beschikken en onder welke omstandigheden de toets of het examen dient te worden afgenomen (bijv. comfort, werkruimte, licht). Beoordeling vraag 6.1.a: Onvoldoende Voldoende
Goed
Er is geen instructie voor de surveillant of de instructie is onvolledig en/of onduidelijk. Er is een instructie voor de surveillant die niet helemaal volledig en duidelijk is, maar voor nagenoeg alle voorkomende situaties of gevallen wel toereikend is. Er is een instructie voor de surveillant die volledig en duidelijk is.
Aanwijzingen bij vraag 6.1.b: Wordt de mate van deskundigheid die vereist is om de toets of het examen af te nemen vermeld? Om vragen van examenkandidaten te kunnen beantwoorden en om in het geval van computerexamens technische ondersteuning te kunnen geven, zal een adequate omschrijving gegeven dienen te worden van de kennis en vaardigheden die noodzakelijk geacht worden voor het kunnen afnemen van examens. Zie voor het functieprofiel van een surveillant de website www.nvexamens.nl. Beoordeling vraag 6.1.b: Onvoldoende
Voldoende
Goed
Mate van deskundigheid die vereist is om de toets of examen af te kunnen nemen is nagenoeg afwezig gegeven het functieprofiel. Mate van deskundigheid die vereist is om de toets of examen af te kunnen nemen is beperkt aanwezig gegeven het functieprofiel. Mate van deskundigheid die vereist is om de toets of examen af te kunnen nemen is volledig aanwezig gegeven het functieprofiel.
Aanwijzingen bij basisvraag 6.2: Is de toets of het examen voldoende beveiligd? Fraude kan op verschillende wijzen voorkomen. Kempers-Warmerdam (2009) onderscheidt drie vormen: fraude die wordt beïnvloed of veroorzaakt door de kandidaat, fraude die wordt beïnvloed of veroorzaakt door de exameninstelling en/of de medewerkers en fraude die wordt beïnvloed of veroorzaakt door derden, bijvoorbeeld opleiders, uitzendbureaus, werkgevers. Voor meer informatie over de drie vormen van fraude, zie het artikel van Kempers-Warmerdam (2009). Examenfraude en diploma-certificaatfraude in het tijdschrift Examens, 4, 5-9. Een toets of examen is ‘goed’ beveiligd indien al het mogelijke is gedaan om de afname van (1) het examen, (2) het examenmateriaal en (3) de examenresultaten te beveiligen. De beveiliging van de toegang tot de toets of het examen is van belang om zeker te weten dat degene die de toets of het examen maakt ook degene is die de toets of het examen zou moeten maken. Een vorm van legitimatie is daarom belangrijk. Mogelijkheden zijn onder andere het gebruik van wachtwoorden en gebruikersnamen, een verplichte legitimatie door middel van een identiteitskaart of rijbewijs aan de surveillant of het gebruik van webcams. De beveiliging van het toets- of examenmateriaal is belangrijk omdat het onwenselijk is dat kandidaten de mogelijkheid hebben om informatie over de algoritmes of scoringsvoorschriften te kopiëren naar een andere computer of printer. Daarnaast is het belangrijk dat informatie over de vragen niet gemakkelijk is te verkrijgen. Daarom zouden in het geval van een vragenbank alleen geautoriseerde personen toegang moeten krijgen tot de vragenbank. Vragen kunnen ook bekend raken doordat de ene vraag misschien veel vaker in het examen opgenomen wordt dan een andere vraag. Daarom is
30
het belangrijk dat de instantie die toetsen of examens afneemt een mechanisme inbouwt waarmee voor mogelijke over- of onderbenutting van de vragen wordt gecontroleerd. De beveiliging van de toets- of examenresultaten is belangrijk om misbruik (bijvoorbeeld het ongeoorloofd aanbrengen van wijzigingen in de resultaten) te voorkomen en om de privacy en anonimiteit van de kandidaat voldoende te kunnen waarborgen. Voor de beoordeling van vraag 6.2 zou de auditor van een toets of examen kunnen overwegen om één of meer ‘mystery guests’ in te schakelen. Beoordeling basisvraag 6.2: Onvoldoende
Voldoende
Goed
Er is geen informatie over de beveiliging beschikbaar of uit de beschikbare informatie blijkt dat de beveiliging op één of meer van de drie hiervoor genoemde aspecten niet is geregeld. Uit de beschikbare informatie blijkt dat er voldoende aandacht is besteed aan de beveiliging en het voorkomen van fraude op de drie hiervoor genoemde aspecten, maar dat deze technisch en/of procedureel voor verbetering vatbaar zijn. Uit de beschikbare informatie blijkt dat al het mogelijk is gedaan om alle drie hiervoor genoemde aspecten te beveiligen en aldus van toepassing zijnde vormen van fraude te voorkomen.
EXTRA VRAGEN VOOR AFNAME VIA COMPUTER Aanwijzingen bij vraag 6.3: Wordt voldoende informatie gegeven over de installatie van de computersoftware? Indien de afname via een computer verloopt, is het een absolute vereiste om informatie te verzamelen over de benodigde hard- en software en over de manier waarop de computersoftware geïnstalleerd kan worden. Wat betreft de hardware is het van belang dat de vereiste CPU, het minimaal vereiste geheugen, de benodigde schijfruimte, de vereiste monitor en videokaart, de benodigde input devices en de benodigde exchange devices (bijvoorbeeld cd-romspeler) worden vermeld. Daarnaast kan informatie over bijvoorbeeld de vereiste netwerkkaart of geluidskaart nodig zijn. Wat betreft de software is het van belang dat wordt vermeld onder welke besturingssystemen het examen functioneert en welke andere software vereist is (bijvoorbeeld een browser of bepaalde plugins). De manier waarop de computersoftware geïnstalleerd kan worden, dient stapsgewijs en zo mogelijk met ondersteuning van screendumps te zijn beschreven. Beoordeling vraag 6.3: Onvoldoende
Voldoende
Goed
Een beschrijving van de benodigde hardware en/of de benodigde software en/of van de installatie van de computersoftware ontbreekt (nagenoeg). Er is een beschrijving van de benodigde hardware, software en installatie van de computersoftware aanwezig. Als de computersoftware zichzelf automatisch installeert, dan mag de beschrijving als aanwezig worden beschouwd. Er is een gedetailleerde beschrijving van de benodigde hard- en software èn van de installatie van de computersoftware beschikbaar.
Aanwijzingen bij vraag 6.4: Wordt voldoende informatie gegeven over de bediening en mogelijkheden van de software? Bij elke computertoets en elk computerexamen dient informatie te worden gegeven over de bediening van de software en de mogelijkheden die de software kent, bijvoorbeeld te kiezen instellingen, de mogelijkheid van groepsoverzichten, en analyse- en rapportageopties.
31
Beoordeling vraag 6.4: Onvoldoende
Voldoende
Goed
Er is geen of onvoldoende informatie beschikbaar over de bediening van de software en/of de mogelijkheden die de software kent. Informatie over de bediening van de software en/of de mogelijkheden die de software kent is beschikbaar, maar behoeft verbetering. Er is informatie gegeven over de bediening van de software en/of de mogelijkheden die de software kent en deze informatie is volledig en duidelijk.
Aanwijzingen bij vraag 6.5: Zijn er voldoende mogelijkheden voor technische ondersteuning? In het geval de surveillant bepaalde vragen heeft over de computersoftware of wanneer er storingen in de computersoftware optreden dan dient er ondersteuning beschikbaar te zijn. Dit kan in de vorm van documentatie over veel voorkomende problemen, in de vorm van ‘veelgestelde vragen’ of in de vorm van een helpdesk waarvan de beschikbaarheid en de bereikbaarheid in de informatie (voor de surveillant) moet zijn aangegeven. Beoordeling vraag 6.5: Onvoldoende Voldoende Goed
Er is geen documentatie over het oplossen van problemen beschikbaar. Er is schriftelijke of digitale documentatie over het oplossen van problemen beschikbaar. Er is naast schriftelijke of digitale documentatie over het oplossen van problemen ook de mogelijkheid om terug te vallen op een helpdesk.
EINDOORDEEL CRITERIUM 6: AFNAME EN BEVEILIGING (SCHRIFTELIJKE TOETS/EXAMEN) Somscore basisvragen 6.1 en 6.2 = 6 Somscore 6.1.a en 6.1.b ≥ 5 Goed Somscore 6.1.a en 6.1.b = 4 Voldoende* Somscore 6.1.a en 6.1.b < 4 Onvoldoende Somscore basisvragen 6.1 en 6.2 = 4 of 5 Somscore 6.1.a en 6.1.b ≥ 4 Voldoende* Somscore 6.1.a en 6.1.b < 4 Onvoldoende Somscore basisvragen 6.1 en 6.2 b < 4 Onvoldoende * Score ‘1’ voor 6.1a en 6.1b niet toegestaan EINDOORDEEL CRITERIUM 6: AFNAME EN BEVEILIGING (COMPUTERTOETS/EXAMEN) Somscore basisvragen 6.1 en 6.2 = 6 Somscore 6.1.a, 6.1.b, 6.3 t/m 6.5 ≥ Goed 12 Somscore basisvragen 6.1 en 6.2 ≥ 4 Somscore 6.1.a, 6.1.b, 6.3 t/m 6.5 ≥ Voldoende* 10 Somscore 6.1.a, 6.1.b, 6.3 t/m 6.5 < Onvoldoende 10 Somscore basisvragen 6.1 en 6.2 < 4 Onvoldoende * Score ‘1’ voor 6.1.a, 6.1.b, 6.3 t/m 6.5 niet toegestaan
32